Nvidia hat den Chip Groq 3 LPU veröffentlicht, der die Inferenz von KI-Modellen bis zur Token-Ebene beschleunigt.

Nvidia enthüllt neue Möglichkeiten der Vera Rubin-Plattform

Auf der diesjährigen GTC-Konferenz kündigte der CEO von Nvidia, Jensen Huang, die Erweiterung der Vera Rubin-Plattform an. Die neuen Funktionen basieren auf geistigem Eigentum, das von Groq erworben wurde, und ein *Groq 3 LPU*-Chip ist in Rubin integriert – ein Inferenzbeschleuniger, der für die Ausgabe von Token mit hoher Geschwindigkeit und niedriger Latenz konzipiert ist.

Was bereits in Vera Rubin vorhanden ist
Die Plattform besteht aus sechs Schlüsselkomponenten, die Nvidia zu Rack-Systemen zusammenstellt und auf große AI-Fabriken skaliert:

Komponente	Beschreibung
GPU Rubin	Grafikkarte mit 288 GB HBM4
CPU Vera	Zentralprozessor
NVLink 6	System für Intra-System-Skalierung
ConnectX‑9	Intelligenter Netzwerkadapter
BlueField‑4	Datenverarbeitungsprozessor
Spectrum‑X	Switch für Inter-System-Skalierung mit integrierter Optik

Der Groq 3 LPU wurde als neues Bauelement hinzugefügt, das bei der Bereitstellung großer Systeme verwendet wird.

Warum sich der Groq 3 LPU hervorhebt
Das Hauptmerkmal ist die Speicherarchitektur. Während die meisten Beschleuniger HBM als Arbeitsspeicher nutzen, enthält jeder Groq 3 LPU 500 MB SRAM. Vergleich:

Parameter	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Kapazität	288 GB	0,5 GB
Bandbreite	~22 TB/s	bis zu 150 TB/s

Für Inferenzaufgaben, die auf Bandbreite angewiesen sind, ist SRAM offensichtlich vorteilhaft. Deshalb hat Nvidia Groq 3 in Rubin integriert – um die Token-Ausgabe zu beschleunigen.

Der Groq 3 LPX-Rack
Im Rack befinden sich 256 Groq 3 LPU-Chips, was ergibt:

- 128 GB SRAM
- 40 PB/s Gesammtbandbreite
- 640 TB/s Intra-System-Schnittstelle

Vice President für hyper‑skalierbare Lösungen Ian Buck bezeichnete dieses Rack als Co-Prozessor für Rubin und betonte seine Rolle bei der Leistungssteigerung des Dekodierens auf jeder Modellschicht und Token.

Auswirkung auf Multi-Agenten-Systeme
Buck bemerkte, dass der Groq 3 LPX ein Schlüsselkomponente für den zukünftigen AI‑Markt – Multi-Agenten-Systeme – sein wird. Wenn Agenten Daten direkt austauschen statt über Chatbots, ändern sich die Reaktionsanforderungen: von 100 Token/s bis zu 1 500+ Token/s und darüber hinaus.

Wettbewerber und Perspektiven
Der Text erwähnt den Konkurrenten Cerebras, der einen Wafer‑Scale Engine (WSE) mit massivem SRAM für niedrige Latenz-Inferenz nutzt. OpenAI hat bereits Cerebras in seinen fortschrittlichen Modellen eingesetzt, dank günstiger Latenz.

Buck wies auch darauf hin, dass die Einführung des Groq 3 LPU die Abhängigkeit von Rubin CPX-Beschleunigern verringern könnte. Während Nvidia sich auf die Integration des Groq 3 LPX-Racks in die Plattform konzentriert, sollen beide Chips den Inferenzprozess stärken, ohne große GDDR7‑Speichermengen zu benötigen.

Fazit:

Der neue Groq 3 LPU-Chip und sein LPX-Rack verstärken Vera Rubin im Bereich niedriger Latenz-Inferenz, ebnen den Weg für schnellere Multi-Agenten-AI-Systeme und konkurrieren mit Akteuren wie Cerebras.

Nvidia hat den Chip Groq 3 LPU veröffentlicht, der die Inferenz von KI-Modellen bis zur Token-Ebene beschleunigt.

Related news

Google Gemini hat 750 Millionen monatlich aktive Nutzer erreicht und lässt ChatGPT nur noch einen kleinen Abstand zum Marktführer zurücklassen.

Nothing stellte die Beta-Version von Essential Apps vor – eine Plattform zur Erstellung von Mini-Anwendungen mithilfe künstlicher Intelligenz

Microsoft erklärte, warum die Konten von VeraCrypt und anderer öffentlicher Dienste blockiert wurden – aufgrund der Fahrlässigkeit ihrer Entwickler.

Die Anwendung Meta✴ AI belegte nach dem Start von Muse Spark den fünften Platz im App Store

Kommentare (0)

Zum Kommentieren anmelden

Nvidia hat den Chip Groq 3 LPU veröffentlicht, der die Inferenz von KI-Modellen bis zur Token-Ebene beschleunigt.

Related news

Google Gemini hat 750 Millionen monatlich aktive Nutzer erreicht und lässt ChatGPT nur noch einen kleinen Abstand zum Marktführer zurücklassen.

Nothing stellte die Beta-Version von Essential Apps vor – eine Plattform zur Erstellung von Mini-Anwendungen mithilfe künstlicher Intelligenz

Microsoft erklärte, warum die Konten von VeraCrypt und anderer öffentlicher Dienste blockiert wurden – aufgrund der Fahrlässigkeit ihrer Entwickler.

Die Anwendung Meta✴ AI belegte nach dem Start von Muse Spark den fünften Platz im App Store

Zum Kommentieren anmelden

Nvidia hat den Chip Groq 3 LPU veröffentlicht, der die Inferenz von KI-Modellen bis zur Token-Ebene beschleunigt.

Nothing stellte die Beta-Version von Essential Apps vor – eine Plattform zur Erstellung von Mini-Anwendungen mithilfe künstlicher Intelligenz

Die Anwendung Meta✴ AI belegte nach dem Start von Muse Spark den fünften Platz im App Store