Google hat den Speicherverbrauch von KI-Modellen sechsmal reduziert und dabei die Genauigkeit beibehalten, dank des TurboQuant-Algorithmus

Kurzzusammenfassung

Google Research hat eine neue Methode zur Kompression des KV‑Caches großer Sprachmodelle vorgestellt – TurboQuant. Der Algorithmus reduziert die Bitbreite des Caches auf 3 Bit (4 Bit, wenn Fehlerkorrektur hinzugefügt wird), ohne die Genauigkeit der Antworten zu verschlechtern und ohne zusätzliche Schulung. Auf Nvidia H100‑Beschleunigern erhöhte TurboQuant die Leistung bei der Berechnung von Attention‑Logits um das 8‑fache und verkleinerte den KV‑Cache um das Sechsfache.

Was ist ein KV‑Cache und warum ist er wichtig
* Der KV‑Cache speichert Schlüssel (K) und Werte (V), die beim Berechnen des Aufmerksamkeitsmechanismus entstehen.
Dadurch muss das Modell sie bei jedem Schritt der Token‑Generierung nicht neu berechnen.
* Wenn die Kontextfenstergröße wächst, vergrößert sich der Cache exponentiell, was zu hohen Speicheranforderungen führt.
* Traditionelle Quantisierungsmethoden reduzieren die Cache‑Größe, erfordern jedoch die Speicherung von Quantisierungskonstanten (Wörterbücher), ähnlich wie ZIP/RAR.
Diese Wörterbücher verursachen erhebliche Overheadkosten.

Wie TurboQuant funktioniert
TurboQuant besteht aus zwei Phasen und verzichtet vollständig auf Wörterbücher.

Phase	Was wird gemacht	Warum das wichtig ist
1. PolarQuant	Vektoren werden von kartesischen in polare Koordinaten (Radius + Winkel) umgewandelt.	Winkelverteilungen sind vorhersagbar und konzentriert, daher ist keine teure Normalisierung jedes Blocks nötig. Das Ergebnis ist eine hochwertige Kompression ohne Wörterbücher.
2. 1‑Bit‑Fehlerkorrekturschicht	Ein quantisierter Johnson‑Lindenstrauss‑Algorithmus wird angewendet; der Restfehler reduziert sich auf ein Bit.	Eliminiert systematische Fehler in Attention‑Berechnungen mit minimalen zusätzlichen Kosten.

Praktische Ergebnisse
Test | Algorithmen | Ergebnisse
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: mindestens 6‑facher KV‑Cache‑Kompression; bei „Nadel im Heuhaufen“-Suche ohne Genauigkeitsverlust. In LongBench nicht schlechter und manchmal besser als KIVI.
Vektorsuche (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Selbst ohne Training übertraf TurboQuant trainierte Konkurrenten in Ergebnisqualität und Speicherverbrauch.

Schlussfolgerungen
* TurboQuant ermöglicht eine starke Kompression des KV‑Caches auf 3–4 Bit ohne Genauigkeitsverlust und ohne zusätzliche Schulung.
* Die Leistung auf Nvidia H100 stieg um das 8‑fache, während die Cache‑Größe um das Sechsfache schrumpfte.
* Der Algorithmus funktioniert sowohl für große Sprachmodelle als auch für Vektorsuchaufgaben und erfordert keine feine Abstimmung.

Damit ist TurboQuant bereit für den praktischen Einsatz selbst bei hoher Belastung und eröffnet neue Möglichkeiten für die effiziente Arbeit mit großen Modellen.

Google hat den Speicherverbrauch von KI-Modellen sechsmal reduziert und dabei die Genauigkeit beibehalten, dank des TurboQuant-Algorithmus

Related news

Ein Apple‑Car könnte so aussehen: Ferrari präsentiert das Interieur des Elektroautos Luce, entwickelt von Johnny Aiv.

Verkäufe von Mortal Kombat 1 überstiegen die 8 Millionen Exemplare, aber der Rekord des Vorgängers ist noch unerreichbar

Tesla startete eine Kampagne gegen „täuschende“ Methoden zur Aktivierung des Autopiloten in Regionen, in denen dessen Einsatz verboten ist.

In fünf Jahren wird die Nachfrage nach Speicher laut der Einschätzung des Chefs von Dell um mehr als 600-fach steigen, dank des Wachstums an KI-Chips.

Kommentare (0)

Zum Kommentieren anmelden

Google hat den Speicherverbrauch von KI-Modellen sechsmal reduziert und dabei die Genauigkeit beibehalten, dank des TurboQuant-Algorithmus

Related news

Ein Apple‑Car könnte so aussehen: Ferrari präsentiert das Interieur des Elektroautos Luce, entwickelt von Johnny Aiv.

Verkäufe von Mortal Kombat 1 überstiegen die 8 Millionen Exemplare, aber der Rekord des Vorgängers ist noch unerreichbar

Tesla startete eine Kampagne gegen „täuschende“ Methoden zur Aktivierung des Autopiloten in Regionen, in denen dessen Einsatz verboten ist.

In fünf Jahren wird die Nachfrage nach Speicher laut der Einschätzung des Chefs von Dell um mehr als 600-fach steigen, dank des Wachstums an KI-Chips.

Zum Kommentieren anmelden

Verkäufe von Mortal Kombat 1 überstiegen die 8 Millionen Exemplare, aber der Rekord des Vorgängers ist noch unerreichbar