Google hat den Speicherverbrauch von KI-Modellen sechsmal reduziert und dabei die Genauigkeit beibehalten, dank des TurboQuant-Algorithmus

Google hat den Speicherverbrauch von KI-Modellen sechsmal reduziert und dabei die Genauigkeit beibehalten, dank des TurboQuant-Algorithmus

8 hardware

Kurzzusammenfassung

Google Research hat eine neue Methode zur Kompression des KV‑Caches großer Sprachmodelle vorgestellt – TurboQuant. Der Algorithmus reduziert die Bitbreite des Caches auf 3 Bit (4 Bit, wenn Fehlerkorrektur hinzugefügt wird), ohne die Genauigkeit der Antworten zu verschlechtern und ohne zusätzliche Schulung. Auf Nvidia H100‑Beschleunigern erhöhte TurboQuant die Leistung bei der Berechnung von Attention‑Logits um das 8‑fache und verkleinerte den KV‑Cache um das Sechsfache.

Was ist ein KV‑Cache und warum ist er wichtig
* Der KV‑Cache speichert Schlüssel (K) und Werte (V), die beim Berechnen des Aufmerksamkeitsmechanismus entstehen.
Dadurch muss das Modell sie bei jedem Schritt der Token‑Generierung nicht neu berechnen.
* Wenn die Kontextfenstergröße wächst, vergrößert sich der Cache exponentiell, was zu hohen Speicheranforderungen führt.
* Traditionelle Quantisierungsmethoden reduzieren die Cache‑Größe, erfordern jedoch die Speicherung von Quantisierungs­konstanten (Wörterbücher), ähnlich wie ZIP/RAR.
Diese Wörterbücher verursachen erhebliche Overheadkosten.

Wie TurboQuant funktioniert
TurboQuant besteht aus zwei Phasen und verzichtet vollständig auf Wörterbücher.

PhaseWas wird gemachtWarum das wichtig ist
1. PolarQuantVektoren werden von kartesischen in polare Koordinaten (Radius + Winkel) umgewandelt.Winkelverteilungen sind vorhersagbar und konzentriert, daher ist keine teure Normalisierung jedes Blocks nötig. Das Ergebnis ist eine hochwertige Kompression ohne Wörterbücher.
2. 1‑Bit‑FehlerkorrekturschichtEin quantisierter Johnson‑Lindenstrauss‑Algorithmus wird angewendet; der Restfehler reduziert sich auf ein Bit.Eliminiert systematische Fehler in Attention‑Berechnungen mit minimalen zusätzlichen Kosten.

Praktische Ergebnisse
Test | Algorithmen | Ergebnisse
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: mindestens 6‑facher KV‑Cache‑Kompression; bei „Nadel im Heuhaufen“-Suche ohne Genauigkeitsverlust. In LongBench nicht schlechter und manchmal besser als KIVI.
Vektorsuche (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Selbst ohne Training übertraf TurboQuant trainierte Konkurrenten in Ergebnisqualität und Speicherverbrauch.

Schlussfolgerungen
* TurboQuant ermöglicht eine starke Kompression des KV‑Caches auf 3–4 Bit ohne Genauigkeitsverlust und ohne zusätzliche Schulung.
* Die Leistung auf Nvidia H100 stieg um das 8‑fache, während die Cache‑Größe um das Sechsfache schrumpfte.
* Der Algorithmus funktioniert sowohl für große Sprachmodelle als auch für Vektorsuchaufgaben und erfordert keine feine Abstimmung.

Damit ist TurboQuant bereit für den praktischen Einsatz selbst bei hoher Belastung und eröffnet neue Möglichkeiten für die effiziente Arbeit mit großen Modellen.

Kommentare (0)

Teile deine Meinung — bitte bleib höflich und beim Thema.

Noch keine Kommentare. Hinterlasse einen Kommentar und teile deine Meinung!

Um einen Kommentar zu hinterlassen, melde dich bitte an.

Zum Kommentieren anmelden