Kurz zusammengefasst
- Google gab an, dass sein TurboQuant-Algorithmus einen großen AI-Speicherengpass während der Inferenz um mindestens das Sechsfache reduzieren kann, ohne Genauigkeitsverlust.
- Speicheraktien wie Micron, Western Digital und Seagate fielen, nachdem das Papier verbreitet wurde.
- Die Methode komprimiert Inferenzspeicher, nicht Modellgewichte, und wurde nur in Forschungs-Benchmarks getestet.
Google Research veröffentlichte am Mittwoch TurboQuant, einen Kompressionsalgorithmus, der einen großen Inferenz-Speicherengpass um mindestens das 6-fache reduziert, während er null Genauigkeitsverlust beibehält.
Das Papier ist für die Präsentation auf der ICLR 2026 vorgesehen, und die Online-Reaktion war unmittelbar.
Cloudflare-CEO Matthew Prince nannte es Googles DeepSeek-Moment. Speicheraktienpreise, darunter Micron, Western Digital und Seagate, fielen am selben Tag.
Ist es also real?
Quantisierungseffizienz ist an sich schon eine große Errungenschaft. Aber "null Genauigkeitsverlust" braucht Kontext.
TurboQuant zielt auf den KV-Cache ab – den Teil des GPU-Speichers, der alles speichert, was ein Sprachmodell während einer Konversation erinnern muss.
Wenn Kontextfenster in Richtung Millionen von Token wachsen, schwellen diese Caches auf Hunderte von Gigabyte pro Sitzung an. Das ist der eigentliche Engpass. Nicht Rechenleistung, sondern reiner Speicher.
Traditionelle Kompressionsmethoden versuchen, diese Caches zu verkleinern, indem sie Zahlen abrunden – zum Beispiel von 32-Bit-Floats auf 16, auf 8 bis 4-Bit-Integer. Um es besser zu verstehen, denken Sie daran, ein Bild von 4K auf Full HD auf 720p zu verkleinern und so weiter. Es ist leicht zu erkennen, dass es insgesamt dasselbe Bild ist, aber es gibt mehr Details in 4K-Auflösung.
Der Haken: Sie müssen zusätzliche "Quantisierungskonstanten" neben den komprimierten Daten speichern, um zu verhindern, dass das Modell dumm wird. Diese Konstanten fügen 1 bis 2 Bits pro Wert hinzu und untergraben teilweise die Gewinne.
TurboQuant behauptet, diesen Overhead vollständig zu eliminieren.
Es tut dies über zwei Unteralgorithmen. PolarQuant trennt Größe von Richtung in Vektoren, und QJL (Quantized Johnson-Lindenstrauss) nimmt den winzigen verbleibenden Restfehler und reduziert ihn auf ein einzelnes Vorzeichenbit, positiv oder negativ, mit null gespeicherten Konstanten.
Das Ergebnis, sagt Google, ist ein mathematisch unvoreingenommener Schätzer für die Aufmerksamkeitsberechnungen, die Transformer-Modelle antreiben.
In Benchmarks mit Gemma und Mistral erreichte TurboQuant unter 4-facher Kompression Vollpräzisionsleistung, einschließlich perfekter Abrufgenauigkeit bei Nadel-im-Heuhaufen-Aufgaben mit bis zu 104.000 Token.
Für den Kontext, warum diese Benchmarks wichtig sind: Die Erweiterung des nutzbaren Kontexts eines Modells ohne Qualitätsverlust war eines der schwierigsten Probleme bei der LLM-Bereitstellung.
Nun das Kleingedruckte.
"Null Genauigkeitsverlust" gilt für die KV-Cache-Kompression während der Inferenz – nicht für die Gewichte des Modells. Die Kompression von Gewichten ist ein völlig anderes, schwierigeres Problem. TurboQuant berührt diese nicht.
Was es komprimiert, ist der temporäre Speicher, der Aufmerksamkeitsberechnungen während der Sitzung speichert, was nachsichtiger ist, weil diese Daten theoretisch rekonstruiert werden können.
Es gibt auch die Lücke zwischen einem sauberen Benchmark und einem Produktionssystem, das Milliarden von Anfragen bedient. TurboQuant wurde an Open-Source-Modellen getestet – Gemma, Mistral, Llama – nicht an Googles eigenem Gemini-Stack im großen Maßstab.
Im Gegensatz zu DeepSeeks Effizienzgewinnen, die von Anfang an tief verwurzelte architektonische Entscheidungen erforderten, benötigt TurboQuant kein erneutes Training oder Feintuning und behauptet vernachlässigbaren Laufzeit-Overhead. Theoretisch fügt es sich direkt in bestehende Inferenz-Pipelines ein.
Das ist der Teil, der den Speicherhardware-Sektor erschreckte – denn wenn es in der Produktion funktioniert, läuft jedes große AI-Labor schlanker auf denselben GPUs, die sie bereits besitzen.
Das Papier geht zur ICLR 2026. Bis es in der Produktion ausgeliefert wird, bleibt die "Null-Verlust"-Schlagzeile im Labor.
Daily Debrief Newsletter
Beginnen Sie jeden Tag mit den wichtigsten Nachrichten jetzt, plus Originalfeatures, einem Podcast, Videos und mehr.
Quelle: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss


