AI schaalt steeds lastiger, maar Google behaalt doorbraak met compressie

10 uren geleden 1

Generatieve AI heeft aanzienlijke schaalbaarheidslimieten bereikt. Onderzoekers pakken dit probleem op tal van manieren aan, waarbij compressie een vruchtbare aanpak blijkt te zijn. Er wordt al lang beloofd dat kleine taalmodellen (SLM’s) bijna even goed presteren als hun omvangrijke LLM-tegenhangers. De realiteit heeft dergelijke ideeën al snel de kop ingedrukt. Nu worden de beperkingen qua omvang voor zowel AI-data als AI-geheugen doorbroken met TurboQuant, een nieuwe compressietechniek van Google Research.

TurboQuant draait om een enorme zesvoudige reductie van het formaat van de KV-cache. Dit is in wezen het werkgeheugen voor een LLM, en de schaalbaarheid ervan houdt AI-onderzoekers al jaren bezig. Het uitbreiden van context windows is vaak afhankelijk geweest van innovaties rond de KV-cache. Doorbraken rondom deze cache vergroten het kortetermijngeheugen van LLM’s, waardoor AI-modellen veel bruikbaarder zijn geworden met grote datasets. Het is essentieel voor het realiseren van complexe, consistent presterende AI-workloads. Op 8 H100 GPU’s stijgt de attention-prestatie (onderdeel van de berekeningen van een LLM) met een factor 8 dankzij de implementatie van TurboQuant.

Nog een ‘DeepSeek-moment’

TurboQuant bereikt een compressie van hoge kwaliteit via wat de onderzoekers PolarQuant noemen. Dit vereenvoudigt de vorm van de data terwijl de betekenis grotendeels behouden blijft. Die ‘vorm’ bestaat uit vectordata, feitelijk coördinaten, en wie ze met elkaar verbindt kan een multidimensionale vorm weergeven. PolarQuant vereenvoudigt die vorm. Een andere stap, die zelf efficiënt wordt opgeslagen, controleert op fouten in de eerdere compressie. Meerdere trucs voor deze methodiek zijn al succesvol gebleken in het onderzoek van Google om de integriteit van de KV-cache-data vast te stellen.

Kortom, zoals Cloudflare-CEO Matthew Prince het verwoordde: “dit is Google’s DeepSeek”. Dit verwijst naar de doorbraak die het Chinese DeepSeek-team maakte met R-1, een redeneringsmodel dat bijna hetzelfde benchmarkniveau haalde als OpenAI’s toenmalige state-of-the-art LLM o1. De LLM was echter open-source, naar verluidt veel kleiner dan o1, en een succesvolle implementatie van zowel complexe optimalisatie als compressie. Een belangrijke beschuldiging van Amerikaanse AI-spelers richting hun Chinese rivalen is dat DeepSeek en anderen hun modellen zouden trainen op de output van de grote, geavanceerde LLM’s van OpenAI, Anthropic en Google. Ze zouden de kennis in deze modellen distilleren, waarbij de meeste AI-mogelijkheden behouden blijven tegen veel lagere rekenkosten voor zowel training als inferencing, en met aanzienlijk minder parameters binnen de LLM.

Net als het aantal parameters is de KV-cache een van de vele factoren die een rol spelen bij LLM’s. De compressie die TurboQuant realiseert, zal vector search aanzienlijk versnellen. Dit proces richt zich op het vinden van relevante gegevens die als vectoren zijn opgeslagen, ofwel: als data die je kunt weergeven als coördinaten. De praktische toepassingen variëren van recommendation engines tot het koppelen van bedrijfsgegevens aan LLM’s via RAG. Vectordatabases zijn zeer relevant geworden voor AI-use cases en zullen veel sneller doorlopen worden dankzij de doorbraken die TurboQuant biedt.

Veel voordelen

Compressie is een onmisbare ontwikkeling voor opkomende technologieën. Net als bij AI hebben eerdere technologische doorbraken erop vertrouwd om eerdere beperkingen te overwinnen. Ondanks terechte kritiek heeft het JPEG-formaat de verspreiding van afbeeldingen al vanaf het vroege internet mogelijk gemaakt. Tijdens de Tweede Wereldoorlog bereikten spraakgebaseerde transmissies een tienvoudige compressie om de geallieerden veilige “SIGSALY”-communicatie te bieden. Kortom: compressie is een belangrijk instrument voor verbetering, zeker als de kwaliteit van de onderliggende data behouden blijft.

Door de geschiedenis heen hebben we dit dus al eerder meegemaakt. In het recente verleden heeft DeepSeek zelfs twee keer toegeslagen op dit front. Na de release van R-1 begin vorig jaar kondigde het team later aan dat het de hoeveelheid trainingsdata enorm had teruggebracht door grote visuele documenten op te slaan in een klein aantal vision tokens met DeepSeek OCR. TurboQuant is het eerste publiekelijk uitgebrachte equivalent aan Amerikaanse zijde van de AI-race. Samen zullen ze op lange termijn enorme efficiëntiewinst mogelijk maken voor LLM’s.

Waar er nog grenzen bestaan

Uiteraard zullen de eigen Gemini-modellen van Google als een van de eerste LLM’s profiteren van TurboQuant. Zowel online zoekopdrachten als gevectoriseerde Google Drive-gegevens zullen zorgen voor een snellere kennisvergaring voor de LLM’s en een kleinere workload op Google Cloud-servers.

Bottlenecks verschuiven inherent wanneer ontwikkelingen als deze zich voordoen. Een raadsel dat nog steeds niet is opgelost, betreft dezelfde soort compressiefactoren in de parameters van de LLM’s. Kleine taalmodellen blijven aanzienlijk slechter presteren dan hun grotere tegenhangers. Kwantisering lijkt de prestaties van het model in de praktijk toch nog altijd sterk te belemmeren. Misschien zullen de onderzoekers van Google, of die bij DeepSeek, of ergens anders, daar een soortgelijke weg omheen voor vinden. Als ze dat uiteindelijk doen, zullen de voordelen van eerdere compressies zich nogmaals opstapelen. Voorlopig worden er elders stappen vooruit gemaakt.

Lees het hele artikel