DeepSeek V4 verlaagt de kosten van agentic AI op drastische wijze

2 uren geleden 1

Ruim een jaar geleden zorgde een vrij onbekend Chinees AI-lab met de naam DeepSeek voor veel onrust. Het ‘redenerende’ model R-1 kon zich meten met de beste LLM’s van OpenAI, Google en Anthropic, terwijl het open-source en ook nog eens enorm efficiënt was. Nu, met V4, heeft het team opnieuw een prestatie geleverd. Agentic workflows met een lange context zijn plotseling veel goedkoper om uit te voeren, waardoor de adoptie van AI net iets haalbaarder wordt.

Het is belangrijk om te benadrukken hoe anders het generatieve AI-veld er nu uitziet in vergelijking met begin 2025. Toen DeepSeek het R-1-model uitbracht, de redenerende versie van V3, waren complexe LLM-denkprocessen nog vrij nieuw. OpenAI gebruikte GPT-4o voor algemene zoekopdrachten en o1 voor zware inferencing-taken. De 3.5-familie van Claude was het nieuwste aanbod van Anthropic en Google had net Gemini 2.0 Flash uitgebracht, terwijl 1.5 Pro nog steeds het vlaggenschip was.

Een fastforward naar vandaag, en veel AI-uitdagingen zijn overwonnen. DeepSeek R-1 is grondig overtroffen door closed-source concurrenten zoals Gemini 3(.1) in al zijn vormen; Claude is inmiddels op versie 4.6 voor Sonnet en 4.7 voor Opus. Wat nog belangrijker is, is dat deze generatie modellen zowel efficiënter is als enorm veel beter geschikt voor agentic toepassingen, situaties waarin LLM’s niet alleen informatie uit IT-systemen halen, maar er ook op reageren en interageren. Het is binnen deze context dat DeepSeek opnieuw een niche vindt om de economische verwachtingen voor AI-gebruikers te resetten.

De kosten blijven dalen

In een scenario met 1 miljoen tokens vereist DeepSeek-V4-Pro slechts 27 procent van de rekenkracht en 10 procent van de KV-cache, het kortetermijngeheugen dat AI-modellen gebruiken, in vergelijking met DeepSeek-V3.2. Nog belangrijker is dat elke benchmark om de capaciteiten en kennis van het nieuwe model te controleren, het op of boven de state-of-the-art plaatst. Toegegeven, Claude Opus 4.7 was niet opgenomen, en evenmin de zojuist uitgebrachte GPT-5.5, om voor de hand liggende redenen. Niettemin verslaat alleen Gemini 3.1 Pro bij hoge redeneringsinstellingen DeepSeek V4 volledig in één benchmark (SimpleQA Verified).

Als we deze resultaten voor waar aannemen, mag men coderingsprestaties verwachten op ongeveer het niveau van Opus 4.6 of GPT 5.4, maar dan in een open-weight-vorm. Dit betekent dat je het model technisch gezien zelf zou kunnen draaien als je 800 GB aan RAM beschikbaar hebt. Hoewel het DeepSeek-team het kostenplaatje grotendeels buiten beschouwing laat, zul je op de juiste hardware enorm profiteren als V4 het agentic werk naar wens doet dat Claude en GPT eerder deden. Een snelle berekening leert ons dat een complexe agentic loop die je voorheen misschien 10 dollar kostte, nu zou kunnen laten dalen tot slechts 1,50 of 2,50 dollar. Dit hangt allemaal af van de lengte van de context, de input en de output; zowel OpenAI als Anthropic belasten gebruikers financieel zwaar als ze bepaalde contextlengtes overschrijden (272K voor OpenAI en 200K voor Anthropic). Dat doet DeepSeek dus niet.

De Chinese chips

Het feit dat we weer een DeepSeek-verrassing hebben, hoeft niet zo verrassend te zijn. DeepSeek OCR bleef een beetje onder de radar, maar de enorm efficiënte beeldverwerking loste enkele belangrijke pijnpunten op rond de kosten van dergelijke AI-toepassingen. Nu richt V4 zich op agentic workflows, een andere recente ontwikkeling die de kosten snel heeft opgedreven. Achter de schermen heeft DeepSeek echter zelf enkele aanzienlijke hindernissen moeten overwinnen.

Dankzij zijn diepgaande kennis van de chiplogica van Nvidia kon DeepSeek begin 2025 het R-1-model trainen en draaien tegen een enorm laag tarief voor zijn capaciteiten. Tegenwoordig vertrouwt het op een combinatie van Nvidia- en in China gebouwde Huawei Ascend NPU-chips om de klus te klaren. De training werd voltooid op een mengelmoes van de twee, terwijl V4 sterk is geoptimaliseerd om te draaien op Huawei’s Ascend-processors.

Dit is wel echt een grote verrassing. Voor het eerst zijn LLM-prestaties op topniveau niet alleen mogelijk op hardware van een niet-Amerikaanse fabrikant, maar zelfs de voorkeur bij V4. We zijn geen financiële analisten en de reacties van de markt op AI-ontwikkelingen hebben ons vaak in verwarring gebracht, maar het zou geen verrassing zijn als Nvidia en andere Amerikaanse AI-bedrijven klappen krijgen in de nasleep van DeepSeek V4. Maar nogmaals, zoals eerder vermeld, betekent goedkopere agentic AI niet dat je minder chips nodig hebt. Dit is het punt van Jevons’ paradox, die door Microsoft-CEO Satya Nadella werd aangehaald vlak na de release van DeepSeek-R1. Deze paradox leert ons dat een efficiëntere opkomende technologie het totale verbruik juist kan doen toenemen in plaats van afnemen.

Technische doorbraken

Ongeacht de uitkomsten voor AI-labs en hardwarebedrijven, biedt DeepSeek V4 een aantal enorme technische doorbraken die het op zichzelf al waard zijn om te bespreken. Allereerst overtreft de extreem lage KV-cachegrootte de vorige beste prestatie van DeepSeek ruimschoots. V4 doet dit door gebruik te maken van wat bekend staat als een interleaved hybride configuratie van Compressed Sparse Attention (CSA) en Heavily Compressed Attention (HCA). Wat dit in feite betekent, is dat de tokens in verschillende mate worden gecomprimeerd, afhankelijk van het niveau van aandacht dat V4 ‘denkt’ te moeten besteden aan elk stukje informatie.

Daarnaast publiceerde DeepSeek eerder onderzoek waarin kennis op een intelligentere manier door het AI-model zelf werd doorgegeven. Deze routing, bekend als mHC (Manifold-Constrained Hyper-Connections), werd aan het begin van dit jaar uitgelegd door het Chinese AI-lab. V4 is het eerste model dat hiervan gebruikmaakt, wat enorme efficiëntiewinst oplevert.

Conclusie: een onzekere basis

Het eerdere door DeepSeek veroorzaakte beursdebacle leert ons dat de reactie op door China gebouwde modellen negatieve sentimenten rond AI kan aanwakkeren. Het lijkt echter vrij duidelijk dat de hier behaalde voordelen ertoe zullen leiden dat agentic workflows haalbaarder worden, wat dankzij basale economische principes zal leiden tot een uitbreiding van de use cases voor de technologie. Bovendien verdienen het uitgebreide onderzoek en het open karakter van het werk van DeepSeek opnieuw lof. Mocht het model een verborgen agenda hebben en dus niet productiegereed zijn voor bedrijven hier, dan kan de progressie van V4 doorsijpelen naar LLM’s van modelmakers die door de westerse wereld als ‘veilig’ worden beschouwd. Dat gaat wat tijd kosten.

Voorlopig is het aan de concurrentie om te bewijzen dat gesloten AI-modellen opnieuw de open-weight uitdager van DeepSeek kunnen verslaan.

Lees het hele artikel