Google Gemini 2.5 Flash denkt zo lang na als ontwikkelaars willen

1 dag geleden 1

Google rolt Gemini 2.5 Flash uit naar de Gemini-app, waarmee gebruikers kunnen experimenteren met het nieuwste model van het bedrijf. Het geldt als een slimmere en lichtere vervanger van 2.0 Flash en komt in eerste instantie als preview beschikbaar. API-gebruikers worden tegelijkertijd minder hard in de portemonnee geraakt dan bij concurrerende modellen dankzij lagere prijzen.

Hoewel Google’s Gemini (eerst Bard) ooit een trage start kende, heeft het in 2025 een stevige inhaalslag gemaakt. Naast imposante resultaten is het release-schema moordend. Vrijwel wekelijks verschijnt er een nieuw model in de Gemini-app of ontwikkeltools zoals AI Studio. De nieuwste toevoeging is het snellere en efficiëntere Gemini 2.5 Flash-model, hoewel nog in preview.

Een wirwar aan modellen

Het uitklapmenu voor modelkeuze in de Gemini-app wordt steeds complexer, een luxeprobleem waar ook OpenAI’s ChatGPT aan lijdt. Google brengt zoveel preview-modellen en nieuwe manieren om Gemini te gebruiken uit, dat het lastig kan zijn om te weten welke optie voor welke taak geschikt is.

Tip: OpenAI lanceert o3 en o4-mini

Tulsee Doshi, directeur productmanagement voor Gemini bij Google en leider van het team dat deze modellen bouwt, geeft in gesprek met Ars Technica aan zelf de krachtigere optie, Gemini 2.5 Pro, te prefereren. Ze geeft aan dat dit model met name haar uit de brand helpt met schrijfhulp.

Het nieuwe Flash-model is aanzienlijk kleiner dan Gemini 2.5 Pro en ongeveer even groot als 2.0 Flash, maar zou beter moeten presteren. Doshi noemt het een “sterke verbetering” ten opzichte van 2.0 Flash. Gemini 2.5 Flash zorgt in ieder geval niet voor extra app-verwarring, aangezien het in de app en op de website als 2.5 Flash (Experimental) zal worden vermeld, ter vervanging van de 2.0 Thinking (Experimental) optie.

Redeneren als het moet

Net als alle modellen in de 2.5-tak en verder, heeft Gemini 2.5 ingebouwde gesimuleerde redenering, door Google “thinking” genoemd. Dit betekent dat het model zijn feiten controleert tijdens het genereren, wat resulteert in nauwkeurigere uitvoer. Dit maakt de modellen echter ook trager en aanzienlijk duurder. Aangezien niet alle vragen dit niveau van voortdurende analyse vereisen, heeft Google Flash uitgerust met tools waarmee ontwikkelaars het model kunnen afstemmen op hun specifieke use case.

Het feit dat het 2.0 thinking-model nooit verder kwam dan de experimentele fase, onderstreept hoe snel Google’s Gemini-team tegenwoordig beweegt. Daarnaast denkt het nieuwe model “dynamisch”, afhankelijk van de input prompt die het aangeleverd krijgt. Dit is een soortgelijke aanpak als bij Claude 3.7 Sonnet, dat tevens geen expliciete “redeneerstap” heeft. CEO Dario Amodei van maker Anthropic spreekt over een “spectrum” waarbinnen LLM’s in verschillende gradaties redeneren. Deze dynamische aard scheelt veel onnodig rekenwerk, aangezien langer redeneren simpelweg meer rekenkracht kost tijdens AI-inferencing.

Eenvoudiger inzetbaar

Om terug te komen op Flash 2.5: in tegenstelling tot het 2.0 Thinking-model, zal het nieuwe model direct ondersteuning bieden voor Google’s Canvas-functie voor het werken aan tekst of code. Ondersteuning voor “deep research” met dit model volgt later, volgens een woordvoerder van Google.

Gemini 2.5 Pro blijft beschikbaar en bevindt zich ook nog in de experimentele fase, waardoor 2.0 Flash als enige niet-experimentele chatbot overblijft. Dat model beschikt overigens niet over redeneermogelijkheden (of zit helemaal aan de linkerkant van Amodei’s redeneerspectrum, zo u wilt)

Net als 2.5 Pro ondersteunt dit model Dynamic Thinking, dat automatisch de hoeveelheid werk kan aanpassen die nodig is voor het genereren van een output, gebaseerd op de complexiteit van de input. Het nieuwe Flash-model gaat verder door ontwikkelaars controle te geven over het ’thinking’-proces. Volgens Doshi lanceert Google het model nu in preview om feedback van ontwikkelaars te krijgen over waar het model aan hun verwachtingen voldoet en waar het onder- of overdenkt, zodat ze kunnen blijven itereren op de dynamic thinking-functionaliteit.

Gemini 2.5 Flash stelt ontwikkelaars in staat om een tokenlimiet voor ’thinking’ in te stellen of deze functionaliteit volledig uit te schakelen. Google heeft prijzen bekendgemaakt van $0,15 per miljoen tokens voor input, terwijl output in twee varianten komt. Zonder ’thinking’ kost output $0,60, maar met ’thinking’ ingeschakeld stijgt dit naar $3,50. De ’thinking budget’-optie stelt ontwikkelaars in staat het model nauwkeurig af te stemmen op hun wensen tegen een prijs die ze bereid zijn te betalen. Volgens Doshi kun je de verbeteringen in redenering daadwerkelijk zien in benchmarks naarmate je meer token-budget toevoegt.

Voor ontwikkelaars

Google begon eerder deze maand al ontwikkelaars te interesseren voor Gemini 2.5 Flash. Hoewel het model nog niet volledig is afgerond, heeft Google ervoor gekozen om het volledig beschikbaar te maken in Vertex AI en AI Studio met variabele API-prijzen.

Met het snelle tempo van releases lijkt een definitieve versie van Gemini 2.5 niet meer zo ver weg. Google heeft nog geen specifieke details hierover bekendgemaakt, maar met de nieuwe ontwikkelaarsopties en beschikbaarheid in de Gemini-app vertelt Doshi dat het team hoopt de 2.5-familie binnenkort algemeen beschikbaar te maken.

Lees ook: Google maakt toegang tot Gemini 2.5 Pro gratis (update)

Lees het hele artikel