Pas op met chatbots die een studie samenvatten: ze generaliseren te veel en overdrijven graag

2 dagen geleden 1

ChatGPT lijkt een heel geschikte assistent om je wetenschappelijke studie samen te vatten. Maar dat de chatbot niet feilloos is, blijkt uit nieuw onderzoek, waarbij onderzoekers tien LLM’s bijna 5000 samenvattingen lieten maken.

De grote taalmodellen (LLM’s) hebben de neiging om het belang van de studie en de conclusies te overdrijven. De chatbots bleken vijf keer zo vaak als menselijke experts de bevindingen in de samenvatting van een studie te veel te generaliseren.

Nieuwere chatbots presteerden slechter
De Nederlandse en Britse onderzoekers vroegen de chatbots om ‘systematische, gedetailleerde en waarheidsgetrouwe samenvattingen’ in hun prompts. Ironisch genoeg leidde de vraag om meer nauwkeurigheid tot meer overgeneralisatie én waren nieuwere chatbots minder nauwkeurig dan oudere modellen.

We vroegen de Duitse onderzoeker Uwe Peters, verbonden aan de Universiteit Utrecht, om uitleg. Hoe kan het bijvoorbeeld dat een prompt die vraagt om meer nauwkeurigheid tot het tegenovergestelde leidt? “Ja, het is contra-intuïtief en om eerlijk te zijn hebben we nog geen betrouwbaar antwoord”, begint Uwe. “Een mogelijke verklaring is een algoritmische versie van wat psychologen het ‘ironische rebound-effect’ noemen, vergelijkbaar met wat we zien bij menselijke cognitie. Als iemand bijvoorbeeld te horen krijgt dat hij niet aan een roze olifant mag denken, gaat hij er juist aan denken. Als we een LLM expliciet vertelden om geen onnauwkeurigheden op te nemen, kan dit op dezelfde manier de kans op het genereren van onnauwkeurigheden hebben vergroot. In plaats van voorzichtiger te worden, leek het model eerder geneigd om terug te vallen op zekere, algemene uitspraken. Maar dit blijft speculatief en moet verder getest worden.”

4900 samenvattingen
Peters liet tien verschillende chatbots 4900 samenvattingen van de abstracts van studies maken. Hoe hij dat precies deed? “We hebben de evaluatie ontworpen met consistentie en vergelijkbaarheid als topprioriteit. Alle samenvattingen werden gegenereerd uit dezelfde pool van originele wetenschappelijke teksten (200 samenvattingen en 100 volledige artikelen) en opgehaald met behulp van vooraf gespecificeerde, gestandaardiseerde prompts. We hadden ook toegang tot LLM’s via API’s (Application Programming Interfaces) om het model in te stellen op 0 – de meest conservatieve waarde – en 0,7. Het op deze manier controleren van de schaal is belangrijk voor het succes van het model. Het is een gebruikelijke methode om de reproduceerbaarheid van resultaten te garanderen. Bovendien gebruikten we voor de samenvattingen die we via de gebruikersinterfaces van websites verzamelden schone sessies, dus aparte ‘gesprekken’, nieuwe accounts en accounts waarbij ‘geheugen’ was uitgeschakeld, allemaal om personalisatie-effecten te vermijden”, legt de wetenschapper uit.

Verfijnd op basis van menselijke feedback
Een van de meest opmerkelijke bevindingen is dat nieuwere chatbots slechter presteerden dan oudere. Hoe kan dat? Een verklaring zou kunnen zijn dat nieuwere modellen steeds meer worden geoptimaliseerd voor behulpzaamheid, vloeiende teksten en vertrouwen, vaak ten koste van voorzichtig taalgebruik. We zien een parallel in door mensen geschreven teksten: conclusies met voorzichtige kwalificaties worden vaak als minder nuttig of toepasselijk gezien, ook al zijn ze nauwkeuriger. Omdat LLM’s worden verfijnd op basis van menselijke feedback, kunnen gebruikers – misschien onbewust – de voorkeur geven aan resultaten die informatief en breed toepasbaar klinken, waardoor modellen algemene antwoorden ook prefereren boven precieze.”

Nog iets opvallends: de koning onder de chatbots, ChatGPT-4.5, was het enige model dat niet overgeneraliseerde, maar het was ten tijde van het onderzoek nog in ontwikkeling. “Dat suggereert dat deze problemen kunnen opduiken na volledige afstemming en implementatie. Een andere mogelijke factor is wat computerwetenschappers ‘catastrofaal vergeten’ noemen, waarbij nieuwere training eerder, voorzichtiger gedrag dat het model geleerd kan hebben, verstoort of overschrijft.”

Wetenschapscommunicatie
Dat de taalmodellen overdrijven in hun conclusies van wetenschappelijke studies kan natuurlijk een behoorlijk probleem worden voor wetenschapscommunicatie. “Overgeneralisaties van chatbots kunnen subtiel zijn, bijvoorbeeld een verschuiving van de  oorspronkelijke beweringen in de verleden tijd naar de tegenwoordige tijd. Maar in de wetenschapscommunicatie kunnen zelfs kleine veranderingen in de manier waarop resultaten worden geformuleerd, gevolgen hebben voor de echte wereld. Als modellen een voorzichtige, voorbeeldspecifieke bevinding veranderen in een generieke bewering of impliceren dat een bepaalde behandeling moet worden gebruikt terwijl de oorspronkelijke auteurs dat niet aanraadden, kan dat studenten, onderzoekers, journalisten en zelfs artsen misleiden.”

Uwe Peters noemt in een medische context als voorbeeld dat behandelingen worden ingezet bij mensen voor wie ze eigenlijk niet bedoeld zijn. “In de publieke communicatie draagt het bij aan een vertekend begrip van wat de wetenschap in feite zegt, wat de integriteit en geloofwaardigheid van wetenschapscommunicatie als geheel kan ondermijnen. Al deze risico’s worden nog vergroot door de gemakkelijke (en verleidelijke) toegankelijkheid en het nu wijdverspreide gebruik van ChatGPT als hulpmiddel om wetenschappelijk onderzoek snel samen te vatten.”

Betere prompts helpen niet
Maar ligt het wel aan de chatbots dat de samenvattingen te veel gegeneraliseerd werden? Dan zou een betere prompt toch soelaas moeten bieden? De wetenschapper beaamt dat, maar benoemt nog iets anders. “Het lijkt intuïtief dat het vragen om een specifiek format, zoals een wetenschappelijk abstract, modellen zou kunnen aanmoedigen om een voorzichtigere toon aan te slaan. Die aanname berust echter op het idee dat wetenschappelijke samenvattingen zelf voorzichtig en accuraat zijn. En in ons eerdere onderzoek ontdekten we dat dit vaak niet het geval is: Op gebieden als AI, geneeskunde en filosofie vatten wetenschappers hun eigen onderzoeksbevindingen vaak samen in abstracts op een manier die veel breder is dan gerechtvaardigd door het bewijs dat in hun studies wordt geleverd. Als LLM’s worden getraind op of gevraagd om die samenvattingen te imiteren, herhalen ze mogelijk dezelfde overdrijvingspatronen.”

“Dat gezegd hebbende, andere prompts, bijvoorbeeld diegene die indirecte of verleden tijd in wetenschappelijke samenvattingen afdwingen, kunnen effectiever zijn. Uiteindelijk denk ik dat we waarschijnlijk een combinatie nodig hebben van betere prompts, gerichtere prompttests en betere modeltraining, vooral training met data die niet worden gevormd door dezelfde menselijke vooroordelen die we proberen te vermijden in door mensen geschreven wetenschapscommunicatie.”

Lees het hele artikel