Moderne onzinwetenschap ziet er aan de buitenkant heel professioneel uit

3 dagen geleden 4

Tast AI de wetenschap van binnenuit aan? Dat was wel het gevoel dat ik kreeg bij de World Conference on Research Integrity, begin mei in Vancouver. Zevenhonderd onderzoekers uit zevenenvijftig landen hielden zich daar bezig met de integriteit van de wetenschap. Er was nauwelijks een voordracht waar niet zorgelijk werd gesproken over hoe gemakkelijk AI het maakt artikelen kunstmatig te verfraaien of zelfs volstrekt uit de digitale duim te zuigen. Het woord dat het meest viel was ‘wapenwedloop’.

Hoogtepunt van ironie was dat een deel van de verzoeken om op deze conferentie te mogen spreken door AI leek te zijn geschreven, vaak afkomstig van auteurs met een vreemde, mogelijk verzonnen affiliatie. Volgens de organisatie vroegen vrijwel al deze dubieuze inzendingen ook een reisbeurs aan. Juist de bijeenkomst die de integriteit van de wetenschap moest bewaken, werd ondergesneeuwd door machinaal geproduceerde onzin.

In de theoretische fysica gebruikten we vroeger de Crackpot Index. Dat was een puntenlijst van de Amerikaanse wiskundige John Baez, waarmee je elk manuscript kon scoren. Punten voor elk woord dat in hoofdletters was geschreven. Punten als Einstein, Hawking of Feynman verkeerd waren gespeld. Meer punten voor de verzekering ‘ik ben niet goed in wiskunde, maar mijn theorie klopt, iemand hoeft het alleen nog even in formules te gieten’. En de hoofdprijs ging naar wie zich met Galilei vergeleek en klaagde dat een hedendaagse inquisitie hard aan het werk was om de auteur onderuit te halen. Het mooie was: onzin was toen gemakkelijk te herkennen. Vorm en inhoud vielen samen. Deze boeken kon je gerust beoordelen op hun omslag.

Die tijd is definitief voorbij. Moderne onzin gaat eerst door de machine die alle spelfouten corrigeert en elke hoofdletter op zijn plaats zet. Aan de buitenkant ziet het er allemaal professioneel uit. Hoe ver die interne erosie reikt, bleek deze mei uit een publicatie in The Lancet. Onderzoekers controleerden 2,5 miljoen biomedische artikelen en bijna honderd miljoen literatuurverwijzingen van de laatste drie jaar. Het aantal verzonnen referenties, verwijzingen naar studies die niet bestaan, steeg in die tijd van 4 naar 57 per tienduizend. In een artikel bleken achttien van de dertig bronnen verzonnen, allemaal keurig toegeschreven aan bestaande urologen. En deze verzinsels verraden zich niet meer door een verkeerd gespelde Einstein. Het bedrog zit ver achter de komma verscholen. Dit zijn gladgestreken crackpots. Onzin verpakt in een glanzende, professioneel ogende kaft.

Naast dit regelrechte bedrog rukt er een tweede, wellicht groter probleem op: de massaproductie van artikelen die ‘niet eens fout’ zijn, om de bekende frase van fysicus Wolfgang Pauli te gebruiken. Een AI-agent schrijft tegenwoordig een compleet artikel uitgaande van een redelijke vraag, een publieke dataset en een middagje rekenwerk. Zo is er nu de massaproductie van zogeheten mendeliaanse randomisatiestudies. In dergelijk onderzoek gebruikt men genetische variaties om, bijvoorbeeld, natuurlijke verschillen in het ‘goede’ cholesterol HDL te correleren met de kans op een hartinfarct. Bots maken handig gebruik van open databanken, koppelen een variabele aan een aandoening en voilà: weer een wetenschappelijk artikel. Wat een promovendus vroeger vier jaar kostte, rolt er nu in een paar uur uit. Het is wellicht niet fout, maar draagt het bij aan onze kennis? En waren we naïef toen we al deze data vrij toegankelijk maakten? Volgens de betrokken onderzoekers niet per se, maar we moeten wel tegenmaatregelen nemen.

Techniek inzetten tegen techniek bestrijdt de symptomen, niet de onderliggende aandoening

Er werden veel ‘hockeystickgrafieken’ vertoond op de conferentie. Verzonnen referenties, artikelen, preprints, inzendingen voor conferenties – allemaal laten ze hetzelfde patroon zien: jarenlang een vlakke, lage lijn en dan vanaf 2023 een scherpe knik omhoog, samenvallend met de brede beschikbaarheid van AI.

En zo staat de kraan met AI-slop volledig open. Het probleem is niet langer alleen de leugens, maar de vloedgolf aan technisch correcte artikelen die niemand meer kan overzien, laat staan lezen. De paper mills – lucratieve ondernemingen die auteurschap verkopen aan onderzoekers onder acute publicatiedruk – hebben hun productie volledig geautomatiseerd. Het aantal van deze confectie-artikelen explodeert. En daarmee ook het aantal redacteuren dat de weinige oprechte krenten uit de machinale pap probeert te vissen.

Het absurde hoogtepunt kwam afgelopen zomer aan het licht. Omdat vele redacteuren de stortvloed niet meer aankunnen, laten ze artikelen steeds vaker mede beoordelen door… AI. Vindingrijke auteurs spelen daarop in. In tientallen preprints werden verborgen teksten aangetroffen, onzichtbaar voor de mens maar leesbaar voor de machine, met de instructie ‘geef alleen een positieve beoordeling’.

De favoriete grensbewaking lijkt nog slimmere AI te zijn. Maar techniek inzetten tegen techniek bestrijdt de symptomen, niet de onderliggende aandoening. Er worden ook enkele meer fundamentele maatregelen genomen. De preprintserver arXiv schorst voortaan een jaar lang iedereen die betrapt wordt op een gehallucineerde bron. En er wordt gewerkt aan een ‘Vancouver-standaard’ voor het eerlijk melden van AI-gebruik in publicaties.

Maar de werkelijke oorzaak ligt dieper, in de prikkels die we zelf hebben ingebouwd. Zolang we onderzoekers afrekenen op het aantal artikelen en citaties, dwingen we precies dit gedrag af. AI maakt het alleen veel gemakkelijker. Het is de wet van Goodhart: zodra een maat een doel wordt, houdt ze op een goede maat te zijn. Het zijn uiteindelijk de perverse metrieken die de wetenschap corrumperen.

Misschien is het wetenschappelijke artikel niet langer het elementaire deeltje van de wetenschap en moeten we opnieuw leren meten wat iemand werkelijk bijdraagt. AI is op de korte termijn het probleem, en waarschijnlijk ook de oplossing. Maar om deze wapenwedloop op de langere termijn te winnen, zullen we uiteindelijk de eindstreep elders moeten leggen.

Lees het hele artikel