ChatGPT neemt niet alleen luie middelbare scholieren en notoire kantoortijgers een hoop werk uit handen, ook wetenschappers zien de voordelen in van de chatbot. Het regent plots publicaties. Die zijn echter steeds vaker van bedenkelijke kwaliteit.
Redacteuren van wetenschappelijke tijdschriften sloegen eerder al alarm. Ze zien een golf aan keurig geschreven artikelen langskomen met weinig echte wetenschappelijke waarde. Daar blijken ze gelijk in te hebben. Onderzoekers van Cornell University laten zien dat grote taalmodellen (LLM’s) de wetenschappelijke productiviteit flink verhogen, maar ook het beoordelingssysteem onder druk zetten.
De conclusie van de onderzoekers in vakblad Science luidt: het gebruik van LLM’s zoals ChatGPT leidt tot meer artikelen, vooral van wetenschappers die Engels niet als moedertaal hebben. Tegelijkertijd wordt het voor reviewers, financiers en beleidsmakers steeds moeilijker om waardevolle bijdragen te onderscheiden van wat de onderzoekers zelf AI-slop noemen: overtuigend geschreven artikelen, die inhoudelijk zwak zijn.
“Het is een wijdverbreid patroon in verschillende wetenschapsgebieden, van natuurkunde tot biologie en sociale wetenschappen”, zegt onderzoeker Yian Yin van Cornell. “Er is een grote verschuiving gaande in ons huidige wetenschappelijke ecosysteem die een zeer serieuze blik rechtvaardigt, vooral van degenen die beslissen welke wetenschap we moeten ondersteunen en financieren.”
Miljoenen preprints onder de loep
Voor hun studie verzamelden Yin en zijn collega’s meer dan twee miljoen wetenschappelijke preprints die tussen januari 2018 en juni 2024 online verschenen op drie platforms: arXiv, bioRxiv en SSRN. Deze websites publiceren artikelen die nog geen peer review hebben gehad en bestrijken respectievelijk de exacte, levens- en sociale wetenschappen.
De onderzoekers vergeleken teksten van voor 2023, die vermoedelijk door mensen zijn geschreven, met AI-gegenereerde tekst. Op basis daarvan ontwikkelden ze een model dat kan inschatten of een paper waarschijnlijk met behulp van een LLM is geschreven. Zo konden ze zien welke onderzoekers overstapten op AI, hoeveel meer zij gingen publiceren en of hun werk uiteindelijk werd geaccepteerd door wetenschappelijke tijdschriften.
Productiviteit omhoog, kwaliteit onzeker
De resultaten laten een duidelijke productiviteitsboost zien. Op arXiv publiceerden onderzoekers die AI gebruikten ongeveer een derde meer papers dan collega’s zonder AI-hulp. Op bioRxiv en SSRN liep dat zelfs op tot meer dan 50 procent. Vooral niet-Engels sprekende wetenschappers profiteren. Onderzoekers van Aziatische instellingen publiceerden, afhankelijk van het platform, tussen de 43 en 89 procent meer artikelen nadat ze AI gingen gebruiken.
Volgens Yin kan dit leiden tot een wereldwijde verschuiving in wetenschappelijke productiviteit. Regio’s die eerder werden benadeeld door de Engelse taalbarrière kunnen een inhaalslag maken.
De studie vond ook een onverwacht positief effect: bij het zoeken naar literatuur blijken AI-gestuurde tools zoals Bing Chat beter in het vinden van recente publicaties en relevante boeken dan traditionele zoekmachines. “Mensen die LLM’s gebruiken, krijgen toegang tot meer diverse kennis, wat mogelijk creatieve ideeën bevordert”, zegt eerste auteur Keigo Kusumegi. Hij wil in toekomstig onderzoek bekijken of AI ook leidt tot innovatiever en meer interdisciplinair werk.
Mooie taal is geen garantie meer
Toch is er een keerzijde. Normaal gesproken geldt in de wetenschap: helder maar complex taalgebruik – met lange zinnen en moeilijke woorden – correleert sterk met kwaliteit. Ook uit deze studie blijkt dat dit geldt voor door mensen geschreven papers. Maar bij AI-gegenereerde teksten gaat die relatie niet meer op. Papers die waarschijnlijk door LLM’s zijn geschreven en hoog scoren op schrijfstijl, worden juist minder vaak geaccepteerd door tijdschriften. Reviewers prikken blijkbaar door de fraaie formuleringen heen en beoordelen de wetenschappelijke inhoud als zwak.
Die ontkoppeling tussen schrijfstijl en inhoud heeft grote gevolgen, waarschuwt Yin. Universiteiten en financiers kunnen onderzoekers niet langer simpelweg op productiviteit beoordelen en redacties krijgen het steeds lastiger om kwaliteit te herkennen.
De onderzoekers benadrukken dat hun studie observationeel is. Een volgende stap is causaal onderzoek, bijvoorbeeld via gecontroleerde experimenten waarbij sommige wetenschappers wel en andere geen AI mogen gebruiken. Intussen pleit Yin voor nieuwe regels. “Nu al is de vraag niet: heb je AI gebruikt? De vraag is: hoe precies heb je AI gebruikt en was het nuttig of niet.”
We schreven vaker over dit onderwerp, lees bijvoorbeeld ook Geen ontsnappen meer aan: ChatGPT zit straks zelfs in je kleding verweven en ChatGPT gaat eerst de mist in met oud wiskundig raadsel. Maar dan verrast het de onderzoekers. Of lees dit artikel: Waarom ChatGPT nooit écht kan weten wat een bloem is.
Uitgelezen? Luister ook eens naar de Scientias Podcast:

9 uren geleden
1





English (US) ·