Arxiv doet leveranciers van AI-gegenereerde nepwetenschap in de ban

3 dagen geleden 1

Wetenschappers die betrapt worden op door AI gegenereerde fouten in artikelen op ‘archiefsite’ Arxiv mogen een jaar lang geen nieuwe artikelen meer op die site zetten. Na dat jaar moeten de eerste drie artikelen van deze betrapte onderzoekers geaccepteerd zijn door een gerenommeerd peerreviewed tijdschrift voordat ze weer op Arxiv mogen. Pas daarna kunnen ze vragen of ze van de zwarte lijst af mogen. Dat schreef Thomas Dietterich, hoofd van de afdeling computerwetenschappen van Arxiv, op 14 mei op X.

Het is niet de eerste maatregel van Arxiv om vervuiling van de wetenschap door AI-gegenereerde troep (AI slop) tegen te gaan. Begin dit jaar stelde Arxiv in dat mensen die voor het eerst iets plaatsen een mailadres van een wetenschappelijke instelling moeten hebben én co-auteur moeten zijn van een artikel dat al op Arxiv staat. Anders moeten ze voorgesteld worden door een reeds geregistreerde wetenschapper. Want AI slop zou voornamelijk komen van nieuwelingen.

Arxiv is een openaccesswebsite waar geregistreerde wetenschappers inmiddels bijna drie miljoen artikelen op hebben gezet, onder meer om commentaar van hun collega’s mee op te halen; die kijken er graag om te kijken wat er speelt in hun vakgebied. Ook kunnen onderzoekers met een artikel op Arxiv laten zien dat ze de eerste zijn met bepaalde onderzoeksresultaten, bijvoorbeeld terwijl die bij een wetenschappelijk tijdschrift liggen waar de peerreview lang duurt. (Al zijn er ook wetenschappelijke tijdschriften die eisen dat een artikel nog nergens online staat, dus Arxiv wordt in sommige vakgebieden, zoals sterrenkunde en natuurkunde, meer gebruikt dan in andere, zoals de biomedische wetenschappen).

Arxiv doet zelf niet aan peerreview: de artikelen worden niet voor publicatie door andere onderzoekers op hun wetenschappelijke waarde beoordeeld. De site checkte altijd alleen of de artikelen geen ongepaste taal bevatten en of het wel wetenschap was. Dat verandert dus nu. Als een artikel onweerlegbaar bewijs bevat dat de auteurs een large language model (zoals ChatGPT) hebben gebruikt en de uitkomsten ervan niet hebben gecheckt, dan kan niets in dat artikel meer vertrouwd worden, aldus Dietterich. Dat is bijvoorbeeld zo, schrijft hij, als er niet-bestaande (door AI ‘gehallucineerde’) artikelen in de literatuurlijst staan, of als het artikel duidelijk nog opmerkingen van een LLM bevat (zoals „hier is een samenvatting van 200 woorden; wil je dat ik er iets aan verander?”). Kennelijk komt dat laatste voor.

Niet-bestaande artikelen in een literatuurlijst, dat komt zeker voor: zelfs, en steeds vaker, bij artikelen die door de peerreview van wetenschappelijke tijdschriften zijn gekomen. Een team onderzoekers schrijft in The Lancet van 9 mei dat ze in ruim 97 miljoen op het oog correct uitziende bronnen in literatuurlijsten van bijna 2,5 miljoen biomedisch-wetenschappelijke artikelen meer dan vierduizend verzonnen bronnen in 2.810 artikelen ontdekten. En die verzonnen bronnen waren op het oog onherkenbaar: correct geformatteerd, toegeschreven aan echt bestaande onderzoekers, plausibele publicatiedatum. Dit probleem neemt snel toe: in 2023 had 1 op de 2.828 artikelen minstens één verzonnen bron, in 2026 gold dat voor 1 op de 277 artikelen.

Lees het hele artikel