Kunstmatige intelligentie rukt op in het hoger onderwijs. Maar als het aan studenten ligt, blijft één taak voorlopig mensenwerk: het nakijken van tentamens en essays. Uit nieuw onderzoek van de University of Cambridge blijkt namelijk dat de beste AI-systemen van dit moment opvallend slecht zijn in het beoordelen van universitair schrijfwerk. Vooral briljante en zwakke studenten krijgen een verkeerde beoordeling.
Onderzoekers testten drie geavanceerde taalmodellen, Claude Opus 4.6, GPT-5.4 en Gemini 3 Flash, op 761 psychologie-essays van studenten van de universiteiten van Cambridge, Nottingham en Manchester Metropolitan. De essays waren eerder al beoordeeld door menselijke docenten. Vervolgens moesten de AI-systemen cijfers toekennen. En dat ging niet helemaal goed.
AI geeft vooral gemiddelde cijfers
De uitkomst is volgens de onderzoekers zorgwekkend. Afhankelijk van de universiteit kwam de AI slechts in 35 tot 63 procent van de gevallen overeen met de menselijke beoordeling. Het grootste probleem: AI heeft een duidelijke voorkeur voor middelmatigheid. Essays die door mensen werden beloond met hoge cijfers, kregen van AI vaak juist lagere scores. Zwakke essays werden daarentegen geregeld te positief beoordeeld.
Volgens medeonderzoeker Alexandru Marcoci is dat geen detail, maar precies waar het misgaat. “De AI geeft middelmatige cijfers aan vrijwel alle inzendingen”, stelt hij in het rapport. “Daardoor zijn de beoordelingen juist het minst accuraat op de momenten die ertoe doen: bij de grens tussen slagen of zakken of tussen een voldoende en een excellent resultaat.”
Moeilijke woorden belangrijker dan inhoud
Nog problematischer: de AI-systemen bleken sterk gevoelig voor oppervlakkige taalkenmerken. Lange essays met moeilijke woorden en complexe zinnen kregen systematisch hogere cijfers, zelfs wanneer de academische inhoud daar geen aanleiding toe gaf.
Dat laat volgens de onderzoekers zien dat AI fundamenteel anders denkt dan menselijke beoordelaars. Waar docenten inhoudelijk redeneren en argumenten wegen, voorspelt AI vooral statistisch welk cijfer waarschijnlijk past bij bepaalde taalpatronen.
Leestip: Het ontbreekt chatbots aan menselijke twijfel. Daardoor vertrouwen we er veel te veel op
Psycholoog Deborah Talmi, die het onderzoek leidde, waarschuwt dat universiteiten in de verleiding kunnen komen om AI toch in te zetten om de werkdruk te verminderen. Maar volledig vertrouwen op zulke systemen is volgens haar gevaarlijk. “Beoordeling gaat niet alleen over cijfers uitdelen”, zegt Talmi. “Het draait ook om vertrouwen, erkenning en academische standaarden.”
Studenten voelen zich bedrogen
De onderzoekers onderzochten ook hoe studenten en docenten tegen AI-beoordelingen aankijken. Veel studenten gaven aan zich bedrogen te voelen als hun werk door een computer wordt nagekeken in plaats van door een docent.
Toch zien de onderzoekers ook kansen. AI kan bijvoorbeeld nuttig zijn als extra controlemechanisme: een soort tweede paar ogen dat inconsistenties of mogelijke fouten in beoordelingen signaleert. Grote verschillen tussen menselijke en AI-scores kunnen docenten juist helpen om essays opnieuw te bekijken.
Maar één conclusie staat in ieder geval vast: AI is voorlopig nog lang geen vervanger voor menselijke beoordelaars. Of zoals de onderzoekers het samenvatten: kunstmatige intelligentie kan misschien helpen bij nakijken, maar begrijpt nog altijd niet echt wat academische kwaliteit is.
Wil je niets van Scientias missen? Volg Scientias op Google Discover dan zie je al onze verhalen!
Uitgelezen? Luister ook eens naar de Scientias Podcast:

6 uren geleden
1









/s3/static.nrc.nl/wp-content/uploads/2026/05/22202102/220526VER_2033948102_Jansa.jpg)
English (US) ·