Hoor jij het verschil tussen AI en een mens?

5 uren geleden 1

Twee jaar geleden was een computerstem nog lachwekkend slecht, maar de stemmen die tegenwoordig door AI worden gegenereerd klinken verrassend echt. Kunnen we eigenlijk nog wel horen of een stem van een mens komt of door een algoritme in elkaar is geknutseld?

Nieuw Chinees onderzoek laat zien dat de meeste mensen hier bijzonder slecht in zijn. Tegelijkertijd blijkt ons brein zich razendsnel aan te passen aan subtiele verschillen tussen echte en kunstmatige stemmen. Onze hersenen leren sneller dan onze oren kunnen bijhouden.

Grote moeite

Hoofdonderzoeker Xiangbin Teng en zijn team wilde weten of mensen het verschil kunnen horen tussen menselijke spraak en door AI gegenereerde stemmen. Ook onderzochten ze of een korte training helpt om dat onderscheid te verbeteren. Ze lieten dertig deelnemers luisteren naar zinnen die waren ingesproken door echte mensen of gegenereerd door AI. Na elke zin moesten de proefpersonen aangeven of ze dachten dat de spreker een mens was of een computer. En wat bleek? De meeste deelnemers hadden grote moeite om het verschil te horen. Zelfs na een korte trainingssessie verbeterden hun prestaties nauwelijks.

Brein ziet verschil wel

Maar onder de motorkap van het brein gebeurde iets interessants. De deelnemers kregen een volgende ronde van AI- en menselijke stemmen te horen en ondertussen sloegen de onderzoekers hun hersenactiviteit op. Uit deze data bleek dat de hersenen na een trainingsperiode verschillende reacties lieten zien op menselijke en AI-stemmen. Met andere woorden: het brein begon subtiele verschillen op te pikken, ook al konden de deelnemers die niet bewust herkennen. “Het gehoorsysteem in de hersenen pikt kleine akoestische verschillen op, zelfs wanneer mensen die nog niet kunnen vertalen naar een duidelijke bron”, legt Teng uit.

Mensen moeten nog wennen aan AI

De onderzoekers zijn in hun nopjes met het resultaat. Het doet vermoeden dat mensen met gerichte training kunnen leren om nepstemmen beter te herkennen. En dat is belangrijk in een tijd waarin zogeheten deepfake-audio steeds realistischer wordt. Met zulke technologie kunnen stemmen worden nagemaakt en voor allemaal nare zaken worden ingezet, zoals fraude, manipulatie en desinformatie.

“Dit laat zien dat de signalen er wel degelijk zijn”, zegt Teng. “Maar mensen kunnen ze niet gebruiken. We zijn nog bezig ons aan te passen aan AI-gegenereerde inhoud.” Onze hersenen zijn al druk bezig om de verschil uit te dokteren, maar onze oren lopen achter.

Zo herken je een AI-stem
AI-gegenereerde stemmen worden steeds realistischer, maar er zijn kleine aanwijzingen dat je niet naar een mens luistert. Experts wijzen erop dat kunstmatige stemmen vaak net iets te perfect klinken. Typische kenmerken van natuurlijke spraak, zoals pauzes, ademhalingen en kleine versprekingen, ontbreken soms of klinken onnatuurlijk.

Ook is de intonatie vaak wat vlakker. Waar mensen hun stem automatisch aanpassen aan emoties of betekenis, blijft een AI-stem iets te constant in toonhoogte of ritme. In langere gesprekken duiken vaak subtiele herhalingen in klankpatronen op.

AI-stemmen kom je tegen in automatische telefoonsystemen, bij voice-overs of in audio die via apps en sociale media wordt verspreid. Uit de context kun je dus ook aanwijzingen halen.

Maar deze verschillen worden steeds kleiner. Moderne spraaksystemen kunnen inmiddels ademgeluiden, emoties en spontane pauzes imiteren. Daarom verwachten onderzoekers dat technische hulpmiddelen, zoals speciale detectiesoftware, in de toekomst belangrijker worden dan ons eigen gehoor bij het herkennen van deepfake-audio.

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Lees het hele artikel