‘ChatGPT gebruiken als therapeut? Ik zou het niet aanraden’

2 dagen geleden 4

De laatste jaren komt het geregeld voor dat mensen zich van het leven beroven nadat ze hun zieleroerselen met een online chatbot hebben besproken. Die chatbot zet hen soms actief aan tot zelfdoding, en kan in elk geval geen familie of hulpverleners waarschuwen. Het Engelstalige Wikipedia-lemma ‘sterfgevallen gelinkt aan chatbots’ bevat al meer dan tien van zulke berichten.

„Het verhaal dat mij het meest raakte”, vertelt computerwetenschapper Erkan Basar, „was de Belgische man die begin 2023 zelfmoord pleegde na gesprekken met een chatbot over klimaatverandering.” Die man was in de dertig, getrouwd, twee jonge kinderen. „Een menselijke gesprekspartner zou beseft hebben: nu wordt hij wel heel pessimistisch, misschien moet ik het wat verzachten. Een AI-chatbot blijft iemand bombarderen met feitelijke informatie.”

Basar promoveerde op 25 november aan de Radboud Universiteit in Nijmegen op onderzoek naar het bouwen van chatbots die wél veilig en goed in de zorg gebruikt kunnen worden. Hij richtte zich op chatbots die helpen bij stoppen met roken en seksuele gezondheid, maar de methode kan op allerlei gebieden worden ingezet.

De overleden Belgische man had gechat met een moderne AI-chatbot die was genoemd naar een van de allereerste chatbots: Eliza, zo’n zestig jaar geleden gebouwd door computer­wetenschapper Joseph Weizenbaum (1923-2008). Die oude, AI-vrije Eliza had een psychiater­achtige module die vooral kernbegrippen uit wat mensen zelf intypten in vraagvorm naar hen terugkaatste; zo was de chatbot geprogrammeerd. Therapeutische chatbots na Eliza gaan vaak in op wat iemand zegt met vooraf door zorg­professionals geschreven teksten. Die teksten zijn weliswaar correct en helder, maar doen de zorgbots in een gesprek nogal stijf klinken.

Heel anders dan de huidige online AI-chatbots, de large language models (LLM’s), die zelf berekenen wat statistisch gezien het meest waarschijnlijke volgende woord in een gesprek is. Die babbelen veel lekkerder, maar hebben vaak vooroordelen die in de samenleving heersen klakkeloos overgenomen, en wat ze zeggen is soms ineens klinkklare onzin.

Voorgeprogrammeerde chatbots geven meer controle. Je weet precies wat de chatbot gaat zeggen en wanneer

U wilde een zorg­chatbot maken zonder stijfheid, zonder vooroordelen en zonder onzin?

„Ja, maar ik formuleer het liever andersom. We wilden de voordelen van voor­geprogrammeerde chatbots combineren met de voordelen van AI.”

Wat zijn die voordelen?

„Voor­geprogrammeerde chatbots geven meer controle. Je weet precies wat de chatbot gaat zeggen en wanneer. Menselijke conversatie is niet zo netjes gestructureerd, die stroomt meer. Maar het is onmogelijk om alle mogelijke manieren waarop een gesprek verloopt in te programmeren. En als een onderwerp terugkomt, geeft een voor­geprogrammeerde chatbot steeds exact hetzelfde antwoord. Dat wordt repetitief en saai en uit onderzoek weten we dat dat de betrokkenheid vermindert, en daarmee het effect van de behandeling.

„Het voordeel van LLM’s is dat die tekst genereren tijdens het gesprek. Die zijn juist niet repetitief. En vaak specifieker dan de voor­geprogrammeerde zinnen van zorg­professionals. Als een roker zegt: ‘ik vind het vervelend dat mijn vingers geel worden’, zegt een voor­geprogrammeerde zorgbot vaak iets algemeens als: ‘natuurlijk ben je bezorgd over je uiterlijk’. We zagen dat LLM’s specifieker worden: ‘gele vingers, ja, dat komt vaak voor als je rookt’, zoiets. Dat specifieke maakt het gesprek boeiender. Alleen kun je niet garanderen dat er geen risico aan zit om met LLM’s te praten. Ze zetten gewoon zonder begrip woorden achter elkaar.”

Hoe kun je die twee verschillende modellen combineren?

„Je moet nog steeds het skelet van de dialoog voorprogrammeren in de chatbot. Maar we hebben LLM’s gebruikt om een verscheidenheid aan mogelijke uitspraken te genereren: reacties op wat mensen die wilden stoppen met roken of die meer wilden weten over seksuele gezondheid echt hadden gezegd. Vervolgens lieten we die reacties, gegenereerd door verschillende LLM’s, door andere mensen beoordelen op hoe gepast, specifiek, natuurlijk en boeiend ze waren. We zagen dat bijvoorbeeld de uitspraken van GPT-4 het gemiddeld beter deden dan uitspraken van een mens. Maar sommige uitspraken waren minder gepast.

„Dus we raden aan om de database van de chatbot te verrijken met door LLM’s gegenereerde uitspraken, maar om alle uitspraken wel eerst handmatig te controleren. In ons onderzoek hebben we van de 380 gegenereerde uitspraken er 38 helemaal verwijderd, 101 aangepast en 241 gebruikt.”

Als je een keer midden in de nacht aandrang krijgt om te roken, dan kun je er even met een chatbot over praten

Je moet patiënten dus niet direct laten praten met LLM’s, maar LLM’s gebruiken om je eigen database van mogelijke antwoorden te vergroten?

„Ja. Ik zou niet aanraden om LLM’s direct als therapeut te gebruiken. Ik ben ervoor om chatbots per domein te ontwikkelen, zoals een ‘stoppen met roken’-chatbot. Zulke chatbots kunnen als ondersteuning dienen. Bijvoorbeeld dat je regelmatig met een mens praat, maar als je een keer midden in de nacht aandrang krijgt om te roken, dan kun je er even met een chatbot over praten.”

Wat vindt u ervan als mensen hun hart uitstorten bij bijvoorbeeld ChatGPT?

„Ik heb wel mensen ontmoet die zeiden dat ze het met online chatbots over zaken hebben die ze met hun beste vrienden nog niet zouden bespreken, en als onderzoeker op dit gebied had ik meteen de neiging om te zeggen: doe dat alsjeblieft niet. Ten eerste krijg je niet het beste advies en ten tweede zijn er privacy­issues.” Zelf gebruikt hij zulke chatbots alleen voor zaken die niet gevoelig liggen, vertelt hij. Bijvoorbeeld om zijn Nederlands te oefenen (zijn moedertaal is Turks), en om zijn Engels en de code die hij programmeert op te strakken.

Uw onderzoek ging over chatbots die hielpen bij stoppen met roken en seksuele gezondheid. Op welke andere gebieden zou deze methode geschikt zijn?

„Op allerlei gebieden. Je kunt zo ook betere klanten­service­chatbots creëren. Twee jaar geleden suggereerde een chatbot van Chevrolet dat de klant een Tesla moest kopen. Dat ligt natuurlijk niet zo gevoelig als gezondheidszorg, maar ik kan me voorstellen dat een bedrijf zoiets niet wil. Ik zie het allemaal als een kwestie van balans: hoe flexibel kun je zijn en hoeveel controleverlies kun je je daarbij veroorloven?”

De journalistieke principes van NRC
Lees het hele artikel