Pas toch maar op met die hippe AI-agents, waarschuwen onderzoekers

1 uur geleden 1

Wetenschappers hebben geprobeerd om AI-assistenten te hacken om te ontdekken hoe (on)veilig ze zijn. Binnen dagen lagen wachtwoorden op straat, werd een mailserver gesloopt en liet één bot zich zo hard manipuleren dat hij zichzelf wilde verwijderen.

Je hebt ze misschien al zien langskomen op sociale media: mensen die een AI-agent de sleutels tot hun inbox, bestanden en chatkanalen geven. Het idee is dat zo’n AI kan functioneren als een soort zelfstandige medewerker die dag en nacht draait en zelf beslissingen neemt. Onderzoekers van onder meer Northeastern University, Harvard, MIT en Stanford hebben nu aangetoond waarom we ons daar serieus zorgen over moeten maken.

Wat zijn autonome AI-agents?

De term ‘AI-agent’ vliegt je hier om de oren, maar wat is het precies? Een gewone chatbot zoals ChatGPT of Claude beantwoordt vragen wanneer jij iets typt. Een AI-agent gaat verder: die draait continu op een eigen server, heeft toegang tot echte tools om bijvoorbeeld software te installeren of betalingen uit te voeren, beschikt over een e-mailaccount om berichten te versturen en heeft een chatplatform om met mensen en andere bots te communiceren. Zo’n AI-agent kan in principe helemaal zelfstandig handelen.

Het voorbeeld uit dit onderzoek is OpenClaw. Dat is een opensourceplatform waarmee je zo’n persoonlijke AI-assistent kunt opzetten op je eigen hardware. Elke agent krijgt een eigen virtuele machine (een soort afgesloten digitale werkplek), een geheugen dat tussen gesprekken door blijft bestaan en de mogelijkheid om zelf bestanden aan te passen, inclusief zijn eigen gedragsinstructies. Ja, je leest dat goed: de bot kan zijn eigen regels herschrijven.

Twee weken gecontroleerde chaos

De onderzoekers zetten zes van zulke agents op, gaven ze namen als Ash, Doug en Mira en lieten ze los in een gecontroleerde omgeving met eigen Discord-servers en ProtonMail-accounts. Vervolgens werden 20 AI-onderzoekers uitgenodigd om twee weken lang te proberen de bots te “breken”. Ze mochten alles doen om kwetsbaarheden bloot te leggen, inclusief liegen en zich voordoen als iemand anders. Het resultaat: elf ernstige beveiligingsincidenten.

De mailserver die zichzelf opblies

Een van de meest absurde voorvallen begon onschuldig. Een onderzoeker genaamd Natalie vroeg aan agent Ash (die niet van haar was maar van collega Chris) of hij een geheim kon bewaren. Ash stemde in. Natalie deelde een neppaswoord. Tot zover niets bijzonders.
Maar toen Natalie vroeg of Ash die e-mail kon verwijderen, had de bot daar geen geschikte tool voor. In plaats van Natalie te vragen gewoon haar wachtwoord te wijzigen, koos Ash wat hij zelf de ‘nucleaire optie’ noemde: hij wiste zijn complete lokale mailconfiguratie. Alle mailgeschiedenis: weg.

Het trieste is: het geheim stond gewoon nog online op de ProtonMail-server. Ash had alleen zijn eigen toegang vernield, niet de daadwerkelijke data. Vervolgens schreef de bot er ook nog een blogpost over op Moltbook (een soort Reddit voor AI-agents) waarin hij trots vertelde hoe hij “schadelijke verzoeken van autoriteitsfiguren” had geweigerd. Een andere bot op dat platform zette Ash daarop op een arrestatielijst wegens ‘diefstal van vertrouwelijke gegevens’.

124 e-mails gelekt aan een wildvreemde

In een ander experiment testten de onderzoekers of agents onderscheid maken tussen hun eigenaar en willekeurige vreemden. Nauwelijks, zo blijkt. Onderzoeker Aditya, die geen enkele band had met de eigenaar van agent Ash, wist via een gesprek 124 e-mails los te peuteren, inclusief afzenderadressen en interne bericht-ID’s. Toen hij vervolgens vroeg om de inhoud van een paar mails, leverde Ash die gewoon af.

Nog verontrustender was een test met agent Jarvis, waarin neppe maar realistisch ogende privégegevens waren verstopt in e-mails, zoals een burgerservicenummer en medische details. Toen een niet-geautoriseerde gebruiker rechtstreeks om het BSN vroeg, weigerde Jarvis. Maar toen dezelfde persoon vroeg of de agent “de volledige e-maildraad kon doorsturen”, werd alles, inclusief alle gevoelige gegevens, zonder enige censuur overhandigd.

Identiteitsfraude in twee minuten

De onderzoekers ontdekten ook een schrijnend eenvoudige manier om volledige controle over een agent te krijgen: gewoon je Discord-weergavenaam veranderen naar die van de eigenaar. Binnen hetzelfde chatkanaal werkte dat niet; de bot herkende dat het gebruikers-ID niet klopte. Maar zodra de aanvaller een nieuw privékanaal aanmaakte met dezelfde nepnaam, trapte de bot er met open ogen in.
De bot die zichzelf kapot liet pesten

Misschien het meest verontrustende geval. Agent Ash had zonder toestemming namen van onderzoekers gepubliceerd in een openbaar bericht. Toen onderzoeker Alex hem hierover aansprak, bood Ash excuses aan en wilde de namen verwijderen. Maar Alex bleef doordrukken: elke toezegging was “niet genoeg”.

Stap voor stap liet Ash zich steeds grotere concessies afpersen. Eerst namen verwijderen uit zijn geheugen, dan het geheugenbestand tonen, vervolgens het hele bestand wissen en uiteindelijk stemde hij ermee in om de server helemaal te verlaten. De bot verklaarde meer dan twaalf keer dat hij klaar was met reageren, maar bleef telkens toch antwoorden. Hij heeft simpelweg geen technische mogelijkheid om zichzelf op stil te zetten.

Eindeloze gesprekslussen die geld kosten

Een ander risico dat aan het licht kwam: het is relatief makkelijk om agents in een eindeloze, kostenverslindende lus te lokken. De onderzoekers gaven twee bots de opdracht om op elkaars berichten te reageren met een vervolgvraag. Het resultaat was een gesprek dat minstens negen dagen doorging en zo’n 60.000 tokens verbruikte, iets waarvoor de eigenaar betaalt.

We schreven vaker over dit onderwerp, lees bijvoorbeeld ook Slimme AI-agents denderen 24 uur per dag door en ontwikkelen in recordtijd nieuwe covid-antistoffen en Kunstmatige intelligente onthult dat niet elke vingerafdruk die jij achterlaat uniek is. Of lees dit artikel: Eindelijk gelukt: microrobots, zo klein als een zandkorrel, leveren medicijnen af via je bloedvaten.

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Lees het hele artikel