AI kan nu de genetische code van al het leven op aarde lezen én schrijven

2 dagen geleden 5

Onderzoekers hebben een AI-model gebouwd dat DNA begrijpt. Al het DNA, van elk levend wezen op aarde. Het model, genaamd Evo 2, kan voorspellen wat er gebeurt als je aan DNA sleutelt en het kan zelfs complete genomen ontwerpen die nog nooit hebben bestaan.

DNA bestaat uit vier ‘letters’, de vier stikstofbasen adenine (A), thymine (T), cytosine (C) en guanine (G). Samen vormen ze de blauwdruk voor alles wat leeft. Wetenschappers kunnen deze code inmiddels lezen en aanpassen, maar de gevolgen van die aanpassingen echt doorgronden blijft een enorme uitdaging.

Evo 2 is om dit enorm complexe vraagstuk op te lossen getraind op 9 biljoen DNA-bouwstenen van organismen uit alle hoeken van de stamboom des levens. Het grootste model telt 40 miljard parameters. Dat is qua orde van grootte bijna vergelijkbaar met oudere versies van ChatGPT. Evo 2 kan sequenties van een miljoen DNA-letters tegelijk overzien. Het kan zo verbanden leggen over enorme afstanden binnen een genoom.

Voorspellen of een mutatie gevaarlijk is

Het model kan inschatten of een verandering in het DNA schadelijk is, zonder ooit een medisch dossier te hebben gezien. Het berekent simpelweg hoe waarschijnlijk het is dat een bepaalde DNA-sequentie bestaat. Verander je één letter en keldert de waarschijnlijkheid? Dan is die plek vermoedelijk cruciaal.

Op die manier scoorde het bijzonder goed op het voorspellen van de impact van varianten in het BRCA1-gen, dat sterk gelinkt is aan borstkanker. Vooral bij mutaties buiten de bekende coderende gebieden (stukken DNA die niet direct coderen voor eiwitten, maar wel degelijk belangrijk zijn) presteerde het beter dan alle andere geteste methodes.

Dat is relevant voor een probleem waar vandaag de dag miljoenen mensen mee te maken krijgen, vertelt co-auteur van de studie Brian Hie, aan Scientias.nl. “Je ondergaat een genetische test en de uitslag luidt: ‘variant van onbekende betekenis’. Je arts kan dan niet zeggen of die verandering het kankerrisico daadwerkelijk verhoogt. Onze resultaten suggereren dat je in de toekomst mogelijk geen databank met duizenden patiënten met exact dezelfde mutatie meer nodig hebt om daar uitsluitsel over te krijgen.”

Wat heeft de AI eigenlijk geleerd?

Een veelgehoord bezwaar tegen AI: het geeft antwoorden, maar niemand snapt hoe. De onderzoekers hebben daarom in het hoofd van Evo 2 gekeken. Het model bleek zelfstandig concepten te hebben ontwikkeld die overeenkomen met bekende biologie. Het herkent bijvoorbeeld de grenzen tussen stukken DNA die wel en niet worden vertaald naar eiwitten, plekken waar bepaalde eiwitten aan DNA binden en zelfs virussen die zich in bacterie-DNA hebben genesteld, zonder dat het daar ooit expliciet over is geïnformeerd.

Patronen die het model in menselijk DNA had geleerd, bleken ook te werken op het DNA van een wolharige mammoet. Evo 2 heeft blijkbaar universele patronen opgepikt die miljoenen jaren evolutie overstijgen.

Volgens Hie is dat een directe consequentie van hoe het model is getraind. “Evolutie is het langstlopende experiment uit de geschiedenis; het duurt al ongeveer vier miljard jaar. Elk gen dat gedurende die tijd bewaard is gebleven, is dat om een reden. Door te trainen op alle domeinen van het leven kan Evo 2 dat signaal benutten op manieren die uitsluitend menselijke datasets niet mogelijk maken.”

Complete genomen ontwerpen

Naast voorspellen kan Evo 2 ook ontwerpen. Het model genereert DNA-sequenties die lijken op echte genomen van micro-organismen. Bij bacterieel DNA produceerde het genomen van zo’n 580.000 letters, waarvan bijna 70 procent van de voorspelde genen overeenkomsten vertoonden met bekende eiwitfamilies.

Goed om te weten is dat nog niet bewezen is dat deze ontworpen genomen daadwerkelijk functioneel zijn. Het zijn computerontwerpen die veelbelovend ogen, maar nog niet op grote schaal in levende cellen zijn getest.

Open maar veilig

De onderzoekers hebben alles openbaar gemaakt: het model, de code, de dataset en de tools. Dat maakt Evo 2 een van de grootste volledig open source AI-modellen ooit.

Tegelijk is er nagedacht over veiligheid. DNA-sequenties van virussen die mensen kunnen infecteren zijn uit de trainingsdata geweerd. Tests van de onderzoekers bevestigen dat het model daardoor slecht presteert op menselijke virale sequenties. Pogingen om het alsnog gevaarlijke eiwitten te laten produceren leverden onbruikbare resultaten op.

“Daarnaast hebben we onafhankelijke red-teaming van het model ondersteund en voortdurend samengewerkt met biosecurity-onderzoekers”, zegt Hie. Red-teaming betekent dat onafhankelijke experts het model doelbewust proberen te misbruiken of te omzeilen om kwetsbaarheden en veiligheidsrisico’s bloot te leggen.

Wat nu?

Evo 2 is geen magische knop waarmee je morgen een nieuw organisme kunt ontwerpen. Het gaat jaren of zelfs decennia duren voordat het potentieel van zulke modellen duidelijk wordt. Maar het legt wel de basis voor enorm veel toekomstig onderzoek. “Evo 2 vertegenwoordigt een echte stap vooruit in wat deze modellen kunnen”, zegt Hie. “Tegelijkertijd staan we nog aan het begin. We raden af om het potentieel van AI in de biologie te onderschatten.”

Schrijf je in voor de nieuwsbrief! Ook elke dag vers het laatste wetenschapsnieuws in je inbox? Of elke week? Schrijf je hier in voor de nieuwsbrief!

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Lees het hele artikel