AI-professor Sanne Abeln: “Voorspellingen worden beter, maar het echte begrip neemt maar mondjesmaat toe”
Onderzoeker wil terug naar de oorzaak
Hoogleraar AI Technology for Life Sanne Abeln geeft een inkijkje in de nieuwste ontwikkelingen in haar vakgebied, het gebruik van AI in de levenswetenschappen. Ook vertelt ze waarom er volgens haar meer aandacht moet komen voor het begrijpen van hoe AI-modellen tot hun voorspellingen komen, en deelt ze haar zorgen over de afhankelijkheid van buitenlandse bigtechbedrijven.

AI is hot en dat merkt Abeln, die ongeveer twee jaar geleden als hoogleraar aan de slag ging bij de Universiteit Utrecht. Ze wordt veel gevraagd om te spreken op wetenschappelijke congressen en zij en haar groep ontvangen veel verzoeken voor samenwerkingen.
Foundation modellen
Abeln en haar groep gebruiken technologie op het gebied van AI om meer inzicht te krijgen in complexe biologische systemen, zoals cellen, organismen of ecosystemen. Daarbij gebruiken ze onder andere zogenaamde foundation modellen, zeer grote wiskundige modellen die getraind worden op enorme hoeveelheden data. En net zoals ChatGPT een foundation model is voor taal, bestaan er bijvoorbeeld ook foundation modellen voor “eiwittaal”. Deze taal bestaat uit de volgorde van de bouwstenen van eiwitten, de aminozuren.
De eiwitmodellen halen dingen uit de eiwittaal die wij zelf nog niet begrijpen.
Abeln: “Foundationmodellen zijn gigantisch en er is heel veel rekenkracht voor nodig om ze te trainen. Dat doen we dus ook niet zelf. Wat wij doen, is die modellen als basis nemen en ze finetunen. Met relatief weinig data kunnen we ze dan iets anders laten leren.”
Eiwitvouwing
Abeln legt uit dat zij en haar team onder andere eiwittaalmodellen gebruiken om te voorspellen hoe eiwitten samenklonteren. Het samenklonteren (aggregeren) van eiwitten speelt een belangrijke rol bij bijvoorbeeld het ontstaan van hersenziektes zoals de ziekte van Alzheimer en Parkinson.
Abeln: “We willen niet alleen voorspellen, maar ook uitleggen op basis van welke factoren het model de voorspelling maakt. Dat lukt ons door eigenschappen van de eiwitten in kaart te brengen, zoals hoe lang het eiwit is en hoeveel oppervlakte het heeft. Als we vervolgens kijken welke eigenschappen samenhangen met de voorspellingen van het model, dan zien we eigenschappen waarvan we al wel wisten dat ze invloed hebben op de aggregatie, maar ook totaal nieuwe eigenschappen waarvan we dat nog niet wisten. De eiwitmodellen halen dus dingen uit de eiwittaal die wij zelf nog niet begrijpen. Dit geeft ons nieuw begrip en nieuwe aanknopingspunten waar we ons in het lab op kunnen richten.”
We kunnen hele ingewikkelde verbanden vinden, die niet goed met het oog te zien zijn.
Twee soorten data combineren
Ook gebruikt de groep AI-modellen om verbanden tussen twee soorten data te vinden, die via andere methodes onontdekt zouden blijven. Zo combineert de groep informatie over het genetische materiaal van planten met hyperspectrale beelden van dezelfde planten, die heel gedetailleerd laten zien hoe de planten elektromagnetische straling van verschillende golflengtes weerkaatsen.
Abeln: “We kijken of we aan de hand van de spectra de genetische varianten kunnen voorspellen. Dat maakt het mogelijk om aan de hand van de hyperspectrale beelden te bepalen of een bepaalde genetische variatie wel of niet aanwezig is. En we kunnen ook zien welke variatie in het DNA echt invloed heeft op een bepaalde golflengte of op een patroon.
Dat is heel belangrijke informatie, want de hyperspectra zijn meestal gekoppeld aan bepaalde stoffen die de plant aanmaakt. Als je dus ziet dat bepaalde variatie in het DNA effect heeft op de hyperspectrale beelden, dan betekent dat dat die variatie invloed heeft op de stofwisseling van de plant. Dat geeft plantenonderzoekers aanwijzingen op welke genetische variatie ze zich moeten richten.”
Tumoren
Zolang er grote hoeveelheden data zijn, is een soortgelijke benadering toe te passen op heel veel verschillende vraagstukken, waaronder medische. Zo combineert de groep van Abeln genetische data met expressiedata van tumoren, oftewel gegevens over welke genen ‘aan’ staan en eiwitten maken.
“Aan de hand van de expressie kunnen we voorspellen of een bepaalde mutatie in de tumor aanwezig is,” vertelt Abeln. “En tegelijkertijd kunnen we achterhalen welke mutaties zorgen voor veranderingen in de expressie, en dus invloed hebben op hoe de tumor zich ontwikkelt. We kunnen hele ingewikkelde verbanden vinden, die niet goed met het oog te zien zijn.”
Ik hoop dat we in Europa, Nederland of Utrecht de regie terugpakken. Dat is beter voor de transparantie, betrouwbaarheid en beschikbaarheid van deze modellen.
Niet alleen voorspellen, ook begrijpen
Abeln ziet dat AI-modellen steeds groter en ingewikkelder worden. “We kunnen veel complexere relaties zien en voorspellen dan jaren geleden. Dat is heel mooi. Maar het echte begrip over waar die voorspellingen op gebaseerd zijn, dat neemt nog maar mondjesmaat toe.”
Abeln ziet dan ook graag dat er ook bij andere mensen in haar vakgebied meer focus komt op het begrijpen van waar voorspellingen vandaan komen. “Als je een medicijn aan het ontwikkelen bent, dan is het vaak belangrijk om te voorspellen hoe het verloop van de ziekte zal zijn. Maar pas als je kan begrijpen wat de oorzaak van de ziekte is, kan je daar gerichte medicijnen op maken. Dus het is heel belangrijk weer terug te gaan naar de oorzaak.”
Regie terugpakken
Abeln uit ook haar zorgen over de afhankelijkheid van bigtechbedrijven. Zo zijn Meta en Google eigenaren van de belangrijkste foundationmodellen voor eiwittaal. “Ik hoop dat we in Europa, Nederland of Utrecht de regie terugpakken,” geeft Abeln aan. “Dat is beter voor de transparantie, betrouwbaarheid en beschikbaarheid van deze modellen. Dat is belangrijk voor zowel de wetenschap, als de Nederlandse biotechsector.”