‘Alles wat wij ontwikkelen is open, altijd’
Verhalen uit het lab: het AI-aided Knowledge Discovery Lab
In zijn vrije tijd is organiseerde hij het NK achteruit skaten, maar onder werktijd wil Jonathan de Bruin alleen maar vooruit. Met open wetenschap, wel te verstaan. De Bruin en de research engineers van het AI-aided Knowledge Discovery Lab bouwen slimme algoritmes die onderzoekers helpen grote hoeveelheden tekstbestanden razendsnel door te lezen. De software die ze bouwen is altijd open, zodat anderen kunnen voortbouwen op wat ze hebben gemaakt.
Zeven jaar geleden was Jonathan de Bruin, alumnus van de TU Delft, de eerste research engineer op de centrale IT afdeling (ITS) van de Universiteit Utrecht. De universiteit had besloten meer te investeren in Research Data Management en in zijn rol stond De Bruin aan de wieg van een heel team van research engineers die onderzoekers bijstaan die ondersteuning, advies of maatwerk nodig hebben om hun onderzoeksdata goed te beheren en te analyseren.
“Wetenschappelijk onderzoek wordt steeds IT-intensiever,” aldus De Bruin over de noodzaak van zo’n team. “Er zijn meer onderzoeksdata en we werken steeds meer met zeer complexe reken- en computermodellen. De opkomst van kunstmatige intelligentie maakt de mogelijkheden om data te analyseren en patronen te herkennen nog veel groter. Dat vereist allemaal ontzettend veel kennis en expertise, maar ook een IT-infrastructuur die specifiek gericht is op het doen van dergelijk onderzoek. Door dat vanuit een centraal niveau aan te vliegen, kun je makkelijker kennis delen en beter zien wat er bij de faculteiten gebeurt en daarop sturen.”
Best bedreven
Onderzoekers zijn zeker bezig met techniek en velen zijn daar ook best bedreven in, zegt De Bruin. “Maar de technologische ontwikkeling gaat momenteel zó hard dat het eigenlijk een full time baan is om dat allemaal in de vingers te krijgen. Dat kun je bijna niet combineren met het schrijven van onderzoeksvoorstellen, het doen van onderzoek en het publiceren van resultaten.” De research engineers fungeren als brug tussen de onderzoekswereld en de wereld van IT-oplossingen. Een rol die De Bruin veel voldoening geeft, maar waar hij volgens collega’s ook enorm goed in is. “Hij kan precies aanvoelen waar een onderzoeker echt behoefte aan heeft,” aldus hoogleraar en directeur van het Disc-AI Lab Rens van de Schoot, met wie De Bruin veel samenwerkt. “Ik zal inderdaad altijd proberen de onderzoeker net een stapje voor te zijn en de tooling ontwikkeld te hebben voordat erom gevraagd wordt”, erkent De Bruin. “Zo houden onderzoekers genoeg tijd voor inhoudelijke vraagstukken en kunnen wij de technologie snel blijven door ontwikkelen.”
De technologische ontwikkeling gaat zó hard dat het een full time baan is om dat in de vingers te krijgen
In het Disc-AI Lab bekijken onderzoekers en research engineers samen welke AI-oplossingen, variërend van geavanceerde software tot de ontwikkeling van een computermodel, bij het onderzoeksproject nodig zijn. “Ons onderzoekslab richt zich daarbij met name op het verkrijgen van kennis uit grote hoeveelheden tekst, zoals wetenschappelijke publicaties. Wij onderzoeken hoe de inzet van machine learning kan helpen bij de systematische review van publicaties. Onderzoekers screenen bij zo’n review handmatig duizenden titels en abstracts van publicaties en weten dan maanden later pas welke papers relevant zijn en welke niet. Dat proces zou je kunnen versnellen door een algoritme te leren waar het naar moet zoeken.”
Ja-nee-spelletjes
Dat doet De Bruin samen met de research engineers van het lab met een vorm van machine learning die active learning heet. Hierbij vindt een interactie plaats tussen het model en de mens, waarbij de interactie dient om het model de juiste kant op te sturen. “Die interactie kun je vergelijken met de ja-nee-spelletjes die je vroeger speelde, waarbij je met slimme vragen erachter moet komen wat de ander bedoelt, maar die persoon mag alleen maar met ja of nee antwoorden. Stel, een onderzoeker wil alle relevante wetenschappelijke literatuur vinden voor een specifieke onderzoeksvraag. Dan stelt het algoritme vragen aan de onderzoeker, bijvoorbeeld of een bepaalde publicatie relevant is, en op basis van het antwoord van de onderzoeker, maakt het algoritme een slimme volgende beslissing. Zo weet het algoritme uiteindelijk uit die enorme stapel de papers te selecteren die relevant zijn voor het onderzoek.”
Dat scheelt niet alleen enorm veel tijd, maar ook veel geld, aldus De Bruin. “Ik denk dat er binnen onze universiteit jaarlijks bijna een miljoen euro aan personeelskosten opgaan aan systematische reviews. Systematische reviews zijn voor deze onderzoekers een belangrijk onderdeel van hun project, maar ze kosten veel capaciteit en energie. Ook is het niet altijd het leukste deel van hun werk, tijd die onderzoekers liever anders besteden. Dankzij AI kan dat onderdeel veel sneller en bovendien kwalitatief beter.”
En dat niet alleen, de maatschappelijke relevantie van dergelijke AI-technieken is ook makkelijk aan te tonen. Zo wordt er in het Lab onder meer gewerkt aan een project waarbij een snellere systematische review zorgt voor betere medicijndosering voor kinderen. In een ander project kijken onderzoekers hoe systematische review van risicofactoren kan bijdragen aan het voorkomen van PTSS bij mensen die een traumatische gebeurtenis hebben meegemaakt. Maar ASReview, Active learning for Systematic Reviews, kan ook gebruikt worden voor de systematische review van rechtbankuitspraken, patenten, beleidsdocumenten, e-mails of socialmediaberichten.
Aanhaken en bijdragen
Het mooie aan de software die in het Disc-AI Lab wordt ontwikkeld, is volgens De Bruin dat het helemaal open source is. “Alles wat wij ontwikkelen is open, altijd en vanaf de eerste regel code. Open delen betekent dat de hele maatschappij kan profiteren van jouw onderzoek. Door die open strategie kunnen andere partijen en externe ontwikkelaars snel aanhaken en bijdragen. En dat kan op allerlei manieren: een stukje code toevoegen, iets rapporteren dat niet goed werkt of iets aan documentatie verbeteren. Buiten de muren van het Lab, van de universiteit, daar zit enorm veel kennis. Door samen op te trekken kun je een waardige tegenhanger zijn van de bigtechbedrijven. Je wilt niet dat dergelijke partijen volledig de lead hebben in het onderzoek naar de vele toepassingen van AI.”
Het algoritme weet uiteindelijk uit die enorme stapel de papers te selecteren die relevant zijn voor het onderzoek
Volgens De Bruin ligt daar een belangrijke rol voor de universiteit. Naast zijn werk voor het Lab is hij projectleider van het track ‘FAIR Data & Software’ binnen het Utrechtse Open Science programma. In die rol probeert hij binnen de universiteit meer aandacht te krijgen voor open data en open software en de randvoorwaarden die nodig zijn om te komen tot een meer open onderzoekscyclus. “Het ultieme doel is dat alles wat je aan data en software hebt verzameld en ontwikkeld hergebruikt kan worden, waardoor je een betrouwbare, transparante, efficiënte en impactvolle wetenschap hebt.”
Wetenschap beter maken
Als het gaat om open source ontwikkeling kan de lat bijna niet hoog genoeg liggen wat betreft De Bruin. “Ik vind het ontzettend belangrijk dat de universiteit zich actief opstelt in de open source community, zeker als het gaat om AI. Als je alles deelt en samenwerkt, dan kun je grote stappen maken en de wetenschap beter maken.”
Daar hoort volgens De Bruin ook vergelijkbare erkenning en waardering bij die onderzoekers krijgen voor publicatie van een onderzoek. “Het kost veel tijd en inzet om een mooie dataset of stuk software open te publiceren, dan zou je niet bij een beoordelingsgesprek te horen moeten krijgen dat je ook een extra paper had kunnen schrijven. Je kunt enorm veel impact maken met data en software, dat realiseert de universiteit zich gelukkig ook steeds meer. Daarom moeten we nu stappen zetten en investeren in de kennis en expertise om AI open en transparant te houden.”
Meer over Jonathan de Bruin
- Winnaar Nederlandse Dataprijs 2020 met project CoronaWatchNL
De Bruin verzamelde alle data over COVID-19 infecties en sterfgevallen in Nederland van het RIVM en de ziekenhuizen. Die dataset was openlijk toegankelijk en herbruikbaar voor de hele onderzoekscommunity. - Winnaar van de skatewedstrijd Vondelpark Cup in de categorie freestyle slalom skaten en organisator van het open NK achteruit skaten.
- De Bruin begon met het ontwikkelen van open source software voor zijn masterscriptie. De software die hij toen ontwikkelde is miljoenen keren geïnstalleerd en door de Python Software Foundation als cruciale software aangeduid.