Van code delen naar open software publiceren

Publishingimpact volgens Rens van de Schoot, Lars Tummers en Jonathan de Bruin

Rens van de Schoot, hoogleraar Statistics for Small Data Sets, Lars Tummers, hoogleraar Publiek Management en Gedrag en Jonathan de Bruin, research engineer bij ITS, werken samen in het Utrechtse onderzoeksproject ASReview. Ze onderzoeken de inzet van machine learning bij systematic reviews en werken zoveel mogelijk volgens de uitgangspunten van Open Science. Samen zetten ze de stap van code delen naar open software publiceren. 

Wat is jullie definitie van Open Science? 

Rens: "Vroeger stond Open Science gelijk aan Open Access. Dat is inmiddels wel uitgekristalliseerd met al die open access deals. Tenminste, dat geldt voor Nederland. Ik ben al eens gevraagd als co-auteur alleen om van mijn open accessmogelijkheden gebruik te kunnen maken. Deze rol van funding author hadden we enkele jaren geleden niet voorzien, toen we met de Jonge Academie een filmpje over auteursrollen maakten. 

Nu is Open Science voor mij vooral het delen van onderwijsmateriaal en het delen van code. Ik probeer al mijn onderwijsmateriaal op mijn website te zetten, open voor iedereen. Daar komen wekelijks duizenden bezoekers op af. Het delen van code begon voor mij een paar jaar geleden met promovendi die de R code van hun data-analyse als appendix aan artikelen gingen toevoegen. Toen leerde ik Jonathan kennen die mij vertelde dat ik mijn code op GitHub moest publiceren met goed versiebeheer en onder een licentie."

Dus nu deel je al jouw code, open voor iedereen? 

"Nou, ik heb hier wel slapeloze nachten van gehad, het is doodeng. Ik deel alles het liefst onder een licentie waarmee alles van mij blijft en iemand anders er geen geld mee kan verdienen. Maar Jonathan overtuigde mij ervan dat het volledig open moet."

Jonathan: "Open delen betekent dat de hele maatschappij kan profiteren van jouw onderzoek. Dit betekent ook dat met jouw code een bedrijf gestart kan worden. Dat er winst mee gemaakt kan worden. Dat jouw idee in een afgesloten omgeving doorontwikkeld kan worden. Maar toch is open delen nodig, omdat je daarmee onverwachte gebruikers krijgt niet alleen uit de academische, maar ook uit de commerciële wereld. In die commerciële wereld zit veel talent. Als je hen zover krijgt bij te dragen aan het open source project dat jij binnen de academische wereld uitvoert, dan kan dat tot een hele mooie samenwerking leiden."

Die samenwerking was er niet gekomen als we ons project niet open hadden gedeeld.

Jonathan de Bruin

Wat betekent dit voor jullie project, ASReview? 

"In ASReview onderzoeken we de inzet van machine learning bij systematic reviews. Onderzoekers die een systematic review doen moeten duizenden titels en abstracts van publicaties screenen om, vaak een heel klein percentage, relevante papers te selecteren. Voor dat doel hebben we een tool ontwikkeld die onderzoekers papers toont op basis van relevantie. Die volgorde waarin papers getoond worden wordt telkens aangepast door de keuzes die onderzoekers maken; includeren of excluderen. 

Die tool hebben we nodig om onderzoek te kunnen doen, maar is natuurlijk ook na ons onderzoek nog van belang. Door nu al zoveel mogelijk partijen bij ASReview te betrekken maken we het levensvatbaar. Andere partijen kunnen ASReview verder brengen ook nadat het academisch gezien voor ons niet langer uitdagend is. 

Een semi-overheidsorganisatie als de European Food Safety Authority (EFSA) heeft al code ontwikkeld voor ons project. Die samenwerking was er niet gekomen als we ons project niet open hadden gedeeld. 

Ook konden we samenwerken met de mensen van het Allen Institute for AI, die een open dataset met publicaties over COVID-19 hebben samengesteld. Met ASReview kun je zoeken in deze set van al bijna driehonderdduizend publicaties. En dat leidde midden in de coronacrisis weer tot een samenwerking met de Federatie Medisch Specialisten, die willen onderzoeken of ze ASReview kunnen inzetten om medische richtlijnen te actualiseren op basis van nieuwe wetenschappelijke inzichten. Voor ons is dat dan weer een kans om verder onderzoek te doen."

Maar jullie willen dus op een gegeven moment ASReview los kunnen laten? 

Rens: "Als wetenschapper moet je valoriseren, je kennis beschikbaar maken voor toepassing in de praktijk. Maar wat als uit die valorisatie blijkt dat iets echt gebruikt kan worden, wie moet dat dan oppakken? Is dit wel een taak van de universiteit, wij zijn toch geen softwareleverancier?"

Jonathan: "We worden gestimuleerd om code en software open te delen en hergebruik mogelijk te maken. Maar op het moment dat dit lukt, heb je als onderzoeker een probleem. Dan is je naam eraan verbonden en moet je het onderhouden en doorontwikkelen. Dat kost heel veel tijd, maar de opties voor onderzoeksfinanciering houden wel op, omdat het innovatieve karakter er af is."  

Rens: "Daarom moeten we het over belonen en waarderen hebben."

Wat moet er veranderen in de beloning en waardering voor onderzoekers? 

"De Jonge Academie heeft een tijdje geleden een position paper gepubliceerd over het nieuwe erkennen en waarderen. Je moet het bijvoorbeeld waarderen dat iemand software in de lucht houdt en daardoor minder wetenschappelijke papers publiceert. Wij hebben net 150 pagina’s documentatie geschreven, die kan ik niet in PURE als onderzoeksoutput registreren. De code moet schoon, geannoteerd en goed beschreven zijn. Dat is heel veel werk, maar het maakt wel het verschil tussen een script voor eigen gebruik en een script dat door iedereen hergebruikt kan worden. Accepteren we dat een promovendus één wetenschappelijke publicatie minder oplevert, maar wel zijn of haar code volledig klaar maakt voor hergebruik?"

Jonathan: "Eigenlijk gaat het hier om het verschil tussen code en software. Code is een scriptje dat je als appendix aan je publicatie plakt. Software is code die echt klaar gemaakt is voor hergebruik. De scheidslijn is vaag, maar de stap van code naar software is wel heel groot."

Rens: "Het delen van code is vanuit transparantie wel het minimale dat iedere onderzoeker moet doen. Maar voor de stap naar open science en het delen van software moet je echt naar belonen en waarderen kijken. Ik leid ook heel veel projecten waarin ik veel minder bezig ben met open science. Ik werk daar met jonge onderzoekers die het zich niet kunnen veroorloven om iets te doen waarvoor ze niet direct gewaardeerd worden. Voor hen zijn deze veranderingen nodig."

Hoe werken jullie als onderzoeker en research engineer samen? 

"Aan erkennen en waarderen wordt gewerkt, maar de universiteit is ook hard bezig om de ondersteuning te regelen. Wij zijn enorm geholpen door experts van de bibliotheek en ITS. Een onderzoeker kan dit niet alleen." 

Jonathan: "Dit soort onderzoek kun je niet alleen doen. Het is onmogelijk om zowel een goede onderzoeker als een goede programmeur te zijn. Het zijn twee verschillende beroepen. We moeten elkaar alleen wel verstaan. Als programmeur moet ik ook begrijpen hoe onderzoek werkt."

Lars Tummers sluit later aan en herkent veel van wat er al gezegd is: "Voor veel onderzoekers die toegepast werken is dit een ver-van-mijn-bed-show. Daar moet je hen echt bij helpen. Als je een studie publiceert, ben je dan ook verantwoordelijk voor de replicatie van jouw theorie in het veld? Daar moeten we naar toe, dat is cumulatieve wetenschap! Vaak komt er geen vervolg, gaat iemand toch net iets anders doen. Door je data en code goed te documenteren kunnen onderzoekers wel voortbouwen op jouw onderzoek. Je moet super open en transparant zijn, maar daarbij kun je wel hulp gebruiken. 

Veel onderzoekers weten niet dat de bibliotheek en ITS ondersteuning kunnen bieden bij onderzoek. Maak van data engineers ook PhD studenten en laat ze in een departement werken. Waarom kan een proefschrift niet uit verschillende data papers bestaan? Mijn onderzoeksvoorstel voor de toepassing van machine learning in onderzoek naar nudging is net goedgekeurd. Ik schreef het deel over nudging, een data engineer schreef het deel over machine learning. En het onderzoek doen we samen. Ik zie geen onderscheid tussen onderzoek en ondersteuning, wat die data engineer doet is ook een vorm van wetenschap." 

 

Benieuwd naar meer inspirerende impactverhalen? Of wilt u zelf uw ervaringen delen? Lees de andere impactverhalen opgetekend door Publishing Support.