Pipelines voor data: van losse schakels naar een sterk netwerk

Wie zijn onderdeel van het UDCC, de community van onderzoeksondersteuners aan de Universiteit Utrecht? We stellen je voor aan Adam el Kassimi, data solution architect bij IRAS van de faculteit Diergeneeskunde en onderdeel van dit netwerk. “Ik denk dat het UDCC echt meerwaarde heeft voor onderzoekers en voor de wetenschap.”

Adam el Kassimi van IRAS (foto door Annemiek van der Kuil - PhotoA)

“Als data solution architect houd ik me bezig met data-integratie”, vertelt el Kassimi. “Ik zorg dat de datapakketten die hier binnenkomen bij onderzoekers veilig opgeslagen worden. Ook houd ik me bezig met applicatieontwikkeling om onderzoekstaken te automatiseren.” Dat laatste maakt het werk voor wetenschappers een stuk eenvoudiger. “Onderzoekers delen data van hun onderzoek met andere partijen om samen te werken aan een onderzoeksproject. Dat doen ze via modellen. De output van die modellen automatiseer ik voor hen, zodat het samenwerken eenvoudiger gaat. Dat is allemaal maatwerk. Ik moet daarvoor echt snappen hoe de onderzoeksmodellen werken en wat de kern ervan is. Op basis daarvan bouw ik een applicatie, waarin wetenschappers hun input kunnen aanleveren, zoals een dataset. Vervolgens komt daar output uit waar zij gelijk mee aan de slag kunnen.”

Samenspel tussen onderzoeker en ondersteuner 

Wanneer een onderzoeker zijn vraag aan El Kassimi voorlegt, dan visualiseert hij voor zichzelf al gauw hoe de datastructuur eruitziet. “En als ik het niet begrijp, dan wil ik de data zien. Onderzoekers kennen hun data het best en begrijpen de onderliggende aannames. Zij hebben een beetje dat fingerspitzengefühl: wanneer klopt de oplossing die ik voor hen creëer en wanneer niet?” Dat betekent dat hij de ingerichte processen steeds test bij de wetenschappers. Gaat het binnenhalen van de data correct? Hoe verlopen de transformatie en export van de data? Hij gaat daarbij net zolang door totdat het goed gaat. “Het gaat om heel complexe data en vaak gigantisch grote datasets. Daarom bouw ik algoritmes om die data op een logische manier aan te bieden aan onderzoekers.” El Kassimi werkt daarbij het liefst met het open source besturingssysteem Linux. Zo benut hij de mogelijkheden van IT optimaal, zo zegt hij. “Als je bijvoorbeeld met bureaubladsystemen een bestand van 1 gigabyte wilt binnenhalen en visualiseren, dan kan al gauw de applicatie crashen. Met Linux werkt dit wel.” 

Op kleine schaal probeert el Kassimi onderzoekers mee te nemen in wat hij doet. Hij ondersteunt de wetenschappers, maar het mooist is het wanneer onderzoekers zelf meer van dit soort taken in de vingers krijgen. “Ik laat mensen weten welke tools we bieden, dat SURF Research Cloud bestaat en dat je data niet lokaal op hoeft te slaan”, licht el Kassimi toe. 

Data vervoeren via pipelines 

Voor het veilig opslaan en bewaren van de data adviseert el Kassimi SURF Research Cloud. “Daarop staan allerlei tools om je data te managen. Je hebt er bijvoorbeeld je eigen workspace. Daarin kun je bepaalde processen automatiseren. Data die je ophaalt, extractie heet dat, gaan direct door naar de onderzoekers en alle onderzoekscentra. Zij kunnen dan meteen met die data werken.” 

Welk platform een onderzoeker gebruikt, is overigens onderdeel van de afspraken die onderzoekers en de Universiteit Utrecht maken met de partijen die het onderzoek financieren. 

Een van de tools die heel goed werkt voor data science en data-analyses, is Jupyter Notebook. Binnen dat platform kun je scripts schrijven en tegelijkertijd de output lezen. De data solution architect is daar erg enthousiast over. “Een heel mooi systeem. Binnen Jupyter Notebook bestaat een extensie genaamd Elyra waarmee je de Notebook-scripts visueel aan elkaar kunt koppelen en vervolgens kunt uitvoeren. Daarbinnen heb ik een deployment script gebouwd waarmee je zogenoemde pipelines kunt bouwen. Zo’n pipeline is een algemeen werkproces dat altijd terugkomt bij het extraheren van data, het bewerken en classificeren ervan en het vervolgens doorsturen. Door de pipelines visualiseer je die workflows. Dus een onderzoeker schrijft scripts, en die kan diegene dan naar het scherm slepen en met verbindingslijnen koppelen en zo een nieuwe pipeline creëren.” Via deze pipelines kun je data van de ene naar de andere plek ‘vervoeren’. Met deze extensie ziet de onderzoeker direct wat hij doet, dat is een groot voordeel. El Kassimi hoopt dat de ervaringen van onderzoekers met deze extensie andere onderzoeksgroepen ook weer verder helpt.

Ik wil onderzoekers leren om zelf scripts te schrijven, waarmee ze deze pipelines kunnen creëren.

Adam el Kassimi bij Diergeneeskunde (foto Annemiek van der Kuil - PhotoA)

Scripts leren schrijven 

El Kassimi’s doel is om met de pipelines data toegankelijker te maken voor wetenschappers. Om het platform bij hen te introduceren en te laten zien hoe je het toepast, wil hij bovendien laagdrempelige workshops opzetten. Met het oog daarop kijkt hij met grote interesse naar de inspanningen binnen het UDCC. “Ik wil onderzoekers leren om zelf scripts te schrijven, waarmee ze deze pipelines kunnen creëren. Dat is zeker haalbaar: het zijn simpele scripts, die je zowel in Python als R kunt schrijven. Ook zit er een bepaalde logica in de pipelines, dus je leert het sneller dan je denkt. Het kan ook dat een onderzoeker zelf geen scripts meer hoeft te schrijven, maar een bestaand script kan gebruiken om de eigen data te bewerken, statistieken te genereren en analyses te doen. Ik wil onderzoekers bij elkaar brengen in een workshop, vooral junioren. Hun workflow is vaak makkelijker aan te passen omdat die doorgaans nog niet zo complex is.” In de workshops leren ze de scripts te lezen en te hergebruiken. De data solution architect ziet ook mogelijkheden om samen te werken binnen het UDCC, zodat de kennis die hij deelt verder komt dan alleen IRAS. Voor wetenschappers die nog geen ervaring hebben met Python of R, organiseert RDM Support workshops

Expanse project 

Samenwerken doet el Kassimi ook binnen IRAS met zijn collega’s van het datamanagementteam. Daarin heeft ieder weer zijn expertise. Voor het Expanse project werkt hij met verschillende specialisten uit dat team en met wetenschappers samen. Zij onderzoeken hoe verschillende sociale en omgevingsfactoren onze gezondheid beïnvloeden in stedelijke gebieden. El Kassimi gebruikt ook voor dit project SURF Research Cloud. Daarnaast gebruikt hij virtual machines om data vanuit mobiele applicaties naar de cloud te brengen en vervolgens door te sturen naar Yoda. Daar zet hij wederom pipelines voor in. De onderzoekers willen bijvoorbeeld weten hoeveel mensen meedoen in de vijf jaar dat het project loopt. Ook willen ze inzichtelijk hebben wie er op dit moment deelnemen en wie er deelgenomen heeft. Dankzij de pipelines kan el Kassimi deze overzichten geautomatiseerd genereren. Ook lopen er verschillende deelonderzoeken gericht op het analyseren van de woon- en werkomgeving van mensen in een stad, de luchtkwaliteit en eventuele blootstelling aan chemische stoffen. “Uit al deze onderzoeken komen data en dat levert een enorme database op. Mijn taak is om onleesbare applicatiedata gebruiksklaar te maken voor uiteindelijk gebruik door de onderzoekers. Ook bied ik statistieken aan veldwerkers en andere betrokken stakeholders, zodat zij hun taken kunnen doen binnen het project.”

Het is een privilege om die puzzels te mogen oplossen. En daar maak ik ook nog eens mensen blij mee!

Rol UDCC 

De pipelines die el Kassimi bouwt, doen denken aan de lijnen van het UDCC-netwerk: de verbindingen tussen de onderzoeksondersteuners van de verschillende faculteiten en departementen. De data solution architect ziet voor het UDCC kansen, bijvoorbeeld door samen te werken met SURF voor het faciliteren van de IT-infrastructuur en workspaces. “Ik denk dat het UDCC echt meerwaarde heeft voor onderzoekers en voor de wetenschap. Ik wil stimuleren dat onderzoekers zo doeltreffend mogelijk gebruik maken van de IT- en dataopties die de universiteit te bieden heeft, met aandacht voor efficiëntie, veiligheid en continuïteit.” Ook ziet hij mogelijkheden in samenwerkingen met onderzoeksondersteuners van andere universiteiten. 

Wil je meer weten over de pipelines waar el Kassimi mee werkt of ben je nieuwsgierig naar andere oplossingen die hij heeft gecreëerd voor onderzoekers? Neem dan contact met hem op.

Wie is Adam El Kassimi? 

“Mijn vader nam vroeger wel eens een Compaq computer mee naar huis. Daar ging ik dan mee aan de slag, ook al had ik geen idee wat ik deed. Die apparaten fascineerden mij. Later gamede ik vooral op computers.” El Kassimi koos na zijn vwo voor de studie farmacie aan de Universiteit Utrecht. Vervolgens rondde hij een master in International Economics and Business af. “Zo ontstond de link met data, want voor het overzicht van en inzicht in al die geldstromen moet je de data analyseren.” Bij Randstad kon hij daar zijn werk van maken. “Mijn oude liefde voor computers en mijn interesse in economie kwamen hier samen.” 

Sinds oktober 2022 werkt El Kassimi bij de faculteit Diergeneeskunde en ondersteunt wetenschappers in hun onderzoek. Door zijn achtergrond in de farmacie begrijpt hij goed waar de onderzoekers mee bezig zijn. “Problemen oplossen vind ik een heel leuk onderdeel van mijn werk. Ik snap goed hoe tools en technieken werken en ik weet daarom welke computertechnieken je in moet zetten. Het is een privilege om die puzzels te mogen oplossen. En daar maak ik ook nog eens mensen blij mee!”