‘Deze software maakt privacygevoelige onderzoeksgegevens toegankelijker’.

In deze serie interviews laten we zien welke bijdrage projecten kunnen leveren aan FAIR Research IT. De onderzoeksteams van de projecten hebben een subsidie ontvangen van het FAIR IT Innovatiefonds.

Werk je als wetenschapper of onderzoeksorganisatie met privacygevoelige data? Met de software metasyn (voorheen bekend als MetaSynth) maak je gemakkelijk synthetische data waarbij je de privacy van personen waarborgt. Zo kun je sensitieve data tóch publiceren en wordt onderzoek doen met bestaande data gemakkelijker. Bovendien draagt dit bij aan FAIR data en Open Science.

Wanneer een onderzoeker vol enthousiasme praat over ‘heel leuke statistische problemen’, dan weet je meteen: aan bevlogenheid geen gebrek. Het zijn de woorden van Erik-Jan van Kesteren, assistant professor in de Human Data Science Group, onderdeel van het departement Methodology and Statistics van de Faculteit Social & Behavioural Sciences. Enkele jaren geleden werd de statisticus gevraagd om vanuit de nationale onderzoeksstructuur ODISSEI (zie kader) het Social Data Science-team (SoDA) op te zetten. ‘Wij helpen sociale wetenschappers met zaken als data science en computationele research, zoals het gebruik van algoritmes en modellen om patronen te begrijpen. Het onderzoek dat ik doe, is dus echt gericht op statistische problemen vanuit de onderzoekspraktijk.’

Tackelen van issues met privacygevoelige data

Erik-Jan van Kesteren assistant professor in the Human Data Science Group, part of the Department of Methodology and Statistics of the Faculty of Social & Behavioural Sciences
Erik-Jan van Kesteren, foto door Annemiek van der Kuil, PhotoA

Vanuit het SoDa-team zag Van Kesteren een terugkerend probleem: data zijn niet goed beschikbaar bij privacygevoelige projecten. ‘Veel (sociale) wetenschappers werken met privacygevoelige data. Denk aan een psycholoog die mensen vraagt een vragenlijst in te vullen over hun mentale gezondheid. Of een onderzoeker die werkt met microdata van het Centraal Bureau voor de Statistiek (CBS). Dat soort data kun je vanwege privacy vaak niet publiceren. Daardoor kunnen anderen je onderzoek niet reproduceren of checken. Dat staat haaks op het idee van Open Science. Bovendien: je wilt op bestaand onderzoek kunnen voortbouwen.’ 

Wat is ODISSEI?

Het Social Data Science Team (SoDa) is onderdeel van ODISSEI, een nationale onderzoeksinfrastructuur voor de Nederlanse sociale wetenschappen. Hierin bundelen faculteiten, data-providers, langlopende onderzoeken en andere organisaties hun krachten. Het doel: data beter beschikbaar maken voor sociale wetenschappers en hen helpen beter gebruik te maken van de mogelijkheden die data science biedt.

Synthetische data

Hoe wordt het publiceren en (her)gebruiken van privacygevoelige data gemakkelijker? Een veelbelovende oplossing, aldus Van Kesteren: synthetische data. ‘Dat zijn een soort namaak-data die lijken op je echte data en die je wél publiceert. Je gebruikt daarvoor een statistisch model dat kijkt naar de kenmerken van jouw data, maar dat vervolgens andere gegevens produceert. Je kunt er daarom niet je analyses op doen. Zie het als testdata of oefendata.’

Handig, maar niet zonder valkuilen. ‘Allereerst zijn er privacyrisico’s bij veel bestaande programma’s. Als je het model uitgebreid traint op je data, lijken de synthetische data sterk op de echte data. Je hebt dan veel analytische validiteit, je kunt bij wijze van de eindresultaten reproduceren. Echter, daardoor kun je soms ook individuele gegevens herleiden.’ Daarnaast zag Van Kesteren problemen met de bruikbaarheid van bestaande synthetische data-oplossingen. ‘Je kunt per project een iets beter model maken waarmee je toch privacy behoudt, maar dat is maatwerk. De data verschillen, net als het privacykader: er gelden verschillende regels en afspraken per project of organisatie. Het liefst wil je een generieke oplossing die tóch privacyvriendelijk is.’

Metasyn is een generieke oplossing die tóch heel privacyvriendelijk is. Daardoor is het voor veel onderzoekers en projecten geschikt.

Privacy voorop

Zo ontstond het idee voor metasyn. Samen met SoDa-collega en Research Engineer Raoul Schram ontwikkelde Van Kesteren een proof of concept. De uitgangspunten: synthetische data mét privacygaranties, waarbij de privacy bovendien automatisch is ingebouwd. Over dat privacy-aspect vertelt Van Kesteren: ‘Ons motto is: zo privacyvriendelijk mogelijk. Daarom behoudt metasyn alleen eigenschappen op het variabele niveau. Neem een dataset met inkomens en leeftijd. Dan kan ik de inkomensdistributie bekijken, maar als ik vervolgens iets met leeftijd wil doen, gebruik ik een ander model. De relatie tussen inkomen en leeftijd valt dus weg. Dat beperkt de analytische validiteit, maar garandeert dat je niet op basis van leeftijd iemands inkomen kan voorspellen.’

Dan het tweede punt: het ‘automatiseren’ van de privacy. ‘Om dat voor elkaar te krijgen, bouwen we twee plugins. Daarmee kunnen organisaties zoals YOUth of nationale statistiekbureaus regels opstellen over wat wel en niet wordt geëxporteerd, conform hun privacyrichtlijnen. Die keuzes worden geïmplementeerd in de plugin. Vervolgens kun je als onderzoeker met een soort ‘pick and match’ kiezen welke privacydefinitie je wilt volgen, afgestemd op jouw project. Dit biedt veel meer mogelijkheden en scheelt tijd.’

Erik-Jan van Kesteren assistant professor in the Human Data Science Group, part of the Department of Methodology and Statistics of the Faculty of Social & Behavioural Sciences
Erik-Jan van Kesteren, foto door Annemiek van der Kuil, PhotoA

Een uitkomst voor zowel publiceren als onderzoek doen

Voor wie is metasyn vooral interessant? ‘Sowieso voor onderzoekers en dataproviders die privacygevoelige data beter beschikbaar willen maken vanuit een open science mentaliteit. Onze visie is dat projecten zoals YOUth naast een databeschrijving ook een synthetische versie beschikbaar maken. Alsof het poortje op een kier gaat, zo van: kijk eens wat erin zit. We doen met YOUth ook een pilot met synthetische data.’

Daarnaast is metasyn een uitkomst voor onderzoekers die bestaande data willen gebruiken. ‘Stel: je wilt weten of YOUth interessante data heeft voor je eigen onderzoek. Voorheen moest je dan in gesprek gaan, uitpluizen welke data je kunt koppelen en of je kunt meten wat je wilt meten. Dankzij metasyn kun je al een soort testversie van je onderzoek doen. Zo ontdek je: kan ik met deze data mijn onderzoeksvraag beantwoorden? Dat maakt het proces efficiënter en makkelijker.’ Dankzij de synthetische data leer je de data bovendien kennen. ‘Je kunt alvast je script schrijven, kijken of het loopt, problemen oplossen. Je ziet de data voor je. Dat is zo belangrijk als onderzoeker: je moet gevóel krijgen bij je data. Daardoor wordt je onderzoek ook minder foutgevoelig.’ Bonus: doordat je dit alles vóóraf kunt doen, kun je de echte data gericht aanvragen. ‘Dat bespaart kosten, want je betaalt vaak voor de duur dat je toegang hebt.’ 

FAIR en Open Science

Metasyn sluit goed aan bij de FAIR-mentaliteit. ‘Het maakt privacygevoelige datasets meer accessible, maar het vergroot ook de interoperability; met metasyn kun je data in bijvoorbeeld Python, R of Excel exporteren. En het wordt meer reusable: met bestaande data kan gemakkelijker nieuw onderzoek gedaan worden. En publiceer je je onderzoek mét een synthetische dataset? Dan kunnen anderen ook je code hergebruiken voor een ander onderzoeksproject of om op jouw onderzoek voort te bouwen.’ Zoals gezegd past dit project bovendien bij de open science gedachte. ‘Sowieso zijn we heel transparant: je kunt goed zien wat er uit de beveiligde omgeving gaat: we hebben een format dat je gewoon kunt openen en lezen. Dat is belangrijk voor organisaties die werken met privacygevoelige data. Ze kunnen dan precies zien wat er met de data gebeurt.’

Als onderzoeker moet je gevoel krijgen bij je data. Metasyn maakt dat al in een vroeg stadium van je onderzoek mogelijk.

Een grote sprong door de grant van het Innovatiefonds

Metasyn is een van de projecten die de FAIR Research IT Fund ontvingen (zie kader). Deze beurs kwam voor metasyn op een cruciaal moment. ‘Daarvóór liep het project ‘in het klein’, maar van proof of concept naar daadwerkelijk bruikbare software is een grote sprong. Die kunnen we maken dankzij de beurs.’ Het geeft Schram en Van Kesteren de kans om de software door te ontwikkelen, bijvoorbeeld door het voor meer datatypen geschikt te maken zoals open vragen. ‘En we bouwen dus de plugins, waarbij andere onderzoekers ons dankzij de beurs kunnen helpen. Ook hebben we een studentassistent ingezet op de documentatie en landing experience, zodat een bezoeker van de metasyn-pagina meteen weet wat het is en hoe je het gebruikt.’

Je kunt metasyn al bekijken, downloaden en er zelfs aan bijdragen: het is helemaal open source. ‘We zijn nog een beetje in de experimentele fase, maar als individuele onderzoeker kun je al ervaren hoe makkelijk het is: synthetische data maken. We hebben ook tutorials. Dus: probeer het eens uit en laat ons weten hoe het gaat!’ 

Meer weten over het omgaan met persoonlijke data in je onderzoek? Check hiervoor het Data Privacy Handboek

Over het FAIR IT Innovatiefonds voor onderzoek

De Universiteit Utrecht wil dat elk onderzoeksteam goed ondersteund wordt op het gebied van onderzoeks-IT. Een van de manieren om dit te bereiken is via het FAIR IT Innovatiefonds voor onderzoek. Wetenschappers kunnen subsidie krijgen voor projecten die bijvoorbeeld de IT-infrastructuur van wetenschappelijk onderzoek verbeteren. Je kunt hierbij denken aan projecten die voldoende opslagcapaciteit voor data mogelijk maken, of aan de ontwikkeling van tools en diensten die onderzoekers helpen bij hun werk. FAIR en open science principes zijn de richtlijnen bij het selecteren van projecten. Andere onderzoekers moeten de kennis en oplossingen gemakkelijk en snel kunnen hergebruiken.