Anonimiseren van sociale media data met behulp van een algoritme

Wat betekent research data management in de praktijk van een onderzoeker? In deze reeks interviews door Research Data Management Support delen onderzoekers hun ervaringen over verschillende aspecten van research data management. In dit interview deelt sociale wetenschapper Laura Boeschoten hoe het Research Engineering team haar heeft geholpen met het ontwikkelen van een algoritme om sociale media data te anonimiseren.

Iedereen laat wel digitale sporen na, die sociale wetenschappers graag zouden gebruiken om hun theorieën te onderzoeken. In het project ‘Valide metingen’ van Daniel Oberski, waar in 2019 een NWO-Vidi beurs voor werd toegekend, werkt een groep onderzoekers aan de ontwikkeling van innovatieve statistische methoden om deze digitale sporen te gebruiken voor onderzoek. Laura Boeschoten werkt als postdoc mee aan dit project. Haar project richt zich op het ontwikkelen van een methode om data van sociale media te gebruiken voor onderzoek.

Anonimiseren

Boeschoten legt uit: “Sinds de komst van de algemene verordening gegevensbescherming (AVG) is onderzoek doen met data van sociale media een stuk ingewikkelder. Bovendien houden de platforms de data graag voor zichzelf, omdat aan de data geld wordt verdient. Maar het lijkt erop dat dezelfde AVG een mogelijkheid biedt om dit probleem op te lossen. Als gebruiker van zo’n platform kun je een bestand downloaden met alles wat het platform van jou weet. Hiertoe is het platform verplicht. Dit bestand bestaat uit tekst, maar ook foto’s en video’s. Echter is deze data niet zomaar te gebruiken voor onderzoek vanwege diezelfde AVG wetgeving. Er staan namelijk allerlei persoonsgegevens in. Er moet eerst een ethische aanvraag worden ingediend waar duidelijk moet worden aangegeven welk type persoonsgegevens je nodig hebt voor je onderzoek. Maar bij deze data packages weet je van tevoren niet wat voor persoonsgegevens je gaat aantreffen, wat het onmogelijk maakt om ethische goedkeuring te krijgen. Anonimiseren zou een oplossing zijn, maar met de hand anonimiseren is geen doen, en mag ook niet vanwege de AVG. Daarom heb ik geprobeerd om een algoritme te schrijven in Python die dat voor mij doet. Maar ik vond het moeilijk om dit robuust op te zetten. Research engineers Martine de Vos en Roos Voorvaart hebben mij geholpen de code te structureren en consistenter te maken.”

Laura Boeschoten en Martine de Vos - foto door Annemiek van der Kuil

Martine de Vos is coördinator van het research engineering team van RDM Support. De Vos vertelt: “De platforms veranderen de structuur van de packages continu. Dus als je een algoritme schrijft op één package is de kans groot dat deze al niet meer werkt op een package van een maand later. Door te kijken naar patronen die wel geldig blijven kunnen we dat oplossen. Echter liepen we bij het schrijven van het algoritme tegen een groter probleem aan. Om te zien of een algoritme werkt moet je de resultaten vergelijken met een zogenoemde gouden standaard. In dit geval zou dat een volledig geanonimiseerde data package zijn die met de hand is geanonimiseerd. Maar de AVG wetgeving maakt dat onmogelijk, omdat we wegens privacy bezwaren geen ruwe sociale media data van iemand mogen gebruiken, ook niet om te anonimiseren. Daar hadden we een oplossing voor nodig."

“Samen met een groepje onderzoekers en research engineers zijn we gaan Instagrammen”

Screenshot van een Instagram account gebruikt in dit project

Oplossing
“En die oplossing hebben we gevonden!” Boeschoten legt uit: “Samen met een groepje onderzoekers en research engineers zijn we zelf deze data gaan genereren. We zijn gestart met een aantal lege Instagram accounts waar we zelf content genereren. Op deze manier mogen we wel in deze data packages kijken omdat we weten dat er geen gevoelige info in staat, maar wel de elementen bevat die je wilt testen met het algoritme. Omdat andere onderzoekers misschien ook aan de slag willen met data packages van sociale media wordt de set beschikbaar gemaakt voor de hele onderzoekscommunity. De Vos legt uit: “Het is de bedoeling om onze gegenereerde data te publiceren als open dataset. Meer onderzoekers worstelen met dit probleem, en onze dataset kan daar een oplossing voor zijn. Het algoritme dat wij schrijven wordt ook open source gepubliceerd.”

Samenwerking
Boeschoten is lovend over de hulp die ze krijgt: “De samenwerking met Martine en Roos verloopt erg prettig. We spreken elkaar meerdere keren per week, dus je mag gerust spreken van een nauwe samenwerking. De research engineers hebben echt een professionaliseringsslag weten te maken. Ik denk dat we elkaar goed aanvullen vanuit onze eigen expertises.”

Wat mij motiveert bij dit onderzoek is dat we ons begeven op onontgonnen terrein

Onontgonnen terrein

De postdoc vertelt wat haar motiveert bij dit onderzoeksproject: “Met dit onderzoek begeven we ons op onontgonnen terrein. Kunnen we nou iets zinnigs doen met sociale media data? Daar is nog zo weinig over bekend.” De Vos beaamt dat: “Het exploratieve karakter van dit project maakt dat er een beroep wordt gedaan op onze creativiteit om problemen op te lossen.”

Ook de toekomstplannen voor dit project zijn ambitieus. Boeschoten vertelt: “Uiteindelijk hoop ik met dit project een online omgeving te realiseren waar de respondent de data package naar een beveiligde omgeving stuurt. Binnen deze beveiligde omgeving kunnen allerlei algoritmes op een data package draaien, bijvoorbeeld ons anonimisatie-algoritme. De resultaten worden vervolgens verstuurd naar de onderzoekers om sociaal wetenschappelijke onderzoeksvragen te beantwoorden. Op deze manier kan er veilig onderzoek worden gedaan aan sociale media data.”

Research Data Management Support

Ben je geïnteresseerd geraakt in de diensten van het Research Engineering team? Of wil je nog andere RDM stories lezen over hoe het Research Engineering team een onderzoeker heeft geholpen? Neem een kijkje op onze onze website, of neem contact met ons op.