"Deze tool bespaart mij als onderzoeker veel werk en stress”

Eenvoudig socialmediadata ophalen én analyseren met 4CAT

In deze verhalenreeks laten we zien welke bijdrage projecten leveren aan FAIR research IT. De onderzoeksteams van deze projecten hebben een grant ontvangen uit het FAIR Research IT Innovatiefonds.

Goed nieuws voor wetenschappers die niet technisch onderlegd zijn, maar in hun onderzoek wél willen werken met socialmediadata: sinds kort kun je aan de slag met 4CAT, een tool om zulke onderzoeksdata eenvoudig te verzamelen en te analyseren. Om het gebruikers nog makkelijker te maken, is 4CAT nu voor alle medewerkers en studenten van de Universiteit Utrecht beschikbaar. Dat is niet alleen handig en efficiënt; het draagt ook bij aan meer FAIRe data.

Voor cultuurwetenschapper Jeroen Bakker staat het buiten kijf: sinds hij met 4CAT werkt, is data verzamelen er een stuk makkelijker op geworden. Bakker doet bij de Data School van de Universiteit Utrecht (zie kader) onderzoek naar online publieke debatten, en de invloed daarvan op de Nederlandse democratie. “In mijn onderzoek werk ik veel met socialmediadata”, vertelt hij. “Ik analyseer bijvoorbeeld miljoenen posts op Twitter, Reddit en Telegram. En ik zoom in op specifieke berichten en groepen gebruikers, om die vervolgens kwalitatief te duiden.”

Wat doet de Data School?

De Data School is onderdeel van het Centre for Digital Humanities, een instituut binnen de Universiteit Utrecht dat zich bezighoudt met digitalisering van de geesteswetenschappen. Onderzoekers aan de Data School bekijken hoe big data en kunstmatige intelligentie invloed hebben op burgerschap en democratie. Ze doen vooral praktijkgerichte projecten in opdracht van lokale en regionale overheden.

Om al die posts van het internet naar zijn computer te halen, gebruikte Bakker voorheen allerlei verschillende softwaretools. Socialmediabedrijven bieden toegang tot gebruikersdata met een zogenaamde Application Programming Interface (API), legt hij uit. “Dat is een manier waarop je als buitenstaander kunt ‘praten’ met het platform. Je zegt bijvoorbeeld: geef mij alle berichten uit maart 2023 met het woord ‘democratie’. Die posts ontvang je dan als ruw databestand.”

Het punt is: op zo’n manier data verzamelen is vrij ingewikkeld, en kost veel tijd. Facebook heeft namelijk weer andere werkwijzen dan Twitter of Snapchat. En de regels veranderen ook nog weleens. Bakker was daarom blij verrast toen hij 4CAT leerde kennen, een online dataverzamelingstool ontwikkeld door onderzoekers aan de Universiteit van Amsterdam (UvA, zie kader). “Er ging een wereld voor mij open.”

Gebruiksvriendelijke software

Wat is 4CAT precies voor tool? “De afkorting staat voor Capture and Analysis Toolkit”, legt Bakkers collega Sander Prins uit. Als projectleider haalde hij de tool naar de Universiteit Utrecht. “De afkorting zegt eigenlijk precies wat je als wetenschapper met 4CAT kunt: socialmediadata verzamelen (capture) en analyseren. En dan niet van één kanaal, maar van meerdere platforms tegelijk. Stel, je bent op zoek naar video’s op TikTok én Instagram met een bepaalde hashtag. Met 4CAT kun je zoiets in een paar klikken opvragen.”

“Juist voor onderzoekers die niets met programmeertalen doen, is 4CAT een uitkomst”

Bovendien zitten in de tool allerlei handige opties verwerkt om de binnengehaalde data meteen te analyseren. Prins: “Je kunt bijvoorbeeld bekijken hoe berichten over een bepaald onderwerp zijn verspreid over de tijd. Die informatie is met behulp van 4CAT zo om te zetten in een handige tabel of histogram. Maar de tool kan ook uitgebreidere ‘netwerkvisualisaties’ maken, waarmee je in een oogopslag ziet hoe verschillende socialmedia-accounts zich tot elkaar verhouden.”

Jeroen Bakker and Sander Prins at the Drift, Utrecht (photographer: Laura Hompus)
Jeroen Bakker en Sander Prins bij de Drift, Utrecht (fotograaf: Laura Hompus)

Samenwerking met de UvA

4CAT is ontwikkeld door het Digital Methods Initiative (DMI), onderdeel van de Universiteit van Amsterdam. De Data School van de Universiteit Utrecht werkt nauw samen met dit team. “Wij zijn zelf niet de makers van 4CAT, maar dragen bij aan de ontwikkeling ervan door feedback en aanvullingen te geven”, licht Sander Prins toe. “Waar het DMI vooral focust op de technische aspecten en de ontwikkelingen van 4CAT, richten wij ons meer op data-ethiek: hoe ga je zorgvuldig om met de gebruikersdata die je verzamelt? We vullen elkaar daarin goed aan.”

Zo hoeven onderzoekers dus niet meer zelf met API’s of andere technische methodieken aan de slag, terwijl ze wél makkelijk en snel grote hoeveelheden data kunnen binnenhalen en verwerken. “Wetenschappers zijn vrijwel altijd book smart, maar lang niet iedereen is programming smart”, zegt Prins. “Voor wie niets met programmeertalen doet, is 4CAT een uitkomst.”

Het programma heeft een gebruiksvriendelijke interface, waarin je gewoon kunt klikken en tekstvakken invullen. Je hoeft dus niet te kunnen programmeren. Prins: “Juist wanneer je nog nooit iets met programmeertalen hebt gedaan, is dit de tool voor jou.”

Voor alle medewerkers

Iedereen die dat wil, kan de code van 4CAT gratis downloaden en installeren op z’n laptop. Maar dat vereist nog wel enige technische kennis. Om het gebruikers makkelijker te maken, wordt 4CAT sinds kort voor onderzoekers en studenten aan de Universiteit Utrecht aangeboden. De tool draait nu op een server van de universiteit. Onderzoekers die ermee willen werken, kunnen toegang aanvragen via deze link. Studenten en docenten die de tool voor onderwijsdoeleinden willen gebruiken, kunnen via deze link toegang vragen. Of stuur een mail aan s.prins@uu.nl.

Ook de opgehaalde onderzoeksdata – zoals posts, tweets, foto’s en video’s – worden netjes op de UU-server bewaard. “Hartstikke fijn: ik hoef niet meer mijn eigen laptop dagenlang aan te houden wanneer ik 4CAT gebruik”, zegt Jeroen Bakker verheugd. “Dat scheelt bovendien een hoop opslagruimte, en je hebt geen gedoe meer met back-ups en externe harde schijven. Maar bovenal bespaart het veel stress. Want ik weet zeker dat het systeem stabiel blijft draaien, en dat ik geen data kwijtraak.”

Je kunt precies terugvinden welke data je hebt verzameld – en op welke manier.

Jeroen Bakker, researcher working with 4CAT (photographer: Laura Hompus)
Jeroen Bakker, onderzoeker

Grant uit het FAIR Research IT Innovatiefonds

Om de installatie van 4CAT op de UU-server technisch voor elkaar te krijgen, ontving het Centre for Digital Humanities een beurs van het FAIR Research IT Innovatiefonds (zie kader). De tool helpt namelijk om onderzoeksdata meer FAIR te maken, zegt Prins. “4CAT maakt het laagdrempeliger en toegankelijker om gegevens van online platforms op te halen. Bovendien gebeurt dat volgens de ontwerpprincipes van 4CAT: transparant, modulair en traceerbaar. Je kunt precies terugvinden welke data je hebt verzameld – en op welke manier. Dat verhoogt de reproduceerbaarheid van je onderzoek.”

Bakker vult aan: “Het is met 4CAT ook mogelijk om jouw data-analyses te delen met anderen, simpelweg door een link aan te maken. Via die link kunnen anderen je databestanden bekijken en eventueel gebruiken.” Kortom: werk je met 4CAT, dan worden je onderzoeksgegevens beter Findable, Accessible, Interoperable en Reusable.

“Daarbij kijken we natuurlijk goed naar de regels rondom gegevensbescherming”, benadrukt Prins. “Want hoewel 4CAT socialmediadata gemakkelijker beschikbaar maakt voor onderzoek, betekent dit niet dat deze data zomaar openbaar gedeeld mogen worden. Met ‘Tactvol contactloos onderzoek’, een document speciaal samengesteld voor dit soort onderzoek, kijken we naar welke stappen er per keer nodig zijn. Als onderzoekers werken met bijzondere persoonsgegevens, worden die geanonimiseerd of gepseudonimiseerd.”

Over het FAIR Research IT Innovatiefonds

De Universiteit Utrecht wil dat elk onderzoeksteam goed ondersteund is op het gebied van research IT. Een van de manieren om dat te bereiken, is via het FAIR Research IT Innovatiefonds. Wetenschappers kunnen een bijdrage krijgen voor projecten die bijvoorbeeld de IT-infrastructuur van wetenschappelijk onderzoek verbeteren. Denk aan projecten die zorgen dat er voldoende opslagcapaciteit is voor data, of aan de ontwikkeling van tools en diensten die onderzoekers kunnen helpen in hun werk. Bij de keuze voor projecten vormen de FAIR- en open science-principes de leidraad. Andere onderzoekers moeten de kennis en oplossingen makkelijk en snel opnieuw kunnen gebruiken.

Bijdragen aan betere onderzoeksmethoden

Zeker in hun eigen vakgebied, de geesteswetenschappen, zijn er op het vlak van digitale onderzoeksmethoden nog stappen te zetten, zeggen Bakker en Prins. “Er zijn de laatste jaren steeds meer digitale analysemogelijkheden bijgekomen, maar we zien dat de drempel vaak nog hoog is om die te gebruiken. Door tools als 4CAT breder beschikbaar te stellen, willen we betere onderzoeksmethodieken aanmoedigen.”

Denken in data is een bepaalde 'bril' die je moet opzetten.

Voor wetenschappers die benieuwd zijn naar wat 4CAT voor hun onderzoek kan betekenen, organiseren Prins en Bakker regelmatig introductieworkshops. Bakker: “Daarin maken we je helemaal wegwijs. Denken in data is een bepaalde ‘bril’ die je moet opzetten. Zodra je dat doorhebt, ga je ineens zien welke mogelijkheden er allemaal zijn. En dat kan enorme meerwaarde hebben voor je onderzoek.”

Meer weten?

  • Op 4CAT.nl vind je meer informatie, een link naar de broncode en video-tutorials. 
  • Het Centre for Digital Humanities organiseert regelmatig introductieworkshops over 4CAT. De cursusagenda vind je hier.
  • Lees meer over het FAIR Research IT-programma van de Universiteit Utrecht.