‘Met Named Entity Recognition haal je veel meer uit een tekstcorpus’

In deze serie interviews laten we zien welke bijdrage projecten kunnen leveren aan FAIR Research IT. De onderzoeksteams van de projecten hebben een subsidie ontvangen van het FAIR Research IT Innovation Fund.

Met I-Analyzer kun je tekstcorpora gemakkelijk doorzoeken en visualiseren. Bovendien kun je straks met de functionaliteit Named Entity Recognition snel en gemakkelijk zoeken op entiteiten zoals plaatsnamen, personen of organisaties. Ook kun je deze Named Entities visualiseren. Deze toepassing wordt vanuit het project TextMiNER geïntegreerd in I-Analyzer. Dit draagt bij aan FAIR werken en Open Science.

Stel, je doet onderzoek naar het thema ‘samenwerking’ in Engelse kranten. Je opent de onderzoekssoftware I-Analyzer en voert je zoekopdracht in voor het corpus van The Times. Al snel verschijnen allerlei data op je scherm: je ziet welke teksten iets over samenwerking zeggen, hoe vaak dit gebeurt en wanneer. Je scrolt door enkele artikelen en in één oogopslag zie je alle plaatsen in de tekst waar het woord ‘samenwerking’ wordt genoemd, want die zijn met kleuren gemarkeerd. Sterker nog, je ziet op een topografische kaart alle plaatsnamen die in deze artikelen genoemd worden.

I-Analyzer is ideaal voor onderzoekers die met grote tekstcorpora werken. Bovendien kun je met Named Entity Recognition binnenkort nog meer gegevens snel en eenvoudig ophalen en visualiseren.

Dit scenario was tot voor kort slechts een droom voor sommige onderzoekers, maar binnenkort komt daar verandering in. Dat is te danken aan Research Software Engineer Berit Janssen en haar collega’s van het Research Software Lab (RSLab) team van het UU Centre for Digital Humanities. “Ons team ondersteunt geesteswetenschappelijke onderzoekers die software gebruiken, bijvoorbeeld voor grote corpusstudies op krantenartikelen,” vertelt Janssen. “Wij adviseren over de juiste software daarvoor en ontwikkelen op verzoek ook zelf software.” Het team bouwde onder andere I-Analyzer: een tool voor het doorzoeken en visualiseren van tekstcorpora. Daarmee kun je vanuit vogelperspectief (‘distant reading’) een grote verzameling teksten analyseren. “Handig als je bijvoorbeeld wilt weten welke zoektermen erin zitten, of hoe de verdeling van typen teksten binnen het corpus is. Zo kun je je onderzoeksvraag beantwoorden of een selectie maken die je verder analyseert met ‘close reading’. Je zoomt dan verder in op de details.”

Momenteel staan er vooral krantencorpora in I-Analyzer, maar ook bijvoorbeeld rechtbankverslagen en parlementaire data. “Met deze corpora kunnen onderzoekers direct werken. Als ze met een ander corpus willen werken, dienen ze een verzoek bij ons in.” Sinds kort is I-Analyzer bovendien open source, zodat iedereen het kan gebruiken met een eigen dataset. Dit draagt bij aan Open Science. “We werken er naartoe dat je als onderzoeker corpora gemakkelijker kunt invoeren zonder code te gebruiken. Zo wordt het nog toegankelijker.”

Named Entity Recognition (NER)

Dr. Berit Janssen, photo by Annemiek van der Kuil, PhotoA

Hoewel de komst van I-Analyzer voor onderzoekers al veel winst betekende, zagen Janssen en haar collega’s een onvervulde behoefte. “Onderzoekers vroegen regelmatig: kunnen we iets doen met Named Entity Recognition (NER)? Zo wilden historici onderzoek doen naar plaatsnamen in krantenberichten tijdens de Tweede Wereldoorlog. Een tekstcorpus handmatig doorspitten kost echter heel veel tijd. Met NER doorzoek je een corpus automatisch op zogenaamde ‘entiteiten’, zoals plaatsnamen, personen, merknamen of jaartallen. Hoewel je dan wat meer fouten hebt, kun je veel meer teksten analyseren.” Een handige functionaliteit dus, maar dan moet die wél beschikbaar zijn. Zo kwam het RSLab Team op het idee om een aanvraag in te dienen bij het FAIR Research IT Innovation Fund voor het project TextMiNER. “Om onderzoek met Named Entities mogelijk te maken in I-Analyzer, moeten we namelijk de data verrijken. Dat betekent dat we één keer door alle teksten van een corpus gaan en alle Named Entities labelen. Wij doen dat met een model binnen de software spaCy. Die labels slaan we op en maken we zichtbaar in I-Analyzer, zodat onderzoekers ermee verder kunnen.”

Wat is Named Entity Recognition?

Named Entity Recognition (NER) gebeurt met machine learning modellen. Deze modellen zijn getraind op grote hoeveelheden data met ‘named entities’ die door mensen zijn geannoteerd. Hierdoor kunnen de modellen bij nieuwe data voorspellingen doen waar zich mogelijk plaatsnamen, persoonsnamen en andere ‘entiteiten’ bevinden.

Voordelen voor onderzoekers

Dankzij dit project krijgen gebruikers van I-Analyze straks direct toegang tot de NER-functionaliteit. Ideaal voor onderzoekers die werken met grote hoeveelheden tekstuele data, aldus Janssen. “Zo wilde een onderzoeker het concept van Fairtrade volgen. NER kun je dan inzetten om een analyse te doen op chocolademerken die worden genoemd in Engelse kranten door de tijd heen. Een ander onderzoeksproject ging over familiebedrijven. Aangezien ook bedrijven zijn gelabeld, kun je hierop zoeken in het corpus met jaarverslagen van Nederlandse bedrijven.”

Kortom, deze functionaliteit biedt legio mogelijkheden voor onderzoekers. Wat kunnen zij straks precies verwachten als ze hiermee aan de slag gaan? “Stel, je doorzoekt een corpus in I-Analyzer. Dan zie je welke entiteiten zijn gevonden en kun je op die data statistiek toepassen. Misschien vergelijk je verschillende perioden: wat komt wanneer vaker voor? Of je zoomt in op de opgehaalde data: je ziet de zin waar de entiteit in staat, met daarbij het label en de inhoud.” Ook wil het team de Named Entities visueel weergeven, onder meer met histogrammen en geografische kaarten waarop plaatsnamen zijn gemapt. Daarnaast worden in de teksten zelf alle entiteiten met kleuren gemarkeerd. Het is wel belangrijk op te merken dat je Named Entities alleen kunt doorzoeken in de verrijkte corpora in I-Analyzer, benadrukt Janssen. “Tenzij je zelf kunt programmeren. De code die we ontwikkelen is open source, dus onderzoekers kunnen straks ook zelf Named Entity Recognition toepassen op hun tekstcorpora.”

Dr. Berit Janssen, photo by Annemiek van der Kuil, PhotoA

FAIR werken

TextMiNER past goed bij een FAIR werkwijze, legt Janssen uit. “Zo maakt NER bepaalde aspecten van data beter vindbaar. Ook maakt dit project deze functionaliteit toegankelijker voor onderzoekers, op een herbruikbare manier. We proberen als team sowieso altijd software te ontwikkelen die niet eenmalig bruikbaar is, maar blijvende waarde heeft. NER is een methode die door verschillende disciplines kan worden gebruikt. Daarom is een project als TextMiNER ook zo mooi: we creëren op systematische wijze een oplossing die veel onderzoekers helpt.” Verder vergroot TextMiNER de ‘interoperability’ doordat verschillende (onderzoeks)technieken worden gekoppeld, zoals filteren, analyseren en het bekijken van Named Entities. Kun je met I-Analyzer ook gemakkelijk samenwerken of onderzoek repliceren? “In principe wel. Ook voor onderzoekers buiten de UU is I-Analyzer toegankelijk. Wel moet je dan beiden toegang hebben tot het corpus. Helaas zijn niet alle data binnen I-Analyzer openbaar. Dat komt doordat de eigenaar van een krantencorpus vaak een uitgever is, met wie iedere universiteit een eigen overeenkomst moet sluiten. Van niet-openbare data zijn de verrijkingen dan ook lastig te delen. Als onderzoeker kun je misschien nog wel aangeven welke Named Entities zijn gevonden zonder de tekst zelf te delen, maar dat moet worden afgestemd met degene die de rechten bezit.”

Een kans voor eigen initiatief

Zonder het Innovatiefonds was dit project volgens Janssen niet snel van de grond gekomen. “We zien al geruime tijd dat onderzoekers dit graag willen. Sommigen hadden zelfs wat budget, maar nooit toereikend om grote hoeveelheden data te verrijken, laat staan visueel weer te geven. Het Innovatiefonds bood een prachtige kans om dit eindelijk op te pakken.” Het fijne aan deze grant is volgens haar dat ze die als Research Software Engineers konden aanvragen. “Voor veel fondsen heb je een onderzoeker nodig. Nu konden wij zelf het initiatief nemen om deze oplossing te creëren.” Het budget wordt ingezet voor de tijd die het ontwikkelen vraagt. Daar is Janssen momenteel vooral zelf mee bezig. “Ik zet eerst een pilot op door de data voor te bereiden. Ik test vooral hoe we de labels goed kunnen opslaan, op een manier waarmee je ze ook snel kunt ophalen.”

Vanaf 2024 gaan meerdere teamleden aan het project werken. “Dan gaan we NER op grote schaal toepassen en de visuele weergave van Named Entities ontwikkelen. ” Welk corpus krijgt hierbij de primeur? “Waarschijnlijk The Times. Krantencorpora zijn voor veel onderzoekers interessant. Bovendien stond dit corpus als eerste in I-Analyzer. Daarna zijn de Tweede Kamerdebatten wellicht een goede optie, aangezien die openbaar zijn.” In ieder geval blijft het RSLab verkennen hoe ze onderzoekers telkens weer verder kunnen helpen met slimme oplossingen. “Neem de weergave van Named Entities op een kaart. Onderzoekers wilden dat zo graag, maar we moesten hen altijd teleurstellen. Straks kunnen we zeggen: dat kan!”

Wil je ook aan de slag met I-Analyzer? Krijg hier direct toegang of bekijk de GitHub-pagina’s van I-Analyzer en het project TextMiNER.

FAIR IT Innovatiefonds voor onderzoek

De Universiteit Utrecht wil dat elk onderzoeksteam goed ondersteund wordt op het gebied van onderzoeks-IT. Een van de manieren om dit te bereiken is via het FAIR IT Innovatiefonds voor onderzoek. Wetenschappers kunnen subsidie krijgen voor projecten die bijvoorbeeld de IT-infrastructuur van wetenschappelijk onderzoek verbeteren. Je kunt hierbij denken aan projecten die voldoende opslagcapaciteit voor data mogelijk maken, of aan de ontwikkeling van tools en diensten die onderzoekers helpen bij hun werk. FAIR en open science principes zijn de richtlijnen bij het selecteren van projecten. Andere onderzoekers moeten de kennis en oplossingen gemakkelijk en snel kunnen hergebruiken.