Promotie: Entity Resolution on Historical Knowledge Graphs

tot

Semantisch web-technologie wordt steeds vaker gebruikt in de geesteswetenschappen. De technologie maakt grootschalige datasets uit de erfgoedwereld makkelijker toegankelijk, zoals bijvoorbeeld de indexen van personen en locaties in het Stadsarchief Amsterdam. Daarnaast faciliteert de techniek de integratie van verschillende databronnen, wat analyses mogelijk maakt die datasets overstijgen. Dit is iets wat voorheen niet mogelijk was. Zo wordt het bijvoorbeeld mogelijk om iemands leven te reconstrueren aan de hand van primaire archiefbronnen.

De integratie van verschillende historische datasets brengt echter een aantal complicaties met zich mee. Omdat het merendeel van deze archiefdatasets gericht is op het bieden van een snelle en gemakkelijke toegang, is het waarschijnlijk dat dezelfde persoon meerdere keren is opgenomen in één dataset en/of meermaals voorkomt in verschillende datasets, telkens met een nieuwe vermelding en unieke identificatiecode. Voordat we dit oplossen en de ‘dubbele entiteiten’ ondubbelzinnig maken, is het nog niet mogelijk om dit type onderzoek uit te voeren. 

Dit proefschrift biedt een oplossing voor dit probleem en beschrijft een methode om het aantal duplicaten in een dataset terug te dringen of zelfs helemaal te verwijderen. Dat doen we door de unieke vermeldingen van personen te clusteren.

Hiervoor beschrijft dit onderzoek de toepassing van 'embeddings': een techniek om representaties te maken van entiteiten, zoals knopen in een netwerk, die door een computer gelezen kunnen worden. De methode construeert de embeddings zodanig dat een grote gelijkenis tussen twee knopen indicatief is voor een duplicaat. Echter, afgaan op deze paarsgewijze overeenkomsten is niet zonder risico's. Zo kan de toepassing van een drempelwaarde leiden tot een schending van transitiviteit. De entiteitsparen $(A, B)$ en $(B, C)$ kunnen bijvoorbeeld beide een hoge gelijkenis hebben, maar dit hoeft niet het geval te zijn voor paar $(A, C)$.

Om dit probleem op te lossen worden zowel de paarsgewijze overeenkomsten als de eerder berekende overeenkomsten gecombineerd bij het clusteren van entiteiten. Toch komt het voor dat deze clusteralgoritmen een valspositief en/of -negatief produceren. Om dit tegen te gaan en de clusterresultaten significant te verbeteren, beschrijft dit werk het gebruik van domeinspecifieke kennis en restricties om clusterfouten op te sporen en te corrigeren. Een voorbeeld van een dergelijke restrictie is dat men niet met zichzelf kan trouwen, of dat een persoon eerst wordt gedoopt en dan wordt begraven.

Begindatum en -tijd
Einddatum en -tijd
Locatie
Academiegebouw, Domplein 29 & online (livestream link)
Promovendus
J. Baas
Proefschrift
Entity Resolution on Historical Knowledge Graphs
Promotor(es)
prof. dr. M.M. Dastani
prof. dr. E. Stronks
Co-promotor(es)
dr. A.J. Feelders
Meer informatie
Full text via Utrecht University Repository