Hoe keken we door de eeuwen heen in Nederland naar dieren en planten? Taalmodel GysBERT brengt het in kaart

CDH interview

Hoe beleefde een zestiende-eeuwse Nederlander de dieren en planten om zich heen? En hoe veranderde dat in de eeuwen daarna? Wanneer verhuisde het konijn van etenswaar naar huisdier en het paard van vervoersmiddel naar plezierdier? Vooral literaire teksten, wetenschappelijke teksten en volksverhalen laten een unieke glimp zien van opvattingen over de band tussen mens en natuur in het verleden. Promovendus Arjan van Dalfsen wil taalmodel GysBERT inzetten om grote hoeveelheden gedigitaliseerde teksten te doorzoeken op de opvatting van de Nederlander over dieren en planten van 1550 tot 2000.

Arjan van Dalfsen haalde een bachelor in Nederlandse Taal en Cultuur en in Scheikunde. Tijdens zijn research master Nederlandse Literatuur en Cultuur begon hij al met het bestuderen van  vroegmoderne teksten met behulp van digitale methoden. Na zijn diplomering startte hij met een PhD onderzoek binnen AI Labs, waarbij wordt hij omringd door een indrukwekkende groep experts: cultureel historici, informatici, ecologen en statistici. Zijn grootschalige onderzoek is mogelijk door de nieuwste transformer-based language models, modellen die steeds beter in staat zijn om concepten te leren herkennen in teksten. Het Centre for Digital Humanities sprak met Arjan over zijn onderzoek en de methoden die hij gaat toepassen.

Je gaat enorme hoeveelheden tekst doorspitten. Hoe schep je orde in de chaos?

‘Er zijn twee onderzoekslijnen waar ik naar ga kijken. Ten eerste de kennis die Nederlanders hadden van dier- en plantsoorten van 1550 tot 2000. Welke soorten kenden ze en in wat voor systeem deelden zij die in? In de tweede onderzoekslijn kijk ik naar de representatie. Hoe zagen de mensen de wolf bijvoorbeeld door de eeuwen heen? Ik gok dat mensen in de zestiende eeuw de wolf vooral als gevaar zagen, als gemeen beest zoals hij in de verhalen voorkomt. Tegenwoordig heeft de wolf ook een positieve connotatie en is hij een teken van biodiversiteit. Wanneer kwam die positieve kant erbij?’

Op welk gebied verwacht je interessante uitkomsten?

‘Ik ben het meest benieuwd naar de ontwikkeling van biodiversiteit door de eeuwen heen. In een eerder gepubliceerd paper hebben onderzoekers de historische biodiversiteit onderzocht, dus hoe en hoe vaak er in teksten naar dieren en planten werd gerefereerd. Zij zagen dat de historische biodiversiteit toeneemt gedurende de achttiende eeuw, maar dat die weer begint af te nemen vanaf de Industriële Revolutie. Mensen trokken toen naar de stad en kwamen minder vaak in aanraking met de natuur. Een replicatie-onderzoek laat juist weer tegenovergestelde resultaten zien. Ik ben heel benieuwd welke resultaten ik ga vinden. En het lijkt me interessant om de historische, beleefde biodiversiteit af te zetten tegen de biologische biodiversiteit van de afgelopen eeuwen. Misschien kan de uitkomst iets zeggen over de manier waarop je mensen betrokken kan maken met de natuur.’

Welke digitale methoden ga je inzetten?

‘Voor dit project moet een AI-tool voor ons in de teksten vinden wat een plant of een dier is. Daar ga ik BERT voor gebruiken, een state of the art taalmodel. De variant van BERT voor historisch Nederlands – GysBERT, naar Vondels Gysbrecht – is net ontwikkeld.’

Hoe werkt BERT?

‘BERT is een taalmodel dat gebaseerd is op transformers, een bepaalde vorm van neurale netwerken. Transformers gebruiken self attention-mechanismen die ze in staat stellen de context van woorden binnen een zin veel beter te begrijpen dan voorheen mogelijk was. BERT wordt getraind door er heel veel tekst aan te voeren. Tijdens de training leert het model door zichzelf twee typen opdrachten te geven. Bij het eerste type opdracht laat hij kleine stukken tekst weg en voorspelt hij vervolgens welk woord er zou moeten staan. Bij het tweede type opdracht krijgt het model twee verschillende zinnen te zien en moet het aangeven of de zinnen al dan niet op elkaar volgen. Zo leert het beetje bij beetje wat er belangrijk is voor betekenisvorming in een bepaalde taal. Met die kennis kunnen vervolgens complexere taken aangepakt worden.’

Verzamelde werken van Vondel (druk uit 1910)

Wat zijn de technische uitdagingen in dit onderzoek?

‘Een van de grootste technische uitdagingen in de text mining is het automatisch herkennen en classificeren van de woorden. Pas in de achttiende eeuw kwam de indeling van het planten- en dierenrijk volgens Linnaeus zoals we die nu nog steeds kennen. Het is interessant om te kijken hoe ze daarvoor indeelden. Ik ga het model trainen door hem te voeden met voorbeelden van zinnen met dieren en planten, maar dat heeft allerlei haken en ogen. Je hebt bijvoorbeeld soortnamen die door de eeuwen heen veranderen of verschillende namen die voor één soort worden gebruikt. Wat ik wil is dat de AI-tool in staat is om automatisch een equivalent - bijvoorbeeld poes en kat - te herkennen. In de omgeving van ‘poes’ en ‘kat’ komen dezelfde woorden voor, waardoor het in theorie af te leiden is dat het om hetzelfde dier gaat. Maar dit soort zaken zijn wel spannend. Je hebt namelijk ook dieren waarvan de naam nog in een andere functie voorkomt. Zo kan ‘gans’ een dier zijn of voorkomen in de betekenis van ‘heel’.’ Naast het distant reading, ga ik ook close reading toepassen. Dan kun je de conclusies die de AI trekt ook onderbouwen en illustreren met concrete voorbeelden in de teksten.’

‘Het automatisch classificeren van objecten in afbeeldingen is echt weer een andere tak van sport. Bij beeldanalyse kunnen rare dingen gebeuren. Er is een voorbeeld van een wetenschapper die onderzoek deed naar muziekinstrumenten in historische afbeeldingen. Eén van de uitkomsten was dat er ontzettend veel gitaren in voorkwamen. Toen hij dat ging onderzoeken, bleek dat zijn AI dacht dat het kindje Jezus een gitaar was omdat hij ongeveer net zo wordt vastgehouden als iemand een gitaar vasthoudt. Het automatisch herkennen van dieren en planten in historische afbeeldingen wordt dus weer een heel andere uitdaging.’

Naar welk tekstgenre ben je het meest benieuwd?

‘Ik ben meer geïnteresseerd in de culturele verhalen dan in de wetenschappelijke teksten. Vanaf de vijftiende eeuw had je bijvoorbeeld ‘hondenslagers’ die de straathonden de kerk uit sloegen. Honden waren toen echt een plaag en liepen overal naar binnen. Interessant ook zijn de verschillen tussen kinderboeken uit die tijd en nu. Daar verwacht ik de meest spannende overgang. Dat wil ik graag zien in de data.’

Waar heb je het meeste zin in?

‘Het programmeren vind ik heel leuk. Dat gaat heel vaak mis, tot het een keer goed gaat. En dat is een magisch moment. Door deze PhD kan ik bezig blijven met én programmeren én Nederlands én biologie. En in dit onderzoeksgebied is nog zoveel te ontdekken, dat biedt ruimte voor pionierswerk en dat spreek me enorm aan.’