Hoe datascience wildlife kan helpen

Joeri Zwerts staat als ecoloog vaak met zijn voeten in de modder van de jungle in Afrika. In de landen Congo, Gabon en Kameroen onderzoekt Joeri of bosbouw met een FSC-keurmerk helpt om bedreigde diersoorten te redden. Een fascinerende, maar ook primitieve werkplek, zo blijkt wel uit de documentaire Helden van de Wildernis van de NPO (via de betaalde dienst van NPO Gemist). In dit artikel vertelt Joeri hoe datascience hem verder helpt in zijn onderzoek.

FSC-hout moet wel een verschil maken

Nog even terug naar het begin: Joeri zocht een betere manier om wildlife in tropische bossen te monitoren en dat heeft alles te maken met de vraag of bosbouw met een FSC-certificering beter is voor de wildlife populatie dan gewone bosbouw. “Klanten zoals jij en ik betalen extra voor gecertificeerd hout, dus dan wil je ook dat het een verschil maakt.” Om wildlife te onderzoeken werkt Joeri vooral met cameravallen, maar een groot nadeel daarvan is het beperkte bereik van een camera. “Ik wilde weten of geluid misschien een betere methode is. Geluid heeft een groter bereik en daarmee is die methode misschien wel veel effectiever en goedkoper. Echter, om dieren te tellen in geluidsopnames moet je alle opnames terugluisteren. Dat kost te veel tijd en daarom wil je dat automatiseren. Anders kan je net zo goed mensen in het bos zetten en ze handmatig geluiden laten turven.”

Om zijn eigen expertise aan te vullen zocht hij contact met de afdeling Research Data management Support (RDM). “RDM tipte mij vervolgens over de subsidies vanuit het focusgebied Applied Data Science en daarmee kon ik de uren van computerscientist Heysem Kaya betalen. Een vruchtbare samenwerking waarbij we veel geleerd hebben van elkaars vakgebied. We hebben dingen gedaan die ik in mijn eentje niet had kunnen doen en RDM heeft software ontwikkeld die ze zelf nooit hadden bedacht. Dat is het leuke aan deze multidisciplinaire benadering.” Er zijn inmiddels twee, en bijna drie, wetenschappelijke publicaties uit de samenwerking voortgekomen.

Klanten zoals jij en ik betalen extra voor gecertificeerd hout, dus dan wil je ook dat het een verschil maakt.

Algoritme dat apengeluid herkent

Samen met computerscientist Heysem werd een algoritme ontwikkeld dat geluiden van primaten detecteert. De keuze voor primaten is een pragmatische, die maken immers veel geluid én geven een goed beeld van hoe goed of slecht het met de populatie van bedreigde diersoorten gaat. Voor het detectiealgoritme is trainingsdata nodig. Dat klinkt simpel, maar dat is het niet. “Als je geluid verzamelt in een bos moet je net geluk hebben dat op die plek genoeg apen zijn.”

Die trainingsdata vond Joeri in een apenopvang in Kameroen. Een plek waar apen in gevangenschap leven met als grote voordeel dat je zeker weet dat er apen zijn. Alle opgenomen geluiden werden samen met studenten gelabeld. “Dat hebben we voor 5 apensoorten gedaan. Met die data konden we een vrij simpel algoritme trainen.” Het getrainde algoritme bleek de geluiden van primaten goed te herkennen.

Complexe junglegeluiden

Maar wat als de opgenomen data uit een echt tropisch bos komen? Dus buiten de opvang en met een gigantische complexiteit aan omgevingsgeluiden. Het algoritme herkende nog te veel geluiden uit het bos als primaten terwijl ze dat niet waren, ook wel fout-positieven. Joeri vertelt hoe ze dat hebben opgelost: “We hebben toen die complexe jungle achtergrondgeluiden op de aapgeluiden geplakt en daarna het algoritme opnieuw getraind. Dat gaf veel betere resultaten en door de verschillende data te mixen is het uiteindelijk gelukt om een goede monitoringsmethode te ontwikkelen. Met deze methode kan iedereen die beschikt over geluidsopnames van chimpansees, het algoritme dat wij open beschikbaar stellen, gebruiken om populaties te monitoren. We maken de code en software gebruikersvriendelijk, zodat organisaties zoals het WWF met een simpele geluidsrecorder– en dat kan al een oude telefoon zijn – data kunnen verzamelen en vervolgens ons algoritme kunnen gebruiken. Onze methode laat verder zien dat met trainingsdata uit bijvoorbeeld de plaatselijke dierentuin er effectieve detectiealgoritmen getraind kunnen worden. Als het dier tenminste genoeg geluid maakt.”

“Maar we zijn nog niet klaar. Om het algoritme nog verder te verbeteren hebben we de dataset gepubliceerd in een computerscience challenge. Computer scientists over hele wereld proberen dan het algoritme beter te maken met state of the art technieken. In de wereld van computerscience een gebruikelijke manier om technieken te verbeteren en faam te vergaren door een challenge te winnen. Voor mij was dit overigens helemaal nieuw. Nu ga ik  samen met Heysem en masterstudenten van de Universiteit Utrecht de state of the art technieken die uit die challenge zijn gekomen, toepassen op ons laatste algoritme om daarmee de detectiecapaciteit nog verder te vergroten. Ook dat maken we weer openbaar. Dus alles wat we ontwikkelen, doen we open source zodat anderen daar van kunnen profiteren.”

Met deze methode kan iedereen die beschikt over geluidsopnames van chimpansees, het algoritme dat wij open beschikbaar stellen, gebruiken om populaties te monitoren. We maken de code en software gebruikersvriendelijk, zodat organisaties zoals het WWF met een simpele geluidsrecorder– en dat kan al een oude telefoon zijn – data kunnen verzamelen en vervolgens ons algoritme kunnen gebruiken.

Iedereen is slimmer geworden

Het project van Joeri is een mooi voorbeeld van waar het focusgebied Applied Data Science voor is opgericht. In een eerder artikel zei Peter van der Heijden daarover: “Ik vind dat we als UU onderzoekers met handreikingen en handvatten in staat moeten stellen om datascience toe te passen in hun eigen vakgebied. Idealiter zou een wetenschapper zich bij het formuleren van een onderzoeksvraag niet te veel moet laten leiden door wat hij of zij beheerst. Het is beter als je de inhoud van de vraag bij de kop pakt en dan de methodologie en expertise erbij haalt via anderen. Dat past in de huidige tijdgeest waarin mensen in teams werken.” Ook Joeri onderstreept deze gedachte: “Ik denk dat als de UU investeert in dit soort samenwerkingen je makkelijker meer kan bereiken. In mijn eentje had ik dit niet kunnen doen. Nu zijn we allemaal slimmer geworden.”

Meer informatie

  • Lees ook dit eerder verschenen artikel van Research Data Management
  • Meer weten over het focusgebied Applied Data Science?