“Door data beter vindbaar te maken, kunnen anderen ze ook gebruiken voor hun onderzoek”

Hoe een metadata-catalogus de wetenschap verder brengt

Dit voorjaar lanceren geowetenschappers van de Universiteit Utrecht een nieuwe metadata-catalogus. Maar wat is zo’n catalogus eigenlijk, en wat heb je eraan als wetenschapper? Projectleider Ronald Pijnenburg leidt ons rond door het nieuwe systeem. Hij vertelt wat de catalogus zo vernieuwend maakt, en waarom dit systeem herbruikbaar is binnen andere onderzoeksdisciplines.

Steeds meer wetenschappers publiceren hun onderzoeksdata op online platforms. Vaak zijn die gegevens openbaar; iedereen die dat wil, kan een dataset downloaden en gebruiken. Maar dat is makkelijker gezegd dan gedaan, want per vakgebied bestaan er honderden plekken om onderzoeksdata te delen. Hoe vind je binnen al die versnipperde bronnen de data die relevant is voor jouw onderzoek?

Het antwoord op die vraag: met behulp van een metadata-catalogus. “Dat is een plek waar data van verschillende publicatiebronnen op één plek centraal vindbaar zijn gemaakt”, vertelt geowetenschapper Ronald Pijnenburg. “De databestanden zélf blijven gewoon op hun plek staan. Alleen de metadata – dus de beschrijving van het onderzoek – komt in de catalogus terecht. Denk aan de titel, de auteurs, keywords en inhoudelijke kenmerken van de dataset. Ook vind je er natuurlijk een link naar de databestanden.”

Uitgebreid zoeksysteem

Pijnenburg is projectleider van EPOS-NL, de Nederlandse tak van EPOS – een Europees data-portaal voor de aardwetenschappen. Samen met een groep collega’s van de Universiteit Utrecht en TU Delft werkt hij aan een sub-catalogus, EPOS Multi-scale Laboratories (MSL). Daarmee kun je labdata vinden uit honderd aardwetenschappelijke laboratoria in heel Europa. Deze sub-catalogus draagt weer bij aan de centrale catalogus van EPOS. Dit voorjaar wordt EPOS officieel gelanceerd op een conferentie in Wenen.

Ronald Pijnenburg in the laboratory of the Earth Simulation Laboratory, photo by Annemiek van der Kuil, PhotoA
Ronald Pijnenburg in het Earth Simulation Laboratorium, foto van Annemiek van der Kuil

Zo’n metadata-catalogus doet denken aan het digitale zoeksysteem van een bibliotheek, laat Pijnenburg zien. Je vult het onderwerp in waar je naar zoekt, drukt op enter, en het systeem geeft een lijst met alle zoekresultaten die voldoen aan jouw vraag. “Laten we mijn eigen promotieonderzoek over zandsteenlagen in Groningen (zie kader) als voorbeeld nemen. Stel, ik ben op zoek naar data over zandsteen. Via het centrale EPOS-portaal zie ik dat er twee disciplinegroepen zijn die data aanbieden over zandsteen, waaronder Multi-scale Labs (MSL). Binnen de dataservice van MSL kan ik mijn zoekopdracht verfijnen. Zo vind ik precies de data die ik zoek. Dat kan overigens ook via de sub-catalogus die MSL aanbiedt, naast het centrale EPOS portaal. Kijk maar!”

Op zijn beeldscherm verschijnt een pagina met een zoekbalk en aan de linkerkant een hele reeks zoektermen. “In de catalogus die specifiek voor MSL is ontwikkeld, kun je nog preciezer aanvinken naar welke data je op zoek bent”, wijst hij. “Je kunt bijvoorbeeld filteren op soort gesteente, of op de apparatuur die is gebruikt om de data te verzamelen. Een beetje zoals op makelaarswebsite Funda, waarbij je ook je zoekwensen selecteert.”

Over Ronald Pijnenburg

Ronald Pijnenburg sitting in front of the Earth Simulation Laboratory, photographer Annemiek van der Kuil, Photo A

Ronald Pijnenburg werkt aan de faculteit Geowetenschappen. Hij stuurt het Nederlandse team aan dat de metadata-catalogus EPOS-MSL bouwt en beheert. Zelf is Pijnenburg ook geowetenschapper; zijn promotieonderzoek ging over de aardbevingen die in Groningen ontstaan door gaswinning. Hij onderzocht de zandsteenlaag waar het gas in zit: wat gebeurt er met de zandsteen, als je gas produceert en daarmee de gasdruk verlaagt?

Open data

Via ‘materiaal’ en ‘zandsteen’ klikt Pijnenburg steeds verder door, tot hij bij ‘Slochteren-zandsteen’ uitkomt, het Groningse subtype uit zijn promotieonderzoek. “Zodra je een geschikte dataset hebt gevonden, linkt de catalogus je door naar het portaal waar de gegevens online staan. Daar kun je direct de databestanden downloaden.”

In het geval van EPOS zijn vrijwel alle gekoppelde onderzoeksdata openbaar. Maar dat is niet overal zo. In Yoda bijvoorbeeld, het datamanagementplatform van de Universiteit Utrecht, kan degene die de data publiceert ervoor kiezen om de gegevens achter een slotje te plaatsen en alleen de beschrijving (metadata) openbaar te maken. Wil een andere onderzoeker de data opvragen, dan moet de eigenaar toestemming verlenen.

Welke zoekwoorden kies je?

Om ervoor te zorgen dat de informatie in een metadata-catalogus goed vindbaar is, is het belangrijk dat alle auteurs dezelfde zoekwoorden toevoegen aan hun publicaties. Pijnenburg: “Je kunt andere data over bijvoorbeeld zandsteen alleen maar vinden als iedereen precies dezelfde term gebruikt, zonder spelfouten. Met de ongeveer honderd betrokken laboratoria van EPOS-MSL hebben wij daarom een vocabulaire afgestemd. De bedoeling is dat nu iedereen dezelfde termen gebruikt. Je kunt je voorstellen: het is nog best een klus om dat in de praktijk voor elkaar te krijgen.”

Data slim hergebruiken

Metadata-catalogi zijn om verschillende redenen belangrijk voor de wetenschap, zegt Pijnenburg. “Doordat onderzoeksdata beter vindbaar worden, zijn ze makkelijker herbruikbaar voor anderen. Zo voorkom je dat mensen telkens het wiel opnieuw gaan uitvinden. Je kunt ook hele studies opzetten op basis van bestaande data. Dat is efficiënter, ook in de kosten. Voor studenten en hun begeleiders, die niet altijd veel budget hebben, kan zoiets een uitkomst zijn.”

Een metadata-catalogus kan voor onderzoekers daarnaast een manier zijn om in contact te komen met vakgenoten. “Als je in de zoekresultaten ziet dat een bepaalde wetenschapper veel onderzoek heeft gedaan naar hetzelfde onderwerp als jij, kan dat een reden zijn om diegene eens te benaderen. Zo versterkt datamanagement uiteindelijk de wetenschappelijke community.”

Bovendien stimuleert de catalogus multidisciplinair onderzoek. “In het centrale EPOS-portal staan alle relevante onderzoeksdisciplines onder elkaar. Daardoor kun je vrij makkelijk data vinden buiten je eigen expertisegebied. Iemand die bijvoorbeeld een lab-achtergrond heeft, wordt zo aangemoedigd om ook eens naar satellietdata te kijken. In mijn geval zou ik de regio Groningen kunnen omcirkelen op de kaart. Dan krijg ik alle datasets uit die regio te zien. Niet alleen de soorten data die ik gewend ben, maar juist ook andere typen gegevens.”

Ander vakgebied, zelfde systeem

De manier waarop onderzoeksdata te vinden zijn met metadata-catalogus EPOS-MSL, is ook makkelijk toe te passen in andere vakgebieden. Zo wordt er op dezelfde basis een metadata-portaal ontwikkeld voor het CD2-project (‘Connecting Data in Child Development’), vanuit het Consortium on Individual Development (CID). Aan de Universiteit Utrecht zijn de studies YOUth en RADAR onderdeel van dit consortium. In deze catalogus verzamelen wetenschappers metadata over uiteenlopende longitudinale studies naar de ontwikkeling van kinderen in Nederland. De typen data zijn divers: van biomedische metingen en vragenlijsten tot observaties van ouder-kind-interacties en eye tracking-experimenten. Het testportal van het CD2-project staat inmiddels online.

Impact maken met je onderzoek

Goede data en metadata zijn dus van grote meerwaarde voor de wetenschap. Toch zijn veel onderzoekers zich hier nog nauwelijks van bewust, zegt Pijnenburg. “Datamanagement wordt vaak gezien als ‘moetje’: een vervelend klusje, waar je het liefst zo weinig mogelijk tijd aan kwijt bent. Ook het ‘waarom’ is niet altijd duidelijk. Wat heeft iemand anders nou aan mijn dataset?”

De kracht van internationale metadata-catalogi, legt hij uit, zit hem juist in het vindbaar maken van specifieke datasets, naast honderden andere datasets uit dezelfde én andere onderzoeksdisciplines. “Hergebruik van zulke data is al talloze keren van meerwaarde gebleken in het vooruitbrengen van de wetenschappelijke kennis. Best nuttig, lijkt me.”

Maar ook voor jezelf heeft het voordelen als je goede metadata toevoegt aan je gepubliceerde data, benadrukt hij. “Als je data beter vindbaar is, maak je meer impact met je onderzoek. En wanneer jouw verzamelde gegevens worden hergebruikt door anderen, geeft dat meer bekendheid en erkenning aan je werk. Dat kan je carrière vooruithelpen.”

Tips voor anderen

Zijn belangrijkste tip voor UU-onderzoekers? “Ga eens kijken wat voor dataportalen en -catalogi er in jouw vakgebied bestaan. Bij de faculteit Geowetenschappen hebben we daar een handig overzicht voor gemaakt. Bovendien hebben veel faculteiten een eigen datasteward of datamanager, dat is een goed startpunt om aan te kloppen met je vragen. Ook RDM Support helpt je graag op weg.”