OpenAlex, een grote stap naar Open Science?

Interview met Jeroen Bosman

De nieuwe databank OpenAlex bood een jaar geleden al gegevens van meer dan 250 miljoen werken aan. Veel meer dan concurrenten als Web of Science, Scopus of Google Scholar. En, ook nog eens helemaal gratis. Welke mogelijkheden biedt OpenAlex? Hoe open zijn de publicaties? En vervangt deze databank straks dure abonnementen? Open Science-specialist Jeroen Bosman legt het uit.

OpenAlex is een wereldwijde databank met wetenschappelijke output. De naam verwijst naar de bibliotheek van Alexandrië, die streefde naar een universele wetenschappelijke collectie. Daarnaast verwijst de naam naar volledige openheid en beschikbaarheid. Daardoor past OpenAlex goed binnen het principe van Open Science: het streven naar een wetenschappelijke wereld waarin kennis en onderzoek gratis toegankelijk en herbruikbaar is voor iedereen.

OpenAlex biedt veel meer dan andere databanken, hoe kan dat?

Dat komt omdat OpenAlex veel inclusiever is. Het legt namelijk minder beperkingen op aan wat in de database zit, bijvoorbeeld qua talen en qua formats van publicaties. Dit is gunstig voor wetenschappers die in andere talen schrijven of voor bepaalde vakgebieden. Geesteswetenschappen bijvoorbeeld, publiceert vooral in boeken en niet in tijdschriften. OpenAlex biedt metadata over deze boeken of boekhoofdstukken. Ter vergelijking: Scopus en Web of Science nemen alleen artikelen op in hun database die een Engelstalig abstract hebben, ook als deze in een andere taal zijn geschreven. Hierdoor bieden ze geen publicaties in het Spaans of Mandarijn, terwijl hier wel veel onderzoek in wordt gedaan. Daarnaast bieden Scopus en Web of Science vooral gegevens over tijdschriftartikelen aan, en specifiek uit tijdschriften die veel besproken en geciteerd worden. OpenAlex doet dat bewust niet, omdat het kan leiden tot een beperkte blik op wat de wetenschap brengt. Zo vind je in OpenAlex ook informatie over preprints, vroege versies van artikelen, die in veel disciplines steeds belangrijker worden.

Hoe komt OpenAlex aan al die data?

OpenAlex verzamelt de gegevens vooral via databases van organisaties die onderzoek registreren. Een van hun grootste bronnen is CrossRef. Deze organisatie geeft publicaties allemaal een uniek nummer: een DOI. Van alle publicaties met een DOI zijn ook de gegevens bekend en openbaar. OpenAlex haalt de metadata daarvandaan. Daarnaast heeft het de database van Microsoft Academic overgenomen. Daarin zitten bijvoorbeeld gegevens over publicaties van congressen. OpenAlex is volledig transparant over hun bronnen, je kunt het allemaal inzien op hun website.

Hoe open is OpenAlex eigenlijk?

Gebruik van de database is gratis en met de gegevens mag je alles doen wat je wilt. Metadata bestaat grotendeels uit feiten die op zich niet auteursrechtrelijk beschermd zijn. Denk daarbij aan de titel, de auteur, het onderwerp en de keywords die de auteurs eraan geven. Onder metadata valt ook de samenvatting en de literatuurverwijzingen onder aan een artikel. Maar die samenvattingen (abstracts) en citaties worden door sommige grote uitgevers nog niet open beschikbaar gesteld voor opname in databases. En betaalde databases leggen beperkingen op aan gebruik en delen van de gegevens.

OpenAlex biedt, voor zover de database die kan krijgen, ook die samenvattingen en citaties, en dat maakt het een goede database om onderzoek mee te doen óver onderzoek. Bijvoorbeeld wanneer je wilt onderzoeken hoe vaak een onderwerp onderzocht wordt, in welke landen en in welke talen. Bijvoorbeeld: wordt er in Nederland veel in het Frans gepubliceerd? Hoeveel van een auteur is open access? Hoe vaak is een auteur geciteerd? Iedereen kan al die data downloaden voor analyses. Het verschil met een zoekmachine als Google Scholar is dat je dit op een hele systematische en reproduceerbare manier kunt doen.

Gebruikers krijgen via een een zogenaamde CC0 aanduiding mee dat OpenAlex geen rechten claimt op de data en daarmee geven ze toestemming de data te exporteren en te delen. OpenAlex biedt waar beschikbaar ook links naar open access versies van publicaties, bij de uitgever of in universitaire repositories.

OpenAlex biedt bovendien gelijke kansen aan alle wetenschappelijke output, ongeacht taal of vorm.

Bekijkt een team ook of alles wat binnenkomt betrouwbaar is?

Net als voor betaalde databanken, is betrouwbaarheid van de gegevens een speerpunt van OpenAlex. De nadruk ligt daarbij op de metadata, niet op de inhoud van de publicaties. Die check ligt bij uitgevers.OpenAlex vertrouwt er daarom op dat CrossRef een goede check doet op de organisaties die DOI's aanvragen. Maar het kan voorkomen dat gegevens over publicaties achteraf gecorrigeerd moeten worden omdat er toch iets aan scheelde. Dat soort verbeteringen gebeurt bij andere databases ook, maar dan meer achter de schermen. OpenAlex is daarin juist heel transparant. Je kunt in OpenAlex dan ook filteren op publicaties die door uitgevers zijn teruggetrokken. Die transparantie is belangrijk voor het zogenaamde zelfreinigend vermogen van de wetenschap.

Kortom: een ideale database?

De ideale database is nog toekomstmuziek. Hoewel OpenAlex streeft naar een evenwichtige presentatie van hun metadata, zit er nog een onbalans in. Web of Science en Scopus doen erg hun best om de metadata zo compleet mogelijk te maken door eventueel zelf keywords toe te kennen. Hierdoor, en door hun strengere selectie, voelen hun databases nu nog meer als een eenheid dan die van OpenAlex. Bij OpenAlex ligt de nadruk meer op een slimme en gebruiksvriendelijke manier allerhande open beschikbare metadata combineren.

Hoewel we in Utrecht bevoorrecht zijn dat we twee dure databases kunnen betalen, past OpenAlex beter bij ons als universiteit.

OpenAlex is nu nog gratis, maar hoelang kan dat nog zo blijven?

Je kunt je ook afvragen hoe zo’n klein bedrijfje zo’n grote kwalitatieve en concurrerende database kan aanbieden. Over het antwoord is OpenAlex geheel transparant: door donaties van charitable funders zoals Arcadia. Maar voor de basisvoorzieningen willen ze niet afhankelijk zijn. Ze gaan daarom uit van open data. Hun ‘grondstoffen’ zijn daardoor gratis. Instellingen kunnen OpenAlex steunen via een institutioneel abonnement. Ze krijgen dan betere support en een snellere optie voor geautomatiseerd raadplegen van de database. OpenAlex claimt een financieel duurzaam model te hebben.

De kans dat de database wordt opgekocht door een commerciële uitgever is ook klein. Doordat aan hun metadata een CC-BY 0 licentie hangt, mag iedereen de data delen en kopiëren. Hierdoor staat de data waarschijnlijk al op meer plekken opgeslagen. Dus ook al koop je het hele bedrijf, dan is die data nog steeds openbaar.

Vervangt OpenAlex straks betaalde databanken?

Dat valt nog te bezien. In bibliotheken wordt wel steeds kritischer gekeken naar die betaalde databanken. De vraag is nu: wat zijn de essentiële use cases waarvoor je nog per se Scopus of Web of Science nodig hebt? Voldoet OpenAlex bijvoorbeeld voor zoekacties voor systematic reviews? Met de komst van OpenAlex en andere open databases zoals OpenAire en The Lens wordt de lijst van use cases waar je echt Scopus of Web of Science voor nodig hebt denk ik wel steeds korter.

Hoewel we in Utrecht bevoorrecht zijn dat we twee dure databases kunnen betalen, past OpenAlex beter bij ons als universiteit. OpenAlex faciliteert namelijk Open Science. Deze beweging streeft ernaar kennis en onderzoek voor iedereen direct gratis en toegankelijk te maken. De Universiteit Utrecht steunt deze beweging en ondertekende hiervoor de Barcelona Declaration, om openheid van onderzoeksinformatie te bevorderen. Transparantie is ontzettend belangrijk, zeker als we op basis daarvan onderzoek en onderzoekers beoordelen. In het kader van die Barcelona Declaration gaat een internationale werkgroep kijken naar de vraag of, wanneer en hoe gesloten databases kunnen worden vervangen.

Kunnen we in het geval van OpenAlex ook spreken van idealisme?

Jazeker, OpenAlex heeft een duidelijke overtuiging over het belang van hun werk. OpenAlex biedt bovendien gelijke kansen aan alle wetenschappelijke output, ongeacht taal of vorm. Het heeft zich gecommitteerd aan bepaalde principes van open data infrastructuur. Daarvoor zijn ook garanties ingebouwd. Wat nu open is, blijft ook open in de toekomst.