Waar worden de AI-modellen achter chatbots op getraind?

Joris Veerbeek in De Groene Amsterdammer

Een logo, lijkend op een computerchip, is te zien voor een kamer die volstaat met serverkasten.
Foto: mikemacmarketing via Wikimedia Commons (CC BY-SA 2.0)

Met alle nieuwe ontwikkelingen rondom kunstmatige intelligentie en de opkomst van EU-wetgeving om deze ontwikkelingen in toom te houden, zijn chatbots als ChatGPT al tijden een veelbesproken onderwerp. Promovendus Joris Veerbeek analyseerde een grote collectie bronnen om uit te zoeken waar deze chatbots hun teksten op baseren en schreef in De Groene Amsterdammer over de bevindingen.

Database

De chatbots worden aangestuurd door kunstmatige intelligentie, die getraind wordt op allerlei soorten teksten. De meeste Nederlandse teksten zijn afkomstig uit de enorme database Common Crawl, vertelt Veerbeek. Deze databank is als het ware een ‘soort blauwdruk van het hele internet’ en wordt door allerlei bedrijven op verschillende manieren gebruikt door er filters op toe te passen.

De gegevensverzameling die Veerbeek heeft gebruikt voor het onderzoek bestaat na het filteren uit ruim veertig miljard woorden en omvat een ruim assortiment aan teksten. Wikipedia en grote Nederlandse kranten worden veel geciteerd, maar ook allerlei nepnieuws, privé-gegevens en schendingen van het auteursrecht zijn teruggevonden in de database.

Nieuwe situatie

Een aantal complete belastingaangiften, persoonlijke advertenties op Marktplaats en ruim tien jaar aan artikelen die achter een betaalmuur bij de Volkskrant zitten: Veerbeek heeft het allemaal gevonden in de dataset. Hoewel een deel van deze informatie al publiekelijk beschikbaar is, zit de situatie in dit geval volgens hem anders in elkaar. Nog nooit werden gegevens op zo’n schaal aan elkaar gekoppeld, laat staan door een systeem dat het gebruikt om er nieuwe teksten van te maken.