Merendeel prominente chatbots overdrijft wetenschappelijke resultaten

ChatGPT wordt vaak om samenvattingen gevraagd, maar hoe accuraat zijn die eigenlijk?

AI-chatbots ChatGPT en DeepSeek geopend op een telefoon. Foto: Solen Feyissa, via Unsplash

Het lijkt zo handig: ChatGPT of een andere chatbot vragen om een paper of wetenschappelijk rapport samen te vatten. Maar tot wel 73 procent van de gevallen genereren deze grote taalmodellen (large language models of LLM’s) onjuiste conclusies. Dat blijkt uit een nieuwe studie van Uwe Peters (Universiteit Utrecht) en Benjamin Chin-Yee (Western University en University of Cambridge).

Bijna 5000 samenvattingen geanalyseerd

De onderzoekers testten de tien meest prominente LLM’s, waaronder ChatGPT, DeepSeek, Claude en LLaMA. “We voerden abstracts en artikelen uit toonaangevende wetenschappelijke tijdschriften in, zoals Nature, Science en The Lancet,” vertelt Peters, “en vroegen de taalmodellen deze samen te vatten. Onze hoofdvraag: hoe nauwkeurig zijn de samenvattingen die ze genereren?”

“In een jaar verzamelden we 4900 samenvattingen. Toen we deze analyseerden, bleek dat zes van de tien modellen beweringen uit de oorspronkelijke teksten systematisch overdreven. Vaak ging het om subtiele verschillen, maar nuances kunnen in de wetenschap van cruciaal belang zijn.”

Zo veranderden LLM’s voorzichtige beweringen in de verleden tijd in algemenere uitspraken in de tegenwoordige tijd. ‘De behandeling was effectief in dit onderzoek’ werd bijvoorbeeld ‘De behandeling is effectief’. “Zulke aanpassingen kunnen lezers misleiden”, waarschuwt Chin-Yee. “Ze kunnen de indruk wekken dat de resultaten breder toepasbaar zijn dan daadwerkelijk het geval is.”

Toen we om meer nauwkeurigheid vroegen, overdreven de chatbots juist váker.

De onderzoekers vergeleken de gegenereerde samenvattingen ook met die van mensen. Wat bleek? Chatbots generaliseerden bijna vijf keer vaker dan menselijke schrijvers.

Verzoeken om nauwkeurigheid werkten averechts

Peters en Chin-Yee hebben geprobeerd om LLM’s nauwkeurigere samenvattingen te laten genereren. Ze vroegen de chatbots onder andere om fouten te vermijden. “Toen genereerden ze echter juist váker overdreven conclusies”, zegt Peters. “Zelfs bijna twee keer zo vaak als bij simpele samenvattingsopdrachten.”

“Dat is verontrustend. Studenten, onderzoekers en beleidsmakers gaan er mogelijk vanuit dat ze een betrouwbaardere samenvatting krijgen als ze ChatGPT vragen om nauwkeurig te zijn. Ons onderzoek laat precies het tegenovergestelde zien.”

Nieuwere AI-modellen, zoals ChatGPT-4o en DeepSeek, presteerden nog slechter.

Waarom generaliseren chatbots?

“Mogelijk nemen LLM’s de neiging om bredere claims te maken over uit de teksten waarmee ze worden getraind”, legt Chin-Yee uit. Hij verwijst naar eerder onderzoek. “Menselijke experts trekken ook vaak algemenere conclusies, van westerse voorbeelden naar alle mensen bijvoorbeeld.”

“Veel van de originele artikelen bevatten echter geen problemátische generalisaties, maar de samenvattingen dan ineens wel”, vult Peters aan. “En wat het nog zorgwekkender maakt is dat nieuwere AI-modellen als ChatGPT-4o en DeepSeek slechter presteerden dan oudere versies.”

Een andere reden voor de overgeneralisatie ligt mogelijk in de interacties tussen LLM’s en gebruikers. “Menselijke gebruikers die werken aan de fine-tuning van de modellen geven wellicht de voorkeur aan bepaalde antwoorden, zoals reacties die behulpzaam en breed toepasbaar klinken. Zo kunnen de modellen leren om de voorkeur te geven aan dat soort reacties – zelfs als dat ten koste gaat van de nauwkeurigheid.”

Er is een reëel risico dat AI-gegenereerde samenvattingen desinformatie verspreiden.

Hoe worden samenvattingen betrouwbaarder?

“Als we willen dat AI wetenschappelijke geletterdheid bevordert in plaats van ondermijnt, moeten we waakzamer zijn en LLM’s testen in de context van de wetenschapscommunicatie”, zegt Peters.

“Omdat de modellen al op grote schaal worden ingezet voor wetenschappelijke samenvattingen, hebben ze een grote impact op de verspreiding van wetenschap. Zonder goed toezicht bestaat er een reëel risico dat AI-gegenereerde wetenschappelijke samenvattingen desinformatie verspreiden of onzekere wetenschap als voldongen feit presenteren.”

Mocht je toch een chatbot willen gebruiken om een tekst samen te vatten, raden de onderzoekers aan om modellen als Claude te gebruiken. Deze LLM scoorde het hoogst op nauwkeurigheid. Het kan ook helpen om te vragen om indirecte formuleringen in de verleden tijd en, als je kunt programmeren, om de ‘temperatuur’ (de creativiteitsinstelling van chatbots) lager te zetten.