Generative AI in onderwijs en de consequenties voor toetsing

Docent geeft uitleg aan studenten met gebruik van laptop

Wat is de invloed van generatieve AI (genAI) op het onderwijs en wat betekent dit voor docenten en opleidingen? Daar geeft dit artikel inzicht in. Ook lees je welke aanpassingen mogelijk zijn binnen een programma of een cursus, met voorbeelden uit het schrijfonderwijs. 

De auteurs benadrukken dat onderstaande tekst is geschreven zonder genAI te gebruiken.

Inmiddels is het ruim anderhalf jaar geleden dat OpenAI ChatGPT heeft gelanceerd, en de ontwikkelingen gaan razendsnel. Het wordt steeds duidelijker dat deze nieuwe generatieve AI op allerlei manieren ingezet kan en zal worden. De invloed van genAI op het gebied van toetsing speelt zich af op twee niveau’s binnen de opleiding, het docent- en het opleidingsniveau. Beide niveaus hebben overlappende, maar ook unieke belangen. Dat maakt dit een complex thema.

Docentniveau

Op het docentniveau zijn de vragen rondom toetsing talrijk: Kan ik mijn schrijfopdrachten nog wel gebruiken? Moet ik alles in een gecontroleerde setting gaan toetsen? Wat kan ik doen als ik fraude vermoed? Etc. Daarbij hebben docenten bepaalde belangen: het is namelijk niet prettig om te werken vanuit wantrouwen, en transparantie en open communicatie zijn zeer van belang.

Programmaniveau

Op het programmaniveau spelen er ook vragen. Examencommissies willen handvatten om beslissingen te kunnen nemen, en opleidingsdirecteuren willen weten hoe ze hun docententeam kunnen ondersteunen. Daarnaast spelen er hier andere belangen mee. Vanuit toetsperspectief gaat het om het waarborgen van de kwaliteit van de opleiding. Met andere woorden: beheerst een student na afronding van de opleiding de eindtermen wel? Dit is een cruciale vraag, omdat dit nodig is voordat een diploma uitgegeven mag worden.

GenerativeAI: is dit nou echt zo anders dan een technische rekenmachine?

“Dit zeiden we ook toen het internet opkwam, en toen de technische rekenmachine ingevoerd werd”. Inderdaad, de angst dat jongeren en studenten niet meer zelfstandig informatie op zouden kunnen zoeken, en niet meer zouden leren rekenen, speelde destijds ook. Inmiddels hebben we gezien dat beide nog te leren en noodzakelijk is, maar tegelijkertijd dat onze eindtermen zich hebben meebewogen met de nieuwe realiteit die dit met zich meebrengt. Eenzelfde verschuiving zal genAI gaan veroorzaken, zodra het werkveld deze technologie omarmt.

Het contrast met educatieve middelen die voor genAI beschikbaar waren is dat genAI gebruikers de mogelijkheid biedt om inhoud te genereren in plaats van te controleren of redigeren. Dat studenten deze mogelijkheden weten te vinden en al veel gebruikmaken van genAI is ook duidelijk. Daarmee wordt de noodzaak ook groter om zorgvuldig na te denken over wat dit allemaal zal kunnen betekenen voor ons onderwijs. De veelvoud aan mogelijkheden en toepassingen van GenAI leidt tot een grote hoeveelheid tools op de markt, waarbij AI ‘onder de motorkap’ een rol speelt. Wat betreft genAI text-to-text zijn er verschillende aanbieders op dit moment. Daarnaast kan genAI codes genereren, beeld creëren, en inmiddels ook audio en muziek maken, en het aantal genAI mogelijkheden die in het onderwijs beschikbaar zijn groeit exponentieel.

De invloed van genAI op macro-, meso- en microniveau van het onderwijs

Zoals hierboven genoemd heeft genAI invloed op allerlei facetten van het onderwijs. King’s College London onderscheidt daarbij het macro, meso- en microniveau.

Macroniveau

Onder het macroniveau verstaan zij de universiteitsbrede principes en het beleid rondom genAI. Binnen de UU wordt hier ook over nagedacht (bekijk de huidige richtlijn) Er wordt momenteel gewerkt aan een update van de richtlijnen.

Mesoniveau

Als we kijken naar het mesoniveau, wil dat zeggen dat het gaat over de implicaties van genAI op departement en opleidingsniveau.

Microniveau

Tot slot is er het microniveau, wat gaat over de implicaties van genAI binnen cursussen en op het werk van individuele docenten. Dit niveau gaat over het inzetten van genAI voor het leren van studenten, of om efficienter docent-taken uit te voeren. Op dit niveau zijn er belangrijk vragen. Bijvoorbeeld: hoe zorgen we er voor dat studenten hun leermomenten kunnen behouden? En als genAI ingezet wordt door een docent zijn er ook juridische (bijvoorbeeld over privacy) en ethische vragen. Is het een goed idee om genAI in te zetten om lesactiveiten te ontwikkelen? Of om feedback of cijfers te geven?

Als het gaat om de toetsing zijn er vragen op zowel het meso-niveau als het microniveau. Deze hangen met elkaar samen, zie Figuur 1. Als examinator ben je verantwoordelijk voor het vaststellen of de beoogde leeruitkomsten zijn behaald op cursusniveau (het groene deel in de illustratie). De opleidingsdirecteur is verantwoordelijk voor het vaststellen of de eindtermen op opleidingsniveau zijn behaald (het blauwe gedeelte).

Figuur 1a: versimpelde weergave van een toetsplan binnen een programma

Als er op cursusniveau kwetsbaarheden zijn in de toetsing is de kwaliteitsborging van de eindtermen op opleidingsniveau in het geding (zie figuur 1b). Als een docent toestaat dat studenten genAI in de cursus gebruiken, wordt het daarmee tevens een onderwijs-ontwerpvraagstuk op opleidingsniveau (dus mesoniveau).

6b Stroomschema GenAI toetsing van cursus nr opleiding NL
Figuur 1b: voorbeeld van de consequenties van toetsen die kwetsbaar zijn voor genAI, en de relatie tussen micro- en mesoniveau

Het meso-niveau: wat moet er op opleidingsniveau gebeuren?

Voor een opleiding is de eerste stap: in kaart brengen welke eindtermen kwetsbaar zijn als genAI door studenten gebruikt gaat worden tijdens toetstaken.

Hoe kwetsbaar is je opleiding voor genAI?

Met andere woorden: van welke eindtermen kun je niet meer betrouwbaar en valide toetsen of een student ze beheerst? Hoe kwetsbaar is je opleiding voor genAI? Om een idee te krijgen van de kwetsbaarheid van je toets kun je het stappenplan volgen zoals opgezet door het Teaching and Learning Centre van de Southern Cross University.

Als blijkt dat een eindterm niet meer gedekt is door voldoende valide en betrouwbare toetsen, dan moet je aan de bak. In de meeste gevallen zijn er meerdere toetsen binnen meerdere cursussen in meerdere opleidingsjaren die bijdragen aan het vaststellen of een eindterm behaald is. In figuur 1b is dit versimpeld uitgewerkt. Zoals je ziet is eindterm 1 niet voldoende gedekt, omdat deze eindterm alleen wordt getoetst in cursus 1, door een toets die kwetsbaar is voor genAI gebruik. Er zijn meerdere toetsen kwetsbaar voor genAI, maar doordat de andere eindtermen op meerdere momenten getoetst worden is de dekking hiervan niet in het geding.

Het gevolg is dus dat er een verandering moet komen voor toets 1 van cursus 1. Zie voor een overzicht van de mogelijkheden en afwegingen de paragraaf ‘toetsen zonder genAI: welke mogelijkheden zijn er?’.

Het ontwerpvraagstuk op microniveau: effecten van en effecten met genAI binnen een cursus

Zoals gezegd is de vraag of je genAI wel of niet in je cursus toestaat, met name een onderwijs-ontwerpvraagstuk op opleidingsniveau. Echter, bij het ontwerpen ga je iteratief van cursusleeruitkomsten naar opleidingseindtermen en terug om alles op elkaar te laten aansluiten. Bij een ontwerpvraagstuk op cursusniveau kijken we naar de leerdoelen, de werkvormen die je als docent inzet, en uiteraard de toetsing. Als deze drie op een goede manier met elkaar samenhangen, en genAI daar in een consistente manier in verwerkt is, heb je een cursus waarin studenten optimaal kunnen leren (met andere woorden, je werkt aan de constructive alignment, Biggs & Tang, 2011).

Effecten van en effecten met gebruik van hulpmiddelen

Over het inzetten van ICT-hulpmiddelen in onderwijs maakte Salomon in 1992 al onderscheid tussen het effect van hulpmiddelen op presteren met gebruik van een hulpmiddel en het effect op presteren van gebruik van een hulpmiddel. Een hulpmiddel in deze context was bijvoorbeeld het gebruik van een rekenmachine, een spellingscheck, referentiesofware of het inzetten van statistische software zoals SPSS.

Een leereffect met gebruik van een hulpmiddel gaat over het gebruik van het hulpmiddel om beter te presteren, bijvoorbeeld het nakijken van je spelling met behulp van de spellingscheck in Word. De consequentie hiervan is dat het hulpmiddel (bijvoorbeeld genAI) dan ook gebruikt mag worden tijdens de toetsing, zie figuur 2a.

figuur 1 rechts schema toetsing met GenAI als hulpmiddel NL
Figuur 2a: constructive alignment in het geval van een leereffect met het gebruik van een hulpmiddel

Daarnaast heb je de leereffecten van het gebruik van een hulpmiddel. Om hier iets over te kunnen zeggen moet je de leereffecten van het gebruik van een hulpmiddel los kunnen zien van de leereffecten zonder het hulpmiddel. Met andere woorden, je wilt dat de student een vaardigheid zonder genAI beheerst. Om hier zeker van te zijn is het van belang dat de toets zonder de genAI wordt afgenomen, zie figuur 2b. Dit betekent dat je als onderwijsontwerper in de eerste instantie naar je leeruitkomsten moet kijken, en hier een knoop over door moet hakken. Zoals je overigens ziet kan genAI in beide scenario’s gebruikt worden om studenten een vaardigheid aan te leren.

Schema NL figuur links Toetsing zonder GenAI
Figuur 2b: constructive alignment in het geval van een leereffect van het gebruik van een hulpmiddeI

Leereffect van genAI, dus toetsen zonder genAI: welke mogelijkheden zijn er?

Deze paragraaf is interessant als blijkt dat je een leerdoel hebt dat je zo belangrijk vindt, dat je wilt dat studenten dit uiteindelijk beheersen zonder gebruik van genAI. Dit betekent dus dat je tijdens de toetsing er ook voor moet zorgen dat genAI niet gebruikt kan worden. Een logische stap is dan om de toets af te nemen in een gecontroleerde omgeving, waarin de studenten geen toegang tot genAI (of het internet) hebben. Echter, voor schrijfopdrachten is dit geen goede oplossing, omdat je dan een valideitsprobleem creëert. Als voorbeeld: een essay waarin een student langere tijd kan nadenken over de stof, en telkens terugkeert naar diens verhaal, toetst iets fundamenteel anders dan een essay onder tijdsdruk in een op de campus. Een wijziging van een thuis-geschreven essay naar een essay in een tentamenzaal is dan ook geen oplossing om je leeruitkomsten goed te toetsen. Dus welke opties heb je dan wel? Dat hangt wederom af van het type leeruitkomst dat je wilt toetsen; zijn dit leeruitkomsten rondom schrijfvaardigheden of leeruitkomsten rondom hogere cognitieve vaardigheden?

Leeruitkomsten rondom schrijfvaardigheden: richt het toetsproces goed in

Als je leeruitkomst draait rondom het schrijven zelf, kun je denken aan een toets in een gecontroleerde omgeving waarbij de student niet op het internet (of bij bepaalde websites) kan. Zoals gezegd roept dit vragen op over de validiteit van de toets. Een betere optie is om het schrijfproces anders in te richten. Op dit moment is het vaak zo dat studenten één feedbackmoment hebben waarop ze een tekst inleveren, en vervolgens de definitieve tekst aanleveren. De docent heeft hierbij weinig zicht op het schrijfproces, en hoe de student zich ontwikkelt.

Een andere indeling van het toetsproces maakt het mogelijk dat de docent meer zicht op het schrijfproces houdt. Dit kan bijvoorbeeld door verschillende soorten producten van een student te zien en bespreken. Je kunt dan denken aan een argumentatieschema, of een gemarkeerde literatuurlijst waarin de student beschrijft wat er uit de artikelen gehaald wordt. Daarnaast kan de docent ook mondeling met de student in gesprek over diens geschreven stuk. Als het toetsproces op deze manier ingericht wordt, kan de docent uiteindelijk een weloverwogen summatieve beslissing nemen (Scheider et al., 2023).

Het voordeel van een duidelijk toetsplan waarbij helder is afgewogen op welke momenten genAI wel of niet gebruikt mag worden, is dat je dit ook met je studenten kunt bespreken. Hierbij kun je denken aan een gesprek over de doelen van een toets, en de bijbehorende leermomenten die je daarbij voor ogen hebt voor de studenten (zie box 2 in het gele kader hieronder).

Uiteraard is bovenstaande tijdsintensiever dan de manier waarop het toetsproces van essays momenteel bij veel opleidingen is ingericht. Deze tijdsintensieve aanpak is niet bij alle cursussen mogelijk, dus is het van belang deze afwegingen op meso-niveau te maken. Waarschijnlijk is deze aanpassing van de toetsing en het inzetten van meerdere docenten slechts bij enkele cursussen binnen een opleiding nodig.

Leeruitkomsten waarbij een schrijfopdracht gebruikt wordt om andere vaardigheden te toetsen

Binnen veel opleidingen worden geschreven producten gebruikt om vaardigheden en kennis te toetsen. Het doel is hierbij niet altijd expliciet om studenten te leren schrijven, maar om te toetsen of een student kritisch kan denken, kan analyseren, of kan evalueren.

In dat geval zijn er, naast het intensiveren van de procesbegeleiding zoals hierboven benoemd, wat meer mogelijkheden. Op de korte termijn kun je proberen je toets minder ‘AI vulnerable’ te maken. Dit zijn veelal kleine aanpassingen aan de vraagstelling of casus, waardoor genAI er minder goed mee uit de voeten kan. Zie voor tips en tricks de verschillende bronnen hieronder. Een kanttekening hierbij is dat genAI een zelflerend systeem is. De ontwikkelingen gaan razendsnel, dus zie dit niet als een langetermijn oplossing. Een aantal tips die veel genoemd worden (zie ook box 3 hieronder):

  • Specificiteit (vraag studenten na te denken over specifieke gevallen, scenario's of incidenten)
  • Gebruik voorbeelden uit het zuidelijk halfrond, deze data was minder aanwezig in de trainingsdata waarop het model zijn antwoorden baseert
  • Gebruik waar mogelijk verschillende manieren om informatie te laten presenteren
  • Vermijd vragen die ‘lower order thinking skills’ toetsen
  • Gebruik problemen met meerdere stappen

Daarnaast is het wijs om je toetsvormen onder de loep te nemen. Is het noodzakelijk om dit leerdoel met een geschreven stuk te toetsen? Als dit niet zo is, zou een andere vorm mogelijk zijn. Het voordeel hiervan is dat andere toetsvormen (op dit moment) niet goed te genereren met AI. Een argumentatieschema of een presentatie met mondelinge toelichting zijn daar voorbeelden van. Authentieke toetsing (die is altijd specifieker en heeft vaak meerdere opvolgende stappen) of mondelinge toetsing (of mondelinge toelichting op de toets) zijn bijvoorbeeld ook vormen waar je aan kunt denken.

Leereffect met genAI, dus GenAI gebruik tijdens de toets toestaan: is dat mogelijk?

Stel dat je besloten hebt dat studenten voor een bepaald leerdoel gebruik mogen maken van genAI tijdens de toets. Hiervoor kun je verschillende redenen hebben. Misschien heb je in het werkveld gezien dat genAI daar al ingezet wordt, of misschien wordt het schrijven van een tekst nooit de core business van je studenten. De consequentie van een leereffect met gebruik van genAI is dat studenten ook tijdens de toets gebruik mogen maken van genAI.

Als je ‘wetenschappelijk schrijven’ als één leerdoel ziet, zullen de meeste docenten aangeven dat dit iets is wat studenten zelfstandig moeten kunnen. Echter, een complexe vaardigheid als wetenschappelijk schrijven bestaat uit vele subvaardigheden, zoals spelling, schrijfstijl, argumentatie, structureren van een tekst, en kritisch denken en evalueren (Elander et al., 2006). Niet al deze subvaardigheden zijn voor alle studenten op alle momenten even belangrijk. Dit pleit ervoor om toe te staan dat genAI gebruikt mag worden tijdens sommige schrijftoetsen.

Daarnaast worden er al hulpmiddelen gebruikt om de schrijfprestatie te verhogen. Het is bijvoorbeeld overal toegestaan om de spellingscheck van Word te gebruiken. Dus de leeruitkomst ‘ goed kunnen spellen’ wordt binnen het hoger onderwijs al ondersteund. De vraag is: voor welke andere leeruitkomsten binnen het schrijven gaat dit ook het geval worden? Het antwoord op deze vraag zal per discipline en per moment in de opleiding verschillen. Er zijn een aantal overwegingen tegen het inzetten van hulpmiddelen om de prestatie en de vaardigheid te ondersteunen, zie Box 4 hieronder. Desondanks is het erg waarschijnlijk dat elke opleiding op een aantal momenten genAI in meer of mindere mate toe zal staan bij een geschreven toets. De vraag is dan: hoe doe je dit valide en betrouwbaar?

Als je genAI gebruik (in welke mate dan ook) toe staat tijdens je toets, loop je tegen het probleem aan dat de kwaliteit van het schrijfwerk in hoge mate zal samenhangen met de mate waarin een student AI geletterd is. Hoe beter de promps, hoe beter de output van genAI. Met andere woorden: meet je met je toets AI geletterdheid of schrijfvaardigheid? Er is dus een validiteitsprobleem. Dit is overigens niet nieuw, eenzelfde type vraagstuk speelt bij de beoordeling van geschreven groepswerk (zoals beschreven in Meijer et al., 2020).

Welke vaardigheden meet je met je toets?

Naast dit validiteitsprobleem is het toestaan van genAI tijdens een toets een lastig vraagstuk doordat er zoveel verschillende vormen van genAI-gebruik zijn.

Naast de vraag welk type gebruik toegestaan is en wat niet (zie bijvoorbeeld de AI assessment scale, en de richtlijnen van de UU), blijkt dat verschillende soorten gebruik verschillende vaardigheden vragen van studenten (persoonlijke communicatie met Susha, Viberg & Koren, 2024). Dus het is lastig te zeggen welke vaardigheden je exact meet met je toets.

Empirisch onderzoek wordt momenteel op veel plaatsen uitgevoerd en gepubliceerd, dus we verwachten hier de komende tijd meer over te kunnen zeggen.

Oproep: Wat is jouw ervaring met het aanpassen van je toets?

De UU verzamelt in 2024 en 2025 voorbeelden uit verschillende contexten. Dus heb jij ervaringen rondom het aanpassen van je toets, neem dan contact op met de auteurs. Zij horen graag wat je ervaringen zijn!

Er zijn al voorbeelden van docenten die aan de slag zijn gegaan met hun toets, waarbij ze toestaan dat studenten genAI inzetten voor (een deel van) het schrijven van een essay of thesis. Een framework om een toets te ontwerpen en te becijferen vind je in box 5. Twee voorbeelden van het inrichten van je toets in een cursus vind je in Box 6a en Box 6b.

Samenvatting van de aanbevelingen

Onze aanbeveling rondom toetsing in deze tijden van genAI, is om op mesoniveau (programmaniveau) te gaan kijken naar de eindtermen en leeruitkomsten. Op die manier kun je in kaart brengen welke eindtermen niet meer betrouwbaar getoetst worden nu genAI gebruikt wordt door studenten.

Om een idee te krijgen van de kwetsbaarheid van een toets kun je stappenplan volgen zoals opgezet door het Teaching and Learning Centre van de Southern Cross University. Vervolgens kun je bedenken welke toetsen je gaat aanpassen.

Aanpassingen kunnen op twee manieren:

  1. je laat toe dat genAI (in meer of mindere mate) wordt gebruikt tijdens de toets, of
  2. je probeert uit te sluiten dat genAI gebruikt wordt tijdens de toets. Wat je wanneer doet hangt af van je leeruitkomsten.

Als je genAI toestaat tijdens de toets is het van belang om goed na te denken over wat je toetst: is dit AI geletterdheid of de daadwerkelijke schrijfvaardigheid? En hoe onderscheid je dit van de vakgerelateerde kennis? Met andere woorden: let goed op de validiteit van je toets.

Als je genAI-gebruik zoveel mogelijk wilt uitsluiten tijdens de toets dan is een aanpassing aan het toetsproces de beste optie. Deze aanpassing is namelijk ook het meest robuust tegen mogelijke nieuwe vormen van genAI die ontwikkeld zullen worden.

Aanpassingen van het toetsproces moeten ervoor zorgen dat de docent zicht op het schrijfproces houdt, bijvoorbeeld door verschillende soorten producten van een student te zien en bespreken. Daarnaast kan de docent ook mondeling met de student in gesprek over diens geschreven stuk.

Als het toetsproces op deze manier ingericht wordt, kan de docent uiteindelijk een weloverwogen summatieve beslissing nemen, waarbij een goede inschatting te maken is over het niveau van de student zonder gebruik van genAI.

Toelichting of ondersteuning bij deze stappen

Wij realiseren ons dat dit in sommige gevallen grootschalige aanpassingen zullen zijn. Wil je toelichting op een van deze stappen? Of wil je ondersteuning bij het in kaart brengen van je toetsing of de aanpassing hiervan? Neem contact op met Onderwijsadvies & Training: onderwijsadviesentraining@uu.nl 

Publicatiedatum: mei 2024