Toetsprogramma’s onder de loep: wat doet genAI met de validiteit van een toetsprogramma?

foto van ruimte met tafels die los van elkaar zijn geplaatst in toetsopstelling. Er zijn lijnen boven de tafels zichtbaar dat moderniteit uitstraalt en connectiviteit

Geschreven door: Esther van Dijk, Steven Raaijmakers, Laura Koenders and Frans Prins.

De opkomst van generatieve AI (genAI) roept fundamentele vragen op over de waarde van toetsresultaten in het hoger onderwijs. Wanneer studenten bij het maken van een toets gebruikmaken van genAI-tools, zoals ChatGPT, zonder dat docenten zicht hebben op wat ze doen, wat zegt hun prestatie dan nog over hun eigen kennis en vaardigheden? Met andere woorden, genAI vermindert in sommige gevallen de validiteit van onze toetsing. Dit zet mogelijk de waarde van het diploma onder druk.

Onderwijsdirecteuren zijn verantwoordelijk voor de kwaliteit van toetsing in hun programma (Handreiking Kwaliteitszorg Examinering) en spelen daarom een cruciale rol bij het analyseren van kwetsbaarheden door genAI-technologieën. Het stappenplan dat we hier presenteren is een hulpmiddel voor een onderwijsdirecteur om zicht te krijgen op de validiteit van het toetsprogramma nu genAI breed beschikbaar is. Hiermee is dit een diagnostische stap, om vervolgens te kunnen bepalen welke aanpassingen nodig zijn.

Beslissingen over het toekennen van een diploma worden gebaseerd op informatie uit meerdere toetsmomenten tijdens de gehele duur van een opleiding. De combinatie van toetsvormen tijdens de opleidingsjaren wordt het toetsprogramma genoemd. Deze combinatie is bewust samengesteld, passend bij de doelen, inhoud, opbouw en structuur van het curriculum (Van Schilt-Mol & Joosten-ten Brinke, 2025). De impact van genAI varieert sterk tussen verschillende toetsvormen en -functies, wat dus vraagt om verschillende aanpassingen. Een opleidingsbrede kijk hierop, ofwel inzicht in het toetsprogramma, is dus een noodzakelijke stap voor opleidingen om keuzes te maken in mogelijke toetsaanpassingen.

Met dit instrument doorloop je stap voor stap een analyse om het toetsprogramma van een opleiding systematisch in kaart te brengen, en na te gaan welke invloed genAI heeft op de validiteit van het toetsprogramma. De analyse helpt opleidingen:
 

  • de validiteit van een toetsprogramma als geheel zichtbaar te maken, en de invloed van genAI daarop;
  • vanuit een onderwijsvisie de invloed van genAI te interpreteren;
  • en gerichte acties te formuleren om aanpassingen te doen aan toetsprogramma’s, waarin genAI meegenomen wordt.

Uitgangspunten

We baseren deze aanpak op een aantal veronderstellingen:

  1. Studenten maken op grote schaal gebruik van genAI. Volgens recente surveys maakt op dit moment zo’n 65%-83% van de studenten gebruik van genAI-tools (Deschenes and McMahon, 2024; Chung et al., 2024).
  2. De prestaties van genAI zijn inmiddels zo goed dat zij uiteenlopende examens succesvol voltooien (zie bijv. Ghosh & Bir, 2023; Kumah-Crystal et al., 2023).
  3. Met de ontwikkeling van de technologie is gebruik van genAI steeds minder goed inhoudelijk te detecteren (Fleckenstein et al. 2024). Er zijn ook geen automatische AI-content detection tools die op een betrouwbare manier kunnen onderscheiden of teksten met of zonder genAI is gemaakt (Elkhatat, 2023).

Doel

Dit stappenplan is geen normatief kader, maar een diagnostisch instrument dat opleidingen helpt inzicht te krijgen in de impact van genAI op hun toetsing met een summatieve functie. Het brengt in kaart welke eindtermen kwetsbaar zijn doordat genAI de validiteit van de toetsing van deze eindtermen heeft beïnvloed. Het inzicht dat in de analyse wordt gecreëerd tussen de eindtermen en het toetsprogramma ondersteunt zowel kwaliteitsborging als accreditatievoorbereiding en kan leiden tot curriculumontwikkeling waar nodig.

Het uiteindelijke doel is om een toetsprogramma op te stellen dat, ondanks de invloed van genAI, voldoende inzicht biedt in de kennis en vaardigheden van de student. De analyse is daarmee geen eindpunt, maar een startpunt voor verdere discussie over visie rondom genAI en wat dit betekent voor de eindtermen, toetsing en leeractiviteiten in het programma.

Stap 1: Afbakening

Het doel van deze stap is om te bepalen welke onderdelen van het programma je gaat analyseren, wat je wilt analyseren en hoe je dit gaan aanpakken. Een heldere afbakening voorkomt dat de analyse te groot, te vaag of niet uitvoerbaar wordt. Daarnaast zorgt het ervoor dat je keuzes expliciet en verantwoord maakt — iets wat ook belangrijk is richting accreditatie of onderwijsontwikkeling.

Scope: welke vakken neem je mee in de analyse?

Dit stappenplan richt zich op de analyse van toetsen met een summatieve functie en focust zich daarom onderwijseenheden van een onderwijsprogramma die samen leiden tot een diploma, zoals bachelor-, master- of executive programma's. De minimale omvang voor deze analyse omvat de vakken die voor alle studenten verplicht zijn. Wanneer het programma tracks of specialisaties bevat met aanvullende verplichte cursussen, is het raadzaam om per track een afzonderlijke analyse uit te voeren. Dit biedt beter inzicht in specifieke kwetsbaarheden en waarborgt de kwaliteit binnen elke track. Daarnaast kunnen er redenen zijn om bepaalde keuzevakken mee te nemen in de analyse, naast de verplichte vakken. Een voorbeeld hiervan is wanneer studenten een bepaald aantal keuzevakken uit een vaste lijst moeten volgen om hun diploma te behalen. In een dergelijke situatie kunnen eventuele kwetsbaarheden in deze keuzevakken net zo bepalend zijn voor de eindkwalificaties als die in de verplichte vakken.

Het doel: zicht krijgen op de invloed van genAI op de validiteit van het toetsprogramma

GenAI heeft invloed op twee aspecten van validiteit van toetsprogramma's (van Berkel et al., 2023): 1) de mate waarin de toetsresultaten binnen het programma informatie geven over de prestaties van studenten met betrekking tot de verwerving van alle eindtermen (dekking) en 2) de mate waarin de combinatie van toetsvormen passend is om na te gaan in hoeverre de beoogde eindtermen verworven zijn (vorm). Door informatie te verzamelen dat inzicht geeft in deze aspecten, kun je per eindterm nagaan of je nog gefundeerde uitspraken kunt doen over de beheersing van de eindtermen door studenten.

Mogelijke uitbreidingen van de analyse

Deze analyse kan ook dienen als basis voor aanvullende inzichten met betrekking tot de kwaliteit van het toetsprogramma als geheel. Je kunt hiermee bijvoorbeeld ook vragen stellen die betrekking hebben op de opbouw in complexiteit, de verhouding tussen individuele en groepscijfers of de interactie tussen formatieve en summatieve toetsing. Om bredere uitspraken te doen (los van de invloed van genAI) over de kwaliteit van het toetsprogramma raden wij het Kwaliteitsinstrument Toetsprogramma (KIT2.0) aan. Om alle vragen uit dit instrument te beantwoorden, is het nodig meer informatie te verzamelen.

Hoe kun je dit aanpakken?

Deze analyse kan door de onderwijsdirecteur zelf worden uitgevoerd of worden overgedragen aan een individu of projectgroep. We raden aan om vooraf duidelijkheid te scheppen over het eindproduct, de betrokkenen, activiteiten en planning.

  • Eindproduct: Wordt er alleen een analyse opgeleverd of ook adviezen? En in welke vorm? Een rapport, presentatie of een andere vorm.
  • Betrokkenen: Wie wordt er op welk moment betrokken? Bijvoorbeeld bij de opzet van de analyse, het verzamelen van gegevens of de interpretatie van data. Het is daarbij belangrijk om rekening te houden met bestaande kwaliteitszorgprocessen, rolverdelingen en werkwijzen binnen de organisatie.
  • Activiteiten: Denk na of je gegevens wilt uitvragen en bundelen, of dat het slimmer is om dit gelijktijdig met allen verantwoordelijken wilt verzamelen. Een voordeel hierbij is dat je gezamenlijk het overzicht kunt opbouwen. 

Stap 2: Gegevens verzamelen

Na het bepalen van de scope, het doel en de aanpak van de analyse, zullen benodigde gegevens over het onderwijsprogramma en de toetsing verzameld en geordend moeten worden. Voor de ordening van de gegevens raden wij aan hiervoor Excel of een vergelijkbare tool te gebruiken, en volgens de volgende stappen tot een overzicht te komen. Figuur 1 dient als een illustratie van hoe dit overzicht eruit zou kunnen zien.

Voorbeeld van een excel-bestand met overzicht van een toetsprogramma
Figuur 1. Voorbeeld van een excel-bestand met overzicht van een toetsprogramma

Er is in deze analyse gekozen voor een rechtstreekse ‘koppeling’ tussen eindtermen en toetsen. Een koppeling via de leerdoelen (toets à leerdoel à eindterm) is mogelijk maar niet nodig om uitspraken te doen over de validiteit van het gehele toetsprogramma in het kader van genAI.

Een punt van aandacht bij de gegevensverzameling is de inschatting die moet worden gemaakt over de ‘genAI kwetsbaarheid’ van toetsen, en over de match tussen eindterm en toets. Deze informatie zal in de meeste gevallen worden aangeleverd door de cursuscoördinator (zie ook ‘hoe kun je dit aanpakken’). Voor deze afwegingen is zowel goede onderwijskundige kennis over toetsontwerp (zie box 1) als kennis over de (on)mogelijkheden van genAI nodig. Als deze kennis er onvoldoende is, zal de inschatting minder betrouwbaar worden. Dit kan een te positief of negatief beeld opleveren van de kwaliteit van het toetsprogramma.

Om de invloed van genAI op de verschillende aspecten van validiteit te kunnen analyseren, is in ieder geval de volgende informatie nodig.

  1. de eindtermen;
  2. de cursusnamen en/of cursuscodes;
  3. de summatieve toetsen per cursus;
  4. welke eindtermen door elke toets worden getoetst; en
  5. Een interpretatieslag, gemaakt door de cursuscoördinator: hoeveel zicht is er op de inbreng van een student in de toetsing ten opzichte van de inbreng van genAI. We raden aan om dit te coderen. Een voorbeeld is van een codering kan zijn:
    1. Zicht op de inbreng van de student: Hierbij heb je als docent volledig inzicht in de eigen inbreng van de student bij het maken van de toets. Dit betekent dat gebruik van genAI niet mogelijk is, of volledig transparant. Voorbeelden van toetsvormen in deze categorie zijn tentamens op een gecontroleerde omgeving en mondelinge examens op locatie.
    2. Beperkt zicht op de inbreng van de student: Hierbij heb je als docent beperkt inzicht in de eigen inbreng van de student, en gedeeltelijk zicht op het gebruik van genAI. Het toetsproces is hier zodanig ingericht dat een docent met vertrouwen een oordeel over het functioneren van de student kan geven, omdat de docent de student voldoende heeft leren kennen en dus weet of het werk het niveau weerspiegelt. Voorbeelden van toetsvormen in deze categorie zijn essayopdrachten waarbij intensief contact is tussen docent en student tijdens het schrijfproces, of opdrachten waarbij studenten een presentatie geven en vervolgens een aantal vooraf onbekende vragen over hun presentatie beantwoorden.
    3. Geen zicht op de inbreng van de student: Hierin heeft een docent geen inzicht in de eigen inbreng van de student; en geen zicht op het gebruik van genAI. Voorbeelden van toetsvormen in deze categorie zijn producten die studenten thuis maken, zonder dat de docent inzicht heeft in het proces waarmee deze tot stand zijn gekomen.

Box 1. Voorbeelden van het matchen van toetsen aan eindtermen

Een toetstaak geeft vaak informatie over de beheersing van meerdere eindtermen, in verschillende mate. Een essay als toets kan zowel ‘inhoudelijk, conceptueel begrip’ toetsen, als ‘schrijfvaardigheid’, en daarmee bijdragen aan de beslissing over het niveau van meerdere eindtermen. Wat er precies getoetst wordt hangt af van de exacte opdrachtinstructie, en dit kan ook worden opgemaakt uit het beoordelingsinstrument. In een analytische rubric is bijvoorbeeld precies te zien welke onderdelen in welke mate meetellen. Voor de interpretatiestap is het dus van belang om zowel toetsinstructie als beoordelingsinstrument goed te bestuderen, om vanuit daar keuzes te maken over de eindterm waarover deze toetsvorm iets zegt.

Hoe kun je dit aanpakken?

Er zijn twee mogelijke aanpakken om de gegevens te verzamelen:

  1. Een projectleider of projectgroep vraagt alle gegevens op, en verwerkt deze in een overzicht. Dit betekent dat iedere cursuscoördinator individueel moet inschatten hoeveel gebruik studenten kunnen maken van genAI tijdens de toets (en hoe storend dat is voor de summatieve beslissing). Aangezien het een ingewikkelde afweging betreft, is de kans groot dat dit ruis oplevert omdat degenen die de interpretatiestap moeten maken niet altijd voldoende kennis over genAI of de invloed van genAI op de toets zullen hebben.  
  2. De cursuscoördinatoren komen tijdens een bijeenkomst samen, en vullen dan gezamenlijk het overzicht in, waarbij er gezamenlijk een inschatting gemaakt wordt van de kwetsbaarheid van de toetsen. Een voorbeeld van zo’n aanpak is in het artikel van Jongkind et al., (2025) beschreven. Dit kan uiteraard indien gewenst onder onderwijskundige begeleiding.

Stap 3: Analyse, interpretatie en rapportage

Aan de hand van een analyse van de database krijg je meer zicht op de mogelijke risico’s met betrekking tot dekking en vorm van het toetsprogramma. De onderstaande tabel beschrijft hoe je de data uit de database kunt analyseren en wat resultaten mogelijk kunnen betekenen voor de validiteit van het toetsprogramma. Voor aanvang van de analyse is het relevant om na te denken welke eindtermen inhoudelijk bij elkaar horen en welke prioriteit de verschillende eindtermen hebben in de opleiding. Dit kan verdere richting geven bij de analyse van de individuele eindtermen en de interpretatie van de resultaten. De uitkomsten van de analyse geven een signaal af over welk cluster van eindtermen en welke individuele eindtermen relevant zijn om nader te bekijken. We raden hierbij aan om op basis van de cijfers terug te gaan naar de inhoud van de toetstaken om uiteindelijk te bepalen of de validiteit van het toetsprogramma in het geding is.
 

Kwaliteits-criterium

Data-analyse

Interpretatie

Dekking

 

  • Zijn er voldoende toetsen gekoppeld per eindterm in het toetsprogramma? Met andere woorden: is de toetsing dekkend per eindterm?
  • Zorgt het mogelijk gebruik van genAI door studenten tijdens de toetsing voor onvoldoende dekking van een eindterm?

Hier is de belangrijkste vraag: wanneer is dekking onvoldoende? Als de eindterm helemaal niet wordt beoordeeld kun je uiteraard geen uitspraken doen over het niveau van een student betreffende een eindterm. Dat is overduidelijk niet voldoende.

In sommige gevallen is één toets (mits goed opgezet) voldoende om een eindterm te dekken. In andere gevallen zijn er meerdere toetsen nodig.

Daarnaast is het mogelijk dat genAI ervoor zorgt dat toetsen en toetsvormen niet valide meer zijn en je daardoor per eindterm te weinig of geen valide toetsen meer overhoudt. Ook dan is de eindterm niet meer gedekt.

  • Hoe is de verhouding per eindterm tussen toetsen waarin er zicht, beperkt zicht of geen zicht is op het leren?

Als een eindterm alleen of voornamelijk getoetst wordt door middel van toetsen waarbij de docent weinig of geen zicht heeft op het leren van de student, dan is er mogelijk een risico met betrekking tot de dekking.

Je kunt de analyse verdiepen door hier ook andere aspecten van het toetsprogramma bij te betrekken. Bijvoorbeeld: wanneer worden de meeste toetsen afgenomen waarin er beperkt/geen zicht is op het leren? Is er een cluster te zien qua jaar of leerlijn bijvoorbeeld?

Vorm

 

  • Zet de typen toetsen per eindterm op een rij. Is de combinatie van toetsvormen in het toetsprogramma passend bij de inhoud van de beoogde eindterm?

De toetsvorm en de toetsomgeving moet passen bij de inhoud en het niveau van de eindterm.

Voorbeelden van dergelijke eindtermen zijn eindtermen die gaan over het genAI-gebruik van studenten of om vaardigheden waarbij toetsing in ongecontroleerde setting niet past, zoals bij samenwerking of het reguleren van het eigen leerproces.

NB dekking en vorm hangen samen. Als een eindterm niet in de juiste vorm wordt getoetst, heeft dit ook negatieve gevolgen voor de dekking, en dus voor de validiteit.


Rapportage

Het rapporteren van de analyseresultaten en de interpretatie daarvan is een belangrijke stap om beleid te kunnen verantwoorden (bijvoorbeeld richting accreditatie of de examencommissie), continuïteit binnen de opleiding te waarborgen bij personeelswisselingen en docenten te betrekken bij vervolgacties en verbetertrajecten. De eindrapportage kan verschillende vormen aannemen, maar moet in ieder geval antwoord geven op de vraag: “Welke risico’s zijn er door genAI voor de validiteit van het toetsprogramma, met betrekking tot dekking en vorm?”. Hiervoor zijn verschillende indelingen mogelijk, bijvoorbeeld door de eindtermen te clusteren op inhoud of door ze te groeperen op basis van de mate van risico.

Hoe kun je dit aanpakken?

  • Bij veel opleidingen is er expertise aanwezig om dergelijke gegevens te analyseren. Het is wenselijk om de analyses samen (met de betrokkenen) te bespreken. Op deze manier kan bepalende context direct meegenomen worden in de interpretatie. Zo nodig kan er een onderwijskundig adviseur aansluiten om ofwel te begeleiden bij de interpretatie of de gemaakte interpretatie kritisch te bevragen.
  • Bij het opstellen van de rapportage is het van belang om na te denken op welke manier je anderen meeneemt in de analyse, interpretatie en de belangrijkste conclusies.

Stap 4: Van diagnose naar hervorming

Wanneer uit de analyse blijkt dat er in het toetsprogramma risico’s zijn met betrekking tot validiteit, kunnen verschillende interventies worden overwogen. Hoe dan ook is het van belang de constructieve afstemming te bewaken (Biggs, 1996), en aanpassingen van de eindtermen en aanpassingen van de toetsing hand in hand te laten plaatsvinden. Daarnaast is er eerst verdere visievorming op de rol van genAI binnen de discipline (en dus de opleiding) nodig.

Visievorming rondom de rol van genAI in de opleiding gaat om vragen als: Over welke kennis en vaardigheden moeten alumni beschikken en hoe kunnen we waarborgen dat het onderwijsprogramma deze kennis en vaardigheden toetst en aanleert? Op welke manier gaan afgestudeerden genAI gebruiken in hun vervolgopleiding of in het werkveld en hoe kan de opleiding hen hierop voorbereiden? Hoe wordt toetsing in de opleiding ingezet voor verschillende functies, zoals kwalificatie en ondersteuning van het leerproces? De antwoorden op deze en gerelateerde vragen bepalen welke aanpassingen in het programma wenselijk zijn.

Aanpassingen in het programma


Eindtermen

In plaats van dat studenten een eindterm moeten behalen zonder het gebruik van genAI, kan genAI-gebruik ook expliciet worden toegestaan of zelfs worden opgenomen als een aanvullende eindterm/aanvullende eindtermen. Binnen de Faculteit Sociale Wetenschappen zijn een aantal verschillende scenario’s opgesteld, waarin verschillende niveaus van genAI-gebruik worden gespecificeerd. Binnen de andere faculteiten zijn deze verspreid als de AI-index met verschillende niveaus. Dit kan hierbij een hulpmiddel zijn. Dit zorgt ervoor dat zowel studenten als docenten duidelijk weten wat er wordt verwacht en welke vaardigheden worden beoordeeld. Het is daarbij belangrijk om in gedachten te houden dat het handhaven van beperkt genAI-gebruik in een omgeving waar de docent geen zicht heeft op wat studenten doen, op het moment van schrijven nog steeds niet mogelijk is.

Toetsing

Er zijn verschillende aanpakken mogelijk om aanpassingen aan de toetsing te doen. Corbin et al. (2025) onderscheiden een ‘discursieve aanpak’, gericht op instructies aan studenten over het gewenste en ongewenste genAI gebruik tijdens de toetsing, en een ‘structurele verandering van het toetsprogramma’, wat duidt op een herziening van het toetsprogramma als geheel. Afhankelijk van de inschatting van de validiteit van het toetsprogramma, kan gekozen worden voor een aanpak passend bij de opleiding. Wij schatten in dat voor veruit de meeste opleidingen een combinatie van deze twee aanpakken nodig zal zijn.

Als gekozen wordt voor een structurele herziening, biedt het werk van Liu en Bridgeman (2023) goede aanknopingspunten. Zij volgen de beredenering dat validiteitsrisico’s door genAI verminderd kunnen worden door toetsen af te nemen waarin voldoende zicht is op de inbreng van de student. Dit zijn bijvoorbeeld toetsen in een gecontroleerde omgeving (multiple choice of open vragen waarbij studenten geen toegang hebben tot genAI) of door toetsen waarin docenten veel zicht hebben op de inbreng van de student (bijvoorbeeld mondelinge examens, of toetsen waarbij docenten tijdens de begeleiding via interactie over de inhoud en de leerdoelen zicht krijgt of het betreffende leerdoel is behaald.  Dit is echter problematisch om twee redenen. Ten eerste is dit alleen helpend als deze toetsvormen passend zijn voor de desbetreffende eindterm, omdat er anders nieuwe validiteitsproblemen geïntroduceerd worden. Daarnaast is deze manier van toetsen tijdsintensief, en moet dit ook praktisch, financieel en organisatorisch haalbaar zijn.

Hieruit concluderen Liu en Bridgeman (2023) dat het moeilijk te realiseren is om alle toetsen volledig te vervangen door varianten waarin genAI-gebruik onmogelijk is of waarbij docenten intensief het proces monitoren. Zij raden dus aan om hier keuzes in te maken, en op een aantal momenten in het curriculum voor elke eindterm een zorgvuldige, summatieve toets af te nemen (waarbij er wel voor voldoende dekking wordt gezorgd) om zicht op de ontwikkeling en het niveau van een student te houden. Andere toetsen krijgen dan een formatief karakter, en zijn gericht op het leren van studenten. Dit wordt ook wel de two-lane approach genoemd. Zie hiervoor ook het visiedocument van Npuls (Beekman, 2025).

Hoe kun je dit aanpakken?

  • De inbreng van verschillende docenten uit de opleiding in het visievormingsproces en het vaststellen van de aanpassingen is van groot belang. Docenten hebben namelijk verschillende expertises en genAI kan een verschillende invloed hebben op deze expertisegebieden. Daarnaast zorgt gezamenlijkheid ervoor dat de visie breder gedragen is en dus beter tot zijn recht zal komen in de opleiding.
  • Het doen van aanpassingen aan het curriculum is een uitdagend proces. Betrokkenen bij de opleidingen hebben verschillende belangen, perspectieven en kennisniveaus. Tegelijkertijd is het aanpassen van het curriculum wel urgent. Het is daarom van belang dat er in het proces aandacht is voor verschillende belangen, maar er ook uiteindelijk visie ontwikkeld wordt en beslissingen worden genomen. Een onderwijskundig adviseur kan helpen om dit proces vorm te geven.

Werken aan AI-geletterdheid binnen de opleiding

Binnen de Universiteit Utrecht wordt er actief gewerkt aan het vergroten van de AI-geletterdheid. Dit gebeurt op verschillende manieren, van visievorming tot praktische integratie van genAI in het onderwijs en toetsprogramma. Wil jij een bijdrage leveren aan dit proces, of heb je vragen over hoe AI effectief ingezet kan worden in je vakgebied? Neem dan contact op met Laura Koenders (zie contactgegevens hieronder).

Auteur / contactpersoon

Publicatiedatum: juli 2025

Bronnen

  • Baartman, L. & Prins, F. (2023). Kwaliteit van toetsprogramma’s. In: H. van Berkel, A. Bax, D. Joosten-ten Brinke, T. van Schilt-Mol (Eds), Toetsen in het hoger onderwijs (5e editie). Boom. ISBN 9789024456161
  • Beekman, K., Draaijer, S., Beckers, J., Schagen, E., & Hofman, I. (2025). Visie op toetsing en examinering in het tijdperk van AI. Utrecht. Npuls. https://community-data-ai.npuls.nl/blog/view/286675a9-eb3c-44d8-b607-5a9c5fad37db/visie-op-toetsing-en-examinering-naar-een-ai-bewuste-toetspraktijk?utm_medium=email&utm_campaign=overview
  • Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32(3), 347-364.
  • Chung, J., Henderson, M., Pepperell, N., Slade, C., Liang, Y. (2024). Student perspectives on AI in Higher Education: Student Survey. Student Perspectives on AI in Higher Education Project. https://doi.org/10.26180/27915930
  • Corbin, T., Dawson, P. & Liu, D. (2025). Talk is cheap: why structural assessment changes are needed for a time of GenAI. Assessment & Evaluation in Higher Education, 1-11. https://doi.org/10.1080/02602938.2025.2503964
  • Deschenes, A. & McMahon, M. (2024). A Survey on Student Use of Generative AI Chatbots for Academic Research. Evidence Based Library and Information Practice, 19(2), 2–22. https://doi.org/10.184:38/eblip30512.
  • Elkhatat, A.M., Elsaid, K. & Almeer, S. (2023). Evaluating the efficacy of AI content detection tools in differentiating between human and AI-generated text. Int J Educ Integr 19, 17. https://doi.org/10.1007/s40979-023-00140-5
  • Fleckenstein, J., Thorben Jansen, J.M., Keller, S.D., Köller, O., & Möller, J. (2024). Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays, Computers and Education: Artificial Intelligence, 6,https://doi.org/10.1016/j.caeai.2024.100209
  • Ghosh, A. & Bir, A. (2023). Evaluating ChatGPT’s ability to solve higher-order questions on the competency-based medical education curriculum in medical biochemistry. Cureus, 15(4). Doi:10.7759/cureus.37023
  • Jongkind, R., Elings, E., Joukes, E., Broens, T., Leoplod, H., Wiesman, F., & Meinema, J. (2025) Is your curriculum GenAI-proof? A method for GenAI impact assessment and a case study (pre-print). https://mededpublish.org/articles/15-11#ref-65.
  • Kumah-Crystal Y., Mankowitz, S., Embi. P. & Lehmann, C.U. (2023). ChatGPT and the clinical informatics board examination: the end of unproctored maintenance of certification? Journal of the American Medical Informatics Association, 30(9), 1558–1560, https://doi.org/10.1093/jamia/ocad104
  • Liu, D., & Bridgeman, A. (2023). Embracing the future of assessment at the University of Sydney. https://educational- innovation.sydney.edu.au/teaching@sydney/embracing-the-future-of-assessment-at-the-university-of-sydney/
  • Lodge, J., Howard, S., Bearman, M., & Dawson, P. (2023). Assessment reform for the age of Artificial Intelligence. Tertiary Education Quality and Standards Agency.
  • Van Schilt-Mol, T. & Joosten-ten Brinke, D. (2023). Kwaliteit van toetsing geoperationaliseerd. In: H. van Berkel, A. Bax, D. Joosten-ten Brinke, T. van Schilt-Mol (Eds), Toetsen in het hoger onderwijs (5e editie). Boom. ISBN 9789024456161

 

Toetsprogramma’s onder de loep  © 2025 by Van Dijk, Raaijmakers, Koenders en Prins is licensed under CC BY-NC 4.0. To view a copy of this license, visit https://creativecommons.org/licenses/by-nc/4.0/