Toetsen maken met AI: handig hulpmiddel of luie shortcut?

Uit een peiling van Beter Onderwijs Nederland (februari 2026) bleek dat een overgrote meerderheid van docenten vindt dat AI geschikt is als instrumenteel hulpmiddel bij het ontwerpen van lesmateriaal en toetsen. Tegelijk wil 85% dat er duidelijke regelgeving komt over hoe en wanneer AI in het onderwijs gebruikt wordt. Die combinatie — enthousiasme over de mogelijkheden, onzekerheid over de kaders — tekent de huidige situatie rond AI en toetsconstructie.

In de praktijk lopen docenten vooruit op die regelgeving. Veel docenten gebruiken ChatGPT, Gemini of Claude al om toetsvragen te genereren, modelantwoorden te schrijven of bronmateriaal te zoeken. Sommigen doen dat met uitstekende resultaten. Anderen produceren toetsen die er professioneel uitzien maar inhoudelijk rammelen. Het verschil zit niet in de tool — het zit in hoe je hem gebruikt.

Wat docenten nu al doen

De meest voorkomende werkwijze is simpel: kopieer een stuk tekst uit het leerboek of je lesaantekeningen, plak het in ChatGPT, en vraag om X vragen op niveau Y. Binnen een minuut heb je een lijst vragen met modelantwoorden. Het is snel, het voelt productief, en het levert in veel gevallen een bruikbaar startpunt op.

De problemen beginnen als je niet kritisch genoeg kijkt naar wat er uitkomt. De meest voorkomende fouten: vragen die op het verkeerde RTTI-niveau zitten (AI genereert graag vragen die "slim" klinken maar inhoudelijk reproductie zijn), modelantwoorden die niet precies kloppen of te vaag zijn om mee na te kijken, en bronmateriaal dat verzonnen is. Dat laatste is een serieus risico bij vakken waar feiten en data essentieel zijn. Een AI die een bevolkingscijfer verzint of een grafiek beschrijft die niet bestaat, levert een toets op die er goed uitziet maar feitelijk onbetrouwbaar is.

Een subtieler probleem: AI-gegenereerde vragen lijken vaak erg op elkaar. De formulering is correct maar voorspelbaar. "Leg uit waarom...", "Noem drie redenen...", "Beschrijf het verband tussen...". Na drie AI-toetsen herkennen je leerlingen het patroon. De verrassing, de prikkelende formulering, de onverwachte invalshoek die een goede toetsvraag kenmerkt — die ontbreekt vaak.

Waar AI-generatie wél goed werkt

Variaties op bestaande vragen. Als je een goede T2-vraag hebt over bevolkingspiramides in Nigeria, kan AI die omschrijven naar Japan of Brazilië. De structuur blijft intact, de context verandert. Dat is precies wat je nodig hebt voor A/B-versies van een toets, voor herkansingen, of om volgend jaar niet exact dezelfde vragen te gebruiken.

Modelantwoorden bij bestaande vragen. Dit is misschien wel de sterkste toepassing. Je hebt de vraag zelf bedacht — de creativiteit is van jou — maar het uitschrijven van een volledig, gestructureerd modelantwoord met puntenverdeling kost tijd. AI kan dat vaak goed, mits je de vraag en de gewenste diepgang duidelijk aanlevert. Je moet het nog steeds controleren, maar het bespaart het uitschrijfwerk.

Meerkeuzedistractors. Het bedenken van drie plausibele maar foute antwoorden bij een meerkeuzevraag is verrassend tijdrovend. AI is hier goed in: het kent de typische misconcepties en kan overtuigende maar incorrecte opties genereren. Controleer altijd of de distractors echt fout zijn — soms genereert AI een "fout" antwoord dat bij nader inzien ook verdedigbaar is.

Waar het minder goed werkt

Originele T2- en I-vragen. Dit vereist een nieuwe situatie die de leerling niet eerder heeft gezien, met betrouwbare data en een logische vraagstelling. De AI kan een situatie verzinnen, maar die situatie moet kloppen: de cijfers moeten realistisch zijn, de context moet logisch zijn, en de vraag moet aansluiten bij de leerdoelen. Dat vergt vakinhoudelijke controle die even lang kan duren als de vraag zelf bedenken.

Vragen bij actuele bronnen. Een artikel uit de krant, een recente grafiek van het CBS, een nieuwsbericht over klimaatverandering — dat zijn de bronnen die toetsen actueel en relevant maken. AI heeft daar beperkt toegang toe en kan de nuances van een specifiek artikel niet altijd correct interpreteren. De docent die het artikel zelf heeft gelezen, maakt betere vragen.

Vragen die aansluiten bij wat je daadwerkelijk hebt behandeld. AI weet niet wat er in jouw les is gezegd, welke voorbeelden je hebt gebruikt, of welke oefeningen de leerlingen hebben gemaakt. Een vraag kan inhoudelijk perfect zijn maar niet passen bij hoe jij de stof hebt aangeboden. Dat maakt het voor leerlingen oneerlijk — ze worden getoetst op iets dat ze niet herkennen, ook al "hoort" het bij het onderwerp.

De echte tijdswinst

De tijdswinst bij het maken van toetsen zit meestal niet in het bedenken van vragen — dat is, hoe vermoeiend het soms ook is, het inhoudelijk meest waardevolle deel van het werk. De tijdswinst zit in het afmaken: puntenverdeling bepalen, modelantwoorden uitschrijven, bronmateriaal formatteren, alles in een nette PDF zetten met kopregels en antwoordregels. Dat zijn de taken die 's avonds om half tien nog op je bord liggen als je eigenlijk klaar wilt zijn.

Een goede AI-tool voor toetsconstructie automatiseert die afronding, niet de creativiteit. Je bedenkt de vragen (of laat de AI een voorstel doen dat je vervolgens aanscherpt en aanpast aan je les), en de tool doet de rest: punten toekennen, modelantwoorden genereren, RTTI-classificatie, opmaak, A/B-versies met andere vraagvolgorde.

De kwaliteitsvraag

Op het congres Toetsen en Beoordelen in het VO (februari 2026) was een van de kernboodschappen: "Slechte toetsen geven foute signalen aan leerlingen én docenten." Die boodschap geldt ongeacht hoe de toets is gemaakt. Een met de hand gemaakte toets met alleen R-vragen is niet beter dan een AI-gegenereerde toets met alleen R-vragen. En een AI-gegenereerde toets die zorgvuldig is gecontroleerd en aangepast, kan beter zijn dan een haastig met de hand gemaakte toets op zondagavond.

De tool maakt het verschil niet. Het proces eromheen wel: de controle, de aanpassing, het nadenken over of deze vraag meet wat je wilt meten. Dat is en blijft docentwerk — en het is werk dat er beter van wordt als je er meer tijd voor hebt.

Meer weten over hoe RTTI-classificatie je helpt om de balans in je toets te bewaken? Lees ons artikel over RTTI in de praktijk.

← Terug naar blog

Wil je Corrigo proberen?

Maak een gratis account aan en ontdek hoe snel je kunt nakijken en toetsen maken.

Gratis aan de slag →