Papieren toetsen nakijken met AI — wat kan het wel en wat (nog) niet?

In februari 2026 onderzochten Cito en het Nationaal Onderwijslab AI (NOLAI) hoe AI open vragen kan nakijken bij centrale examens. Hun prototype CheckMate groepeert vergelijkbare antwoorden zodat docenten ze in één keer kunnen beoordelen. Op Examenblad.nl schrijft het College voor Toetsen en Examens dat ze AI willen inzetten om "het nakijkwerk sneller en consistenter te maken". Tegelijk waarschuwt hoogleraar Felienne Hermans op Kennisnet dat we eerst moeten nadenken of we wel zoveel moeten toetsen, voordat we het nakijken versnellen.

Die spanning — efficiëntie versus fundamentele vragen over toetscultuur — raakt de kern van het debat rond AI in het onderwijs. In dit artikel bekijken we wat de technologie op dit moment kan, waar de grenzen liggen, en wat dat betekent als je morgen voor een stapel toetsen zit.

De staat van de technologie

Het nakijken van papieren toetsen met AI bestaat uit twee stappen die fundamenteel verschillend zijn. De eerste stap is optische tekenherkenning: het lezen van handschrift. De huidige generatie vision models — de modellen die afbeeldingen kunnen interpreteren — kan handschrift lezen met een nauwkeurigheid die twee jaar geleden ondenkbaar was. Niet foutloos: slordig handschrift, doorstrepingen, onduidelijke letters en schrijven in de kantlijn blijven lastig. Maar voor de meeste leerlingen levert het een bruikbare transcriptie op.

De tweede stap is het daadwerkelijke beoordelen: past dit antwoord bij wat er verwacht wordt volgens het correctiemodel? Bij gesloten vragen — meerkeuze, invulvragen, waar/onwaar — is dat triviaal. Het antwoord is goed of fout, daar hoef je geen AI voor in te zetten. Het wordt interessant bij open vragen. Daar moet de AI beoordelen of een antwoord in andere woorden hetzelfde zegt als het modelantwoord, of er deelpunten verdiend zijn, en of een creatieve formulering goed- of afgekeurd moet worden.

Dat is fundamenteel lastiger dan het lijkt. Neem een aardrijkskundevraag: "Noem een gevolg van zeespiegelstijging voor Nederland." Het modelantwoord zegt "overstromingen" of "dijken moeten verhoogd worden". Een leerling schrijft "de polders komen onder water te staan". Is dat goed? Natuurlijk — het is hetzelfde in andere woorden. Maar een AI die puur op woordovereenkomst zoekt, mist het. Moderne taalmodellen zijn hier veel beter in dan hun voorgangers, maar ze maken nog steeds fouten bij ambigue of onverwachte formuleringen.

Wat er in het veld gebeurt

Cito's CheckMate, ontwikkeld in het CitoLab, kiest een slimme tussenvorm. In plaats van elk antwoord individueel te beoordelen, groepeert het vergelijkbare antwoorden. De docent beoordeelt dan niet 30 keer hetzelfde antwoord, maar ziet clusters: "deze 12 leerlingen gaven in essentie dit antwoord". Dat bespaart tijd zonder dat de AI zelf de beoordeling doet. Uit een Teacher Tapp-peiling van Cito bleek dat docenten de groepeerknoppen als het meest tijdbesparende element ervaren.

Op Examenblad.nl beschrijft het CvTE een breder programma: AI voor het construeren van examenvragen, voor het nakijken van schrijfopdrachten, en voor het analyseren van antwoordpatronen in realtime. Het doel is niet om de docent te vervangen, maar om het beoordelingswerk "sneller en consistenter" te maken. Die consistentie is een interessant punt.

Het bias-probleem: waarom consistentie ertoe doet

Onderzoek van Cito uit 2013 — uitgebreid beschreven in De Groene Amsterdammer — liet zien dat docenten hun eigen leerlingen systematisch hoger beoordelen dan onbekende beoordelaars. Bij het havo-examen geschiedenis kreeg 77% een voldoende van de eigen docent. Bij onafhankelijke correctoren zakte dat naar 47%. Het gemiddelde cijfer daalde van een 7,1 naar een 5,4. De onderzoekers spraken van "opportunistisch-strategisch beoordelingsgedrag".

Dat is geen kwaadwillendheid — het is een menselijk patroon. Je kent Aisha, je weet dat ze hard werkt, en bij twijfel geef je haar het voordeel. AI heeft die bias niet. Maar het introduceert mogelijk andere, minder goed begrepen vertekeningen. Als het correctiemodel vaag is, kan een AI consequent te streng of te soepel zijn op manieren die je niet direct doorziet. Dat maakt transparantie essentieel: je moet kunnen zien wat de AI leest, hoe het vergelijkt, en waarom het een bepaald punt geeft.

Waar het misgaat

De kwaliteit van AI-nakijken staat of valt met de kwaliteit van het correctiemodel. Uit de Teacher Tapp-peiling blijkt dat 50% van de docenten zelfgemaakte toetsvragen gebruikt. Dat betekent enorme variatie in correctiemodellen: van strak uitgeschreven antwoorden tot "globale strekking voldoende". Hoe vager het correctiemodel, hoe slechter de AI presteert. Dat is strikt genomen geen AI-probleem — het is een toetskwaliteitsprobleem dat door AI zichtbaar wordt.

Een tweede valkuil is te veel vertrouwen. Als de AI bij 80% van de antwoorden het juiste punt geeft, is het verleidelijk om de overige 20% ook maar te accepteren. Maar juist die 20% bevat de lastige gevallen: de creatieve antwoorden, de grensgevallen, de leerlingen die iets anders bedoelden dan wat ze opschreven. Die gevallen vereisen docentexpertise — precies het deel dat je niet wilt automatiseren.

Wat dit voor de praktijk betekent

De meest realistische rol voor AI bij nakijken is op dit moment die van assistent, niet van beoordelaar. De AI leest het handschrift, maakt een transcriptie, vergelijkt met het correctiemodel en doet een voorstel. De docent controleert, past aan en beslist. Dat klinkt bescheiden, maar het bespaart het meest tijdrovende deel: het fysiek lezen en turven van tientallen handgeschreven antwoorden.

Of dat genoeg is om de werkdruk daadwerkelijk te verlagen, hangt af van meerdere factoren: hoe strak je correctiemodel is, hoe leesbaar het handschrift, hoe complex de vragen. Bij een goed uitgeschreven model en een klas met redelijk handschrift kan de tijdswinst 50-70% zijn. Bij vage modellen of onleesbaar schrift is de winst beperkt.

Maar misschien is het belangrijkste effect niet de tijdswinst zelf, maar de verschuiving van tijd. Minder uren besteden aan turven en lezen, meer uren aan het interpreteren van patronen en het geven van gerichte feedback. Dat is waar docenten het verschil maken — en waar ze ook de meeste voldoening uit halen.

Benieuwd hoe dit proces er in de praktijk uitziet? Op corrigo.nl/nakijken staat een interactief voorbeeld van scan tot resultaat.

← Terug naar blog

Wil je Corrigo proberen?

Maak een gratis account aan en ontdek hoe snel je kunt nakijken en toetsen maken.

Gratis aan de slag →