De docent blijft de baas: waarom vertrouwen de sleutel is bij AI-nakijken

Kunstmatige intelligentie rukt op in het onderwijs. Van adaptieve leermiddelen tot geautomatiseerde feedback — de beloften zijn groot. Maar als het gaat om nakijken, blijkt er een opvallende kloof te bestaan tussen wat AI technisch kan en wat docenten bereid zijn uit handen te geven. En die kloof gaat niet over technologie. Die gaat over vertrouwen.

Docenten willen hulp, geen vervanging

Uit een recente enquête van Beter Onderwijs Nederland onder docenten, schoolleiders en ouders komt een helder beeld naar voren. Een overgrote meerderheid erkent dat AI een rol kan spelen bij praktische taken zoals het nakijken van toetsen en het ontwerpen van lesmateriaal. Maar tegelijkertijd is er fundamenteel wantrouwen als het gaat om de pedagogische meerwaarde. Docenten accepteren AI als instrument, niet als beoordelaar.

Dat wantrouwen is niet onterecht. Wie wel eens een open vraag door ChatGPT heeft laten beoordelen, weet dat de resultaten wisselend zijn. Soms verrassend goed, soms volstrekt naast de plank. Het probleem is niet dat AI niet kan nakijken — het probleem is dat de meeste AI-tools niet zijn ontworpen voor de specifieke context van een Nederlandse VO-toets. Ze kennen het correctiemodel niet, weten niet welke formulering bij welk vak hoort, en hebben geen idee of een leerling “tropisch klimaat” of “warm klimaat” heeft geschreven op dat half leesbare antwoordblad.

Het correctiemodel als anker

Bij traditioneel nakijken is het correctiemodel het fundament. De docent heeft van tevoren vastgelegd wat een goed antwoord is, hoeveel punten elk onderdeel waard is, en waar de grenzen liggen. Dat model is niet vrijblijvend — het is de garantie dat elke leerling op dezelfde manier wordt beoordeeld.

Elke AI-tool die serieus genomen wil worden bij het nakijken, moet dat correctiemodel als leidend principe behandelen. Niet als suggestie, niet als startpunt voor een eigen interpretatie, maar als het document waar de beoordeling op is gebaseerd. De docent heeft dat model geschreven, en de docent bepaalt wat een goed antwoord is.

Dit klinkt vanzelfsprekend, maar het is precies waar veel AI-tools de mist in gaan. Ze genereren hun eigen beoordelingscriteria, of ze interpreteren een antwoord op basis van hun eigen “kennis” van het onderwerp. Het resultaat: een beoordeling die technisch correct kan zijn, maar die niet aansluit bij wat de docent bedoelde. Een aardrijkskundedocent die vraagt naar de kenmerken van een tropisch klimaat verwacht een specifiek antwoord uit het lesboek, niet een Wikipedia-samenvatting.

De twee-fasen-aanpak: lezen en beoordelen gescheiden

Een robuust AI-nakijksysteem scheidt het lezen van het beoordelen. Eerst wordt het handschrift gelezen en per vraag vastgelegd wat de leerling heeft geschreven — zonder het correctiemodel erbij. Dit voorkomt zogenoemde confirmation bias: de neiging om te lezen wat je verwacht te lezen in plaats van wat er daadwerkelijk staat.

Pas in de tweede fase wordt de transcriptie vergeleken met het correctiemodel. De AI heeft dan geen toegang meer tot het originele handschrift en kan niet “creatief” interpreteren. Het is puur vergelijken: staat dit antwoord dicht genoeg bij het goede antwoord? Hoeveel punten zijn er verdiend? Waar zit de twijfel?

Die scheiding is cruciaal voor het vertrouwen. De docent kan precies zien wat de AI heeft gelezen en hoe die tot een beoordeling is gekomen. Geen zwarte doos, maar een transparant proces dat op elk moment te controleren en bij te sturen is.

Het probleem van consistentie

Wat veel docenten niet beseffen, is dat menselijk nakijken ook niet perfect is. Onderzoek van De Groene Amsterdammer naar de betrouwbaarheid van schoolexamens liet zien dat dezelfde toets door verschillende docenten significant anders wordt beoordeeld. Het verschil kan oplopen tot meer dan een heel punt. En zelfs dezelfde docent beoordeelt ’s ochtends anders dan ’s avonds — een fenomeen dat in de onderzoeksliteratuur bekendstaat als beoordelaarseffecten.

AI heeft hier een potentieel voordeel: het correctiemodel verschuift niet na de vijftiende leerling. Moeheid, honger of frustratie over een onleesbaar handschrift spelen geen rol. Maar — en dit is een belangrijk maar — AI introduceert zijn eigen vorm van inconsistentie. Als elke leerling afzonderlijk wordt beoordeeld, kan het zijn dat een grensgevalantwoord bij de ene leerling net wel en bij de andere net niet wordt goedgekeurd. Niet door moeheid, maar door de inherente variabiliteit van taalmodellen.

De oplossing is om niet per leerling te beoordelen, maar per antwoord. Als tien leerlingen hetzelfde schrijven, moeten ze dezelfde score krijgen. Punt. Dat vereist een systeem dat eerst alle antwoorden verzamelt, vergelijkbare antwoorden groepeert, en vervolgens per groep beoordeelt. Het is technisch complexer, maar het is de enige manier om echte consistentie te garanderen.

De docent als eindverantwoordelijke

Het College voor Toetsen en Examens is bezig met een verkennend project over AI bij het nakijken van centrale examens. Ze onderzoeken hoe AI docenten kan ondersteunen bij het beoordelen van open vragen, met nadruk op het woord ondersteunen. De docent houdt de eindverantwoordelijkheid.

Dit principe geldt niet alleen voor centrale examens. Bij elke toets, van een klein SO tot een eindexamen, moet de docent de beoordeling kunnen controleren, aanpassen en overrulen. Een AI-tool die zegt “dit is het cijfer, neem het of laat het” is geen hulpmiddel maar een risico. Een goed systeem markeert twijfelgevallen, legt uit waarom een bepaalde score is toegekend, en maakt het eenvoudig om bij te sturen.

Uit dezelfde BON-enquête blijkt dat 85 procent van de respondenten duidelijke regelgeving wil over hoe en wanneer AI in het onderwijs wordt gebruikt. En twee derde wil professionele ondersteuning bij de inzet ervan. Dat zijn geen signalen van weerstand — dat zijn signalen van docenten die best willen, maar dan wel op hun voorwaarden.

Wat dit betekent voor de praktijk

De toekomst van AI-nakijken is niet een robot die de rode pen overneemt. Het is een assistent die het zware werk doet — handschrift lezen, antwoorden vergelijken, eerste beoordelingen voorstellen — terwijl de docent de regie houdt. De stapel van vijfentwintig toetsen die nu een hele avond kost, wordt een half uur reviewen van AI-voorstellen. Niet sneller door de beoordeling heen racen, maar tijd overhouden voor wat echt telt: feedback die leerlingen vooruit helpt.

Dat vereist tools die zijn gebouwd vanuit het perspectief van de docent, niet vanuit de technologie. Die het correctiemodel als uitgangspunt nemen, niet als bijzaak. Die transparant zijn over wat ze doen en eerlijk over waar ze twijfelen. En die de docent altijd, zonder uitzondering, het laatste woord geven.

Want vertrouwen bouw je niet met beloften over efficiëntie. Vertrouwen bouw je door te laten zien dat je begrijpt hoe nakijken werkt. Inclusief de subtiliteiten, de grensgevallen en de professionele oordeelsvorming die geen algoritme kan vervangen.

Bronnen: Beter Onderwijs Nederland (2026), enquêteresultaten AI in het onderwijs. Kennisnet (2026), Toetsing en generatieve AI in het voortgezet onderwijs. CvTE/Examenblad.nl (2026), Digitalisering centrale examens. De Groene Amsterdammer, onderzoek betrouwbaarheid schoolexamens. SURF Communities (2025), Nakijken met AI.

← Terug naar blog

Wil je Corrigo proberen?

Maak een gratis account aan en ontdek hoe snel je kunt nakijken en toetsen maken.

Gratis aan de slag →