Ik ga iets zeggen waar collega’s soms boos van worden. Met de hand nakijken is niet het eerlijkste wat je voor een leerling kunt doen. Het vóélt zo — jij, jouw vakkennis, jouw rode pen, persoonlijk gewogen — maar dat gevoel is precies waar het misgaat. Want eerlijkheid is geen gevoel. Eerlijkheid is dat dezelfde prestatie hetzelfde cijfer oplevert, ongeacht wie er nakijkt, wanneer, en als hoeveelste in de stapel.
En laten we eerlijk zijn over hoe vaak dat écht gebeurt.
Dezelfde toets, twee cijfers
Geef twee docenten hetzelfde nagekeken werk en hetzelfde correctiemodel, en je krijgt verrassend vaak twee verschillende cijfers. Dat is geen verzinsel om een tool te verkopen; het is een van de best gedocumenteerde bevindingen in onderwijsonderzoek. Bij open vragen en langere antwoorden loopt de spreiding tussen beoordelaars flink op. Soms scheelt het een half punt, soms meer dan een heel cijfer — op precies hetzelfde antwoord.
En het wordt ongemakkelijker, want het is niet alleen tússen docenten. Het zit ook ín jezelf. Geef jezelf dezelfde toets twee weken later opnieuw, zonder je eerste cijfer te zien, en je geeft niet altijd hetzelfde. Wij zijn geen meetinstrumenten. We zijn mensen die om half elf ’s avonds aan de zestigste toets bezig zijn.
De ruis die je niet ziet
Het pijnlijke is dat de factoren die jouw cijfer beïnvloeden vaak niets met de leerling te maken hebben.
Vermoeidheid en volgorde. De eerste toetsen krijgen je scherpste aandacht. Tegen het einde van de stapel streep je sneller af. Erger nog: een middelmatig antwoord lijkt briljant als het volgt op drie zwakke, en zwak als het volgt op drie sterke. De plek in de stapel is pure willekeur, maar hij telt mee.
Het halo-effect. Een keurig handschrift en een nette inleiding maken je milder voor de rest. Een slordig blad maakt je strenger — ook waar de inhoud klopt. Onderzoek naar handschrift laat dit keer op keer zien: hetzelfde antwoord scoort hoger in mooie letters dan in lelijke. Dat is geen kennisverschil, dat is een opmaakverschil.
Wie het is. Je weet van wie de toets is. Je weet dat deze leerling normaal goed presteert, of dat die ander de laatste tijd worstelt. Die kennis is waardevol voor begeleiding, maar bij het turven van punten sluipt ze ongemerkt het cijfer in.
Niemand doet dit expres. Het is geen kwestie van slechte docenten. Het is een kwestie van menselijke docenten die een taak doen waar mensen nu eenmaal slecht in zijn: honderd keer achter elkaar exact dezelfde maatstaf aanleggen.
Het tweede geheim: het cijfer is deels een keuze
Stel, alle ruis is weg. Je hebt voor elke leerling het exacte aantal punten. Dan nog ligt het cijfer niet vast. Want de stap van punten naar cijfer is een norm die jíj kiest. Leg de cesuur op 55% en de helft van de klas zakt; leg hem op 50% en ze slagen. Reken kaal lineair, of trek per fout een half punt af, of gebruik je eigen omzettingstabel — en hetzelfde werk levert een ander rapportcijfer op.
Dat is geen schandaal. Normeren mág, en het hóórt soms ook: een toets kan te moeilijk zijn uitgevallen. Maar laten we dan ook ophouden te doen alsof een cijfer een natuurkundige meting is. Een deel ervan is een beslissing. De eerlijke vraag is niet of je normeert, maar of je het bewust en transparant doet — of dat het per ongeluk gebeurt, anders bij elke toets, zonder dat iemand het ziet.
“Maar een algoritme is toch ook bevooroordeeld?”
Ja. Absoluut. En toch zit daar de kern van mijn punt. Een algoritme dat consistent een fout maakt, maakt die fout bij iedereen op dezelfde manier. Dat kun je zien, meten en corrigeren. Een mens die de ene leerling om 20:00 nakijkt en de andere om 23:30, maakt onzichtbare, wisselende fouten die niemand kan reconstrueren.
Voorspelbare scheefheid die je kunt repareren is eerlijker dan onvoorspelbare ruis die je niet eens opmerkt. Dat is een oncomfortabele gedachte, want hij vraagt ons om toe te geven dat onze persoonlijke weging — juist het stuk waar we trots op zijn — ook de bron van willekeur is.
Wat eerlijk nakijken écht betekent
Niet: het oordeel uit handen geven. Een AI weet niet dat een ogenschijnlijk foute redenering eigenlijk een slimme denkfout is, en hoort dat ook niet te bepalen. Het oordeel blijft van jou.
Wél: de maatstaf losweken van je dagvorm. Laat het mechanische deel — handschrift lezen, antwoord naast het correctiemodel leggen, punten optellen — op precies dezelfde manier gebeuren voor de eerste en de laatste leerling. Dezelfde meetlat, om kwart over acht en om kwart voor twaalf. En maak de norm waarmee je van punten naar cijfer gaat een zichtbare, bewuste keuze in plaats van een onderbuikgevoel dat per toets verschuift.
Zo hebben we Corrigo gebouwd. Elke leerling wordt langs hetzelfde model gelegd, met een onderbouwing per vraag die jij controleert en bijstuurt — jij houdt het stuur, maar de meetlat schuift niet meer mee met je vermoeidheid. En je kiest zelf, openlijk, hoe punten cijfers worden: standaard, een eigen cesuur, puntenaftrek per fout, of je eigen omzettingstabel. Geen verstopte willekeur, maar een keuze die je kunt uitleggen aan een leerling, een ouder of de examencommissie.
Tot slot
Ik kijk zelf al jaren toetsen na, en ik betrap mezelf nog steeds op alle drift die ik hierboven beschrijf. Dit stuk is dus geen aanklacht tegen docenten — het is er één tegen het idee dat de rode pen heilig is. Eerlijkheid tegenover je leerlingen is niet hoe zorgvuldig het vóélt terwijl je nakijkt. Het is of de tiende toets dezelfde behandeling krijgt als de eerste.
Dat is moeilijk met de hand. En het is precies waar een machine, mits goed gebouwd en onder jouw regie, wél goed in is. Benieuwd hoe dat eruitziet? Bekijk hoe het nakijken werkt en leg het naast je volgende stapel.
Bronnen: onderzoek naar beoordelaarsbetrouwbaarheid (inter- en intrabeoordelaar-variatie bij open werk), studies naar handschrift- en halo-effecten in beoordeling, en de Nederlandse normerings- en cesuurpraktijk in het voortgezet onderwijs.