Belang van betrouwbaar toetsen wordt overdreven!

Datum: 20 maart 2018
Auteur: Peter Loonen
  • Ik heb de afgelopen weken veel assessortrainingen gegeven en ik ben bij een paar kwaliteitsaudits geweest. Steeds valt mij weer op dat er, als het gaat om toetsing, bij assessoren of teammanagers angst is om onbetrouwbaar te zijn in de beoordeling. De angst is vooral gericht op externe verantwoording naar de inspectie of de accreditatiecommissie. Er zou toch eens een student onterecht een diploma krijgen… Ik maak me veel meer zorgen over al die studenten die onterecht GEEN diploma krijgen door toetsing die teveel focust op betrouwbaarheid.

Toetsen en examens kunnen het leven van een student maken en breken. Een avondje stappen missen omdat je een hertoets hebt doet pijn, maar al helemaal wanneer je het gevoel hebt dat je niet eerlijk beoordeeld bent.

Kwaliteitsbewaking speelt bij toetsing altijd een belangrijke rol. Het is de toetsing waar de student op afgerekend wordt en daar zal dus extra zorgvuldig mee omgegaan moeten worden. Die verplichting van zorgvuldigheid geldt niet alleen ten opzichte van de student, maar ook ten opzichte van de samenleving. Tenslotte leidt toetsing tot kwalificering voor de beroepspraktijk.

In deze blog neem ik je eerst mee in een klassieke benadering van toetskwaliteit en de beperkingen daarvan. Daarna schets ik mogelijke alternatieven zoals 1) generaliseerbaarheid in plaats van de traditionele betrouwbaarheid en 2) standaardisering van procedures in plaats van standaardisering van individuele toetsen. Deze alternatieve manieren zijn aanvullend voor de standaard kwaliteitscriteriabetrouwbaarheid, validiteit en transparantie.

Eerst de klassieke visie op toetskwaliteit:

Zoals gezegd worden op basis van toetsresultaten zwaarwegende beslissingen genomen. Het is dan ook terecht dat er traditioneel onder toetsdeskundigen veel oog is voor de kwaliteit van de wijze waarop het toetsresultaat tot stand komt. In het kader van inhoudelijk valide toetsen en beoordelen zullen we ons de vraag moeten stellen in hoeverre de ‘klassieke kwaliteitscriteria’ nog bruikbaar zijn, en of dit de enige of meest belangrijke criteria zijn. We denken bij “klassiek” dan in de eerste plaats aan validiteit en betrouwbaarheid. Daarnaast speelt de afweging tussen inhoudsvaliditeit en betrouwbaarheid een belangrijke rol bij het kiezen van instrumenten en toetsvormen. Lange tijd heeft betrouwbaarheid het primaat gehad in statistische analyses, hoewel eigenlijk iedereen het erover eens is dat de validiteit van de toetsinhoud een minstens zo belangrijk kwaliteitscriterium is.

Het begrip construct

In het klassieke denken over toetsen en kwaliteitsbewaking bij toetsing, speelt het begrip ‘construct’ een centrale rol. Deze term wordt gebruikt om onderliggende vaardigheden of aspecten van menselijk gedrag te definiëren. Een construct kan zijn ‘rekenen’, ‘boekhouden’, ‘Engels lezen’, ‘kennis van anatomie’ etc. Aanname hierbij is – en dat is met name voor de kwaliteitsbewaking van essentieel belang – dat alle items binnen een toets één onderliggend construct meten. Door uit te gaan van enkelvoudige onderliggende constructen kan, in het kader van de kwaliteitsbewaking, psychometrische analyse op de toetsing worden toegepast.

Het uitgangspunt van één onderliggend construct dat een toets beoogt te meten, speelt een centrale rol bij zowel het bepalen van de betrouwbaarheid als de construct- en criteriumvaliditeit van een toets.

Met de klassieke kwaliteitsbewaking is maar weinig oog voor de inhoudsvaliditeit (meten we wat we willen meten?). Die wordt met name geborgd door de relatie tussen onderwijsdoelstellingen en toetsinhoud te expliciteren (bijvoorbeeld door middel van een toetsmatrijs). Toch is de inhoudsvaliditeit de belangrijkste maatstaf die we zouden moeten hanteren.

Laten we eens kijken naar een alternatieve vorm van kwaliteitsbewaking, zoals generaliseerbaarheid, in plaats van klassieke betrouwbaarheid.

Binnen verschillende toetsen is het maar de vraag in hoeverre er sprake kan zijn van toetsen die één enkel onderliggend construct meten: dit kan nog als voor construct ‘competentie’ wordt gelezen, maar ook dan is wel een voorwaarde dat elke toets één geïsoleerde competentie meet. Veelal is dit niet het geval, waarmee het fundament onder de klassieke psychometrische analyse wordt weggevaagd. Er is dus een andere visie op de bewaking van de toetskwaliteit nodig die de psychometrische analyse kan vervangen.

Bovendien wordt bij de klassieke kwaliteitsbewaking van toetsing alleen naar de kwaliteit van de meting gekeken en niet naar de effecten die deze meting heeft op de student. Er is inmiddels voldoende onderzoek voorhanden waaruit blijkt dat de wijze van toetsing zeer sturend is op het leerproces van de student (“Toetsing heeft een diepgaande invloed op wat, hoe en hoe lang studenten studeren”. (Dochy et al, 2001) (Thomas & Bain 1984; Ramsen 1992; Scouller & Prosser 1994; Scouller 1995, 1996, 1998; Scouller & Chapman 1999; Biggs 1999, 2011; Dochy 2003, 2011, 2014). En de docent laat zich in zijn rol als begeleider van dat leerproces evengoed sturen door de toetsing.

Als een aanvullend kwaliteitscriterium bij toetsen wordt daarom in toenemende mate gekeken naar de mate waarin de toets stuurt op het gewenste leerproces: met name in het het verwerven van competenties en hogere vaardigheden in plaats van het reproduceren van kennis.

Bij het beoordelen van competenties gaat het veel meer om het meten van het geheel dan om het meten van de afzonderlijke delen. In de klassieke toetsing is er veelal sprake van één toets op één moment met beoordelaars die identiek beoordelen (bijvoorbeeld met landelijke examens). Bij het meten van competenties, kerntaken, werkprocessen of leeruitkomsten is er veeleer sprake van een reeks van verschillende metingen op verschillende momenten waarbij verschillende beoordelaars (in verschillende mate?) de mate van competentie vaststellen. Dit betekent dat bij het beoordelen van de betrouwbaarheid van de metingen ook naar het geheel van de metingen moet worden gekeken. Als verschillende metingen gezamenlijk tot een oordeel leiden dan is de betrouwbaarheid van dit geheel interessant en niet de betrouwbaarheid van de afzonderlijke metingen. Laat staan dat er een enkelvoudig construct kan worden gemeten.

In dit verband doet het begrip ‘generaliseerbaarheid’ in plaats van de traditionele betrouwbaarheidsopvatting het goed.

Zowel de klassieke betrouwbaarheidstheorie als de generaliseerbaarheidstheorie gaan uit van het gegeven dat de gemeten score gelijk is aan de ware score plus de meetfout. De meetfout kan verschillende oorzaken hebben, zoals beoordelaarsverschillen of verschillen die voortvloeien uit de uitgevoerde taken.

In de klassieke theorie worden deze oorzaken echter niet onderscheiden, terwijl dit in de generaliseerbaarheidstheorie juist wel gebeurt. Uit onderzoek blijkt dat de meetfout die te wijten is aan beoordelaarsverschillen relatief klein is en bovendien goed is te verkleinen met behulp van moderatie of kalibratie.

Het probleem doet zich vooral voor bij het generaliseren van taken: het blijkt dat het kunnen uitvoeren van de ene taak slechts een beperkte voorspellende waarde heeft voor de andere taak. Anders gezegd: iemand kan een bepaalde opdracht wel goed uitvoeren, maar dit wil nog niet zeggen dat hij een enigszins vergelijkbare opdracht ook goed uitvoert.

Dit betekent dat de toetskwaliteit verbeterd wordt door het vergroten van het aantal ‘assessmenttaken’, zodat de verschillende taken gezamenlijk een representatieve afspiegeling zijn van het geheel dat gemeten wordt. Het geheel van de taken is representatief voor de daadwerkelijke beroepspraktijk.

Welke benadering (klassiek of generaliseerbaar) je ook kiest, iedereen is het eens over de opvatting dat consistentie in de beoordelingen een vereiste is. Consistentie wordt bevorderd door structureel overleg tussen de beoordelaars te organiseren over de interpretatie van deze criteria aan de hand van concrete gevallen (kalibratie of moderatie), zoals eerder gesteld.

Tot slot nog een pleidooi om de kwaliteit van toetsen te verhogen door van gestandaardiseerde toetsen naar gestandaardiseerde procedures te gaan.

Standaardisatie wordt traditioneel gehanteerd als kwaliteitseis bij toetsing. Standaardisatie betekent dat de beoordelingsnormen en de beoordelingsprocedure voor alle studenten hetzelfde zijn. Standaardisatie is geen zelfstandig criterium maar een middel dat bij kan dragen aan het voldoen aan andere kwaliteitseisen: validiteit, transparantie, efficiëntie en, volgens de klassieke opvatting, betrouwbaarheid. En waar het bij één construct per toets mogelijk is om de instruménten te standaardiseren, is het bij toetsing van kerntaken, competenties en werkprocessen (en leeruitkomsten?) noodzakelijk om de procedúres te standaardiseren.

Kortom, In het evenwicht tussen inhoudsvaliditeit (meten we in een echte complexe werkelijkheid) en betrouwbaarheid (zijn onze metingen bij herhaling betrouwbaar) leggen we voortaan het accent op de validiteit. We kunnen dan weliswaar iets minder betrouwbaar een construct meten, maar door de procedure te standaardiseren komen we tot een betrouwbare en transparante manier van beoordelen. Op deze manier verkrijgen we een grote mate van validiteit binnen aanvaardbare betrouwbaarheidsnormen.

Ik denk hiermee een betere balans tussen betrouwbaarheid en validiteit geboden te hebben en een basis voor een goed gesprek met iedere kwaliteitscommissie. Temeer daar steeds meer opleidingen uitgaan van hybride vormen van leren en toetsen. De kunst is om binnen het team niet terug te vallen naar klassiek denken over betrouwbaarheid. Ik zie dat deze verleiding nadrukkelijk op de loer ligt.

Ik ben benieuwd naar jullie ervaringen met de balans tussen inhoudsvaliditeit en betrouwbaarheid. Ik reken op een stevige discussie in het reactieveld.

Up-do-date blijven?

Ontvang onze nieuwsbrief

Schrijf je in
2 Reacties
  1. Interessant stuk en inderdaad bruikbaar in discussies, waarvoor dank.

    Geen stevige discussie van mijn kant, wel vragen, omdat ik probeer wat je hier zegt te relateren aan wat er in het standaardwerk over Toetsing in het ho staat. In Van Berkel, Bax en Joosten-Ten Brinke (2017, p. 32) “Wel is betrouwbaarheid een voorwaarde voor inhoudsvaliditeit. Wanneer een toets onbetrouwbaar is, is het niet mogelijk dat de toets wel inhoudsvalide is.” Geldt die uitspraak ook voor de door jou voorgestelde generaliseerbaarheid en validiteit?

    Je uitspraak dat elke toets(taak/item) maar 1 construct mag meten klinkt logisch, maar vind ik in hetzelfde boek niet terug. Wel dit “In de constructiefase moeten de toetsvragen voldoen aan inhoudelijke en vormtechnische eisen: heeft iedere toetsvraag betrekking op een doelstelling, is iedere toetsvraag relevant, is de formulering zorgvuldig?” (idem, p. 24). Mijn psychometrische kennis heb ik vooral uit dit boek, dus: kan je voor de onderbouwing van die uitspraak een een andere bron aanraden?

    Uit nieuwsgierigheid: uit welk onderzoek blijkt dat de meetfouten van beoordelaars kleiner zijn dan die ten gevolge van verschillen in taken/transfer? Die stelling deed me denken aan dit dit artikel van o.a. Bloxham over hoe beoordelaars beoordelen. http://insight.cumbria.ac.uk/id/eprint/1997/1/Bloxham_LetsStopThePretence.pdf

    Antwoord
    • Dag Anne,
      Dank voor je vragen (en excuus voor mijn trage reactie). Ik ga proberen ze hier van een antwoord te voorzien.
      Betrouwbaarheid is ook een voorwaarde voor generaliseerbaarheid en validiteit. Het verschil dat ik aan de orde wil stellen is vooral het grote belang dat gehecht wordt aan de betrouwbaarheid van afzonderlijke toetsen in plaats van aan het toetsprogramma. Juist door het aantal metingen te vergroten in een realistische context maakt het mogelijk om betrouwbaar én inhoudsvalide te toetsen.

      De opvatting van 1 construct per toets vindt zijn oorsprong vooral in de klassieke toetstheorie en dan ook nog met name bij gesloten vragen. Om de betrouwbaarheid te meten zijn er meerdere methoden, maar het meest bekend zijn de test-hertest betrouwbaarheid, KR-20 en Cronbach Alpha. Voor tentamens wordt algemeen gezien dat waarden van meer dan 0.8 noodzakelijk zijn. In de praktijk van het Hoger Onderwijs worden vaak slechts waarden tussen 0.6 en 0.7 gehaald. Bij het gebruik van de hierboven genoemde methoden is de interne consistentie belangrijk. Hieruit wordt afgeleid dat de interne betrouwbaarheid toeneemt wanneer er één construct in de toets is opgenomen.
      Doordat we inhoudsvalide willen toetsen, waarbij meerdere aspecten een rol spelen is het klassieke begrip van betrouwbaarheid niet bruikbaar en vandaar mijn pleidooi om naar een toetsprogramma te kijken en meerdere beoordelingen te gebruiken die generaliseerbaar zijn voor het nemen van beslissingen.
      Een bron die ik hierbij gebruikt is:
      Vleuten, C.P.M., van., Schuwirth, L.W.T., Driessen, E.W., & Govaerts, M.J.B. (2014). 12 Tips for programmatic assessment. Early Online medical teacher, pp 1-6

      De bron voor de uitspraak dat de meetfouten van beoordelaars kleiner zijn dan die ten gevolge van verschillen in taken/transfer is afkomstig uit een oud werk: Dochy, F. L.Heylen en H. van de Mosselaer (2002). Assessment in onderwijs. Lemma, Utrecht

      Ik hoop je vragen voldoende beantwoord te hebben.

      Antwoord

Een reactie versturen

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *