Clustervragen in rekentoetsen en examens · In maart en april 2015 zijn geclusterde vragen...

Clustervragen in rekentoetsen en -examens Eindrapport, september 2015

© Stichting Cito, Arnhem 2015 2

Inhoudsopgave

VOORAF ........................................................................................................................................................... 3

INLEIDING ........................................................................................................................................................ 3

METHODE ........................................................................................................................................................ 5

FASE 1: REGULIERE AFNAME VAN DE CLUSTERVRAGEN .................................................................................................... 5

FASE 2: AANVULLEND ONDERZOEK .............................................................................................................................. 5

ENQUÊTES .............................................................................................................................................................. 6

RESULTATEN .................................................................................................................................................... 7

FASE 1: REGULIERE AFNAME VAN DE CLUSTERVRAGEN .................................................................................................... 7

ENQUÊTES ............................................................................................................................................................ 12

CONCLUSIE ..................................................................................................................................................... 15

BRONNEN ....................................................................................................................................................... 16


Vooraf Overal waar in dit rapport wordt gesproken over (reken)toets moet bedacht worden dat hiermee ook

het (reken)examen mbo bedoeld kan worden.

Inleiding De commissie Bosker adviseerde in haar rapport Advies over de uitwerking van de referentieniveaus

2F en 3F voor rekenen in toetsen en examens (2014) om nader te onderzoeken of het mogelijk of

wenselijk is om in de rekentoets vo en het rekenexamen mbo meerdere vragen bij één context te

stellen. Dit advies komt voort uit de gedachte dat het geclusterd aanbieden van verschillende vragen

bij dezelfde context, ook wel clustervragen genoemd, een verbetering van de toets zou kunnen

vormen. De veronderstelling is dat het geclusterd aanbieden van vragen prettiger is voor leerlingen,

omdat zij zich daardoor niet bij iedere vraag opnieuw hoeven in te leven in een nieuwe context.

Hoogland et al. (2014) beschrijven ook dat “de grote hoeveelheid geïsoleerde contexten in de

rekentoets” een mogelijke oorzaak is van het minder goed presteren van vmbo-bb kandidaten. Een

positief effect van clustervragen zou kunnen zijn dat de kandidaten minder tijd kwijt zijn per vraag

omdat zij de context alleen bij de eerste vraag echt hoeven te bestuderen en dientengevolge beter

presteren op de toets. Kandidaten zouden van het clusteren van vragen met name kunnen profiteren

als er een logische structuur in zit, waardoor het kandidaten makkelijker wordt gemaakt om de vraag

conceptueel te begrijpen (Evers-Vermeul & Pardoel, 2014).

Om zicht te krijgen op de mogelijke meerwaarde van clustervragen is het van belang te evalueren of

de clustervragen kwalitatief gelijkwaardig of beter zijn dan enkelvoudige vragen met een

afzonderlijke context. Dit kan geoperationaliseerd worden door te kijken naar de mate waarin een

clustervraag samenhangt met de totale score op de toets en de mate waarin kandidaten geen

antwoord geven op de betreffende vraag. Een sterke samenhang tussen een clustervraag en de

totale toetsscore geeft aan dat de clustervraag een goede indicator is van dezelfde vaardigheid die

de andere toetsvragen meten, terwijl een zwakke samenhang aangeeft dat er mogelijk andere

vaardigheden worden gemeten. Het niet beantwoorden van een vraag is een indicatie dat een

kandidaat geen raad weet met wat er precies bedoeld wordt. Binnen een cluster van vragen kan een

kandidaat na het beantwoorden van de eerste vraag, besluiten de rest van de vragen binnen dat

cluster niet te beantwoorden; clustervragen kunnen er dus toe leiden dat kandidaten vaker geneigd

zijn om geen antwoord te geven, bijvoorbeeld omdat de betreffende context een kandidaat niet

goed ligt, waardoor de kandidaat geneigd is om de andere vragen binnen het cluster over te slaan.

De hiervoor genoemde criteria zijn kwantificeerbaar en de criteria geven een goede indicatie van het

effect van clustervragen op de algehele prestaties op de rekentoetsen. Om meer te weten te komen

over hoe de kandidaten de clustervragen ervaren hebben en wat vervolgens hun mening was over

het al dan niet clusteren van vragen, is door middel van een vragenlijst extra informatie verzameld.

Bij de rekentoetsen die in maart en april 2015 in het voortgezet onderwijs en het middelbaar

beroepsonderwijs zijn afgenomen, is gebruik gemaakt van clustervragen. Dit was de eerste fase van

het onderzoek, waarover in juni 2015 is gerapporteerd in het tussenrapport ‘Tussenresultaten

lopend onderzoek naar clustervragen’ (2015). De clustervragen zijn gebruikt in de reguliere afname

van de rekentoets om zo de prestatie op de clustervragen te kunnen vergelijken met de prestatie op

reguliere vragen waarbij bij iedere context slechts één vraag gesteld wordt. In de tweede fase van


het onderzoek zijn dezelfde clustervragen in een aanvullend onderzoek ingezet. In dit deel van het

onderzoek zijn de clustervragen in een andere volgorde afgenomen om volgorde-effecten te

onderzoeken en zijn de clustervragen ook afzonderlijk als losse vraag afgenomen om een sterkere

vergelijking te kunnen maken tussen vragen binnen een cluster en dezelfde vragen maar dan los (niet

in een cluster).


Methode Voor de rekentoetsen in het vo en mbo zijn geclusterde vragen geconstrueerd die de

rekenvaardigheid op de referentieniveaus 2F en 3F (Commissie Meijerink, 2008) meten. Deze

geclusterde vragen zijn zowel ingezet in de reguliere toetsen (fase 1) als in een aanvullend onderzoek

(fase 2). Een cluster van vragen bestaat in dit onderzoek uit één context waarbij drie vragen worden

gesteld. Het opnemen van twee vragen in een cluster werd ingeschat als te weinig om de voordelen

van clustering te benutten en het opnemen van vier vragen stelde de constructeurs voor problemen.

De vragen moeten namelijk dusdanig worden geconstrueerd dat het correct beantwoorden van de

ene vraag geen directe invloed heeft op het correct beantwoorden van een andere vraag in hetzelfde

cluster.

Tijdens de afname werden de drie vragen in een cluster na elkaar getoond. De drie vragen stonden

op drie aparte ‘schermen’ waarbij elk scherm alle informatie bevatte om de vraag op dat scherm te

kunnen beantwoorden.

Fase 1: Reguliere afname van de clustervragen In maart en april 2015 zijn geclusterde vragen opgenomen in de rekentoetsen en rekenexamens. De

resultaten van de maartafname 2015 van de rekentoets vo en van de aprilafname 2015 van de

centrale examens mbo rekenen geven een eerste indicatie van hoe de leerlingen presteren op deze

vragen.

Afname in een reguliere toets biedt de mogelijkheid om een vergelijking te maken tussen hoe de

clustervragen functioneren ten opzichte van reguliere rekenvragen die in een context gesteld zijn. De

clustervragen zijn met de ‘gewone’ contextvragen vergeleken op basis van vier aspecten:

moeilijkheid van de vraag

benodigde responstijd. Dit is de tijd die gebruikt is voor het beantwoorden van de vraag.

het percentage vragen dat niet is beantwoord

de samenhang van de score op de vraag met de score op de rest van de toets.

De eerste twee aspecten dienden ertoe om te evalueren of de kandidaten voordeel hadden van het

aanbieden van vragen in clusters; en of de kandidaten clustervragen beter en/of sneller konden

maken. De laatste twee aspecten maakten het mogelijk om te evalueren of de prestaties op

clustervragen een goede indicator waren voor de prestaties op de rekentoets als geheel. Bij ieder van

deze uitkomstvariabelen bekeken we a) de gemiddelde score (p-waarde) voor de reguliere

contextvragen, b) het gemiddelde voor het hele cluster, en c) het gemiddelde per clusterpositie, dus

of dit de eerste, de tweede of de derde vraag binnen een cluster betrof.

Fase 2: Aanvullend onderzoek In mei en juni 2015 is een aanvullend onderzoek uitgevoerd. Aan dit onderzoek hebben ruim 2500

kandidaten van 44 scholen voor voortgezet onderwijs en drie mbo-instellingen deelgenomen. Bij het

voortgezet onderwijs hebben havo 3-leerlingen deelgenomen en bij het middelbaar

beroepsonderwijs hebben mbo 3-studenten deelgenomen die in de tweede helft van hun opleiding

zaten. Deze groepen werden het meest geschikt bevonden om vragen van beide referentieniveaus

voor te leggen. De deelnemende scholen hebben rapportages ontvangen waarin zij per kandidaat

een indicatie kregen of de kandidaat voldoet aan de referentieniveaus 2F en/of 3F.

Er zijn in totaal vier verschillende toetsvarianten aangeboden. Iedere toetsvariant bestond uit een

mix van rekenvragen van het referentieniveau 2F en van rekenvragen van het referentieniveau 3F.


De clustervragen zijn afkomstig uit rekentoetsen 2F en 3F vo en mbo. In totaal zijn in het onderzoek

12 clusters gebruikt. Iedere afnamevariant in het aanvullende onderzoek bestond uit drie clusters

van ieder drie vragen en één vraag uit ieder van de negen overige clusters, resulterend in toetsen

met 18 vragen. Het design is zo ingericht dat ieder van de 12 x 3 clustervragen zowel binnen een

cluster als los is afgenomen.

De kern van het onderzoek betreft een vergelijking van vragen wanneer deze binnen een cluster

worden afgenomen ten opzichte van dezelfde vragen wanneer deze los worden afgenomen. Deze

vergelijking is gemaakt op de volgende aspecten:

moeilijkheid van de vraag

benodigde responstijd voor de vraag

het percentage vragen dat niet is beantwoord.

De samenhang van de score op de vraag met de score op andere vragen in de toets is in deze fase

van het onderzoek niet meegenomen. Dit is dus anders dan bij het onderzoek in fase 1.

Enquêtes Ten slotte hebben de kandidaten die deel hebben genomen aan dit onderzoek (bij beide fasen), de

mogelijkheid gekregen om door middel van een vragenlijst hun ervaringen en mening met betrekking

tot de clustervragen te geven. De antwoorden op deze vragen in de vragenlijst geven inzicht in de

mening die de kandidaten hebben over de clustering van vragen.


Resultaten Het onderzoek in de tweede fase is op dusdanige wijze opgezet dat onderzoeksvragen die in de

eerste fase niet beantwoord zijn, alsnog kunnen worden onderzocht. De resultaten van de eerste

fase zijn dus relevant als hypothesevorming voor de tweede fase. De resultaten van de twee fasen

worden daarom in chronologische volgorde besproken.

Fase 1: Reguliere afname van de clustervragen

Moeilijkheid

Tabel 1 toont een overzicht van de gemiddelde p-waarde1 voor ‘gewone’ contextvragen in de

rekentoets, clustervragen in de rekentoets en respectievelijk de eerste, tweede en derde vraag

binnen een cluster. De onderste vier rijen zijn steeds geaggregeerd over alle clusters die binnen de

specifieke toets (vo 2F, vo 3F, mbo 2F of mbo 3F) zijn afgenomen.

Tabel 1. P-waarden uitgesplitst naar rekentoets en clustervraag

vo 2F vo 3F mbo 2F mbo 3F

Contextvragen 61,7 60,1 47,2 44,3

Clusters 60,4 64,5 55,2 35,8

Cluster - 1 71,8 77,1 52,8 51,6

Cluster - 2 68,1 61,7 60,1 29,3

Cluster - 3 41,3 54,9 52,7 26,6

De resultaten laten zien dat in de rekentoetsen in het vo en mbo 3F de tweede en derde vraag in het

cluster steeds minder goed worden gemaakt. Bij mbo 2F blijkt de tweede vraag in het cluster het best

gemaakt te worden. Het was in dit stadium niet mogelijk om de hypothese te toetsen of het meer

bekend raken met de context leidt tot hogere scores van de kandidaten. Daarom is er in de tweede

fase van het onderzoek voor gekozen om de clustervragen in een andere volgorde voor te leggen.

Een vergelijking van de eerste twee rijen in Tabel 1 laat zien dat de clustervragen binnen de

rekentoets vo qua moeilijkheid behoorlijk overeenkomen met de ‘gewone’ contextvragen in de toets:

de gemiddelde p-waarde van de contextvragen ligt dicht bij de gemiddelde p-waarde van de

clustervragen. Voor de rekentoetsen in het mbo geldt dat de clustervragen in 2F wat makkelijker zijn

en de clustervragen in 3F wat moeilijker. Er kan op basis van deze gegevens geen algemene uitspraak

worden gedaan over of clustervragen relatief makkelijker zijn wanneer ze in een cluster worden

aangeboden. Deze vraag wordt in de tweede fase van het onderzoek besproken.

1 De p-waarde van een vraag is het percentage van een groep leerlingen die een scorepunt heeft behaald op die vraag. De p-waarde is daarmee een maat voor de moeilijkheid van de vraag.


Responstijd

Tabel 2 geeft een overzicht van de benodigde responstijd in seconden. In deze tabel wordt eveneens

onderscheid gemaakt tussen ‘gewone’ contextvragen in de rekentoets, clustervragen in de

rekentoets en respectievelijk de eerste, tweede en derde vraag binnen een cluster.

Uit de tabel blijkt dat bij de rekentoets vo 3F en in mindere mate bij mbo 2F er een tijdwinst is

geconstateerd bij de clustervragen. Bij mbo 3F en bij vo 2F bleek de gemiddelde responstijd op de

clustervragen zelfs een klein beetje langer dan die op de ‘gewone’ contextvragen.

Tabel 2. Responstijden in seconden uitgesplitst naar rekentoets en clustervraag


Contextvragen 73,7 143,0 88,2 154,0

Clusters 75,1 122,7 79,3 162,4

Cluster - 1 65,4 144,2 90,5 175,3

Cluster - 2 67,2 124,8 73,6 165,7

Cluster - 3 92,8 99,0 73,5 146,1

Tabel 2 laat het patroon zien dat elke opvolgende vraag in een cluster steeds wat minder tijd kost

wanneer over alle vier de groepen gemiddeld wordt. Of de vervolgvragen daadwerkelijk minder tijd

in beslag nemen omdat de context al meer bekend is, of dat de laatste vragen op zichzelf sneller te

beantwoorden zijn, zal uit het onderzoek in de tweede fase blijken.

Ondanks dat er een patroon lijkt te bestaan dat iedere opvolgende clustervraag steeds minder tijd

kost, is de uiteindelijke tijdwinst beperkt. Deze bedraagt gemiddeld over de vier groepen ongeveer 5

seconden. De contexten van de clustervragen bevatten meer informatie dan de reguliere contexten

omdat er meerdere vragen over gesteld moeten worden. Een mogelijke verklaring voor de

constatering dat er per saldo geen tot weinig tijdwinst wordt behaald, is dat het interpreteren van de

extra hoeveelheid aan informatie relatief meer tijd kost.

Ontbrekende antwoorden

Tabel 3 geeft een overzicht van het percentage kandidaten dat geen antwoord heeft gegeven op een

vraag, opgesplitst naar de reguliere contextvragen in een rekentoets, de clustervragen in de

rekentoets en de positie van een vraag binnen het cluster.

Tabel 3 toont dat het percentage kandidaten dat een vraag onbeantwoord laat, oploopt binnen een

cluster. Dit resultaat hangt samen met zowel de positie binnen het cluster en de moeilijkheid van de

vraag, zoals tabel 1 laat zien. Daardoor kan niet worden bepaald of het percentage ontbrekende

antwoorden een indicatie is van moeilijkheid of van de positie binnen een cluster. Als het percentage

ontbrekende antwoorden vooral samenhangt met de positie in het cluster, zou dat erop kunnen

wijzen dat sommige kandidaten geneigd zijn het cluster niet volledig af te ronden. Mogelijk dat een

bepaalde context een kandidaat niet goed ligt en dat de kandidaat daardoor na vraag 1 besluit de

resterende vragen niet meer te beantwoorden. Het onderzoek in de tweede fase kan hierover meer

uitsluitsel geven, omdat de volgorde van de vragen daarin is veranderd. De vraag is dan of het hier

geconstateerd patroon zich herhaalt of niet.


Tabel 3. Percentage kandidaten dat geen antwoord heeft gegeven uitgesplitst naar rekentoets en clustervraag


Contextvragen 1,1 1,7 3,1 4,7

Clusters 1,6 1,8 2,6 6,4

Cluster - 1 0,4 1,5 2,2 4,1

Cluster - 2 1,4 1,7 2,1 6,3

Cluster - 3 3,0 2,3 3,7 8,8

Samenhang met de rest van de toets

Tabel 4 geeft een overzicht van de correlaties tussen de score op de contextvragen en de score op de

hele rekentoets. Dit is opgesplitst naar de reguliere contextvragen en de clustervragen. Dit overzicht

laat zien dat de correlaties bijna gelijk zijn. Dat is een indicatie dat de clustervragen niet afwijken van

hoe ‘gewone’ contextvragen passen binnen de huidige vorm van de rekentoetsen. De clustervragen

dragen bij aan een betrouwbare meting van de beheersing van het referentieniveau rekenen.

Tabel 4. Gemiddelde vraag-toetscorrelaties2 uitgesplitst naar rekentoets


Contextvragen 0,331 0,320 0,437 0,399

Clusters 0,353 0,348 0,397 0,389

Fase 2: Aanvullend onderzoek

In de eerste fase zijn analyses uitgevoerd over clustervragen met betrekking tot moeilijkheid,

responstijd, ontbrekende antwoorden en samenhang met de rest van de toets. Daarvoor zijn de data

gebruikt van de reguliere afnames in vo en mbo in het voorjaar 2015. Het vervolgonderzoek (fase 2)

dient ertoe een beter beeld te geven van de mogelijke toegevoegde waarde van het clusteren van

vragen bij een context ten opzichte van het afnemen van losse vragen (één vraag per context).

In de tweede fase van het onderzoek zijn de clustervragen bovendien in een andere volgorde

afgenomen dan in fase 1. De volgorde van de clustervragen in deze fase van het onderzoek is: eerst

de tweede vraag, dan de derde vraag en ten slotte de eerste vraag van het cluster. Er is daarbij goed

gekeken of deze wisseling van volgorde probleemloos kon worden doorgevoerd. Hiermee wordt

bedoeld dat ervoor is gezorgd dat alle informatie die nodig is om een vraag te beantwoorden, wordt

gegeven voorafgaand aan de vraag. Door de volgorde te veranderen kan worden onderzocht of de

effecten zoals geconstateerd in de eerste fase van het onderzoek nog steeds optreden.

Moeilijkheid

Tabel 5 geeft een overzicht van de geobserveerde p-waarden opgesplitst per rekentoets; er is

gekeken hoe de leerlingen presteerden op een clustervraag wanneer deze los of juist in een cluster

werd afgenomen. Bovendien is bekeken of de positie van de vraag in het cluster invloed heeft op de

resultaten (hierbij wordt gerefereerd aan de plaats van de vraag in het cluster in de reguliere toets).

De rekenvragen afkomstig uit mbo 3F zijn beduidend minder goed gemaakt wanneer deze los zijn

2 De correlatie geeft weer hoe de score op de toets en de score op een vraag samenhangen. Een correlatie van 1 geeft aan dat er een perfecte lineaire samenhang is. Een correlatie van 0 geeft aan dat er geen lineair verband is.


afgenomen dan wanneer deze in een cluster zijn afgenomen. Echter, voor de andere drie

rekentoetsen is het verschil in prestatie zeer klein.

Tabel 5. P-waarden uitgesplitst naar rekentoets en positie in cluster


Cluster Los Cluster Los Cluster Los Cluster Los

Cluster 73.4 72.3 46.0 44.8 75.9 75.9 42.7 28.0

Cluster - 2 70.3 76.7 36.0 37.0 79.7 80.0 23.3 18.3

Cluster - 3 69.3 69.0 55.7 56.0 78.3 77.0 35.7 19.7

Cluster - 1 80.7 71.3 46.3 41.3 69.7 70.7 69.0 46.0

In tabel 6 zijn de p-waarden van fase 1 en 2 bij elkaar gezet. Hierdoor wordt zichtbaar hoe de

onderzoekspopulatie in fase 2 het heeft gedaan ten opzichte van de populatie die de 2F en 3F heeft

gemaakt in het kader van de reguliere rekentoetsafname. Het kopje ‘123’ duidt op de volgorde van

de vragen zoals deze in fase 1 is afgenomen. Het kopje ‘231’ duidt op de volgorde van de vragen

zoals die in fase 2 zijn afgenomen. Hierbij kan gekeken worden naar de prestatie op de vraag ‘cluster

- 1’ ten opzichte van de vragen ‘cluster - 2’ en ‘cluster - 3’. In tabel 6 is het verschil weergegeven van

de p-waarde voor vraag 1 met het gemiddelde van de p-waarden van vraag 2 en 3. In fase 1 stond

vraag 1 namelijk voor en in fase 2 achter de vragen 2 en 3. Behalve bij mbo 3F presteren de

kandidaten iets slechter op de vraag wanneer deze achteraan staat. Het verschil is niet consistent. Dit

kan ook te maken hebben met de verschillen in populatie die de vragen gemaakt heeft en het

verschil in motivatie bij de kandidaten. Dit alles leidt tot de conclusie dat in dit onderzoek geen effect

van de volgorde van de vragen op de moeilijkheid is waargenomen. Met andere woorden, het is niet

aangetoond dat het clusteren van vragen bijdraagt aan de maakbaarheid en dat kandidaten op deze

manier significant beter kunnen laten zien wat ze kunnen.

Tabel 6. P-waarden uitgesplitst naar rekentoets en positie in cluster, als losse vragen en als vragen in de volgorde 123 en

231


los 123 231 los 123 231 los 123 231 los 123 231

Cluster - 1 71,3 71,8 80,7 41,3 77,1 46,3 70,7 52,8 69,7 46,0 51,6 69,0

Cluster - 2 76,7 68,1 70,3 37,0 61,7 36,0 80,0 60,1 79,7 18,3 29,3 23,3

Cluster - 3 69,0 41,3 69,3 56,0 54,9 55,7 77,0 52,7 78,3 19,7 26,6 35,7

verschil 1 - 2/3 -1,6 17,1 10,9 -5,2 18,8 0,4 -7,8 -3,6 -9,3 27,0 23,7 39,5

Responstijd

Tabel 7 toont de gemiddelde responstijden voor de vragen wanneer deze binnen een cluster zijn

afgenomen en wanneer deze los zijn afgenomen. De kandidaten hebben voor de vragen afkomstig

uit de rekentoets vo 2F minder responstijd nodig wanneer de vraag los is aangeboden. De

clustervragen afkomstig uit de rekentoets vo 2F-clusters werden in dit onderzoek steeds aan het

begin van een toetsvariant aangeboden, terwijl de losse vragen later in de toetsvariant zaten.

Mogelijk nemen kandidaten aan het begin van de toets ruimer de tijd. Wel moet worden opgemerkt

dat er geen tijdnood is geweest bij de toetsen in dit deel van het onderzoek. Ook konden leerlingen

terugbladeren.


Tabel 7. Responstijden in seconden, uitgesplitst naar rekentoets en positie in cluster



Cluster 99.6 85.7 126.0 138.6 69.2 76.9 144.2 157.9

Cluster - 2 118.0 92.7 167.3 170.3 80.0 83.7 220.3 205.0

Cluster - 3 108.3 101.7 106.0 125.7 68.3 83.3 144.7 168.3

Cluster - 1 72.3 62.7 104.7 119.7 59.3 63.7 67.7 100.3

De clustervragen afkomstig uit de andere drie rekentoetsen laten zien dat losse vragen gemiddeld

meer tijd kosten dan wanneer dezelfde vragen in een cluster worden gepresenteerd. Hierbij is het

verschil voor de eerst aangeboden clustervraag klein. Het beantwoorden van de tweede en derde

vraag in het cluster kost minder tijd dan wanneer deze vragen los zouden zijn gesteld. Dit resultaat

wijst erop dat de kandidaten lijken te profiteren van het bekend zijn met de context. Dit heeft

betrekking op de benodigde tijd. Het gemiddelde verschil over alle toetsen heen is ongeveer 5

seconden. Dit betekent dat het stellen van drie clustervragen in clustervorm ongeveer 15 seconden

minder tijd kost dan het beantwoorden van de drie vragen los.

Ditzelfde kan ook op een andere manier zichtbaar gemaakt worden. De vaardigheid van de populatie

die in fase 1 en fase 2 hebben deelgenomen is niet gelijk. Om deze groepen toch te kunnen

vergelijken is per clustervraag berekend hoeveel tijd nodig was voor het beantwoorden van die vraag

als percentage van de tijd die nodig was voor het hele cluster. Tabel 8 toont deze percentages. Het

kopje ‘123’ duidt op de volgorde van de vragen zoals deze in fase 1 is afgenomen. Het kopje ‘231’

duidt op de volgorde van de vragen zoals die in fase 2 zijn afgenomen.

Tabel 8. Het percentage tijd dat nodig was voor het beantwoorden van de drie vragen uit het cluster als losse vragen en als

vragen in de volgorde 123 en 231


los 123 231 los 123 231 los 123 231 los 123 231

Cluster - 1 24 29 24 29 39 28 28 38 29 21 36 16

Cluster - 2 36 30 40 41 34 44 36 31 39 43 34 51

Cluster - 3 40 41 36 30 27 28 36 31 33 36 30 33

De vraag ‘cluster - 1’ van vo 2F kostte 29% van de tijd wanneer deze vraag als eerste in het cluster

stond. Dezelfde vraag kostte 24% van de tijd in onderzoeksfase 2, waarbij deze vraag als laatste in

het cluster was opgenomen. Het naar achteren verplaatsen levert dus 5% tijdwinst op. De

gemiddelde tijdwinst over alle vier de toetsen was 11%. Voor de vraag ‘cluster - 2’ is te zien dat het

verhuizen van de tweede positie naar de eerste positie gemiddeld 11% meer tijd kost. Voor de vraag

‘cluster - 3’ die van de derde naar de tweede positie verhuisde is het gemiddelde verschil erg klein.

Het analyseren van bovenstaande tabel op deze manier moet met de nodige voorzichtigheid

gebeuren. Een verandering bij vraag 2 houdt automatisch een verandering in bij vraag 1. Oorzaak en

gevolg kunnen door elkaar spelen. Toch is het beeld helder: een vraag die gesteld wordt als de

context al bekend is, kost minder tijd om te beantwoorden.

Deze bevinding samen met het resultaat uit tabel 2 (responstijd in fase 1) leidt tot de conclusie dat

het beantwoorden van de tweede en derde vraag in een cluster minder tijd kost dan wanneer deze


vragen los worden gesteld. De voor de hand liggende reden is dat de context bij het lezen van deze

vragen reeds bekend is. Deze tijdwinst wordt echter vrijwel teniet gedaan door het tijdverlies dat

ontstaat door het inlezen in de (complexere) context waarbinnen de clustervragen worden gesteld.

Ontbrekende antwoorden

Tabel 9 laat het percentage ontbrekende antwoorden van de kandidaten zien op de clustervragen

wanneer de vragen in een cluster of juist los zijn aangeboden. Bij de niet-beantwoorde vragen is er

een duidelijk effect dat een gevolg lijkt van het design. De losse vragen van het type ‘Cluster -1’, dat

wil zeggen de eerste vraag van het cluster zoals afgenomen in de reguliere rekentoetsen, zijn steeds

afgenomen op het eind van de toetsvariant in onderzoeksfase 2. Dat is een mogelijke verklaring voor

de observatie dat deze vragen een hoog percentage ontbrekende antwoorden hebben. Er moet

daarom enige voorzichtigheid in acht worden genomen bij de interpretatie van de resultaten in de rij

‘Cluster - 1’.

Tabel 9. Het percentage onbeantwoorde vragen uitgesplitst naar rekentoets van herkomst en clusterniveau



Cluster 0.4 2.0 3.6 2.9 1.4 2.3 2.4 4.4

Cluster - 2 0.0 0.7 3.0 1.0 1.0 0.3 2.0 2.7

Cluster - 3 0.7 1.0 3.0 1.7 1.3 1.3 3.3 4.3

Cluster - 1 0.7 4.3 4.7 6.0 2.0 5.3 2.0 6.3

De resultaten laten voor de rijen ‘Cluster - 2’ en ‘Cluster - 3’ zien dat het patroon van oplopende

percentages onbeantwoorde vragen zowel wordt waargenomen wanneer de vraag los wordt

afgenomen als wanneer de vraag in het cluster wordt afgenomen. De tendens is dat de laatste vraag

in het cluster een iets hoger percentage ontbrekende antwoorden oplevert dan de eerste twee

vragen. Het gevonden patroon is vergelijkbaar met het patroon dat bij de toetsen in fase 1 is

gevonden. Het effect kan worden toegeschreven aan de plaats van de vraag en is onafhankelijk van

de inhoud van de vraag. Het effect is echter wel klein.

Enquêtes Na afloop van de reguliere rekentoetsen (fase 1) en na afloop van het aanvullend onderzoek (fase 2)

is de kandidaten gevraagd een vragenlijst in te vullen over de rekentoetsen. De enquêtes zijn

anoniem verwerkt.

In de vragenlijst na afloop van de reguliere rekentoets (fase 1) bevond zich één vraag over het

opnemen van clustervragen in de rekentoets. Deze vraag geeft informatie over het aantal clusters

dat de voorkeur heeft van de kandidaten. Tabel 10 geeft een beeld van de enquête-antwoorden van

de kandidaten in fase 1.


Tabel 10. Percentage kandidaten dat de voorkeur heeft voor verschillende aantallen clusters

mbo 2F mbo 3F vo 2F en 3F

Geen clusters 7.1% 24.0% 20.2%

Één cluster is voldoende 16.0% 34.6% 24.0%

Meer dan één cluster 12.9% 19.9% 21.7%

Geen voorkeur 64.0% 21.5% 34.2%

Aantal kandidaten 2.107 1.025 16.133

Bij de kandidaten die deel hebben genomen aan het aanvullende onderzoek is een uitgebreidere

vragenlijst afgenomen. Tabellen 11 tot en met 16 tonen de antwoorden op de vragen uit deze

vragenlijst. In totaal hebben 1807 kandidaten de vragenlijst in fase 2 ingevuld.3

Tabel 11. Wat vind je van de clustervragen?

Prettig 26.1%

Liever niet 23.1%

Het maakt niet uit 50.8%

Tabel 12. Vind je een cluster vragen moeilijker of makkelijker dan drie losse vragen?

Moeilijker 30.9%

Makkelijker 27.9%

Het maakt niet uit 41.2%

Tabel 13. Hoe denk je dat je de clustervragen gemaakt hebt?

Beter dan losse vragen 18.6%

Slechter dan losse vragen 27.7%

Even goed als losse vragen 53.7%

Tabel 14. Hoeveel tijd heb je nodig gehad om zo'n cluster van drie vragen te maken?

Minder tijd dan losse vragen 32.2%

Meer tijd dan losse vragen 32.0%

Even veel tijd als losse vragen 35.7%

3 In de vragenlijst is steeds gesproken van groepjes vragen om beter bij de beleving van de kandidaten aan te sluiten. Voor de consistentie van het rapport is dat hier verwoord als clustervragen.


Tabel 15. Als er clustervragen worden aangeboden, hoeveel vragen in een cluster zou jij prettig vinden?

2 vragen 44.9%

3 vragen 43.5%

4 vragen 7.3%

5 vragen 2.3%

Meer dan 5 vragen 2.0%

Tabel 16. Hoeveel clusters in een toets zou jij prettig vinden?

Helemaal geen clusters 24.5%

1 cluster 14.9%

2 clusters 31.2%

3 clusters 20.6%

Meer dan 3 clusters 8.8%

De resultaten van de vragenlijst laten vooral zien dat de meningen uiteenlopen. Een meerderheid

van de kandidaten heeft geen afkeur voor clusters van vragen. Wanneer wordt ingezoomd op de

groep kandidaten met een voorkeur voor het opnemen van clustervragen blijkt dat de kandidaten in

deze groep vaker ervan overtuigd is dat ze de vragen beter hebben gemaakt (correlatie van 0,49;

tabel 11 en 13) dan dat ze ervan overtuigd zijn dat ze de vragen sneller hebben gemaakt (correlatie

van 0,33; tabel 11 en 14).

Tabel 15 laat zien dat de kandidaten niet meer dan drie vragen per cluster wensen. Bij deze

enquêtevraag is niet de optie aangeboden om geen clusters te willen. 84% van de kandidaten die bij

de eerste vraag aangeven liever geen clusters op te nemen, kiezen bij deze vraag voor de optie ‘2

vragen’.

Er is een opmerkelijk verschil tussen de resultaten in tabel 10 (fase 1) en tabel 16 (fase 2). Daar waar

in fase 1 amper de helft aangeeft een voorkeur te hebben voor één of meer clusters, is dit in fase 2

wel driekwart van de kandidaten. Het verschil zou kunnen zitten in het feit dat de resultaten in tabel

16 anders uitpakken omdat er geen antwoordoptie ‘geen mening’ was. Ook kan de oorzaak liggen in

het feit dat de kandidaten in fase 2 meer clusters hebben gemaakt dan in fase 1 (drie versus één) en

daarom minder negatief staan tegenover het opnemen van clusters. Samengevat lijkt een kwart van

de kandidaten liever geen clusters in de toets te willen en van de overige driekwart maakt het de

kandidaten niet uitof er één of meerdere clusters in een toets zitten.


Conclusie In dit onderzoek zijn in twee fases gegevens verzameld met betrekking tot prestaties op en meningen

van kandidaten over clustervragen binnen de rekentoets. Samenvattend worden hier per onderdeel

de conclusies van het complete onderzoek op een rij gezet.

Moeilijkheid

De clustervragen zijn niet moeilijker en ook niet makkelijker dan ‘gewone’ contextvragen. Ook maakt

het weinig uit of de clustervragen in een cluster of los worden afgenomen.

Responstijd

Vervolgvragen binnen een cluster kosten over het algemeen minder tijd dan wanneer dezelfde

vragen los worden afgenomen. Toch is de tijdwinst klein: kandidaten hebben tijdens een reguliere

afname voor de drie clustervragen bijna even veel tijd nodig hebben als voor drie ‘gewone’

contextvragen. De gemiddelde tijdwinst per vraag bedraagt slechts enkele seconden.

Er kan op basis van dit onderzoek geen uitspraak worden gedaan over het aanbieden van meer dan

drie vragen bij een context. De enquêteresultaten geven aan dat het aanbieden van meer dan drie

vragen bij een cluster niet de voorkeur heeft van de kandidaten.

Niet-beantwoorde vragen

Bij de afnames van clustervragen tijdens de reguliere rekentoets is geconstateerd dat het percentage

ontbrekende antwoorden binnen een clustervraag oploopt. In het aanvullende onderzoek wordt dit

bevestigd, omdat hetzelfde patroon werd gevonden ondanks dat de vragen in een andere volgorde

zijn aangeboden. Mogelijk haken kandidaten af binnen een cluster. Het onderzoek geeft geen

duidelijke verklaring waarom dit patroon zich voordoet.

Ervaring van kandidaten

De ervaringen en meningen van de kandidaten over clustervragen, gemeten door middel van de

vragenlijst, lopen uiteen. De kandidaten hebben een verdeelde mening over de clustering van

vragen, uit hoeveel vragen een cluster moet bestaan en hoeveel clusters aangeboden zouden

moeten worden. Ook de verwachtingen over de moeilijkheid en mogelijke tijdsbesparing van

clustervragen lopen uiteen. Een kwart van de kandidaten is tegen het opnemen van clustervragen.

De rest is positief of neutraal.

Het model dat in schooljaar 2014-2015 is gehanteerd waarbij in iedere rekentoets één clustervraag

zat die bestond uit drie vragen bij dezelfde context, lijkt op basis van deze gegevens een goed

compromis. Er kan ook voor gekozen worden om clustervragen niet meer verplicht aan te bieden,

omdat dit onderzoek niet heeft aangetoond dat de kandidaten er voordeel van ondervinden.

Samengevat

Samengevat leidt het onderzoek tot de volgende conclusies: clustervragen leveren geen tijdwinst op

maar kosten ook niet meer tijd; ze worden niet beter maar ook niet slechter gemaakt dan ‘gewone’

contextvragen. Leerlingen en studenten hebben geen uitgesproken voorkeur voor of tegen het

gebruik van clustervragen.

Er is op basis van dit onderzoek geen basis voor het stimuleren of het afraden van het gebruik van

clustervragen. Het verplicht opnemen van clustervragen wordt door dit onderzoek niet ondersteund.

Wanneer een context zich echter goed leent voor het stellen van meer dan één vraag bij die context,

dan volgt uit dit onderzoek dat dit zonder problemen kan worden doorgevoerd.


Bronnen Commissie Bosker (2014). Advies over de uitwerking van de referentieniveaus 2F en 3F voor rekenen

in toetsen en examens. SLO

Commissie Meijerink (2008). Over de drempels met taal en rekenen. Eindrapportage van de

expertgroep doorlopende leerlijn taal en rekenen. SLO

Cito (2015). Tussenresultaten lopend onderzoek naar clustervragen.

https://www.hetcvte.nl/nieuws/20150626/onderzoeksrapporten_over

Evers-Vermeul, J., & Pardoel, M. (2014). Contexten in digitale examens: brug of barrière? Een

onderzoek naar leesbaarheid van vmbo-bb examens wiskunde en maatschappijleer 2. Utrecht:

Universiteit Utrecht. Onderzoek in opdracht van het College voor Toetsen en Examens.

Hoogland, K., Vliegenthart, M., Schoonen, E, van der Mark, J., & van Reeuwijk, M. (2014). Rekenen en

rekenen toetsen op het vmbo bb: 2 deel onderzoeken. APS.

https://www.hetcvte.nl/nieuws/20150626/onderzoeksrapporten_over

Clustervragen in rekentoetsen en examens · In maart en april 2015 zijn geclusterde vragen...

Documents

Transcript of Clustervragen in rekentoetsen en examens · In maart en april 2015 zijn geclusterde vragen...