Clustervragen in rekentoetsen en examens · In maart en april 2015 zijn geclusterde vragen...
Transcript of Clustervragen in rekentoetsen en examens · In maart en april 2015 zijn geclusterde vragen...
Clustervragen in rekentoetsen en -examens Eindrapport, september 2015
© Stichting Cito, Arnhem 2015 2
Inhoudsopgave
VOORAF ........................................................................................................................................................... 3
INLEIDING ........................................................................................................................................................ 3
METHODE ........................................................................................................................................................ 5
FASE 1: REGULIERE AFNAME VAN DE CLUSTERVRAGEN .................................................................................................... 5
FASE 2: AANVULLEND ONDERZOEK .............................................................................................................................. 5
ENQUÊTES .............................................................................................................................................................. 6
RESULTATEN .................................................................................................................................................... 7
FASE 1: REGULIERE AFNAME VAN DE CLUSTERVRAGEN .................................................................................................... 7
ENQUÊTES ............................................................................................................................................................ 12
CONCLUSIE ..................................................................................................................................................... 15
BRONNEN ....................................................................................................................................................... 16
© Stichting Cito, Arnhem 2015 3
Vooraf Overal waar in dit rapport wordt gesproken over (reken)toets moet bedacht worden dat hiermee ook
het (reken)examen mbo bedoeld kan worden.
Inleiding De commissie Bosker adviseerde in haar rapport Advies over de uitwerking van de referentieniveaus
2F en 3F voor rekenen in toetsen en examens (2014) om nader te onderzoeken of het mogelijk of
wenselijk is om in de rekentoets vo en het rekenexamen mbo meerdere vragen bij één context te
stellen. Dit advies komt voort uit de gedachte dat het geclusterd aanbieden van verschillende vragen
bij dezelfde context, ook wel clustervragen genoemd, een verbetering van de toets zou kunnen
vormen. De veronderstelling is dat het geclusterd aanbieden van vragen prettiger is voor leerlingen,
omdat zij zich daardoor niet bij iedere vraag opnieuw hoeven in te leven in een nieuwe context.
Hoogland et al. (2014) beschrijven ook dat “de grote hoeveelheid geïsoleerde contexten in de
rekentoets” een mogelijke oorzaak is van het minder goed presteren van vmbo-bb kandidaten. Een
positief effect van clustervragen zou kunnen zijn dat de kandidaten minder tijd kwijt zijn per vraag
omdat zij de context alleen bij de eerste vraag echt hoeven te bestuderen en dientengevolge beter
presteren op de toets. Kandidaten zouden van het clusteren van vragen met name kunnen profiteren
als er een logische structuur in zit, waardoor het kandidaten makkelijker wordt gemaakt om de vraag
conceptueel te begrijpen (Evers-Vermeul & Pardoel, 2014).
Om zicht te krijgen op de mogelijke meerwaarde van clustervragen is het van belang te evalueren of
de clustervragen kwalitatief gelijkwaardig of beter zijn dan enkelvoudige vragen met een
afzonderlijke context. Dit kan geoperationaliseerd worden door te kijken naar de mate waarin een
clustervraag samenhangt met de totale score op de toets en de mate waarin kandidaten geen
antwoord geven op de betreffende vraag. Een sterke samenhang tussen een clustervraag en de
totale toetsscore geeft aan dat de clustervraag een goede indicator is van dezelfde vaardigheid die
de andere toetsvragen meten, terwijl een zwakke samenhang aangeeft dat er mogelijk andere
vaardigheden worden gemeten. Het niet beantwoorden van een vraag is een indicatie dat een
kandidaat geen raad weet met wat er precies bedoeld wordt. Binnen een cluster van vragen kan een
kandidaat na het beantwoorden van de eerste vraag, besluiten de rest van de vragen binnen dat
cluster niet te beantwoorden; clustervragen kunnen er dus toe leiden dat kandidaten vaker geneigd
zijn om geen antwoord te geven, bijvoorbeeld omdat de betreffende context een kandidaat niet
goed ligt, waardoor de kandidaat geneigd is om de andere vragen binnen het cluster over te slaan.
De hiervoor genoemde criteria zijn kwantificeerbaar en de criteria geven een goede indicatie van het
effect van clustervragen op de algehele prestaties op de rekentoetsen. Om meer te weten te komen
over hoe de kandidaten de clustervragen ervaren hebben en wat vervolgens hun mening was over
het al dan niet clusteren van vragen, is door middel van een vragenlijst extra informatie verzameld.
Bij de rekentoetsen die in maart en april 2015 in het voortgezet onderwijs en het middelbaar
beroepsonderwijs zijn afgenomen, is gebruik gemaakt van clustervragen. Dit was de eerste fase van
het onderzoek, waarover in juni 2015 is gerapporteerd in het tussenrapport ‘Tussenresultaten
lopend onderzoek naar clustervragen’ (2015). De clustervragen zijn gebruikt in de reguliere afname
van de rekentoets om zo de prestatie op de clustervragen te kunnen vergelijken met de prestatie op
reguliere vragen waarbij bij iedere context slechts één vraag gesteld wordt. In de tweede fase van
© Stichting Cito, Arnhem 2015 4
het onderzoek zijn dezelfde clustervragen in een aanvullend onderzoek ingezet. In dit deel van het
onderzoek zijn de clustervragen in een andere volgorde afgenomen om volgorde-effecten te
onderzoeken en zijn de clustervragen ook afzonderlijk als losse vraag afgenomen om een sterkere
vergelijking te kunnen maken tussen vragen binnen een cluster en dezelfde vragen maar dan los (niet
in een cluster).
© Stichting Cito, Arnhem 2015 5
Methode Voor de rekentoetsen in het vo en mbo zijn geclusterde vragen geconstrueerd die de
rekenvaardigheid op de referentieniveaus 2F en 3F (Commissie Meijerink, 2008) meten. Deze
geclusterde vragen zijn zowel ingezet in de reguliere toetsen (fase 1) als in een aanvullend onderzoek
(fase 2). Een cluster van vragen bestaat in dit onderzoek uit één context waarbij drie vragen worden
gesteld. Het opnemen van twee vragen in een cluster werd ingeschat als te weinig om de voordelen
van clustering te benutten en het opnemen van vier vragen stelde de constructeurs voor problemen.
De vragen moeten namelijk dusdanig worden geconstrueerd dat het correct beantwoorden van de
ene vraag geen directe invloed heeft op het correct beantwoorden van een andere vraag in hetzelfde
cluster.
Tijdens de afname werden de drie vragen in een cluster na elkaar getoond. De drie vragen stonden
op drie aparte ‘schermen’ waarbij elk scherm alle informatie bevatte om de vraag op dat scherm te
kunnen beantwoorden.
Fase 1: Reguliere afname van de clustervragen In maart en april 2015 zijn geclusterde vragen opgenomen in de rekentoetsen en rekenexamens. De
resultaten van de maartafname 2015 van de rekentoets vo en van de aprilafname 2015 van de
centrale examens mbo rekenen geven een eerste indicatie van hoe de leerlingen presteren op deze
vragen.
Afname in een reguliere toets biedt de mogelijkheid om een vergelijking te maken tussen hoe de
clustervragen functioneren ten opzichte van reguliere rekenvragen die in een context gesteld zijn. De
clustervragen zijn met de ‘gewone’ contextvragen vergeleken op basis van vier aspecten:
moeilijkheid van de vraag
benodigde responstijd. Dit is de tijd die gebruikt is voor het beantwoorden van de vraag.
het percentage vragen dat niet is beantwoord
de samenhang van de score op de vraag met de score op de rest van de toets.
De eerste twee aspecten dienden ertoe om te evalueren of de kandidaten voordeel hadden van het
aanbieden van vragen in clusters; en of de kandidaten clustervragen beter en/of sneller konden
maken. De laatste twee aspecten maakten het mogelijk om te evalueren of de prestaties op
clustervragen een goede indicator waren voor de prestaties op de rekentoets als geheel. Bij ieder van
deze uitkomstvariabelen bekeken we a) de gemiddelde score (p-waarde) voor de reguliere
contextvragen, b) het gemiddelde voor het hele cluster, en c) het gemiddelde per clusterpositie, dus
of dit de eerste, de tweede of de derde vraag binnen een cluster betrof.
Fase 2: Aanvullend onderzoek In mei en juni 2015 is een aanvullend onderzoek uitgevoerd. Aan dit onderzoek hebben ruim 2500
kandidaten van 44 scholen voor voortgezet onderwijs en drie mbo-instellingen deelgenomen. Bij het
voortgezet onderwijs hebben havo 3-leerlingen deelgenomen en bij het middelbaar
beroepsonderwijs hebben mbo 3-studenten deelgenomen die in de tweede helft van hun opleiding
zaten. Deze groepen werden het meest geschikt bevonden om vragen van beide referentieniveaus
voor te leggen. De deelnemende scholen hebben rapportages ontvangen waarin zij per kandidaat
een indicatie kregen of de kandidaat voldoet aan de referentieniveaus 2F en/of 3F.
Er zijn in totaal vier verschillende toetsvarianten aangeboden. Iedere toetsvariant bestond uit een
mix van rekenvragen van het referentieniveau 2F en van rekenvragen van het referentieniveau 3F.
© Stichting Cito, Arnhem 2015 6
De clustervragen zijn afkomstig uit rekentoetsen 2F en 3F vo en mbo. In totaal zijn in het onderzoek
12 clusters gebruikt. Iedere afnamevariant in het aanvullende onderzoek bestond uit drie clusters
van ieder drie vragen en één vraag uit ieder van de negen overige clusters, resulterend in toetsen
met 18 vragen. Het design is zo ingericht dat ieder van de 12 x 3 clustervragen zowel binnen een
cluster als los is afgenomen.
De kern van het onderzoek betreft een vergelijking van vragen wanneer deze binnen een cluster
worden afgenomen ten opzichte van dezelfde vragen wanneer deze los worden afgenomen. Deze
vergelijking is gemaakt op de volgende aspecten:
moeilijkheid van de vraag
benodigde responstijd voor de vraag
het percentage vragen dat niet is beantwoord.
De samenhang van de score op de vraag met de score op andere vragen in de toets is in deze fase
van het onderzoek niet meegenomen. Dit is dus anders dan bij het onderzoek in fase 1.
Enquêtes Ten slotte hebben de kandidaten die deel hebben genomen aan dit onderzoek (bij beide fasen), de
mogelijkheid gekregen om door middel van een vragenlijst hun ervaringen en mening met betrekking
tot de clustervragen te geven. De antwoorden op deze vragen in de vragenlijst geven inzicht in de
mening die de kandidaten hebben over de clustering van vragen.
© Stichting Cito, Arnhem 2015 7
Resultaten Het onderzoek in de tweede fase is op dusdanige wijze opgezet dat onderzoeksvragen die in de
eerste fase niet beantwoord zijn, alsnog kunnen worden onderzocht. De resultaten van de eerste
fase zijn dus relevant als hypothesevorming voor de tweede fase. De resultaten van de twee fasen
worden daarom in chronologische volgorde besproken.
Fase 1: Reguliere afname van de clustervragen
Moeilijkheid
Tabel 1 toont een overzicht van de gemiddelde p-waarde1 voor ‘gewone’ contextvragen in de
rekentoets, clustervragen in de rekentoets en respectievelijk de eerste, tweede en derde vraag
binnen een cluster. De onderste vier rijen zijn steeds geaggregeerd over alle clusters die binnen de
specifieke toets (vo 2F, vo 3F, mbo 2F of mbo 3F) zijn afgenomen.
Tabel 1. P-waarden uitgesplitst naar rekentoets en clustervraag
vo 2F vo 3F mbo 2F mbo 3F
Contextvragen 61,7 60,1 47,2 44,3
Clusters 60,4 64,5 55,2 35,8
Cluster - 1 71,8 77,1 52,8 51,6
Cluster - 2 68,1 61,7 60,1 29,3
Cluster - 3 41,3 54,9 52,7 26,6
De resultaten laten zien dat in de rekentoetsen in het vo en mbo 3F de tweede en derde vraag in het
cluster steeds minder goed worden gemaakt. Bij mbo 2F blijkt de tweede vraag in het cluster het best
gemaakt te worden. Het was in dit stadium niet mogelijk om de hypothese te toetsen of het meer
bekend raken met de context leidt tot hogere scores van de kandidaten. Daarom is er in de tweede
fase van het onderzoek voor gekozen om de clustervragen in een andere volgorde voor te leggen.
Een vergelijking van de eerste twee rijen in Tabel 1 laat zien dat de clustervragen binnen de
rekentoets vo qua moeilijkheid behoorlijk overeenkomen met de ‘gewone’ contextvragen in de toets:
de gemiddelde p-waarde van de contextvragen ligt dicht bij de gemiddelde p-waarde van de
clustervragen. Voor de rekentoetsen in het mbo geldt dat de clustervragen in 2F wat makkelijker zijn
en de clustervragen in 3F wat moeilijker. Er kan op basis van deze gegevens geen algemene uitspraak
worden gedaan over of clustervragen relatief makkelijker zijn wanneer ze in een cluster worden
aangeboden. Deze vraag wordt in de tweede fase van het onderzoek besproken.
1 De p-waarde van een vraag is het percentage van een groep leerlingen die een scorepunt heeft behaald op die vraag. De p-waarde is daarmee een maat voor de moeilijkheid van de vraag.
© Stichting Cito, Arnhem 2015 8
Responstijd
Tabel 2 geeft een overzicht van de benodigde responstijd in seconden. In deze tabel wordt eveneens
onderscheid gemaakt tussen ‘gewone’ contextvragen in de rekentoets, clustervragen in de
rekentoets en respectievelijk de eerste, tweede en derde vraag binnen een cluster.
Uit de tabel blijkt dat bij de rekentoets vo 3F en in mindere mate bij mbo 2F er een tijdwinst is
geconstateerd bij de clustervragen. Bij mbo 3F en bij vo 2F bleek de gemiddelde responstijd op de
clustervragen zelfs een klein beetje langer dan die op de ‘gewone’ contextvragen.
Tabel 2. Responstijden in seconden uitgesplitst naar rekentoets en clustervraag
vo 2F vo 3F mbo 2F mbo 3F
Contextvragen 73,7 143,0 88,2 154,0
Clusters 75,1 122,7 79,3 162,4
Cluster - 1 65,4 144,2 90,5 175,3
Cluster - 2 67,2 124,8 73,6 165,7
Cluster - 3 92,8 99,0 73,5 146,1
Tabel 2 laat het patroon zien dat elke opvolgende vraag in een cluster steeds wat minder tijd kost
wanneer over alle vier de groepen gemiddeld wordt. Of de vervolgvragen daadwerkelijk minder tijd
in beslag nemen omdat de context al meer bekend is, of dat de laatste vragen op zichzelf sneller te
beantwoorden zijn, zal uit het onderzoek in de tweede fase blijken.
Ondanks dat er een patroon lijkt te bestaan dat iedere opvolgende clustervraag steeds minder tijd
kost, is de uiteindelijke tijdwinst beperkt. Deze bedraagt gemiddeld over de vier groepen ongeveer 5
seconden. De contexten van de clustervragen bevatten meer informatie dan de reguliere contexten
omdat er meerdere vragen over gesteld moeten worden. Een mogelijke verklaring voor de
constatering dat er per saldo geen tot weinig tijdwinst wordt behaald, is dat het interpreteren van de
extra hoeveelheid aan informatie relatief meer tijd kost.
Ontbrekende antwoorden
Tabel 3 geeft een overzicht van het percentage kandidaten dat geen antwoord heeft gegeven op een
vraag, opgesplitst naar de reguliere contextvragen in een rekentoets, de clustervragen in de
rekentoets en de positie van een vraag binnen het cluster.
Tabel 3 toont dat het percentage kandidaten dat een vraag onbeantwoord laat, oploopt binnen een
cluster. Dit resultaat hangt samen met zowel de positie binnen het cluster en de moeilijkheid van de
vraag, zoals tabel 1 laat zien. Daardoor kan niet worden bepaald of het percentage ontbrekende
antwoorden een indicatie is van moeilijkheid of van de positie binnen een cluster. Als het percentage
ontbrekende antwoorden vooral samenhangt met de positie in het cluster, zou dat erop kunnen
wijzen dat sommige kandidaten geneigd zijn het cluster niet volledig af te ronden. Mogelijk dat een
bepaalde context een kandidaat niet goed ligt en dat de kandidaat daardoor na vraag 1 besluit de
resterende vragen niet meer te beantwoorden. Het onderzoek in de tweede fase kan hierover meer
uitsluitsel geven, omdat de volgorde van de vragen daarin is veranderd. De vraag is dan of het hier
geconstateerd patroon zich herhaalt of niet.
© Stichting Cito, Arnhem 2015 9
Tabel 3. Percentage kandidaten dat geen antwoord heeft gegeven uitgesplitst naar rekentoets en clustervraag
vo 2F vo 3F mbo 2F mbo 3F
Contextvragen 1,1 1,7 3,1 4,7
Clusters 1,6 1,8 2,6 6,4
Cluster - 1 0,4 1,5 2,2 4,1
Cluster - 2 1,4 1,7 2,1 6,3
Cluster - 3 3,0 2,3 3,7 8,8
Samenhang met de rest van de toets
Tabel 4 geeft een overzicht van de correlaties tussen de score op de contextvragen en de score op de
hele rekentoets. Dit is opgesplitst naar de reguliere contextvragen en de clustervragen. Dit overzicht
laat zien dat de correlaties bijna gelijk zijn. Dat is een indicatie dat de clustervragen niet afwijken van
hoe ‘gewone’ contextvragen passen binnen de huidige vorm van de rekentoetsen. De clustervragen
dragen bij aan een betrouwbare meting van de beheersing van het referentieniveau rekenen.
Tabel 4. Gemiddelde vraag-toetscorrelaties2 uitgesplitst naar rekentoets
vo 2F vo 3F mbo 2F mbo 3F
Contextvragen 0,331 0,320 0,437 0,399
Clusters 0,353 0,348 0,397 0,389
Fase 2: Aanvullend onderzoek
In de eerste fase zijn analyses uitgevoerd over clustervragen met betrekking tot moeilijkheid,
responstijd, ontbrekende antwoorden en samenhang met de rest van de toets. Daarvoor zijn de data
gebruikt van de reguliere afnames in vo en mbo in het voorjaar 2015. Het vervolgonderzoek (fase 2)
dient ertoe een beter beeld te geven van de mogelijke toegevoegde waarde van het clusteren van
vragen bij een context ten opzichte van het afnemen van losse vragen (één vraag per context).
In de tweede fase van het onderzoek zijn de clustervragen bovendien in een andere volgorde
afgenomen dan in fase 1. De volgorde van de clustervragen in deze fase van het onderzoek is: eerst
de tweede vraag, dan de derde vraag en ten slotte de eerste vraag van het cluster. Er is daarbij goed
gekeken of deze wisseling van volgorde probleemloos kon worden doorgevoerd. Hiermee wordt
bedoeld dat ervoor is gezorgd dat alle informatie die nodig is om een vraag te beantwoorden, wordt
gegeven voorafgaand aan de vraag. Door de volgorde te veranderen kan worden onderzocht of de
effecten zoals geconstateerd in de eerste fase van het onderzoek nog steeds optreden.
Moeilijkheid
Tabel 5 geeft een overzicht van de geobserveerde p-waarden opgesplitst per rekentoets; er is
gekeken hoe de leerlingen presteerden op een clustervraag wanneer deze los of juist in een cluster
werd afgenomen. Bovendien is bekeken of de positie van de vraag in het cluster invloed heeft op de
resultaten (hierbij wordt gerefereerd aan de plaats van de vraag in het cluster in de reguliere toets).
De rekenvragen afkomstig uit mbo 3F zijn beduidend minder goed gemaakt wanneer deze los zijn
2 De correlatie geeft weer hoe de score op de toets en de score op een vraag samenhangen. Een correlatie van 1 geeft aan dat er een perfecte lineaire samenhang is. Een correlatie van 0 geeft aan dat er geen lineair verband is.
© Stichting Cito, Arnhem 2015 10
afgenomen dan wanneer deze in een cluster zijn afgenomen. Echter, voor de andere drie
rekentoetsen is het verschil in prestatie zeer klein.
Tabel 5. P-waarden uitgesplitst naar rekentoets en positie in cluster
vo 2F vo 3F mbo 2F mbo 3F
Cluster Los Cluster Los Cluster Los Cluster Los
Cluster 73.4 72.3 46.0 44.8 75.9 75.9 42.7 28.0
Cluster - 2 70.3 76.7 36.0 37.0 79.7 80.0 23.3 18.3
Cluster - 3 69.3 69.0 55.7 56.0 78.3 77.0 35.7 19.7
Cluster - 1 80.7 71.3 46.3 41.3 69.7 70.7 69.0 46.0
In tabel 6 zijn de p-waarden van fase 1 en 2 bij elkaar gezet. Hierdoor wordt zichtbaar hoe de
onderzoekspopulatie in fase 2 het heeft gedaan ten opzichte van de populatie die de 2F en 3F heeft
gemaakt in het kader van de reguliere rekentoetsafname. Het kopje ‘123’ duidt op de volgorde van
de vragen zoals deze in fase 1 is afgenomen. Het kopje ‘231’ duidt op de volgorde van de vragen
zoals die in fase 2 zijn afgenomen. Hierbij kan gekeken worden naar de prestatie op de vraag ‘cluster
- 1’ ten opzichte van de vragen ‘cluster - 2’ en ‘cluster - 3’. In tabel 6 is het verschil weergegeven van
de p-waarde voor vraag 1 met het gemiddelde van de p-waarden van vraag 2 en 3. In fase 1 stond
vraag 1 namelijk voor en in fase 2 achter de vragen 2 en 3. Behalve bij mbo 3F presteren de
kandidaten iets slechter op de vraag wanneer deze achteraan staat. Het verschil is niet consistent. Dit
kan ook te maken hebben met de verschillen in populatie die de vragen gemaakt heeft en het
verschil in motivatie bij de kandidaten. Dit alles leidt tot de conclusie dat in dit onderzoek geen effect
van de volgorde van de vragen op de moeilijkheid is waargenomen. Met andere woorden, het is niet
aangetoond dat het clusteren van vragen bijdraagt aan de maakbaarheid en dat kandidaten op deze
manier significant beter kunnen laten zien wat ze kunnen.
Tabel 6. P-waarden uitgesplitst naar rekentoets en positie in cluster, als losse vragen en als vragen in de volgorde 123 en
231
vo 2F vo 3F mbo 2F mbo 3F
los 123 231 los 123 231 los 123 231 los 123 231
Cluster - 1 71,3 71,8 80,7 41,3 77,1 46,3 70,7 52,8 69,7 46,0 51,6 69,0
Cluster - 2 76,7 68,1 70,3 37,0 61,7 36,0 80,0 60,1 79,7 18,3 29,3 23,3
Cluster - 3 69,0 41,3 69,3 56,0 54,9 55,7 77,0 52,7 78,3 19,7 26,6 35,7
verschil 1 - 2/3 -1,6 17,1 10,9 -5,2 18,8 0,4 -7,8 -3,6 -9,3 27,0 23,7 39,5
Responstijd
Tabel 7 toont de gemiddelde responstijden voor de vragen wanneer deze binnen een cluster zijn
afgenomen en wanneer deze los zijn afgenomen. De kandidaten hebben voor de vragen afkomstig
uit de rekentoets vo 2F minder responstijd nodig wanneer de vraag los is aangeboden. De
clustervragen afkomstig uit de rekentoets vo 2F-clusters werden in dit onderzoek steeds aan het
begin van een toetsvariant aangeboden, terwijl de losse vragen later in de toetsvariant zaten.
Mogelijk nemen kandidaten aan het begin van de toets ruimer de tijd. Wel moet worden opgemerkt
dat er geen tijdnood is geweest bij de toetsen in dit deel van het onderzoek. Ook konden leerlingen
terugbladeren.
© Stichting Cito, Arnhem 2015 11
Tabel 7. Responstijden in seconden, uitgesplitst naar rekentoets en positie in cluster
vo 2F vo 3F mbo 2F mbo 3F
Cluster Los Cluster Los Cluster Los Cluster Los
Cluster 99.6 85.7 126.0 138.6 69.2 76.9 144.2 157.9
Cluster - 2 118.0 92.7 167.3 170.3 80.0 83.7 220.3 205.0
Cluster - 3 108.3 101.7 106.0 125.7 68.3 83.3 144.7 168.3
Cluster - 1 72.3 62.7 104.7 119.7 59.3 63.7 67.7 100.3
De clustervragen afkomstig uit de andere drie rekentoetsen laten zien dat losse vragen gemiddeld
meer tijd kosten dan wanneer dezelfde vragen in een cluster worden gepresenteerd. Hierbij is het
verschil voor de eerst aangeboden clustervraag klein. Het beantwoorden van de tweede en derde
vraag in het cluster kost minder tijd dan wanneer deze vragen los zouden zijn gesteld. Dit resultaat
wijst erop dat de kandidaten lijken te profiteren van het bekend zijn met de context. Dit heeft
betrekking op de benodigde tijd. Het gemiddelde verschil over alle toetsen heen is ongeveer 5
seconden. Dit betekent dat het stellen van drie clustervragen in clustervorm ongeveer 15 seconden
minder tijd kost dan het beantwoorden van de drie vragen los.
Ditzelfde kan ook op een andere manier zichtbaar gemaakt worden. De vaardigheid van de populatie
die in fase 1 en fase 2 hebben deelgenomen is niet gelijk. Om deze groepen toch te kunnen
vergelijken is per clustervraag berekend hoeveel tijd nodig was voor het beantwoorden van die vraag
als percentage van de tijd die nodig was voor het hele cluster. Tabel 8 toont deze percentages. Het
kopje ‘123’ duidt op de volgorde van de vragen zoals deze in fase 1 is afgenomen. Het kopje ‘231’
duidt op de volgorde van de vragen zoals die in fase 2 zijn afgenomen.
Tabel 8. Het percentage tijd dat nodig was voor het beantwoorden van de drie vragen uit het cluster als losse vragen en als
vragen in de volgorde 123 en 231
vo 2F vo 3F mbo 2F mbo 3F
los 123 231 los 123 231 los 123 231 los 123 231
Cluster - 1 24 29 24 29 39 28 28 38 29 21 36 16
Cluster - 2 36 30 40 41 34 44 36 31 39 43 34 51
Cluster - 3 40 41 36 30 27 28 36 31 33 36 30 33
De vraag ‘cluster - 1’ van vo 2F kostte 29% van de tijd wanneer deze vraag als eerste in het cluster
stond. Dezelfde vraag kostte 24% van de tijd in onderzoeksfase 2, waarbij deze vraag als laatste in
het cluster was opgenomen. Het naar achteren verplaatsen levert dus 5% tijdwinst op. De
gemiddelde tijdwinst over alle vier de toetsen was 11%. Voor de vraag ‘cluster - 2’ is te zien dat het
verhuizen van de tweede positie naar de eerste positie gemiddeld 11% meer tijd kost. Voor de vraag
‘cluster - 3’ die van de derde naar de tweede positie verhuisde is het gemiddelde verschil erg klein.
Het analyseren van bovenstaande tabel op deze manier moet met de nodige voorzichtigheid
gebeuren. Een verandering bij vraag 2 houdt automatisch een verandering in bij vraag 1. Oorzaak en
gevolg kunnen door elkaar spelen. Toch is het beeld helder: een vraag die gesteld wordt als de
context al bekend is, kost minder tijd om te beantwoorden.
Deze bevinding samen met het resultaat uit tabel 2 (responstijd in fase 1) leidt tot de conclusie dat
het beantwoorden van de tweede en derde vraag in een cluster minder tijd kost dan wanneer deze
© Stichting Cito, Arnhem 2015 12
vragen los worden gesteld. De voor de hand liggende reden is dat de context bij het lezen van deze
vragen reeds bekend is. Deze tijdwinst wordt echter vrijwel teniet gedaan door het tijdverlies dat
ontstaat door het inlezen in de (complexere) context waarbinnen de clustervragen worden gesteld.
Ontbrekende antwoorden
Tabel 9 laat het percentage ontbrekende antwoorden van de kandidaten zien op de clustervragen
wanneer de vragen in een cluster of juist los zijn aangeboden. Bij de niet-beantwoorde vragen is er
een duidelijk effect dat een gevolg lijkt van het design. De losse vragen van het type ‘Cluster -1’, dat
wil zeggen de eerste vraag van het cluster zoals afgenomen in de reguliere rekentoetsen, zijn steeds
afgenomen op het eind van de toetsvariant in onderzoeksfase 2. Dat is een mogelijke verklaring voor
de observatie dat deze vragen een hoog percentage ontbrekende antwoorden hebben. Er moet
daarom enige voorzichtigheid in acht worden genomen bij de interpretatie van de resultaten in de rij
‘Cluster - 1’.
Tabel 9. Het percentage onbeantwoorde vragen uitgesplitst naar rekentoets van herkomst en clusterniveau
vo 2F vo 3F mbo 2F mbo 3F
Cluster Los Cluster Los Cluster Los Cluster Los
Cluster 0.4 2.0 3.6 2.9 1.4 2.3 2.4 4.4
Cluster - 2 0.0 0.7 3.0 1.0 1.0 0.3 2.0 2.7
Cluster - 3 0.7 1.0 3.0 1.7 1.3 1.3 3.3 4.3
Cluster - 1 0.7 4.3 4.7 6.0 2.0 5.3 2.0 6.3
De resultaten laten voor de rijen ‘Cluster - 2’ en ‘Cluster - 3’ zien dat het patroon van oplopende
percentages onbeantwoorde vragen zowel wordt waargenomen wanneer de vraag los wordt
afgenomen als wanneer de vraag in het cluster wordt afgenomen. De tendens is dat de laatste vraag
in het cluster een iets hoger percentage ontbrekende antwoorden oplevert dan de eerste twee
vragen. Het gevonden patroon is vergelijkbaar met het patroon dat bij de toetsen in fase 1 is
gevonden. Het effect kan worden toegeschreven aan de plaats van de vraag en is onafhankelijk van
de inhoud van de vraag. Het effect is echter wel klein.
Enquêtes Na afloop van de reguliere rekentoetsen (fase 1) en na afloop van het aanvullend onderzoek (fase 2)
is de kandidaten gevraagd een vragenlijst in te vullen over de rekentoetsen. De enquêtes zijn
anoniem verwerkt.
In de vragenlijst na afloop van de reguliere rekentoets (fase 1) bevond zich één vraag over het
opnemen van clustervragen in de rekentoets. Deze vraag geeft informatie over het aantal clusters
dat de voorkeur heeft van de kandidaten. Tabel 10 geeft een beeld van de enquête-antwoorden van
de kandidaten in fase 1.
© Stichting Cito, Arnhem 2015 13
Tabel 10. Percentage kandidaten dat de voorkeur heeft voor verschillende aantallen clusters
mbo 2F mbo 3F vo 2F en 3F
Geen clusters 7.1% 24.0% 20.2%
Één cluster is voldoende 16.0% 34.6% 24.0%
Meer dan één cluster 12.9% 19.9% 21.7%
Geen voorkeur 64.0% 21.5% 34.2%
Aantal kandidaten 2.107 1.025 16.133
Bij de kandidaten die deel hebben genomen aan het aanvullende onderzoek is een uitgebreidere
vragenlijst afgenomen. Tabellen 11 tot en met 16 tonen de antwoorden op de vragen uit deze
vragenlijst. In totaal hebben 1807 kandidaten de vragenlijst in fase 2 ingevuld.3
Tabel 11. Wat vind je van de clustervragen?
Prettig 26.1%
Liever niet 23.1%
Het maakt niet uit 50.8%
Tabel 12. Vind je een cluster vragen moeilijker of makkelijker dan drie losse vragen?
Moeilijker 30.9%
Makkelijker 27.9%
Het maakt niet uit 41.2%
Tabel 13. Hoe denk je dat je de clustervragen gemaakt hebt?
Beter dan losse vragen 18.6%
Slechter dan losse vragen 27.7%
Even goed als losse vragen 53.7%
Tabel 14. Hoeveel tijd heb je nodig gehad om zo'n cluster van drie vragen te maken?
Minder tijd dan losse vragen 32.2%
Meer tijd dan losse vragen 32.0%
Even veel tijd als losse vragen 35.7%
3 In de vragenlijst is steeds gesproken van groepjes vragen om beter bij de beleving van de kandidaten aan te sluiten. Voor de consistentie van het rapport is dat hier verwoord als clustervragen.
© Stichting Cito, Arnhem 2015 14
Tabel 15. Als er clustervragen worden aangeboden, hoeveel vragen in een cluster zou jij prettig vinden?
2 vragen 44.9%
3 vragen 43.5%
4 vragen 7.3%
5 vragen 2.3%
Meer dan 5 vragen 2.0%
Tabel 16. Hoeveel clusters in een toets zou jij prettig vinden?
Helemaal geen clusters 24.5%
1 cluster 14.9%
2 clusters 31.2%
3 clusters 20.6%
Meer dan 3 clusters 8.8%
De resultaten van de vragenlijst laten vooral zien dat de meningen uiteenlopen. Een meerderheid
van de kandidaten heeft geen afkeur voor clusters van vragen. Wanneer wordt ingezoomd op de
groep kandidaten met een voorkeur voor het opnemen van clustervragen blijkt dat de kandidaten in
deze groep vaker ervan overtuigd is dat ze de vragen beter hebben gemaakt (correlatie van 0,49;
tabel 11 en 13) dan dat ze ervan overtuigd zijn dat ze de vragen sneller hebben gemaakt (correlatie
van 0,33; tabel 11 en 14).
Tabel 15 laat zien dat de kandidaten niet meer dan drie vragen per cluster wensen. Bij deze
enquêtevraag is niet de optie aangeboden om geen clusters te willen. 84% van de kandidaten die bij
de eerste vraag aangeven liever geen clusters op te nemen, kiezen bij deze vraag voor de optie ‘2
vragen’.
Er is een opmerkelijk verschil tussen de resultaten in tabel 10 (fase 1) en tabel 16 (fase 2). Daar waar
in fase 1 amper de helft aangeeft een voorkeur te hebben voor één of meer clusters, is dit in fase 2
wel driekwart van de kandidaten. Het verschil zou kunnen zitten in het feit dat de resultaten in tabel
16 anders uitpakken omdat er geen antwoordoptie ‘geen mening’ was. Ook kan de oorzaak liggen in
het feit dat de kandidaten in fase 2 meer clusters hebben gemaakt dan in fase 1 (drie versus één) en
daarom minder negatief staan tegenover het opnemen van clusters. Samengevat lijkt een kwart van
de kandidaten liever geen clusters in de toets te willen en van de overige driekwart maakt het de
kandidaten niet uitof er één of meerdere clusters in een toets zitten.
© Stichting Cito, Arnhem 2015 15
Conclusie In dit onderzoek zijn in twee fases gegevens verzameld met betrekking tot prestaties op en meningen
van kandidaten over clustervragen binnen de rekentoets. Samenvattend worden hier per onderdeel
de conclusies van het complete onderzoek op een rij gezet.
Moeilijkheid
De clustervragen zijn niet moeilijker en ook niet makkelijker dan ‘gewone’ contextvragen. Ook maakt
het weinig uit of de clustervragen in een cluster of los worden afgenomen.
Responstijd
Vervolgvragen binnen een cluster kosten over het algemeen minder tijd dan wanneer dezelfde
vragen los worden afgenomen. Toch is de tijdwinst klein: kandidaten hebben tijdens een reguliere
afname voor de drie clustervragen bijna even veel tijd nodig hebben als voor drie ‘gewone’
contextvragen. De gemiddelde tijdwinst per vraag bedraagt slechts enkele seconden.
Er kan op basis van dit onderzoek geen uitspraak worden gedaan over het aanbieden van meer dan
drie vragen bij een context. De enquêteresultaten geven aan dat het aanbieden van meer dan drie
vragen bij een cluster niet de voorkeur heeft van de kandidaten.
Niet-beantwoorde vragen
Bij de afnames van clustervragen tijdens de reguliere rekentoets is geconstateerd dat het percentage
ontbrekende antwoorden binnen een clustervraag oploopt. In het aanvullende onderzoek wordt dit
bevestigd, omdat hetzelfde patroon werd gevonden ondanks dat de vragen in een andere volgorde
zijn aangeboden. Mogelijk haken kandidaten af binnen een cluster. Het onderzoek geeft geen
duidelijke verklaring waarom dit patroon zich voordoet.
Ervaring van kandidaten
De ervaringen en meningen van de kandidaten over clustervragen, gemeten door middel van de
vragenlijst, lopen uiteen. De kandidaten hebben een verdeelde mening over de clustering van
vragen, uit hoeveel vragen een cluster moet bestaan en hoeveel clusters aangeboden zouden
moeten worden. Ook de verwachtingen over de moeilijkheid en mogelijke tijdsbesparing van
clustervragen lopen uiteen. Een kwart van de kandidaten is tegen het opnemen van clustervragen.
De rest is positief of neutraal.
Het model dat in schooljaar 2014-2015 is gehanteerd waarbij in iedere rekentoets één clustervraag
zat die bestond uit drie vragen bij dezelfde context, lijkt op basis van deze gegevens een goed
compromis. Er kan ook voor gekozen worden om clustervragen niet meer verplicht aan te bieden,
omdat dit onderzoek niet heeft aangetoond dat de kandidaten er voordeel van ondervinden.
Samengevat
Samengevat leidt het onderzoek tot de volgende conclusies: clustervragen leveren geen tijdwinst op
maar kosten ook niet meer tijd; ze worden niet beter maar ook niet slechter gemaakt dan ‘gewone’
contextvragen. Leerlingen en studenten hebben geen uitgesproken voorkeur voor of tegen het
gebruik van clustervragen.
Er is op basis van dit onderzoek geen basis voor het stimuleren of het afraden van het gebruik van
clustervragen. Het verplicht opnemen van clustervragen wordt door dit onderzoek niet ondersteund.
Wanneer een context zich echter goed leent voor het stellen van meer dan één vraag bij die context,
dan volgt uit dit onderzoek dat dit zonder problemen kan worden doorgevoerd.
© Stichting Cito, Arnhem 2015 16
Bronnen Commissie Bosker (2014). Advies over de uitwerking van de referentieniveaus 2F en 3F voor rekenen
in toetsen en examens. SLO
Commissie Meijerink (2008). Over de drempels met taal en rekenen. Eindrapportage van de
expertgroep doorlopende leerlijn taal en rekenen. SLO
Cito (2015). Tussenresultaten lopend onderzoek naar clustervragen.
https://www.hetcvte.nl/nieuws/20150626/onderzoeksrapporten_over
Evers-Vermeul, J., & Pardoel, M. (2014). Contexten in digitale examens: brug of barrière? Een
onderzoek naar leesbaarheid van vmbo-bb examens wiskunde en maatschappijleer 2. Utrecht:
Universiteit Utrecht. Onderzoek in opdracht van het College voor Toetsen en Examens.
Hoogland, K., Vliegenthart, M., Schoonen, E, van der Mark, J., & van Reeuwijk, M. (2014). Rekenen en
rekenen toetsen op het vmbo bb: 2 deel onderzoeken. APS.