De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid...

5

Click here to load reader

Transcript of De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid...

Page 1: De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid gaat het erom hoe nauwkeurig ... vraag en diezelfde meerkeuzev raag, ... des te langer

24 De vergelijkbaarheid van open en meerkeuzevragen bij wiskunde in het VMBO

Inleiding

Volgens velen doen open vragen een beroep op anderevaardigheden dan meerkeuzevragen. Meerkeuzevragenzouden ‘slechts’ passieve herkenning of reproductie ver-eisen, terwijl open vragen een beroep zouden doen op‘hogere’ vaardigheden die samenhangen met het actiefproduceren van informatie. Hoe denken wiskundedocen-ten nu over deze kwestie? In het decembernummer vandit tijdschrift rapporteerden wij over een onderzoekwaarin wij wiskundedocenten negen opgaven zowel in deopen als in de meerkeuzevorm voorlegden (Kuhlemeier& Steentjes, 2002). Op de vraag of beide vraagvormendezelfde vaardigheden meten, bleken wiskundedocentenverrassend genuanceerde antwoorden te geven. Het per-centage docenten dat geen verschil zag, varieerde afhan-kelijk van de opgave van 34% tot 84%. Gemiddeld overde negen opgaven was eenderde van de docenten van me-ning dat beide vraagvormen een beroep doen op verschil-lende wiskundige vaardigheden, terwijl tweederde deomgekeerde mening was toegedaan. Vaardigheden dievolgens wiskundedocenten vooral bij de meerkeuzever-sie een rol spelen, zijn het globaal of schattend rekenen,het raden van het goede antwoord en het terugrekenenvanuit de alternatieven naar het goede antwoord. Vooralvan belang voor de open versies zijn het opschrijven vande onderliggende berekening of formulering, het exactuitrekenen en afronden van het antwoord en het gevenvan het antwoord in de juiste eenheid. In dit artikel nemenwe de proef op de som. We brengen verslag uit van on-derzoek naar het effect van de vraagvorm op de wiskun-deprestaties van tweedeklassers in het VMBO.

Wat wilden we weten?

In dit onderzoek zijn we nagegaan of een wiskundetoetsin de open vraagvorm een beroep doet op dezelfde wis-kundige vaardigheden als een volledig vergelijkbare toetsin de meerkeuzevorm. Waarom wilden we dit weten? Hetonderzoek is uitgevoerd in het kader van het Volg- en ad-viessysteem (VAS) van het Cito (Van Krimpen & Kuhle-meier, 2002). Deze toetsbatterij ondersteunt scholen bij

het plaatsen van leerlingen in een passende leerweg ofopleidingstype. Een belangrijke toets uit het VAS is dewiskundetoets. Deze toets bestond oorspronkelijk geheeluit open vragen. Dit leidde tot klachten van schoolleidersover de bewerkelijkheid en tijdrovendheid van het nakij-ken van de open vragen. Naar aanleiding hiervan is beslo-ten om de wiskundetoets met ingang van het schooljaar2001-2002 uitsluitend uit meerkeuzevragen te laten be-staan. Het onderzoek heeft tot doel na te gaan in hoeverredeze beslissing terecht is geweest. We zijn nagegaan ofopen en meerkeuzevragen een beroep doen op dezelfdewiskundige vaardigheden. De vraag naar de gemetenvaardigheden is echter niet het enige vergelijkingscriteri-um. Daarnaast zijn er nog drie andere onderzoeksvragenonderzocht, die we hieronder toelichten.

De antwoorden op open vragen kan men op verschillendemanieren nakijken. Twee bekende mogelijkheden zijngoed-fout scoring (dichotoom) en polytome scoring,waarbij ook gedeeltelijk goede antwoorden punten ople-veren. Volgens velen geeft polytome scoring van openopgaven een rijkere beschrijving van de oplossingsproce-dures en strategieën die leerlingen toepassen dan dichoto-me scoring. Gegeven dezelfde opgaven zouden bij poly-tome scoring dan ook andere vaardigheden in het gedingzijn dan bij dichotome scoring. Onze tweede onderzoeks-vraag was dan ook of de twee scoringswijzen dezelfdewiskundige vaardigheden van de leerlingen bestrijken.

Meerkeuzevragen zijn vaak makkelijker dan open vragen.Leerlingen met onvolledige kennis of een gebrekkige mo-tivatie kunnen het goede antwoord raden. Ook kunnen zijprofiteren van een vergelijk-en-streep-weg strategie,waarbij minder plausibele alternatieven successievelijkworden geëlimineerd. Verder kunnen meerkeuzevragenleerlingen een zogeheten terugverwijzing geven. Vindt deleerling het antwoord niet terug onder de alternatieven,dan zal hij of zij de opgave nogmaals proberen, net zolangtot een antwoord gevonden wordt dat overeenkomt meteen van de alternatieven. Onze derde onderzoeksvraagwas dan ook of wiskundevragen in de meerkeuzevorm in-derdaad makkelijker zijn dan diezelfde vragen in de open

De vergelijkbaarheid van open en meerkeuzevra-gen bij wiskunde in het VMBO

In het voorjaar van 2002 maakten ruim tweeduizend VMBO-leerlingen een wiskunde-toets zowel in de open als de meerkeuzevorm. De vraag was in hoeverre open enmeerkeuzevragen vergelijkbaar zijn qua gemeten vaardigheden, moeilijkheid, be-trouwbaarheid en afnametijd. In dit artikel doen Hans Kuhlemeier en MelanieSteentjes verslag van het onderzoek en de resultaten.

Page 2: De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid gaat het erom hoe nauwkeurig ... vraag en diezelfde meerkeuzev raag, ... des te langer

Nieuwe Wiskrant 22-3/maart 2003 25

vraagvorm. Bij de betrouwbaarheid gaat het erom hoe nauwkeurigeen toets de kennis en vaardigheden van de leerlingen inkaart brengt. De vraag naar de toetsbetrouwbaarheid isvan praktisch belang voor de onderwijspraktijk. Hoe ho-ger namelijk de betrouwbaarheid, hoe minder opgaven deleerlingen hoeven te maken en hoe meer tijd er overblijftvoor waardevolle instructie en oefening. Als vierde on-derzoeksvraag hebben we daarom onderzocht of devraagvorm invloed heeft op de betrouwbaarheid en de af-nametijd. Daarnaast zijn we nagegaan of polytome sco-ring betrouwbaarder is dan dichotome scoring.

Welk toetsmateriaal hebben we ge-bruikt?

In het onderzoek is de wiskundetoets uit het Volg- en ad-viessysteem (VAS) van het Cito als uitgangspunt geno-men. Deze toets bestaat uit 41 open vragen die zijn afge-stemd op wat tweedeklassers in de gemengde en theore-tische leerweg van het VMBO aankunnen. Uit deze toetshebben wij een aselecte steekproef van achttien opgavengetrokken voor afname in één lesuur. De achttien opga-ven geven een redelijke dekking van de wiskunde in deonderbouw van het VMBO. Van de achttien opgaven gaaner zes over het vakonderdeel rekenen, zes over algebra enzes over meetkunde. Negen van deze opgaven zijn ookgebruikt om wiskundedocenten te bevragen naar hun me-ning over de vergelijkbaarheid van open en meerkeuze-vragen (Kuhlemeier & Steentjes, 2002).

Bij elk van de achttien open opgaven hebben wij tweemeerkeuzeversies gemaakt. Een gewone meerkeuze-vraag en diezelfde meerkeuzevraag, met als extra afleider‘Het goede antwoord staat er niet bij’. De meerkeuzever-sies zijn geconstrueerd op basis van de gegevens uit eenvooronderzoek. Van ongeveer honderd leerlingen issteeds bekeken welke antwoorden het meest frequentvoorkwamen en hoe de verschillende (foute) antwoordenverklaard zouden kunnen worden. Er is geprobeerd om aldeze foute antwoorden in de afleiders te verwerken. Waardit niet mogelijk was, zijn de meest voorkomende fouteantwoorden gekozen. Om het effect van de vraagvorm zuiver vast te stellen,hebben wij ervoor gezorgd dat de versies van een opgavestamequivalent zijn. Dit wil zeggen dat de inleiding op devraag- of probleemstelling en de stam van de opgave voorelke versie gelijk is. We hebben drie toetsboekjes metachttien opgaven samengesteld die alleen verschillen tenaanzien van de vraagvorm. Het eerste toetsboekje bevatalleen open vragen (O), het tweede alleen meerkeuzevra-gen met de extra afleider ‘Het goede antwoord staat erniet bij’ (G) en het derde alleen de gewone meerkeuze-vragen (M). Figuur 1 toont de O- en G-versie van een op-gave waarbij de leerling een getal moet invullen in eenwoordformule.

Achtergrondinformatie bij de onderzoeksvragenDe eerste vraag naar de gemeten vaardigheden is hetallerbelangrijkst (Traub, 1993). Als open en meerkeu-zevragen een beroep zouden doen op verschillendevaardigheden, is vergelijking van moeilijkheid, betrouw-baarheid en afnametijd niet zo zinvol. Waarom dit zo is,lichten we toe aan de hand van een voorbeeld. Stel deene leerling maakt het wiskunde-examen in de openvraagvorm en de ander krijgt diezelfde examenopga-ven in de meerkeuzevorm voorgelegd. Ook al behalenbeide leerlingen precies evenveel punten, mag menhun prestatie dan zonder meer vergelijken? Wij hopendat u zegt: ‘Nee, natuurlijk niet, het examen kan in deene vraagvorm namelijk iets anders meten dan in deandere. Dat zou toch neerkomen op het vergelijken vanappels met peren’.Hoe stellen we nu vast of open en meerkeuzetoetsendezelfde vaardigheden meten? Daarvoor zijn statisti-sche procedures ontwikkeld. Toetsversies worden alspsychometrisch gelijkwaardig beschouwd als de corre-latie tussen de toetsscores één is of de waarde van ééndicht benadert. We mogen er dan vanuit gaan dat detoetsversies hetzelfde meten. Voor de positie die deleerlingen binnen de getoetste groep innemen maakthet dan weinig uit of zij de toets in de open of de meer-keuzeversie maakten. Prestaties op wiskundetoetsen zijn niet alleen afhanke-lijk van de vraagvorm, maar ook van de manier van na-kijken. Als we open en meerkeuzevragen met elkaarwillen vergelijken, moeten we de antwoorden van deleerlingen op precies dezelfde wijze nakijken. Als demeerkeuzevragen dichotoom (goed-fout) gescoordworden, moet dat bij de open vragen ook zo gebeuren.Anders is het effect van de vraagvorm niet te onder-scheiden van dat van de scoringswijze. Vandaar dat wede open vragen niet alleen polytoom, maar ook dicho-toom gescoord hebben. Bij de betrouwbaarheid gaat het erom hoe nauwkeurigeen toets de kennis en vaardigheden van de leerlingenin kaart brengt. De ervaring leert dat toetsen nooit vol-ledig betrouwbaar zijn. Een toetsscore bestaat altijdvoor een deel uit meetfouten. Hoe kleiner het aandeelvan de meetfouten, hoe hoger de betrouwbaarheid. Debetrouwbaarheid wordt doorgaans uitgedrukt in een ge-tal tussen nul en één, waarbij een hogere waarde indi-catief is voor een hogere betrouwbaarheid. Vanwegeonbetrouwbaarheid zullen twee toetsversies de leerlin-gen nooit helemaal op dezelfde wijze rangschikken,ook al meten ze in werkelijkheid precies hetzelfde. Van-daar dat er statistische procedures zijn ontwikkeld omde ‘ware’ correlatie tussen de toetsversies uit te reke-nen na correctie voor deze onbetrouwbaarheid. Meerkeuzevragen zijn zoals gezegd vaak makkelijkerdan open vragen. Gegeven gelijke vaardigheden eneen gelijke betrouwbaarheid, is een verschil in moeilijk-heid niet onoverkomelijk. Zolang de toetsversies deleerlingen maar op gelijke wijze rangschikken, kan mende ruwe scores via een eenvoudige lineaire transforma-tie tot elkaar herleiden. Deze transformatie wordt ookwel equivaleren genoemd. Geen enkele transformatiekan toetsen echter vergelijkbaar maken als er verschil-lende vaardigheden in het geding zijn.

Page 3: De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid gaat het erom hoe nauwkeurig ... vraag en diezelfde meerkeuzev raag, ... des te langer

26 De vergelijkbaarheid van open en meerkeuzevragen bij wiskunde in het VMBO

fig. 1 Voorbeeld van een open opgave en een meerkeuze-opga-ve met als extra afleider ‘Het goede antwoord staat er niet bij’

Verschillende vraagvormen en sco-ringswijzen: andere vaardigheden?

In ons onderzoek is nagegaan of open vragen (O), stan-daard meerkeuzevragen (M) en diezelfde meerkeuzevra-gen met als extra afleider ‘Het goede antwoord staat er

niet bij’ (G) een beroep doen op dezelfde wiskundigevaardigheden. Het zou te ver voeren om de uitgevoerdeanalyses en uitkomsten in detail te bespreken. Geïnteres-seerde lezers worden daartoe verwezen naar het hoofd-rapport (Kuhlemeier, Steentjes & Kleintjes, in druk). Wevolstaan hier met te vermelden dat we het verondersteldeverschil in gemeten vaardigheden niet hebben kunnenaantonen. Van drie wiskundetoetsen, die met uitzonde-ring van de vraagvorm qua vakinhoud en scoringswijzevolledig identiek zijn, kan niet worden vastgesteld dat zijiets anders meten. Na correctie voor onbetrouwbaarheidwijken de correlaties tussen de O-, M- en G-toetsen nietsignificant af van één. De drie toetsen rangschikken deleerlingen dus op vrijwel dezelfde wijze. Deze bevindingkomt overeen met Traub (1993). Hij komt op basis vanenkele methodologisch zuivere studies tot de voorzichti-ge conclusie dat open en meerkeuzevragen in het kwanti-tatieve domein een beroep doen op dezelfde vaardighe-den. Over een verklaring voor de afwezigheid van een ef-fect van de vraagvorm kan op grond van ons onderzoekgeen uitspraak worden gedaan. Het is echter verleidelijkdeze verklaring te zoeken in de aard van de onderzochtewiskundeopgaven. De door ons gebruikte opgaven zijnzogeheten constructieopgaven. Bij dit type opgave is hetantwoord niet direct vanuit het geheugen beschikbaar. Deleerling kan niet volstaan met het herkennen van het goe-de antwoord en het antwoord is niet zonder meer in de op-gave terug te vinden. De leerling moet zelf een oplossingvoor een wiskundig probleem produceren via bijvoor-beeld een redenering of een berekening of via het verrich-ten van een meting met een geodriehoek of windroos.

Open versie

Als je aan een veer een gewicht hangt, wordt de veerlanger.Hoe groter het gewicht, des te langer de veer wordt.

Met de formule hieronder kun jede lengte van de veer bereke-nen.

lengte veer = 20 + 3 aantal kg

De lengte van de veer is in centi-meters.

Je hangt een gewicht van 4 kg aan deveer.Hoe lang is de veer nu?

len

gte

ve

er

me

t ge

wic

ht

len

gte

ve

er

zon

der

ge

wic

ht

Gesloten versie

Als je aan een veer een gewicht hangt, wordt de veerlanger.Hoe groter het gewicht, des te langer de veer wordt.

Met de formule hieronder kun jede lengte van de veer bereke-nen.

lengte veer = 20 + 3 aantal kg

De lengte van de veer is in centi-meters.

Je hangt een gewicht van 4 kg aan deveer.Hoe lang is de veer nu?

A. 27 cmB. 32 cmC. 92 cmD. Het goede antwoord staat er niet bij

leng

te v

eer

met

ge

wic

ht

leng

te v

eer

zo

nde

r g

ew

icht

Hoe zat het onderzoek in elkaar? Aan het onderzoek is deelgenomen door ruim tweedui-zend tweedeklassers uit de gemengde en theoretischeleerweg van het VMBO. De leerlingen waren afkomstigvan 104 scholen. Om eventuele verschillen ten gevolge van de vraag-vorm zo zuiver mogelijk vast te stellen, zijn de leerlin-gen twee keer getoetst. Daarbij maakten de leerlingendezelfde opgaven, of in dezelfde vraagvorm, of in eenverschillende vraagvorm. Er is voor gezorgd dat elkecombinatie van vraagvormen voorkwam, dus ook tweekeer dezelfde vraagvorm. De leerlingen zijn binnenschoolklassen systematisch aan deze negen combina-ties i.c. groepen toegewezen (vergelijk Kuhlemeier,Steentjes & Kleintjes, in druk). Tussen de eerste entweede afname zat een periode van twee à drie weken.Om het effect van herinnering en teruglopende motiva-tie zoveel mogelijk uit te schakelen, is ervoor gezorgddat geen enkele leerling dezelfde vragen nogmaals indezelfde volgorde moest maken.De afnametijd is als volgt vastgesteld. Aan het beginvan de afname gaf de docent de leerlingen de opdrachtom de begintijd in het toetsboekje te noteren. De leer-lingen leverden het toetsboekje bij de docent in zodrazij de laatste vraag beantwoord hadden. De docent no-teerde de eindtijd op de daarvoor bestemde plaats inhet toetsboekje.

Page 4: De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid gaat het erom hoe nauwkeurig ... vraag en diezelfde meerkeuzev raag, ... des te langer

Nieuwe Wiskrant 22-3/maart 2003 27

Een aannemelijke verklaring voor de bevinding dat openen meerkeuzetoetsen hetzelfde meten, is dat de leerlingdeze mentale constructie altijd moet uitvoeren, ook al isde opgave in de meerkeuzevorm gesteld (vergelijk Traub,1993).

Zoals gezegd, komt uit ons onderzoek bij leerlingen naarvoren dat wiskundetoetsen die alleen verschillen voorwat betreft het vraagtype, hetzelfde meten. Deze hoofd-conclusie staat ogenschijnlijk op gespannen voet met demening van veel wiskundedocenten (zie de inleiding enonze bijdrage in het decembernummer 2002 van de Nieu-we Wiskrant). Een mogelijke verklaring verwijst naar hetverschil tussen een toets en een individuele opgave. In hetleerlingenonderzoek zijn de geaggregeerde scores op drieversies van een volledige toets met elkaar vergeleken, ter-wijl de docenten hun mening gaven over de vergelijk-baarheid van drie versies van een individuele opgave. Datde drie toetsversies maar weinig verschillen in moeilijk-heid en hetzelfde meten, betekent niet automatisch dat ditook geldt voor de open en meerkeuzeversies van elke in-dividuele opgave afzonderlijk (Bennett, Rock & Wang,1991). Bridgeman (1992) toonde overtuigend aan dat desomscores op toetsen met open en meerkeuzevragen ver-gelijkbaar kunnen zijn, ondanks grote verschillen op hetniveau van de individuele opgaven in moeilijkheid endiscriminerend vermogen. Met enige nadruk willen we erdan ook op wijzen dat de hoofdconclusies van ons onder-zoek niet zonder meer overdraagbaar zijn naar de indivi-duele opgaven. Er is hooguit aangetoond dat de achttienO-vragen in hun totaliteit een beroep doen op hetzelfdecomplex aan wiskundevaardigheden als de achttien G-vragen en de achttien M-vragen. Dit wil uiteraard nietzeggen dat elke individuele opgave in de ene vraagvormprecies hetzelfde meet als in de andere.

Velen veronderstellen dat polytome scoring van open op-gaven een rijkere beschrijving van de oplossingsprocedu-res en strategieën van leerlingen geeft dan dichotomescoring. Met de door ons gebruikte opgaven en analyse-technieken hebben we niet kunnen aantonen dat de enescoringswijze een beroep doet op andere wiskundigevaardigheden dan de andere (vergelijk Kuhlemeier,Steentjes & Kleintjes, in druk). Bij de interpretatie moetmen echter bedenken dat de beantwoording van onze op-gaven een beperkt aantal denkstappen vereist. De speel-ruimte om de polytome scoring te variëren al naar gelangde volledigheid of rijkdom van het oplossingsproces ismet andere woorden beperkt. Complexere opgaven enuitgebreidere antwoorden bieden meer mogelijkhedenom verschillende vaardigheidsaspecten in de scoring vande open vragen te betrekken. Zo zou men punten kunnentoekennen voor de correctheid van de berekening, de ade-quaatheid van de redenering en de helderheid van decommunicatie. Wellicht hadden wij dan wel duidelijkeverschillen gevonden tussen dichotome en polytome sco-ring.

Moeilijkheid

Naarmate de vraagvorm meer open is, zullen leerlingenminder profiteren van de raadkans, minder baat hebbenbij terugverwijzing en hun antwoord meer zelf moetenproduceren en formuleren. Wij verwachtten dan ook datO-vragen gemiddeld moeilijker zouden zijn dan G-vra-gen, die op hun beurt weer moeilijker zouden zijn dan M-vragen. Dit blijkt inderdaad het geval, al is het verschilniet erg groot. De dichotoom gescoorde O-toets (68%goed) blijkt inderdaad het moeilijkst, gevolgd door de G-toets (72%) en de M-toets (75%). Zoals verwacht, blijktde moeilijkheid van de G-vraag dus het midden te houdentussen de O- en de M-vraag.

Betrouwbaarheid en afnametijd

Bij meerkeuzevragen kunnen minder vaardige leerlingenhet goede antwoord raden. Raden is niet alleen vanuit di-dactisch oogpunt ongewenst, het kan ook de toetsbe-trouwbaarheid aantasten, omdat het toeval een groterekans krijgt. Naarmate de vraagvorm meer open is, zal ra-den minder kans krijgen. Onze voorspelling was dan ookdat O-vragen betrouwbaarder zouden zijn dan G-vragen,die op hun beurt weer betrouwbaarder zouden zijn danM-vragen. In ons onderzoek blijkt dit niet het geval. Debetrouwbaarheid waarmee de achttien O-, G- en M-vra-gen de wiskundige vaardigheid meten, bedraagt respec-tievelijk .60, .64 en .67. De M-vragen zijn dus betrouw-baarder dan de G-vragen, die op hun beurt weer betrouw-baarder zijn dan dichotoom gescoorde O-vragen. Ook tenaanzien van de betrouwbaarheid neemt de G-vraag duseen middenpositie in tussen de beide andere vraagvor-men.Polytome scoring van open vragen blijkt aanzienlijk be-trouwbaarder dan dichotome scoring (.72 versus .61).Open vragen lijken dus niet zozeer betrouwbaarder van-wege de vraagvorm an sich, maar meer vanwege de watgenuanceerdere scoring. Bij de interpretatie moeten webedenken dat slechts zes van de achttien opgaven poly-toom gescoord zijn. Hadden we alle opgaven polytoomkunnen scoren, dan was het verschil mogelijk groter ge-weest.Bij open vragen moeten de leerlingen hun antwoorden inleesbare en begrijpelijke taal opschrijven en daarnaastvaak ook nog eens toelichten. Wij verwachtten dan ookdat een open vraag gemiddeld meer afnametijd zou ver-gen dan een meerkeuzevraag. Van een G-opgave biedende alternatieven de leerling minder steun bij het vindenvan het juiste antwoord. Daardoor zouden G-vragen meerafnametijd vergen dan standaard meerkeuzevragen. Ech-ter, de afnametijd zal korter zijn dan bij O-vragen, aange-zien de leerling het antwoord niet in leesbare en begrijpe-lijk taal hoeft op te schrijven. In hoeverre vinden dezeveronderstellingen ondersteuning in de gegevens? Methet beantwoorden van de achttien open vragen zijn deleerlingen gemiddeld vier minuten langer bezig dan met

Page 5: De vergelijkbaarheid van open en meerkeuzevra- gen bij ... · PDF fileBij de betrouwbaarheid gaat het erom hoe nauwkeurig ... vraag en diezelfde meerkeuzev raag, ... des te langer

28 De vergelijkbaarheid van open en meerkeuzevragen bij wiskunde in het VMBO

de meerkeuzevragen (respectievelijk 21 versus 17 minu-ten). Van een gemiddelde open en meerkeuzevraag is deafnametijd 71 respectievelijk 56 seconden. Een verschilin afnametijd tussen de beide typen meerkeuzevragenkon niet worden vastgesteld. Polytoom gescoorde open vragen zijn zoals we hiervoorzagen betrouwbaarder dan meerkeuzevragen, maar daarstaat tegenover dat de beantwoording ervan meer tijdkost. Een legitieme vraag is dan ook of open vragen nogsteeds betrouwbaarder zijn als men rekening houdt methet feit dat men er in dezelfde tijd minder van kan afne-men. Onder het constant houden van de afnametijd res-teert er nog steeds een verschil in het voordeel van de po-lytoom gescoorde open opgaven (.72 versus .66).

Reikwijdte van de bevindingen

De uitkomsten van dit onderzoek moeten we interprete-ren in het licht van de wijze waarop de gegevens verza-meld zijn. Een eerste kanttekening betreft de moeilijk-heidsgraad van de gebruikte opgaven in relatie tot de on-derzochte groep leerlingen. Het effect van de drievraagvormen is onderzocht aan de hand van achttien con-structie-opgaven afkomstig uit de wiskundetoets van hetVolg- en adviessysteem. De moeilijkheidsgraad van dezeopgaven is goed afgestemd op het vaardigheidsniveauvan leerlingen in het tweede leerjaar van de gemengde entheoretische leerweg van het VMBO. Hadden wij dezeleerlingen bijvoorbeeld een set veel te moeilijke opgavenvoorgelegd, dan waren de conclusies wellicht anders ge-weest, bijvoorbeeld omdat effecten van raden en terug-verwijzing zich vooral zullen voordoen als leerlingen met(te) moeilijke opgaven geconfronteerd worden.Een tweede kanttekening betreft de gehanteerde sco-ringswijzen. Behalve op dichotome wijze zijn de openopgaven ook nagekeken met het gedeeltelijk polytomescoringsvoorschrift van de wiskundetoets uit het Volg-en adviessysteem. De resultaten maken aannemelijk datpolytome scoring een beroep doet op dezelfde wiskundi-ge vaardigheden als dichotome scoring. Bij de interpreta-tie moet men echter bedenken dat de beantwoording vanonze opgaven een beperkt aantal denkstappen vereist. Despeelruimte om de polytome scoring te variëren al naargelang de volledigheid of rijkdom van het oplossingspro-ces is met andere woorden beperkt. Uitgebreidere ant-woorden bieden meer mogelijkheden om verschillendevaardigheidsaspecten in de scoring van de open vragen tebetrekken. Zo zou men punten kunnen toekennen voor decorrectheid van de berekening, de adequaatheid van deredenering en de helderheid van de communicatie. Wel-licht hadden wij dan wel een verschil gevonden tussen di-chotome en polytome scoring. Een derde kanttekening betreft het doel van de toetsing.Het onderzoek is uitgevoerd in de context van het Volg-en adviessysteem. Het doel van deze toetsbatterij is hetvolgen van leerlingen teneinde hen in een geschikte leer-weg of opleidingstype te plaatsen. Ons onderzoek laat

zien dat open en meerkeuzevragen uitwisselbaar zijn inde zin dat zij een beroep doen op dezelfde wiskundigevaardigheden. De veronderstelde verschillen in moeilijk-heid en betrouwbaarheid bleken of niet aanwezig of vrijklein. Dit neemt uiteraard niet weg dat de vraagvormvoor andere toetsdoelen wel van belang kan zijn. Wis-kundedocenten gebruiken toetsen ook voor voortgangs-controle. Dat wil zeggen: het opsporen van tekorten ten-einde deze vervolgens te kunnen wegwerken. Open vra-gen bieden de wiskundedocent meestal meer mogelijk-heden om fouten in het oplossingsproces te diagnostise-ren dan meerkeuzevragen. Voor doeleinden van voort-gangscontrole zijn open en meerkeuzevragen uiteraardniet uitwisselbaar.

Aanbeveling

De praktische aanleiding tot het onderzoek is gelegen inklachten van schoolleiders over de bewerkelijkheid vanhet nakijken van de open wiskundevragen uit het Volg-en adviessysteem. Om de werklast voor de docenten tebeperken en de scholen sneller te kunnen informeren overde toetsresultaten, bevatten de wiskundetoetsen in hetVAS tegenwoordig uitsluitend meerkeuzevragen. De uit-komsten van het onderzoek geven onvoldoende aanlei-ding om de keuze voor meerkeuzevragen te heroverwe-gen.

Hans Kuhlemeier en Melanie Steentjes, Cito, Arnhem

Literatuur

Bennett, R.E., D.A. Rock & M. Wang (1991). Equiva-lence of free-response and multiple-choice-items.Journal of Educational Measurement, 28(1), 77-92.

Bridgeman, B. (1992). A comparison of quantitativequestions in open-ended and multiple-choice formats.Journal of Educational Measurement, 29(3), 253-271.

Krimpen, W. van & H. Kuhlemeier (2002). Alle stukjesvan de puzzel. Determineren en adviseren in de on-derbouw van het voortgezet onderwijs. HandboekStudiehuis Basisvorming, 8.22, 1-10.

Kuhlemeier, H. & M. Steentjes (2002). Docenten wis-kunde over open en meerkeuzevragen: verrassend ge-nuanceerder dan u denkt! Nieuwe Wiskrant, 22(2),12-17.

Kuhlemeier, H., M. Steentjes & F. Kleintjes (in druk). Degelijkwaardigheid van open en meerkeuzevragen bijwiskunde. Effecten van vraagtype en scoringswijze opgemeten vaardigheden, betrouwbaarheid, moeilijk-heid en afnametijd. Arnhem: Citogroep.

Traub, R. (1993). On the equivalence of the traits as-sessed by multiple-choice and constructed-responsetests. In R. Bennett & W. Ward (eds.). Constructionversus choice in cognitive measurement (pp. 29-44).Hillsdale, NJ: Lawrence Erlbaum Associates.