Handreiking mc-toetsing

34
Inhoudsopgave handouts  MC PLUS ontwerpsamenstelling & constructie – afname – scoren en analyserenvaststellen van de uitslag  23 september 2014  Deze handouts zijn geschreven in het kader van MC+, een professionaliseringstraject ter verbetering van de kwaliteit van de meerkeuzetoetsing, gefaciliteerd door de Faculteit Sociale Wetenschappen, in samenwerking met het Centrum voor Onderwijs en Leren van de Universiteit Utrecht (COLUU). Deze handouts zijn geschreven door Jaap Milius (COLUU), Karien Dekker (Sociologie) en Sibe Doosje (Klinische en Gezondheidspsychologie). Voor vragen kunt u terecht bij Jaap Mlilius: [email protected].  Ontwerp (1) 1a Wanneer kiezen voor multiple choice? 1b De toetsmatrijs 1c Toetslengte, antwoordmogelijkheden en cesuurbepaling    Samenstelling & constructie (2) 2a Het genereren van vragen 2b Het formuleren van MC vragen en alternatieven 2c Controleren van de kwaliteit van de vragen 2d Hogere doelstellingen toetsen    Afname (3) 3a Afname van de MC toets 3b Instructie MCtoets    Analyseren (4) 4a Cesuur bepalen    Evalueren (5) 5a Toetsanalyse 5b Handelen na analyse  

Transcript of Handreiking mc-toetsing

Inhoudsopgave handouts 

 MC

PLUS ontwerp‐samenstelling&constructie–afname–scorenenanalyseren‐vaststellenvandeuitslag  

23 september 2014  

Deze handouts zijn geschreven in het kader van MC+, een professionaliseringstraject ter verbetering van de kwaliteit 

van de meerkeuzetoetsing, gefaciliteerd door de Faculteit Sociale Wetenschappen, in samenwerking met het Centrum 

voor Onderwijs en Leren van de Universiteit Utrecht (COLUU). Deze handouts zijn geschreven door Jaap Milius (COLUU), 

Karien Dekker (Sociologie) en Sibe Doosje (Klinische en Gezondheidspsychologie). Voor vragen kunt u terecht bij Jaap 

Mlilius: [email protected]

  Ontwerp (1) 

1a  Wanneer kiezen voor multiple choice? 

1b  De toetsmatrijs 

1c  Toetslengte, antwoordmogelijkheden en cesuurbepaling 

   

  Samenstelling & constructie (2) 

2a  Het genereren van vragen 

2b  Het formuleren van MC vragen en alternatieven 

2c  Controleren van de kwaliteit van de vragen 

2d  Hogere doelstellingen toetsen 

   

  Afname (3) 

3a  Afname van de MC toets 

3b  Instructie MC‐toets 

   

  Analyseren (4) 

4a  Cesuur bepalen 

   

  Evalueren (5) 

5a  Toetsanalyse 

5b  Handelen na analyse 

 

HandOut1a MCPLUS

ontwerp‐ samenstelling & constructie – afname – scoren en analyseren- vaststellen van de uitslag

 

1  

1aWanneerkiezenvoormultiplechoice1? IntroductieMultiple choice is een van de mogelijkheden om te toetsen of studenten de leerdoelen van een cursus gehaald hebben. In deze handout wordt aangegeven in welke gevallen multiple choice toetsing een goede keuze is, en wanneer beter een ander toetsmiddel gekozen kan worden. Of multiple choice een goede keuze is, hangt af van het type leerdoelen dat getoetst moeten worden en het aantal studenten in een cursus. In deze handout wordt ingegaan op de volgende vragen: 

Wanneer is een multiple choice toets een goede keuze?  

Welk type leerdoelen wordt getoetst met multiple choice? 

DekeuzevooreenMCtoetsMC als toetsvorm is vooral geschikt om bij de student te achterhalen of de feitelijke en begripsmatige kennis voldoende wordt beheerst. De tijd die het de student kost voor beantwoording is kort: gemiddeld rond de minuut (van Berkel & Bax, 2013), en daarmee kan in relatief korte tijd veel aan informatie in de breedte op betrouwbare wijze worden verkregen. Daarnaast is de kwaliteit van de toets achteraf gemakkelijk vast te stellen: de toetsanalyse (zie handout 5a en 5b) komt tegelijk met de scores van de student beschikbaar en die maakt het mogelijk de betrouwbaarheid en kwaliteit van de mc‐toets in de hand te houden.  Validiteit en betrouwbaarheid van de MC‐toets staan op gespannen voet met elkaar, veelal wordt op pragmatische gronden (is het doenlijk of uitvoerbaar) voor MC gekozen. Het kan verstandig zijn om een MC‐toets te combineren met enkele open vragen om ook de hogere cognitieve niveaus te dekken. Maar over het algemeen zullen de studentaantallen en de tijd(kosten) doorslaggevend zijn voor de keuze van MC. Bij meerkeuzevragen gaat meer tijd zitten in het maken van de vragen, bij open vragen (zie bv. Milius, 2007) gaat meer tijd zitten in het nakijken. Gaat het om het toetsen van kennis, dan betaalt de tijdsinvestering in de constructie van meerkeuzevragen zich over het algemeen terug bij het nakijken van meer dan 50 deelnemers (Dousma, Horsten, & Brants, 1997). 

LeerdoelenbijMCLeerdoelen worden vaak hiërarchisch ingedeeld: van eenvoudig naar geavanceerd. De taxonomie van Bloom (bewerkt door Anderson en Krathwohl, 2001) geeft leerdoelen in het cognitief gebied. De taxonomie van Miller (Miller, 1990) stelt gedrag en competentie centraal. Beide taxonomieën zijn gevisualiseerd in de vorm van een piramide, waarin een volgordelijkheid in het leren wordt verondersteld: om een hoger niveau te bereiken is beheersing van onderliggende niveaus nodig. Bij toetsing kun je dat principe gebruiken: een hoger niveau veronderstelt kennis op een lager niveau.  Wanneer men deze taxonomieën in relatie wil brengen tot toetsvormen, dan ziet dat er in tabelvorm als volgt uit. In tabel 1 zijn de doelstellingniveaus van Miller en Bloom omschreven, is de meest passende toetsvorm benoemd, en zijn voorbeelden gegeven van de werkwoorden. De werkwoorden zijn als indicator te gebruiken bij de formulering van de doelstellingen naar het gewenst niveau en ook bij het formuleren van toetsvragen die daar congruent mee zijn. Voor open vragen is de bruikbaarheid evident van de werkwoorden: de student krijgt de instructie te benoemen, beargumenteren, te schetsen etc. Omdat het zetten van het kruisje de zichtbare activiteit is, is de kwestie bij MC dat dat kruisje een indicatie is van het oplosproces van het gestelde probleem en of dat juist is doorlopen. Het probleem in de mc‐vraag vraagt van de student een beroep te doen op de desbetreffende cognitieve oplosstrategie. Dat vergt creatief vermogen en vaardigheid van de vragensteller (zie handout 2a) en is niet altijd gemakkelijk!  

                                                            1 Deze handouts zijn geschreven door Jaap Milius, Sibe Doosje en Karien Dekker. Voor vragen kunt u terecht bij Jaap Milius: [email protected] 

HandOut1a MCPLUS

ontwerp‐ samenstelling & constructie – afname – scoren en analyseren- vaststellen van de uitslag

 

2  

Figuur 1: De leerdoel taxonomieën van Bloom (Krathwohl, 2002, links) en Miller (Miller, 1990, rechts)

  Tabel 1: Doelstellingen, vormen van toetsing en bijbehorende toetsvragen  

Doelstellingniveau  Omschrijving  Voorbeelden van (open) toetsvragen, of gewenste cognitieve activiteit (Mc) 

Passende toetsvorm (zoals..) 

Miller  Bloom 

Knows  Weten  Het oproepen en reproduceren van feitelijke informatie 

Geef de definitie van.. 

Benoem de drie kenmerken van.. 

Geef volgorde aan van/waar .. 

Schriftelijk: Gesloten en open vragen 

Begrijpen  Het weergeven, samenvatten, uitleggen, en relateren van informatiebestanddelen 

Licht concept/uitspraak/.. toe.. 

Leg onderliggend mechanisme uit .. 

Benoem de 2 verschillen tussen.. 

Beschrijf de relatie tussen.. 

Knows How  Toepassen  Het gebruiken/toepassen van bestaande kennis in een nieuwe situatie 

Bereken/bewijs in situatie/geval … 

Geef de meest waarschijnlijke hypothese/diagnose/uitkomst.. 

Benoem oorzaken/gevolgen van ingreep.. 

Geef voor‐ en nadelen van methode .. 

Geef een voorbeeld van/evidentie voor ... 

Schriftelijk: gesloten en open vragen, essayvragen, papers... Mondeling, presentatie, assessment, ondervraging 

Analyseren  Het identificeren, analyseren, onderzoeken en organiseren van bestanddelen in samenhang  

Interpreteer/verklaar.. 

Geef een onderbouwde beschouwing  van.. 

Teken/ schets ..de factoren/elementen‐/aspecten in hun onderlinge relatie.. 

 

Shows How Student vertoont professioneel gedrag in gesimuleerde situaties, zoals gevraagd/vereist 

Evalueren  Toetsen  en beoordelen van een Situatie/product/‐uitspraak/besluit; onderbouwen van oordeel/conclusies 

Vat de conclusie samen en kritiseer  deze .. 

Geef drie argumenten/redenen voor/tegen.. 

Beoordeel de uitspraak met behulp/gebruikmaking van  

Bespreek de (ir‐)relevante  info voor standpunt/beslissing/voornemen.. 

Essay(vragen), paper, literatuurstudie 

Synthetiseren en Creëren  

Informatiebestanddelen tot een nieuw geheel vormen nieuwe ideeën, producten of zienswijzen tot stand brengen 

Maak een onderzoeksvoorstel/ontwerp/  volgens.. 

Schrijf/presenteer een advies over/voor. 

Werkstukken, projecten, simulatietoetsen in nagebootste, gestandaardiseerde omgeving, 

HandOut1a MCPLUS

ontwerp‐ samenstelling & constructie – afname – scoren en analyseren- vaststellen van de uitslag

 

3  

  

onderzoekuitvoering, (voorstel),..) 

Does Student vertoont professioneel gedrag en functioneert als volwaardig vakgenoot, ook als dat niet gevraagd wordt 

      Stage beoordeling, performanceassessment, observatie in dagelijkse praktijk, 3600 feedback, portfolio 

Bron: Stichting Leerlijn Ontwikkeling 

VerdiepingAnderson, L.W., en Krathwohl, D.R.. (2001). A Taxonomy for Learning Teaching and Assessing: A Revision of Bloom’s 

Taxonomy of Educational Objectives. New York: Longman. Berkel van, H., Bax A. & Joosten‐ten Brinke D. (2014). Toetsen in het hoger onderwijs. Houten: Bohn Satfleu van Loghum. Biggs, J.B., and Collis, K. (1982). Evaluating the quality of teaching: The SOLO taxonomy. New York: Academic Press. Bloom, B.S. (1956). Taxonomy of educational objectives: The classification of educational goals. New York: Longman. Dousma, T., Horsten, A., & Brants, J. (1997). Tentamineren. Groningen: Wolters‐Noordhoff. Krathwohl, D.R. (2002). A revision of Bloom’s taxonomy: An overview.  In Theory into Practice, 41 (4), 212‐218. Milius J.J., (2007). Schriftelijk tentamineren; een draaiboek voor docenten in het hoger onderwijs. IVLOS: Utrecht.  Miller, G.E. (1990). The assessment of clinical skills/competence/performance. In Academic Medicine, 65, 63‐67. 

HandOut1b MCPLUS

ontwerp‐ samenstelling & constructie – afname – scoren en analyseren- vaststellen

van de uitslag

1

1bDetoetsmatrijs  

IntroductieNadat de keuze is gemaakt voor een multiple choice (MC) tentamen, komt het samenstellen van de toets. Het uitgangspunt daarbij is de toetsmatrijs (Milius, 2007), een hulpmiddel wat er voor zorgt dat de toets de inhoud op het juiste niveau toetst. De toetsmatrijs maakt de relatie tussen de leerdoelen en de vragen inzichtelijk. Meer informatie over het benodigde aantal vragen in de toets staat in handout 1c. 

Wat is een toetsmatrijs? 

Waarvoor kan deze worden gebruikt? 

Hoe kan deze worden gebruikt?  

DetoetsmatrijsEen toetsmatrijs (ook wel specificatietabel genoemd) is een schematisch overzicht waarin inhoud van de te toetsen leerstof (leerdoelen) is afgezet tegen de vragen van de toets (naar inhoud en niveau).  Het aantal vragen is in overeenstemming met de doelen en met het belang dat aan het onderwerp is toegekend in het onderwijs (c.q. de tijd die eraan is besteed).   

WaaromeentoetsmatrijsDe toetsmatrijs is bedoeld om de validiteit en betrouwbaarheid van de toets te borgen. Het tentamen en de vragen gaan over stof die er toe doet, waarvan studenten kunnen weten dat er vragen over worden gesteld en die het soort kennis test waarover men een oordeel wil vellen. Om valide en betrouwbare oordelen te kunnen vellen is aannemelijk gemaakt dat de inhoud ieder niveau dekt (representativiteit), de verdeling overeenkomt met de accenten die in het onderwijs zijn gelegd en dat het aantal vragen dat is opgenomen in de toets als steekproef voldoende vragen bevat om een betrouwbaar oordeel te kunnen vellen. De toetsmatrijs dient er ook voor  dat toetsen en de studentresultaten op de toetsen van een cursus door de jaren heen vergelijkbaar zijn. Het is aldus een communicatiemiddel voor de betrokken docenten (overdracht) en naar buiten toe (verantwoording). In Voorbeeld 1 is een toetsmatrijs afgebeeld, die behalve MC‐vragen ook open vragen omvat. Wat in dit voorbeeld en het volgende ook duidelijk wordt is dat de toetsmatrijs ook weergeeft uit welke bron de vragen afkomstig zijn. Dit is niet alleen handig vanuit het oogpunt van representativiteit en verantwoording, maar kan bijvoorbeeld ook helpen bij de nabespreking.  Voorbeeld 1: een toetsmatrijs voor MC in combinatie met open vragen.  

  Bron  MC‐toetsen  Open vragen  Tot. 

Inhoud    Kennis/ begrip 

Toepassen/ hoger niveau  

Totaal  Uitleggen  Redeneren   

A    4  6  10  2   2 B    4  6  10 

C    4  6  10   

Deeltoets1    12  18 30 2  2  4 

           D    4  6  10       

E    4  6  10       

F    4  6  10  2  2  4 

Eindtoets    12  18 30 2  2  4 

  

HandOut1b MCPLUS

ontwerp‐ samenstelling & constructie – afname – scoren en analyseren- vaststellen

van de uitslag

2

De toetsmatrijs bij FSW kent twee varianten (Toetscommissie, 2013): de toetsmatrijs zoals gepland en de toetsmatrijs zoals gerealiseerd (zie Voorbeeld 2). Als het goed is komen geplande en gerealiseerde toetsmatrijs overeen. Maar met de laatste wordt door de verwijzing naar het specifieke vraagnummer in deze toets, ook nog inzichtelijk gemaakt hoe de vraag bijdraagt aan het bedoelde niveau en inhoud van de toets.   Voorbeeld 2: een toetsmatrijs (gewenst/gerealiseerd) van het vak Inleiding in de psychologie (naar te Pas, 2010) 

Onderwerp  Bron Eindtoets MC (80%) K=kennis, I=inzicht, T=toepassing 

    K I T  tot

Wk 1 

Intro Psych. Sciences: Popper Kuhn & Lakatos  Dienes, H1,2 21;3 

12 

  3

Gazz., H1, 4 44;5;7 

26;8 

  65 

Genetic & bilogical foundations  Dienes, H3 49;10;11; 

112;13;14 

  56 

Wk 2 

Brain & consciousness  Dienes, H4 316;17 

115;18 

  4

Sensation, Perception & attention  Dienes, H5 221 

119;20 

  3

Wk 3 

Processes of learning  Dienes, H6 222 

123 

 24 

3

Memory  Dienes, H7 225;26 

127 

  3

Wk 4 

Thinking&intelligence  Dienes, H8 228;29 

130 

  3

Emotions & Health  Dienes, H10 231;32 

  2

Wk 5 

Motivation  Dienes, H9 233;34 

  2

Human development  Dienes, H11 235;36 

1  37 

3

Wk 6 

Personality  Dienes, H12 238;39 

240;41 

  4

Social Psychology  Dienes, H15 242 

143;44 

1 45 

4

Wk 7 

Interculturele psychologie  K&K, H1 en2 246;47;48 

1 1 49 

4

Disorders of mind & body  Dienes, H13 350;51;52 

153;54 

2 55 

6

Wk 8   

Treating disorders of mind&body  Dienes, H14 356;57;58 

159 

1 60 

5

  Toets totaal  39 16 5  60

 

VerdiepingKennisbank TAUU (2013). Toetsmatrijs. Gevonden op http://tauu.uu.nl/onderwijsmodel-

uu/toetsing_en_feedback/toetsing-achtergronden/modules/toetsmatrijs/  Milius J.J., (2007). Schriftelijk tentamineren; een draaiboek voor docenten in het hoger onderwijs. IVLOS: 

Utrecht.  Toetscommissie (2013). Verantwoording kwaliteit meerkeuzetoets. Interne notitie. Utrecht: Universiteit 

Utrecht, FSW. 

HandOut1c  MCPLUS

 ontwerp‐ samenstelling & constructie – afname – scoren en analyseren‐ vaststellen van de uitslag  

 

1  

1cToetslengte,antwoordmogelijkhedenencesuurbepalingIntroductieDe toetsmatrijs (zie handout 1b) geeft inzicht in het aantal vragen wat nodig is om de leerdoelen op een valide en betrouwbare manier te toetsen. In deze handout staat hoe bepaald wordt hoeveel vragen worden opgenomen in een toets (toetslengte). Dit hangt natuurlijk sterk af van de omvang van de te dekken leerstof en ook van de raadkans en het aantal antwoordmogelijkheden. Bovendien is er vaak maar een beperkte periode voor tentaminering beschikbaar. Ook dat bepaalt de toetslengte. Van tevoren wordt ook bepaald wat de cesuur gaat worden. In deze handout wordt stilgestaan bij de volgende vragen:  

Hoeveel vragen komen er in een toets?  

Hoeveel antwoordmogelijkheden zijn er nodig per vraag? 

Hoe wordt de cesuur van de toets bepaald? 

 ToetslengteenantwoordmogelijkhedenIn tabel 1 is een indicatie gegeven van het aantal op te nemen vragen in een toets die een vergelijkbaar meetbereik (30) hebben bij een verschillend aantal alternatieven (twee‐, drie‐ en vierkeuzevragen).  

Tabel 1: Relatie tussen aantal alternatieven, toetslengte en meetbereik bij mc‐toetsen 

Aantal alternatieven(A)

Toetslengte (N) Raadkansscore (R=N:A) Meetbereik (N-R)

Vier

40

10

30

Drie

45

15

30

Twee

60

30

30

Twee-, drie-, vier (met raadcorrectie)

30

0

30

Bron: Milius (2007)

Uitleg. Het aantal meerkeuzevragen in de toets is allereerst afhankelijk van de omvang van de leerstof. Verder zal het afhangen of de toets uitsluitend uit meerkeuzevragen bestaat of dat deze vraagvorm wordt gebruikt in combinatie met bijvoorbeeld open vragen. Een toetsmatrijs (of specificatietabel) waarin staat welke inhouden/doelen gedekt worden door welk type vragen kan helpen om te komen tot een toets die in samenstelling de doelen redelijk dekt (zie handout 1b). Daarnaast is het van belang dat de student de vragen in de gestelde tijd kan beantwoorden. Het blijkt dat studenten meer tijd kwijt zijn naarmate het aantal alternatieven toeneemt. Zo is de student gemiddeld 50 seconden kwijt met het beantwoorden van een tweekeuzevraag, 60 seconden met een driekeuzevraag en 75 seconden met een vier‐ of vijf keuzevraag (Van Berkel & Bax, 2013).  

CesuurbepalingDe cesuur is de zak/slaaggrens bij de beoordeling van een toets. Daarbij stel je jezelf dus de vraag welke score een student tenminste moet behalen om een voldoende te halen of om te slagen. Het aantal punten wat voldoende is voor een voldoende wordt norm genoemd. Studenten kunnen bij een tentamen of toetsing vaak een bepaald aantal punten halen (een score). Vervolgens wordt het aantal behaalde punten of de score omgezet naar een cijfer (vaak op een schaal van 1 tot 10). Dit omzetten doe je met behulp van een score‐cijfer transformatieschaal(zie figuur). In een score‐cijfer transformatieschaal worden de scores die behaald kunnen worden afgezet tegen het cijfer wat daarbij hoort. 

HandOut1c  MCPLUS

 ontwerp‐ samenstelling & constructie – afname – scoren en analyseren‐ vaststellen van de uitslag  

 

2  

De lijn van een transformatieschaal is meestal lineair. Toch zijn er verschillende mogelijkheden om deze lijn te trekken. In andere woorden er zijn verschillende cesuurmethoden die toegepast kunnen worden. 

(zie ook filmpje: hoe werkt een absolute cesuurmethode) 

 

Figuur 1. Voorbeeld van een Score‐cijfer transformatieschaal 

Verschillende cesuurmethoden  Bij een absolute cesuurmethode wordt de zak/slaaggrens al bepaald voordat de studenten de toetsing hebben afgelegd. Het referentiepunt voor de cesuur ligt hierbij dus in de inhoud van het tentamen en de uiteindelijke scores van de studenten hebben daar bij deze methode dan ook geen invloed meer op. Nadeel: er wordt geen rekening gehouden met de omstandigheden waarin de toetsing heeft plaatsgevonden met als gevolg mogelijk onterecht gezakte studenten (te strenge norm). Bij een relatieve cesuurmethode ligt het referentiepunt voor de zak/slaaggrens niet in de inhoud van het tentamen maar in de betrouwbaarheid van de toets, de resultaten van een studentenpopulatie uit een eerder cohort of de resultaten van het huidige cohort. Nadeel: studenten die zich onvoldoende hebben voorbereid op de toetsing hebben wel invloed op de gemiddelde toetsprestatie met als gevolg mogelijk onterecht geslaagde studenten (te coulante norm). In de praktijk kom je vaak combinaties van zowel een absolute als relatieve cesuurmethode tegen, die worden ook wel compromismethoden genoemd. Hieronder worden de meest gebruikte cesuurmethoden beschreven.  Absoluut 1) Vast: Bij een vaste cesuurmethode wordt vooraf aan de toets op basis van de aard van de vragen en een eventuele correctie voor raadkans een cesuur vastgesteld. Het lastige aan deze manier van cesuur bepalen is dat de norm vrij arbitrair is. Er wordt immers niet op basis van inhoudelijke argumenten gekozen voor een bepaalde cesuur. 2) Nedelsky: De Nedelsky methode gaat ook uit van een absolute cesuurmethode, maar hierbij wordt de norm wel beargumenteerd vastgesteld. Nedelsky (1954) stelde voor om een student die een 5,5 zou halen in gedachten te nemen. Vervolgens worden de tentamenvragen door de ogen van deze student bekeken. Daarbij stel je jezelf de vraag: welke antwoordmogelijkheden zou een (hypothetische) 5,5 student kunnen wegstrepen en tussen welke antwoordmogelijkheden zou een 5,5 student twijfelen? Op basis van het aantal antwoordmogelijkheden dat niet wordt weggestreept door een 5,5 student kan de raadkans worden berekend. Bijvoorbeeld: wanneer van een 5,5 student verwacht wordt dat hij/zij een van de vier antwoordmogelijkheden kan wegstrepen is de raadkans 0.33, aangezien er drie mogelijke antwoorden over blijven. Door deze raadkans voor iedere vraag te berekenen vanuit het perspectief van de 5,5 student kan een beredeneerde cesuur worden bepaald. 3) Angoff: De cesuurmethode van Angoff (1971) is ook een manier om een beredeneerde absolute cesuur te bepalen. In plaats van het maken van een schatting van hoeveel antwoordmogelijkheden een 5,5 student kan wegstrepen, adviseert Angoff om per vraag te schatten welk percentage van een hypothetische groep 5,5 studenten de vraag goed beantwoordt. Door voor alle vragen de geschatte kansen op te tellen ontstaat een beredeneerde norm. 

HandOut1c  MCPLUS

 ontwerp‐ samenstelling & constructie – afname – scoren en analyseren‐ vaststellen van de uitslag  

 

3  

Relatief 4) Wijnen: De aanname van Wijnen (1971) was dat de moeilijkheidsgraad van een toets in een specifieke context onder specifieke condities alleen afgelezen kan worden aan de scores van studenten. De redenering achter deze cesuurmethode is dan ook dat studenten op basis daarvan beoordeeld moeten worden. In de praktijk betekent dat dat de gemiddelde score van de studenten als uitgangspunt wordt genomen. Deze gemiddelde score min twee standaardmeetfouten geeft een relatief beargumenteerde cesuur. Dit wordt ook wel grading on the curve genoemd.  Compromismethode 5) Cohen‐Schotanus: Het uitgangspunt bij de methode die is voorgesteld door Cohen‐Schotanus en collega’s (1996) is in principe een absolute cesuur met een relatief referentiepunt namelijk de groep beste studenten. In plaats van het nemen van de theoretisch hoogst haalbare score kan bijvoorbeeld uitgegaan worden van de daadwerkelijk hoogst behaalde score (met name bij grote groepen studenten). Ook kan er bijvoorbeeld gekeken worden naar het gemiddelde van de studenten die scoren in het 95e percentiel en hoger. In de score‐cijfer transformatieschaal van figuur zou dan bijvoorbeeld niet 100 als hoogste score worden opgenomen, maar 93 omdat dat de hoogst behaalde score was. (zie handout 5a Toetsanalyse) 

LiteratuurvoorverdiepingBerkel van, H., Bax A.&Joosten‐ten Brinke D. (2014). Toetsen in het hoger onderwijs. Houten: Bohn Satfleu van Loghum. Berkel van, H. Jansen E.,&Bax A. (2012). Studiesucces bevorderen: het kan en is niet moeilijk. Bewezen 

rendementsverbeteringen in het hoger onderwijs. Den Haag: Boom Lemma uitgevers  Dousma, T., Horsten, A. & Brants, J. (1997), Tentamineren. Groningen: Wolters‐Noordhoff 

GeraadpleegdeliteratuurAngoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thornike (Red.), Educational measurement (2de 

editie). Washington, DC: American Psychological Association. Berkel van, H. Jansen E.,&Bax A. (2012). Studiesucces bevorderen: het kan en is niet moeilijk. Bewezen 

rendementsverbeteringen in het hoger onderwijs. Den Haag: Boom Lemma uitgevers  Cohen‐Schotanus, J., Van der Vleuten, C. P. M., & Bender, W. (1996). Een betere cesuur bij tentamens. In Onderzoek van 

Onderwijs, 25, 54‐55. Dousma, T., Horsten, A. & Brants, J. (1997). Tentamineren. Groningen: Wolters‐Noordhoff Milius, J. (2007). Schriftelijk tentamineren; Een draaiboek voor docenten in het hoger onderwijs. Utrecht: IVLOS. Milius, J., Oost H.&Holleman W. (2002). Werken aan Academische vorming; Ideeën voor actiefleren in de 

onderwijspraktijk. Utrecht: IVLOS. Nedelsky, L. (1954). Absolute grading standards for objective tests. In Educational and Psychological Measurement, 14, 

3‐19. Wijnen, W. H. F. W. (1971). Onder of boven de maat; een methode voor het bepalen van de grens 

voldoende/onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger. 

HandOut 2a MCPLUS

ontwerp- samenstelling&constructie – afname –

scoren en analyseren- vaststellen van de uitslag

2aHetgenererenvanvragen  

IntroductieAls eenmaal duidelijk is hoeveel vragen en antwoordcategorieën nodig zijn, komt het maken van de vragen zelf. Soms is het lastig om te beginnen, om een eerste idee te genereren. Het kan dan behulpzaam zijn om buiten de kaders van het boek te denken, en diverse bronnen te raadplegen. Begin ook eens met een mindmap, samen met collega’s! En dan nog: voor het ene onderwerp is het soms gemakkelijker om veel vragen te maken dan voor een ander onderwerp, maar voor een representatieve toets zijn vragen nodig op alle gewenste onderdelen (toetsmatrijs, zie handout 1b).In deze handout gaat het nadrukkelijk om de eerste, creatieve fase. In handout 2b staan concrete tips voor het formuleren van vragen, dat is de volgende stap. Op deze handout staat de volgende vraag centraal: 

  Hoe begint het proces om interessante, leuke, uitdagende MC tot stand te brengen? 

 

HetprocesvanvragengenererenBrainstorm (Solo of met een collega) 

Start met het maken van een simpele mindmap waarin een overzicht wordt verkregen wat er allemaal te gebruiken is  en hoe dit gerelateerd is aan het onderwerp.  

Om welke inhoud gaat het hier?  

Wat zijn de relaties tussen en met andere onderwerpen?  

In welke situaties moet de student de kennis aan kunnen wenden/ toepassen?  

Hoe heeft de student de kennis / vaardigheid aangeleerd?  

Welke casuïstiek/opdrachten zijn daarbij gebruikt?  

Welke illustraties, voorbeelden, modellen, grafieken zijn gebruikt of geschikt? 

In welke situaties moet de student de kennis aanwenden?  

Etc..  

Put uit andere bronnen dan het boek 

Het formuleren van vragen is een kunde, een kunst én vergt dus creativiteit. 

Om de creativiteit en ideeënstroom op gang te brengen kunnen inspiratiebronnen helpen. Daarna en daarnaast is het zaak dat de vragen in lijn zijn met referentiemateriaal zoals leerdoelen, toetsmatrijs, studiehandleiding en reader of leerboek. Deze doen goed dienst als richtsnoer, maar niet als bron voor inspiratie ! 

 Gebruik ook eens de volgende inspiratiebronnen: 

In het onderwijs gebruikte voorbeelden 

Casus uit onderzoek, eigen beroepspraktijk, actualiteit  

Vragen van studenten(ingebrachte resultaten van opdrachten, ..) 

Vragen door studenten gemaakt  Vragen van anderen (opleiding, bij tekstboek..) 

 

HandOut 2a MCPLUS

ontwerp- samenstelling&constructie – afname –

scoren en analyseren- vaststellen van de uitslag

VerdiepingCase, S.M., & Swanson, D.B. (2001). Constructing written test questions for the basic and clinical 

sciences. Philadelphia (PA): National Board of Medical examiners (NBME), te downloaden vanaf http://www.medbev.umontreal.ca/gtea/NBME_MCQ.pdf.  

HandOut2b MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en analyseren- vaststellen

van de uitslag  

 

1  

2b HetformulerenvanMCvragenenalternatievenIntroductieNa het formuleren van een idee over wat er in de toets moet komen, worden vragen concreet geformuleerd, inclusief de alternatieven. Dat moet heel precies gebeuren, gebruik makend van de juiste werkwoorden bij de doelstelling van de toetsvraag. Hieronder staan tips en voorbeelden (in de tabel). Handout 2c geeft een controlelijst om te onderzoeken of  de vragen en antwoorden goed zijn geformuleerd. Voor het toetsen van hogere doelstellingen staat meer informatie in handout 2d.  

Ik vind de formulering van de meerkeuzevraag moeilijk. 

Wat voor soort woorden kan ik het beste gebruiken bij welk type leerdoel?  

Algemeneaandachtspunten• Houd de vraagstelling en de antwoordalternatieven kort.  

• Vermijd ontkenningen, omdat die de opdracht veelal onnodig complexer maken (je weet dan niet meer precies 

wat je wilde meten).  

• Scheid de informatie van de vraagstelling. Geef eerst eventueel benodigde informatie, stel dan de vraag. Maak 

onderscheid in het lettertype/lay‐out.  

• Stel de vraag eenduidig. Zorg dat de vraag maar voor één uitleg vatbaar is en geef gelijksoortige 

antwoordalternatieven die over dezelfde leerstof gaan. Een richtlijn is om de vraag zo te stellen dat de student 

zonder naar de antwoordalternatieven te kijken een antwoord kan formuleren.  

• Vraag één ding tegelijk. Als de student verschillende problemen moet oplossen of denkstappen moet maken om 

tot het juiste antwoord te komen, worden de goede denkstappen niet gehonoreerd, en de feedback naar de 

student is lastig specifiek te maken.  

• Zorg voor gelijkwaardige alternatieven naar inhoud en lengte. Vaak geldt dat het langste antwoordalternatief 

het juiste is, want het meest volledig geformuleerd.  

• Neem niet meer antwoordalternatieven dan zinvol is. Liever twee‐ of drie antwoordalternatieven dan uit alle 

macht een vierde zoeken die grappig bedoeld of onwaarschijnlijk is.  

• Verdeel de goede antwoorden gelijkelijk over de antwoordalternatieven. Het blijkt namelijk dat docenten 

geneigd zijn het goede antwoord het vaakst bij b of c te plaatsen. 

HogeredoelstellingenniveausbijMCvragenAandachtspunten voor het formuleren van meerkeuzevragen op een hoger doelstellingenniveau: 

•  Plaats de vraag in een realistische context of geef een gevalsbeschrijving (casus) die moet worden beoordeeld.  

•  Vraag naar oorzaakgevolg relaties, of effecten van een ingreep. 

•  Vraag de student modellen of theorieën met elkaar te vergelijken.  

•  Gebruik illustraties (onderzoeksresultaten, grafieken, tabellen) die de student moet interpreteren, of vraag het 

verwachte effect te beoordelen door verandering van een van de variabelen (“wordt groter/kleiner; blijft gelijk”). 

 

In de tabel hieronder worden tips voor de woordkeuze en enkele voorbeeldvragen gegeven. Deze tabel bouwt voort op 

de tabel in handout 1a. 

HandOut2b MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en analyseren- vaststellen van de uitslag  

 

2  

Tabel 1:  Doelstellingenniveaus, bijbehorende werkwoorden en voorbeelden 

Doelstellingniveau    Werkwoorden voor doelstelling en toetsvraag 

Voorbeelden  

Miller Bloom 

Knows

Weten  Benoemen, definiëren, identificeren, opsommen, selecteren, aanwijzen, beschrijven,.. 

Waar in het nephron vindt de actieve terugresorptie van NaCL plaats?  

Begrijpen  Ordenen, in eigen woorden uitleggen, toelichten, samenvatten, feitelijk vergelijken, schatten,.. 

Clarke en Dawson halen in de bespreking van formatieve en summatieve evaluaties het volgende citaat aan: “While a summative evaluator reports on a programme, a formative evaluator reports to a programme.” Wat leggen ze aan de hand van dit citaat uit? 

Knows How

Toepassen  Berekenen, bewijzen, demonstreren, gebruiken, relateren, transfereren, methodiek/model gebruiken, oorzaak‐gevolg, pro’s en con’s beschrijven/inschatten,.. 

Stel, in een TBS kliniek wordt een nieuwe leefstijltraining geïntroduceerd die de recidive van de gevangenen zou moeten terugdringen. Uit een evaluatie komen de volgende cijfers naar voren: [diverse cijfers die nodig zijn om de berekening uit te voeren] Hoe bereken je de coverage efficiency? 

Analyseren  Deduceren, interpreteren, verklaren, beredeneren, elimineren, illustreren, onderscheiden, toelichten, vergelijken, schetsten,.. 

Onderstaand zie je voorbeelden van druk‐volume curves van verschillende patiënten en een gezond persoon. [grafiek] Vul de aandoeningen in in de grafiek (en de gezonde persoon) die passen bij de getoonde curves van boven naar beneden. 

Shows How Student vertoont 

professioneel gedrag in gesimuleerde situaties, zoals gevraagd/vereist 

Evalueren  Waarderen, beoordelen, kritiseren, argumenteren, verdedigen, verklaren, rechtvaardigen, valideren.. 

Claartje Thijs  (College voor de Rechten van de Mens) vond een groot  verschil  in  de  ervaringen  van  discriminatie  tussen  twee opleidingen  aan  de  Haagse  Hogeschool.  Zowel  docenten  als studenten  van  de  opleiding  Maatschappelijk  Werk  en Dienstverlening  (MWD)  voelen  zich  vaker  gediscrimineerd  dan bij de opleiding Commerciële Economie (CE).  Hoe verklaar je de verschillen tussen de opleidingen?  

Synthetiseren en Creëren   Ontwerpen, maken, opstellen, herschrijven, samenstellen, rapporteren, concluderen, rechtvaardigen, valideren voorstellen, demonstreren.. 

In Clarke en Dawson wordt Weiss aangehaald voor de methode van reconstructie. Volgens Weiss kun je gebruik maken van ‘documents, people, prior research and logical reasoning’. Door ook 'people' als informatiebronnen te gebruiken: I. Ontstaat inzicht in de assumpties van verschillende 

betrokkenen (stakeholders) II. Kunnen betrokkenen onderbouwde en kritische 

opmerkingen plaatsen bij de theoretische concepten die 

HandOut2b MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en analyseren- vaststellen van de uitslag  

 

3  

onderzocht worden.  Welke van de bovenstaande twee stellingen zijn relevant bij de reconstructie van de beleidstheorie? 

Does  Student vertoont professioneel gedrag en functioneert als volwaardig vakge‐noot, ook als dat niet gevraagd wordt 

     

 

VerdiepingBerkel van, H., Bax A.&Joosten‐ten Brinke D. (2014). Toetsen in het hoger onderwijs. Houten: Bohn Satfleu van Loghum. 

Milius J.J., (2007). Schriftelijk tentamineren; een draaiboek voor docenten in het hoger onderwijs. Utrecht: IVLOS. 

HandOut2c MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren, Onderwijsadvies & Training

1

2cControlerenvandekwaliteitvandevragen 

 

IntroductieAls de eerste versie van de vragen en antwoorden is gemaakt (zie Handout 2b), dan is de volgende vraag of ze ook van de juiste kwaliteit zijn. In deze handout staat een lijst met kwaliteitskenmerken voor goede MC vragen en antwoorden. Het kan zijn dat de uitkomst is dat de kwaliteit nog onvoldoende is, dan is het nuttig handout 2b nog eens door te nemen. Het kan ook zijn dat het nodig is de vragen te herformuleren, om zo ook hogere doelstellingen te kunnen toetsen. Daarover staat meer informatie in handout 2d. Centraal in deze handout staat de vraag:   

Aan welke kwaliteitseisen moeten MC vragen voldoen?  

AlgemenekwaliteitscriteriaMCitems Box 1: belangrijke kwaliteitscriteria voor MC 

Op hoofdpunten 1. De vraag is relevant (doel‐gerelateerd) 2. Vraag is in context gesteld (inleiding/casus) 3. Bron is vermeld 4. Het op te lossen probleem is helder geformuleerd 5. De vraag is direct, kort en specifiek  6. Alternatieven zijn kort en gelijkwaardig  7. Niet meer alternatieven dan logisch 8. Geen clues: informatie van ene vraag is te gebruiken om andere vraag op te lossen 9. Vragen dekkend de inhoud naar niveau en moeilijkheidsgraad 10. Voldoende tijd?  

EenvoorbeeldigestructuurvaneenMCitem Een voorbeeldige MC‐structuur ziet er – kijkend door de wimpers – ongeveer zo uit:  Figuur 1: Voorbeeldige MC structuur 

         Vraag is ingeleid               Korte vraag 

      Korte  en (in lengte) 

gelijkwaardige alternatieven 

     

     

        Bron 

HandOut2c MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren Onderwijsadvies & Training

2

VoorbeeldigformulerenvaneenvraagenantwoordIn Figuur 2 is een voorbeeldig geformuleerd item te zien. Voorbeeldig, omdat het voldoet aan bepaalde kwaliteitscriteria.  Figuur 2: Een voorbeeldige formulering 

 Voorbeeldvraag  

 Terminologie  

1.1 Van een patiënt met een acuut coronair syndroom worden de bloedgaswaarden bepaald.  Wat zal de analyse naar waarschijnlijkheid te zien geven? 

a. Hypoxemie met een normale pH b. Metabolische acidose c. Metabolische alkalose d. Respiratoir alkalose e. Respiratoir acidose1 

 

 1Case, S. M., & Swanson, D. B. (2002). Constructing written test questions for the basic and clinical sciences. Philadelphia: National Board of 

Medical Examiners.  

Stam ◄ Inleiding 

Vraag Alternatieven ◄ Afleider  ◄ Afleider  ◄ Afleider ◄ Afleider ◄ Sleutel  Bronvermelding 

 

KwaliteitscriteriavooreenvoorbeeldigMCitemOmdat er veel verschillende soorten MC items bestaan, zullen onderstaande criteria niet altijd van toepassing zijn. Die kwaliteit slaat op de formulering van de vraag (A‐C), de alternatieven (D), het taalgebruik (E), het toepassen van beeldmateriaal (F) en de toets als geheel (G). Deze criteria zouden kunnen worden gebruikt voor een peer review van de toets of door de primaire constructeur.  

A. Inleiding op de vraag  1. De gegeven informatie is relevant  2. Is helder en ondubbelzinnig geformuleerd, in korte zinnen 3. De informatie is specifiek, waar relevant is de vindplaats (bron) vermeld 

 B. Casus / geval / situatie NB: houd rekening met de tijd voor het doorgronden van de casus 1. Zo kort als mogelijk, maar zo lang als nodig  2. Logische volgorde van benodigde gegevens  3. Informatie is niet geïnterpreteerd en dus ruw gepresenteerd (hogere doelen) 4. Tijds‐ en duuraanduidingen zijn concreet 

 C. De vraag 1. Is relevant: naar inhoud en niveau 2. Is direct: er is daadwerkelijk een vraag/probleem gesteld (vraagteken). 3. Is gericht op één leerstofelement  4. Is positief gesteld (ontkenning vermeden) 5. Is zo kort als mogelijk geformuleerd  6. Sluit inhoudelijk aan op de inleiding (casus) 7. Vergelijkbaar woordgebruik in stam en alternatieven is vermeden (clues) 8. Gevraagd wordt naar feiten (geen meningen)   

HandOut2c MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren Onderwijsadvies & Training

3

D. Alternatieven  1. Zijn zo kort als mogelijk geformuleerd 2. Zijn gelijkwaardig naar inhoud  3. Zijn gelijkwaardig naar lengte 4. Sluiten grammaticaal aan op de vraag/stam. 5. Overlappen elkaar niet  6. Zijn plausibel: de keuze vereist inhoudelijk relevante kennis   E. Formuleringen 1. Meest gangbare (Latijnse / Nederlandse / Engelse) terminologie gebruikt 2. Acroniemen zijn uitgeschreven als deze niet tot evidente kennis behoort  3. Gebruikt diagnostisch jargon behoort tot evidente kennis 4. Persoonsvorm (rol) is consequent gebruikt 5. Objectief en neutraal taalgebruik (i.t.t. populair, vriendschappelijk, discriminatoir)  F. Figuren, tabellen en grafieken 1. Tabellen, grafieken en figuren zijn voorzien van bronvermelding en ‐ waar relevant ‐ van een legenda 

(schaal).  

G. Algemene punten: de toets overall 1. Toetssamenstelling is conform toetsmatrijs 2. Het vraagniveau is in overeenstemming met  het doelniveau (Kennis, Inzicht, Toepassing) 3. De moeilijkheidsgraad is goed ingeschat 4. Het geheel aan vragen is voldoende gevarieerd naar niveau, aard, vorm, en moeilijkheidsgraad  5. Er is geen inhoudelijke overlap tussen vragen: geen clues in de ene vraag voor het beantwoorden van 

een andere 6. Kwaliteit (leesbaarheid) van gebruikte figuren en tabellen is voldoende 7. De toetsvragen zijn goed te maken in de beschikbare tijd. 

Verdieping Berkel van, H., Bax A.&Joosten‐ten Brinke D. (2014). Toetsen in het hoger onderwijs. Houten: Bohn Satfleu 

van Loghum. Milius, J. (2007). Schriftelijk tentamineren. Utrecht: IVLOS. Teelen, (2012). Toetsontwikkeling in de praktijk – Hoe maak je goede toetsvragen. Wilp: Teelen.   Ook op de toetssite van Geesteswetenschappen is veel interessante informatie te vinden, zie http://toetsing.hum.uu.nl/modules/multiple‐choice‐vragen/.  

 

HandOut 2d MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

 

1  

2dHogeredoelstellingentoetsenIntroductieVeelal wordt gedacht dat MC toetsen alleen geschikt is om kennis te toetsen, maar met enige creativiteit is het ook mogelijk hogere doelstellingen te toetsen: het toepassen, analyseren, evalueren en creëren. Natuurlijk geldt hier ook dat de ene leerstof zich daar gemakkelijker voor leent dan de andere. Het toetsen op niveau is  vooral van belang als deze doelstellingen niet op  een andere wijze worden getoetst in het vak, en uit de toetsmatrijs blijkt dat hier een hiaat in de toetsing zit t.o.v. de leerdoelen. In deze handout staat aangegeven hoe vragen die hogere doelstellingen toetsen, worden vormgegeven, oftewel:   

Hoe kun je vragen maken die niet alleen kennis toetsen, maar ook het toepassen, analyseren, evalueren en creëren? 

Hogerecognitieveniveaus:eenbouwplanVragen van een hoger cognitief doelniveau kennen over het algemeen een bouwplan dat start met het introduceren van een geval of probleem dat moet worden opgelost, of waar kennis kan worden toegepast. In de volgende figuur zijn opties voor het construeren van verschillende typen vragen van hoger niveau in beeld samengevat.  

     

HandOut 2d MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

 

2  

Hogerecognitieveniveaus:voorbeelden Vraag x: De mate van afgifte van geslachtshormonen verandert gedurende het leven van een vrouw. In onderstaand diagram is de totale concentratie FSH + LH per etmaal in de urine van een vrouw weergegeven. Vier perioden in haar leven zijn aan gegeven met P,Q,R en S.

 Gedurende welke van deze perioden is de concentratie van oestradiol in haar bloed gemiddeld het hoogst? A) In periode P B) In periode Q C) In periode R D) In periode S  Vraag y: (Uit: eindtoets neurofarmacologie 2004,Farmacie) Een drietal farmaca I, II en III zijn agonisten van de D2‐ en de D6‐receptoren. De werking is onderzocht op een tweetal celtypen, waarin deze twee receptortypen tot expressie zijn gebracht; activatie van de receptoren wordt gemeten door middel van het meten van de mobilisatie van intracellulair Ca++ (FURA2‐fluorescentie). De EC50‐waardes voor activatie van de D2‐ en de D6‐receptoren door I, II en III zijn de volgende: 

  cel met D2‐receptor  cel met D6‐receptor 

farmacon I  3,5 x 10‐8 M  7 x 10‐9 M farmacon II  7 x 10‐9 M  6,7 x 10‐10 M farmacon III  1,2 x 10‐10 M  9 x 10‐9 M 

 Welk farmacon heeft de grootste selectiviteit voor de D6‐receptor? A) farmacon I B) farmacon II C) farmacon III D) farmacon I en II zijn even selectief  Vraag z: (Uit: Midterm exam Pharmacology, UCU (2004). The concentration response curves of four different drugs are represented in the figure. Rank the drugs in order of decreasing intrinsic activity: A) 1 ‐  2 ‐ 3 ‐ 4    B) 2 ‐ 3 ‐ 4 ‐ 1  C) 1 ‐ 4 ‐ 3 ‐ 2  D) 4 ‐ 3 ‐ 2 ‐ 1   

HandOut 2d MCPLUS

ontwerp- samenstelling&constructie – afname – scoren en

analyseren- vaststellen van de uitslag

 

3  

  

Hogerecognitieveniveaus:technieken Hieronder staan drie technieken beschreven die men kan gebruiken bij het formuleren van hogere‐ordevragen:  Techniek 1: Vraag waar bestaande kennis in een nieuwe situatie moet worden toegepast 

o vragen naar hypothese/verwachting o oorzaak‐gevolgvragen o vervolgactie ; geïndiceerd beleid o vergelijkingsvragen (situaties, figuren) o verandering /toevoegen informatie: vragen naar verwachting / effect o interpretatievragen (figuren en tabellen) o .. 

 Techniek 2: Bij bovenstaande type vragen kan het helpen om niet bij de vraag te beginnen, maar bij de alternatieven.  In onderstaand voorbeeld is uitgegaan van gelijkwaardige alternatieven ……. ……. 

a) Wordt hoger/neemt toe/meer aannemelijk/waarschijnlijk b) Wordt lager/neemt af/ minder aannemelijk/ waarschijnlijk c) Blijft gelijk/ geen verschil 

Vervolgens gaat het erom relevante situaties te beschrijven waarin de student gevraagd wordt een effect/gevolg in te schatten (van een ingreep, extra informatie etc.).  Techniek 3: Variëren door het combineren van informatie  Een tweede patiënt/status wordt geïntroduceerd, een tweede afbeelding, etc. Combineren van informatie is te zien als een variant van techniek 1, waarbij de student de aangeboden –contrasterende‐ informatie moet, vergelijken, interpreteren en/of beoordelen.  

HandOut 3a MCPLUS

ontwerp- samenstelling & constructie –afname – scoren en analyseren-

vaststellen van de uitslag  

 

 

1  

3aAfnamevandeMCtoets IntroductieAls het tentamen klaar en gecontroleerd is, komt het moment van afname van de toets. Naast de gebruikelijke informatievoorziening, die in alle boekjes over tentamineren is terug te vinden, vraagt het afnemen van een MC toets speciale maatregelen. De mogelijkheden om af te kijken moeten worden geminimaliseerd, dat gebeurt door verschillende versies van de toets te maken.  

Hoe organiseer ik de afname van de toets? 

Hoe zorg ik er voor dat studenten niet afkijken?  

 AfnamevandeMCtoetsZorg dat er meerdere versies (liefst drie) van de tentamenopgaven zijn, waarbij dezelfde vragen in verschillende volgorde gesteld worden. Denk er uiteraard wel aan de nummering aan te passen, anders kunnen studenten alsnog de antwoorden afkijken. Zorg dat bovenaan het opgaven formulier staat welke versie het betreft.  Tabel 1: voorbeeld wisselen van de volgorde van tentamenvragen in verschillende versies   Versie A  Versie B Versie C 

Vraagvolgorde  (1‐20) (21‐40) (41‐60) (1‐20) (41‐60) (21‐40)  (21‐40) (1‐20) (41‐60)

 Organiseer de afname goed De wettelijke bevoegdheid voor de examinering is meestal in handen van een coördinator en/of voorzitter. Zij zien er dus op toe dat alles rond de afname goed is geregeld en dat de omstandigheden zo optimaal mogelijk zijn. Denk aan zaken als: • Alle faciliteiten zijn gereserveerd en productie van tentamenmaterialen is geregeld  • Tijdstip is met zorg gekozen en conflicteert niet met andere toetsen (timeslots) • Zaalcondities zijn optimaal. Denk aan: temperatuur, hinderlijk zonlicht, achtergrondlawaai, 

opstelling  • Studenten hebben voldoende tijd om de toets af te leggen  • Afkijken wordt voorkomen door meerdere versies aan te maken (die van elkaar verschillen in 

vraagvolgorde). Daarnaast is de coördinator verantwoordelijk voor adequate informatievoorziening naar de studenten toe. De eis van transparantie van een toets betekent dat de deelnemers niet voor verrassingen komen te staan. De toets vraagt geen nieuwe dingen van studenten, maar is congruent aan wat studenten voorafgaand aan de toets hebben kunnen leren (soort opdrachten, niveau van vraagstelling).   Studenten weten bovendien hoe ze zich het beste op de toets kunnen voorbereiden. Dit vergt een goede informatievoorziening.   A) In de studiegids: Algemene informatie over de toetsing In de studiegids kan de student informatie vinden over algemeen geldende regels ten aanzien van toetsen die de opleiding hanteert en wordt verwezen naar het examenreglement.  B) In het blokboek: Specifieke informatie over een de toets 

HandOut 3a MCPLUS

ontwerp- samenstelling & constructie –afname – scoren en analyseren-

vaststellen van de uitslag  

 

 

2  

De cursusbeschrijving in de studiegids, de studiehandleiding van de cursus en het rooster zijn de plaatsen om informatie op te nemen over waar en hoe laat de toets wordt afgenomen, hoe lang deze duurt, toetswijze, toetsvorm en beoordelingscriteria.  C) Op het tentamenvoorblad: Tentameninstructie bij schriftelijke toetsen Een voorbeeld tentameninstructie is hiernaast afgebeeld. Een groslijst van hetgeen zoal kan worden opgenomen staat in bijlage 11.  D) Mondeling in de tentamenzaal bij afname: De regels Mondeling bij aanvang van het tentamen worden de regels kenbaar gemaakt. Wanneer mogen kandidaten de zaal verlaten, hoe is toiletbezoek geregeld (om informatieuitwisseling te voorkomen), waarover mag de surveillant geraadpleegd worden, etc. 

 VerdiepingHogeschool van Amsterdam (2013). Toetsafname protocol digitale toetsen. Download via:

https://score.hva.nl/Bronnen/Toetsafname‐%20protocol‐Digitale‐toetsen‐juni‐2013.pdf 

HandOut 3b MCPLUS

ontwerp- samenstelling & constructie –afname – scoren en analyseren-

vaststellen van de uitslag  

 

 

1  

3bInstructieMC‐toets IntroductieHet voorblad van de toets bevat informatie die de student nodig heeft om de toets te maken. Het behelst naast feitelijke informatie over de toets zelf ook aanwijzingen voor het beantwoorden van de vragen. Dit is het instructieve deel van het voorblad. Daarnaast heeft het voorblad ook een min of meer ‘juridische status’ en geeft de studenten informatie over rechten en plichten bij de toets en de geldende regels tijdens de afname. De informatie van het voorblad strookt met de informatie die de studenten tevoren hebben gekregen tijdens de cursus. Bijvoorbeeld in de vorm van de studiehandleiding en uitleg en toelichting die mondeling is verstrekt door de docenten betrokken bij de cursus. Informatie over rechten, plichten en procedures bij de afname is overeenkomstig hetgeen in de OER hierover is vastgelegd. Deze handout geeft in een nutshell handvatten Welke informatie het voorblad bij de toets wordt opgenomen.  Eerst geven we een groslijst van alle mogelijke onderdelen waarover informatie kan worden verstrekt. Hieruit zal een keuze moeten worden gemaakt opdat de informatie beperkt blijft tot de essentie. Daarnaast is keuze van de toonzetting van belang. Wordt de student aangesproken met ‘U’, met ‘Je’ of is gekozen voor een neutrale formulering?  Een uitgewerkt voorbeeld zoals gebruikt bij de bacheloropleiding psychologie van FSW van de instructie vóor afname van de toets staat op de volgende pagina.  

 Hetvoorblad:GroslijsttoetsinstructieHieronder een groslijst van informatie waaruit een keuze moet worden gemaakt bij het opstellen van het tentamenvoorblad.  Algemene toetsinformatie Naam student Studentnummer: Handtekening: Tijdstip en duur van de toets. Naam van het vak/blok/docent. Onderdelen waar de toets uit bestaat Aantal vragen, aantal pagina's, bijlagen Antwoordvellen, eventuele keuzeonderdelen, kladpapier. Regels bij afname Hulpmiddelen/bronnen die niet/wel mogen geraadpleegd/gebruikt Stilte, GSM afzetten, Aanspreken van surveillanten Toiletbezoek Tijdsein Inleveren Wat mag worden meegenomen bij vertrek en wat moet ingeleverd/op tafel achtergelaten? © copyright? Vertrek: hoe kenbaar maken, wanneer? Antwoordinstructie Vermelden naam en studentnummer Verwijzing naar instructie schrapformulier

Instructie en uitleg over antwoordwijze Advies: Antwoordstrategie bij gebruik van gedwongen-raadsysteem Advies: Algemene aanwijzing waar en hoe te beginnen (eerst doornemen geheel; vragen maken waar je het antwoord op weet, daarna de rest.. etc.) Beoordelingswijze en voorlopige normstelling Hoe worden punten toegekend, in welke gevallen worden geen punten gegeven, wanneer aftrek van punten? Beoordelingscriteria, puntenverdeling over de onderdelen, indicatie voor een voldoende cijfer Uitslag: Wanneer, hoe en waar wordt uitslag bekend gemaakt Inzage tentamen, bespreking uitslag Hoe (tentamen inzage, tentamenbespreking), wanneer en waar Procedure in beroep gaan Hoe te handelen bij geschillen, aanteken van beroep Succes!

HandOut 3b MCPLUS

ontwerp- samenstelling & constructie –afname – scoren en analyseren-

vaststellen van de uitslag  

 

 

2  

VoorbeeldInstructieMC‐tentamensFSWBacheloropleidingpsychologie,majorverplichtVOORBEREIDING 

- Neem je collegekaart, ID‐bewijs en pen mee.  

- Op Blackboard staan evt. overige benodigdheden. 

- De surveillanten hebben géén reservespullen (zoals pen of rekenmachine) bij zich. 

- Check de zaalindeling op Blackboard, indien er meerdere tentamenzalen zijn.  En houd je aan deze zaalindeling!  

 

START VAN HET TENTAMEN 

- Max. 30 min. na aanvang mag je nog binnen komen. Daarna niet meer! 

- Bouw een marge in i.v.m. openbaar vervoer, e.d. 

- Telefoon e.d. uit, voordat je de tentamenzaal betreedt. 

- Studenten mogen onderling niet praten, ook niet bij binnenkomst of bij het verlaten van de zaal. 

- Blijf van alle papieren af, totdat de coördinator het startsein voor het tentamen heeft gegeven. 

- Bij een tentamen in een collegezaal: alle jassen en tassen voorin de zaal.  

TIJDENS HET TENTAMEN 

- De eerste 30 min. mag niemand weg. 

- Toiletbezoek is niet toegestaan. 

- Het is verboden iets anders op de tafel te hebben liggen dan de tentamenopgaven, pen, collegekaart (evt. rekenmachine, mits vooraf aangegeven) en iets kleins te eten/drinken.  

- Het is verboden zonder toestemming van de surveillant de plaats te verlaten. 

- De surveillant mag te allen tijde een student vragen ergens anders te gaan zitten.  

NA HET TENTAMEN 

- Check of je je naam, de versie en je studentnummer (m.n. de bolletjes!) goed hebt ingevuld, op zowel schrapformulier als tentamenboekje. 

- Controleer of je alle vragen hebt ingevuld. 

- Lever alle papieren (ook tentamenopgaven!) bij de surveillant vooraan in. 

- De surveillant tekent het tentamen af, op vertoon van jouw collegekaart en ID‐bewijs. Zonder collegekaart is het tentamen niet geldig.                       

- Neem het duplicaat mee, als bewijs van deelname. En bewaar dit duplicaat goed!‐ 

- Ook bij de inleverrij: niet praten! 

- Na het verlaten van de tentamenzaal niet praten in de buurt van de zaal, i.v.m. geluidsoverlast ín de tentamenzalen. 

- Schrijf thuis bij het nakijken van de antwoorden niet bij de bolletjes op het antwoordduplicaat, maar enkel in de (lege) kantlijn links. En schrijf niet met een potlood of zwarte pen, maar bijvoorbeeld met rood.   

- Controleer tijdig of je cijfer goed in Osiris staat. Informatie die op Blackboard staat of het cijfer dat je hebt berekend o.b.v. de antwoordsleutel is geen officieel cijfer. 

 

ZIEKMELDINGEN  bij Major Verplicht cursussen 

- Ziekmeldingen dienen vóór aanvang van het tentamen te worden gemeld bij de cursuscoördinator.  

- Bij twijfel heeft de coördinator het recht je door te verwijzen naar de procedure ‘bezwaren en verzoeken’. 

- Bij ziekmeldingen ná aanvang van het tentamen dien je direct de procedure ‘bezwaren en verzoeken’ te volgen.  

HandOut 4a MCPLUS

ontwerp- samenstelling & constructie – afname – scorenenanalyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren, Onderwijsadvies & Training

1

4aCesuurbepalen VragenZowel voor als na de afname moet de zak/slaaggrens, de cesuur, worden bepaald. Er zijn verschillende manieren om de cesuur te bepalen, ieder met voor‐ en nadelen. Een meer geavanceerde manier is de methode van Nedelsky, deze wordt hieronder bij verdieping gegeven.  

Hoe bepaal ik de beslissingsgrens voor zakken en slagen (de cesuur)?   

MogelijkeantwoordenEr zijn minimaal vijf manieren om de zak‐ /slaaggrens te bepalen  1. IJkpunt (5,5) bepalen door moeilijkheidsschatting vóóraf Controleer het tentamen op moeilijkheidsgraad en maak per vraag een schatting van de scores die een nèt voldoende student zou moeten kunnen halen. Het totaal van deze scores is een schatting voor de cesuur‐score (cijfer 5,5).  2. IJkpunt (cijfer 10) creëren door het tentamen te laten maken door een fictieve ‘uitmuntende student’. Een collega of studentassistent maakt het tentamen. De behaalde score wordt gelijkgesteld met de beheersingsgraad voor het cijfer 9 of 10. Laagste score = cijfer 1. Op basis van deze twee punten kan de cesuur‐score worden berekend door interpolatie.  3. IJkpunt (cijfer 10) wordt bepaald door de scores van de 5% best presterende studenten op het tentamen, gelijk te stellen met het cijfer 10.   4. IJkpunt op basis van gegevens voorgaand tentamen.  Cesuurscore wordt berekend aan de hand van scorepatronen op vergelijkbare of identieke vragen van eerdere afnamen.  5. IJkpunt voor een voldoende op basis van vooraf gestelde beheersingsgraad.  Is de vereiste beheersingsgraad voor een 5.5 bijvoorbeeld > 50% dan is (Scoremax * 50%) de cesuurscore. Vanwege vermeende raadkans bij meerkeuzevragen is de formule voor de cesuurscore:  (B * (N‐R)) + R. Waarbij B de beheersingsgraad; N het aantal vragen en R de raadkans voorstelt.  

VanscorenaarcijfersIs de cesuur bekend dan worden de cijfers berekend. Naast de cesuurscore (score voor een net (on)voldoende ) is een twee‐de toetsscore met cijfer nodig om de scores lineair te kunnen transfor‐meren naar cijfers. De meest gebruikte score is de maximaal te behalen score die het cijfer 10 geeft. En om de cijferklassen gelijk van grootte te laten zijn zou deze score meer precies het cijfer 10,54 moeten leveren.  

VerdiepingMethode Nedelsky (1975) 

HandOut 4a MCPLUS

ontwerp- samenstelling & constructie – afname – scorenenanalyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren, Onderwijsadvies & Training

2

Bij de methode Nedelsky wordt de moeilijkheidsgraad vertaald naar de norm voor een nèt voldoende (5,5).  In de tabel hieronder is een drietal mogelijke verdelingen in moeilijkheidsgraad weergegeven voor een toets bestaande uit 40 vier‐keuzevragen. De verdelingen komen alle overeen met een absoluut gestelde cesuur (grens voor zakken of slagen) van 25.  Drie niveaus in beheersingsgraad (c.q. moeilijkheidsgraad) zijn onderscheiden: ‘moeilijk, pittig, redelijk, en gemakkelijk’.  De toets zou idealiter nu zo moeten worden samengesteld dat de gemiddelde moeilijkheidsgraad over de afnames en jaren heen gelijk is en overeenkomt met een beredeneerde beheersingsgraad die van de nèt voldoende student wordt verwacht.   In onderstaande tabel zijn een viertal voorbeeld verdelingen naar moeilijkheid uitgewerkt. Vooronderstelling is dat de moeilijkheidsgraad gelijke tred houdt met de beheersingsgraad (Nedelsky). Er zijn in het voorbeeld 4 niveaus onderscheiden. Voor een iets grovere maat (eenvoudiger) zou ook een 3 tal niveaus volstaan.   Een vraag is: 

Gemakkelijk als van de net voldoende student wordt verwacht dat hij/zij de vraag weet. Voor deze vragen behaalt deze student één punt. 

Redelijk : de 5,5‐student kan twee alternatieven elimineren. De verwachte score: 0,5 punt (gelijk aan 50%  raadkans).  

Pittig: de 5,5 student moet éen alternatief kunnen elimineren. De bijbehorende score is dan 1/3e –punt.  

Moeilijk: vragen zijn naar verwachting te moeilijk voor een 5,5 student en daarom is de te verwachten score gelijk aan de raadkans: 0,25 punt.  De cesuurscore is nu de som van de toegemeten scorepunten. 

Voorbeeld: Toets 4‐keuzevragen 

“Gemakkelijk” Onderscheidt onvoldoende‐voldoende 

 

“Redelijk makkelijk” Onderscheidt voldoende‐ 

ruimvoldoende 

“Pittig” Onderscheidt ruimvoldoende 

van goed presteerders 

“Moeilijk” Onderscheidt  goed van  zeergoed 

presteerders 

 totaal 

 Verhouding (bijv): 

 35‐40% 

 20‐32% 

 22‐30% 

 10% 

 100% 

 Voorbeeldverdelingen (Bij 40 vragen) 

16/14/15  

8/13/12  12/9/9  4/4/4  40  

Beheersingsgraad ( 5,5 student) 

 100% 

 50% 

 33,3% 

 25% 

 

Beredeneerde score/vraag  

 1 

 1/2 

 1/3 

 1/4 

 

Beheersingsnorm voor voldoende (40 vragen) 

 16/14/15 punten 

 4/6.5/6 pt. 

 4/3/3 pt. 

 1 pt. 

 25 

Verwachte P’‐waarde (bij een slaag% van 75) 

1.00‐ 0.70  0.70‐0.50  0.50‐0.30  0.30‐0.10   

Cesuur: score voor 5,5 (Toetsservice COLUU: 25)  25 

  Cesuurscore zoals standaard berekend door Toetsservice van het Centrum voor Onderwijs en Leren (UU)  (Uitgaande van scoringssysteem ‘gedwongen raden’) Cesuurscore = Raadscore + [Beheersingsgraad* (aantal vragen – raadscore)]  

HandOut 4a MCPLUS

ontwerp- samenstelling & constructie – afname – scorenenanalyseren- vaststellen van de uitslag

Centrum voor Onderwijs en Leren, Onderwijsadvies & Training

3

Waarbij Beheersingsgraad ≥ 50%, en de raadscore =  Aantal vragen/aantal alternatieven: Cesuurscore = Raadscore + [0.50 * (aantal vragen – raadscore)]   Tabel 2: cesuurscores afhankelijk van aantal vragen en aantal alternatieven (volgens standaardmethode van het Centrum voor Onderwijs en Leren)  

  Aantal vragen

Aantal Alternatieven 

 20 

 25 

 30 

 35 

 40  45  50  55  60  65  70 

 75 

 80 

2  15,0  18,75 22,50  26,25  30,0 33,75 37,50 41,25 45,0 48,75 52,50  56,25  60,0 

3  13,33  16,67 20,0  23,33  26,67 30,0 33,33 36,67 40,0 43,33 46,67  50,0  53,33

4  12,5  15,63 18,75  21,88  25,0 28,13 31,25 34,38 37,5 40,63 43,75  46,88  50,0 

5  12  15  18  21  24 27 30 33 36 39 42  45  48 

 

MeerverdiepingDousma, T., Horsten, A. & Brants, J. (1997). Tentamineren. Groningen: Wolters‐Noordhoff Berkel van, H., Bax A.& Joosten‐ten Brinke D. (2014). Toetsen in het hoger onderwijs. Houten: 

Bohn Stafleu van Loghum. 

 

HandOut 5a MCPLUS

ontwerp - constructie – afname – beoordelen - evalueren

Centrum voor Onderwijs en Leren

Onderwijsadvies & Training

1

5a.Toetsanalyse IntroductieNa het afnemen van het tentamen en het analyseren van de scores komt het vaststellen van de uitslag. Dat gaat eerst globaal, daarna wordt een diepgaandere analyse uitgevoerd waarbij de kans bestaat dat er nog wijzigingen in de cesuur worden aangebracht. Dit is de laatste stap, voordat de resultaten naar de studenten kunnen worden gecommuniceerd (infosheet 5b). Centrale vragen in deze fase zijn: 

Hoe weet ik of het multiple choice tentamen goed was?  

Differentieert het tentamen voldoende? 

Is er voldoende variatie in moeilijkheidsgraad aangebracht? 

Hoe is het gesteld met de kwaliteit van de afzonderlijke vragen? 

Wat te doen als de resultaten tegenvallen de kwaliteit van de toets(vragen) onder de maat is? 

 

Hetvaststellenvandeuitslag Inleiding toetsanalyse Het doel van de toestsanalyse is enerzijds om aanwijzingen te vinden voor verbetering van de vragen. Daarnaast is het doel om bewijs te leveren voor de kwaliteit van de toets en de uitspraken die worden gedaan over de mate waarin de student de stof beheerst en of dit voldoende is. De statistische analyse geeft een indicatie of de toets betrouwbaar is: is de verwachting dat een student een zelfde resultaat behaalt bij een soortgelijke toets? De analyse geeft ook aan welke vragen mogelijk te moeilijk of te makkelijk waren, en welke vragen onderscheid weten te maken tussen goed‐, en minder goed presterende studenten. Deze informatie is aan de ene kant zinvol om de kwaliteit van de afzonderlijke vragen en de samenstelling van de toets  te optimaliseren (langere termijn effect, itembanking van kwalitatief goed gebleken vragen). Daarnaast kan de analyse aanleiding zijn om tot een beargumenteerde herwaardering van scores te komen (meerdere alternatieven goed rekenen, verwijderen van ‘slecht’ functionerende vragen, en eventueel de zak‐, slaaggrens te wijzigen voor deze toets (korte termijn effect, verantwoord beslissen op basis van deze toets). De analyse geeft antwoord op de volgende vragen: is de meting voldoende consistent, differentieert het tentamen en de vragen wel in voldoende mate, is er voldoende variatie in moeilijkheidsgraad aangebracht, is het aandeel inconsistente beslissingen verdedigbaar?  Een werkwijze kwaliteit screening toets van globaal naar analytisch: Vragen vooraf 1) Gaat het om een eerste afname of een aanvullende toets?  2) Aantal deelnemende studenten > 60?  3) Is bij studenten al iets bekend over de norm? 4) Is dit de enige toets waarop het eindcijfer wordt gebaseerd, of zijn er meer 

toetsen/opdrachten die meetellen?  Toelichting bij 1 en 2: De richtlijnen die verderop worden gegeven voor een goede en onderscheidende toets of een goede toetsvraag zijn direct afhankelijk van de samenstelling van de groep waar de toets bij is afgenomen. Dat kan nogal verschillen. We gaan er hier van uit dat de toets een selectieve functie heeft en dat het doel is de verschillen tussen studenten in beheersing van de leerstof zo nauwkeurig mogelijk in scores weer te geven. Maar, als er 

HandOut 5a MCPLUS

ontwerp - constructie – afname – beoordelen - evalueren

Centrum voor Onderwijs en Leren

Onderwijsadvies & Training

2

minder verschil is tussen de studenten (stofbeheersing) dan zal het onderscheid dat in de resultaten van de toetsanalyse wordt uitgedrukt in de diverse prameters naar verwachting ook niet groot zijn, de kwaliteit valt tegen. Wanneer je dus een kleine, of homogenere studentenpopulatie hebt dan zal naar verwachting de kwaliteit van de vragen lager zijn dan gedacht en ook de betrouwbaarheid overall lager uitvallen, dan gehoopt. Vragen die vooraf van belang zijn om de analyseresultaten op waarde te kunnen schatten zijn dan van belang. Toelichting bij 3: Zijn er al verwachtingen gewekt over de norm? Met het gebruiken van analyseresultaten om achteraf aanpassingen aan te brengen in de toets of cesuur is het van belang dat de aanpassing strookt met de informatie die vooraf aan studenten is beloofd, dan wel dat de aanpassing een gelijke of verbetering van de individuele studentprestatie tot gevolg heeft.  Toelichting bij 4: Bij de uitleg van de betekenis van de normen voor een optimale betrouwbaarheid, of vraagkwaliteit is ervan uitgegaan dat de beslissing over zakken en slagen geheel of voornamelijk op de uitslag van deze toets is gebaseerd. Meestal zijn er meer prestaties geleverd door de studenten op een gevarieerde mix aan toetsvormen. In die gevallen kunnen de gehanteerde normen naar rato worden bijgesteld.  De uitleg hieronder is gebaseerd op de toets‐ en itemanalyse en zoals die wordt uitgevoerd door de Toetsservice van het Centrum voor Onderwijs en Leren (COLUU).  

 Stap 1: De algemene indruk (tabblad: examanalysis report) a) Is het slaagpercentage conform verwachtingen? Zo ja, dan volstaat een Quick Scan (B1)!, 

Zo niet gaat verder met A1.  b) Is de betrouwbaarheid van de toets voldoende? Is het de enige toets waarop het 

cursusoordeel is gebaseerd?  A1) Bij een tegenvallend slaagpercentage (tabblad frequencies): Voor je meteen de diepte ingaat (inspectie vraagkwaliteit) is het verstandig om te kijken of een marginale aanpassing al zou kunnen leiden tot een grote stijging van het percentage geslaagden. Is dat het geval dan haalt dat veel druk van de ketel. Daarvoor zou je de volgende vragen kunnen stellen: Bij welke cesuur zou het slaagpercentage wel volgens verwachting (aanvaardbaar) zijn? Hoeveel scheelt dit met de gehanteerde cesuur, is met een kleine wijziging een groot effect te bewerkstelligen?  

 B1) Quick‐scan: Kwaliteit van de vragen (aanpassing voor opname in de itembank) 

 B2) Deep Scan: Maak gebruik van de uitleg in stap 2 de interpretatie van analyseresultaten 

1. Bij een laag slaagpercentage vooral gericht op (te) moeilijke vragen: P”‐waarde < 0.15 

2. Bij een laag slaagpercentage en een lage betrouwbaarheid: gericht op vragen met een (te) lage Rir‐waarde < 0.10 èn  P‐waarde die laag is. 

Zoek naar een afwijkend scorepatroon (altijd op basis van inhoudelijke argumenten!): 1. Bij negatieve Rir‐waarde: op zoek naar het alternatief met een positieve z‐waarde; 2. Bij een lage P”‐waarde: op zoek naar de aantrekkelijke afleider (veel gekozen en 

dus een relatief hoge f‐waarde (frequentie). In beide gevallen is de vraag of er niet iets te zeggen is voor het eveneens goed rekenen van dit alternatief, of zelfs alle alternatieven? Bij het beoordelen van de kwaliteit van de vragen is het goed om de betekenis van beide 

HandOut 5a MCPLUS

ontwerp - constructie – afname – beoordelen - evalueren

Centrum voor Onderwijs en Leren

Onderwijsadvies & Training

3

parameters juist te interpreteren. Het doel is zo tot eventueel verantwoorde maatregelen te komen.  Hieronder staat hoe je dat doet. 

Stap 2: Uitleg en interpretatie van analyseresultaten  Betrouwbaarheid: Coëfficiënt alfa (α)

Max: 1; Min: 0 

Streefwaarde: 0.6‐0.8  De coëfficiënt α is een maat voor de betrouwbaarheid van de toets. Hoe betrouwbaarder de toets des te nauwkeuriger de scores geïnterpreteerd kunnen worden. De coëfficiënt α kan maximaal 1 aannemen (volledig betrouwbaar) en minimaal de waarde 0 (volkomen onbetrouwbaar: scores zijn toevallig tot stand gekomen). Voor een toets wordt een α nagestreefd van 0.8 om toch in redelijke mate een uitspraak te kunnen doen over het kennisniveau van de student (high stake test). Is het de enige toets waarop het oordeel is gebaseerd, dan is de 0.8 norm het streven. Is de beslissing (geslaagd‐gezakt voor de cursus) mede gebaseerd op het resultaat van andere toetsen (open‐vragen, tussentoetsen dan is het een lagere betrouwbaarheid dan de gewenste 0.8, verdedigbaar. Regel is dat hoe langer de toets, des te beter de differentiatiegraad, en des te hoger de betrouwbaarheid.  De analyse van een herkansing is een geval apart en licht het in de rede dat de betrouwbaarheid lager uitvalt (0.4‐0.6) omdat de onderlinge verschillen in de populatie geringer zijn dan bij een eerste afname.   

Tabel 1: Percentages niet-consistente beslissingen als functie van afwijzingspercentage en toetsbetrouwbaarheid ( ).( 

Afwijzings% (gezakt)

Betrouwbaarheid () 0,50 0,60 0,70 0,80 0,90 0,95 1,00

5 8 7 6 5 4 3 0 10 14 12 11 9 6 4 0 15 18 17 14 12 8 6 0 20 23 20 17 14 10 7 0 25 26 23 20 16 11 8 0 30 29 25 22 18 12 9 0 35 31 27 23 19 13 9 0 40 32 29 24 20 14 10 0 45 33 29 25 20 14 10 0 50 33 30 25 20 14 10 0 Bron: Dousma, Horsten, Brants, 1997 

 Nauwkeurigheidsmarge : de Standaardmeetfout (sm)

Streefwaarde: Lager dan 10% van de maximumscore. De standaardmeetfout is een nauwkeurigheidsmaat en geeft aan wat de waarschijnlijkheid is dat gemeten scores overeenkomen met ‘feitelijke’ kennis bij studenten. De standaardmeetfout (Sm) is direct afhankelijk van de spreiding in toetsscores (SA )en de betrouwbaarheid (α)  {Sm=SA  (1‐α)}. Is de toets onbetrouwbaar dan kan aan de gemeten scores geen betekenis worden gehecht. Is de standaardmeetfout bijv. 2, dan betekent dit voor een student met een gemeten score van 13, dat hij/zij met 67 % zekerheid kennis heeft overeenkomend met een score van 13 + 2 = tussen de 11 en 15.  Moeilijkheidsgraad: de Proportie goed (P'-)waarde:

Max: 1; Min: ‐1 

HandOut 5a MCPLUS

ontwerp - constructie – afname – beoordelen - evalueren

Centrum voor Onderwijs en Leren

Onderwijsadvies & Training

4

Streefwaarde: hoger dan 0.10 Zowel de P‐ als de P'‐waarde geeft de moeilijkheidsgraad aan van een vraag. De P‐waarde is een relatieve maat, de P'‐waarde een absolute maat. Bijvoorbeeld een vraag heeft een P‐waarde van 0.5. Dat wil zeggen dat 50 % van de studenten het juiste alternatief gekozen. Op zich zegt dit nog niets. Want hoe dit getal te interpreteren is afhankelijk van het aantal alternatieven. Bij een 4‐keuzevraag zal de vraag scheidend zijn. Maar bij een 2‐keuzevraag komt het percentage overeen met de raadkans! De p'‐waarde is een gecorrigeerde p‐waarde voor raden en is een preciezere indicatie voor het deel van de studenten die het antwoord werkelijk wisten i.p.v. het goed hadden op de gok. De P” wordt alsvolgt berekend:  P”= P – {(1‐P):A‐1} Waarbij P staat voor Proportiegoed (het aandeel van de studenten die het goede antwoord hadden); 1‐P staat voor de Proportiefout (het aandeel van de studenten die voor een afleider kozen); en A‐1 staat voor het aantal afleiders (aantal alternatieven – 1). De redenering is vervolgens dat de P‐waarde gecorrigeerd moet worden met de proportie raders voor het goede alternatief, waarvoor de proportiefout per afleider de beste graadmeter is.   

Voorbeeld een vraag heeft een P‐waarde = 0.60 P” bij een 2 keuze vraag = 0.20. Want: 0.60 – (0.40:1)  P” bij een 3‐keuze vraag = 0.40. Want: 0.60 – (0.40:2), en P” bij een 4‐keuze vraag = 0.47. Want: 0.60 – (0.40:3). 

 Heeft neemt de p' een waarde aan van bijna 1, dan is de conclusie dat het een zeer gemakkelijke vraag was, en dus naar waarschijnlijkheid ook een weinig scheidende vraag is (scheidt alleen de 2‐en van de enen). Eveneens kun je dit zeggen bij extreem lage p'‐waarden: de vraag is zeer moeilijk en scheidt slechts de 1O‐en van de negens. Het gaat er natuurlijk niet om de enen van de tweeën en de tenen van de negens te scheiden. Maar juist om de 5‐en van de zessen te kunnen onderscheiden. Dit vraagt om een gevarieerd beeld  aan p‐waarden, waarvan alle waarden tussen 0.1 en 0.9 vertegenwoordigd zijn met een zwaartepunt bij vragen met een p'‐waarde van 0.5‐0.6.  Discriminerend vermogen: de Rir-waarde:

Max: 1; Min: ‐1 

Streefwaarde: positief, hoger dan 0.10 De P‐waarde geeft het aandeel weer van de studenten die de vraag goed hadden. De Rir‐waarde geeft aan in hoeverre de vraag de goede van de slechte studenten heeft gescheiden. Is de Rir hoog (0.3‐0.5) dan heeft de vraag zijn werk gedaan: de goede studenten hebben de vraag goed, en de slechte studenten kiezen voor een afleider. Wordt de Rir negatief dan kan er iets aan de hand zijn. Juist de goede studenten kiezen voor een afleider, terwijl de slechtere studenten voor het juiste alternatief hebben gekozen. Als de Rir negatief is betekent dit per definitie dat één van de afleiders positief correleert (een positieve z‐waarde). Gecontroleerd moet worden of er niet iets te zeggen valt voor die afleider, immers de best presterende studenten kiezen daar tenslotte voor.  Tabel 2: Interpretatie van mogelijke combinaties P’ en Rir‐waarden 

  Rir lager dan 0.1  Rir hoger dan 0.1 

P’ lager dan 0.1 

Sleutel correct? Detail? Vraagformulering eenduidig? Ander alternatief ook plausibel? 

Instinkerdje? Te moelijk / complex? 

 

P’ tussen 0.1  Ander alternatief ook waarschijnlijk  In orde 

HandOut 5a MCPLUS

ontwerp - constructie – afname – beoordelen - evalueren

Centrum voor Onderwijs en Leren

Onderwijsadvies & Training

5

en 0.8  (meerdere alt. goed rekenen)? 

P’ hoger dan 0.8 

Weggever (op te lossen met boerenverstand)? 

Behoeft geen actie  

  Frequenties: de f-waarde

Streefwaarde: gelijkelijk verdeeld over afleiders maar lager dan het juiste alternatief Onder de alternatieven staat een kolom met 'f'. Dit geeft het absoluut aantal studenten weer dat voor het betreffend alternatief heeft gekozen. Is de f‐waarde hoger dan het juiste alternatief, dan is deze afleider zeer aantrekkelijk geweest (misschien een instinkerdje?).   Discriminerend vermogen van alternatieven: de z-waarde

Max: zelden hoger dan 3; Min: zelden lager dan ‐3. 

Streefwaarde: positief voor juiste alternatief, negatief voor afleiders. De Z‐waarde geeft vergelijkbare informatie als de Rir. Alleen nu ook voor de afleiders (Rir alleen voor het juiste alternatief). De z‐waarde wordt uitgedrukt in standaardmeeteenheden. Naarmate het verschil tussen de z‐waarden op twee alternatieven groter is, des te waarschijn‐lijker dat deze alternatieven bijdragen aan een gemeten kennisverschil (verschil = 1, waarschijnlijkheid 67%; verschil 2, waarschijnlijkheid 95%).   “Open” In deze kolom is weergegeven hoeveel studenten betreffende vraag open hebben gelaten. Is dit veelvuldig het geval, dan was de instructie op dit punt onduidelijk. Het kan ook zijn dat tegen het eind van de toets er steeds vaker vragen onbeantwoord blijven. In dat geval is er mogelijk sprake van tijdgebrek.  

  

HandOut 5b MCPLUS

ontwerp- samenstelling & constructie – afname – scoren en analyseren-

vaststellenvandeuitslag Centrum voor Onderwijs en Leren Onderwijsadvies & Training

1

5bHandelennaanalyse IntroductieHet kan zijn dat uit de vorige stap (de analyse van de toets, handout 5a) blijkt dat een vraag niet voldoet aan de eisen die van te voren gesteld waren. Er zijn dan vijf verschillende handelingen mogelijk, die hieronder worden uiteengezet. Nadat de keuze is gemaakt voor een van vijf onderstaande mogelijkheden, en hiernaar gehandeld is, is de uitslag van het tentamen definitief. Bewaar de informatie uit de stappen 4 en 5, om volgend jaar de kwaliteit van de toets te kunnen verbeteren.  

Wat moet ik doen als uit de analyse blijkt dat de vraag niet klopt?  

HandelennaanalyseAls uit analyse achteraf blijkt dat een vraag niet voldoet aan de eisen dan moeten inhoudelijke motieven de doorslag geven om wijzigingen in het tentamen aan te brengen. Het gaat er tenslotte om dat de docent het goed of fout aan een student kan uitleggen en aannemelijk kan maken.   1) De docent houdt zich bij de oorspronkelijke antwoordsleutel De vraagstelling is correct en het correcte alternatief is eenduidig juist. Omdat de vraag om onduidelijke redenen zijn werk niet goed heeft gedaan kan de docent de vraag uit het vragenbestand verwijderen dan wel herformuleren tot een verbeterde versie.  2) De docent verwijdert de vraag uit het tentamen  Deze actie is alleen aan te raden als de vraagstelling zo dubieus is dat een keuze uit de alternatieven niet goed mogelijk is. Belangrijk probleem bij het laten vervallen van vragen is, ook al zijn de argumenten steekhoudend, dat studenten die de vraag wel goed hadden zich gedupeerd voelen.   3) De docent kent meer antwoorden goed  Op basis van de analyse wordt duidelijk voor welk alternatief de meeste en de beste studenten hebben gekozen. Als de docent van mening is dat voor een ander alternatief ook iets is te zeggen, dan wordt dit alternatief in de herberekening ook goed gerekend. Bij een ondeugdelijke vraagstelling kan de docent er zelfs voor kiezen alle antwoorden goed te rekenen. In vergelijking met methode 2, waar de studenten zich benadeeld zullen voelen, gaan de gemiddelde scores bij methode 3 omhoog en krijgt de student het voordeel van de twijfel.   4) De docent verlegt de zak‐, slaaggrens  Er zijn twee redenen om de norm voor een voldoende aan te passen (verlagen). 

Het tentamen was gewoonweg te moeilijk. Is het tentamen erg slecht gemaakt terwijl er geen reden is om aan te nemen dat de studenten zich minder goed hebben voorbereid, dan is het waarschijnlijk dat het tentamen te moeilijk was.  

Het tentamen was onvoldoende betrouwbaar. Is de betrouwbaarheid laag dan is het aandeel onterecht gezakten mogelijk onaanvaardbaar hoog. Door de norm te verlagen wordt het aantal onterecht gezakten tot aanvaardbare proporties teruggebracht. Je neemt daarmee wel voor lief dat het aantal onterecht geslaagden groter is ! 

  

HandOut 5b MCPLUS

ontwerp- samenstelling & constructie – afname – scoren en analyseren-

vaststellenvandeuitslag Centrum voor Onderwijs en Leren Onderwijsadvies & Training

2

 5) Een combinatie van methode 2 en 3 Als de samenstelling van het tentamen achteraf is veranderd (meerdere alternatieven goed, vervallen vragen) dan is het goed om te bekijken of de zak slaaggrens niet ook moet worden aangepast. Een tentamen waarvan een aantal vragen zijn komen te vervallen is korter geworden en behoeft een aanpassing in de cesuur en score‐cijfertransformatie. Maar ook als er meerdere antwoorden goed worden gerekend kan dit gevolgen hebben voor de cesuur. Bijvoorbeeld als er van x vragen alle antwoorden goed worden gerekend zal dit de raadkans verhogen waarmee de cesuur zal verschuiven naar een hogere score. De cesuur kan niet verhoogd worden als deze aan studenten al bekend was gemaakt. Verlagen, mag daarentegen altijd (dit zal immers niet tot protesten leiden).