Questionmark Perception: voortbouwen! VU...vragen, allen mc/4 afleiders en een aantal met grafisch...

Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 1

Questionmark Perception: voortbouwen!

EINDverslag Volgens FORMAT EMP PROJECTEN

VUmc i.s.m. Onderwijscentrum VU 2007-2008 Projectgroep QMP/ VUmc (IOO) EMP-project 2007-2008 Instituut voor onderwijs en opleiden VUmc (IOO): Gerard van den Bos, Karin Brouwer, Cor Camps, Willem van der Laarse, René Musters, Theo de Nijs, Marianne Schade, Maybritt Stal, Tanja van Wier. Onderwijscentrum VU: Silvester Draaijer, Rob van Leeuwen, Christoffel Reumer. Begeleidingscommissie: prof. dr. Rob Beelen, prof. dr. Henk Groenewegen, drs. Albert de Voogd. Gedelegeerd opdrachtgever: prof.dr. Fedde Scheele, directeur ad interim opleiding geneeskunde VUmc (IOO) Opdrachtgever: prof.dr. Wim Stalman, decaan, lid van de Raad van Bestuur van VUmc Opstellers eindverslag: Gerard van den Bos, instituut voor onderwijs en opleiden VUmc (IOO) Silvester Draaijer, Onderwijscentrum VU Marianne Schade, instituut voor onderwijs en opleiden VUmc (IOO) Versie 0.2 SDR Datum: oktober 2008


1 Samenvatting ..........................................................................................................3 1.1 Inleiding................................................................................................................3 1.2 Vragenbank ..........................................................................................................3 1.3 Alternatieve vraagvormen ....................................................................................3 1.4 Analyse.................................................................................................................3 1.5 Toekomst..............................................................................................................3

2 Uitvoering.................................................................................................................4 2.1 Toets- en itemanalyse software en methoden.....................................................4 2.2 Alternatieve vraagvormen ....................................................................................6 2.3 Itembanking .........................................................................................................7 2.4 Opbrengst van het project .................................................................................10 2.5 Naar de toekomst...............................................................................................11 2.6 Lessons learned..................................................................................................11

3 Referenties.............................................................................................................12

4 Bijlage 1 Evaluatie van RMS system en commentaar naar RMS ontwikkelaars ................................................................................................................13

5 Bijlage 2a Cookbook: Toetsanalyse ....................................................................

6 Bijlage 2b Cookbook: Score-cijfertransformatie ..............................................

7 Bijlage 3a Artikel Draaijer & van den Bos (2008)..............................................

8 Bijlage 3b Raadscore berekening van polytoom gescoorde vragen ....

9 Bijlage 4 Tentamineren met QMP: een ervaring (2008) ..................................

10 Bijlage 5 Codeboek QMP-vragenbank.............................................................


1 Samenvatting 1.1 Inleiding In de ICTO projectenronde 2004/2005 heeft VUmc (in het bijzonder het Onderwijsinstituut) samen met het Onderwijscentrum VU een start gemaakt met beeldschermtoetsing. Dit zowel binnen zowel het oude (C’91) als het nieuwe curriculum (VUmc-compas) van VUmc. Daarbij is gekozen voor de inzet van de toetsomgeving Questionmark Perception. Momenteel wordt dit systeem ingezet voor de Parate Kennis toetsen (PAK) van het VUmc-compas en voor bloktentamina (C’91) bij het blok Psychisch Functioneren, het blok Hart- en Bloedsomloop en het blok Nieren, Milieu en Interieur. 1.2 Vragenbank Één van de ideeën van het gebruik van Questionmark Perception is daarbij geweest dat met het systeem een database van toetsvragen opgezet kon worden waarin alle kennistoetsen van het VUmc-compas opgeslagen kunnen worden voor dossiervorming en op termijn voor hergebruik. Voor de vragen van de PAK’s is dit gerealiseerd, mede door de combinatie van oefen- en toetsfunctie van al het materiaal (+/- 600 items). Het project heeft verder geleid tot een indeling van de vragenbank en het vullen van deze vragenbank met de toetsvragen van alle cursustoetsvragen (de CAT, cursusafhankelijke toets) van semester 1 van jaar 1 van het curriculum (totaal +/ - 1200 vragen). 1.3 Alternatieve vraagvormen Daarnaast is een experiment uitgevoerd om vierkeuzevragen te kunnen vergelijken met alternatieve vraagvormen wat betreft scoring en slagingspercentages. Daarover is een artikel geschreven, alsook een uitgebreid intern verslag van een zeer ervaren vragenmaker en docent. 1.4 Analyse Tot slot is gebleken dat de psychometrische analyse die door Questionmark Perception wordt uitgevoerd op zich waardevolle gegevens oplevert, maar dat deze in praktische zin – in communicatie met docenten en examencommissie; leesbare uitdraaien, compact papiergebruik – voor verbetering vatbaar is. Ook is gewerkt aan het verder automatiseren van de toetsen itemanalyse met behulp van Questionmark Perception. Helaas is deze mate van automatiseren onvoldoende om werkzaamheden door de huidige functionarissen belast met toetsanalyse te laten uitvoeren. Hiervoor is een handleiding ontwikkeld. 1.5 Toekomst In het voorgestelde project is nader onderzocht en vastgelegd hoe deze aspecten aangepast en verbeterd zouden kunnen worden en resulteert aanbevelingen voor de langere termijn.


2 Uitvoering Het project heeft een drietal componenten gekend. Toets- en itemanalyse met QMP, Alternatieve vraagvormen en Itembanking. 2.1 Toets- en itemanalyse software en methoden 2.1.1 QM Results Management System In deelproject A is onderzocht hoe de Toetsanalysemodule van Questionmark Perception zo ingericht kan worden dat deze te gebruiken is door personen die weinig ingevoerd zijn in toetsen itemanalyse. In eerste aanleg is hiervoor de nieuwe analysemodule van Questionmark Perception onderzocht. Dit is het Results Management System (RMS).

Er is gebleken dat dit systeem voor het analyseren van de veelvoorkomende multiple -choicevragen heel geschikt is voor analyse. Er zijn echter een aantal voorlopig onoverkomelijk problemen.

• Het systeem vergt veel kennis van toetsen itemanalyse om het goed te kunnen gebruiken

• Het systeem heeft geen uitvoermogelijkheid zodanig dat er leesbare geprinte documenten beschikbaar komen die voor besprekingen geschikt zijn.

• Het systeem heeft geen score-cijfertransformatie mogelijkheid. Deze bewerking zou dan weer apart in bijv. MS-Excel moeten worden uitgevoerd.

In de bijlage 1 is extra informatie opgenomen over deze evaluatie van het systeem (mail naar QMP-ontwikkelaars).


2.1.2 QM Reporter Functies Er is door Onderwijscentrum VU een zodanige set van rapportage opties in QMP klaargezet zodat toch een zo eenvoudig mogelijk methode kan worden bewandeld voor een toetsen itemanalyse. Op de Questionmark Supportsite van de VU is inmiddels deze methode gepubliceerd als het Toetsanalyse Cook Book. https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Cookbook-Toetsanalyse%20v1.1.zip Zie ook bijlage 1 voor een geprinte versie. De methode is gedemonstreerd en besproken met Wim Reijm (ICT-coördinator opleiding geneeskunde) en Marianne Schade (pro j.leider) op 22 mei 2008. De aanwezigen waren onder de indruk van de kwaliteit van de procedure. Echter, bij herberekening van scores naar cijfers en aanpassing van vragen moet veel werk worden verricht in MS-Excel. Zij gaven aan dat deze werkzaamheden een te hoog niveau zouden vragen van de medewerkers die dit zouden moeten uitvoeren, zodat zij deze methode niet kunnen introduceren bij VUmc. 2.1.3 SIMAC software Tijdens het project bleek dat de SIMAC software nog steeds niet operationeel was. Een experiment me t data-uitvoer uit QMP en analyse met de SIMAC software heeft tijdens het project niet kunnen plaatsvinden. 2.1.4 Conclusie Op dit moment is de toetsen itemanalyse functionaliteit van QMP zodanig dat deze niet op grote schaal ingezet kan worden bij de opleid ing geneeskunde. De ontwikkelingen rondom de nieuwe functionaliteiten van QMP en aanverwante software zullen de komende twee jaren goed in de gaten moeten worden gehouden. Vervolgadviezen en experimenten zijn hiervoor noodzakelijk.


2.2 Alternatieve vraagvormen Het tweede deel van het project betrof het onderzoeken van de aard en eigenschappen van alternatieve vraagvormen. In eerste aanleg was in het project voorzien dat er cognitief psychologisch onderzoek verricht zou worden naar deze vraagtypen. Daarbij zouden deze vraagtypen aan proefpersonen worden aangeboden en zou op basis van ‘hardop denken’ protocollen, getracht worden om meer inzicht te verkrijgen in de denkprocessen die alternatieve vraagvormen zouden opleveren. Na nadere consultatie met experts (o.a. Prof. Lambert Schuwirth, toetsexpert medisch onderwijs, Universiteit Maastricht) is afgezien van dergelijke experimenten. In plaats daarvan heeft een beter uitvoerbaar experiment plaatsgevonden bij het hertentamen van het blok Voeding en Spijsvertering. In dat experiment is een vergelijking gemaakt van meerkeuzevragen en alternatieve vraagvormen op basis van de scores op deze vragen en de slagingspercentages. Hierover is een artikel geschreven door docent Gerard van den Bos en Silvester Draaijer (Onderwijscentrum VU) (Draaijer & Bos, 2008). Dit artikel is ingediend bij het Tijdschrift voor Medisch Onderwijs en de eerste versie daarvan is geaccepteerd. Op 3 oktober 2008 is dit weer geresubmit. Zie bijlage 2 (a en b) voor deze laatste versie. Deels aansluitend op dit artikel is bijgevoegd een meer persoonlijk verslag van Gerard van den Bos over zijn brede ervaringen met QMP. Dit verslag is voor de interne organisatie van belang en daarom hier opgenomen (zie bijlage 4). 2.2.1 Scoren van alternatieve vraagvormen Een belangrijke overweging bij het stellen van de cesuur van toetsen bij VUmc is het gebruikmaken van de raadscore op vragen. Op basis van verschillende gesprekken en werk van Onderwijscentrum VU zijn voor verschillende veelvoorkomende vraagvormen raadscoretabellen opgesteld. Het gaat om de Multiple Response vragen (MR) en een combinatie van Matching cq. Drag-and-Drop vragen. In het artikel van Draaijer en van den Bos wordt kort ingegaan op het berekenen van deze raadscores. Deze tabellen zijn online te vinden via: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Toetsanalyse In bijlage 3a staan ze ook opgenomen als print.


2.3 Itembanking Op basis van de ervaringen met de PAK-toets1 (die momenteel 557 vragen bevat) is er gewerkt aan het verder indelen van een toekomstige vragenbank. Er is uitgegaan van het opslaan van alle toetsvragen en toetsen van de CAT’s 2. Uit verschillende discussies is gedestilleerd hoe deze vragenbank ingedeeld moet worden. Er is uiteindelijk besloten om een eenvoudige indeling te maken waarbij de toetsvorm, vervolgens de specifieke cursus, het jaar van toetsafname , toets, hertoets of oefentoets, en de verantwoordelijk inhoudelijke docent, de belangrijkste kenmerken of metadata vormen. De discussie hieraan voorafgaand is zeer leerzaam geweest: het bleek na de steeds herhaalde oefeningen met het invoeren van een indeling , dat een conciese indeling, c.q. codering van de vragen het meest toegankelijk en bruikbaar bleek. Met name de zoekfunctie naar woorden in de tekst van de vragen bleek, althans voorlopig, een indeling in allerlei concepten onnodig te maken. De deelnemers aan de discussie waren zowel medewerkers van afdeling toetsbeheer als docenten en verantwoordelijke coördinatoren van een cursus of semester. Er is besloten om alle CAT-vragen van het 1e semester van het eerste jaar , vanaf de start van het nieuwe curriculum in september 2005, in ieder geval in de vragenbank te plaatsen (nadat zij via het staande proces zijn ontwikkeld buiten QMP om) . Door het toewijzen van specifieke tijd en taken aan Karin Brouwer, managementassistent van de semestercoördinator van het betreffende semester, en een student-assistent, is het gelukt om deze CAT-vragen in QMP op te nemen. Daar moet bij worden opgemerkt dat nog enige nazorg is vereist om vragen die uit het eerste gebruik gebleken niet voldeden te oormerken of alsnog te verwijderen. De vragenbank bevat nu ongeveer 1200 CAT-vragen, allen mc/4 afleiders en een aantal met grafisch materiaal erbij. Zie verder de figuren hierna die laten zien hoe de codering in QMP er uit ziet.

De ontsluiting voor docenten is zodanig dat zij via een paar eenvoudige hyperlinks alle vragen van een bepaalde cursus als geheel of alleen van zichzelf van meerdere cursussen, op kunnen vragen (zie figuur hieronder). Ze kunnen dan voor nieuw samen te stellen toetsen zich goed oriënteren op wat ze al eerder gevraagd hebben. Dit bleek steeds meer een noodzaak gezien de grote hoeveelheid Word-bestanden die inmiddels in het centrale toetsbeheerdossier staan en waarvan lang niet iedere docent een volledig beeld heeft. Ook kan de docent door middel van knippen en plakken vragen uit QMP 1 PAK (Parate Kennistoets) wordt door de organisatie 32 maal per jaar aangeboden. De student maakt de toets per Ba-studiejaar 9 - 12 keer. 2 CAT (Cursus Afhankelijke Toets); deze toetsen worden na afsluiting van de cursussen in de Bachelorfase afgenomen, na 3 tot 6 weken steeds, bevatten 50 mc/4 afleiders vragen, met een jaartotaal voor de organisatie van 56 toetsen.


aanpassen en opnieuw insturen naar de afdeling toetsbeheer. Op termijn ligt het in de bedoeling om tot hergebruik van vragen uit QMP over te gaan. Hoewel de voorraad groeit is dit punt nog niet bereikt. Momenteel bevat de CAT-vragenbank precies 1179 vragen.


Op dit moment wordt onderzocht hoe deze w erkwijze bevalt bij de betreffende docenten. De eerste resultaten zijn positief. Tot slot: de vragenbank in QMP bevat ook een set vragen van het C’91, dat afgebouwd wordt. Dit zijn vragen van diverse blokken, in totaal 958. Een deel daarvan bevat veel grafisch materiaal en alternatieve vraagvormen en een klein deel bevat vragen met daarbij korte filmfragmenten met geluid van o.a. gesprekken tussen patiënt en arts. Ergo: de totale digitale vragenbank van VUmc bevat 2694 vragen.


2.4 Opbrengst van het project De opbrengst van het project is dat er een start is gemaakt met het systematisch opslaan en ontsluiten van de door VUmc ontwikkelde toetsvragen. Deze toetsvragen zijn nu eenvoudig doorzoekbaar voor docenten, coördinatoren en medewerkers van de afdeling toetsbeheer. Dit biedt een uitstekende basis voor toekomstige toetsontwikkeling en hergebruik. Daarnaast is meer zicht verkregen op de kansen en problemen met betrekking tot toetsen itemanalyse met Questionmark Perception en alternatieve vraagvormen. Helaas zijn er niet eenduidige conclusies te trekken op dit terrein, maar zijn ook geen onomkeerbare stappen genomen die later tot grote problemen zullen leiden. Voor de PAK-toetsen is de itemanalyse nog steeds zeer eenduidig in termen van juist/onjuist, dus een dichotome scoring. Een meer complexere scoring van alternatieve vraagvormen b.v. met weging, is in de directe toekomst op grote schaal nog niet haalbaar. Hoewel momenteel alle CAT-vragen worden ingevoerd in QMP, is de afname voorlopig nog via papier en blijft de klassieke analyse via leesformulieren de meest bruikbare methode voor snelle en overzichtelijke analyses. Maar veel meer is al duidelijk zodat gericht verder ontwikkeld kan worden. Een belangrijke spin-off van dit project (en van de tevens de al ruim drie jaren bestaande PAK-toets aanbieding via beeldscherm, dus QMP) is de volgende: beeldschermtoetsing van de kennistoetsen wordt voortgezet in de nieuwe Masterfase die in september gestart is. Daartoe heeft die afdeling een projectplan opgesteld. De functioneel beheerder van QMP en de QMP specialist (Cor Camps) zijn inmiddels samen met deze afdeling aan de slag om QMP zo functioneel en organisatorisch in te richten dat tot systematische toetsing van de stagestudenten in Masterjaar 1 kan worden overgegaan. Op dit moment worden daarbij de specifieke wensen voor vraagvormen onderzocht op uitvoerbaarheid in QMP. er wordt gebruik gemaakt van reeds ontwikkelde toetstechniek en sinds lang bestaande toetsexpertise betreffende de comp lexe klinische vraagstukken. Op termijn is afname elders mogelijk daar QMP een internetapplicatie is.


2.5 Naar de toekomst Er is een start gemaakt met het systematisch opslaan van toetsvragen. In het kader van het EMP project is dit nu op pilot-basis uitgevoerd. Op dit moment wordt vorm gegeven aan de continuïteit van dit initiatief. Daartoe is het van belang dat de rol en functie van toetsvragenbeheerder officieel wordt vormgegeven en dat daar voldoende capaciteit aan wordt toegekend. De verwachting is dat daar een ordegrootte van 0,3 FTE voor nodig is. Voor een deel kan deze rol mogelijk belegd worden in de huidige functioneel beheerder van Questionmark Perception voor VUmc (dhr. Theo de Nijs). Wij denken echter dat voor het systematisch invoeren en controleren van toetsvragen en toetsen aanvullende specialistische capaciteit nodig is. In de startfase wordt tevens gebruik gemaakt van getrainde studentassistenten om de grote reservevoorraad vragen in QMP te plaatsen. Doel is dit het komend studiejaar (2008/2009) de complete vragenbank gevuld te krijgen, alsook de nieuwe toetsen daarin standaard te laten opnemen. Er zijn verschillende mogelijkheden om de werkwijzen voor het ontwikkelen, samenstellen, printen en analyseren van toetsen op VUmc te verbeteren en uit te breiden. Concrete acties die nodig /mogelijk zijn op VUmc zijn de volgende:

• Daadwerkelijke implementeren van SIMAC toetsanalyse software voor pen-en-papier toetsing

• Pro-actief participeren en aandringen bij de VU en VUmc o m een grootschalige digitale toetsvoorziening te realiseren (toetszaal) ; zonodig partners zoeken bij de UVA en/of AMC.

• Uitbreiden van beeldschermtoetsing naar alle kennistoetsen. • Verder experimenteren met alternatieve vraagvormen • Verder in elkaar schuiven van toetsvraagontwikkelingsproces met Questionmark

Perception als opslagmedium, uitvoermedium en zo mogelijk toetsen itemanalyse tool. Daartoe heeft Onderwijscentrum VU inmiddels de Print-and-Scan functie van QMP gelicenseerd en kan VUmc pilots uitvoeren.

Op basis van de door VUmc ontwikkelde beeldschermtoetsen zijn inmiddels een zeer rijke hoeveelheden alternatieve toetsvragen ontwikkeld. Deze vormen een prachtige bron van inspiratie. Om deze kennis bij de docenten van VUmc te laten leven, stromen en tot verdere ontwikkeling te komen is systematisch aandacht voor toetsen in het algemeen, en digitale toetsing in het bijzonder, nodig. Een actieve benadering van docenten, studiedagen en het ontsluiten van goed voorbeeldmateriaal kan helpen om het bewustzijn bij het docentencorps te doen toenemen. 2.6 Lessons learned Een belangrijke ‘lesson le arned’ in het project is dat er beter met minder meta -data gewerkt kan worden dan met meer. Daar zijn een aantal redenen voor te noemen.

1. Questionmark Perception is in staat om allerlei meta-data aan vragen te koppelen, maar is slecht in het kunnen benutten van deze meta-data. De interface en de zoekmogelijkheden zijn beperkt. Minder meta-data maakt dat het zoeken, vinden en ordenen van informatie minder goed mogelijk is (helaas).

2. Het toevoegen van meta-data aan toetsvragen is zeer complex. Per vraag moet er zeer zorgvuldig gekeken worden naar tal van aspecten van zo’n vraag. Dit kost veel tijd en energie. De kans is erg groot dat deze tijd niet beschikbaar is. Dat kan leiden tot een slecht uitgevoerd proces van meta-dateren. Dat resulteert weer in een slechte vragenbank die niet gebruikt gaat worden. Adagium:


‘garbage in–garbage out’. Minder meta-data, maar gegarandeerd van kwaliteit , is dan sterk te prefereren.

Dan blijken de analyse-mogelijkheden en -onmogelijkheden met QMP complexer dan aanvankelijk verwacht. Hiervoor moet tijd en inspanning gereserveerd worden om tot bevredigende oplossingen te komen. Voorlopig is een eenvoudige dichotome scoring van meer complexe vragen, zoals in de PAK, aangewezen.

Een ander belangrijk punt is dat het invoeren, beheren, redigeren en ontsluiten van toetsvragen om aparte capaciteit vraagt. Dit geldt zowel voor de benodigde expertise (Questionmark en ICT-kennis, organisatiekennis) als de benodigde hoeveelheid tij d. In het project is op projectbasis tijd gemaakt. Het is gebleken dat invoer en ontsluiting dan ook relatief snel gerealiseerd kan zijn. Indien deze expertise en tijd niet expliciet wordt aangewezen, dan zal het verder opbouwen en gebruiken van een vragenbank niet slagen. 3 Referenties Draaijer, S., & Bos, G. C. v. d. (2008). Tentamens met de computer: een vergelijking van meerkeuze en alternatieve vraagvormen. Tijdschrift voor Medisch Onderwijs .(resubmitted) Hols -Elders, W., Bloemendaal, P., Schade, M.I., Verdoes,S. (2008). The practice of computerbased assessment in medical education. Praag, International Association of Medical Education


4 Bijlage 1 Evaluatie van RMS system en commentaar naar

RMS ontwikkelaars Van: Silvester Draaijer Verzonden: vr 21-12-2007 6:51 Aan: [email protected] CC: [email protected]; Christoffel Reumer; [email protected]; [email protected] Onderwerp: Questionmark Results Management System (RMS) - beta evaluation Dear QM developers, I'm pleased to be able to participate in de beta testing program of the new add-on to Questionmark Results Management System (RMS ). Due to limited time and our migration to a new hardware environment and migration from v4.3 to v4.4 we are not able to test the add-on in a live situation. So we do not provide you with technical feedback. However, on the basis of the documentation I could establish a fair view on the functionality of the product. Below you find suggestions and comments about them and the report function of QM in general. I think that in general the functionality that is developed is a worthwhile addition to QM (actually, I would say that it had to be there already from the start). It is not so much the function to move data to a separate database and storing of (still semi-dynamic) reports though. I'll explain below. In Higher Education in the Netherlands in general, Support Staff are looking for ways to be very effective in the process of Test- and Question Analysis, the discussion of and adjustment of the Test and Questions (quite specifically dropping questions from a test, changing scoring rules, changing cut-off scores, calculation grades on the basis of percentage scores etc), and the final storage of scores (in the form of documents) and Formal grading of students. A system that supports that process can be very valuable. In QM however, this is not very effectively supported. Support Staff have to work with several reports and a lot with MS-Excel to get the data and output that is required. This is a cause of possible faults and is very time consuming as well requiring quite a lot of knowledge. So, for the Question and Test Analysis, we are looking for ONE Report function that provides our Staff with the following information (based on Classical Test Analysis): Initial Analysis Descriptive statistics of the Test (number of questions, number of students, max score, min score, average score, Standards Deviation, Variance, Reliablilty etc.). Graphic and tabular representation of score distribution Question Statistics for each question. When MC-questions are used, the Rit and discrimination values of both correct and incorrect answers also given in one table (not the very badly manageable, manipulable Item Analysis Report - please provide in the system more simple tabular representation or for example graphical representations such as item option diagrams). The RMS options to color questions that have low correlation values is a very nice option* .

s.draaijer4 Bijlage 1 Evaluatie van RMS system en commentaar naarRMS ontwikkelaars


Based on a cut-off score and score-to-grade rules that must be able to be set by the staff: percentage and numbers of students below and above the cut-off score a histogram showing clearly numbers or percentage of students below the cut-off score a score-to-grade calculated table, listing students and grades achieved. The score-to-grade calculation should be based on the following rules:

• Staff must be able to choose between a number of 10 grading schema (0, 1, 2, ..10) or another schema (A, B, C ...)

• Staff must be able to set the guess-score or minimum score: a grade of 0 or 1 must result in the table

• Staff must be able to set the top-score (max score or 100% score): a grade of 10 must result in the table

• Staff must be able to set the grade at the cut-off score: a grade of 5.5 or 6 • The system must calculate the grades for all students based on these rules.

The system must output one file (PDF, Word, Excel) that contains all that information for easy printing or simple manipulation. If desired I can mail a document with an example output (but then MS -DOS text based - yet, all information is there). Evaluation of Initial Analysis After the production of this report, Staff and SMEs discuss the quality of the test and individual questions and decide on which questions to drop, what is to be a better cut-off score. They perform some new calculations by dropping some questions or re-assign scores to individual questions. They use the same report functionality (described above) to see what happens with the Reliability of the Test and ESPECIALLY change in percentage of students below or above the cut-off score line. Final Analysis and Formal grading After these calculations have been carried out, the final report is drawn up and archived. The final grades (not scores) or to be passed on the other staff in the institution that deal with the formal entering of grades in central grading systems of the Institution. In short:

• I think you will agree that a lot of function in QM's report functions perform parts of the tasks that I describe (Test Analysis Report, Assessment Overview Report, Question Statistics Report, Item Analysis Report, Excel Report) but are poorly integrated causing in a time consuming and unreliable process for repeated Test and Question analysis purposes (we need to work in a highly productive way analysis more than 500 test each year).

• The score-to-grade functionality is totally missing in QM • The options to drop questions or reassign score per question and recalculate the

Test are very good functions to add to QM - however not particularly in a separate add-on function

So, actually we are not very keen to license the RMS system because it only perfo rms a small bit of the functions we actually want to have (maybe we have to because besides


working in Excel there is no alternative). We are much more interested in ONE new report functionality as I have described. I sincerely hope that QM is willing to think about the suggestions I make in this email. We sure want to contribute to the improvement of QM. Very kind regards, and best wishes for the new year, Silvester Draaijer * And if SME's start to use other than MC questions (which they do), a whole new world of techniques to determine acceptable levels of difficulty or measures for discrimination and correlation are necessary. I want to point you towards information in Haladyna, T. M. (2004). Developing and Validating Multiple -Choice Test Items (Third Edition ed.). London: Lawrence Erlbaum Associates. And if we really want to move forward to using IRT techniques to deliver computer adaptive test, QM has a long way to go. --------------------------------- ir. Silvester Draaijer Onderwijscentrum VU Amsterdam Centre for Educational Training, Assessment and Research (CETAR) Vrije Universiteit Amsterdam De Boelelaan 1105 1081 HV Amsterdam +31-(0)20-5985479 HYPERLINK "mailto:[email protected]"[email protected]


5 Bijlage 2a Cookbook: Toetsanalyse

s.draaijer5 Bijlage 2a Cookbook: Toetsanalyse

Procedure QMP4

Cookbook Toetsanalyse

Versie 1.1 tbv Questionmark Perception v4.4 SP1

(concept)

Cookbook Toetsanalyse gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “Template Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”

Onderwijscentrum VU

© mei 2008

Cookbook Toetsanalyse QMP VU v1.1

© Onderwijscentrum VU 2008 2

INHOUDSOPGAVE

1 Inloggen in Questionmark Perception en opstart van documenten________3

2 Algemene toetsgegevens: histogrammen en betrouwbaarheid___________3

3 Scorelijst maken________________________________________________10

4 Kwaliteitsanalyse van de vragen___________________________________18

5 Aanpassen van scores en verwijderen van vragen uit de scorelijst ______24

6 Bijlage 1: oplossen van downloadproblemen Excel Rapport ____________29

7 Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier __29



1 Inloggen in Questionmark Perception en opstart van documenten

Ga naar http://e-toets.vu.nl/em4/login.asp Log in met het verstrekte wachtwoord en inlognaam.

1.1 Open het word-template document “Template Tentamenanalyse v1.0.doc” en geef het

een naam zoals: Toets- en itemanalyse tentamen …… 1.2 Open het Excel-template document “Template Tentamenanalyse v1.0.xls” en geef het

een naam zoals Toets- en itemanalyse tentamen …… 1.3 Ga naar de Enterprise Reporter

2 Algemene toetsgegevens: histogrammen en betrouwbaarheid 2.1 Ga naar Assessment Overview Report



2.2 Gebruik het getoonde report template: VU_Quick_View_tbv_tent_analyse en gebruik het

filter VU_tbv_tent_filter (dit filter zorgt ervoor dat scores onder de 20% niet meegenomen worden)

2.3 Selecteer het juiste tentamen door via de knop naar het juiste tentamen te zoeken.

2.4 Zoek via Search, Display All of via het tabblad Advanced het juiste tentamen.

2.5 Gebruik de knoppen en om het bedoelde tentamen te verplaatsen naar het rechterdeel van het selectiescherm.

2.6 Klik op als het juiste tentamen is geselecteerd in het rechterdeel. In het overzichtsscherm staat nu het juiste tentamen (in onderstaand voorbeeld: VUmc_PF_jan2008).



2.7 Klik op of selecteer de tabbladen om evt. de juiste groep of juiste afname data en tijden te bepalen. Bij een regulier tentamen hoeft hier echter in het algemeen niets ingesteld te worden.

2.8 Klik op

2.9 Maak een schermafdruk van deze webpagina en plak deze in het Word document.



2.10 Bereken van de betrouwbaarheid gaat als volgt 2.11 Ga naar Test Analysis Report

2.12 Klik op ‘create new’

2.13 Klik op Find Assessments

2.14 Klik op de gewenste toets



2.15 Selecteer de optie Browser (HTML)

Ga met de Next knop naar de volgende filters of klik op de tabbladen. Kies in ieder geval bij het tabblad More Options de volgende setting.



2.16 Klik op 2.16.1 Geef het rapport een naam.

2.16.2 De browser vraagt nu evt. om het document te bekijken of op te slaan. Als het document geopend

wordt met MS-Word kies dan voor de volgende indeling: Gecombineerd webpaginabestand.

2.17 Kopieer de gegevens over de Test reliability (Cronbach’s Alph) in het word document.



2.18 Geef een advies over de betrouwbaarheid als volgt Cronbach alpha: < 0,6: Toets is onbetrouwbaar Cronbach alpha: 0,6 – 0,7: De toets is matig betrouwbaar Cronbach alpha: 0,7 – 0,8: De toets voldoende betrouwbaar Cronbach alpha: > 0,8: De toets heeft een goede betrouwbaarheid



3 Scorelijst maken 3.1 Ga naar de optie Export for Excel in het Reporter hoofdmenu

3.2 Selecteer opnieuw de juiste toets met de Select assessment -knop zoals in stap 2.3. en gebruik als report template: VU_scorelijst_tbv_tent, maar zet het filter alleen op “Do not use filter” (zodat geen enkele student wordt overgeslagen).

OPMERKING 1

In het scherm worden maar een beperkt aantal toetsen getoond. Gebruik om alle toetsen te kunnen zien.

3.3 Klik op . 3.4 Het rapport kan nu geopend worden of opgeslagen.



OPMERKING 2

Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Zie dan bij Hoofdstuk 6 Bijlage 1: oplossen van downloadproblemen Excel Rapport om te bekijken hoe dat opgelost kan worden. 3.5 Open het Excel document.



3.6 Verwijder eventueel de rijen waarin onzin uitslagen staan (bijvoorbeeld de antwoorden

van de toetsontwikkelaar tijdens het testen van de toets).



3.7 Indien nodig: Converteer de scores van tekst naar getal opdat er met de cijfers gerekend

kan worden.

3.8 Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in

Excel. 3.8.1 Vraag aan de docent welke score in punten welk cijfer moet opleveren

• Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten)

• Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).

Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten.



Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten:

• het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten) • het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder

51 pt).

In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078). 3.8.2 Reken voor elke student met de gegeven formule het cijfer uit

• Voeg daarvoor eerst een lege kolom in in de scorelijst

• Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ • Voeg de berekeningsformule toe en klik enter.



• Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.

• Klik en sleep de gemaakte formule nu over de gehele kolom.



3.9 Bepaal het aantal studenten dat geslaagd is 3.9.1 Voer via het Excel template de volgende gegevens in onder de scores van de studenten.

Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: = dan 32). De cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden.



cesuur 32 punten aantal studenten < cesuur 15 aantal studenten >= cesuur 22 Totaal aantal studenten 37

3.10 Selecteer tot slot de kolommen met de uitslag en het aantal gezakten/geslaagden en

kopieer deze naar het Word document.



4 Kwaliteitsanalyse van de vragen 4.1 Ga in het Reporter hoofdmenu en kies daar voor Question Statistics Report.

4.2 Kies weer de juiste toets en gebruik report template “VU_Quick_tbv_tent_analyse”

4.3 Klik op .



4.4 Selecteer de tabel en kopieer deze. Plak deze in het Word document. 4.4.1 Verwijder de rare opmaak door te kiezen voor Tabel à Tabeleigenschappen …



4.4.2 Selecteer vervolgens voor Randen en Arcering …



4.4.3 Verwijder alle arceringsopmaak van de cellen

4.4.4 Voeg eventueel weer toe dat alle celgrenzen zichtbaar worden via het knoppenbalk menu.



4.4.5 Voeg onder de vraaganalyse de volgende tekst bij o vragen met lage/hoge Difficulty (0,85) en uitgesproken negatieve Correlation-waarden (0,2,



Figuur 2 Kengetallen van één specifieke vraag. Het correcte antwoord is aangegeven door de outcome waarij een asterisk staat (*). Duidelijk is te zien dat veel studenten voor het verkeerde alternatief gekozen hebben (81%). Dat verklaart de negatieve Rit waarde bij deze vraag. Het was waarschijnlijk ook te verwachten dat deze vraag niet goed zou zijn gezien het laatste alternatief van de vraag waarin staat dat ‘bovenstaande alternatieven zijn allemaal correct’. Deze vraag moet gereviseerd worden.

4.4.5.1 Het rapport is nu klaar en kan verzonden worden



5 Aanpassen van scores en verwijderen van vragen uit de scorelijst

Nadat het rapport is geanalyseerd en besproken door de docenten en anderen, kunnen er een aantal vervolgacties nodig zijn:

• Een aantal vragen dienen te vervallen • Bij een aantal vragen moeten meerdere alternatieven goed gerekend worden of een ander

alternatief In beide gevallen moeten de totaalscores op basis daarvan aangepast worden en moet opnieuw een cijfer worden toegekend op basis daarvan. 5.1 Laten vervallen van vragen Open het Excel bestand dat gemaakt is in stap 3



Scorelijst maken. We gaan het volgende doen:

1. We voegen een extra kolom in waarin de score berekend wordt op basis van de score van elke vraag

2. We verwijderen de kolom waarin de vraag staat die we willen verwijderen. 5.1.1 Extra kolom invoegen om score te laten berekenen

5.1.2 Geef de kolom een titel

5.1.3 Voeg een berekeningsformule in de alle scores sommeert: =SOM(L4;4). (bij een

Engelstalige versie van MS-Excel is deze formule SUM)

5.1.4 Klik en sleep de formule over de gehele kolom

s.draaijer

s.draaijer

s.draaijer



5.1.5 Verwijder de kolom die de score op de vraag bevat die verwijderd moet worden. In dit voorbeeld

gaat het om vraag ‘Question 2’ met description ‘VUmc_PF_jan2008_001’. De score wordt nu automatisch voor iedereen herberekend.



Pas nu het cijfer aan door de kolom die het cijfer berekend aan te passen. Let op: er moet mogelijk op basis van een nieuwe cesuur een berekening worden gepleegd. Zie daarvoor stap 3.8 Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in Excel. 5.2 Aanpassen van de score van vragen Het kan zo zijn dat er bij vragen meerdere alternatieven correct worden gerekend of dat er andere alternatieven correct zijn. We gaan als volgt te werk.

1. We downloaden een nieuwe Excel bestand met scores maar daarin staan de scores en de gegeven antwoorden van de studenten.

2. We passen de scores op specifieke vragen aan 3. We herberekenen de scores zoals gedaan in stap 5.1 Extra kolom invoegen om score te laten

berekenen. 5.2.1 Voer stap 3 Scorelijst maken opnieuw uit, maar kies nu voor template

VU_score_and_answer_tbv_tent



Elke kolom bevat nu zowel het gegeven antwoord als de score. U kunt een functie toevoegen in de kolom met ‘Actual Score’. Een voorbeeld daarvan is onderstaande

De ingevoegde formule is: =ALS(OF(J7="probleemgedrag";J7="een syndroom");1;0) (Engelse MS-Excel: =IF(OR J7="probleemgedrag";J7="een syndroom");1;0) Dit betekent zoveel als: als de waarde in de cel J7 de waarde heeft “probleemgedrag” OF de waarde in de cel J7 heeft de waarde “een syndroom”, dan wordt de score gezet op “1”. In alle andere gevallen wordt de score “0”. Met de functie ‘automatisch aanvullen’ kan een dergelijke formule (nadat deze goed is geformuleerd) op de waarden van een gehele kolom worden toegepast. 5.2.2 Overnemen van scores naar de oorspronkelijke scorelijst Nadat de scores op deze wijze zijn herberekend kunnen ze via knippen en plakken naar de oorspronkelijke scorelijst worden gekopieerd (let wel op evt. verwijderde rijen uit eerdere handelingen in de scorelijst). 5.2.3 Herbereken de scores zoals gedaan in stap 5.1.1 Extra kolom invoegen om score te laten

berekenen



6 Bijlage 1: oplossen van downloadproblemen Excel Rapport Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Belangrijk is dat de volgende settings in de browser goed staan: • Pop-up blokkering van Internet Explorer staat uit (in ieder geval voor vu -acc.qmark.nl en vu.qmark.nl • Pop-up blokkering van bijvoorbeeld de Google toolbar staat ook uit (in ieder geval voor vu-acc.qmark.nl

en vuem.qmark.nl • Vu-acc.qmark.nl en vuem.qmark.nl moeten door Internet Explorer aangemerkt worden als trusted site

1. Kies in IE voor Extraà Internet Opties…à 2. Kiest tabblad Security en kies daarin Trusted Sited. Klik dan op de knop Sites.

3. Voeg dan http://vuem.qmark.nl toe en http://vu.qmark.nl.

4. Bevestig alles. • Internet Explorer moet toestaan dat downloads via een site mogen worden gedaan.

1. Ga in IE naar >> Tools >> Internet Options >> Security. 2. Klik op 'Trusted Sites' en vervolgens op 'Custom level...' 3. Zoek naar het kopje 'Downloads' en zet 'Automatic prompting for file downloads' op 'Enable'

Mochten er dan nog problemen optreden, mail dan even naar [email protected].

7 Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier



7.1 Voer de gevraagde gegevens in zoals weergegeven in de figuur hieronder in het template Excel document.

Kopieer de cellen met de berekening en plak deze in het Word document.


6 Bijlage 2b Cookbook: Score-cijfertransformatie

s.draaijer6 Bijlage 2b Cookbook: Score-cijfertransformatie

Procedure QMP4

Cookbook Score-cijfertransformatie

Versie 1.1 tbv Questionmark Perception v4.4 SP1

(concept)

Cookbook score-cijfertransformatie gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “Template Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”

Onderwijscentrum VU

© mei 2008

Quickstart Tentamenanalyse VU v1.0

© Onderwijscentrum VU 2

INHOUDSOPGAVE 1.1 Bereken op basis van de scores het bijbehorende cijfer via onderstaande

stappen in Excel. Grafisch gezien wordt er gebruik gemaakt van het verband zoals in onderstaande figuur is weergegeven. De totale raadkans van het tentamen bestond uit de raadscore van de meerkeuzevragen (0,25 punt per vraag) Het geven van cijfers aan studenten vindt plaats op basis van de behaalde score, verdisconteert met de raadscore. Zo wordt het cijfer 1,0 toegekend aan studenten die de raadscore behalen, en het cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuurscore (bijv. 5,5) ligt halverwege de raadscore en de maximale score. Deze methode van score-cijfertransformatie wordt veel toegepast in het Hoger Onderwijs (Dousma, Horsten, & Brants, 1997 blz. 164).

Figuur 1 Het verband tussen de score op een toets en het bijbehorende cijfer.

1.1.1 Vraag aan de docent welke score in punten welk cijfer moet opleveren

• Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten)

• Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).

Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten.

Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten:

• het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten)

raadscore

cijfer

1

5,5

10

maximale score

cesuurscore



• het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder 51 pt).

In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078). 1.1.2 Reken voor elke student met de gegeven formule het cijfer uit

• Voeg daarvoor eerst een lege kolom in in de scorelijst

• Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ • Voeg de berekeningsformule toe en klik enter.

• Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.

s.draaijer

s.draaijer

s.draaijer



• Klik en sleep de gemaakte formule nu over de gehele kolom.



1.2 Bepaal het aantal studenten dat geslaagd is 1.2.1 Voer via het Excel template de volgende gegevens in onder de scores van de

studenten.

Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: = dan 32). De



cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden. cesuur 32 punten aantal studenten < cesuur 15 aantal studenten >= cesuur 22 Totaal aantal studenten 37 Dousma, T., Horsten, A., & Brants, J. (1997). Tentamineren (derde druk ed. Vol. 3): Wolters -

Noordhoff.


7 Bijlage 3a Artikel Draaijer & van den Bos (2008)

s.draaijer7 Bijlage 3a Artikel Draaijer & van den Bos (2008)

-1-

Titel: Tentamens met de computer: een vergelijking van meerkeuze en alternatieve

vraagvormen

S. Draaijer (Onderwijscentrum VU, Vrije Universiteit Amsterdam, [email protected]) en G.C.

van den Bos (VU medisch centrum Amsterdam, [email protected])

Samenvatting

In het medisch onderwijs wordt meer en meer gebruik gemaakt van beeldschermtoetsing en

alternatieve vraagvormen. In een speciaal geprepareerd beeldschermtentamen werden traditionele

meerkeuzevragen en alternatieve vraagvormen aan studenten voorgelegd om deze voor wat

betreft scores en slaagpercentages met elkaar te kunnen vergelijken. De meerkeuzevragen

dienden tevens als referentie. Voor het tentamen werden drie alternatieve vraagvormen toegepast:

Drag-and-dropvragen, Multiple Response vragen en Matchingvragen. De slaaggrens werd

bepaald volgens het model waarbij de studenten de helft van het aantal punten moeten scoren

nadat correctie voor scoring op basis van de raadkans heeft plaatsgevonden. Deze methode wordt

op grote schaal gebruikt in het Hoger Onderwijs. De resultaten laten zien dat de alternatieve

vraagvormen vele mogelijkheden bieden en scores opleveren die dezelfde ordegrootte hebben als

meerkeuzevragen. De alternatieve vraagvormen resulteren echter wel in verschillende

slaagpercentages.

Summary

In medical education, the use of on-screen examination and new question types is increasing. In

an experiment, traditional multiple choice questions and new question types were presented to

students, in order to compare these question types with respect to scores and pass rates. The

multiple choice questions served as base-line. In the exam, three new question types were used:

drag-and-drop questions, multiple response questions and matching questions. The cut-scores

were set according to the linear model for score-to-grade transformation adapted on the basis of

the guess score. This method is common practice in Higher Education in the Netherlands. The

results of the experiment show that the new question types reliably assess medical knowledge and

that their scores can vary but are comparable to multiple choice questions. The new question

types lead to considerable different pass rates however.

-2-

Inleiding

In het geneeskunde onderwijs worden, ondanks een enorme toename van het gebruik van digitale

leeromgevingen, weinig tentamens afgenomen via het beeldscherm. Dat heeft ten eerste een

logistieke oorzaak: de meeste instellingen beschikken niet over zalen met voldoende computers

voor alle examinandi. Een tweede reden is waarschijnlijk onbekendheid met de mogelijkheden

van moderne toetsprogramma’s om andere dan de klassieke meerkeuze vragen te genereren, zoals

vragen waarbij de student begrippen of tekens moet verslepen naar locaties in een gepresenteerde

figuur. Uit de literatuur is betrekkelijk weinig bekend over het gebruik van dergelijke alternatieve

vraagvormen 1, 2. Aanwijzingen voor het ontwikkelen van dergelijke vragen, in dit artikel

“alternatieve vraagvormen” genoemd, worden beschreven door bijvoorbeeld Draaijer en Hartog 3,

4. Met betrekking tot alle vraagvormen geldt echter dat het bij de student opgeroepen denkproces

meer wordt bepaald door de stimulus van de vraag (wat er gevraagd wordt) dan door de

responsvorm zoals meerkeuze, juist/onjuist of essay 5. Wel kan de motivatie van de lerende

verhoogd worden door attractieve vormgeving en interactie 6, 7. Verder is bekend dat polytoom

gescoorde vragen (waarbij de student 0, 1, 2 etc. punten per vraag kan scoren) ten opzichte van

dichotoom gescoorde vragen (waarbij de student slechts 0 of 1 punt kan scoren), betere vraag-

toetscorrelaties hebben, maar meer tijd kosten om te beantwoorden 8. Verder blijkt dat het

bepalen van goede scoringsvoorschriften voor alternatieve vraagvormen niet eenvoudig is 9, 10.

Ter voorbereiding op de invoering van beeldschermtoetsing worden in het VUmc, sinds twee

jaar, de herkansingen van de cursussen Bioregulatie, Hart en bloedsomloop, en Nier en milieu

interieur, alle uit het tweede studiejaar van het aflopende Curriculum ’91, afgenomen met behulp

van het programma Questionmark Perception (QMP). Dat programma ondersteunt een groot

aantal vraagvormen via het beeldscherm.

In dit onderzoek gingen wij na of door alternatieve vraagvormen het slagingspercentage

verandert, en zo ja, hoe.

Methoden

Wij voerden ons experiment uit met de tweede herkansing van het derdejaarstentamen Voeding

en Spijsvertering, waarin de vakgebieden Celbiologie (3), Medische Chemie (10), Fysiologie

(12), Pathologie (10), Kindergeneeskunde (10), Heelkunde (10) en Maag/darm/leverziekten (23)

betrokken zijn (getallen tussen haakjes: aantal vragen). Het tentamen bestond uit 56 vierkeuze- en

-3-

22 alternatieve vragen. De vierkeuze- en alternatieve vragen waren evenredig per onderwerp

verdeeld.

Aan het tentamen namen 70 studenten deel. Op grond van eerdere ervaringen met

beeldschermtoetsing en de mogelijkheid om desnoods alleen van de 56 vierkeuze vragen gebruik

te maken voor becijfering, werd dit experiment verantwoord geacht.

Het voorgaande reguliere tentamen, en de daaropvolgende eerste herkansing, werden afgenomen

met 75 vierkeuze vragen. In het huidige tentamen (de tweede herkansing) werden de uitkomsten

van de 56 vierkeuze vragen gebruikt als referentie: op basis van die vragen kon bepaald worden

of de alternatieve vraagvormen leiden tot hogere scores en hoe dit invloed heeft op het

slaagpercentage.

Naast de meerkeuzevragen kozen wij als alternatieve vragen:

1 Drag-and-dropvragen (DrandDr) waarbij studenten een aantal begrippen of symbolen

moeten verslepen naar rechthoeken in een gegeven figuur, of naar een flowdiagram

(aantal te verslepen termen 1 of meer groter dan het aantal rechthoeken of het aantal open

plaatsen in het diagram om de onderlinge afhankelijkheid van de antwoordopties te

verkleinen).

2 Matchingvragen (Match) waarbij een aantal begrippen uit één kolom op de juiste wijze

moet worden gecombineerd met de begrippen in een tweede kolom (aantal begrippen in

de tweede kolom 1 of meer groter dan dat in de eerste om de onderlinge afhankelijkheid

van de antwoordopties te verkleinen).

3 Multiple Response vragen (MR) waarin meer dan één keuze juist is.

Deze vragen worden ook vaak meer-uit-meervragen genoemd.

Het gekozen scoringsmodel is zo dat:

• er per correct gekozen alternatief 1 punt wordt gegeven;

• er per gekozen afleider 0 punten worden gegeven;

• er vooraf bekend wordt gemaakt aan de student hoeveel juiste keuzes er zijn. Dit

laatste wordt gedaan om de onzekerheid omtrent de wijze van beantwoorden te

verkleinen.

De figuren 1, 2, 3 en 4 zijn voorbeelden van respectievelijk DrandDr (Fig. 1, 2) , een Match (Fig.

3) en een MR vraag (Fig. 4).

Figuur 1

-4-

Completeer onderstaande figuur van het zuur secreterende mechanisme van de pariëtale (=

wand-) cel door 6 van de bijgevoegde termen te verschuiven naar de juist rechthoek in de figuur

NB. ca: carbo-anhydrase; bedenk dat van de rechthoeken naast de H+, de bovenste een ion

betreft en de onderste een proces in de pomp.

Correcte antwoord

Een DrandDr vraag waarbij 6 begrippen naar een basisfiguur moeten worden versleept (en er 1 afleider is: cAMP)

Figuur 2

U ziet hieronder een diagram over de gevolgen van maldigestie (gestoorde vertering).

Completeer het diagram door het verslepen van een aantal bijgevoegde begrippen naar de juiste

posities.

-5-

Correcte antwoord

Een DrandDr vraag waarbij een redenering met 4 begrippen moet worden gecompleteerd (er zijn dus ook 4 afleiders).

Figuur 3

-6-

Correcte antwoord

Een Match vraag waarbij 8 begrippen in de rechterkolom ieder met een bijbehorend begrip uit de linkerkolom

gecombineerd moeten worden (en er is 1 afleider: verhoogde ratio HDL/LDL)

-7-

Figuur 4

Correcte antwoord

Een MR vraag waarbij de 3 juiste alternatieven aangevinkt moeten worden (op beeldscherm is de volgorde van

alternatieven gerandomiseerd).

Vier weken voor de tentamendatum stond de studenten een oefententamen (inclusief

oefenvoorbeelden van de alternatieve vragen) ter beschikking met beredeneerde en naar de

studiestof verwijzende antwoorden.

De vierkeuzevragen werden gemaakt door de vakdocenten; voor de alternatieve vragen gaven

deze docenten ook aan wat zij wilden vragen, waarna hun voorstellen door een QMP-deskundige

werden omgezet in het bedoelde QMP-format. De eindredactie van alle, ook de alternatieve

vragen, lag bij de blokvoorzitter. De alternatieve vraagtypen werden polytoom gescoord: elke

goede keuze in een vraag (bijvoorbeeld het selecteren van een goed alternatief uit een MR vraag),

leverde de student 1 punt op. Voor dit scoringsmodel is gekozen omdat daarbij elke goede keuze

beloond wordt, wat door de studenten als meest redelijk wordt ervaren.

De gebruikte methode van score-cijfertransformatie is die op basis van een lineair verband met

verdiscontering van de raadscore. De raadscore wordt daarbij gedefinieerd als de verwachte score

bij het volledig random beantwoorden van vragen.

-8-

In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten

(p(qi)), maal het betreffende aantal punten (qi). In formulevorm: qraad = S(p(qi)*qi).

De raadscore van een vierkeuze multiple choice vraag is daarmee gelijk aan

qraad_4mc=p(0)*0+p(1)*1=0,75*0+0,25*1=0,25=25%. Bij toetsvragen die polytoom gescoord

worden is het iets moeilijker om een dergelijke raadscore te bereken. Voor bijvoorbeeld een MR

vraag met 5 opties waarbij drie opties correct zijn volgens het scoringsmodel zoals gegeven op

blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3=

0*0+4/10*1+5/10*2+1/10*3=1,70 punten.

Voor Match vragen (waarbij elke te kiezen optie éénmaal gekozen mag worden) geldt een relatief

eenvoudige berekening waarbij geldt dat de kansscore gelijk is aan de kans per optie om at

random gekozen te worden maal het aantal vragen: qr=aantal_vragen*(1/aantal opties). Voor

bijvoorbeeld een Match vraag met 5 vragen en 6 opties is de kans qraad 5-6_Match=5*1/6=5/6.

Het geven van cijfers aan studenten vond plaats op basis van de behaalde score, verdisconteerd

met de raadscore. De methode is grafisch weergegeven in Figuur 5. De methode wordt veel

toegepast in het Hoger Onderwijs en is efficiënt 11 blz. 164. In het kort komt de methode er op neer

dat de score waarbij studenten slagen, halverwege de raadscore en de maximale score wordt

gekozen (vaak wordt ook de grens op 55% of 60% gesteld). Het is belangrijk om daarbij aan te

geven dat een kleine aanpassing van de cesuurscore een grote invloed heeft op het percentage

geslaagde studenten. Dit wordt veroorzaakt doordat in veel toetsen, de grootste groep studenten

een score heeft die zich rondom die cesuurscore bevindt. Zo kan bijvoorbeeld een verhoging van

de cesuurscore met 1% leiden tot mogelijk 6% minder geslaagden op een toets. In de figuur

wordt dit aangegeven door de verticale lijn bij de cesuurscore die het gebied afsluit van de

proportie van de studenten die slaagt.

Figuur 5

-9-

Het verband tussen de score op een toets en het bijbehorende cijfer, de cesuurscore en het slaagpercentage.

De figuur toont dat het laagste cijfer (bijv. een 1,0) wordt toegekend aan studenten die de raadscore behalen, en het

cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuur (bijv. het cijfer 5,5) ligt

halverwege de raadscore en de maximale score. De normaalcurve geeft de gebruikelijke spreiding van de scores aan

over de populatie van de studenten. Afhankelijk van deze) is er een bepaald percentage studenten dat zakt cq. slaagt.

Resultaten

Er bleken na een vraaganalyse 4 vierkeuzevragen ongeschikt, vanwege de combinatie van een

zeer lage score met een lage of negatieve vraag-toetscorrelatie (Rit) wat meestal duidt op een

vraag die niet duidelijk is geformuleerd. Ook werden twee MR vragen uit de analyse verwijderd

omdat in de stam van die twee vragen niet het aantal correcte alternatieven bleek te zijn

aangegeven terwijl dat bij alle andere MR vragen wel het geval was. Het opnemen van deze twee

MR vragen in de analyse zou kunnen leiden tot uitspraken over twee ongelijke vraagvormen.

De scoreverdeling op de toets is weergegeven in de histogrammen van Figuur 6. De

scoreverdeling toont een normaalverdeling met verschoven top. Deze is gebruikelijk voor

tentamens.

raadscore

cijfer

1

5,5

10

maximale score

cesuurscore

Proportie van studenten

die slaagt.

-10-

Figuur 6

NO_MC

0

5

10

15

20

25

00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

1

percentagescore

Freq

uent

ie

MC

0

5

10

15

20

25

00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

1

percentagescore

Freq

uent

ie

All_Q_types

0

5

10

15

20

25

00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

1

percentagescore

Fre

qu

enti

e

Histogrammen van de scoreverdeling op de toets voor alle vragen gezamenlijk (All_Q_types), alleen de vierkeuze

vragen (MC) en alle alternatieve vragen (NO_MC).

De betrouwbaarheid (Cronbach Alpha) van het tentamen als geheel was 0,79. Dat is hoger dan

die van de reguliere (papieren) herkansingen (0,72), en voor summatieve toetsen een acceptabele

waarde. De betrouwbaarheid van de toets op basis van alleen de meerkeuzevragen was 0,70 en op

basis van alleen de alternatieve vragen 0.65. Alle drie waarden bevestigen dat de toets goed

discrimineert tussen de studenten.

De studenten gaven aan (wij vroegen hen individueel naar hun ervaringen als zij hun antwoorden

hadden “ingeleverd”) dat zij het tentamen “leuk en uitdagend” hadden gevonden, onder meer

omdat zij vonden dat ze gedwongen werden om beter na te denken, vooral bij de DrandDr- en de

Matchvragen. Dit commentaar is in overeenstemming met de verwachtingen.

-11-

De gemiddelde score van de 70 studenten op het tentamen uitgedrukt in een percentagescore was

66%. Als deze score wordt vertaald naar een situatie waarbij bijvoorbeeld alleen het gebruik van

dichotoom gescoorde meerkeuzevragen zou zijn toegepast, betekent dit dat de studenten

gemiddeld 66% van de vragen goed hebben beantwoord. Indien deze score vertaald wordt naar

polytome vragen, wil dit zeggen dat studenten gemiddeld 66% van het totaal aantal te behalen

punten hebben gescoord.

Op basis van de score-cijfertransformatie als aangegeven in Figuur 5, zou 67% van de studenten

slagen (dat het cijfer van de gemiddelde score en het slaagpercentage bijna gelijk zijn is in dit

geval toevallig – zie de toelichting bij Figuur 5).

In navolgende tabellen zijn de aantallen vragen en hun karakteristieken weergegeven.

Tabel 1

uits

luite

nd

mee

rkeu

zevr

agen

a

uits

luite

nd a

ltern

atie

ve

vraa

gvor

men

b

MR

Mat

ch

Dra

ndD

r

alle

vra

gen

aantal vragen (n) 52 20 6 6 8 72

Maximum score (punten) 52 92 18 41 33 144

Gemiddelde procentuele

score op de vragen 65% 69% 71% 64% 72% 66%

Cronbach Alpha 0,70 0,65 0,79

Gemiddelde van vraag-

toets correlatie a 0,21 0,34 0,29 0,44 0,30 0,25

Raadscore (punten) en

bijbehorend raadpercentage 13 / 25% 22,8 / 25% 8,8 / 49% 5,2 / 13% 8,8 / 27% 38,8 / 26%

Cesuurscore (punten) b 32,5 57,4 13,4 22,6 20,9 89,9

-12-

Slaagpercentage van de

studenten 61% 77% 34% 79% 81% 67%

Overzicht van het tentamen en het aantal verschillende vragen met hun diverse

bijbehorende karakteristieken.

a Gemiddelde item-testcorrelatie (correlatie tussen de score op een vraag en de toetsuitslag) op een schaal van -1

tot +1; hoe hoger de waarde des te meer de score op de betreffende vraag correleert met de eindscore op de

toets. In het algemeen dient deze waarde hoger dan 0,2 te zijn.

b De cesuurscore op basis van het lineaire scoringsmodel uitgaande van de raadscore en cesuurop 50%..

-13-

Uit Tabel 1 blijkt dat de gemiddelde score op de vragen uiteenloopt. Het gemiddelde tussen de

score op de MC vragen en de alternatieve vraagvormen verschilt 4% en dit verschil is significant

(t (69) = 3,89; p = ,000.). De Match vragen scoren bijna net zo hoog als de meerkeuzevragen; de

MR en de DrandDr vragen scoren gemiddeld hoger. De gemiddelde vraag-toetscorrelatiewaarden

van de alternatieve vragen zijn, zoals verwacht, ook hoger, maar de waarden van de MR vraag

wijkt nauwelijks af van de MC vragen. Dat laatste is een indicator dat het meetvermogen van de

MR vragen niet optimaal is.

In Tabel 1 is op basis van de scores en de score-cijfertransformatie aangegeven welk deel van de

studenten zou slagen. Volgens deze gegevens zou op basis van alleen de vierkeuzevragen, 61%

van de studenten slagen.. Op basis van de alternatieve vraagvormen zou 77% van de studenten

slagen. Dit is significant: Chi2 (1) = 0,02; p = ,006.). Op basis van alleen de MR vragen zou 34%

slagen, terwijl dat voor de Match vragen 79% en de DrandDr vragen 81% zou zijn.

Gezien het relatief grote aantal punten dat behaald kon worden bij de Match en de DrandDr

vragen, is het uiteindelijke slaagpercentage ten opzichte van alleen de MC vragen hoger. De

invloed van het lage slagingspercentage op basis van alleen de MR vragen is, vanwege het

relatief lage aantal te behalen punten voor de MR vragen, klein.

Discussie

We hebben een experiment uitgevoerd in een reële tentamensituatie. Studenten hebben een

computertoets gedaan waarin ze antwoorden moesten geven op een mix van meerkeuzevragen en

alternatieve vraagvormen. Doordat we aan kunnen nemen dat de beheersingsgraad van de stof

door de studenten gelijk is , kunnen we uitspraken doen over de verschillen in scores en

slaagpercentages voor de verschillende vraagvormen.

Methodische beperkingen

Uit logistieke overwegingen (gelimiteerd aantal beeldschermen en ruimtes) hebben wij voor een

herkansingstentamen gekozen. Het gebruik van groepen herkansers voor onderwijskundige

experimenten is aanvechtbaar: de groepen zijn voorgeselecteerd vanwege het falen bij een eerste

tentamenpoging en het aantal studenten is meestal klein. In ons geval moet ook nog in de

overwegingen betrokken worden dat deze herkansers onder de druk van een ten einde lopend

curriculum werkten. De scores van de studenten zijn echter volgens een normaalverdeling

gespreid. De combinatie van daadwerkelijke kennisspreiding en normaalverdeling geeft aan dat

-14-

de toets voldeed aan voorwaarden voor klassieke toetsanalyse. Aan de voorwaarden om

uitspraken te doen over het tentamen als geheel is dus voldaan.

Helaas is het niet mogelijk voor wat betreft de scores en de percentages geslaagden algemene

conclusies te trekken voor de verschillende alternatieve vraagvormen. In het experiment zijn van

elk type daarvoor te weinig vragen aanwezig (n=6, 8); conclusies in dit artikel zijn dan ook

vooral illustratief bedoeld. Ze vormen vooral aanzet tot discussie en verder onderzoek.

Overwegingen met betrekking tot de percentagescore en cesuurbepaling

Voordat wij tot het gebruik van alternatieve vragen overgingen, verwachtten wij dat dit zou

leiden tot een lager slagingspercentage. Wellicht omdat zij meer naar inzicht dan naar feiten

zouden vragen. Het slagingspercentage daalde echter niet.

Als gekeken wordt naar de gemiddelde score op de vragen, blijken MR vragen en DrandDr

vragen hoger te scoren dan vierkeuzevragen. Op deze twee vraagtypen kiezen studenten blijkbaar

snel de juiste opties en scoren snel punten. De gemiddelde score op de Match vragen is bijna

gelijk aan die van de vierkeuzevragen.

Wordt er gekeken naar het slagingspercentage, dan zien wij een ander beeld. Toepassing van de

score-cijfertransformatie op basis van de raadscore leidt bij MR vragen tot een laag, en bij

Matching en DrandDr vragen tot een hoog slagingspercentage. Bij de MR vragen wordt dit

veroorzaakt doordat hun raadscore in de buurt van 50% ligt zodat de cesuurscore bij MR vragen

hoog is. Hierdoor slagen weinig studenten bij een gemiddelde score die vergelijkbaar (of slechts

weinig hoger is) dan die van vierkeuzevragen. Bij de Match vragen slagen relatief veel studenten

omdat de raadscore en de bijbehorende cesuurscore juist vrij laag zijn. Bij de DrandDr vragen is

het beeld opnieuw anders: hier slagen meer studenten terwijl de raadscore vergelijkbaar of zelfs

kleiner is dan die van meerkeuzevragen. Voor de DrandDr vragen scoren de studenten blijkbaar

daadwerkelijk gemakkelijker punten.

Voor de MR vragen uit het experiment kunnen we zeggen dat de keuze voor het scoringsmodel

voor deze vragen (1 punt per goed gekozen alternatief en geen aftrek van punten voor een

gekozen afleider) niet leidt tot een betrouwbare meting. Door de hoge raadkans wordt het

meetgebied van deze vragen klein en discrimineren de vragen niet heel goed (gemiddelde Rit

-15-

waarde is niet hoger dan vierkeuzevragen). Een beter scoringsmodel voor deze vragen kan zijn

om te werken met aftrek van punten per gekozen afleider en bijvoorbeeld een minimale score van

0 punten. Hierdoor daalt de raadscore sterk.

Voor zowel de Match als de DrandDr vraagvormen in het experiment zouden we kunnen zeggen

dat de studenten hun partiële kennis goed kunnen laten zien en daar ook voor beloond worden. Ze

scoren waarschijnlijk relatief gemakkelijk punten door het goed kiezen van de ‘gemakkelijke’

onderdelen van deze vragen. De ‘moeilijker’ onderdelen zorgen er echter voor dat de vragen toch

goed discrimineren. Door de interne afhankelijkheid van de afleiders in dergelijke vragen

(ondanks het invoegen van afleiders bij deze vragen) leidt de statistische raadscore tot een hoger

slaagpercentage dan bij toepassing van alleen vierkeuzevragen. Bij de cesuurbepaling zou daar

rekening mee kunnen worden gehouden.

Overwegingen voor ontwikkeling van alternatieve ofwel beeldschermvragen

De validiteit van een toets wordt bepaald door de mate waarin de toets meet wat gemeten dient te

worden. Het doel van het maken van alternatieve vragen voor tentamens is niet dat op basis

daarvan evenveel studenten slagen als bij alleen toepassing van MC vragen. Het doel moet zijn

om studenten te bevragen op een aantrekkelijke manier en op een manier die recht doet aan de

stof. Een zeer groot deel van de geneeskundige diagnostiek berust op beeldvormende technieken.

Studenten moeten daartoe omgaan met foto’s en afbeeldingen, waarop zij afwijkingen moeten

leren herkennen en aanwijzen: DrandDr-technieken zijn ideaal om dergelijke vaardigheden te

onderwijzen en te toetsen. Veel inzicht in de geneeskunde berust bovendien op concepten

waarvan kennis inzichtelijk kan worden gemaakt en getoetst door het verslepen van begrippen

naar “lacunes in een diagram of flowchart”. Ook hier dus een vorm van de DrandDr-technieken.

Een bijkomend argument voor het toepassen van dergelijke vragen is dat beelden vaak

eenduidiger zijn dan tekst, waardoor de invloed van de taalbeheersing van studenten op de meting

wordt verminderd.

Onze bevindingen laten zien dat alternatieve vraagvormen niet onder doen voor klassieke

vragen bij het maken van toetsen. Zij maken het mogelijk om leerstof interessanter te bevragen.

De vragen maken goed onderscheid in de mate waarin de studenten de stof beheersen. Voordat

het geneeskunde onderwijs echter op grote schaal van dergelijke alternatieve vragen gebruik zal

kunnen maken, is meer inzicht nodig in de specifieke eigenschappen van deze vragen en moeten

-16-

docenten een gevoel ontwikkelen voor de ‘moeilijkheid’ van dergelijke vragen. Proeven met

gelijke aantallen meerkeuze en alternatieve vraagvormen en grotere aantallen studenten zijn daar

in het bijzonder voor nodig.

Online voorbeelden van digitale vragen zijn te bekijken via:

https://www.surfgroepen.nl/sites/flextoets/NVMOartikel/Home.aspx

Gebruik hiervoor Internet Explorer aangezien andere browsers de toetsvragen niet goed

weergeven.

Dankbetuiging

Wij danken drs. C.J.L.H. Camps, Dr. AJ. Greven, Dr. W. van de Laarse, Dr. R.J.P. Musters, Drs.

C. Reumer en Drs. M.I. Schade voor hun adviezen en het kritisch lezen van het manuscript.

1. Haladyna TM. Developing and Validating Multiple -Choice Test Items. Third Edition ed.

London: Lawrence Erlbaum Associates; 2004.

2. Parshall CG, Spray JA, Kalohn JC, Davey T. Practical considerations in computer-based

testing. New York: Springer-Verlag; 2002.

3. Draaijer S, Hartog R. Design Patterns for digital item types in Higher Education. e-

Journal of Instructional Science and Technology. 2007;10(1).

4. Draaijer S, Hartog R. Guidelines for the Design of Digital Closed Questions for

Assessment and Learning in Higher Education. e-Journal of Instructional Science and

Technology. 2007:Submitted for publication, forthcoming december 2007.

5. Schuwirth LWT, van der Vleuten CPM. ABC of learning and teaching in medicine:

Written assessment. BMJ. 2003 March 22, 2003;326(7390):643-5.

6. Keller JM. Development and Use of the ARCS Model of Motivational Design. Enschede:

Twente University of Technology; 1983. Report No.: IR 014 039.

7. Ricketts C, Wilks, S., Crocker, C. What factors affect student opinions of Computer-

Assisted Assessment? 5th CAA Conference; 2001; Loughborough; 2001.

8. Jodoin MG. Measurement Efficiency of Innovative Item Formats in Computer-Based

Testing. Journal of Educational Measurement. 2003;40(1):1-15.

9. Lampe T, Eggen T. Innovative Item Types in Computer Based Testing: Scoring of

Multiple Response Items. Arnhem, The Netherlands: Citogroep; 2003.

-17-

10. Bull J, McKenna C. Blueprint for Computer-assisted Assessment: RoutledgeFalmer;

2001.

11. Dousma T, Horsten A, Brants J. Tentamineren. derde druk ed: Wolters-Noordhoff; 1997.


8 Bijlage 3b Raadscore berekening van polytoom gescoorde vragen

s.draaijer8 Bijlage 3b Raadscore berekening van polytoomgescoorde vragen

Raadscore berekening van polytoom gescoorde vragen. De bijbehorende Excel files zijn te vinden via URL: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Forms/AllItems.aspx?RootFolder=%2fsites%2fqmpvu%2fDocumentenbibliotheek%2fToetsanalyse&FolderCTID=&View=%7b06D963FC%2d8981%2d471D%2dB339%2dB25789F93B33%7d De raadscore wordt gedefinieerd als de verwachte score bij het volledig random beantwoorden van vragen. In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten (p(qi)), maal het betreffende aantal punten (qi). In formulevorm: qraad = S(p(qi)*qi).

1 Matching vragen

Aantal alternatieven

Aantal extra match

alternatieven

Totaal aantal match

alternatieven

Dichotoom (0 of 1)

Polytoom (elk goed alternatief correct 1 punt

n m raadkans (=raadscore)

max score

verwachte score

(=raadscore)

perc raadscore

2 0 2 50,00% 2 1,00 50% 2 1 3 16,67% 2 0,67 33% 2 2 4 4,17% 2 0,50 25% 3 0 3 16,67% 3 1,00 33% 3 1 4 4,17% 3 0,75 25% 3 2 5 0,83% 3 0,60 20% 3 3 6 0,14% 3 0,50 17% 4 0 4 4,17% 4 1,00 25% 4 1 5 0,83% 4 0,80 20% 4 2 6 0,14% 4 0,67 17% 4 3 7 0,02% 4 0,57 14% 4 4 8 0,00% 4 0,50 13% 5 0 5 0,83% 5 1,00 20% 5 1 6 0,14% 5 0,83 17% 5 2 7 0,02% 5 0,71 14% 5 3 8 0,00% 5 0,63 13% 5 4 9 0,00% 5 0,56 11% 6 0 6 0,14% 6 1,00 17% 6 1 7 0,02% 6 0,86 14% 6 2 8 0,00% 6 0,75 13% 6 3 9 0,00% 6 0,67 11% 6 4 10 0,00% 6 0,60 10% 7 0 7 0,02% 7 1,00 14% 7 1 8 0,00% 7 0,88 13% 7 2 9 0,00% 7 0,78 11% 7 3 10 0,00% 7 0,70 10% 8 0 8 0,00% 8 1,00 13% 8 1 9 0,00% 8 0,89 11% 8 2 10 0,00% 8 0,80 10% 8 3 11 0,00% 8 0,73 9% 9 0 9 0,00% 9 1,00 11% 9 1 10 0,00% 9 0,90 10% 9 2 11 0,00% 9 0,82 9% 9 3 12 0,00% 9 0,75 8%

2 Raadscoreberekening Multiple Response vragen Voor bijvoorbeeld een MR vraag met 5 opties waarbij drie opties correct zijn. Scoringsmodel

• 1 punt per goed antwoord • geen aftrek van punten bij selecteren van een afleider • er wordt gegeven hoeveel antwoorden correct zijn à Er zijn 10 permutaties van keuzen te

maken. volgens het scoringsmodel zoals gegeven op blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3= 0*0+4/10*1+5/10*2+1/10*3=1,70 punten.

Tabel met raadscores en kansen (let op: Tabel is nog niet volledig)

Aantal alternatieve

n

Aantal correct

n j permuaties met bekende hoeveelheid

antwoord correct

permutaties met

onbekende hoeveelheid antwoorden

correct

raadkans (=raadscore)

met onbekende

hoeveelheid antwoorden correct op

volledig juist antwoord

raadkans (=raadscore) met bekende hoeveelheid

antwoord correct

max score verwachte score

(=raadscore) bij

onbekende hoeveelhei

d antwoorden correct

perc raadscore

verwachte score

(=raadscore) bij bekende hoeveelheid

antwoord correct

perc raadscore

max score verwachte score

(=raadscore) bij onbekende hoeveelheid antwoorden

correct

perc raadscore

verwachte score

(=raadscore) bij

bekende hoeveelhei

d antwoord correct

perc raadscore

max score

verwachte score

(=raadscore) bij

onbekende

hoeveelheid

antwoorden

correct

perc raadscore

verwachte score

(=raadscore) bij

bekende hoeveelh

eid antwoord

correct

perc raadscore

max score

verwachte score

(=raadscore) bij

onbekende

hoeveelheid

antwoorden

correct

perc raadscore

verwachte score

(=raadscore) bij

bekende hoeveelh

eid antwoord

correct

perc raadscore

3 1 3 8 13% 33% 3 1,5 50% 1,00 33% 1 0,5 50% 0,33 33% 3 0,0 0% 13 2 3 8 13% 33% 3 1,5 50% 1,67 56% 2 1,0 50% 1,33 67% 3 0,0 0% 23 3 1 8 13% 100% 3 1,5 50% 3,00 100% 3 1,5 50% 3,00 100% 3 0,0 0% 34 1 4 16 6% 25% 4 2,0 50% 1,00 25% 1 0,5 50% 0,25 25% 4 0,0 0% 1,00 14 2 6 16 6% 17% 4 2,0 50% 2,00 50% 2 1,0 50% 1,00 50% 4 0,0 0% 0,00 24 3 4 16 6% 25% 4 2,0 50% 2,50 63% 3 1,5 50% 2,25 75% 4 0,0 0% 1,00 34 4 1 16 6% 100% 4 2,0 50% 4,00 100% 4 2,0 50% 4,00 100% 4 0,0 0% 4,00 45 1 5 32 3% 20% 5 2,5 50% 1,00 20% 1 0,5 50% 0,20 20% 5 0,0 0% 15 2 10 32 3% 10% 5 2,5 50% 2,60 52% 2 1,0 50% 0,80 40% 5 0,0 0% 2 0,205 3 10 32 3% 10% 5 2,5 50% 2,60 52% 3 1,5 50% 1,80 60% 5 0,0 0% 1,00 3 1,005 4 5 32 3% 20% 5 2,5 50% 3,40 68% 4 2,0 50% 3,20 80% 5 0,0 0% 45 5 1 32 3% 100% 5 2,5 50% 5,00 100% 5 2,5 50% 5,00 100% 5 0,0 0% 5,00 56 1 6 64 2% 17% 6 3,0 50% 1,00 17% 1 0,5 50% 0,17 17% 6 0,0 0% 16 2 15 64 2% 7% 6 3,0 50% 3,33 56% 2 1,0 50% 0,67 33% 6 0,0 0% 26 3 20 64 2% 5% 6 3,0 50% 3,00 50% 3 1,5 50% 1,50 50% 6 0,0 0% 36 4 15 64 2% 7% 6 3,0 50% 3,33 56% 4 2,0 50% 2,67 67% 6 0,0 0% 46 5 6 64 2% 17% 6 3,0 50% 4,33 72% 5 2,5 50% 4,17 83% 6 0,0 0% 56 6 1 64 2% 100% 6 3,0 50% 6,00 100% 6 3,0 50% 6,00 100% 6 0,0 0% 6,00 67 1 7 128 1% 14% 7 3,5 50% 1 0,5 50% 0,14 14% 7 0,0 0% 17 2 21 128 1% 5% 7 3,5 50% 2 1,0 50% 0,57 29% 7 0,0 0% 27 3 35 128 1% 3% 7 3,5 50% 3 1,5 50% 1,29 43% 7 0,0 0% 37 4 35 128 1% 3% 7 3,5 50% 4 2,0 50% 2,29 57% 7 0,0 0% 47 5 21 128 1% 5% 7 3,5 50% 5 2,5 50% 3,57 71% 7 0,0 0% 57 6 7 128 1% 14% 7 3,5 50% 6 3,0 50% 5,14 86% 7 0,0 0% 67 7 1 128 1% 100% 7 3,5 50% 7 3,5 50% 7,00 100% 7 0,0 0% 7,00 7

Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatief aftrek van 1 punt)

Polytoom (elk goed correct alternatief gekozen 1 punt)Dichotoom (0 of 1) Polytoom (elk goed alternatief correct 1 punt en elke fout alternatief niet aangevinkt ook 1 punt)

Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatief aftrek van 1 punt)


9 Bijlage 4 Tentamineren met QMP: een ervaring (2008)

s.draaijer9 Bijlage 4 Tentamineren met QMP: een ervaring (2008)

Tentamineren met Questionmark Perception (QMP)

een ervaring Dr. GC van den Bos Augustus 2008 Samenvatting Dit is een persoonlijk verslag van ervaringen met QMP voor herkansingen van de blokken Bioregulatie, Hart en bloedsomloop, Nier en milieu interieur, en Voeding en spijsvertering van C’91 in de periode Januari 2007 tot Augustus 2008, van de opleiding geneeskunde. Veel hulp kreeg ik van ir. S Draaijer, dr R Musters, drs C Camps, en dr A Greven, maar de inhoud van dit verslag is geheel mijn verantwoordelijkheid . Het is bedoeld om te laten zien wat met QMP gedaan kan worden in de zin van interactieve vragen, naast de klassieke vragen als meerkeuze en juist/onjuist. Het legt echter ook nadruk op de voorwaarden waaraan voldaan, en het werk dat nog verzet moet worden, voordat QMP in het VUmc bruikbaar is als routine methode om tentamens af te nemen. Als u niet de tijd, of de puf heeft om dit verslag te lezen, bekijkt u dan in ieder geval even de figuren om een idee te krijgen van wat deze interactieve vragen zijn. Vanzelfsprekend ben ik bereid om dit verslag toe te lichten, en een ieder die meer over het gebruik van QMP in de geneeskunde wil weten te helpen.

2

Inleiding. “Wijs” geworden door ervaringen met juist/onjuist- en meerkeuze-vragententamens, begonnen René Musters en ik in 2002 met het ontwikkelen van alternatieve vragen (met alternatief wordt bedoeld anders dan juist/onjuist en meerkeuze). Wij gebruikten hiervoor de vragenmodule van Blackboard. De proeftuin was de ingangstoets van de practica Humane Fysiologie (Medische Biologie ). In 2004, met de komst van QMP, zetten wij dit experiment voort, nu in de practica Fysiologie van het blok Hart en bloedsomloop. De studenten waren enthousiast, de praktische uitvoering bleek minder geslaagd: hun gretige inspanningen met de toets bedreigden de tijd voor de practica zelf. In Januari 2007, maakte ik met QMP een eerste tentamen. Het gros van de herkansende studenten was tevreden. Dit resulteerde in 10 (inmiddels 11) volgende tentamens (tabel 1 in bijlage 1; tnt 11 niet opgenomen) met een totaal van 652 vragen. Ieder blok vereiste een representatief oefententamen van 60 vragen (totaal 4x60 = 240) met antwoorden en stofverwijzingen. Oefententamens zijn alleen zinvol als alle vragen door de docenten van “beredeneerde” antwoorden, literatuurverwijzingen en “prikkelende” extra vraagjes zijn voorzien (Dat vele studenten vooral met behulp van oefententamens studeren is een voldongen feit; echte oefententamens kunnen gebruikt worden om dat studeren te sturen). Aanvankelijk werkte ik veel met groepjes juist/onjuist vragen over één onderwerp, hoewel studenten zich met dit vraagtype meer op taalvaardigheid dan op vaktechnische inhoud getoetst voelen. Nu gebruik ik bij voorkeur alternatieve vragen van de volgende typen (nb: de tentamens Voeding en spijsvertering – Spijs -, bestaan voor een deel uit 4- keuze vragen omdat wij daarmee wilden nagaan of er een verschil was in de resultaten bij gebruik van klassieke of alternatieve vragen). Ik maakte alle vragen in overleg met de betreffende blokvoorzitter (prof P Lips, prof P ter Wee, dr M Craanen). Vraagtypen. ü meer-uit-meer vraag (MuM): een serie uitspraken waarvan een beperkt aantal juist is (fig

1). Fig 1.Voorbeeld Meer-uit-meer vraag over babyvoeding.

Aangekruiste goede en niet aangekruiste foute antwoorden kregen beide één punt, met als gevolg dat niets-wetende studenten die alle alternatieven aanklikten daar ten onrechte baat bij hadden. Nu krijgen goede antwoorden één punt en foute antwoorden een minpunt, met de beperking dat de vraag niet tot een lagere totaal

Questionmark Perception: voortbouwen! VU...vragen, allen mc/4 afleiders en een aantal met grafisch...

Documents

Transcript of Questionmark Perception: voortbouwen! VU...vragen, allen mc/4 afleiders en een aantal met grafisch...