Questionmark Perception: voortbouwen! VU...vragen, allen mc/4 afleiders en een aantal met grafisch...

87
Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 1 Questionmark Perception: voortbouwen! EINDverslag Volgens FORMAT EMP PROJECTEN VUmc i.s.m. Onderwijscentrum VU 2007-2008 Projectgroep QMP/ VUmc (IOO) EMP-project 2007-2008 Instituut voor onderwijs en opleiden VUmc (IOO): Gerard van den Bos, Karin Brouwer, Cor Camps, Willem van der Laarse, René Musters, Theo de Nijs, Marianne Schade, Maybritt Stal, Tanja van Wier. Onderwijscentrum VU: Silvester Draaijer, Rob van Leeuwen, Christoffel Reumer. Begeleidingscommissie: prof. dr. Rob Beelen, prof. dr. Henk Groenewegen, drs. Albert de Voogd. Gedelegeerd opdrachtgever: prof.dr. Fedde Scheele, directeur ad interim opleiding geneeskunde VUmc (IOO) Opdrachtgever: prof.dr. Wim Stalman, decaan, lid van de Raad van Bestuur van VUmc Opstellers eindverslag: Gerard van den Bos, instituut voor onderwijs en opleiden VUmc (IOO) Silvester Draaijer, Onderwijscentrum VU Marianne Schade, instituut voor onderwijs en opleiden VUmc (IOO) Versie 0.2 SDR Datum: oktober 2008

Transcript of Questionmark Perception: voortbouwen! VU...vragen, allen mc/4 afleiders en een aantal met grafisch...

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 1

    Questionmark Perception: voortbouwen!

    EINDverslag Volgens FORMAT EMP PROJECTEN

    VUmc i.s.m. Onderwijscentrum VU 2007-2008 Projectgroep QMP/ VUmc (IOO) EMP-project 2007-2008 Instituut voor onderwijs en opleiden VUmc (IOO): Gerard van den Bos, Karin Brouwer, Cor Camps, Willem van der Laarse, René Musters, Theo de Nijs, Marianne Schade, Maybritt Stal, Tanja van Wier. Onderwijscentrum VU: Silvester Draaijer, Rob van Leeuwen, Christoffel Reumer. Begeleidingscommissie: prof. dr. Rob Beelen, prof. dr. Henk Groenewegen, drs. Albert de Voogd. Gedelegeerd opdrachtgever: prof.dr. Fedde Scheele, directeur ad interim opleiding geneeskunde VUmc (IOO) Opdrachtgever: prof.dr. Wim Stalman, decaan, lid van de Raad van Bestuur van VUmc Opstellers eindverslag: Gerard van den Bos, instituut voor onderwijs en opleiden VUmc (IOO) Silvester Draaijer, Onderwijscentrum VU Marianne Schade, instituut voor onderwijs en opleiden VUmc (IOO) Versie 0.2 SDR Datum: oktober 2008

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 2

    1 Samenvatting ..........................................................................................................3 1.1 Inleiding................................................................................................................3 1.2 Vragenbank ..........................................................................................................3 1.3 Alternatieve vraagvormen ....................................................................................3 1.4 Analyse.................................................................................................................3 1.5 Toekomst..............................................................................................................3

    2 Uitvoering.................................................................................................................4 2.1 Toets- en itemanalyse software en methoden.....................................................4 2.2 Alternatieve vraagvormen ....................................................................................6 2.3 Itembanking .........................................................................................................7 2.4 Opbrengst van het project .................................................................................10 2.5 Naar de toekomst...............................................................................................11 2.6 Lessons learned..................................................................................................11

    3 Referenties.............................................................................................................12

    4 Bijlage 1 Evaluatie van RMS system en commentaar naar RMS ontwikkelaars ................................................................................................................13

    5 Bijlage 2a Cookbook: Toetsanalyse ....................................................................

    6 Bijlage 2b Cookbook: Score-cijfertransformatie ..............................................

    7 Bijlage 3a Artikel Draaijer & van den Bos (2008)..............................................

    8 Bijlage 3b Raadscore berekening van polytoom gescoorde vragen ....

    9 Bijlage 4 Tentamineren met QMP: een ervaring (2008) ..................................

    10 Bijlage 5 Codeboek QMP-vragenbank.............................................................

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 3

    1 Samenvatting 1.1 Inleiding In de ICTO projectenronde 2004/2005 heeft VUmc (in het bijzonder het Onderwijsinstituut) samen met het Onderwijscentrum VU een start gemaakt met beeldschermtoetsing. Dit zowel binnen zowel het oude (C’91) als het nieuwe curriculum (VUmc-compas) van VUmc. Daarbij is gekozen voor de inzet van de toetsomgeving Questionmark Perception. Momenteel wordt dit systeem ingezet voor de Parate Kennis toetsen (PAK) van het VUmc-compas en voor bloktentamina (C’91) bij het blok Psychisch Functioneren, het blok Hart- en Bloedsomloop en het blok Nieren, Milieu en Interieur. 1.2 Vragenbank Één van de ideeën van het gebruik van Questionmark Perception is daarbij geweest dat met het systeem een database van toetsvragen opgezet kon worden waarin alle kennistoetsen van het VUmc-compas opgeslagen kunnen worden voor dossiervorming en op termijn voor hergebruik. Voor de vragen van de PAK’s is dit gerealiseerd, mede door de combinatie van oefen- en toetsfunctie van al het materiaal (+/- 600 items). Het project heeft verder geleid tot een indeling van de vragenbank en het vullen van deze vragenbank met de toetsvragen van alle cursustoetsvragen (de CAT, cursusafhankelijke toets) van semester 1 van jaar 1 van het curriculum (totaal +/ - 1200 vragen). 1.3 Alternatieve vraagvormen Daarnaast is een experiment uitgevoerd om vierkeuzevragen te kunnen vergelijken met alternatieve vraagvormen wat betreft scoring en slagingspercentages. Daarover is een artikel geschreven, alsook een uitgebreid intern verslag van een zeer ervaren vragenmaker en docent. 1.4 Analyse Tot slot is gebleken dat de psychometrische analyse die door Questionmark Perception wordt uitgevoerd op zich waardevolle gegevens oplevert, maar dat deze in praktische zin – in communicatie met docenten en examencommissie; leesbare uitdraaien, compact papiergebruik – voor verbetering vatbaar is. Ook is gewerkt aan het verder automatiseren van de toets- en itemanalyse met behulp van Questionmark Perception. Helaas is deze mate van automatiseren onvoldoende om werkzaamheden door de huidige functionarissen belast met toetsanalyse te laten uitvoeren. Hiervoor is een handleiding ontwikkeld. 1.5 Toekomst In het voorgestelde project is nader onderzocht en vastgelegd hoe deze aspecten aangepast en verbeterd zouden kunnen worden en resulteert aanbevelingen voor de langere termijn.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 4

    2 Uitvoering Het project heeft een drietal componenten gekend. Toets- en itemanalyse met QMP, Alternatieve vraagvormen en Itembanking. 2.1 Toets- en itemanalyse software en methoden 2.1.1 QM Results Management System In deelproject A is onderzocht hoe de Toetsanalysemodule van Questionmark Perception zo ingericht kan worden dat deze te gebruiken is door personen die weinig ingevoerd zijn in toets- en itemanalyse. In eerste aanleg is hiervoor de nieuwe analysemodule van Questionmark Perception onderzocht. Dit is het Results Management System (RMS).

    Er is gebleken dat dit systeem voor het analyseren van de veelvoorkomende multiple -choicevragen heel geschikt is voor analyse. Er zijn echter een aantal voorlopig onoverkomelijk problemen.

    • Het systeem vergt veel kennis van toets- en itemanalyse om het goed te kunnen gebruiken

    • Het systeem heeft geen uitvoermogelijkheid zodanig dat er leesbare geprinte documenten beschikbaar komen die voor besprekingen geschikt zijn.

    • Het systeem heeft geen score-cijfertransformatie mogelijkheid. Deze bewerking zou dan weer apart in bijv. MS-Excel moeten worden uitgevoerd.

    In de bijlage 1 is extra informatie opgenomen over deze evaluatie van het systeem (mail naar QMP-ontwikkelaars).

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 5

    2.1.2 QM Reporter Functies Er is door Onderwijscentrum VU een zodanige set van rapportage opties in QMP klaargezet zodat toch een zo eenvoudig mogelijk methode kan worden bewandeld voor een toets- en itemanalyse. Op de Questionmark Supportsite van de VU is inmiddels deze methode gepubliceerd als het Toetsanalyse Cook Book. https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Cookbook-Toetsanalyse%20v1.1.zip Zie ook bijlage 1 voor een geprinte versie. De methode is gedemonstreerd en besproken met Wim Reijm (ICT-coördinator opleiding geneeskunde) en Marianne Schade (pro j.leider) op 22 mei 2008. De aanwezigen waren onder de indruk van de kwaliteit van de procedure. Echter, bij herberekening van scores naar cijfers en aanpassing van vragen moet veel werk worden verricht in MS-Excel. Zij gaven aan dat deze werkzaamheden een te hoog niveau zouden vragen van de medewerkers die dit zouden moeten uitvoeren, zodat zij deze methode niet kunnen introduceren bij VUmc. 2.1.3 SIMAC software Tijdens het project bleek dat de SIMAC software nog steeds niet operationeel was. Een experiment me t data-uitvoer uit QMP en analyse met de SIMAC software heeft tijdens het project niet kunnen plaatsvinden. 2.1.4 Conclusie Op dit moment is de toets- en itemanalyse functionaliteit van QMP zodanig dat deze niet op grote schaal ingezet kan worden bij de opleid ing geneeskunde. De ontwikkelingen rondom de nieuwe functionaliteiten van QMP en aanverwante software zullen de komende twee jaren goed in de gaten moeten worden gehouden. Vervolgadviezen en experimenten zijn hiervoor noodzakelijk.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 6

    2.2 Alternatieve vraagvormen Het tweede deel van het project betrof het onderzoeken van de aard en eigenschappen van alternatieve vraagvormen. In eerste aanleg was in het project voorzien dat er cognitief psychologisch onderzoek verricht zou worden naar deze vraagtypen. Daarbij zouden deze vraagtypen aan proefpersonen worden aangeboden en zou op basis van ‘hardop denken’ protocollen, getracht worden om meer inzicht te verkrijgen in de denkprocessen die alternatieve vraagvormen zouden opleveren. Na nadere consultatie met experts (o.a. Prof. Lambert Schuwirth, toetsexpert medisch onderwijs, Universiteit Maastricht) is afgezien van dergelijke experimenten. In plaats daarvan heeft een beter uitvoerbaar experiment plaatsgevonden bij het hertentamen van het blok Voeding en Spijsvertering. In dat experiment is een vergelijking gemaakt van meerkeuzevragen en alternatieve vraagvormen op basis van de scores op deze vragen en de slagingspercentages. Hierover is een artikel geschreven door docent Gerard van den Bos en Silvester Draaijer (Onderwijscentrum VU) (Draaijer & Bos, 2008). Dit artikel is ingediend bij het Tijdschrift voor Medisch Onderwijs en de eerste versie daarvan is geaccepteerd. Op 3 oktober 2008 is dit weer geresubmit. Zie bijlage 2 (a en b) voor deze laatste versie. Deels aansluitend op dit artikel is bijgevoegd een meer persoonlijk verslag van Gerard van den Bos over zijn brede ervaringen met QMP. Dit verslag is voor de interne organisatie van belang en daarom hier opgenomen (zie bijlage 4). 2.2.1 Scoren van alternatieve vraagvormen Een belangrijke overweging bij het stellen van de cesuur van toetsen bij VUmc is het gebruikmaken van de raadscore op vragen. Op basis van verschillende gesprekken en werk van Onderwijscentrum VU zijn voor verschillende veelvoorkomende vraagvormen raadscoretabellen opgesteld. Het gaat om de Multiple Response vragen (MR) en een combinatie van Matching cq. Drag-and-Drop vragen. In het artikel van Draaijer en van den Bos wordt kort ingegaan op het berekenen van deze raadscores. Deze tabellen zijn online te vinden via: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Toetsanalyse In bijlage 3a staan ze ook opgenomen als print.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 7

    2.3 Itembanking Op basis van de ervaringen met de PAK-toets1 (die momenteel 557 vragen bevat) is er gewerkt aan het verder indelen van een toekomstige vragenbank. Er is uitgegaan van het opslaan van alle toetsvragen en toetsen van de CAT’s 2. Uit verschillende discussies is gedestilleerd hoe deze vragenbank ingedeeld moet worden. Er is uiteindelijk besloten om een eenvoudige indeling te maken waarbij de toetsvorm, vervolgens de specifieke cursus, het jaar van toetsafname , toets, hertoets of oefentoets, en de verantwoordelijk inhoudelijke docent, de belangrijkste kenmerken of metadata vormen. De discussie hieraan voorafgaand is zeer leerzaam geweest: het bleek na de steeds herhaalde oefeningen met het invoeren van een indeling , dat een conciese indeling, c.q. codering van de vragen het meest toegankelijk en bruikbaar bleek. Met name de zoekfunctie naar woorden in de tekst van de vragen bleek, althans voorlopig, een indeling in allerlei concepten onnodig te maken. De deelnemers aan de discussie waren zowel medewerkers van afdeling toetsbeheer als docenten en verantwoordelijke coördinatoren van een cursus of semester. Er is besloten om alle CAT-vragen van het 1e semester van het eerste jaar , vanaf de start van het nieuwe curriculum in september 2005, in ieder geval in de vragenbank te plaatsen (nadat zij via het staande proces zijn ontwikkeld buiten QMP om) . Door het toewijzen van specifieke tijd en taken aan Karin Brouwer, managementassistent van de semestercoördinator van het betreffende semester, en een student-assistent, is het gelukt om deze CAT-vragen in QMP op te nemen. Daar moet bij worden opgemerkt dat nog enige nazorg is vereist om vragen die uit het eerste gebruik gebleken niet voldeden te oormerken of alsnog te verwijderen. De vragenbank bevat nu ongeveer 1200 CAT-vragen, allen mc/4 afleiders en een aantal met grafisch materiaal erbij. Zie verder de figuren hierna die laten zien hoe de codering in QMP er uit ziet.

    De ontsluiting voor docenten is zodanig dat zij via een paar eenvoudige hyperlinks alle vragen van een bepaalde cursus als geheel of alleen van zichzelf van meerdere cursussen, op kunnen vragen (zie figuur hieronder). Ze kunnen dan voor nieuw samen te stellen toetsen zich goed oriënteren op wat ze al eerder gevraagd hebben. Dit bleek steeds meer een noodzaak gezien de grote hoeveelheid Word-bestanden die inmiddels in het centrale toetsbeheerdossier staan en waarvan lang niet iedere docent een volledig beeld heeft. Ook kan de docent door middel van knippen en plakken vragen uit QMP 1 PAK (Parate Kennistoets) wordt door de organisatie 32 maal per jaar aangeboden. De student maakt de toets per Ba-studiejaar 9 - 12 keer. 2 CAT (Cursus Afhankelijke Toets); deze toetsen worden na afsluiting van de cursussen in de Bachelorfase afgenomen, na 3 tot 6 weken steeds, bevatten 50 mc/4 afleiders vragen, met een jaartotaal voor de organisatie van 56 toetsen.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 8

    aanpassen en opnieuw insturen naar de afdeling toetsbeheer. Op termijn ligt het in de bedoeling om tot hergebruik van vragen uit QMP over te gaan. Hoewel de voorraad groeit is dit punt nog niet bereikt. Momenteel bevat de CAT-vragenbank precies 1179 vragen.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 9

    Op dit moment wordt onderzocht hoe deze w erkwijze bevalt bij de betreffende docenten. De eerste resultaten zijn positief. Tot slot: de vragenbank in QMP bevat ook een set vragen van het C’91, dat afgebouwd wordt. Dit zijn vragen van diverse blokken, in totaal 958. Een deel daarvan bevat veel grafisch materiaal en alternatieve vraagvormen en een klein deel bevat vragen met daarbij korte filmfragmenten met geluid van o.a. gesprekken tussen patiënt en arts. Ergo: de totale digitale vragenbank van VUmc bevat 2694 vragen.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 10

    2.4 Opbrengst van het project De opbrengst van het project is dat er een start is gemaakt met het systematisch opslaan en ontsluiten van de door VUmc ontwikkelde toetsvragen. Deze toetsvragen zijn nu eenvoudig doorzoekbaar voor docenten, coördinatoren en medewerkers van de afdeling toetsbeheer. Dit biedt een uitstekende basis voor toekomstige toetsontwikkeling en hergebruik. Daarnaast is meer zicht verkregen op de kansen en problemen met betrekking tot toets- en itemanalyse met Questionmark Perception en alternatieve vraagvormen. Helaas zijn er niet eenduidige conclusies te trekken op dit terrein, maar zijn ook geen onomkeerbare stappen genomen die later tot grote problemen zullen leiden. Voor de PAK-toetsen is de itemanalyse nog steeds zeer eenduidig in termen van juist/onjuist, dus een dichotome scoring. Een meer complexere scoring van alternatieve vraagvormen b.v. met weging, is in de directe toekomst op grote schaal nog niet haalbaar. Hoewel momenteel alle CAT-vragen worden ingevoerd in QMP, is de afname voorlopig nog via papier en blijft de klassieke analyse via leesformulieren de meest bruikbare methode voor snelle en overzichtelijke analyses. Maar veel meer is al duidelijk zodat gericht verder ontwikkeld kan worden. Een belangrijke spin-off van dit project (en van de tevens de al ruim drie jaren bestaande PAK-toets aanbieding via beeldscherm, dus QMP) is de volgende: beeldschermtoetsing van de kennistoetsen wordt voortgezet in de nieuwe Masterfase die in september gestart is. Daartoe heeft die afdeling een projectplan opgesteld. De functioneel beheerder van QMP en de QMP specialist (Cor Camps) zijn inmiddels samen met deze afdeling aan de slag om QMP zo functioneel en organisatorisch in te richten dat tot systematische toetsing van de stagestudenten in Masterjaar 1 kan worden overgegaan. Op dit moment worden daarbij de specifieke wensen voor vraagvormen onderzocht op uitvoerbaarheid in QMP. er wordt gebruik gemaakt van reeds ontwikkelde toetstechniek en sinds lang bestaande toetsexpertise betreffende de comp lexe klinische vraagstukken. Op termijn is afname elders mogelijk daar QMP een internetapplicatie is.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 11

    2.5 Naar de toekomst Er is een start gemaakt met het systematisch opslaan van toetsvragen. In het kader van het EMP project is dit nu op pilot-basis uitgevoerd. Op dit moment wordt vorm gegeven aan de continuïteit van dit initiatief. Daartoe is het van belang dat de rol en functie van toetsvragenbeheerder officieel wordt vormgegeven en dat daar voldoende capaciteit aan wordt toegekend. De verwachting is dat daar een ordegrootte van 0,3 FTE voor nodig is. Voor een deel kan deze rol mogelijk belegd worden in de huidige functioneel beheerder van Questionmark Perception voor VUmc (dhr. Theo de Nijs). Wij denken echter dat voor het systematisch invoeren en controleren van toetsvragen en toetsen aanvullende specialistische capaciteit nodig is. In de startfase wordt tevens gebruik gemaakt van getrainde studentassistenten om de grote reservevoorraad vragen in QMP te plaatsen. Doel is dit het komend studiejaar (2008/2009) de complete vragenbank gevuld te krijgen, alsook de nieuwe toetsen daarin standaard te laten opnemen. Er zijn verschillende mogelijkheden om de werkwijzen voor het ontwikkelen, samenstellen, printen en analyseren van toetsen op VUmc te verbeteren en uit te breiden. Concrete acties die nodig /mogelijk zijn op VUmc zijn de volgende:

    • Daadwerkelijke implementeren van SIMAC toetsanalyse software voor pen-en-papier toetsing

    • Pro-actief participeren en aandringen bij de VU en VUmc o m een grootschalige digitale toetsvoorziening te realiseren (toetszaal) ; zonodig partners zoeken bij de UVA en/of AMC.

    • Uitbreiden van beeldschermtoetsing naar alle kennistoetsen. • Verder experimenteren met alternatieve vraagvormen • Verder in elkaar schuiven van toetsvraagontwikkelingsproces met Questionmark

    Perception als opslagmedium, uitvoermedium en zo mogelijk toets- en itemanalyse tool. Daartoe heeft Onderwijscentrum VU inmiddels de Print-and-Scan functie van QMP gelicenseerd en kan VUmc pilots uitvoeren.

    Op basis van de door VUmc ontwikkelde beeldschermtoetsen zijn inmiddels een zeer rijke hoeveelheden alternatieve toetsvragen ontwikkeld. Deze vormen een prachtige bron van inspiratie. Om deze kennis bij de docenten van VUmc te laten leven, stromen en tot verdere ontwikkeling te komen is systematisch aandacht voor toetsen in het algemeen, en digitale toetsing in het bijzonder, nodig. Een actieve benadering van docenten, studiedagen en het ontsluiten van goed voorbeeldmateriaal kan helpen om het bewustzijn bij het docentencorps te doen toenemen. 2.6 Lessons learned Een belangrijke ‘lesson le arned’ in het project is dat er beter met minder meta -data gewerkt kan worden dan met meer. Daar zijn een aantal redenen voor te noemen.

    1. Questionmark Perception is in staat om allerlei meta-data aan vragen te koppelen, maar is slecht in het kunnen benutten van deze meta-data. De interface en de zoekmogelijkheden zijn beperkt. Minder meta-data maakt dat het zoeken, vinden en ordenen van informatie minder goed mogelijk is (helaas).

    2. Het toevoegen van meta-data aan toetsvragen is zeer complex. Per vraag moet er zeer zorgvuldig gekeken worden naar tal van aspecten van zo’n vraag. Dit kost veel tijd en energie. De kans is erg groot dat deze tijd niet beschikbaar is. Dat kan leiden tot een slecht uitgevoerd proces van meta-dateren. Dat resulteert weer in een slechte vragenbank die niet gebruikt gaat worden. Adagium:

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 12

    ‘garbage in–garbage out’. Minder meta-data, maar gegarandeerd van kwaliteit , is dan sterk te prefereren.

    Dan blijken de analyse-mogelijkheden en -onmogelijkheden met QMP complexer dan aanvankelijk verwacht. Hiervoor moet tijd en inspanning gereserveerd worden om tot bevredigende oplossingen te komen. Voorlopig is een eenvoudige dichotome scoring van meer complexe vragen, zoals in de PAK, aangewezen.

    Een ander belangrijk punt is dat het invoeren, beheren, redigeren en ontsluiten van toetsvragen om aparte capaciteit vraagt. Dit geldt zowel voor de benodigde expertise (Questionmark en ICT-kennis, organisatiekennis) als de benodigde hoeveelheid tij d. In het project is op projectbasis tijd gemaakt. Het is gebleken dat invoer en ontsluiting dan ook relatief snel gerealiseerd kan zijn. Indien deze expertise en tijd niet expliciet wordt aangewezen, dan zal het verder opbouwen en gebruiken van een vragenbank niet slagen. 3 Referenties Draaijer, S., & Bos, G. C. v. d. (2008). Tentamens met de computer: een vergelijking van meerkeuze en alternatieve vraagvormen. Tijdschrift voor Medisch Onderwijs .(resubmitted) Hols -Elders, W., Bloemendaal, P., Schade, M.I., Verdoes,S. (2008). The practice of computerbased assessment in medical education. Praag, International Association of Medical Education

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 13

    4 Bijlage 1 Evaluatie van RMS system en commentaar naar

    RMS ontwikkelaars Van: Silvester Draaijer Verzonden: vr 21-12-2007 6:51 Aan: [email protected] CC: [email protected]; Christoffel Reumer; [email protected]; [email protected] Onderwerp: Questionmark Results Management System (RMS) - beta evaluation Dear QM developers, I'm pleased to be able to participate in de beta testing program of the new add-on to Questionmark Results Management System (RMS ). Due to limited time and our migration to a new hardware environment and migration from v4.3 to v4.4 we are not able to test the add-on in a live situation. So we do not provide you with technical feedback. However, on the basis of the documentation I could establish a fair view on the functionality of the product. Below you find suggestions and comments about them and the report function of QM in general. I think that in general the functionality that is developed is a worthwhile addition to QM (actually, I would say that it had to be there already from the start). It is not so much the function to move data to a separate database and storing of (still semi-dynamic) reports though. I'll explain below. In Higher Education in the Netherlands in general, Support Staff are looking for ways to be very effective in the process of Test- and Question Analysis, the discussion of and adjustment of the Test and Questions (quite specifically dropping questions from a test, changing scoring rules, changing cut-off scores, calculation grades on the basis of percentage scores etc), and the final storage of scores (in the form of documents) and Formal grading of students. A system that supports that process can be very valuable. In QM however, this is not very effectively supported. Support Staff have to work with several reports and a lot with MS-Excel to get the data and output that is required. This is a cause of possible faults and is very time consuming as well requiring quite a lot of knowledge. So, for the Question and Test Analysis, we are looking for ONE Report function that provides our Staff with the following information (based on Classical Test Analysis): Initial Analysis Descriptive statistics of the Test (number of questions, number of students, max score, min score, average score, Standards Deviation, Variance, Reliablilty etc.). Graphic and tabular representation of score distribution Question Statistics for each question. When MC-questions are used, the Rit and discrimination values of both correct and incorrect answers also given in one table (not the very badly manageable, manipulable Item Analysis Report - please provide in the system more simple tabular representation or for example graphical representations such as item option diagrams). The RMS options to color questions that have low correlation values is a very nice option* .

    s.draaijer4 Bijlage 1 Evaluatie van RMS system en commentaar naarRMS ontwikkelaars

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 14

    Based on a cut-off score and score-to-grade rules that must be able to be set by the staff: percentage and numbers of students below and above the cut-off score a histogram showing clearly numbers or percentage of students below the cut-off score a score-to-grade calculated table, listing students and grades achieved. The score-to-grade calculation should be based on the following rules:

    • Staff must be able to choose between a number of 10 grading schema (0, 1, 2, ..10) or another schema (A, B, C ...)

    • Staff must be able to set the guess-score or minimum score: a grade of 0 or 1 must result in the table

    • Staff must be able to set the top-score (max score or 100% score): a grade of 10 must result in the table

    • Staff must be able to set the grade at the cut-off score: a grade of 5.5 or 6 • The system must calculate the grades for all students based on these rules.

    The system must output one file (PDF, Word, Excel) that contains all that information for easy printing or simple manipulation. If desired I can mail a document with an example output (but then MS -DOS text based - yet, all information is there). Evaluation of Initial Analysis After the production of this report, Staff and SMEs discuss the quality of the test and individual questions and decide on which questions to drop, what is to be a better cut-off score. They perform some new calculations by dropping some questions or re-assign scores to individual questions. They use the same report functionality (described above) to see what happens with the Reliability of the Test and ESPECIALLY change in percentage of students below or above the cut-off score line. Final Analysis and Formal grading After these calculations have been carried out, the final report is drawn up and archived. The final grades (not scores) or to be passed on the other staff in the institution that deal with the formal entering of grades in central grading systems of the Institution. In short:

    • I think you will agree that a lot of function in QM's report functions perform parts of the tasks that I describe (Test Analysis Report, Assessment Overview Report, Question Statistics Report, Item Analysis Report, Excel Report) but are poorly integrated causing in a time consuming and unreliable process for repeated Test and Question analysis purposes (we need to work in a highly productive way analysis more than 500 test each year).

    • The score-to-grade functionality is totally missing in QM • The options to drop questions or reassign score per question and recalculate the

    Test are very good functions to add to QM - however not particularly in a separate add-on function

    So, actually we are not very keen to license the RMS system because it only perfo rms a small bit of the functions we actually want to have (maybe we have to because besides

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 15

    working in Excel there is no alternative). We are much more interested in ONE new report functionality as I have described. I sincerely hope that QM is willing to think about the suggestions I make in this email. We sure want to contribute to the improvement of QM. Very kind regards, and best wishes for the new year, Silvester Draaijer * And if SME's start to use other than MC questions (which they do), a whole new world of techniques to determine acceptable levels of difficulty or measures for discrimination and correlation are necessary. I want to point you towards information in Haladyna, T. M. (2004). Developing and Validating Multiple -Choice Test Items (Third Edition ed.). London: Lawrence Erlbaum Associates. And if we really want to move forward to using IRT techniques to deliver computer adaptive test, QM has a long way to go. --------------------------------- ir. Silvester Draaijer Onderwijscentrum VU Amsterdam Centre for Educational Training, Assessment and Research (CETAR) Vrije Universiteit Amsterdam De Boelelaan 1105 1081 HV Amsterdam +31-(0)20-5985479 HYPERLINK "mailto:[email protected]"[email protected]

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 16

    5 Bijlage 2a Cookbook: Toetsanalyse

    s.draaijer5 Bijlage 2a Cookbook: Toetsanalyse

  • Procedure QMP4

    Cookbook Toetsanalyse

    Versie 1.1 tbv Questionmark Perception v4.4 SP1

    (concept)

    Cookbook Toetsanalyse gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “Template Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”

    Onderwijscentrum VU

    © mei 2008

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 2

    INHOUDSOPGAVE

    1 Inloggen in Questionmark Perception en opstart van documenten________3

    2 Algemene toetsgegevens: histogrammen en betrouwbaarheid___________3

    3 Scorelijst maken________________________________________________10

    4 Kwaliteitsanalyse van de vragen___________________________________18

    5 Aanpassen van scores en verwijderen van vragen uit de scorelijst ______24

    6 Bijlage 1: oplossen van downloadproblemen Excel Rapport ____________29

    7 Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier __29

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 3

    1 Inloggen in Questionmark Perception en opstart van documenten

    Ga naar http://e-toets.vu.nl/em4/login.asp Log in met het verstrekte wachtwoord en inlognaam.

    1.1 Open het word-template document “Template Tentamenanalyse v1.0.doc” en geef het

    een naam zoals: Toets- en itemanalyse tentamen …… 1.2 Open het Excel-template document “Template Tentamenanalyse v1.0.xls” en geef het

    een naam zoals Toets- en itemanalyse tentamen …… 1.3 Ga naar de Enterprise Reporter

    2 Algemene toetsgegevens: histogrammen en betrouwbaarheid 2.1 Ga naar Assessment Overview Report

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 4

    2.2 Gebruik het getoonde report template: VU_Quick_View_tbv_tent_analyse en gebruik het

    filter VU_tbv_tent_filter (dit filter zorgt ervoor dat scores onder de 20% niet meegenomen worden)

    2.3 Selecteer het juiste tentamen door via de knop naar het juiste tentamen te zoeken.

    2.4 Zoek via Search, Display All of via het tabblad Advanced het juiste tentamen.

    2.5 Gebruik de knoppen en om het bedoelde tentamen te verplaatsen naar het rechterdeel van het selectiescherm.

    2.6 Klik op als het juiste tentamen is geselecteerd in het rechterdeel. In het overzichtsscherm staat nu het juiste tentamen (in onderstaand voorbeeld: VUmc_PF_jan2008).

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 5

    2.7 Klik op of selecteer de tabbladen om evt. de juiste groep of juiste afname data en tijden te bepalen. Bij een regulier tentamen hoeft hier echter in het algemeen niets ingesteld te worden.

    2.8 Klik op

    2.9 Maak een schermafdruk van deze webpagina en plak deze in het Word document.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 6

    2.10 Bereken van de betrouwbaarheid gaat als volgt 2.11 Ga naar Test Analysis Report

    2.12 Klik op ‘create new’

    2.13 Klik op Find Assessments

    2.14 Klik op de gewenste toets

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 7

    2.15 Selecteer de optie Browser (HTML)

    Ga met de Next knop naar de volgende filters of klik op de tabbladen. Kies in ieder geval bij het tabblad More Options de volgende setting.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 8

    2.16 Klik op 2.16.1 Geef het rapport een naam.

    2.16.2 De browser vraagt nu evt. om het document te bekijken of op te slaan. Als het document geopend

    wordt met MS-Word kies dan voor de volgende indeling: Gecombineerd webpaginabestand.

    2.17 Kopieer de gegevens over de Test reliability (Cronbach’s Alph) in het word document.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 9

    2.18 Geef een advies over de betrouwbaarheid als volgt Cronbach alpha: < 0,6: Toets is onbetrouwbaar Cronbach alpha: 0,6 – 0,7: De toets is matig betrouwbaar Cronbach alpha: 0,7 – 0,8: De toets voldoende betrouwbaar Cronbach alpha: > 0,8: De toets heeft een goede betrouwbaarheid

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 10

    3 Scorelijst maken 3.1 Ga naar de optie Export for Excel in het Reporter hoofdmenu

    3.2 Selecteer opnieuw de juiste toets met de Select assessment -knop zoals in stap 2.3. en gebruik als report template: VU_scorelijst_tbv_tent, maar zet het filter alleen op “Do not use filter” (zodat geen enkele student wordt overgeslagen).

    OPMERKING 1

    In het scherm worden maar een beperkt aantal toetsen getoond. Gebruik om alle toetsen te kunnen zien.

    3.3 Klik op . 3.4 Het rapport kan nu geopend worden of opgeslagen.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 11

    OPMERKING 2

    Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Zie dan bij Hoofdstuk 6 Bijlage 1: oplossen van downloadproblemen Excel Rapport om te bekijken hoe dat opgelost kan worden. 3.5 Open het Excel document.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 12

    3.6 Verwijder eventueel de rijen waarin onzin uitslagen staan (bijvoorbeeld de antwoorden

    van de toetsontwikkelaar tijdens het testen van de toets).

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 13

    3.7 Indien nodig: Converteer de scores van tekst naar getal opdat er met de cijfers gerekend

    kan worden.

    3.8 Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in

    Excel. 3.8.1 Vraag aan de docent welke score in punten welk cijfer moet opleveren

    • Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten)

    • Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).

    Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 14

    Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten:

    • het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten) • het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder

    51 pt).

    In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078). 3.8.2 Reken voor elke student met de gegeven formule het cijfer uit

    • Voeg daarvoor eerst een lege kolom in in de scorelijst

    • Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ • Voeg de berekeningsformule toe en klik enter.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 15

    • Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.

    • Klik en sleep de gemaakte formule nu over de gehele kolom.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 16

    3.9 Bepaal het aantal studenten dat geslaagd is 3.9.1 Voer via het Excel template de volgende gegevens in onder de scores van de studenten.

    Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: = dan 32). De cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 17

    cesuur 32 punten aantal studenten < cesuur 15 aantal studenten >= cesuur 22 Totaal aantal studenten 37

    3.10 Selecteer tot slot de kolommen met de uitslag en het aantal gezakten/geslaagden en

    kopieer deze naar het Word document.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 18

    4 Kwaliteitsanalyse van de vragen 4.1 Ga in het Reporter hoofdmenu en kies daar voor Question Statistics Report.

    4.2 Kies weer de juiste toets en gebruik report template “VU_Quick_tbv_tent_analyse”

    4.3 Klik op .

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 19

    4.4 Selecteer de tabel en kopieer deze. Plak deze in het Word document. 4.4.1 Verwijder de rare opmaak door te kiezen voor Tabel à Tabeleigenschappen …

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 20

    4.4.2 Selecteer vervolgens voor Randen en Arcering …

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 21

    4.4.3 Verwijder alle arceringsopmaak van de cellen

    4.4.4 Voeg eventueel weer toe dat alle celgrenzen zichtbaar worden via het knoppenbalk menu.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 22

    4.4.5 Voeg onder de vraaganalyse de volgende tekst bij o vragen met lage/hoge Difficulty (0,85) en uitgesproken negatieve Correlation-waarden (0,2,

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 23

    Figuur 2 Kengetallen van één specifieke vraag. Het correcte antwoord is aangegeven door de outcome waarij een asterisk staat (*). Duidelijk is te zien dat veel studenten voor het verkeerde alternatief gekozen hebben (81%). Dat verklaart de negatieve Rit waarde bij deze vraag. Het was waarschijnlijk ook te verwachten dat deze vraag niet goed zou zijn gezien het laatste alternatief van de vraag waarin staat dat ‘bovenstaande alternatieven zijn allemaal correct’. Deze vraag moet gereviseerd worden.

    4.4.5.1 Het rapport is nu klaar en kan verzonden worden

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 24

    5 Aanpassen van scores en verwijderen van vragen uit de scorelijst

    Nadat het rapport is geanalyseerd en besproken door de docenten en anderen, kunnen er een aantal vervolgacties nodig zijn:

    • Een aantal vragen dienen te vervallen • Bij een aantal vragen moeten meerdere alternatieven goed gerekend worden of een ander

    alternatief In beide gevallen moeten de totaalscores op basis daarvan aangepast worden en moet opnieuw een cijfer worden toegekend op basis daarvan. 5.1 Laten vervallen van vragen Open het Excel bestand dat gemaakt is in stap 3

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 25

    Scorelijst maken. We gaan het volgende doen:

    1. We voegen een extra kolom in waarin de score berekend wordt op basis van de score van elke vraag

    2. We verwijderen de kolom waarin de vraag staat die we willen verwijderen. 5.1.1 Extra kolom invoegen om score te laten berekenen

    5.1.2 Geef de kolom een titel

    5.1.3 Voeg een berekeningsformule in de alle scores sommeert: =SOM(L4;4). (bij een

    Engelstalige versie van MS-Excel is deze formule SUM)

    5.1.4 Klik en sleep de formule over de gehele kolom

    s.draaijer

    s.draaijer

    s.draaijer

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 26

    5.1.5 Verwijder de kolom die de score op de vraag bevat die verwijderd moet worden. In dit voorbeeld

    gaat het om vraag ‘Question 2’ met description ‘VUmc_PF_jan2008_001’. De score wordt nu automatisch voor iedereen herberekend.

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 27

    Pas nu het cijfer aan door de kolom die het cijfer berekend aan te passen. Let op: er moet mogelijk op basis van een nieuwe cesuur een berekening worden gepleegd. Zie daarvoor stap 3.8 Bereken op basis van de scores het bijbehorende cijfer via onderstaande stappen in Excel. 5.2 Aanpassen van de score van vragen Het kan zo zijn dat er bij vragen meerdere alternatieven correct worden gerekend of dat er andere alternatieven correct zijn. We gaan als volgt te werk.

    1. We downloaden een nieuwe Excel bestand met scores maar daarin staan de scores en de gegeven antwoorden van de studenten.

    2. We passen de scores op specifieke vragen aan 3. We herberekenen de scores zoals gedaan in stap 5.1 Extra kolom invoegen om score te laten

    berekenen. 5.2.1 Voer stap 3 Scorelijst maken opnieuw uit, maar kies nu voor template

    VU_score_and_answer_tbv_tent

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 28

    Elke kolom bevat nu zowel het gegeven antwoord als de score. U kunt een functie toevoegen in de kolom met ‘Actual Score’. Een voorbeeld daarvan is onderstaande

    De ingevoegde formule is: =ALS(OF(J7="probleemgedrag";J7="een syndroom");1;0) (Engelse MS-Excel: =IF(OR J7="probleemgedrag";J7="een syndroom");1;0) Dit betekent zoveel als: als de waarde in de cel J7 de waarde heeft “probleemgedrag” OF de waarde in de cel J7 heeft de waarde “een syndroom”, dan wordt de score gezet op “1”. In alle andere gevallen wordt de score “0”. Met de functie ‘automatisch aanvullen’ kan een dergelijke formule (nadat deze goed is geformuleerd) op de waarden van een gehele kolom worden toegepast. 5.2.2 Overnemen van scores naar de oorspronkelijke scorelijst Nadat de scores op deze wijze zijn herberekend kunnen ze via knippen en plakken naar de oorspronkelijke scorelijst worden gekopieerd (let wel op evt. verwijderde rijen uit eerdere handelingen in de scorelijst). 5.2.3 Herbereken de scores zoals gedaan in stap 5.1.1 Extra kolom invoegen om score te laten

    berekenen

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 29

    6 Bijlage 1: oplossen van downloadproblemen Excel Rapport Vanuit Internet Explorer lukt het niet altijd goed om een Excel-file te exporteren. Belangrijk is dat de volgende settings in de browser goed staan: • Pop-up blokkering van Internet Explorer staat uit (in ieder geval voor vu -acc.qmark.nl en vu.qmark.nl • Pop-up blokkering van bijvoorbeeld de Google toolbar staat ook uit (in ieder geval voor vu-acc.qmark.nl

    en vuem.qmark.nl • Vu-acc.qmark.nl en vuem.qmark.nl moeten door Internet Explorer aangemerkt worden als trusted site

    1. Kies in IE voor Extraà Internet Opties…à 2. Kiest tabblad Security en kies daarin Trusted Sited. Klik dan op de knop Sites.

    3. Voeg dan http://vuem.qmark.nl toe en http://vu.qmark.nl.

    4. Bevestig alles. • Internet Explorer moet toestaan dat downloads via een site mogen worden gedaan.

    1. Ga in IE naar >> Tools >> Internet Options >> Security. 2. Klik op 'Trusted Sites' en vervolgens op 'Custom level...' 3. Zoek naar het kopje 'Downloads' en zet 'Automatic prompting for file downloads' op 'Enable'

    Mochten er dan nog problemen optreden, mail dan even naar [email protected].

    7 Bijlage 2: Berekening Toetsbetrouwbaarheid op de ouderwetse manier

  • Cookbook Toetsanalyse QMP VU v1.1

    © Onderwijscentrum VU 2008 30

    7.1 Voer de gevraagde gegevens in zoals weergegeven in de figuur hieronder in het template Excel document.

    Kopieer de cellen met de berekening en plak deze in het Word document.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 17

    6 Bijlage 2b Cookbook: Score-cijfertransformatie

    s.draaijer6 Bijlage 2b Cookbook: Score-cijfertransformatie

  • Procedure QMP4

    Cookbook Score-cijfertransformatie

    Versie 1.1 tbv Questionmark Perception v4.4 SP1

    (concept)

    Cookbook score-cijfertransformatie gebaseerd op Klassieke Toetstheorie voor multiple choice tentamens. Gebruik dit document samen met “Template Tentamenanalyse v1.0.doc” en “Template Tentamenanalyse v1.0.xls”

    Onderwijscentrum VU

    © mei 2008

  • Quickstart Tentamenanalyse VU v1.0

    © Onderwijscentrum VU 2

    INHOUDSOPGAVE 1.1 Bereken op basis van de scores het bijbehorende cijfer via onderstaande

    stappen in Excel. Grafisch gezien wordt er gebruik gemaakt van het verband zoals in onderstaande figuur is weergegeven. De totale raadkans van het tentamen bestond uit de raadscore van de meerkeuzevragen (0,25 punt per vraag) Het geven van cijfers aan studenten vindt plaats op basis van de behaalde score, verdisconteert met de raadscore. Zo wordt het cijfer 1,0 toegekend aan studenten die de raadscore behalen, en het cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuurscore (bijv. 5,5) ligt halverwege de raadscore en de maximale score. Deze methode van score-cijfertransformatie wordt veel toegepast in het Hoger Onderwijs (Dousma, Horsten, & Brants, 1997 blz. 164).

    Figuur 1 Het verband tussen de score op een toets en het bijbehorende cijfer.

    1.1.1 Vraag aan de docent welke score in punten welk cijfer moet opleveren

    • Welke score geeft het cijfer 1 (dit is de minimale score, vaak de raadscore - in het voorbeeld hieronder 13 punten)

    • Welke score geeft het cijfer 10 (dit is meestal de maximale score mogelijk op de toets – in het voorbeeld hieronder 51 pt).

    Gebruik het template Excel document om op basis van die gegevens de cesuurscore in punten uit te rekenen. In het voorbeeld hieronder is de cesuurscore 32 punten.

    Het kan ook zijn dat de docent niet de score opgeeft voor een cijfer 1, maar juist van de cesuurscore. Vraag dan aan de docent welke score in punten:

    • het cijfer 5,5 geeft (dit is de cesuurscore - in voorbeeld hieronder 32 punten)

    raadscore

    cijfer

    1

    5,5

    10

    maximale score

    cesuurscore

  • Quickstart Tentamenanalyse VU v1.0

    © Onderwijscentrum VU 3

    • het cijfer 10 geeft (dit is meestal de maximale score mogelijk op de toets – in voorbeeld hieronder 51 pt).

    In alle gevallen is het cijfer van elke student dan gelijk aan de waarde A (in voorbeeld 0,237) maal de score in punten van de student plus een vaste waarde B (in voorbeeld -2,078). 1.1.2 Reken voor elke student met de gegeven formule het cijfer uit

    • Voeg daarvoor eerst een lege kolom in in de scorelijst

    • Voeg een kolomkop toe met als titel bijvoorbeeld ‘cijfer’ • Voeg de berekeningsformule toe en klik enter.

    • Het kan zijn dat de notatie van het cijfer niet goed is. Gebruik de getal- en celopmaakopties van Excel om de waarde goed te krijgen met 1 cijfer achter de comma.

    s.draaijer

    s.draaijer

    s.draaijer

  • Quickstart Tentamenanalyse VU v1.0

    © Onderwijscentrum VU 4

    • Klik en sleep de gemaakte formule nu over de gehele kolom.

  • Quickstart Tentamenanalyse VU v1.0

    © Onderwijscentrum VU 5

    1.2 Bepaal het aantal studenten dat geslaagd is 1.2.1 Voer via het Excel template de volgende gegevens in onder de scores van de

    studenten.

    Deze formule geeft aan dat het aantal malen dat de score beneden of boven een bepaalde waarde is (in het voorbeeld gaat het dan om de cesuurscore: = dan 32). De

  • Quickstart Tentamenanalyse VU v1.0

    © Onderwijscentrum VU 6

    cesuurscore is helaas niet met een celverwijzing in te voeren. De cesuurscore moet met de hand ingevoerd worden. cesuur 32 punten aantal studenten < cesuur 15 aantal studenten >= cesuur 22 Totaal aantal studenten 37 Dousma, T., Horsten, A., & Brants, J. (1997). Tentamineren (derde druk ed. Vol. 3): Wolters -

    Noordhoff.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 18

    7 Bijlage 3a Artikel Draaijer & van den Bos (2008)

    s.draaijer7 Bijlage 3a Artikel Draaijer & van den Bos (2008)

  • -1-

    Titel: Tentamens met de computer: een vergelijking van meerkeuze en alternatieve

    vraagvormen

    S. Draaijer (Onderwijscentrum VU, Vrije Universiteit Amsterdam, [email protected]) en G.C.

    van den Bos (VU medisch centrum Amsterdam, [email protected])

    Samenvatting

    In het medisch onderwijs wordt meer en meer gebruik gemaakt van beeldschermtoetsing en

    alternatieve vraagvormen. In een speciaal geprepareerd beeldschermtentamen werden traditionele

    meerkeuzevragen en alternatieve vraagvormen aan studenten voorgelegd om deze voor wat

    betreft scores en slaagpercentages met elkaar te kunnen vergelijken. De meerkeuzevragen

    dienden tevens als referentie. Voor het tentamen werden drie alternatieve vraagvormen toegepast:

    Drag-and-dropvragen, Multiple Response vragen en Matchingvragen. De slaaggrens werd

    bepaald volgens het model waarbij de studenten de helft van het aantal punten moeten scoren

    nadat correctie voor scoring op basis van de raadkans heeft plaatsgevonden. Deze methode wordt

    op grote schaal gebruikt in het Hoger Onderwijs. De resultaten laten zien dat de alternatieve

    vraagvormen vele mogelijkheden bieden en scores opleveren die dezelfde ordegrootte hebben als

    meerkeuzevragen. De alternatieve vraagvormen resulteren echter wel in verschillende

    slaagpercentages.

    Summary

    In medical education, the use of on-screen examination and new question types is increasing. In

    an experiment, traditional multiple choice questions and new question types were presented to

    students, in order to compare these question types with respect to scores and pass rates. The

    multiple choice questions served as base-line. In the exam, three new question types were used:

    drag-and-drop questions, multiple response questions and matching questions. The cut-scores

    were set according to the linear model for score-to-grade transformation adapted on the basis of

    the guess score. This method is common practice in Higher Education in the Netherlands. The

    results of the experiment show that the new question types reliably assess medical knowledge and

    that their scores can vary but are comparable to multiple choice questions. The new question

    types lead to considerable different pass rates however.

  • -2-

    Inleiding

    In het geneeskunde onderwijs worden, ondanks een enorme toename van het gebruik van digitale

    leeromgevingen, weinig tentamens afgenomen via het beeldscherm. Dat heeft ten eerste een

    logistieke oorzaak: de meeste instellingen beschikken niet over zalen met voldoende computers

    voor alle examinandi. Een tweede reden is waarschijnlijk onbekendheid met de mogelijkheden

    van moderne toetsprogramma’s om andere dan de klassieke meerkeuze vragen te genereren, zoals

    vragen waarbij de student begrippen of tekens moet verslepen naar locaties in een gepresenteerde

    figuur. Uit de literatuur is betrekkelijk weinig bekend over het gebruik van dergelijke alternatieve

    vraagvormen 1, 2. Aanwijzingen voor het ontwikkelen van dergelijke vragen, in dit artikel

    “alternatieve vraagvormen” genoemd, worden beschreven door bijvoorbeeld Draaijer en Hartog 3,

    4. Met betrekking tot alle vraagvormen geldt echter dat het bij de student opgeroepen denkproces

    meer wordt bepaald door de stimulus van de vraag (wat er gevraagd wordt) dan door de

    responsvorm zoals meerkeuze, juist/onjuist of essay 5. Wel kan de motivatie van de lerende

    verhoogd worden door attractieve vormgeving en interactie 6, 7. Verder is bekend dat polytoom

    gescoorde vragen (waarbij de student 0, 1, 2 etc. punten per vraag kan scoren) ten opzichte van

    dichotoom gescoorde vragen (waarbij de student slechts 0 of 1 punt kan scoren), betere vraag-

    toetscorrelaties hebben, maar meer tijd kosten om te beantwoorden 8. Verder blijkt dat het

    bepalen van goede scoringsvoorschriften voor alternatieve vraagvormen niet eenvoudig is 9, 10.

    Ter voorbereiding op de invoering van beeldschermtoetsing worden in het VUmc, sinds twee

    jaar, de herkansingen van de cursussen Bioregulatie, Hart en bloedsomloop, en Nier en milieu

    interieur, alle uit het tweede studiejaar van het aflopende Curriculum ’91, afgenomen met behulp

    van het programma Questionmark Perception (QMP). Dat programma ondersteunt een groot

    aantal vraagvormen via het beeldscherm.

    In dit onderzoek gingen wij na of door alternatieve vraagvormen het slagingspercentage

    verandert, en zo ja, hoe.

    Methoden

    Wij voerden ons experiment uit met de tweede herkansing van het derdejaarstentamen Voeding

    en Spijsvertering, waarin de vakgebieden Celbiologie (3), Medische Chemie (10), Fysiologie

    (12), Pathologie (10), Kindergeneeskunde (10), Heelkunde (10) en Maag/darm/leverziekten (23)

    betrokken zijn (getallen tussen haakjes: aantal vragen). Het tentamen bestond uit 56 vierkeuze- en

  • -3-

    22 alternatieve vragen. De vierkeuze- en alternatieve vragen waren evenredig per onderwerp

    verdeeld.

    Aan het tentamen namen 70 studenten deel. Op grond van eerdere ervaringen met

    beeldschermtoetsing en de mogelijkheid om desnoods alleen van de 56 vierkeuze vragen gebruik

    te maken voor becijfering, werd dit experiment verantwoord geacht.

    Het voorgaande reguliere tentamen, en de daaropvolgende eerste herkansing, werden afgenomen

    met 75 vierkeuze vragen. In het huidige tentamen (de tweede herkansing) werden de uitkomsten

    van de 56 vierkeuze vragen gebruikt als referentie: op basis van die vragen kon bepaald worden

    of de alternatieve vraagvormen leiden tot hogere scores en hoe dit invloed heeft op het

    slaagpercentage.

    Naast de meerkeuzevragen kozen wij als alternatieve vragen:

    1 Drag-and-dropvragen (DrandDr) waarbij studenten een aantal begrippen of symbolen

    moeten verslepen naar rechthoeken in een gegeven figuur, of naar een flowdiagram

    (aantal te verslepen termen 1 of meer groter dan het aantal rechthoeken of het aantal open

    plaatsen in het diagram om de onderlinge afhankelijkheid van de antwoordopties te

    verkleinen).

    2 Matchingvragen (Match) waarbij een aantal begrippen uit één kolom op de juiste wijze

    moet worden gecombineerd met de begrippen in een tweede kolom (aantal begrippen in

    de tweede kolom 1 of meer groter dan dat in de eerste om de onderlinge afhankelijkheid

    van de antwoordopties te verkleinen).

    3 Multiple Response vragen (MR) waarin meer dan één keuze juist is.

    Deze vragen worden ook vaak meer-uit-meervragen genoemd.

    Het gekozen scoringsmodel is zo dat:

    • er per correct gekozen alternatief 1 punt wordt gegeven;

    • er per gekozen afleider 0 punten worden gegeven;

    • er vooraf bekend wordt gemaakt aan de student hoeveel juiste keuzes er zijn. Dit

    laatste wordt gedaan om de onzekerheid omtrent de wijze van beantwoorden te

    verkleinen.

    De figuren 1, 2, 3 en 4 zijn voorbeelden van respectievelijk DrandDr (Fig. 1, 2) , een Match (Fig.

    3) en een MR vraag (Fig. 4).

    Figuur 1

  • -4-

    Completeer onderstaande figuur van het zuur secreterende mechanisme van de pariëtale (=

    wand-) cel door 6 van de bijgevoegde termen te verschuiven naar de juist rechthoek in de figuur

    NB. ca: carbo-anhydrase; bedenk dat van de rechthoeken naast de H+, de bovenste een ion

    betreft en de onderste een proces in de pomp.

    Correcte antwoord

    Een DrandDr vraag waarbij 6 begrippen naar een basisfiguur moeten worden versleept (en er 1 afleider is: cAMP)

    Figuur 2

    U ziet hieronder een diagram over de gevolgen van maldigestie (gestoorde vertering).

    Completeer het diagram door het verslepen van een aantal bijgevoegde begrippen naar de juiste

    posities.

  • -5-

    Correcte antwoord

    Een DrandDr vraag waarbij een redenering met 4 begrippen moet worden gecompleteerd (er zijn dus ook 4 afleiders).

    Figuur 3

  • -6-

    Correcte antwoord

    Een Match vraag waarbij 8 begrippen in de rechterkolom ieder met een bijbehorend begrip uit de linkerkolom

    gecombineerd moeten worden (en er is 1 afleider: verhoogde ratio HDL/LDL)

  • -7-

    Figuur 4

    Correcte antwoord

    Een MR vraag waarbij de 3 juiste alternatieven aangevinkt moeten worden (op beeldscherm is de volgorde van

    alternatieven gerandomiseerd).

    Vier weken voor de tentamendatum stond de studenten een oefententamen (inclusief

    oefenvoorbeelden van de alternatieve vragen) ter beschikking met beredeneerde en naar de

    studiestof verwijzende antwoorden.

    De vierkeuzevragen werden gemaakt door de vakdocenten; voor de alternatieve vragen gaven

    deze docenten ook aan wat zij wilden vragen, waarna hun voorstellen door een QMP-deskundige

    werden omgezet in het bedoelde QMP-format. De eindredactie van alle, ook de alternatieve

    vragen, lag bij de blokvoorzitter. De alternatieve vraagtypen werden polytoom gescoord: elke

    goede keuze in een vraag (bijvoorbeeld het selecteren van een goed alternatief uit een MR vraag),

    leverde de student 1 punt op. Voor dit scoringsmodel is gekozen omdat daarbij elke goede keuze

    beloond wordt, wat door de studenten als meest redelijk wordt ervaren.

    De gebruikte methode van score-cijfertransformatie is die op basis van een lineair verband met

    verdiscontering van de raadscore. De raadscore wordt daarbij gedefinieerd als de verwachte score

    bij het volledig random beantwoorden van vragen.

  • -8-

    In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten

    (p(qi)), maal het betreffende aantal punten (qi). In formulevorm: qraad = S(p(qi)*qi).

    De raadscore van een vierkeuze multiple choice vraag is daarmee gelijk aan

    qraad_4mc=p(0)*0+p(1)*1=0,75*0+0,25*1=0,25=25%. Bij toetsvragen die polytoom gescoord

    worden is het iets moeilijker om een dergelijke raadscore te bereken. Voor bijvoorbeeld een MR

    vraag met 5 opties waarbij drie opties correct zijn volgens het scoringsmodel zoals gegeven op

    blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3=

    0*0+4/10*1+5/10*2+1/10*3=1,70 punten.

    Voor Match vragen (waarbij elke te kiezen optie éénmaal gekozen mag worden) geldt een relatief

    eenvoudige berekening waarbij geldt dat de kansscore gelijk is aan de kans per optie om at

    random gekozen te worden maal het aantal vragen: qr=aantal_vragen*(1/aantal opties). Voor

    bijvoorbeeld een Match vraag met 5 vragen en 6 opties is de kans qraad 5-6_Match=5*1/6=5/6.

    Het geven van cijfers aan studenten vond plaats op basis van de behaalde score, verdisconteerd

    met de raadscore. De methode is grafisch weergegeven in Figuur 5. De methode wordt veel

    toegepast in het Hoger Onderwijs en is efficiënt 11 blz. 164. In het kort komt de methode er op neer

    dat de score waarbij studenten slagen, halverwege de raadscore en de maximale score wordt

    gekozen (vaak wordt ook de grens op 55% of 60% gesteld). Het is belangrijk om daarbij aan te

    geven dat een kleine aanpassing van de cesuurscore een grote invloed heeft op het percentage

    geslaagde studenten. Dit wordt veroorzaakt doordat in veel toetsen, de grootste groep studenten

    een score heeft die zich rondom die cesuurscore bevindt. Zo kan bijvoorbeeld een verhoging van

    de cesuurscore met 1% leiden tot mogelijk 6% minder geslaagden op een toets. In de figuur

    wordt dit aangegeven door de verticale lijn bij de cesuurscore die het gebied afsluit van de

    proportie van de studenten die slaagt.

    Figuur 5

  • -9-

    Het verband tussen de score op een toets en het bijbehorende cijfer, de cesuurscore en het slaagpercentage.

    De figuur toont dat het laagste cijfer (bijv. een 1,0) wordt toegekend aan studenten die de raadscore behalen, en het

    cijfer 10,0 aan studenten die alle vragen correct beantwoorden (maximale score). De cesuur (bijv. het cijfer 5,5) ligt

    halverwege de raadscore en de maximale score. De normaalcurve geeft de gebruikelijke spreiding van de scores aan

    over de populatie van de studenten. Afhankelijk van deze) is er een bepaald percentage studenten dat zakt cq. slaagt.

    Resultaten

    Er bleken na een vraaganalyse 4 vierkeuzevragen ongeschikt, vanwege de combinatie van een

    zeer lage score met een lage of negatieve vraag-toetscorrelatie (Rit) wat meestal duidt op een

    vraag die niet duidelijk is geformuleerd. Ook werden twee MR vragen uit de analyse verwijderd

    omdat in de stam van die twee vragen niet het aantal correcte alternatieven bleek te zijn

    aangegeven terwijl dat bij alle andere MR vragen wel het geval was. Het opnemen van deze twee

    MR vragen in de analyse zou kunnen leiden tot uitspraken over twee ongelijke vraagvormen.

    De scoreverdeling op de toets is weergegeven in de histogrammen van Figuur 6. De

    scoreverdeling toont een normaalverdeling met verschoven top. Deze is gebruikelijk voor

    tentamens.

    raadscore

    cijfer

    1

    5,5

    10

    maximale score

    cesuurscore

    Proportie van studenten

    die slaagt.

  • -10-

    Figuur 6

    NO_MC

    0

    5

    10

    15

    20

    25

    00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

    1

    percentagescore

    Freq

    uent

    ie

    MC

    0

    5

    10

    15

    20

    25

    00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

    1

    percentagescore

    Freq

    uent

    ie

    All_Q_types

    0

    5

    10

    15

    20

    25

    00,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

    1

    percentagescore

    Fre

    qu

    enti

    e

    Histogrammen van de scoreverdeling op de toets voor alle vragen gezamenlijk (All_Q_types), alleen de vierkeuze

    vragen (MC) en alle alternatieve vragen (NO_MC).

    De betrouwbaarheid (Cronbach Alpha) van het tentamen als geheel was 0,79. Dat is hoger dan

    die van de reguliere (papieren) herkansingen (0,72), en voor summatieve toetsen een acceptabele

    waarde. De betrouwbaarheid van de toets op basis van alleen de meerkeuzevragen was 0,70 en op

    basis van alleen de alternatieve vragen 0.65. Alle drie waarden bevestigen dat de toets goed

    discrimineert tussen de studenten.

    De studenten gaven aan (wij vroegen hen individueel naar hun ervaringen als zij hun antwoorden

    hadden “ingeleverd”) dat zij het tentamen “leuk en uitdagend” hadden gevonden, onder meer

    omdat zij vonden dat ze gedwongen werden om beter na te denken, vooral bij de DrandDr- en de

    Matchvragen. Dit commentaar is in overeenstemming met de verwachtingen.

  • -11-

    De gemiddelde score van de 70 studenten op het tentamen uitgedrukt in een percentagescore was

    66%. Als deze score wordt vertaald naar een situatie waarbij bijvoorbeeld alleen het gebruik van

    dichotoom gescoorde meerkeuzevragen zou zijn toegepast, betekent dit dat de studenten

    gemiddeld 66% van de vragen goed hebben beantwoord. Indien deze score vertaald wordt naar

    polytome vragen, wil dit zeggen dat studenten gemiddeld 66% van het totaal aantal te behalen

    punten hebben gescoord.

    Op basis van de score-cijfertransformatie als aangegeven in Figuur 5, zou 67% van de studenten

    slagen (dat het cijfer van de gemiddelde score en het slaagpercentage bijna gelijk zijn is in dit

    geval toevallig – zie de toelichting bij Figuur 5).

    In navolgende tabellen zijn de aantallen vragen en hun karakteristieken weergegeven.

    Tabel 1

    uits

    luite

    nd

    mee

    rkeu

    zevr

    agen

    a

    uits

    luite

    nd a

    ltern

    atie

    ve

    vraa

    gvor

    men

    b

    MR

    Mat

    ch

    Dra

    ndD

    r

    alle

    vra

    gen

    aantal vragen (n) 52 20 6 6 8 72

    Maximum score (punten) 52 92 18 41 33 144

    Gemiddelde procentuele

    score op de vragen 65% 69% 71% 64% 72% 66%

    Cronbach Alpha 0,70 0,65 0,79

    Gemiddelde van vraag-

    toets correlatie a 0,21 0,34 0,29 0,44 0,30 0,25

    Raadscore (punten) en

    bijbehorend raadpercentage 13 / 25% 22,8 / 25% 8,8 / 49% 5,2 / 13% 8,8 / 27% 38,8 / 26%

    Cesuurscore (punten) b 32,5 57,4 13,4 22,6 20,9 89,9

  • -12-

    Slaagpercentage van de

    studenten 61% 77% 34% 79% 81% 67%

    Overzicht van het tentamen en het aantal verschillende vragen met hun diverse

    bijbehorende karakteristieken.

    a Gemiddelde item-testcorrelatie (correlatie tussen de score op een vraag en de toetsuitslag) op een schaal van -1

    tot +1; hoe hoger de waarde des te meer de score op de betreffende vraag correleert met de eindscore op de

    toets. In het algemeen dient deze waarde hoger dan 0,2 te zijn.

    b De cesuurscore op basis van het lineaire scoringsmodel uitgaande van de raadscore en cesuurop 50%..

  • -13-

    Uit Tabel 1 blijkt dat de gemiddelde score op de vragen uiteenloopt. Het gemiddelde tussen de

    score op de MC vragen en de alternatieve vraagvormen verschilt 4% en dit verschil is significant

    (t (69) = 3,89; p = ,000.). De Match vragen scoren bijna net zo hoog als de meerkeuzevragen; de

    MR en de DrandDr vragen scoren gemiddeld hoger. De gemiddelde vraag-toetscorrelatiewaarden

    van de alternatieve vragen zijn, zoals verwacht, ook hoger, maar de waarden van de MR vraag

    wijkt nauwelijks af van de MC vragen. Dat laatste is een indicator dat het meetvermogen van de

    MR vragen niet optimaal is.

    In Tabel 1 is op basis van de scores en de score-cijfertransformatie aangegeven welk deel van de

    studenten zou slagen. Volgens deze gegevens zou op basis van alleen de vierkeuzevragen, 61%

    van de studenten slagen.. Op basis van de alternatieve vraagvormen zou 77% van de studenten

    slagen. Dit is significant: Chi2 (1) = 0,02; p = ,006.). Op basis van alleen de MR vragen zou 34%

    slagen, terwijl dat voor de Match vragen 79% en de DrandDr vragen 81% zou zijn.

    Gezien het relatief grote aantal punten dat behaald kon worden bij de Match en de DrandDr

    vragen, is het uiteindelijke slaagpercentage ten opzichte van alleen de MC vragen hoger. De

    invloed van het lage slagingspercentage op basis van alleen de MR vragen is, vanwege het

    relatief lage aantal te behalen punten voor de MR vragen, klein.

    Discussie

    We hebben een experiment uitgevoerd in een reële tentamensituatie. Studenten hebben een

    computertoets gedaan waarin ze antwoorden moesten geven op een mix van meerkeuzevragen en

    alternatieve vraagvormen. Doordat we aan kunnen nemen dat de beheersingsgraad van de stof

    door de studenten gelijk is , kunnen we uitspraken doen over de verschillen in scores en

    slaagpercentages voor de verschillende vraagvormen.

    Methodische beperkingen

    Uit logistieke overwegingen (gelimiteerd aantal beeldschermen en ruimtes) hebben wij voor een

    herkansingstentamen gekozen. Het gebruik van groepen herkansers voor onderwijskundige

    experimenten is aanvechtbaar: de groepen zijn voorgeselecteerd vanwege het falen bij een eerste

    tentamenpoging en het aantal studenten is meestal klein. In ons geval moet ook nog in de

    overwegingen betrokken worden dat deze herkansers onder de druk van een ten einde lopend

    curriculum werkten. De scores van de studenten zijn echter volgens een normaalverdeling

    gespreid. De combinatie van daadwerkelijke kennisspreiding en normaalverdeling geeft aan dat

  • -14-

    de toets voldeed aan voorwaarden voor klassieke toetsanalyse. Aan de voorwaarden om

    uitspraken te doen over het tentamen als geheel is dus voldaan.

    Helaas is het niet mogelijk voor wat betreft de scores en de percentages geslaagden algemene

    conclusies te trekken voor de verschillende alternatieve vraagvormen. In het experiment zijn van

    elk type daarvoor te weinig vragen aanwezig (n=6, 8); conclusies in dit artikel zijn dan ook

    vooral illustratief bedoeld. Ze vormen vooral aanzet tot discussie en verder onderzoek.

    Overwegingen met betrekking tot de percentagescore en cesuurbepaling

    Voordat wij tot het gebruik van alternatieve vragen overgingen, verwachtten wij dat dit zou

    leiden tot een lager slagingspercentage. Wellicht omdat zij meer naar inzicht dan naar feiten

    zouden vragen. Het slagingspercentage daalde echter niet.

    Als gekeken wordt naar de gemiddelde score op de vragen, blijken MR vragen en DrandDr

    vragen hoger te scoren dan vierkeuzevragen. Op deze twee vraagtypen kiezen studenten blijkbaar

    snel de juiste opties en scoren snel punten. De gemiddelde score op de Match vragen is bijna

    gelijk aan die van de vierkeuzevragen.

    Wordt er gekeken naar het slagingspercentage, dan zien wij een ander beeld. Toepassing van de

    score-cijfertransformatie op basis van de raadscore leidt bij MR vragen tot een laag, en bij

    Matching en DrandDr vragen tot een hoog slagingspercentage. Bij de MR vragen wordt dit

    veroorzaakt doordat hun raadscore in de buurt van 50% ligt zodat de cesuurscore bij MR vragen

    hoog is. Hierdoor slagen weinig studenten bij een gemiddelde score die vergelijkbaar (of slechts

    weinig hoger is) dan die van vierkeuzevragen. Bij de Match vragen slagen relatief veel studenten

    omdat de raadscore en de bijbehorende cesuurscore juist vrij laag zijn. Bij de DrandDr vragen is

    het beeld opnieuw anders: hier slagen meer studenten terwijl de raadscore vergelijkbaar of zelfs

    kleiner is dan die van meerkeuzevragen. Voor de DrandDr vragen scoren de studenten blijkbaar

    daadwerkelijk gemakkelijker punten.

    Voor de MR vragen uit het experiment kunnen we zeggen dat de keuze voor het scoringsmodel

    voor deze vragen (1 punt per goed gekozen alternatief en geen aftrek van punten voor een

    gekozen afleider) niet leidt tot een betrouwbare meting. Door de hoge raadkans wordt het

    meetgebied van deze vragen klein en discrimineren de vragen niet heel goed (gemiddelde Rit

  • -15-

    waarde is niet hoger dan vierkeuzevragen). Een beter scoringsmodel voor deze vragen kan zijn

    om te werken met aftrek van punten per gekozen afleider en bijvoorbeeld een minimale score van

    0 punten. Hierdoor daalt de raadscore sterk.

    Voor zowel de Match als de DrandDr vraagvormen in het experiment zouden we kunnen zeggen

    dat de studenten hun partiële kennis goed kunnen laten zien en daar ook voor beloond worden. Ze

    scoren waarschijnlijk relatief gemakkelijk punten door het goed kiezen van de ‘gemakkelijke’

    onderdelen van deze vragen. De ‘moeilijker’ onderdelen zorgen er echter voor dat de vragen toch

    goed discrimineren. Door de interne afhankelijkheid van de afleiders in dergelijke vragen

    (ondanks het invoegen van afleiders bij deze vragen) leidt de statistische raadscore tot een hoger

    slaagpercentage dan bij toepassing van alleen vierkeuzevragen. Bij de cesuurbepaling zou daar

    rekening mee kunnen worden gehouden.

    Overwegingen voor ontwikkeling van alternatieve ofwel beeldschermvragen

    De validiteit van een toets wordt bepaald door de mate waarin de toets meet wat gemeten dient te

    worden. Het doel van het maken van alternatieve vragen voor tentamens is niet dat op basis

    daarvan evenveel studenten slagen als bij alleen toepassing van MC vragen. Het doel moet zijn

    om studenten te bevragen op een aantrekkelijke manier en op een manier die recht doet aan de

    stof. Een zeer groot deel van de geneeskundige diagnostiek berust op beeldvormende technieken.

    Studenten moeten daartoe omgaan met foto’s en afbeeldingen, waarop zij afwijkingen moeten

    leren herkennen en aanwijzen: DrandDr-technieken zijn ideaal om dergelijke vaardigheden te

    onderwijzen en te toetsen. Veel inzicht in de geneeskunde berust bovendien op concepten

    waarvan kennis inzichtelijk kan worden gemaakt en getoetst door het verslepen van begrippen

    naar “lacunes in een diagram of flowchart”. Ook hier dus een vorm van de DrandDr-technieken.

    Een bijkomend argument voor het toepassen van dergelijke vragen is dat beelden vaak

    eenduidiger zijn dan tekst, waardoor de invloed van de taalbeheersing van studenten op de meting

    wordt verminderd.

    Onze bevindingen laten zien dat alternatieve vraagvormen niet onder doen voor klassieke

    vragen bij het maken van toetsen. Zij maken het mogelijk om leerstof interessanter te bevragen.

    De vragen maken goed onderscheid in de mate waarin de studenten de stof beheersen. Voordat

    het geneeskunde onderwijs echter op grote schaal van dergelijke alternatieve vragen gebruik zal

    kunnen maken, is meer inzicht nodig in de specifieke eigenschappen van deze vragen en moeten

  • -16-

    docenten een gevoel ontwikkelen voor de ‘moeilijkheid’ van dergelijke vragen. Proeven met

    gelijke aantallen meerkeuze en alternatieve vraagvormen en grotere aantallen studenten zijn daar

    in het bijzonder voor nodig.

    Online voorbeelden van digitale vragen zijn te bekijken via:

    https://www.surfgroepen.nl/sites/flextoets/NVMOartikel/Home.aspx

    Gebruik hiervoor Internet Explorer aangezien andere browsers de toetsvragen niet goed

    weergeven.

    Dankbetuiging

    Wij danken drs. C.J.L.H. Camps, Dr. AJ. Greven, Dr. W. van de Laarse, Dr. R.J.P. Musters, Drs.

    C. Reumer en Drs. M.I. Schade voor hun adviezen en het kritisch lezen van het manuscript.

    1. Haladyna TM. Developing and Validating Multiple -Choice Test Items. Third Edition ed.

    London: Lawrence Erlbaum Associates; 2004.

    2. Parshall CG, Spray JA, Kalohn JC, Davey T. Practical considerations in computer-based

    testing. New York: Springer-Verlag; 2002.

    3. Draaijer S, Hartog R. Design Patterns for digital item types in Higher Education. e-

    Journal of Instructional Science and Technology. 2007;10(1).

    4. Draaijer S, Hartog R. Guidelines for the Design of Digital Closed Questions for

    Assessment and Learning in Higher Education. e-Journal of Instructional Science and

    Technology. 2007:Submitted for publication, forthcoming december 2007.

    5. Schuwirth LWT, van der Vleuten CPM. ABC of learning and teaching in medicine:

    Written assessment. BMJ. 2003 March 22, 2003;326(7390):643-5.

    6. Keller JM. Development and Use of the ARCS Model of Motivational Design. Enschede:

    Twente University of Technology; 1983. Report No.: IR 014 039.

    7. Ricketts C, Wilks, S., Crocker, C. What factors affect student opinions of Computer-

    Assisted Assessment? 5th CAA Conference; 2001; Loughborough; 2001.

    8. Jodoin MG. Measurement Efficiency of Innovative Item Formats in Computer-Based

    Testing. Journal of Educational Measurement. 2003;40(1):1-15.

    9. Lampe T, Eggen T. Innovative Item Types in Computer Based Testing: Scoring of

    Multiple Response Items. Arnhem, The Netherlands: Citogroep; 2003.

  • -17-

    10. Bull J, McKenna C. Blueprint for Computer-assisted Assessment: RoutledgeFalmer;

    2001.

    11. Dousma T, Horsten A, Brants J. Tentamineren. derde druk ed: Wolters-Noordhoff; 1997.

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 19

    8 Bijlage 3b Raadscore berekening van polytoom gescoorde vragen

    s.draaijer8 Bijlage 3b Raadscore berekening van polytoomgescoorde vragen

  • Raadscore berekening van polytoom gescoorde vragen. De bijbehorende Excel files zijn te vinden via URL: https://www.surfgroepen.nl/sites/qmpvu/Documentenbibliotheek/Forms/AllItems.aspx?RootFolder=%2fsites%2fqmpvu%2fDocumentenbibliotheek%2fToetsanalyse&FolderCTID=&View=%7b06D963FC%2d8981%2d471D%2dB339%2dB25789F93B33%7d De raadscore wordt gedefinieerd als de verwachte score bij het volledig random beantwoorden van vragen. In principe is die raadscore (qraad) gelijk aan de optelsom van de kans op i= 0, 1, 2 etc. punten (p(qi)), maal het betreffende aantal punten (qi). In formulevorm: qraad = S(p(qi)*qi).

    1 Matching vragen

    Aantal alternatieven

    Aantal extra match

    alternatieven

    Totaal aantal match

    alternatieven

    Dichotoom (0 of 1)

    Polytoom (elk goed alternatief correct 1 punt

  • n m raadkans (=raadscore)

    max score

    verwachte score

    (=raadscore)

    perc raadscore

    2 0 2 50,00% 2 1,00 50% 2 1 3 16,67% 2 0,67 33% 2 2 4 4,17% 2 0,50 25% 3 0 3 16,67% 3 1,00 33% 3 1 4 4,17% 3 0,75 25% 3 2 5 0,83% 3 0,60 20% 3 3 6 0,14% 3 0,50 17% 4 0 4 4,17% 4 1,00 25% 4 1 5 0,83% 4 0,80 20% 4 2 6 0,14% 4 0,67 17% 4 3 7 0,02% 4 0,57 14% 4 4 8 0,00% 4 0,50 13% 5 0 5 0,83% 5 1,00 20% 5 1 6 0,14% 5 0,83 17% 5 2 7 0,02% 5 0,71 14% 5 3 8 0,00% 5 0,63 13% 5 4 9 0,00% 5 0,56 11% 6 0 6 0,14% 6 1,00 17% 6 1 7 0,02% 6 0,86 14% 6 2 8 0,00% 6 0,75 13% 6 3 9 0,00% 6 0,67 11% 6 4 10 0,00% 6 0,60 10% 7 0 7 0,02% 7 1,00 14% 7 1 8 0,00% 7 0,88 13% 7 2 9 0,00% 7 0,78 11% 7 3 10 0,00% 7 0,70 10% 8 0 8 0,00% 8 1,00 13% 8 1 9 0,00% 8 0,89 11% 8 2 10 0,00% 8 0,80 10% 8 3 11 0,00% 8 0,73 9% 9 0 9 0,00% 9 1,00 11% 9 1 10 0,00% 9 0,90 10% 9 2 11 0,00% 9 0,82 9% 9 3 12 0,00% 9 0,75 8%

    2 Raadscoreberekening Multiple Response vragen Voor bijvoorbeeld een MR vraag met 5 opties waarbij drie opties correct zijn. Scoringsmodel

    • 1 punt per goed antwoord • geen aftrek van punten bij selecteren van een afleider • er wordt gegeven hoeveel antwoorden correct zijn à Er zijn 10 permutaties van keuzen te

    maken. volgens het scoringsmodel zoals gegeven op blz. 5 is deze kans qraad_5-3MR = p(0)*0+p(1)*1+p(2)*2+p(3)*3= 0*0+4/10*1+5/10*2+1/10*3=1,70 punten.

  • Tabel met raadscores en kansen (let op: Tabel is nog niet volledig)

    Aantal alternatieve

    n

    Aantal correct

    n j permuaties met bekende hoeveelheid

    antwoord correct

    permutaties met

    onbekende hoeveelheid antwoorden

    correct

    raadkans (=raadscore)

    met onbekende

    hoeveelheid antwoorden correct op

    volledig juist antwoord

    raadkans (=raadscore) met bekende hoeveelheid

    antwoord correct

    max score verwachte score

    (=raadscore) bij

    onbekende hoeveelhei

    d antwoorden correct

    perc raadscore

    verwachte score

    (=raadscore) bij bekende hoeveelheid

    antwoord correct

    perc raadscore

    max score verwachte score

    (=raadscore) bij onbekende hoeveelheid antwoorden

    correct

    perc raadscore

    verwachte score

    (=raadscore) bij

    bekende hoeveelhei

    d antwoord correct

    perc raadscore

    max score

    verwachte score

    (=raadscore) bij

    onbekende

    hoeveelheid

    antwoorden

    correct

    perc raadscore

    verwachte score

    (=raadscore) bij

    bekende hoeveelh

    eid antwoord

    correct

    perc raadscore

    max score

    verwachte score

    (=raadscore) bij

    onbekende

    hoeveelheid

    antwoorden

    correct

    perc raadscore

    verwachte score

    (=raadscore) bij

    bekende hoeveelh

    eid antwoord

    correct

    perc raadscore

    3 1 3 8 13% 33% 3 1,5 50% 1,00 33% 1 0,5 50% 0,33 33% 3 0,0 0% 13 2 3 8 13% 33% 3 1,5 50% 1,67 56% 2 1,0 50% 1,33 67% 3 0,0 0% 23 3 1 8 13% 100% 3 1,5 50% 3,00 100% 3 1,5 50% 3,00 100% 3 0,0 0% 34 1 4 16 6% 25% 4 2,0 50% 1,00 25% 1 0,5 50% 0,25 25% 4 0,0 0% 1,00 14 2 6 16 6% 17% 4 2,0 50% 2,00 50% 2 1,0 50% 1,00 50% 4 0,0 0% 0,00 24 3 4 16 6% 25% 4 2,0 50% 2,50 63% 3 1,5 50% 2,25 75% 4 0,0 0% 1,00 34 4 1 16 6% 100% 4 2,0 50% 4,00 100% 4 2,0 50% 4,00 100% 4 0,0 0% 4,00 45 1 5 32 3% 20% 5 2,5 50% 1,00 20% 1 0,5 50% 0,20 20% 5 0,0 0% 15 2 10 32 3% 10% 5 2,5 50% 2,60 52% 2 1,0 50% 0,80 40% 5 0,0 0% 2 0,205 3 10 32 3% 10% 5 2,5 50% 2,60 52% 3 1,5 50% 1,80 60% 5 0,0 0% 1,00 3 1,005 4 5 32 3% 20% 5 2,5 50% 3,40 68% 4 2,0 50% 3,20 80% 5 0,0 0% 45 5 1 32 3% 100% 5 2,5 50% 5,00 100% 5 2,5 50% 5,00 100% 5 0,0 0% 5,00 56 1 6 64 2% 17% 6 3,0 50% 1,00 17% 1 0,5 50% 0,17 17% 6 0,0 0% 16 2 15 64 2% 7% 6 3,0 50% 3,33 56% 2 1,0 50% 0,67 33% 6 0,0 0% 26 3 20 64 2% 5% 6 3,0 50% 3,00 50% 3 1,5 50% 1,50 50% 6 0,0 0% 36 4 15 64 2% 7% 6 3,0 50% 3,33 56% 4 2,0 50% 2,67 67% 6 0,0 0% 46 5 6 64 2% 17% 6 3,0 50% 4,33 72% 5 2,5 50% 4,17 83% 6 0,0 0% 56 6 1 64 2% 100% 6 3,0 50% 6,00 100% 6 3,0 50% 6,00 100% 6 0,0 0% 6,00 67 1 7 128 1% 14% 7 3,5 50% 1 0,5 50% 0,14 14% 7 0,0 0% 17 2 21 128 1% 5% 7 3,5 50% 2 1,0 50% 0,57 29% 7 0,0 0% 27 3 35 128 1% 3% 7 3,5 50% 3 1,5 50% 1,29 43% 7 0,0 0% 37 4 35 128 1% 3% 7 3,5 50% 4 2,0 50% 2,29 57% 7 0,0 0% 47 5 21 128 1% 5% 7 3,5 50% 5 2,5 50% 3,57 71% 7 0,0 0% 57 6 7 128 1% 14% 7 3,5 50% 6 3,0 50% 5,14 86% 7 0,0 0% 67 7 1 128 1% 100% 7 3,5 50% 7 3,5 50% 7,00 100% 7 0,0 0% 7,00 7

    Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatief aftrek van 1 punt)

    Polytoom (elk goed correct alternatief gekozen 1 punt)Dichotoom (0 of 1) Polytoom (elk goed alternatief correct 1 punt en elke fout alternatief niet aangevinkt ook 1 punt)

    Polytoom (elk goed correct alternatief gekozen 1 punt, elk fout gekozen alternatief aftrek van 1 punt)

  • Eindverslag EMP-project van VUmc, opleiding geneeskunde: QMP_Voortbouwen! 20

    9 Bijlage 4 Tentamineren met QMP: een ervaring (2008)

    s.draaijer9 Bijlage 4 Tentamineren met QMP: een ervaring (2008)

  • Tentamineren met Questionmark Perception (QMP)

    een ervaring Dr. GC van den Bos Augustus 2008 Samenvatting Dit is een persoonlijk verslag van ervaringen met QMP voor herkansingen van de blokken Bioregulatie, Hart en bloedsomloop, Nier en milieu interieur, en Voeding en spijsvertering van C’91 in de periode Januari 2007 tot Augustus 2008, van de opleiding geneeskunde. Veel hulp kreeg ik van ir. S Draaijer, dr R Musters, drs C Camps, en dr A Greven, maar de inhoud van dit verslag is geheel mijn verantwoordelijkheid . Het is bedoeld om te laten zien wat met QMP gedaan kan worden in de zin van interactieve vragen, naast de klassieke vragen als meerkeuze en juist/onjuist. Het legt echter ook nadruk op de voorwaarden waaraan voldaan, en het werk dat nog verzet moet worden, voordat QMP in het VUmc bruikbaar is als routine methode om tentamens af te nemen. Als u niet de tijd, of de puf heeft om dit verslag te lezen, bekijkt u dan in ieder geval even de figuren om een idee te krijgen van wat deze interactieve vragen zijn. Vanzelfsprekend ben ik bereid om dit verslag toe te lichten, en een ieder die meer over het gebruik van QMP in de geneeskunde wil weten te helpen.

  • 2

    Inleiding. “Wijs” geworden door ervaringen met juist/onjuist- en meerkeuze-vragententamens, begonnen René Musters en ik in 2002 met het ontwikkelen van alternatieve vragen (met alternatief wordt bedoeld anders dan juist/onjuist en meerkeuze). Wij gebruikten hiervoor de vragenmodule van Blackboard. De proeftuin was de ingangstoets van de practica Humane Fysiologie (Medische Biologie ). In 2004, met de komst van QMP, zetten wij dit experiment voort, nu in de practica Fysiologie van het blok Hart en bloedsomloop. De studenten waren enthousiast, de praktische uitvoering bleek minder geslaagd: hun gretige inspanningen met de toets bedreigden de tijd voor de practica zelf. In Januari 2007, maakte ik met QMP een eerste tentamen. Het gros van de herkansende studenten was tevreden. Dit resulteerde in 10 (inmiddels 11) volgende tentamens (tabel 1 in bijlage 1; tnt 11 niet opgenomen) met een totaal van 652 vragen. Ieder blok vereiste een representatief oefententamen van 60 vragen (totaal 4x60 = 240) met antwoorden en stofverwijzingen. Oefententamens zijn alleen zinvol als alle vragen door de docenten van “beredeneerde” antwoorden, literatuurverwijzingen en “prikkelende” extra vraagjes zijn voorzien (Dat vele studenten vooral met behulp van oefententamens studeren is een voldongen feit; echte oefententamens kunnen gebruikt worden om dat studeren te sturen). Aanvankelijk werkte ik veel met groepjes juist/onjuist vragen over één onderwerp, hoewel studenten zich met dit vraagtype meer op taalvaardigheid dan op vaktechnische inhoud getoetst voelen. Nu gebruik ik bij voorkeur alternatieve vragen van de volgende typen (nb: de tentamens Voeding en spijsvertering – Spijs -, bestaan voor een deel uit 4- keuze vragen omdat wij daarmee wilden nagaan of er een verschil was in de resultaten bij gebruik van klassieke of alternatieve vragen). Ik maakte alle vragen in overleg met de betreffende blokvoorzitter (prof P Lips, prof P ter Wee, dr M Craanen). Vraagtypen. ü meer-uit-meer vraag (MuM): een serie uitspraken waarvan een beperkt aantal juist is (fig

    1). Fig 1.Voorbeeld Meer-uit-meer vraag over babyvoeding.

    Aangekruiste goede en niet aangekruiste foute antwoorden kregen beide één punt, met als gevolg dat niets-wetende studenten die alle alternatieven aanklikten daar ten onrechte baat bij hadden. Nu krijgen goede antwoorden één punt en foute antwoorden een minpunt, met de beperking dat de vraag niet tot een lagere totaal