Een systemische aanpak van toetsing
description
Transcript of Een systemische aanpak van toetsing
Een systemische aanpak van toetsingNVMO HoofdlezingMaastricht, 15-16 november 2012
Cees van der VleutenUniversiteit Maastricht
Overzicht
• Van praktijk naar onderzoek• Van onderzoek naar theorie• Van theorie naar praktijk• Conclusies
Toetsvormen
• MCQ, MEQ, OEQ, SIMP, Write-ins, Key Feature, PMP, SCT, Patiënt examen, OSCE, OSPE, DOCEE, SP-based test, Video assessment, MSF, Mini-CEX, DOPS, assessment center, self-assessment, peer assessment, incognito SPs………….
Knows
Shows how
Knows how
Does
Knows Feitgerichte toetsen: MCQ, open vragen, mondeling…..
Knows how(Klinisch) Contextuele toetsen:MCQ, open vragen, mondeling…..
Shows howPerformance assessment in vitro:OSCE, SP-based test…..
DoesPerformance assessment in vivo: KKB, 360 ۫…, Peer, Video, Incognito Pat, Video…….
De beklimming......
Karakteristieken van instrumenten
Validiteit
Betrouwbaarheid
Onderwijs-invloed
Acceptabiliteit
Kosten
Validiteit
Betrouwbaarheid
Onderwijs-invloed
Validiteit: wat beoordelen we?
• Curricula zijn veranderd van input sturing naar output sturing
• Van disciplines naar leerdoelen, eindtermen, en nu competenties
• Van docentsturing naar zelfsturing
Competentie-frameworks
CanMeds (Canada)
Medical expert Communicator Collaborator Manager Health advocate Scholar Professional
ACGME(US)
Medical knowledge Patient care Practice-based
learning & improvement
Interpersonal and communication skills
Professionalism Systems-based
practice
GMC (UK)
Good clinical care Relationships with
patients and families
Working with colleagues
Managing the workplace
Social responsibility and accountability
Professionalism
Knows
Shows how
Knows how
Does
Knows
Knows how
Shows how
Does
Validiteit: wat beoordelen we?
Gestandaardiseerde Toetsing (ver uitontwikkeld)
Ongestandaardiseerde Toetsing (opkomend)
Inzichten over validiteit
• We hebben een veelheid aan toetsmethoden nodig om de hele competentiepiramide te dekken
• Nodig zijn gestandaardiseerde èn ongestandaardiseerde toetsmethodieken
• Kwaliteitscontrole van instrumenten is essentieel voor gestandaardiseerde beoordeling
• De gebruikers (de mensen) zijn essentieel bij ongestandaardiseerde beoordeling.
Betrouwbaarheid: hoe precies beoordelen we?
Toets-Tijd inHours
1248
MCQ1
0.620.760.930.93
Kortecasus
gerichteEssay2
0.680.730.840.82
Simu-laties1
0.360.530.690.82
Mon-de-ling3
0.500.690.820.90
Patientexamen4
0.600.750.860.90
OSCE5
0.540.690.820.90
PraktijkVideoObser-vatie7
0.620.760.930.93
1Norcini et al., 19852Stalenhoef-Halling et al., 19903Swanson, 1987
4Wass et al., 20015Van der Vleuten, 19886Norcini et al., 1999
In-cognito
SPs8
0.610.760.820.86
KKB6
0.730.840.920.96
7Ram et al., 19998Gorter, 2002
Inzichten over betrouwbaarheid
• Acceptabele betrouwbaarheid wordt slechts bereikt bij een grote steekproef aan toetselementen en beoordelaars
• Geen enkele methode is inherent beter dan een andere (ook de nieuwere niet!)
• Objectiviteit is NIET gelijk aan betrouwbaarheid• Vele onafhankelijke subjectieve oordelen maken
een objectief oordeel.
Onderwijsinvloeden: Hoe stuurt toetsing het leren?
• Sturing is complex (zie Cilliers, 2011, 2012)• Veel negatieve invloeden
– Povere leerstijlen– Cijferproblematiek (zesjes cultuur, genade-zes, jagen op punten)– Hoge werkplekbeoordelingen
• Veel reductionisme in toetsing– Weinig feedback (cijfer is slechte vorm van feedback)– Toetsconcept niet aansluitend op onderwijsconcept– Aggregatie van informatie over niet betekenisvolle eenheden– Weinig longitudinale opvolging– Veel vinken, weinig vonken (OSCE, werkplekbeoordelingen).
Inzichten over onderwijsgevolgen
• Geen enkele toets of beoordeling zonder betekenisvolle feedback
• Narratieve feedback heeft meer impact dan scores op complexe vaardigheden
• Feedback alleen is niet genoeg voor gebruik• Meer longitudinale beoordeling is wenselijk.
Overzicht
• Van praktijk naar onderzoek
• Van onderzoek naar theorie• Van theorie naar praktijk• Conclusies
De beperkingen van de enkelvoudige toetsbenadering
• Geen enkele toets kan alles• Elke toets heeft beperkingen• Elke toets houdt een fors compromis in
Implicaties
• Validiteit: een veelheid aan toetsen nodig• Betrouwbaarheid: veel (gecombineerde)
informatie nodig • Onderwijsgevolgen: toetsing moeten
(longitudinaal) betekenisvol voor het leren zijn
Toetsprogramma’s
Toetsprogramma’s
• Curriculum programma is goede metafoor; in een toetsprogramma zijn:
– Onderdelen gepland, gearrangeerd, gecoördineerd– Systematisch geëvalueerd en bijgesteld
• Maar hoe doe je dat dan? (de literatuur biedt bitter weinig houvast!)
Toetsprogramma’s
• Zie Dijkstra et al 2012: 73 generieke richtlijnen voor toetsprogramma’s
• Nog te doen:– Verdere validering– Een handzaam (zelfevaluatie) instrument
Bouwstenen Toetsprogramma’s 1
• Elke toets of beoordeling is één datapunt (Δ) • Elk datapunt is geoptimaliseerd voor leren
– Informatierijk (kwantitatief, kwalitatief)– Betekenisvol– Gevarieerd in vorm
• Summatief versus formatief vervangen we door een continuüm van wat er op het spel staat (stakes)
• N datapunten zijn gerelateerd aan aard van beslissing
Continuüm van wat er op spel staat,relatie met datapunten en hun functie
Er staatniets op
spel
Er staatalles op spel
Eéndatapunt:
• Gericht op informatie,
• feedback
TussentijdseVoortgangsbeslissingen:
• Meer datapunten nodig
• Gericht op diagnose, bijsturing en voorspelling
FinaleBeslissingen:
• Veel datapunten nodig• Gericht op een (niet
verassende) zware beslissing
Toetsinformatie als pixels
Klassieke benadering van aggregatie
Methode 1voor beoordeling
van vaardigheid AΣ
Methode 2voor beoordelingvan vaardigheid B
ΣMethode 3
voor beoordelingvan vaardigheid C
ΣMethode 4
voor beoordelingvan vaardigheid D
Σ
Betekenisvolle benadering van aggregatie
Methode 1
Σ
Methode 2
Σ
Methode 3
Σ
Methode 4
Σ
CompetentieA
CompetentieB
CompetentieC
CompetentieD
Overzicht
• Van praktijk naar onderzoek• Van onderzoek naar theorie
• Van theorie naar praktijk• Conclusies
Terug van theorie naar praktijk
• Bestaande toetspraktijken:– Master Diergeneeskunde Utrecht– AKO, graduate entry geneeskunde Maastricht– Jaar 6 geneeskunde Maastricht (later hele Master)– Huisartsopleiding Nederland– Sommige specialistenopleidingen zijn hard op weg– Cleveland Learner Clinic, Cleveland, Ohio
Cleveland Clinic Lerner College of Medicine(Dannefer et al., 2007)
• 5 jarige opleiding arts/klinisch onderzoeker• Overkoepelende competententiestructuur• Beschreven standaarden per fase van de studie• Alle toetsing formatief en infomatief
– Wekelijkse casustoetsing met open vragen, geen grades maar feedback
– Veel docent en peer evaluaties in narratieve vorm– Werkplekbeoordelingen– OSCEs
Competentie framework
• Research• Medical Knowledge in the Basic and Clinical Sciences• Communication• Professionalism• Personal Development• Clinical Skills• Clinical Reasoning• Health Care Systems• Reflective Practice
Voorbeeld van standaardenCompetency Year 1 Year 2 Year 5
Research
Demonstrate knowledge base for basic and clinical research, skills set to conceptualize and conduct research
Demonstrates ability to critically review basic science research
Actively participates in the performance of laboratory procedures relevant to their basic science research
Demonstrates ability to critically review clinical research papers
Applies principles and skills in medical biostatistics and clinical epdidemiology to analysis of data
Analyzes and effecitively critiques a broad range of research papers
Demonstrates the ability to generate research a hypothesis and formulate questions to test it
Designs and performs studies to test a hypothesis
Cleveland Clinic Lerner College of Medicine(Dannefer et al., 2007)
• Alle infomatie in een centraal webgebaseerd systeem• Mentor systeem met longitudinale opvolging,
gesprekken op basis van zelfanalyses• Voortgangsbeslissingen door onafhankelijke
commissie met zware procedures voor besluitvorming
Strategy toestablish trustworthiness Criteria
Potentiele Toepassingen in Toetsing
Credibility Prolonged engagement Trainen van beoordelaars
Triangulation Toenemende inschakeling van experts op basis van mate van zekerheid over het oordeel
Peer examination Benchmarken beoordelaars
Member checking Incorporeer een zelf-oordeel van de lerende
Structural coherence Controle op inconsistenties in besluitvorming
Transferability Time sampling Gebruik van veel datapunten
Thick description Gemotiveerde besluitvorming
Dependability Stepwise replication Grootte van de commissie bestaande uit gerespecteerde leden
Confirmability Audit Creëer beroepsmogelijkheid
Cleveland Clinic Lerner College of Medicine(Dannefer et al., 2007)
• Alle infomatie in een centraal webgebaseerd systeem• Mentor systeem met longitudinale opvolging,
gesprekken op basis van zelfanalyses• Voortgangsbeslissingen door onafhankelijke
commissie met zware procedures voor besluitvorming
Cleveland Clinic Lerner College of Medicine
• Opbrengsten:– Studenten passen zich probleemloos aan na de “test-
cultuur” waaraan ze gewend zijn– Hoog presterende studenten (USMLE)– Studenten zijn de ambassadeurs geworden van het
systeem en waarderen:• De rijkheid van het systeem• Het aandacht bieden aan brede vaardigheden• De zelf-controle• De begeleiding
Overzicht
• Van praktijk naar onderzoek• Van onderzoek naar theorie• Van theorie naar praktijk
• Conclusies
Conclusies 1
• We moeten af van het exclusief denken in individuele toetsmethoden
• Een systemische, programmatische aanpak is daarvoor noodzakelijk, longitudinaal gericht
• Elke toetsmethode kan hierin functioneel zijn (oud en nieuw; gestandaardiseerd en ongestandaardiseerd)
• Professionele oordeelsvorming is onontbeerlijk (vergelijkbaar aan de klinische praktijk)
• Subjectiviteit wordt gepareerd met sampling en met procedurele maatregelen (en niet met standaardisering of objectivering)
Conclusies 2
• Het toetsprogramma optimaliseert:– De leerfunctie (door informatierijkheid)– De beslisfunctie (door combinatie van informatie)
Deze Powerpoint:www.fdg.unimaas.nl/educ/cees/nvmo
Dank voor uw aandacht!