Een systemische aanpak van toetsing

Een systemische aanpak van toetsingNVMO HoofdlezingMaastricht, 15-16 november 2012

Cees van der VleutenUniversiteit Maastricht

Overzicht

• Van praktijk naar onderzoek• Van onderzoek naar theorie• Van theorie naar praktijk• Conclusies

Toetsvormen

• MCQ, MEQ, OEQ, SIMP, Write-ins, Key Feature, PMP, SCT, Patiënt examen, OSCE, OSPE, DOCEE, SP-based test, Video assessment, MSF, Mini-CEX, DOPS, assessment center, self-assessment, peer assessment, incognito SPs………….

Knows

Shows how

Knows how

Does

Knows Feitgerichte toetsen: MCQ, open vragen, mondeling…..

Knows how(Klinisch) Contextuele toetsen:MCQ, open vragen, mondeling…..

Shows howPerformance assessment in vitro:OSCE, SP-based test…..

DoesPerformance assessment in vivo: KKB, 360 ۫…, Peer, Video, Incognito Pat, Video…….

De beklimming......

Karakteristieken van instrumenten

Validiteit

Betrouwbaarheid

Onderwijs-invloed

Acceptabiliteit

Kosten

Validiteit

Betrouwbaarheid

Onderwijs-invloed

Validiteit: wat beoordelen we?

• Curricula zijn veranderd van input sturing naar output sturing

• Van disciplines naar leerdoelen, eindtermen, en nu competenties

• Van docentsturing naar zelfsturing

Competentie-frameworks

CanMeds (Canada)

Medical expert Communicator Collaborator Manager Health advocate Scholar Professional

ACGME(US)

Medical knowledge Patient care Practice-based

learning & improvement

Interpersonal and communication skills

Professionalism Systems-based

practice

GMC (UK)

Good clinical care Relationships with

patients and families

Working with colleagues

Managing the workplace

Social responsibility and accountability

Professionalism

Knows

Shows how

Knows how

Does

Knows

Knows how

Shows how

Does

Validiteit: wat beoordelen we?

Gestandaardiseerde Toetsing (ver uitontwikkeld)

Ongestandaardiseerde Toetsing (opkomend)

Inzichten over validiteit

• We hebben een veelheid aan toetsmethoden nodig om de hele competentiepiramide te dekken

• Nodig zijn gestandaardiseerde èn ongestandaardiseerde toetsmethodieken

• Kwaliteitscontrole van instrumenten is essentieel voor gestandaardiseerde beoordeling

• De gebruikers (de mensen) zijn essentieel bij ongestandaardiseerde beoordeling.

Betrouwbaarheid: hoe precies beoordelen we?

Toets-Tijd inHours

1248

MCQ1

0.620.760.930.93

Kortecasus

gerichteEssay2

0.680.730.840.82

Simu-laties1

0.360.530.690.82

Mon-de-ling3

0.500.690.820.90

Patientexamen4

0.600.750.860.90

OSCE5

0.540.690.820.90

PraktijkVideoObser-vatie7

0.620.760.930.93

1Norcini et al., 19852Stalenhoef-Halling et al., 19903Swanson, 1987

4Wass et al., 20015Van der Vleuten, 19886Norcini et al., 1999

In-cognito

SPs8

0.610.760.820.86

KKB6

0.730.840.920.96

7Ram et al., 19998Gorter, 2002

Inzichten over betrouwbaarheid

• Acceptabele betrouwbaarheid wordt slechts bereikt bij een grote steekproef aan toetselementen en beoordelaars

• Geen enkele methode is inherent beter dan een andere (ook de nieuwere niet!)

• Objectiviteit is NIET gelijk aan betrouwbaarheid• Vele onafhankelijke subjectieve oordelen maken

een objectief oordeel.

Onderwijsinvloeden: Hoe stuurt toetsing het leren?

• Sturing is complex (zie Cilliers, 2011, 2012)• Veel negatieve invloeden

– Povere leerstijlen– Cijferproblematiek (zesjes cultuur, genade-zes, jagen op punten)– Hoge werkplekbeoordelingen

• Veel reductionisme in toetsing– Weinig feedback (cijfer is slechte vorm van feedback)– Toetsconcept niet aansluitend op onderwijsconcept– Aggregatie van informatie over niet betekenisvolle eenheden– Weinig longitudinale opvolging– Veel vinken, weinig vonken (OSCE, werkplekbeoordelingen).

Inzichten over onderwijsgevolgen

• Geen enkele toets of beoordeling zonder betekenisvolle feedback

• Narratieve feedback heeft meer impact dan scores op complexe vaardigheden

• Feedback alleen is niet genoeg voor gebruik• Meer longitudinale beoordeling is wenselijk.

Overzicht

• Van praktijk naar onderzoek

• Van onderzoek naar theorie• Van theorie naar praktijk• Conclusies

De beperkingen van de enkelvoudige toetsbenadering

• Geen enkele toets kan alles• Elke toets heeft beperkingen• Elke toets houdt een fors compromis in

Implicaties

• Validiteit: een veelheid aan toetsen nodig• Betrouwbaarheid: veel (gecombineerde)

informatie nodig • Onderwijsgevolgen: toetsing moeten

(longitudinaal) betekenisvol voor het leren zijn

Toetsprogramma’s

Toetsprogramma’s

• Curriculum programma is goede metafoor; in een toetsprogramma zijn:

– Onderdelen gepland, gearrangeerd, gecoördineerd– Systematisch geëvalueerd en bijgesteld

• Maar hoe doe je dat dan? (de literatuur biedt bitter weinig houvast!)

Toetsprogramma’s

• Zie Dijkstra et al 2012: 73 generieke richtlijnen voor toetsprogramma’s

• Nog te doen:– Verdere validering– Een handzaam (zelfevaluatie) instrument

Bouwstenen Toetsprogramma’s 1

• Elke toets of beoordeling is één datapunt (Δ) • Elk datapunt is geoptimaliseerd voor leren

– Informatierijk (kwantitatief, kwalitatief)– Betekenisvol– Gevarieerd in vorm

• Summatief versus formatief vervangen we door een continuüm van wat er op het spel staat (stakes)

• N datapunten zijn gerelateerd aan aard van beslissing

Continuüm van wat er op spel staat,relatie met datapunten en hun functie

Er staatniets op

spel

Er staatalles op spel

Eéndatapunt:

• Gericht op informatie,

• feedback

TussentijdseVoortgangsbeslissingen:

• Meer datapunten nodig

• Gericht op diagnose, bijsturing en voorspelling

FinaleBeslissingen:

• Veel datapunten nodig• Gericht op een (niet

verassende) zware beslissing

Toetsinformatie als pixels

Klassieke benadering van aggregatie

Methode 1voor beoordeling

van vaardigheid AΣ

Methode 2voor beoordelingvan vaardigheid B

ΣMethode 3

voor beoordelingvan vaardigheid C

ΣMethode 4

voor beoordelingvan vaardigheid D

Σ

Betekenisvolle benadering van aggregatie

Methode 1

Σ

Methode 2

Σ

Methode 3

Σ

Methode 4

Σ

CompetentieA

CompetentieB

CompetentieC

CompetentieD

Overzicht

• Van praktijk naar onderzoek• Van onderzoek naar theorie

• Van theorie naar praktijk• Conclusies

Terug van theorie naar praktijk

• Bestaande toetspraktijken:– Master Diergeneeskunde Utrecht– AKO, graduate entry geneeskunde Maastricht– Jaar 6 geneeskunde Maastricht (later hele Master)– Huisartsopleiding Nederland– Sommige specialistenopleidingen zijn hard op weg– Cleveland Learner Clinic, Cleveland, Ohio

Cleveland Clinic Lerner College of Medicine(Dannefer et al., 2007)

• 5 jarige opleiding arts/klinisch onderzoeker• Overkoepelende competententiestructuur• Beschreven standaarden per fase van de studie• Alle toetsing formatief en infomatief

– Wekelijkse casustoetsing met open vragen, geen grades maar feedback

– Veel docent en peer evaluaties in narratieve vorm– Werkplekbeoordelingen– OSCEs

Competentie framework

• Research• Medical Knowledge in the Basic and Clinical Sciences• Communication• Professionalism• Personal Development• Clinical Skills• Clinical Reasoning• Health Care Systems• Reflective Practice

Voorbeeld van standaardenCompetency Year 1 Year 2 Year 5

Research

Demonstrate knowledge base for basic and clinical research, skills set to conceptualize and conduct research

Demonstrates ability to critically review basic science research

Actively participates in the performance of laboratory procedures relevant to their basic science research

Demonstrates ability to critically review clinical research papers

Applies principles and skills in medical biostatistics and clinical epdidemiology to analysis of data

Analyzes and effecitively critiques a broad range of research papers

Demonstrates the ability to generate research a hypothesis and formulate questions to test it

Designs and performs studies to test a hypothesis


• Alle infomatie in een centraal webgebaseerd systeem• Mentor systeem met longitudinale opvolging,

gesprekken op basis van zelfanalyses• Voortgangsbeslissingen door onafhankelijke

commissie met zware procedures voor besluitvorming

Strategy toestablish trustworthiness Criteria

Potentiele Toepassingen in Toetsing

Credibility Prolonged engagement Trainen van beoordelaars

Triangulation Toenemende inschakeling van experts op basis van mate van zekerheid over het oordeel

Peer examination Benchmarken beoordelaars

Member checking Incorporeer een zelf-oordeel van de lerende

Structural coherence Controle op inconsistenties in besluitvorming

Transferability Time sampling Gebruik van veel datapunten

Thick description Gemotiveerde besluitvorming

Dependability Stepwise replication Grootte van de commissie bestaande uit gerespecteerde leden

Confirmability Audit Creëer beroepsmogelijkheid


• Alle infomatie in een centraal webgebaseerd systeem• Mentor systeem met longitudinale opvolging,

gesprekken op basis van zelfanalyses• Voortgangsbeslissingen door onafhankelijke

commissie met zware procedures voor besluitvorming

Cleveland Clinic Lerner College of Medicine

• Opbrengsten:– Studenten passen zich probleemloos aan na de “test-

cultuur” waaraan ze gewend zijn– Hoog presterende studenten (USMLE)– Studenten zijn de ambassadeurs geworden van het

systeem en waarderen:• De rijkheid van het systeem• Het aandacht bieden aan brede vaardigheden• De zelf-controle• De begeleiding

Overzicht

• Van praktijk naar onderzoek• Van onderzoek naar theorie• Van theorie naar praktijk

• Conclusies

Conclusies 1

• We moeten af van het exclusief denken in individuele toetsmethoden

• Een systemische, programmatische aanpak is daarvoor noodzakelijk, longitudinaal gericht

• Elke toetsmethode kan hierin functioneel zijn (oud en nieuw; gestandaardiseerd en ongestandaardiseerd)

• Professionele oordeelsvorming is onontbeerlijk (vergelijkbaar aan de klinische praktijk)

• Subjectiviteit wordt gepareerd met sampling en met procedurele maatregelen (en niet met standaardisering of objectivering)

Conclusies 2

• Het toetsprogramma optimaliseert:– De leerfunctie (door informatierijkheid)– De beslisfunctie (door combinatie van informatie)

Deze Powerpoint:www.fdg.unimaas.nl/educ/cees/nvmo

Dank voor uw aandacht!

Een systemische aanpak van toetsing

Documents

Transcript of Een systemische aanpak van toetsing