Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 ›...

Comparatief beoordelen binnen onderzoek en onderwijs

Een toepassing van D-PAC

Sven De Maeyer Marije LesterhuisRenske Bouwer Maarten GoossensTine van Daal Roos Van GasseSan Verhavert

16-11-2017

1

Wat zijn jouw verwachtingen?

2

Overzicht

• Waarom comparatief beoordelen? Theoretische achtergrond

• Comparatief beoordelen in de praktijk• Voorwaarden om een comparatief assessment op te

zetten• Hands-on: D-PAC try-out

LUNCH

• Hands-on: resultaten en analyses

3

Waarom comparatief beoordelen? Theoretische achtergrond

4

So you think you can judge?!

-> Criteria? Beoordelingsschaal?-> Moeilijkheden? Problemen?

Danser 1 Danser 2

Danser 3 Danser 4

5

http://www.youtube.com/watch?v=1ehCGGwJBb0

http://www.youtube.com/watch?v=MwNUYpZ7dZ0

http://www.youtube.com/watch?v=tprxSR90h-o

http://www.youtube.com/watch?v=TFlnbLyvCNI

Comparatief beoordelen... Wie is de beste danser?

?

?

?

6

Waarom comparatief beoordelen?

• Holistisch and relatief (Pollitt, 2012)• Gedeelde consensus ~ groep van beoordelaars (van Daal

et al., 2016)• Gebruik van expertise (Pollitt, 2012; Jones et al., 2015)

=> Verhoogt validiteit! (Jones & Inglis, 2015; Pollitt & Crisp, 2004; Pollitt, 2012)

• Breed toepasbaar (e.g., Heldsinger & Humphry, 2010; Jones & Alcock, 2014; Pollitt, 2012):– Competenties die moeilijk te vervatten zijn in criteria– Verwachte verschillen in antwoorden– Performances

7

Informatie uit comparatief beoordelen

● Bradley-Terry-Luce model:○ Kwaliteitsscores (in logits) met betrouwbaarheidsinterval○ Rangorde

● Scale Separation ReliabilityGeeft schatting van interbeoordelaars betrouwbaarheid (Verhavert, 2017)

● Misfit data voor beoordelaars Welke beoordelaars hebben een ‘andere’ kijk (in vergelijking met de gedeelde

consensus van beoordelaars?)

● Misfit data voor representatiesWelke representatie(s) zijn moeilijk te beoordelen?

8

Rangorde met kwaliteitsscores9

Misfit van beoordelaars

10

Geschiedenis van comparatief beoordelen

1927 2004

Thurstone

2007

2009

2014 - 2017

Pollitt

Bramley

Kimbell

11

Comparatief beoordelen in de praktijk ...

12

Implementatie in de praktijk

Comparatief beoordelen om complexe groepsbeslissingen te maken, monitoren of verbeteren

Waarom?- Vergelijken is makkelijker en betrouwbaarder dan absoluut

beoordelen (Laming, 2004; Thurstone, 1927)- De rangorde geeft de gedeelde consensus van

beoordelaars weer (van Daal et al., 2017)- Geeft inzicht in de mate waarin beoordelaars of

representaties afwijken van de groepsconsensus

13

Praktijkvoorbeelden van comparatief beoordelen

- Summatieve beoordeling van competenties- Prioriteren van ideeën of agendapunten- Selectie van cv’s, portfolio’s, projectvoorstellen

14

Praktijkvoorbeelden van comparatief beoordelen

Als tool om te leren:- Formatieve beoordeling & peer assessment- Professionalisering van beoordelaars

15

Taak 1: Bedenk een casus

- Hoe zou jij comparatief beoordelen kunnen gebruiken in jouw (onderzoeks)context? Welke doelen & vragen heb je daarbij?

- Waarmee dien je rekening te houden bij de implementatie van comparatief beoordelen in jouw (onderzoeks)context? Denk aan verschillende actoren, doelen, taken, etc.

16

Voorwaarden om een comparatief assessment op te zetten

17

Voorwaarden voor valide & betrouwbare resultaten

Bij gebruik van random paarsgewijze vergelijking:- Aantal vergelijkingen?- Aantal en kenmerken van beoordelaars?

Andere algoritmes voor selectie van paren:- Adaptief algoritme- Plaatsingsalgoritme- Equal views- Triplets

18

Hoeveel vergelijkingen voor betrouwbare resultaten?

Verschillende assessments = andere resultaten

19

Meta-analyse van betrouwbaarheid

49 assessments in D-PAC• gemiddelde betrouwbaarheid = .79 (.49 to .99)• aantal representaties: 84 (6 to 1089)• aantal beoordelaars: 29 (4 to 127)• verschillende representaties en competenties• in verschillende contexten (onderwijs, onderzoek, werkplek)

Verhavert, Bouwer, De Maeyer, & Donche, in prep

20

Resultaten meta-analyse

Effect van kenmerken van assessments op betrouwbaarheid:• Aantal vergelijkingen per representatie• Totaal aantal vergelijkingen• Aantal beoordelaars• Aantal vergelijkingen per beoordelaar• Type representaties (tekst, video, audio, beelden)• Type feedback (geen, comparatief, pros/cons)• Expertise van beoordelaar (experts, novices, peers)


21

Aantal vergelijkingen

SSR 0.70: 8-12 vergelijkingen per representatieSSR 0.80: 16-20 vergelijkingen per representatie


22

Aantal vergelijkingen per beoordelaar

Voor een bijkomende toename van 0.01 in SSR: +20 vergelijkingen per beoordelaar


23

Aantal en kenmerken van beoordelaar

Geen effect van beoordelaar op betrouwbaarheid, maar…

Meer beoordelaars:- Verhogen de generaliseerbaarheid van de resultaten:

groep consensus (Van Daal et al., 2017)

- Verhogen de validiteit van de resultaten: verschillen tussen beoordelaars (Lesterhuis et al., 2017)

24

Focus van beoordelaars

Beoordelaars vergelijken teksten op verschillende, maar relevante aspecten van schrijven

Omdat meerdere beoordelaars de vergelijkingen maken, is de rangorde een weergave van de volledige competentie ‘schrijfvaardigheid’.

25

Van Daal, Lesterhuis, Coertjens, Donche & De Maeyer, 2017

Kenmerken beoordelaars

1. Selectie 2. Training & instructie

26

Selectie beoordelaars: verschillen ze?

Lesterhuis, Bouwer, De Maeyer, & Donche, 2017

Docenten, docenten in opleiding en docentenopleiders:

- Aantal jaren ervaring niet relevant

- Achtergrond niet relevant

27

Selectie beoordelaars: is iedereen geschikt?

ER-schema’s- Studenten .73- Docenten .77

Moodboards- Studenten .81 & .73- Docenten .71

Zelfreflecties- Docenten .77- Nitwits .73

r =.62

r =.65 & r =.63

r =.57

28

Effect van training en instructie

Casus 1: geen instructieTeksten 18 & 27 aangepast met typische NT2 fouten

29

Spruyt, 2017


Casus 2: Informatieve teksten, niet taalconventies!

30

8 studenten 6 studenten 7 studenten

Instructie Instructie Instructie

Getypte teksten Getypte teksten Handgeschreven + spelfouten

30 minuten training

225 vergelijkingen 225 vergelijking 225 vergelijkingen

SSR=.86 (.80 met 6 studenten)

SSR=.77 SSR=.82

R = .83 R = .78

R = .88Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017


Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017

31

Voorwaarden voor valide & betrouwbare resultaten

Bij gebruik van random paarsgewijze vergelijking:- Aantal vergelijkingen?- Aantal en kenmerken van beoordelaars?

Andere algoritmes voor selectie van paren:- Adaptief algoritme- Plaatsingsalgoritme- Equal views- Triplets

32

Adaptief algoritme

● Adaptieve versus random CB

○ Paren worden samengesteld o.b.v. informatie (Pollitt, 2012)

⇒ Efficiënter

○ MAAR: Betrouwbaarheid is vertekend (zie Bramley, 2015)

33

Plaatsingsalgoritme: het beste van beiden? Een tweetraps aanpak in CB

Fase 1: een betrouwbare schaal met random algoritmeFase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme

Onderzoeksvraag:Hoe betrouwbaar moet de referentieschaal zijn en hoeveel vergelijkingen zijn nodig voor een accurate plaatsing van nieuwe representaties?

34

Plaatsingsalgoritme: in de praktijk

• CB sessie in samenwerking met International Baccalaureate• 160 essays, 15 beoordelaars en 28 vergelijkingen per essay (SSR = 0.92)• Vier referentiesets van 140 essays met variërende SSR-waarden: .50, .70, .80 en .92• Terugplaatsen van 20 essays o.b.v. het plaatsingsalgoritme (Maximum Fisher Information met verschillende stopcriteria: betrouwbaarheid van .70, .80, en na 10 vergelijkingen)

35

Furlong, Verhavert, Bouwer, & De Maeyer, 2017

Resultaten van een tweetraps aanpak in CB36


Een tweetraps aanpak in CB

Wat kunnen we concluderen o.b.v. deze resultaten?

Fase 1: creëer een referentieset met een minimale betrouwbaarheid van .80

Fase 2: plaats nieuwe representaties adaptief en gebruik een stopcriterium van .80

37


Equal views

Zijn er situaties waarin het gewenst (of noodzakelijk) is dat alle beoordelaars alle representaties zien tijdens het vergelijken?

38

Equal views

Oplossing: Equal views algoritme

39

Triplets?

• 3 representaties rangschikken i.p.v. 2 vergelijken• Efficiënter? En wat met de betrouwbaarheid?

40

Triplets?41

Triplets?

• Correlatie van kwaliteitsschattingen

42

Triplets?

• Onderzoeken van ...:

– Hoe implementeer je triplets in een tool?– Hoe ervaren beoordelaars triplets?– Wat als representaties zeer veel informatie bevatten?– ...

43

Taak 2: Pas wat je leerde toe op jouw casus

- Pas wat je leerde toe op de casus die je ontwikkelde in taak 1

- Hoe zou je het CB assessment opzetten voor jouw specifieke cases? Wees zo specifiek mogelijk

44

Hands-on: D-PAC Try-out

45

D-PAC Try-out

- Maak enkele vergelijkingen:

Log in de tool: https://sandbox.d-pac.beGa naar ‘Beoordeel’ > ‘D-PAC Event Posters’

- Bekijk de resultaten:

Ga naar ‘Results’ > ‘D-PAC Event Posters’

46

https://t1.d-pac.be

WELKE LUNCH KIES JE?

?

47

Taak 3: Brainstorm over de analyse

- Welke (onderzoeks)vragen kunnen we onszelf stellen bij de D-PAC try-out?

- Welke (bijkomende) analyses zijn nodig om die vragen te beantwoorden?

48

Hands-on: Jamovi / R analyses

49

Overzicht

- Opzet van de “CJanalyses” module in Jamovi- Importeren van de data- Analyse van de betrouwbaarheid van het CJ assessment- Enkele grafieken- Misfits- Aantal vergelijkingen / beoordelaar- Aantal vergelijkingen / representatie- Aantal beoordelaars / representatie- Tijdsanalyses- Evolutie van de betrouwbaarheid

50

Taak 4: Reflectie

- Kijk terug naar jouw casus in taak 1: welke analyse moet je doen voor het beantwoorden van jouw vragen?

- Kun je nog extra vragen bedenken bij jouw casus? Wat zijn de implicaties hiervan voor het opzetten en uitvoeren van het assessment?

51

www.d-pac.be | [email protected]

52

Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 ›...

Documents

Transcript of Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 ›...