Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 ›...

52
Comparatief beoordelen binnen onderzoek en onderwijs Een toepassing van D-PAC Sven De Maeyer Marije Lesterhuis Renske Bouwer Maarten Goossens Tine van Daal Roos Van Gasse San Verhavert 16-11-2017 1

Transcript of Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 ›...

Page 1: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Comparatief beoordelen binnen onderzoek en onderwijs

Een toepassing van D-PAC

Sven De Maeyer Marije LesterhuisRenske Bouwer Maarten GoossensTine van Daal Roos Van GasseSan Verhavert

16-11-2017

1

Page 2: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Wat zijn jouw verwachtingen?

2

Page 3: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Overzicht

• Waarom comparatief beoordelen? Theoretische achtergrond

• Comparatief beoordelen in de praktijk• Voorwaarden om een comparatief assessment op te

zetten• Hands-on: D-PAC try-out

LUNCH

• Hands-on: resultaten en analyses

3

Page 4: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Waarom comparatief beoordelen? Theoretische achtergrond

4

Page 5: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

So you think you can judge?!

-> Criteria? Beoordelingsschaal?-> Moeilijkheden? Problemen?

Danser 1 Danser 2

Danser 3 Danser 4

5

Page 6: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Comparatief beoordelen... Wie is de beste danser?

?

?

?

6

Page 7: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Waarom comparatief beoordelen?

• Holistisch and relatief (Pollitt, 2012)• Gedeelde consensus ~ groep van beoordelaars (van Daal

et al., 2016)• Gebruik van expertise (Pollitt, 2012; Jones et al., 2015)

=> Verhoogt validiteit! (Jones & Inglis, 2015; Pollitt & Crisp, 2004; Pollitt, 2012)

• Breed toepasbaar (e.g., Heldsinger & Humphry, 2010; Jones & Alcock, 2014; Pollitt, 2012):– Competenties die moeilijk te vervatten zijn in criteria– Verwachte verschillen in antwoorden– Performances

7

Page 8: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Informatie uit comparatief beoordelen

● Bradley-Terry-Luce model:○ Kwaliteitsscores (in logits) met betrouwbaarheidsinterval○ Rangorde

● Scale Separation ReliabilityGeeft schatting van interbeoordelaars betrouwbaarheid (Verhavert, 2017)

● Misfit data voor beoordelaars Welke beoordelaars hebben een ‘andere’ kijk (in vergelijking met de gedeelde

consensus van beoordelaars?)

● Misfit data voor representatiesWelke representatie(s) zijn moeilijk te beoordelen?

8

Page 9: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Rangorde met kwaliteitsscores9

Page 10: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Misfit van beoordelaars

10

Page 11: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Geschiedenis van comparatief beoordelen

1927 2004

Thurstone

2007

2009

2014 - 2017

Pollitt

Bramley

Kimbell

11

Page 12: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Comparatief beoordelen in de praktijk ...

12

Page 13: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Implementatie in de praktijk

Comparatief beoordelen om complexe groepsbeslissingen te maken, monitoren of verbeteren

Waarom?- Vergelijken is makkelijker en betrouwbaarder dan absoluut

beoordelen (Laming, 2004; Thurstone, 1927)- De rangorde geeft de gedeelde consensus van

beoordelaars weer (van Daal et al., 2017)- Geeft inzicht in de mate waarin beoordelaars of

representaties afwijken van de groepsconsensus

13

Page 14: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Praktijkvoorbeelden van comparatief beoordelen

- Summatieve beoordeling van competenties- Prioriteren van ideeën of agendapunten- Selectie van cv’s, portfolio’s, projectvoorstellen

14

Page 15: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Praktijkvoorbeelden van comparatief beoordelen

Als tool om te leren:- Formatieve beoordeling & peer assessment- Professionalisering van beoordelaars

15

Page 16: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Taak 1: Bedenk een casus

- Hoe zou jij comparatief beoordelen kunnen gebruiken in jouw (onderzoeks)context? Welke doelen & vragen heb je daarbij?

- Waarmee dien je rekening te houden bij de implementatie van comparatief beoordelen in jouw (onderzoeks)context? Denk aan verschillende actoren, doelen, taken, etc.

16

Page 17: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Voorwaarden om een comparatief assessment op te zetten

17

Page 18: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Voorwaarden voor valide & betrouwbare resultaten

Bij gebruik van random paarsgewijze vergelijking:- Aantal vergelijkingen?- Aantal en kenmerken van beoordelaars?

Andere algoritmes voor selectie van paren:- Adaptief algoritme- Plaatsingsalgoritme- Equal views- Triplets

18

Page 19: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Hoeveel vergelijkingen voor betrouwbare resultaten?

Verschillende assessments = andere resultaten

19

Page 20: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Meta-analyse van betrouwbaarheid

49 assessments in D-PAC• gemiddelde betrouwbaarheid = .79 (.49 to .99)• aantal representaties: 84 (6 to 1089)• aantal beoordelaars: 29 (4 to 127)• verschillende representaties en competenties• in verschillende contexten (onderwijs, onderzoek, werkplek)

Verhavert, Bouwer, De Maeyer, & Donche, in prep

20

Page 21: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Resultaten meta-analyse

Effect van kenmerken van assessments op betrouwbaarheid:• Aantal vergelijkingen per representatie• Totaal aantal vergelijkingen• Aantal beoordelaars• Aantal vergelijkingen per beoordelaar• Type representaties (tekst, video, audio, beelden)• Type feedback (geen, comparatief, pros/cons)• Expertise van beoordelaar (experts, novices, peers)

Verhavert, Bouwer, De Maeyer, & Donche, in prep

21

Page 22: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Aantal vergelijkingen

SSR 0.70: 8-12 vergelijkingen per representatieSSR 0.80: 16-20 vergelijkingen per representatie

Verhavert, Bouwer, De Maeyer, & Donche, in prep

22

Page 23: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Aantal vergelijkingen per beoordelaar

Voor een bijkomende toename van 0.01 in SSR: +20 vergelijkingen per beoordelaar

Verhavert, Bouwer, De Maeyer, & Donche, in prep

23

Page 24: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Aantal en kenmerken van beoordelaar

Geen effect van beoordelaar op betrouwbaarheid, maar…

Meer beoordelaars:- Verhogen de generaliseerbaarheid van de resultaten:

groep consensus (Van Daal et al., 2017)

- Verhogen de validiteit van de resultaten: verschillen tussen beoordelaars (Lesterhuis et al., 2017)

24

Page 25: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Focus van beoordelaars

Beoordelaars vergelijken teksten op verschillende, maar relevante aspecten van schrijven

Omdat meerdere beoordelaars de vergelijkingen maken, is de rangorde een weergave van de volledige competentie ‘schrijfvaardigheid’.

25

Van Daal, Lesterhuis, Coertjens, Donche & De Maeyer, 2017

Page 26: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Kenmerken beoordelaars

1. Selectie 2. Training & instructie

26

Page 27: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Selectie beoordelaars: verschillen ze?

Lesterhuis, Bouwer, De Maeyer, & Donche, 2017

Docenten, docenten in opleiding en docentenopleiders:

- Aantal jaren ervaring niet relevant

- Achtergrond niet relevant

27

Page 28: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Selectie beoordelaars: is iedereen geschikt?

ER-schema’s- Studenten .73- Docenten .77

Moodboards- Studenten .81 & .73- Docenten .71

Zelfreflecties- Docenten .77- Nitwits .73

r =.62

r =.65 & r =.63

r =.57

28

Page 29: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Effect van training en instructie

Casus 1: geen instructieTeksten 18 & 27 aangepast met typische NT2 fouten

29

Spruyt, 2017

Page 30: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Effect van training en instructie

Casus 2: Informatieve teksten, niet taalconventies!

30

8 studenten 6 studenten 7 studenten

Instructie Instructie Instructie

Getypte teksten Getypte teksten Handgeschreven + spelfouten

30 minuten training

225 vergelijkingen 225 vergelijking 225 vergelijkingen

SSR=.86 (.80 met 6 studenten)

SSR=.77 SSR=.82

R = .83 R = .78

R = .88Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017

Page 31: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Effect van training en instructie

Bouwer, Lesterhuis, De Smedt, Van Keer, & De Maeyer, 2017

31

Page 32: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Voorwaarden voor valide & betrouwbare resultaten

Bij gebruik van random paarsgewijze vergelijking:- Aantal vergelijkingen?- Aantal en kenmerken van beoordelaars?

Andere algoritmes voor selectie van paren:- Adaptief algoritme- Plaatsingsalgoritme- Equal views- Triplets

32

Page 33: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Adaptief algoritme

● Adaptieve versus random CB

○ Paren worden samengesteld o.b.v. informatie (Pollitt, 2012)

⇒ Efficiënter

○ MAAR: Betrouwbaarheid is vertekend (zie Bramley, 2015)

33

Page 34: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Plaatsingsalgoritme: het beste van beiden? Een tweetraps aanpak in CB

Fase 1: een betrouwbare schaal met random algoritmeFase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme

Onderzoeksvraag:Hoe betrouwbaar moet de referentieschaal zijn en hoeveel vergelijkingen zijn nodig voor een accurate plaatsing van nieuwe representaties?

34

Page 35: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Plaatsingsalgoritme: in de praktijk

• CB sessie in samenwerking met International Baccalaureate• 160 essays, 15 beoordelaars en 28 vergelijkingen per essay (SSR = 0.92)• Vier referentiesets van 140 essays met variërende SSR-waarden: .50, .70, .80 en .92• Terugplaatsen van 20 essays o.b.v. het plaatsingsalgoritme (Maximum Fisher Information met verschillende stopcriteria: betrouwbaarheid van .70, .80, en na 10 vergelijkingen)

35

Furlong, Verhavert, Bouwer, & De Maeyer, 2017

Page 36: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Resultaten van een tweetraps aanpak in CB36

Furlong, Verhavert, Bouwer, & De Maeyer, 2017

Page 37: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Een tweetraps aanpak in CB

Wat kunnen we concluderen o.b.v. deze resultaten?

Fase 1: creëer een referentieset met een minimale betrouwbaarheid van .80

Fase 2: plaats nieuwe representaties adaptief en gebruik een stopcriterium van .80

37

Furlong, Verhavert, Bouwer, & De Maeyer, 2017

Page 38: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Equal views

Zijn er situaties waarin het gewenst (of noodzakelijk) is dat alle beoordelaars alle representaties zien tijdens het vergelijken?

38

Page 39: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Equal views

Oplossing: Equal views algoritme

39

Page 40: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Triplets?

• 3 representaties rangschikken i.p.v. 2 vergelijken• Efficiënter? En wat met de betrouwbaarheid?

40

Page 41: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Triplets?41

Page 42: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Triplets?

• Correlatie van kwaliteitsschattingen

42

Page 43: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Triplets?

• Onderzoeken van ...:

– Hoe implementeer je triplets in een tool?– Hoe ervaren beoordelaars triplets?– Wat als representaties zeer veel informatie bevatten?– ...

43

Page 44: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Taak 2: Pas wat je leerde toe op jouw casus

- Pas wat je leerde toe op de casus die je ontwikkelde in taak 1

- Hoe zou je het CB assessment opzetten voor jouw specifieke cases? Wees zo specifiek mogelijk

44

Page 45: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Hands-on: D-PAC Try-out

45

Page 46: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

D-PAC Try-out

- Maak enkele vergelijkingen:

Log in de tool: https://sandbox.d-pac.beGa naar ‘Beoordeel’ > ‘D-PAC Event Posters’

- Bekijk de resultaten:

Ga naar ‘Results’ > ‘D-PAC Event Posters’

46

Page 47: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

WELKE LUNCH KIES JE?

?

47

Page 48: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Taak 3: Brainstorm over de analyse

- Welke (onderzoeks)vragen kunnen we onszelf stellen bij de D-PAC try-out?

- Welke (bijkomende) analyses zijn nodig om die vragen te beantwoorden?

48

Page 49: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Hands-on: Jamovi / R analyses

49

Page 50: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Overzicht

- Opzet van de “CJanalyses” module in Jamovi- Importeren van de data- Analyse van de betrouwbaarheid van het CJ assessment- Enkele grafieken- Misfits- Aantal vergelijkingen / beoordelaar- Aantal vergelijkingen / representatie- Aantal beoordelaars / representatie- Tijdsanalyses- Evolutie van de betrouwbaarheid

50

Page 51: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

Taak 4: Reflectie

- Kijk terug naar jouw casus in taak 1: welke analyse moet je doen voor het beantwoorden van jouw vragen?

- Kun je nog extra vragen bedenken bij jouw casus? Wat zijn de implicaties hiervan voor het opzetten en uitvoeren van het assessment?

51

Page 52: Een toepassing van D-PACd-pac.be › wp-content › uploads › 2017 › 11 › Workshop-slides...Fase 2: nieuwe representaties op de schaal plaatsen met een adaptief algoritme Onderzoeksvraag:

www.d-pac.be | [email protected]

52