01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

24
01-5-2012 Samantha Bouwmeester College 3 Testtheorie

Transcript of 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Page 1: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

01-5-2012

Samantha Bouwmeester

College 3

Testtheorie

Page 2: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Even herhalen vorige college…

Betrouwbare score van persoon i is gemiddelde score bij oneindig aantal replicaties j.

Ti 1

qXij

j1

q

Xi

0iEGemiddelde meetfout voor één persoon over replicaties is nul: geluk en pech heffen elkaar op!

)()( ii XSES De spreiding van de meetfouten voor één persoon over replicaties is gelijk aan de spreiding van de geobserveerde scores voor één persoon over replicaties. Immers spreiding in betrouwbare score voor één persoon is nul!

0)( iTS

2

(i = persoon, j = replicatie)ijiij ETX dus iijij TXE

Page 3: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Aanname KTT: de gemiddelde meetfout over personen is nul: discutabel!

E 1

nEi

i1

n

0

0),(,0),(

,0),(

TErXEr

YEr Meetfouten correleren nergens mee, behalve met een variabele waar ze zelf deel van uitmaken.

0),(,0),( TESXES

222ETX SSS

Variantie van scores bestaat uit systematisch deel, ST

2, en toevallig deel, SE

2.

2

2

'X

T

S

Srxx

Betrouwbaarheid is de verhouding systematische variantie / totale variantie

Betrouwbaarheid is de verhouding systematische variantie / totale variantie

3

Page 4: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Tot nu toe:

Puur theoretische definities, afleidingen en aannames over meten en betrouwbaarheid.

De vraag is nu:

Op welke manier kunnen we de betrouwbaarheid van een test met empirische data daadwerkelijk schatten/bepalen?

)(

)(' 2

2

XS

TSrxx =

4

Page 5: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Vier manieren om betrouwbaarheid te schatten:

o.b.v. 2 testafnames 2 parallelle tests

test-hertest

o.b.v. 1 testafname splitsingsmethode

alfa als ondergrens van de betrouwbaarheid

Bepaling van de betrouwbaarheid

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is

een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v

1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v1.Dit is een v

1.Dit is een 1.Dit is een v

5

Page 6: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

1. Parallelvorm-methodeBetrouwbaarheid = correlatie tussen twee parallelle tests

HGrrxx ,'Als twee tests parallel zijn, dan geldt dat de betrouwbaarheid van de test gelijk is aan de correlatie tussen de scores op test G en test H

Wanneer zijn twee tests parallel?

HiGi TT Als de betrouwbare score van persoon i op test G gelijk is aan de betrouwbare score op test H, én:

22HG SS

Als de variantie van de geobserveerde scores op test G gelijk is aan de variantie van de geobserveerde scores op test H

6

Page 7: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Helaas! Niet direct controleerbaar of twee tests parallel zijn.

Wel controleerbaar:

HG XX

Goede controle voor parallellie!YHYG rr ,,

Voorbeeld:

Stel we hebben een vragenlijst die faalangst meet, dan zijn twee faalangsttests parallel wanneer zij dezelfde correlatie hebben met een “relevante” andere test, die bijvoorbeeld zelfvertrouwen meet.

22HG SS

7

Page 8: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Nota Bene!

- In de praktijk bestaan parallelle tests eigenlijk niet!

- Bij niet parallelle tests is rgh < rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) tests is lager dan de betrouwbaarheid in de populatie.

- dit komt omdat bij niet-parallelle items het verschil tussen items voor wat “error” zorgt. Door deze niet-systematische meetfout kan de rangorde van de scores gaan verschillen en daardoor wordt de correlatie een beetje naar lager.

8

Page 9: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

2. Test-Hertest methodeBetrouwbaarheid = correlatie tussen twee afnames van dezelfde test. Betrouwbaarheid = correlatie tussen twee afnames van dezelfde test.

21'

tt XXxx rr

Is er verandering te verwachten in de te meten eigenschap?

Zo ja, dan geen goede methode!

Geen goede schatting van de betrouwbaarheid bij:

-Leereffect

-Geheugeneffect

-Attitudeverandering

-Aselecte uitval

Vraag: Hoe groot moet het tijdsinterval tussen twee afnames zijn….?

De correlatie tussen twee afnames (t=1, en t=2) is de betrouwbaarheid van de test.

9

Page 10: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

3. SplitsingsmethodeEigenlijk ook een vorm van de parallelvorm-methode!

Betrouwbaarheid = correlatie tussen de ruwe scores van twee helften van dezelfde test (+ correctie aantal items). Betrouwbaarheid = correlatie tussen de ruwe scores van twee helften van dezelfde test (+ correctie aantal items).

'

'

)1(1 xx

xxKK rK

rKr

Betrouwbaarheid gehele test

Correlatie tussen twee testhelften (=betrouwbaarheid van ½ test)

Verlengingsfactor

10

NB: hoe meer items, des te betrouwbaarder de test!

Page 11: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Nota Bene!

• Wanneer twee testhelften niet parallel zijn, geldt: rKK< rxx’ . Dus de geschatte betrouwbaarheid op basis van de correlatie tussen de twee (niet-parallelle) testhelften is lager dan de betrouwbaarheid in de populatie!

• Vuistregels voor splitsen:

- Niet splitsen in gemakkelijke en moeilijke helft

- Niet splitsen in 1e en 2e helft

- Items van de twee helften moeten inhoudelijk overlappen!

Voorbeeld: Stel de correlatie tussen twee testhelften (rxx’) is .7. Wat is de betrouwbaarheid (rKK) van de gehele test?

Antwoord: 82.7.1

4.1

7.)12(1

7.2

KKr

11

Page 12: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

4. Cronbach’s alpha

• Bekendste maat: Cronbach’s alfa:

Bewijs op p216-219, beetje (beetje????) moeilijk! Hoef je niet te kunnen/kennen voor bloktoets… !

Bewijs op p216-219, beetje (beetje????) moeilijk! Hoef je niet te kunnen/kennen voor bloktoets… !

21 X

wvYY

S

S

k

k wv

k wv YY wv

S

2XS

Aantal items in de test

Som van alle covarianties

Variantie van de Somscore

12

Als v=w, dan . Dit is de variantie! (en die doet dus niet mee…

Als v=w, dan . Dit is de variantie! (en die doet dus niet mee…

2

vvv YYY SS

Page 13: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

21 X

wvYY

S

S

k

k wv

88.2.27

18144

Voorbeeld: Stel we hebben een test bestaande uit 4 items met de volgende variantie/covariantie matrix: 1.32.21.4

1.33.22.1

2.23.2-1.2

1.42.1-1.2

2.3

1.6

3.2

2.1

22

4321 YYYYSS X = 18 + 2.1 + 3.2 + 1.6 + 2.3 = 27.2

wv

YY wvS

,

=-1.2

k = 4

+ 2.1 + 1.4 - 1.2 + 3.2 + 2.2 + 2.1 + 3.2 + 1.3 + 1.4 + 2.2 + 1.3=18

Yw=4

Yw=3

Yw=2

Yw=1

Yv=4Yv=3Yv=2Yv=1w

v

13

Page 14: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Nota Bene!

Alfa ≤ rxx’

Alfa is een ondergrens van de betrouwbaarheid. Dit betekent dat de werkelijke betrouwbaarheid in de populatie hoger is. Maaaaaar: steekproef alfa kan weer een overschatting zijn van de betrouwbaarheid.

Grote steekproef

(n=veel)

s2

rxx’ rxx’ s1 s3

s1 s2

s3

Dus: bij een kleine steekproef heb je

grotere kans dat alfa een

OVERSCHATTING is van de

betrouwbaarheid!

0 1 0 1

14

Kleinere steekproef (n=beetje minder)

Page 15: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

- Alfa is de gemiddelde splitsingsbetrouwbaarheid over alle mogelijke splitsingen

Interne consistentie is eigenlijk niet zo’n goede benaming omdat:

• alfa neemt toe als aantal items toenemen, maar inhoudelijk gaat de test een eigenschap bij verlenging niet beter of betrouwbaarder meten.

• ook bij heterogeniteit kan alfa hoog zijn (bijv. Clusters van items die verschillende vaardigheden meten en binnen een cluster hoog correleren)

Andere maten voor interne consistentie:

• KR-20, alfa voor dichotome items (zelfde als Cronbach’s alfa)

• Lambda-2, minder bekend maar eigenlijk een BETERE ondergrens van de betrouwbaarheid! (formule wordt gegeven op bloktoets)mu0() ≤ mu1(lambda) ≤ mu2 ≤ mu3 ≤…. ≤ rxx’

15

Page 16: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

1. Nauwkeurigheid van metingen

standaardmeetfout '1)()( xxrXSES

Zes speciale onderwerpen

Vb. Karin heeft Xi = 10, op een toets met S(X) = 2, gemiddelde 14 en rxx’= .91. Wat is 95% BI van Karin’s true score?

6.009.291.12)( ES

95% BI:

ii XT ˆ

EiiEi SZXTSZX %5,2%5,2

6.096.1106.096.110 iT

18.1182.8 iT16

Page 17: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Bij schatting van Ti wordt rekening gehouden met betrouwbaarheid en gemiddelde. Geschatte true score van Karin wordt nu:

'1 xxTE rSS

XxxT SrS '

In paragraaf 6.4.1:

X

Txx

S

Sr '

2

2

'X

Txx

S

Sr

XrXrT xxixxi )1(ˆ'' 36.1014)91.1(1091.ˆ iT

XxxT SrS '

57.091.1291. ES

57.096.136.10ˆ57.096.136.10 iT

48.11ˆ24.9 iT

95% BI:

NB: omdat ST ≤ SX, is de tweede methode nauwkeuriger!

Xi = 10, S(X) = 2, gemiddelde 14 , rxx’= .91. standaardschattingsfout

17

Page 18: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

2.Relatie betrouwbaarheid en testlengte

Spearman-Brown formule:

'

'

)1(1 xx

xxkk rK

Krr

rxx’ = betrouwbaarheid oude test

rkk = betrouwbaarheid na verlenging / verkorting

K = verlengings/verkortings factor

Voorbeeld 1:

Stel we hebben een test bestaande uit 50 items met rxx’ =.8. De test duurt te lang. Wat wordt de betrouwbaarheid als we 20 items verwijderen?

k=30/50 =.6 (verkortingsfactor...),

rkk = onbekend

71.68.

48.

8.)16(.1

8.6.

kkr

18

Page 19: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Voorbeeld 2:

Stel we hebben een test bestaande uit 30 items met rxx’

=.5. We willen een betrouwbaarheid van .8. Hoeveel items moeten we toevoegen?

k=onbekend

rkk = .8

4)8.1(5.

)5.1(8.

K

Er moeten dus 430-30=90! Items worden toegevoegd!!!

)1(

)1(

'

'

kkXX

XXKK

rr

rrK

19

Page 20: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

-Winst in betrouwbaarheid wordt steeds kleiner

-Praktisch ondoenlijk!

-Parallelle items vereist!

-Validiteit neemt minder toe dan betrouwbaarheid.

'

),(),(xx

kkk r

rYXrYXr

20

Vb. rxx’=.6, rkk=.9

- betrouwbaarheid is dan dus .9/.6 =1.5 keer zo groot.

-Validiteit is (slechts)

keer zo groot.

2.16.

9.

Page 21: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

3. Betrouwbaarheid en validiteit

De correlatie tussen een test en een criterium (validiteit) is altijd kleiner of gelijk aan de wortel uit de betrouwbaarheid van de test! Dus stel de rxx’= .64, dan wordt de correlatie NOOIT hoger dan .80.

'rxxrXY

Wat zou de correlatie (validiteit) zijn als zowel X ALS Y perfect betrouwbaar (rxx’=1) zouden zijn gemeten?

Formule 6.53 attenuatiecorrectie

TX = test X met oneindig aantal parallelle

items.'' yyxx

XYTT

rr

rr

yx

PAS OP: gevonden validiteitscoëfficiënt is te optimistisch en niet realistisch (want X en Y zijn niet perfect betrouwbaar gemeten!!)

21

Page 22: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

4. Betrouwbaarheid van verschilscores

- Verschilscores zijn vaak erg onbetrouwbaar omdat het verschil vooral uit meetfouten bestaat. Dit geldt met name voor variabelen met al een lage betrouwbaarheid.

X1=rekentoets september

X2=rekentoets mei

X2-X1= vooruitgang rekentoets

X1=T+E1

X2=T+Tmei+E2

X2-X1=T+Tmei+E2-T-E1=Tmei+E1-E2

NB. E kan positief én

negatief zijn.

T valt weg, daarom relatief veel error in de verschilscore

Dit probleem wordt groter naarmate de variabelen X1 en X2 hoog correleren! De variabelen meten dan grotendeels hetzelfde en het verschil tussen de scores berust vooral op niet-systematische verschillen.

22

Page 23: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

Voorbeeld: stel we nemen een toets 3.7 af bij eerstejaars. Omdat vrijwel niemand kennis heeft van testtheorie, is de spreiding in T klein. Als ST afneemt, en SE blijft gelijk, dan neemt de betrouwbaarheid van de test af!

67.03

2

12

23ejaars_'

xxr 33.0

3

1

5.1

5.

15.

5.1ejaars_'

xxr

5. Betrouwbaarheid en spreiding van scores

22

2

2

2

'ET

T

X

T

SS

S

S

Srxx

• Als variantie in betrouwbare score afneemt, dan neemt ook de betrouwbaarheid af (bij gelijkblijvende meetfouten variantie SE)

• Daarom: pas op bij gebruik van tests in deelpopulaties waar ze niet voor gemaakt zijn!

23

Page 24: 01-5-2012 Samantha Bouwmeester College 3 Testtheorie.

6. Heterogene tests

Voor heterogene tests (meerdere deeltests) gebruiken we gestratificeerde alpha-coëfficiënt om de betrouwbaarheid van de gehele test te berekenen:

21

'2 )1(

1strat_alfaX

k

g

ggg

S

rS

Subtest

1.9

2.5

.65Y2.Verbale analogieën

.81Y1.Figuur herkennen

2gS ggr

SY1Y2 = 1.8

86.08

14.11

8.129.15.2

)65.1(9.1)81.1(5.21_

stratalfa

2

'

2

XS

r

S

gg

gVariantie van deeltest

Betrouwbaarheid van deeltest

Variantie van totale test

24