Download - 15-5-2012 Samantha Bouwmeester College 7 Testtheorie.

15-5-2012 Samantha Bouwmeester College 7 Testtheorie

-2-1012 1010.5 P(X g =1| ) Item response functie: S-curve, op grote gebieden vlak, op gering gebied steil. Op steile gebied zijn de meetwaarden goed te onderscheiden. Op vlakke gebied zijn de meetwaarden vrijwel niet te onderscheiden. 2

P(X g =1| =0)=.95 P(X k =1| =0)=.73 Wie is/was de minister president van Nederland? Wie is de president van Congo? Wie is/was de president van Frankrijk? P(X h =1| =0)=.12 Kabila! IRFs van items die verschillen in moeilijkheid/lokatie 3 G K H

P(X l =1| =-4)=.33 P(X 2 =1| =-4)=.25 Wat is de hoofdstad van Noord-Holland? a.Amsterdam b.Haarlem c.Leiden Welke stad ligt niet aan de Middellandse zee? a.Marseille b.Perpignan c.Nmes d.Nice IRFs van items die verschillen in kans op correct antwoord bij minimale meetwaarde 4

Item respons functies van een goed en een slecht discriminerend item. 0.2 0.9 =-1.5 = 1.5 5

Item respons functies van drie slecht functionerende items 6 Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op goed antwoord....Dat is dus gek. P(X=1) is gelijk voor alle waarden van : item meet blijkbaar iets anders Single peaked item: vb. Ik vind dat er voldoende hard wordt opgetreden criminele allochtone jongeren.

Kenmerken van items die de exacte vorm bepalen: 1.Moeilijkheid (vaardigheden), populariteit (attitudes) (parameter: g ) 2.Discriminerend vermogen in het kritieke gebied (parameter: g ) 3.Pseudokansniveau (parameter: g ) g, g, en g zijn item-parameters omdat zij de kenmerken (vorm en lokatie) van een item (X g ) functie bepalen. Deze waarden kunnen verschillend zijn voor verschillende items. i is een persoonsparameter omdat de (latente) meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor personen met verschillende vaardigheid, symptomen, stijl, etc. 7

Item respons modellen Een item respons model legt restricties op aan het antwoordgedrag. Het ene model is restrictiever (strenger) dan het andere model. Hoe restrictiever het model, des te moeilijker het zal passen op de data (werkelijkheid) maar hoe mooier de meeteigenschappen. (kennis kopen met assumpties) Wij bespreken alleen IRT-modellen voor dichotome items, met een stijgende relatie tussen succeskans en meetlatwaarde. 8 Parametrische IRT modellen -Rasch (locatie parameter, ) -2 parameter logistisch model, Birnbaum (locatie en discriminatie ) -3 parameter logistisch model (locatie , discriminatie , pseudokans ) Non-parametrische IRT modellen - Mokkens homogeniteits model (MHM). IRF moet monotoon niet-dalend zijn. - Dubbele monotoniemodel (DMM). IRF niet-dalend en IRFs mogen niet snijden.

Even opfrissen: e = exp(onent) = 2.718281828 (net zoiets als =3.14159265) e 3 = exp(3) = e e e = 2.71~ 2.71~ 2.71~ = 20.09 exp(X) is de inversefunctie van ln(X), en andersom, inverse is een soort omgekeerd Rekenmachine: e 3 = 3 inv ln 9 e 0 =1 e -getal = tussen 0 en 1 e x wordt nooooit g, dan is item h moeilijker dan item g. 11

Dia 12

Birnbaum model (2-parameter logistisch model) Ruud de W. heeft een meetwaarde van q i = 1 op de vaardigheidsschaal rekenen. Het item: e 2 +e 3 -e, heeft een g van 1 en een g van 0.5 Wat is de kans dat Ruud de W. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model? NB: als = , dan is de kans.5 12

Dia 13

2 item parameters g, g. Items in het 2-parameter logistisch model kunnen verschillen in moeilijkheid/populariteit () en discriminerend vermogen (): minder streng dan Rasch. Hoe groter , des te steiler de functie, des te beter het item discrimineert g = -2, g = 1 k = 1, k =.5 h = 0, h = 2 13

Dia 14

14 Birnbaum-model (3-parameter logistisch model) Chiel B. heeft een meetwaarde van = -2 op de vaardigheidsschaal taal. Het item: Wat betekent ignoreren?, is een 4-keuzevraag en heeft een g van 1 en een g van 1, en een g van.25 Wat is de kans dat Chiel B. het correcte antwoord geeft op dit item, wanneer bekend is dat het item voldoet aan 3-par-logistisch model? 14

Dia 15

15 3 item parameters g, g, en, g. Items in het 3-parameter logistisch model kunnen verschillen in moeilijkheid (), discriminerend vermogen () en pseudokans () g = -2, g = 2, g =.2 g = 1.5, g = 1, g =.25 g = -1, g = 1.5, g =0 15

Dia 16

Mokkens model van monotone homogeniteit (MHM) - Volgens Mokken zijn de parametrische-functies vaak te restrictief voor psychologische eigenschappen. - Daarom: non-parametrisch IRT-model=> de Item response functie wordt NIET gedefinieerd door parameters(alleen persoonsparameter , meetwaarde) P(X=1) 16

Dia 17

Enige eis aan functie: monotoon-niet dalend, daarom minder restrictief dan parametrische modellen. Ordinaal meetniveau van de psychologische eigenschap (tenminste interval meetniveau bij parametrische modellen) Je kunt de personen alleen maar rangordenen volgens . als p > j, dan P(X=1| p ) P(X=1| j ) j p 17

Dia 18

Mokkens model van dubbele monotonie (DMM) -Monotoon niet dalend in -Extra eis: de item response functies mogen niet snijden (wel raken). -DMM is daarom strenger dan MHM. -Ordinaal meetniveau, ordering van personen en items mogelijk. Volgorde van de kans op correct antwoord op de items is voor alle waarden van gelijk! 18

Dia 19

Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening van) de meetwaarden welke items (uit populatie van alle mogelijke items) men krijgt voorgelegd? Onafhankelijkheid Item kenmerken Maakt het uit voor de (ordening van) de items (bijv. qua lokatie) welke (sub)populatie (uit populatie van alle mogelijke meetwaarden) de items maakt? (sub)populatie onafhankelijkheid Gegeven: een test die bestemd is voor een bepaalde populatie (bijv. 4-12 jarigen) met een aantal items die gekozen zijn uit een populatie van items. Vraag: zijn de schattingen van de meetwaarden ( ) en itemkenmerken ( ) onafhankelijk van de subpopulatie (bijv. 5 jarigen)? 19

Dia 20

Populatie 1Populatie 2Populatie 3 Populatie onafhankelijkheid Rasch model Populatie-onafhankelijkheid van items? Ja, immers: geldt voor alle meetwaarden als Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Niet alleen ordening, maar zelfs verhouding (op een log-odds schaal)! 20

Dia 21

Populatie 1Populatie 2 Populatie onafhankelijkheid 2-par logistisch model Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Niet alleen ordening van personen maar zelfs van intervallen ! 21

Dia 22

Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: Geldt NIET voor alle meetwaarden als Populatie 1 Populatie 2 Populatie onafhankelijkheid 3-par logistisch model 22

Dia 23

Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Nee, immers: geldt NIET voor alle meetwaarden als Populatie 1Populatie 2 Populatie onafhankelijkheid MHM MHM_1 MHM_2 MHM_3 MHM_4 23

Dia 24

Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor alle items. als Populatie-onafhankelijkheid van items? Ja, immers: Geldt voor alle meetwaarden als Populatie 1Populatie 3 Populatie onafhankelijkheid DMM DMM_1 DMM_2 DMM_3 DMM_4 24

Dia 25

Hoe schatten we de nu meetwaarden ( ) en de itemparameters? iteratief proces Oplossing geeft waarden voor theta en delta waarbij alle responspatronen zo goed mogelijk verklaard worden. 501102 items ABCD personen 1 2 3 4 1111 1001 1011 0001 Totaal 4 2 3 1 3124 Personen kunnen worden geordend op totaalscore Items kunnen worden geordend op p- waarden pp3pp4pp2pp1 slechts 2 goed, maar wel de 2 moeilijkste pp5 DACB 25

Dia 26

26 Nauwkeurigheid van metingen - Parametrische IRT-modellen geven gedetailleerdere informatie over betrouwbaarheid dan KTT-modellen - In KTT : standaard error is constant over T - In IRT: standaard error is functie van , en dus niet overal hetzelfde. - Consequentie: een test is voor sommige waarden van informatiever / betrouwbaarder dan voor andere! 26

Dia 27

Een te moeilijk of te gemakkelijk item levert weinig informatie op over de meetwaarde van een persoon, dus meetwaarde niet erg betrouwbaar. Item-informatie functie geeft voor elke waarde van de standaardmeetfout (S E ) voor het betreffende item Test-informatie functie is optelsom van alle item-informatiefuncties. Betrouwbaarheid van scores in IRT: 27

Dia 28

De plaats waar het item het steilst is, en dus het beste discrimineert, daar is de functie het informatiefst, heeft het de kleinste S E en is het dus het betrouwbaarst! Iteminformatie functie 28

Dia 29

Testinformatie functie 95% BI (=-2): 1.3-5.3 1.7 29 testinformatiefunctie Itest ( =0)=.2+.2+.25=.65 95% BI (=0): 2.4-2.4

Dia 30

IQ achterstandIQ hoogbegaafdZak-slaag bloktoets Doel-testinformatie functies: 30

Dia 31

Vraagonzuiverheid Item functioneert verschillend in verschillende populaties (Differential item functioning, DIF) voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bij vraagonzuiverheid doet vraag beroep op een andere dan te meten psychologische eigenschap! NB. DIF is NIET hetzelfde als een verschil in gemiddelde meetwaarde van groepen! Vraagzuiver: IRF is identiek in verschillende groepen. Mensen met dezelfde uit verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen op een goed antwoord. 31

Dia 32

Voorbeeld vraagonzuiverheid: Jongens en meisjes met dezelfde hebben niet dezelfde kans om het item correct te beantwoorden. 32