15-5-2012 Samantha Bouwmeester College 7 Testtheorie
Dia 2
-2-1012 1010.5 P(X g =1| ) Item response functie: S-curve, op
grote gebieden vlak, op gering gebied steil. Op steile gebied zijn
de meetwaarden goed te onderscheiden. Op vlakke gebied zijn de
meetwaarden vrijwel niet te onderscheiden. 2
Dia 3
P(X g =1| =0)=.95 P(X k =1| =0)=.73 Wie is/was de minister
president van Nederland? Wie is de president van Congo? Wie is/was
de president van Frankrijk? P(X h =1| =0)=.12 Kabila! IRFs van
items die verschillen in moeilijkheid/lokatie 3 G K H
Dia 4
P(X l =1| =-4)=.33 P(X 2 =1| =-4)=.25 Wat is de hoofdstad van
Noord-Holland? a.Amsterdam b.Haarlem c.Leiden Welke stad ligt niet
aan de Middellandse zee? a.Marseille b.Perpignan c.Nmes d.Nice IRFs
van items die verschillen in kans op correct antwoord bij minimale
meetwaarde 4
Dia 5
Item respons functies van een goed en een slecht discriminerend
item. 0.2 0.9 =-1.5 = 1.5 5
Dia 6
Item respons functies van drie slecht functionerende items 6
Dalend verband: hoe meer rekenvaardigheid, hoe kleiner de kans op
goed antwoord....Dat is dus gek. P(X=1) is gelijk voor alle waarden
van : item meet blijkbaar iets anders Single peaked item: vb. Ik
vind dat er voldoende hard wordt opgetreden criminele allochtone
jongeren.
Dia 7
Kenmerken van items die de exacte vorm bepalen: 1.Moeilijkheid
(vaardigheden), populariteit (attitudes) (parameter: g )
2.Discriminerend vermogen in het kritieke gebied (parameter: g )
3.Pseudokansniveau (parameter: g ) g, g, en g zijn item-parameters
omdat zij de kenmerken (vorm en lokatie) van een item (X g )
functie bepalen. Deze waarden kunnen verschillend zijn voor
verschillende items. i is een persoonsparameter omdat de (latente)
meetwaarde een kenmerk van de persoon is. Deze waarde varieert voor
personen met verschillende vaardigheid, symptomen, stijl, etc.
7
Dia 8
Item respons modellen Een item respons model legt restricties
op aan het antwoordgedrag. Het ene model is restrictiever
(strenger) dan het andere model. Hoe restrictiever het model, des
te moeilijker het zal passen op de data (werkelijkheid) maar hoe
mooier de meeteigenschappen. (kennis kopen met assumpties) Wij
bespreken alleen IRT-modellen voor dichotome items, met een
stijgende relatie tussen succeskans en meetlatwaarde. 8
Parametrische IRT modellen -Rasch (locatie parameter, ) -2
parameter logistisch model, Birnbaum (locatie en discriminatie ) -3
parameter logistisch model (locatie , discriminatie , pseudokans )
Non-parametrische IRT modellen - Mokkens homogeniteits model (MHM).
IRF moet monotoon niet-dalend zijn. - Dubbele monotoniemodel (DMM).
IRF niet-dalend en IRFs mogen niet snijden.
Dia 9
Even opfrissen: e = exp(onent) = 2.718281828 (net zoiets als
=3.14159265) e 3 = exp(3) = e e e = 2.71~ 2.71~ 2.71~ = 20.09
exp(X) is de inversefunctie van ln(X), en andersom, inverse is een
soort omgekeerd Rekenmachine: e 3 = 3 inv ln 9 e 0 =1 e -getal =
tussen 0 en 1 e x wordt nooooit g, dan is item h moeilijker dan
item g. 11
Dia 12
Birnbaum model (2-parameter logistisch model) Ruud de W. heeft
een meetwaarde van q i = 1 op de vaardigheidsschaal rekenen. Het
item: e 2 +e 3 -e, heeft een g van 1 en een g van 0.5 Wat is de
kans dat Ruud de W. het correcte antwoord geeft op dit item,
wanneer bekend is dat het item voldoet aan 2-par-Birnbaum model?
NB: als = , dan is de kans.5 12
Dia 13
2 item parameters g, g. Items in het 2-parameter logistisch
model kunnen verschillen in moeilijkheid/populariteit () en
discriminerend vermogen (): minder streng dan Rasch. Hoe groter ,
des te steiler de functie, des te beter het item discrimineert g =
-2, g = 1 k = 1, k =.5 h = 0, h = 2 13
Dia 14
14 Birnbaum-model (3-parameter logistisch model) Chiel B. heeft
een meetwaarde van = -2 op de vaardigheidsschaal taal. Het item:
Wat betekent ignoreren?, is een 4-keuzevraag en heeft een g van 1
en een g van 1, en een g van.25 Wat is de kans dat Chiel B. het
correcte antwoord geeft op dit item, wanneer bekend is dat het item
voldoet aan 3-par-logistisch model? 14
Dia 15
15 3 item parameters g, g, en, g. Items in het 3-parameter
logistisch model kunnen verschillen in moeilijkheid (),
discriminerend vermogen () en pseudokans () g = -2, g = 2, g =.2 g
= 1.5, g = 1, g =.25 g = -1, g = 1.5, g =0 15
Dia 16
Mokkens model van monotone homogeniteit (MHM) - Volgens Mokken
zijn de parametrische-functies vaak te restrictief voor
psychologische eigenschappen. - Daarom: non-parametrisch
IRT-model=> de Item response functie wordt NIET gedefinieerd
door parameters(alleen persoonsparameter , meetwaarde) P(X=1)
16
Dia 17
Enige eis aan functie: monotoon-niet dalend, daarom minder
restrictief dan parametrische modellen. Ordinaal meetniveau van de
psychologische eigenschap (tenminste interval meetniveau bij
parametrische modellen) Je kunt de personen alleen maar rangordenen
volgens . als p > j, dan P(X=1| p ) P(X=1| j ) j p 17
Dia 18
Mokkens model van dubbele monotonie (DMM) -Monotoon niet dalend
in -Extra eis: de item response functies mogen niet snijden (wel
raken). -DMM is daarom strenger dan MHM. -Ordinaal meetniveau,
ordering van personen en items mogelijk. Volgorde van de kans op
correct antwoord op de items is voor alle waarden van gelijk!
18
Dia 19
Onafhankelijkheid Meetwaarden Maakt het uit voor de (ordening
van) de meetwaarden welke items (uit populatie van alle mogelijke
items) men krijgt voorgelegd? Onafhankelijkheid Item kenmerken
Maakt het uit voor de (ordening van) de items (bijv. qua lokatie)
welke (sub)populatie (uit populatie van alle mogelijke meetwaarden)
de items maakt? (sub)populatie onafhankelijkheid Gegeven: een test
die bestemd is voor een bepaalde populatie (bijv. 4-12 jarigen) met
een aantal items die gekozen zijn uit een populatie van items.
Vraag: zijn de schattingen van de meetwaarden ( ) en itemkenmerken
( ) onafhankelijk van de subpopulatie (bijv. 5 jarigen)? 19
Dia 20
Populatie 1Populatie 2Populatie 3 Populatie onafhankelijkheid
Rasch model Populatie-onafhankelijkheid van items? Ja, immers:
geldt voor alle meetwaarden als Populatie-onafhankelijkheid van
meetwaarden? Ja, immers: geldt voor alle items. als Niet alleen
ordening, maar zelfs verhouding (op een log-odds schaal)! 20
Dia 21
Populatie 1Populatie 2 Populatie onafhankelijkheid 2-par
logistisch model Populatie-onafhankelijkheid van items? Nee,
immers: Geldt NIET voor alle meetwaarden als
Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt voor
alle items. als Niet alleen ordening van personen maar zelfs van
intervallen ! 21
Dia 22
Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt
voor alle items. als Populatie-onafhankelijkheid van items? Nee,
immers: Geldt NIET voor alle meetwaarden als Populatie 1 Populatie
2 Populatie onafhankelijkheid 3-par logistisch model 22
Dia 23
Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt
voor alle items. als Populatie-onafhankelijkheid van items? Nee,
immers: geldt NIET voor alle meetwaarden als Populatie 1Populatie 2
Populatie onafhankelijkheid MHM MHM_1 MHM_2 MHM_3 MHM_4 23
Dia 24
Populatie-onafhankelijkheid van meetwaarden? Ja, immers: geldt
voor alle items. als Populatie-onafhankelijkheid van items? Ja,
immers: Geldt voor alle meetwaarden als Populatie 1Populatie 3
Populatie onafhankelijkheid DMM DMM_1 DMM_2 DMM_3 DMM_4 24
Dia 25
Hoe schatten we de nu meetwaarden ( ) en de itemparameters?
iteratief proces Oplossing geeft waarden voor theta en delta
waarbij alle responspatronen zo goed mogelijk verklaard worden.
501102 items ABCD personen 1 2 3 4 1111 1001 1011 0001 Totaal 4 2 3
1 3124 Personen kunnen worden geordend op totaalscore Items kunnen
worden geordend op p- waarden pp3pp4pp2pp1 slechts 2 goed, maar wel
de 2 moeilijkste pp5 DACB 25
Dia 26
26 Nauwkeurigheid van metingen - Parametrische IRT-modellen
geven gedetailleerdere informatie over betrouwbaarheid dan
KTT-modellen - In KTT : standaard error is constant over T - In
IRT: standaard error is functie van , en dus niet overal hetzelfde.
- Consequentie: een test is voor sommige waarden van informatiever
/ betrouwbaarder dan voor andere! 26
Dia 27
Een te moeilijk of te gemakkelijk item levert weinig informatie
op over de meetwaarde van een persoon, dus meetwaarde niet erg
betrouwbaar. Item-informatie functie geeft voor elke waarde van de
standaardmeetfout (S E ) voor het betreffende item Test-informatie
functie is optelsom van alle item-informatiefuncties.
Betrouwbaarheid van scores in IRT: 27
Dia 28
De plaats waar het item het steilst is, en dus het beste
discrimineert, daar is de functie het informatiefst, heeft het de
kleinste S E en is het dus het betrouwbaarst! Iteminformatie
functie 28
Dia 29
Testinformatie functie 95% BI (=-2): 1.3-5.3 1.7 29
testinformatiefunctie Itest ( =0)=.2+.2+.25=.65 95% BI (=0):
2.4-2.4
Dia 30
IQ achterstandIQ hoogbegaafdZak-slaag bloktoets
Doel-testinformatie functies: 30
Dia 31
Vraagonzuiverheid Item functioneert verschillend in
verschillende populaties (Differential item functioning, DIF)
voorbeeld: redactiesommen (geslacht, cultuur, achtergrond) Bij
vraagonzuiverheid doet vraag beroep op een andere dan te meten
psychologische eigenschap! NB. DIF is NIET hetzelfde als een
verschil in gemiddelde meetwaarde van groepen! Vraagzuiver: IRF is
identiek in verschillende groepen. Mensen met dezelfde uit
verschillende groepen hebben dezelfde IRF, en dus dezelfde kansen
op een goed antwoord. 31
Dia 32
Voorbeeld vraagonzuiverheid: Jongens en meisjes met dezelfde
hebben niet dezelfde kans om het item correct te beantwoorden.
32