1 Historische ontwikkeling van het testen

53
Samenvatting Boek Testtheorie – Drenth en Sijtsma 1 Historische ontwikkeling van het testen Testonderzoek is al oud: Oudheid: o voor 2000vC: Chinese keizer toetst zijn dienaren elke drie jaar op vorderingen o voor 1000vC: selectie op testscores in boogschieten, muziek, paardrijden, schrijven, rekenen, sociale etiquette o Oude Testament: Gideon reduceert zijn leger middels beoordelingen Middeleeuwen en nieuwere tijd: o pogingen om intellectuele of karaktereigenschappen te beschrijven en te meten: fysieke kenmerken van gelaat (Lombroso), schedel (Gall), lichaam (Huter), of buitenaardse determinanten (astrologie) Begin 20 e  eeuw: meer wetenschappelijke aandacht 1.1 Periode tot het verschijnen van de Binet-Simon test Psychiatrie in Fr en Dld: Verschillen tussen geesteszieken en verschillende gradaties o In Frankrijk vooral aandacht voor geestelijke onvolwaardigheid Pinel bevrijdde krankzinnigen, omdat zij niet misdadig maar ziek zijn. Ontstaan van sterke interesse in geestelijke abnormaliteit Esquirol: boek met nadruk op onderscheid tussen krankzinnigheid en zwakzinnigheid. Idiotie: geen ziekte maar gebrek aan intellectuele vaardigheden Séguin: trainen van zwakzinnige kinderen, mn motorisch en sensorisch. o In Duitsland: onderzoek naar geestelijke vermogens: Rieger: algemeen toepasbare methode voor intelligentieonderzoek Kraepelin: pogingen tot diagnose van krankzinnigheid Ebbinghaus: psychische vermoeidheid meten Ziehen: evaluatie van antwoorden af laten hangen van prestaties van getesten Experimentele psychologie in Dld: stimulerende en remmende werking. Stimulerend:  waarde aan exacte beschrijving van experimenteercondities rigoureuze controle van variabelen nauwkeurige verwerking van uitkomsten. Remmend: nauwkeurige verwerking van uitkomsten, want verschillen werden toegeschreven aan fouten van het experimenteerproces o Wundt: Leipzig. Doel: generaliseerbaarheid van wetten en samenhangen. Onderzoek beperkt tot de primaire sensorische en motorische functies o Cattell: individuele verschillen in reactietijd. Woord ‘test’ voor het eerst.

Transcript of 1 Historische ontwikkeling van het testen

Page 1: 1 Historische ontwikkeling van het testen

Samenvatting Boek Testtheorie – Drenth en Sijtsma

1 Historische ontwikkeling van het testenTestonderzoek is al oud:

• Oudheid: o voor 2000vC: Chinese keizer toetst zijn dienaren elke drie jaar op vorderingeno voor 1000vC: selectie op testscores in boogschieten, muziek, paardrijden, schrijven, rekenen, 

sociale etiquetteo Oude Testament: Gideon reduceert zijn leger middels beoordelingen

• Middeleeuwen en nieuwere tijd:o pogingen om intellectuele of karaktereigenschappen te beschrijven en te meten: fysieke 

kenmerken van gelaat (Lombroso), schedel (Gall), lichaam (Huter), ofbuitenaardse determinanten (astrologie)

• Begin 20e eeuw: meer wetenschappelijke aandacht

1.1 Periode tot het verschijnen van de Binet­Simon test• Psychiatrie in Fr en Dld: Verschillen tussen geesteszieken en verschillende gradaties

o In Frankrijk vooral aandacht voor geestelijke onvolwaardigheidPinel bevrijdde krankzinnigen, omdat zij niet misdadig maar ziek zijn. Ontstaan van sterke interesse in geestelijke abnormaliteitEsquirol: boek met nadruk op onderscheid tussen krankzinnigheid en zwakzinnigheid. Idiotie: geen ziekte maar gebrek aan intellectuele vaardighedenSéguin: trainen van zwakzinnige kinderen, mn motorisch en sensorisch.

o In Duitsland: onderzoek naar geestelijke vermogens:Rieger: algemeen toepasbare methode voor intelligentieonderzoekKraepelin: pogingen tot diagnose van krankzinnigheidEbbinghaus: psychische vermoeidheid metenZiehen: evaluatie van antwoorden af laten hangen van prestaties van getesten

• Experimentele psychologie in Dld: stimulerende en remmende werking.Stimulerend: 

waarde aan exacte beschrijving van experimenteercondities

rigoureuze controle van variabelen

nauwkeurige verwerking van uitkomsten.

Remmend:

nauwkeurige verwerking van uitkomsten, want verschillen werden toegeschreven aan fouten van het experimenteerproces

o Wundt: Leipzig. Doel: generaliseerbaarheid van wetten en samenhangen. Onderzoek beperkt tot de primaire sensorische en motorische functies

o Cattell: individuele verschillen in reactietijd. Woord ‘test’ voor het eerst.

Page 2: 1 Historische ontwikkeling van het testen

o Jastrow: serie tests, waarbij ze resultaten konden vergelijken met normen

o American Psychological Association (1893): commissie met als taak registreren van tests en formuleren van gebruiksmogelijkheden

• Genetica

o Galton: antropometrische onderzoekingen: lichamelijke, sensorische én geestelijke functies. In navolging van Darwin geïnteresseerd in erfelijkheid van psychische eigenschappen en probeerde aan te tonen dat dezelfde wetten gelden. Drie elementen:

wenselijkheid van het onderzoek van individuele verschillen

noodzaak van systematisering van onderzoekstechnieken: standaardisatie van condities, gedisciplineerd gebruik van onderzoeksinstrumenten

resultaten uitdrukken in termen van afwijkingen van gemiddelde: ‘normatief’denken. 

Dit normatieve denken, met resultaten in statistische termen en waarschijnlijkheidsberekeningen waren nieuw.

o Pearson: geïnspireerd door deze mogelijkheden en heeft veel betekend voor statistiek en testpsychologie

Maar nog niet op grote schaal. Interesse was incidenteel en voornamelijk theoretisch en alleen in laboratoria. Onderzoeksresultaten werden weinig toegepast, en als dat werd gedaan was het teleurstellend. Reden:

• keuze van de vermogens en functies: hoofdzakelijk psychofysiologisch. Nauwelijks gericht om meer complexe intelligentiefuncties.

1.2 Periode tussen verschijnen van de Binet­Simon­test en WO­I.• Binet kreeg opdracht (van min van onderwijs) om onderzoek te doen naar moeilijkheid tot differentiatie 

tussen luie en incapabele kinderen. Succes kwam toen niet getest werd op veronderstelde basisfuncties, maar een steekproef uit verschillende complexe opgaven uit dagelijks leven. Binet’s benadering was nieuw:

accent op complexe i.p.v. eenvoudige mentale processen (begrip, geheugen, oplossen van problemen, verbeeldingskracht)

empirisch uitgangspunt. Opgaven die niet functioneerden werden verwijderd

totaalscore om intelligentieniveau weer te geven

Later doorgetrokken naar hogere leeftijden. 

Begrip ‘mentale leeftijd’ werd indicatie voor geestelijke groei.Binet’s test waren praktisch van grote betekenis. Niet voor de theoretische vraag naar samenstellende elementen in intelligentie.

Page 3: 1 Historische ontwikkeling van het testen

• Claparède bouwde voort. Stern: mentale leeftijd vergelijken met werkelijke leeftijdTerman: 

o VS­versie van de test. Belang aan twee testtechnische eisen:

standaardinstructies, voor vergelijkbaarheid van testscores

normen construeren

o Mentale leeftijd bepalen door testprestatie te delen door chronologische leeftijd

• Spearman: twee­factorentheorie: alle test hebben twee intelligentiefactoren:

algemene (g­)factor

specifieke (s­)factor

Intelligentie = gemeenschappelijke factor die men kan extraheren uit willekeurige serie intelligentietests.

• Thorndike (VS) en Burt (Eng): meting van opleidingsvordering van leerlingen. Educational achievement test.

Nog niet testen op grote schaal. Ook nog geen valideringsonderzoek

1.3 Van het begin van WO­I tot WO­IIMet WO­I kwam ontwikkeling van testen in stroomversnelling. Reden: grote groepen selecteren voor functies en opleidingen.

• Dld, Eng, Fr. Voor het eerst buiten laboratorium en meer routinematig bij ‘selectie en plaatsing’

• VS: noodzaak om snel en efficiënt gróepsgewijs te testen. Schriftelijke test, Army Alpha, met verschillende soorten opdrachten (reken, denksommen, woordbetekenissen). Betrouwbaarheid leek bevredigend en voorspellend vermogen ook.

Na WO­I liep testontwikkeling van Eur en VS sterk uiteen:• Eur: gedomineerd door gestaltpsy, personalisme, frenomenologie, dus individuele diagnostiek populair: 

wijze waarop taak verricht wordt, net als werkinstelling en houding, minstens even belangrijk als prestatie zelf.

• VS: gedomineerd door filosofische, vooral behavioristisch­positivistisch, en praktische behoefte: kwantitatief verwerkbare groepstests. Reden:

o grote aantallen voor selectie en plaatsing

o toenemend aantal immigranten (zo rationeel mogelijk integreren in maatschappij)

o toenemende specialisatie, differentiatie en vertechnisering van productieproces

Door immigranten ook behoefte aan tests die minder afhankelijk zijn van taal en cultuur:Pintner en Paterson: niet­verbale intelligentietest, Army Bèta. Deze test grote invloed:

• Vergelijkend onderzoek tussen bevolkingsgroepen (geringe betrouwbaarheid)

Page 4: 1 Historische ontwikkeling van het testen

• onderzoek verschillen tussen volken

• toepassing in intelligentieonderzoek van gehandicapten, zoals motorisch of perceptueel gestoorden

In VS ook veel individuele testbatterijen. Bv Terman Merril  en Wechsler series (WAIS, WISC). Aantal was veel meer dan in Eur.

• Eng: tussenpositie (tussen Eur en VS):

o Ballard, Progressive Matrices van Raven

o trachten bij beoordeling van schoolvorderingen de subjectiviteit te elimineren. Dus multiple­choice, en constructie van docent naar specialist.

Het gebruik van tests ging vooraf aan theorie:• Thurstone stimuleerde aandacht voor kritische evaluatie van test: als het gedrag buiten de testsituatie wil 

voorspellen (=criteriumgedrag) moet de relatie tussen test en criterium tevoren zijn aangetoond. Dus: statistiek, boeken, tijdschriften

• Door div: nieuwe dimensie aan  onderzoek naar intelligentiestructuur: groepsfactoren. Thurstone identificeerde: verbaal begrip, word­fluency, number­facility, ruimtelijk inzicht, associatief geheugen, perceptual­speed, redeneren.

Ontstaan en ontwikkeling van persoonlijkheidstests. Methoden:• Observatie (vooral in Eur), voor kwalitatieve aspecten van prestatie. Via beoordeling van werkwijze naar 

test voor gedrag. Nauwelijks betrouwbaar of objectief, voornamelijk impressionistisch en intuïtief.

• Persoonlijkheidsvragenlijsten: behoefte aan systematische vorm van verzamelen. Ook allerlei specifieke terreinen, zoals interesses, waarden en attitudes.

• Projectietest, voor associaties, voor identificatie van onbewuste motieven en behoeften

Samengevat:• Ontwikkeling stormachtig. Maar theoretische en methodologische verantwoording niet.• Accentverschil tussen Eur en VS. VS: kansen van onderzochte op een positief resultaat, door 

‘klasse’ring (actuarische wetenschap). In Eur: totaliteit van de persoon, beleven, structuur, dynamiek, met test in ondergeschikte rol. Conclusies niet kwantitatief, maar beschrijvend (vaak sterk literair)

1.4 Van het begin van WO II tot hedenOntwikkelingen in VS:

Expansie op alle terreinen van testen: qua aantal, en sterke kritische bezinning op methodologische grondslagen. In Eng: Education Act van ’44: test voor schoolkeuze.In Vs samenwerking van psychologen met keurings­ en selektiediensten. Leidde tot 

toename selectie­ en diagnostische test professionalisering selectie­ en plaatsingsbeleid constructieve en kritische bezinning op psychologische principes van testonderzoek

> 9 mio getest met Army General Classification Test (AGCT). Gegevens vormen brond voor normerings­ en valideringresultaten. Naast algemene intelligentie ook structuur van vaardigheden.  Speciale test voor specifieke functies en vaardigheden.   Schoolvorderingentest voor vergelijking van resultaten van vooropleiding.  Opleidings­ en kennistest voor voorspellen van toekomstige prestaties, en 

Page 5: 1 Historische ontwikkeling van het testen

opleidingsprogramma’s evalueren.  Individuele en groepsobservatiestest, bij samenstelling van groepen, bepaling van leiderschapskwaliteiten en psychiatrische keuring.  Persoonlijkheidsvragenlijsten en biografische vragenlijsten voor identificatie van potentiële psychiatrische patiënten.  

In 1947 Educational Testing Services (ETS): niet alleen gericht op toegepast onderzoek en testconstructie, ook fundamenteel psychometrisch onderzoek.

Over test en testonderzoek veel geschreven: boeken tijdschriften. (zie verder blz 29ev).

Ook itembanken en adaptief testen

Ontwikkelingen in Eur, vooral in NlIn Nl in ‘40/’50 geremd door oriëntatie van psychologie op intuïtie van psycholoog.

1959: Test Research Commissie (nu COTAN), voor publicatie van test en documentatie van het onderzoek daarmee.

Schoolvorderingentest: ’70. CITO, voor basisonderwijs en voortgezet algemeen en beroepsonderwijs (niet academisch).

Sinds ’87 zijn universitaire onderzoeksactiviteiten gebundeld in het Interuniversitair Onderzoeksinstituut voor Psychometrie en Sociometrie (IOPS). Taken: bundelen van promotieonderzoek in psychometrie en sociometrie via cursussen en congressen.

Page 6: 1 Historische ontwikkeling van het testen

2 Definitie, kenmerken en toepassingen van de testTest versus voorwetenschappelijke oordeelsvorming; dus kenmerken voor goede test. Relatie tussen testen en meten. Eisen aan constructie van tests.

2.1 Wat is een testOnderdelen van een test:

testmateriaal testformulieren: voor de antwoorden, reacties, gedragsgegevens testhandleiding:

o exacte testinstructie: procedure, condities, aanwijzingen en uitleg, proefopgaveno verwerkingsprocedures: richtlijnen voor toekenning van numerieke scoreso normtabelleno bespreking van wetenschappelijke kwaliteiten van de test: betrouwbaarheid, testbetekenis, 

welke voorspellingen kunnen.Psychologische test = systematische onderzoek van gedrag met behulp van speciaal geselecteerde vragen of 

opgaven, met de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking met anderen.

Kenmerken van een test: Efficiëntie Standaardisatie, want prestatie moet vergelijkbaar zijn met die van anderen, dus gelijke 

omstandigheden. Condities en invloeden standaardiseren: procedure van afneming, van testmateriaal, instructie en oefenvoorbeelden, van tijdlimieten en verwerkingsregels

Normering: gebonden aan groep proefpersoneno rangordeo afstanden tussen testscoreso discrete verdeling omzetten in normaalverdeling (voor ‘gladstrijken’ van steekproeffouten, voor 

‘handige’ schaal). Meestal normen noodzakelijk, behalve wanneer een relatie wordt nagegaan (bv selectie van 10 beste kandidaten)

Objectiviteit: onafhankelijk van storende invloeden van persoon van waarnemer/beoordelaar /interpretator. Gevolgen:

o Maakt niet uit wie beoordelaar iso Openheid en reproduceerbaarheid van de test en evaluatieprocedure

Intersubjectiviteitprincipe = mate van overeenstemming van hun resultaten, uit te drukken in interbeoordelaarsbetrouwbaarheid, geeft de mate van objectiviteit aan.Uitdrukken in rangcorrelatie (Spearman, Kendall).Volledige objectiviteit is een ideaal dat meer of minder verwezenlijkt wordt: MC voldoet beter, projectietest niet. Exact voorgeschreven verwerkingsprocedure bevordert de objectiviteit.

Betrouwbaarheid: als tussen twee metingen bijzonder weinig verschillen vinden.Er is natuurlijk altijd toeval. Bij psychologische metingen zullen fluctuaties in prestaties en gedrag op vragen) groter en complexer zijn dan bv twee keer lichaamslengte meten.Hoge betrouwbaarheid is belangrijk, zodat het niet uitmaakt, wanneer iemand getest wordt

Validiteit: of de indicaties juist zijn.Soms enkelvoudige persoonlijkheidstrek of vaardigheid, soms meer omvattende theorie.

2.2 Meten van eigenschappen door middel van testsDe test als ‘meetlat’ voor psychologische eigenschappen

Page 7: 1 Historische ontwikkeling van het testen

Meetniveaus en toegestande operatiesStevens: er is sprake van meten, zodra getallen volgens consistente procedure aan objecten worden toegekend. 

Bijdragen: Operationalisme en schaaltypenSchaaltypen:

• Nominale schaal: gewone rekenkundige operaties mogen niet. Getallen dienen alleen om categorieën of objecten te onderscheiden

• Ordinale schaal: Rangorde. Niet alle rekenkundige bewerkingen

• Intervalschaal:Niet alleen verschillende posities zijn geordend, maar de afstanden hebben betekenis. Geen absoluut maar arbitrair nulpunt. Bv temperatuurschalen. Testscores worden gewoonlijk ook op intervalniveau gemeten, maar dit kan doorgaans empirisch niet ondersteund worden

• Verhoudingsschaal:‘Ratio scale’: alle eigenschappen van intervalschaal + absoluut nulpunt. Daardoor zijn alle rekenkundige bewerkingen toegestaan. Bv lengte, gewicht, volume.

Slechts weinig metingen in de psychologie vinden plaats op een verhoudingsschaal

Opvattingen over metenHeel veel psychologische eigenschappen zijn niet direct observeerbaar.In de psychologie zijn theorieën en begrippen bijna altijd abstracter en vooral diffuser gedefinieerd. Het gevolg is 

dat hooguit zwakke of matig positieve/negatieve verbanden worden gevonden. Bv diverse intelligentietheorieën, waarvan experimenten niet in staat zijn gebleken de ene theorie t.g.v. de andere te verwerpen.

Operationalisme = meting als uitkomst van een consistente procedure (opvatting van Stevens). Dus gaat eraan voorbij dat in een meetprocedure een theorie over relaties tussen eigenschappen als basis moet hebben. Dus: intelligentie is datgene ‘wat de test meet’.

Door dit operationalisme raakte het meten n de psychologie in het slop, want van theorievorming en kennisvorming was nauwelijks nog sprake. Nog steeds van mening dat constructie van tests een technologische aangelegenheid is, zonder noemenswaardige wetenschappelijke bijdrage.

Onjuist: want meetbaar maken van psychologische eigenschappen en het onderzoek naar de betekenis van testscores leveren juist een wetenschappelijke bijdrage.

Bv. Bouwmeester: ontwikkeling van transitief redeneren: stok A langer dan stok B langer dan stok C. Dit transitief redeneren is belangrijk in het dagelijks leven. Bouwmeester ontwikkelde een inhoudelijk­theoretisch als psychometrisch goede computertest. En bleek in staat om evidentie tegen de theorie van Piaget en de informatieverwerkingstheorie, en vóór de ‘fuzzy trace’­theorie te verzamelen.

Zowel wetenschap als praktijk kan niet zonder betrouwbare en valide meting.

De gangbare procedure voor het meten van psychologische eigenschappenPsychologische eigenschappen vallen niet samen met de operaties die men moet verrichten om ze te meten. 

Men kan pas van meten spreken als vanuit dit ‘getelde aantal’ een conclusie volgt over de eigenschap in kwestie.

Identificatie van de te meten eigenschapWelke theorie of rivaliserende theorieën. De onderzoeker die een test/meetinstrument wil maken moet goed op de hoogte zijn van de theorie achter deze eigenschappen en een keuze maken voor een theorie die als uitgangspunt zal dienenProblemen:

• Voor veel psychologische eigenschappen is de theorievorming maar matig ontwikkeld.• veel psychologische eigenschappen zijn niet waarneembaar in gedrag (bv creativiteit)• Er zijn veel eigenschappen met een theoretisch onduidelijke of dubieuze status. Deze 

eigenschappen lijken op te komen en even makkelijk te verdwijnen (waan van de dag)Operationalisering van de eigenschap:

Page 8: 1 Historische ontwikkeling van het testen

= specificatie van de operaties die nodig zijn om de eigenschap te meten. Psychologische eigenschappen zijn minstens één niveau van de operaties verwijderd. Psychologische eigenschappen zijn hypothetische begrippen. Operationalisering:

• Domein van gedragingen typisch voor bedoelde eigenschap. Wanneer het hypothetische begrip theoretisch goed gefundeerd is, zal de definitie van dit gedragsdomein eenvoudiger zijn. Maar deze fundering is vaak onvoldoende.

• Afstemmen van stimuli op het beschreven gedragsdomein. Voorbeelden:o uitsprakeno takeno vragen

Onderzoek en kwantificering van reacties.Reacties zijn in 1e instantie kwalitatief. De stap naar getallen: reacties in een hogere categorie krijgen een hogere numerieke waarde. Items in de test moeten allen positief correleren en wel in dezelfde mate. Dat wordt gezien als ondersteuning van de hypothese dat de items gezamenlijk een en dezelfde eigenschap meten.

Terugkoppeling naar de theorie:Uitkomsten van de statistische analyses hebben gevolgen voor de theorie. Een theorie bestaat doorgaans uit het nomologisch netwerk, een theorie ter verklaring van de waarneembare verschijnselen, waarbinnen de gemeten eigenschap een plaats heeft.Statistische methoden worden gebruikt om een test te construeren en de meeteigenschappen vast te stellen:

• klassieke testtheorie• item­responstheorie• representational measurement: alleen sprake van meting, indien de formele relatie tussen 

meetwaarden/testscores overeenkomen met de relaties die er in de empirie bestaan tussen de objecten. ‘Empirie’ is een direct waarneembaarheid van eigenschappen en relaties. Deze vind je zelden in psychologie. Daarom is deze methode niet zo geschikt voor psychologische, hypothetische eigenschappen

2.3 Definitie van een testTest = een systematische classificatie­ of meetprocedure, waarbij het mogelijk is om een uitspraak te doen over 

één of meer empirisch­theoretisch gefundeerde eigenschappen van de onderzochte of over specifiek niet­testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal gestandaardiseerde zorgvuldig gekozen stimuli.

2.4 Toepassingsmogelijkheden

Beoordeling van individuen• Voorspellingen van in de toekomst gelegen prestatie: criterium• keuzemogelijkheid tussen ten minste 2 opties. Tests moeten niet alleen correleren met criteria, maar er 

moet ook differentiatie tussen de verschillende alternatieven zijn. (Bv kiezen uit een beste profiel op VWO)

• onderzoeken wat de zwakke en sterke kanten van een kandidaat zijn. Testscores van dezelfde persoon onderling vergelijken (= ipsatieve scores)

• ontwikkeling van een persoon in de tijd: interne vergelijking. Longitudinaal onderzoek• Beschrijving van een onderzochte. Voor diagnostische doeleinden, voor verklaringen, voor adviezen.• t.b.v. counseling, om samen met de cliënt analyseren / bewust maken en herformuleren van het 

probleem

Beoordeling van groepenBv onderzoek naar intelligentieverschillen tussen bevolkingsgroepen, verschillen in cognitieve ontwikkeling tussen leeftijdsgroepen.

Page 9: 1 Historische ontwikkeling van het testen

De individuele diagnostiek grijpt altijd terug op onderzoek naar groepsverschillen.

Beoordeling van invloed van situaties en methodenOnderzoek van groepsverschillen ook nodig in het kader van de beoordeling van methoden (bv behandeling) en van situaties (bv stress). Het gaat om conclusies inzake de verschillende experimentele of empirische variabelen op basis waarvan die verschillende groepen zijn onderscheiden.Averechtse diagnostiek: wanneer een test met een criterium correleert, dan deze correlatie niet alleen gebruiken voor voorspellingen, maar licht werpen op criterium zelf.

Page 10: 1 Historische ontwikkeling van het testen

3 Indelingen, onderscheidingen en begrippenOverzicht van beschikbare soorten van tests en testmethodieken..Begrippen uit testpsychologie.Tests naar gedrag van onderzochte en test naar soort testvragen en –opdrachten

3.1 Indeling naar testgedragNiet altijd ondubbelzinnig aan te geen in welke categorie een psychologische eigenschap hoort.Onderscheid naar:

• tests voor prestatieniveau: maximale prestatie wordt verwacht, met duidelijke norm wat ‘goed’ en ‘fout’ is.• Tests voor gedragswijze: niet een vooraf bekende ‘goed/fout’­sleutel. Het gaat erom ‘hoe’ iemand iets 

doet. Test is vaak ‘vragenlijst’

Tests voor prestatieniveauEnkelvoudige algemene niveautests

‘General ability test’. Leiden tot een enkele indicatie van intelligentie (ondanks dat intelligentie een complex begrip is). Drie deelcategorieën:

• Individuele ontwikkelingstestIntelligentietestscore wordt vergeleken met testprestaties van leeftijdgenoten.WISC, RAKIT, Intelligentietest voor visueel gehandicaptenMeeste oudere intelligentietests bepalen of intellectuele ontwikkeling sneller of langzamer gaat dan ‘normaal’). Daarom hebben tests als WAIS, GIT intelligentienormen voor alle leeftijden

• Individuele intelligentietest voor volwassenenVaststellen van het niveau wanneer intelligentie min of meer als volgroeid kan worden beschouwd. Vaak ook ‘ontwikkelingstest’ genoemd. Boven leeftijd van 15 a 17 stabiliseert intelligentie zich.Bekendste tests: Terman­Merill, WAIS, GIT.

• Collectieve algemene intelligentietestGroepsgewijs afgenomen, voor een indicatie van algemene intelligentieniveau.Bekendste: GALO, NDT (collectieve kinderintelligentietest, ofwel schoolintelligentietest.Collectieve niet­verbale intelligentietest: testen van niet­geletterden.

Veelvoudige algemene niveautestsNiet alleen algemene niveau, maar ook nadere differentiatie van intelligentie. Dus deeltests. Deze moeten afzonderlijk gezien voldoende betrouwbaar en tevens onderling voldoende onafhankelijk zijn. Twee typen:

• Testbatterijen voor intelligentiefactoren.Doel: elke deeltest meet een homogene dimensie van intelligentie. Vanuit verleden is de vraag: bevat intelligentie een algemene factor (g­factor) of gaat het uitsluitend om een complex van groep­ en/of specifieke factoren (s­factoren)?Thurstone: verbaal, word­fluency, numeriek, ruimtelijk inzicht, associatief geheugen, perceptiesnelheid, redeneren. Van hem kwam de test: PMA (Primary Mental Abilities).In NL: TNVA, VAT’69, NAT’70) die aansluiten op Thurstone indeling.Guilford’s systeem van intelligentiefactoren: factoranalytische structuur van de intelligentie: structure of intellect

• Testbatterijen voor geschiktheden….Zie voor de rest van de samenvatting van dit hoofdstuk komt uit een andere samenvatting 

4 Constructie van items en kwantificering van reactiesItems = bouwstenen van tests. Diverse varianten, onderscheiden naar:

Page 11: 1 Historische ontwikkeling van het testen

reactie van respondent: opdrachten, stellingen, vragen, praktijkproeven vorm van het antwoord: open/gesloten vragen Uiterlijke verschijningsvorm van item: meerkeuze, rating

Hoe reacties omzetten in getallen

4.1 Van de respondent gevraagde activiteitItems als stimuli. Uit reacties proberen het nivo van geteste persoon af te leiden op een niet­observeerbare psychologische eigenschap die verondersteld wordt te grondslag te liggen aan deze reacties.

• Theoretische opdrachten, bv doolhof, rekenopdrachten, taalvraagstukken, theoretische verkeersproblemen. Vaak cognitieve capaciteiten en vaardigheden. Relatief stabiele kenmerken van persoon. Vaardigheden zijn voor een deel te leren.

• Stellingen. Voor persoonlijkheidstrekken, opinies, houdingen en voorkeuren. Opinies en houdingen zijn klassen van eigenschappen (belangrijk voor sociologisch en politicologisch onderzoek. Antwoorden zijn niet goed of fout

• Vragen. Voor opinies, houdingen en voorkeuren. Antwoorden zijn niet goed of fout• Praktijkproeven• Diverse andere, zoals projectietests

4.2 Vorm waarin het antwoord wordt gegevenOpen vragen: geeft meer info van kennis en diepere inzichten. Maar:

• beoordelen en categoriseren is tijdrovend• respondenten weten niet altijd wat met vraag bedoeld wordt, maar geven toch antwoord• niet alle respondenten kunnen even goed gedachten op papier zetten. Niet alle handschriften zijn 

duidelijk.Gesloten vragen: minder info over diepere inzichten. Maar:

• Beantwoorden en categoriseren gaat snel. Meer vragen geven een hogere betrouwbaarheid en daarmee betere validiteit

• geen gelegenheid voor irrelevante zaken• Wel lastig: stelling (te) concreet versus te algemeen• interpretatie van het antwoord door onderzoeker speelt geen rol.

Bij openvragen speelt subjectiviteit, dus testconstructie  door tenminste twee beoordelaars. Indien overeenstemming gering, dan andere vorm kiezen.

Nadelen (echt of vermeend) van gesloten vragen:• Bedenken van vragen is lastig, vooral de onjuiste antwoordmogelijkheden• Inschatten van de moeilijkheidsgraad is lastig• Kans op raden. Rekening mee houden door:

o per item twee kiezen uit zes, en het antwoord is goed als ze beide goed zijno correctie toepassen

• slechts eenvoudige cognitieve vaardigheden mee kunnen meten: kennis en ‘weetjes’.

Meten openvragen en geslotenvragen iets verschillends?Mellenberg: conclusie: veel gevallen mogelijk om met meerkeuzevragen hetzelfde te meten als met open vragen, mits de meerkeuzevragen goed geconstrueerd zijn.Niet overschatten van hogere functies via open vragen, want:­ onbetrouwbaarheid van beoordeling. Dus wel bij wis­ en natuurkunde, niet bij wijsbegeerte­ de hogere functies betreffen vaak subjectief en oncontroleerbaar fantaseren.

Meerkeuzevragen zijn vaak betere voorspellers dan open vragen.

4.3 Itemvormen: het speciale geval van geprecodeerde itemsPrestatieniveautest en tests voor gedragswijzeItems voor prestatieniveautests

De stam = de uitspraak (de vraagstelling).

Page 12: 1 Historische ontwikkeling van het testen

Principes voor meerkeuze: kiezen, rangschikken, toeschrijven• Kiezen. Vormen:

o (in)correcte­antwoordvormo meest/minst juiste antwoordvormo verschillende antwoorden –vormo complexe vormen

• Rangschikking: volgorde van juistheid, toepasbaarheid of voorkeur• Toeschrijving: ‘matching’: hoe minder onzekere combinaties overblijven, hoe meer kans op 

juistheid bij raden.Items voor test voor gedragswijze

Voor persoonlijkheidsvragenlijsten en attitudetests. Presentatievorm varieert: benoemen van twee uiterste hokjes, maar ook voor andere keuzemogelijkheden. Aanwijzingen:

• Niet kruisje tussen twee keuzemogelijkheden• Meest bekende is 5­antwoordschaal (Likert). Voordeel van even aantal is dat er geen neutrale 

categorie is.• Niet meer dan zeven nuanceringen: mensen kunnen niet meer nuanceren.• Beschrijvingen van de schaalposities: verschillende interpretaties en lastig labels te bedenken.

4.4 Kwantificering van antwoordenMet kwalitatieve antwoorden is het moeilijk om systematisch onderzoek te doen naar de kwaliteit van de items en 

van de test/vragenlijst als geheel. Bovendien meetwaarden toekennen aan personen:• per item de kwalitatieve reactie omzetten in getallen• statistische berekening doen om vast te stellen of er een systematiek in het gedrag is. Zo ja, dan heeft 

de test goede meeteigenschappen.Projectietests: sommige gebruikers zijn overtuigd dat kwantificering zou leiden tot onaanvaardbare reductie van 

betekenis. Wellicht waar, maar door de rijkdom van informatie dreigt het zich op wat we willen weten kwijt te raken.

Alle informatiebronnen, die voor een beslissing worden gebruikt, moeten aan dezelfde kwaliteitseisen voldoen. En het is gewenst om juist diverse informatiebronnen te gebruiken

Kwantificering van items gaat als volgt:Antwoordcategorieën van een item ordenen op continuüm.Meestal dichotoom: goed of fout, per antwoordPolytome items = items met ten minste 3 antwoordcategorieën (oneens…..eens)Richting van continuüm is afhankelijk van de formulering van de stam.Scores = getallen die aan de antwoordcategorieën op de items zijn toegekend.

• Alleen ordening is van belang, niet de absolute getallen (bv 0­1 of 2­4)• Advies: geef alle items uit dezelfde test dezelfde score. Daarmee voorkomen dat items 

verschillend worden gewogen. Indien dit juist wel gewenst is, moet dit natuurlijk gerechtvaardigd worden door een psychologische theorie. Maar deze theorieën zijn er niet.

Soms gewichten van items afleiden uit statistische analyse: een hoger gewicht aan een item die hoger correleert met de somscore (omdat deze blijkbaar meer gemeen heeft met de andere items en daarom beter in de test past). Maar, ad hoc en theorie ervoor ontbreekt.

4.5 Beoordeling van de kwaliteit van items in vooronderzoekTestconstructie­onderzoek (naar kwaliteit van items) kent ruwweg twee fasen:

1 Kleine steekproef van reacties van proefpersonen (ong 20­100, niet perse representatief). Bedoeld als grove zeef om items te identificeren die niet goed functioneren

2 Grotere, wel­representatieve steekproef (ong. 500­2000)Grote steekproef, omdat populatie vaak in diverse interessante deelgroepen valt op te splitsen, waarvoor aparte normen moeten worden opgesteld. Sommige deelgroepen zijn van nature kleiner, maar gewenst is om uit elke groep een even grote steekproef te nemen (zodat ook kleine groepen 

Page 13: 1 Historische ontwikkeling van het testen

voldoende nauwkeurige schatting van normverdeling hebben). Strata = deelgroepen. Daarom: gestratificeerde steekproef.

Vooronderzoek van dichotome en polytome items:Dichotome items:

p­waarde = relatieve frequentie op het goede antwoord.a­waarde = relatieve frequenties op afleiders.Een item uit een studietoets heeft goed gefunctioneerd, indien de meeste respondenten het goede alternatief hebben, én de verschillende afleiders ongeveer even vaak gekozen werden (dus afleiders even aantrekkelijk). Voorbeelden van verdelingen:

• 63% goede antwoord, 21% ene foute antwoord, 16% andere foute antwoord.Dus de foute antwoorden even aantrekkelijk

• 33% goede antwoord, 33% ene foute antwoord, 33% andere foute antwoord.Dus allen blind gegist. Hoogstwaarschijnlijk, maar aanvullend bewijs nodig: correlaties van het item met andere items moet dan nul zijn.

• 94% goede antwoord, 3% ene foute antwoord, 3% andere foute antwoord.Waarschijnlijk item te gemakkelijk, of afleiders niet plausibel

• 30% goede antwoord, 10% ene foute antwoord, 60% andere foute antwoord.Meerdere mogelijkheden:

o een van de afleiders bevat een valstriko bewuste afleider zou wel eens juist kunnen zijn

Polytome Items:Geordende antwoorden. Indien verdeling:

• 10%, 10%, 20%, 50%, 10% dan functioneert item goed omdat er goede spreiding is van respondenten over categorien

• 0%, 0%, 5%, 5%, 90%. Verdeling scheef en niemand heeft lage score, iedereen hoge. Dus: item te populair.

Page 14: 1 Historische ontwikkeling van het testen

5 Afneming van tests en verwerking van testgegevens

5.1 Test afnemenComplex en veelzijdig proces:

• testsituatie varieert van zakelijk­neutraal tot persoonlijke inzet van zowel proefleider als proefpersoon. Bv rollenspel

• Motivatie, samenwerking, onbevangenheid en andere eigenschappen  beïnvloeden de relatie met testleider: mate van testervaring van proefpersoon, van testervaring van proefleider.

• variëteit in instructietechniek. Sommige tests vragen lange training. Bv RAKITEnkele aspecten van deze standaardisatie:

• Objectieve testsituatie: goed uitgewerkte instructie, eis dat proefleider zich hieraan houdt, weren van omgevingsinvloeden. Speelt vooral bij groepstest en test met snelheidskarakter.

• Gedrag van proefpersoono vermoeidheido kritisch naar verwachting en tracht verwachting in te losseno invullen van de vragenlijst met sociaal wenselijke antwoordeno ervaringo verwachting over eigen resultaten en gevolgeno proefpersonen reageren verschillend op stimulanseno Motivatie: angst voor gevolgen (testangst ‘state anxiety’, niet de stabiele persoonlijkheidstrek 

‘angstigheid’/‘trait anxiety’).  Onderscheid positieve faalangst (bevorderend) versus negatieve faalangst (storend)

• Gedrag van proefleider, vooral bij individuele testo variatie in gedrag, ervaring met testo vooroordelen, sympathieën/antipathieën, blijvende invloed van 1e indruko uiterlijk, sekse, leeftijdo subtiele, fysieke en persoonskenmerken van testleider

Ondervangen?:als het gaat om hypothese vinden, dan via klinisch­intuitieve weg deze elementen in evaluatie verwerkenAls voorspellende of classificerende uitspraken gewenst zijn, dan een zo normaal mogelijke relatie, met positieve, stimulerende en vriendelijke toon. In de verwerking doen alsof de invloeden genegeerd kunnen worden.

5.2 Scoring van antwoordenScoringsproces o.b.v. subjectieve oordeelsvorming geeft grotere foutenmarge. Scoring van reacties op items met open­vraagvorm

Zowel verbaal al niet­verbaalGevaren van subjectiviteit en een lage overeenstemming tussen beoordelaars. Reduceren door 

• coderingssysteem (met regels/voorschriften die duidelijk en ondubbelzinnig zijn. Bv met checklist

• beoordelaars vooraf goed instrueren en oefenen. Overigens: hoge overeenstemming leidt niet automatisch tot goede validiteit.

Scoring van reacties op geprecodeerde itemsZorg voor nauwkeurigheid en efficiëntie. Drie mogelijkheden:

• Handscoring: tellen van aantal goed/fout/overgeslagen. Problemen: tijdsduur en (correctie van) fouten

• zelfscoring: onder het antwoordformulier een tweede vel met serie cirkeltjes. Aanzienlijk sneller en efficiënter, maar duurder

Page 15: 1 Historische ontwikkeling van het testen

• Machinescoring: met potloodstreepje op een optisch leesbaar formulier, of onmiddellijk via beeldscherm. Directe terugkoppeling. Ook controle op kwaliteitskenmerken van de test mogelijk.

Toevalscorrectie:Correcties op het ‘raden’. Methoden:

• A= aantal antwoordmogelijkheden (bv 4). Goede antwoord raden: 1/A, foute: (A­1)/A.Xc= aantal goede antwoorden door kennis. (k=aantal items in de test, X=totale aantal goed)Xc = X – (k­X)/(A­1)

• Hetzelfde, maar waarbij respondenten voor niet­beantwoorde items alsnog punten ontvangen:Xc= X +(k­X­Xf)/A

Kanttekening bij deze correctiemethoden:• lang niet altijd reële veronderstelling dat er een scherp onderscheid bestaat tussen wel en 

niet weten. Door partiële kennis kan reële giskans groter of kleiner zijn dan de theoretische, blinde giskans. Bovendien zijn de onjuiste antwoorden verleidelijk. Dus kans op goed antwoord is kleiner dan 1/A, en dus de formule tot overcorrectie

• Fout antwoord kan zijn door verkeerd inzicht, hoef niet gegist te zijn• Voor toeval gecorrigeerde testscores hebben een grotere variantie dan ongecorrigeerde 

testscores. Dan ontstaat er een ongewenst effect wanneer men de gecorrigeerde testscores optelt bij testscores op andere tests.

• lineaire relatie tussen ruwe score en gecorrigeerde score:o giscorrectie heeft voor onderlinge ordening geen effect, wel ingeval van 

aftestgrenso beide scores voorspellen evengoed een criteriumscoreo nauwkeurigheid of betrouwbaarheid van X en Xc is gelijk

Dus correctieformule maar beter niet gebruiken. Gissen is voor respondent altijd rendabeler dan het antwoord open laten.Wel rekening mee houden dát er gegist is bij het bepalen van een aftestgrens.

Weging van itemscoresGebleken is dat weging weinig invloed heeft op betrouwbaarheid en validiteit. Indien ontevredenheid over betrouwbaarheid en validiteit, dan beter:

• meer items in de test opnemen• beter nadenken over de inhoud van de items.

5.3 Testen per computerTechnische bijdragen en veranderingen

Winst aan tijd en informatie. Het veranderen, toevoegen of verwijderen van items is er eenvoudig.Mogelijkheid van itembank: behalve item zelf ook psychometrische gegevens over moeilijkheid (p­waarde), kwaliteit van afleiders (frequentieverdeling), administratieve gegevens (wanneer eerder gebruikt). Uit deze itembank een gestratificeerde steekproef trekken.

• Nitko en Hsu: voorbeeld van geautomatiseerd systeem voor instructie en toetsafneming in scholen: 

o gegevens over leerlingen en groepen, demografische gegevens, prestaties, voortgang.o Item­analyseo mogelijkheid zelf itembak te creëren

• On­line testing: student bepaalt moment, computer selecteert items, levert eindbeoordeling en slaat op. Gevaar: beveiliging: items kunnen bekend raken, en/of iemand anders kan de toets voor de student doen

• Diagnostiek toetsen. Cognitive skills diagnostics. Door juist gekozen items de mate van beheersing van deelvaardigheden inschatten. Vervolgens via aanvullend, gericht onderwijs eventuele deficiënties bij leerlingen te verhelpen

• vorm van items en wijze waarop gereageerd kan worden. Bv reageren op beweging. Via visuele beelden een bepaalde situatie voorleggen, met de vraag naar adequate professionele reactie.

Page 16: 1 Historische ontwikkeling van het testen

• Mogelijk onderscheid maken tussen variabelen snelheid en nauwkeurigheidTechnologische vernieuwingen hebben gevolgen die van wetenschappelijk belang zijn.

Wetenschappelijke bijdragen en veranderingenMogelijkheid op het gebied van het meten van individuele verschillen in ruimtelijk­visueel redeneren, 

geheugen en aandacht. Ook bepalen van leerpotentieel.Bv: individuele verschillen in aandachtpotentieel wellicht niet tot uiting bij enkele taak, maar wel als 

personen twee taken tegelijk of afwisselend moeten utivoeren. Bv beide oren horen signaal: hoeveel fouten én hoeveel tijd. Kanttekening: aandacht lijkt zo een instabiele eigenschap te zijn, maar ind verschillen in vaardigheid is moeilijk te scheiden van ind verschillen in aandacht.

Computers kunnen ook problemen veroorzaken: testangst en ervaring met computer. Deze zullen wel verdwijnen

Verschillen tussen beide testmethoden voor matching­items: per computer een lagere toetsscore en geringer aantal veranderingen. Voor andere twee, veel gebruikte itemvormen geen verschillen gevonden. Hofer en Green: zowel voor persoonlijkheidstests als capaciteitentests zullen de verschillen in prestatie tussen computergestuurde en conventionele condities niet groot zijn. Maar normen van een conventionele test kunnen niet zonder meer worden overgenomen naar de computergestuurde testversie.

Verschillen tussen conventioneel en computergestuurd:manoeuvreerbaarheid tussen vragen, presentatie en vormgeving

Adaptief testenOfwel: testen op maat: iedere respondent krijgt een test op zijn of haar niveau.Om achteraf de scores van verschillende respondenten te vergelijken, is het handig dat de volledige verzameling 

items, opgeslagen in een itembank, voldoet aan de eisen van de item­responstheorie.Vergelijking van adaptief testen tegenover klassieke standaardtest:Itembank vervangt de standaardtest. Binnen item­responstheorie heeft een meting van een eigenschap van een 

persoon met een bepaald item de grootste nauwkeurigheid, als de moeilijkheid van het item en het niveau van de persoon op de psychologische eigenschap, beide gemeten op dezelfde schaal, samenvallen.

Werkwijze: starten met een gemiddelde moeilijkheid, dan schatting van de meetwaarde, volgende item die samenvalt met de meetwaarde, enz. Kenmerken van deze stapsgewijze bepaling:

• iedere stap dichterbij de gezochte waarde• schatting van meetwaarde is nauwkeuriger naarmate meer items zijn gepresenteerd.

Een itembank zal tenminste 150 a 200 items moeten bevatten.Metingen kunnen gecorrigeerd worden voor het moeilijkheidsniveau van de test: daarom kunnen verschillende personen worden vergeleken.Verschillen met de klassieke benadering:

• klassiek: iedereen maakt dezelfde test. Voor personen met lage of hoge meetwaarden is het instrument ronduit slecht.

• Lengte van adaptieve test kan met de helft van de lengte dezelfde nauwkeurigheid als de standaardtest.Toepassingen van adaptief testen: onderwijsevaluatie: of iemand geslaagd is, of prestatie binnen grenzen ligt, of leerstofgebied voortgang heeft geboekt.

5.4 Bewerkte scores en normen= toekennen van betekenis aan scores.Testuitslag eerst in basisscore / ruwe score, meestal door telling.Ruwe score: 

X =   g=id van item, Xg = score van item (fout=0, goed=1)

Drie soorten bewerkte scores: bij vergelijking met anderen:• vergelijking met absolute standaard• deling door bv leeftijd of schoolklas• relatieve positie in een referentiegroep

Page 17: 1 Historische ontwikkeling van het testen

Norm = referentiekader voor de evaluatie van de ruwe scores, dat is gebaseerd op de kenmerken van de verdeling van de ruwe scores in een populatie. Deze kenmerken worden geschat op basis van een representatieve steekproef

Ook diverse bewerkingen die onafhankelijk zijn van de prestaties van anderenGebruik van normen houdt een vergelijking in met een referentiepopulatie, niet met de groep die men toevallig 

onderzoekt. Bv CITO: uitslag in relatie tot populatie van Nederland.Niet altijd is het nodig/gewenst om normen te berekenen:

• voor een rangorde binnen de onderzochte groep (bv beste drie gaan door…)• pct goede antwoorden moet (bv) hoger zijn dan 80, anders (… niet alleen werken in de klas).

Soms zijn ruwe scores voldoende, bv bij onderzoeksdoeleinden voor samenhang tussen testscores en criteriumscores.

Naarmate onderzochte groep groter is en meer de kenmerken van een relevante populatie weerspiegelt, krijgen de vergelijkingen meer het karakter van vergelijkingen met een norm. Belangrijk hierin:

• Bij normeringsonderzoek moeten de kenmerken van de onderzochte normgroep vermeld worden• Normen niet absoluut zien: populatie veranderd. Daarom ook de eis van geregelde normrevisies van 

de test

Vergelijking met een absolute standaardDus niet vergelijking met klas, leeftijdgenoten of nl­populatie. Maatstaf kan subjectief en arbitrair zijn, maar ook 

gebaseerd op grondige onderwijskundige of psychologische analyse. Eng: ‘criterion­referenced measurement’.

Bij absolute normering is een analyse van doelen, of de mate waarin die doelen zijn verwezenlijkt op een betrouwbare manier te meten.

VerhoudingsnormenTestscores gedeeld door een andere variabele, als leeftijd, klasse, enz. Bv IQ

IQ  =  ML/CL x100 ML=mentale leeftijd, CL=chronologische leeftijdML = basale leeftijd  + aantal­goed­na­basale­leeftijd/aantal items per leeftijdgroepBasale leeftijd = laatste leeftijd waarop geen fouten is gemaakt

Het IQ­begrip kent kanttekeningen:• Formule suggereert dat ML en CL vergelijkbare grootheden zijn, maar CL is de verwachte testprestatie 

o.b.v. leeftijd• Lange tijd ging men ervan uit dat IQ constant was. Maar er zijn veel vragen die zowel door vorming en 

scholing als van intelligentie afhankelijk is. Ook wordt psychologische groei beïnvloed door allerlei lichamelijke en fysiologische factoren. Verder gelden wijzigingen in leermogelijkheden en motivatie, en emotionele bereidheid.

• Hogere leeftijden lopen de prestaties in vele intellectuele functies terug. Oudere mensen zijn dus in het nadeel

• Veel IQ­test voldoen niet aan de eis van een evenredig toenemende spreiding bij hogere leeftijden (dus steeds grotere noemer)

In modernere intelligentietests worden meestal andere bewerkte scores gebruikt.

Vergelijking en normen gebaseerd op een rangordeDirect gebonden aan de specifieke groep.Kennis van de groepsgrootte is niet vereist bij percentielscores. Percentielscores zijn onafhankelijk van de groepsgrootte. Wel blijven ze afhankelijk van niveau, spreiding en 

andere kenmerken. Percentielscores worden veel gebruikt, Reden: eenvoudige en snelle berekening, gemakkelijke toepasbaarheid 

en de inzichtelijkheid. Nadelen:• geen gemiddelde en varianties

Page 18: 1 Historische ontwikkeling van het testen

• geen zin om frequentieverdelingen van percentiele en ruwe scores te vergelijken. De verschillen tussen percentielscores in relatie tot de ruwe scores worden rond de mediaan overschat en aan de uiteinden onderschat.

Vergelijking en normen gebaseerd op gemiddelde en spreidingStandaardnormen: standaardscore­eenheden als representatie van een populatie.Standaardscores en standaardnormen kennen niet de bezwaren van percentiele normen, ordinale schaal en de onvergelijkbaarheid met ruwe score­eenheden.Standaardscores of z­scores

= omgezette ruwe scores, uitgedrukt in aantal standaarddeviatie­eenheden van het gemiddelde:        zX 

= (X – gemX)/ SX Standaardscores behouden, op gemiddelde en standaarddeviatie na, dezelfde verdelingskenmerken als de ruwe scores. Z­scores zijn niet automatisch normaal verdeeld.Omzetten naar z­scores betekent: de verdeling van X wordt verschoven en de afstand tussen de scores wordt met een constante factor veranderd.

Genormaliseerde standaardscoresVerkregen uit niet­lineaire transformaties, die de verdeling van X zodanig vervormen, dat wel een normaalverdeling ontstaat. Sommige score­eenheden worden ‘uitgerekt’  en anderen ‘ingedrukt’ 

(om verdeling van 34% tussen gemX en (gemX + 1SX) en 34% tussen gemX en (gemX – 1SX) en 14% tussen (gemX + 1SX) en (gemX + 2SX) en 14% tussen (gemX ­ 1SX) en (gemX ­ 2SX)

Normalisering van de verdeling is vaak nauwelijks gerechtvaardigd. Beweerd wordt wel dat de intelligentie normaal verdeeld moet zijn, evenals lengte en gewicht van mensen. Een hypothetische eigenschap kan men nooit op haar kenmerken onderzoeken onafhankelijk van de manier van meten. Te gemakkelijke items zullen een scheefheid naar links veroorzaken, te moeilijke items naar rechts. Rechtvaardiging hooguit in het gemak en de bruikbaarheid.

Overige standaardscoresBinnen genormaliseerde standaardscores:

• T­scores: gemiddelde van 50 en spreiding van 10• Stanines (US air force). Scores vertegenwoordigen een breedte van ½SX. Het midden van de 

vijfde stanine komt overeen met het gemiddelde van de verdeling• Deviatie­IQ: standaardnormen met een gemiddelde van 100. I.p.v. oorspronkelijke vergelijking 

van ML en CL worden de testprestaties per leeftijdsklasse verwerkt tot genormaliseerde standaardscores. WAIS­scores zijn met leeftijd genormeerd.

Page 19: 1 Historische ontwikkeling van het testen

6 BetrouwbaarheidBetrouwbaarheid is de mate van herhaalbaarheid van metingen. Bij gelijkblijvende condities en dezelfde persoon, in hoeverre varieert de verkregen testscore over testsessies. Twee vragen:

• is het zinvol om dezelfde persoon de test diverse malen voor te leggen• wat verstaan we onder ‘gelijkblijvende condities’.

6.1 Herhaalbaarheid van metingenZinvolle herhaalbaarheid van metingen worden in hoge mate bemoeilijkt door geheugeneffecten en leerprocessen. Herhaalbaarheid is derhalve hypothetischOnder gelijkblijvende condities verstaan we:

• Items, instructie, fysieke omstandigheden, tijdstip, • psychologische eigenschappen van persoon.

o Onbedoeld beroep op bv woordbegripo Items kunnen emotionele of agressieve reactie oproepen. Ook woordbegrip speelt

• lichamelijke en fysiologische processen, zoals motoriek/waarnemingHoe kunnen bij herhaalde afnemingen onder gelijkblijvende condities de scores toch fluctueren?

Het gaat om invloeden die onvoorspelbaar of toevallige wijze variëren. Bij groot aantal metingen heffen voor­ en nadelen elkaar op. Voorbeelden van invloeden:  blackout,  lichamelijk ongemak, laag overkomend vliegtuig, tijdelijk concentratieverlies, enz.

Dus: herhaalbaarheid van metingen? dan zijn testprestaties bij verschillende afnemingen onafhankelijk van elkaar; geen leer­ en herinnereffecten.

Klassieke testtheorie: relatieve inbreng van onvoorspelbare invloeden en werkzame eigenschappen van personen en situatie. ‘Onafhankelijke replicaties’ = herhaalde metingen.

6.2 De klassieke testtheorieReeds uit het begin van 1900. Lang geduurd voordat theorie af was.

Betrouwbare score en meetfoutOnderscheid tussen constand of systematisch deel (T) en toevallig of niet­systematisch deel (E):

Xij = Ti + Eij. i=persoon, j=replicatie, T=true score, 

Ti is gebonden aan een specifieke test, en niet aan buiten­test­situatie.Soms interesse in werkelijke score (meestal), soms juist in toevallige deel (sport)Indien de test volgens doordachte psychologische principes tot stand gekomen is, zal de testscore ongetwijfeld 

samenhangen met andere belangrijk geachte psychologische variabelen en daarmee gedrag voorspellen

Eigenschappen van betrouwbare score en meetfout voor een individu• Gemiddelde meetfout is nul• Standaarddeviatie is de standaardmeetfout van persoon i. Voor specifieke persoon i geldt dat spreiding 

van de meetfouten gelijk is aan de spreiding van de geobserveerde scores.Uitgangspunt in praktijk is dat de standaardmeetfout voor iedereen identiek is. Maar dit is niet juist: personen die weinig weten gissen meer (en dus grotere standaardmeetfout). Dus: de ‘persoonsgebonden’ standaardmeetfout neemt af bij een toenemende waarde T.

• De standaardmeetfout van psychologische metingen (testscores) is vaak aanzienlijk. Reden: onderligeende psychologische processen kunnen m.b.v. een test niet zo nauwkeurig worden beschreven als bv fysische processen

Eigenschappen van betrouwbare score en meetfout in de populatieVooronderstellingen:

• Gemiddelde meetfout in een populatie van n personen is gelijk aan nul

Page 20: 1 Historische ontwikkeling van het testen

• Meetfouten correleren met geen enkele andere variabele. Meetfout op de test correleert niet met Y (Willekeurige andere variabele):

r(E,Y)=0 Let op:   r(E,X)>0      E correleert wél met X

• Meetfout en de betrouwbare score correleren niet.Eigenschappen:

• Gemiddelde geobserveerde score is gelijk aan gemiddelde betrouwbare score

• Variantie  van de geobserveerde score is gelijk aan de som van de variantie van de betrouwbare score en de variantie van de meetfout.

Betrouwbaarheid van testscores en de standaardmeetfoutDefinitie van betrouwbaarheid:

Verhouding van de varianties van betrouwbare scroes en geobserveerde score. Betrouwbaarheid is dus de proportie van de variantie van de testscores, X, die systematisch is.Betrouwbaarheid wordt aangeduid:     rXX’

Acceptabele waarden van de betrouwbaarheidMinimumwaarde van betrouwbaarheid is nul: de test meet geen enkel betrouwbaar verschil en is als meetinstrument mislukt.Maximumwaarde van betrouwbaarheid is 1: als iedereen dezelfde meetfout heeft (=0).Dus:    0  ≤  rXX’  ≤  1Twee praktische situaties onderscheiden:

• uitspraken over groepen: groepsgemiddelden en correlaties. Vuistregel: rXX’ > 0.7• uitspraken over individuen: rXX’ > 0.9

Standaardmeetfout van de testscoreS(E) = S(X) √(1­rXX’)       

Betrouwbaarheid en standaardmeetfout spelen in klassieke testtheorie ene centrale rol:• voor schatting van nauwkeurigheid van meting• voor indruk van de mate waarin de testscores bij een onafhankelijke replicatie van de meting 

anders zouden kunnen uitvallenBetrouwbaarheid kan niet zondermeer geschat worden, want formule bevat twee onbekenden. Voor methoden, zie verderop. Eerst

Belangrijke onderscheidingenTestscore wordt opgesplitst in toevallig en systematisch deel.Testscore zou ook opgesplitst kunnen worden in bedoeld en onbedoeld deel. Bv rigiditeitstrek bepaalt de bedoelde scorecomponent; emotionaliteit, agressiviteit en woordbegrip bepalen (gedeeltelijk) onbedoelde scorecomponent. (Meetfouten zijn altijd onbedoeld).Onbedoelde scorecomponent ≠meetfout, en bedoelde scorecomponent ≠ betrouwbare score. In geval van rigiditeits­test: er bestaat geen zuivere test voor rigiditeit, evenmin voor intelligentie.In hoeverre een test de bedoelde eigenschap meet, is begripsvaliditeit (zie hfdstk 8)

6.3 Bepaling van de betrouwbaarheidTwee benaderingen voor het schatten van de betrouwbaarheid:

1 twee testafnemingen / herhaalde metinga. Paralleltest / parallelvormmethode. De inwisselbaarheid/equivalentie van de tests is wiskundig 

gedefinieerd. Correlatie tussen beide tests is de paralleltestbetrouwbaarheid.b. dezelfde test / test­hertestmethode. Correlatie tussen beide scores is de test­

hertestbetrouwbaarheid.2 eenmalige meting

a. twee helften / splitsingsmethode. Via wiskundige berekening de paralleltestbetrouwbaarheid

Page 21: 1 Historische ontwikkeling van het testen

b. individuele items / interne­consistentiemethode. Covariantie tussen alle individuele items is de ondergrens van de betrouwbaarheid

ParallelvormmethodeTwee inwisselbare, maar niet identieke test voorleggen aan één groep proefpersonen. Correlatie tussen scores van beide is gelijk aan de betrouwbaarheid van afzonderlijke scores.Vooronderstellingen:

• bepaalde persoon i geeft op twee paralleltests identieke betrouwbare scores• spreiding van de ruwe score in de populatie is op beide tests gelijk

Betrouwbaarheid = correlatie (r) tussen twee parallelle testscores (X en X’).In de praktijk van testconstructie is het niet eenvoudig om twee parallelversies te maken.  Bovendien is het pas achteraf te controleren of het gelukt is. Eigenschappen van paralleltest:

• testscore van iedere persoon is in beide tests gelijk• gemiddelde betrouwbare score op de test is gelijk aan gemiddelde geobserveerde score  gemX1 = 

gemX2

• varianties van geobserveerde scores is in beide tests identiek     S2(X1) = S2(X2)  • Met iedere willekeurige variabele (Y) heeft de paralleltest dezelfde correlatie.  r(X1,Y) = r(X2,Y)

Samengevat: laatste is belangrijkste.

Test­hertestmethodeRegelrechte poging om het ideaal van onafhankelijke replicaties te realiseren.Procedure: dezelfde test met een behoorlijke tussentijd tweemaal aan dezelfde groep voorleggen. Correlaties tussen beide scores is gelijk aan betrouwbaarheid van de test.Test­hertestmethode levert resultaten die afwijken van parallelvormmethode: veranderingen m.b.t. de eigenschap 

tijdens tijdinterval.Diverse redenen waarom  r(X1,X2)  (correlatie tussen 1e en 2e meting) geen goede bepaling van betrouwbaarheid 

(rXX’)     geeft:• veranderingen in gemeten eigenschap: leereffect• geheugen• door stellen van vragen kan onderzochte aan het denken zetten, bv tot attitudeverandering

Bepaling van grootte van tijdinterval: afweging met problemen, incl uitval van proefpersonen.Deze methode geeft ook beeld in hoeverre de testprestatie over een bepaalde periode stabiel blijft: correlatie 

geeft dan aan de stabiliteit van de testscores.

SplitsingsmethodeEfficiënte variant van de parallelvormmethode: twee halve paralleltest.Procedure:

• test splitsen• gehele test voorleggen aan respondenten• per testhelft ruwe score bepalen.

Indien scores werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test. Omdat betrouwbaarheid afhangt van aantal items, correctie uitvoeren.

Wat is invloed van testlengte op betrouwbaarheid:Spearman­Brown­formule:

         KrXX’          rKK is de betrouwbaarheid van de verkorte testrKK =  ­­­­­­­­­­­­­­­­­­ K is aantal items verlengdetest/aantal items oorspr test

1 + (K – 1)rXX’ rXX’ is de betrouwbaarheid van de gehele test

Page 22: 1 Historische ontwikkeling van het testen

Deze formule geeft de mogelijkheid om de betrouwbaarheid van de gehele test af te leiden uit de betrouwbaarheid op de halve tests. Dus

2rXX’

r22  = ­­­­­­­ Stel: r22 = 0.70, dan is rXX’ 0.821 + rXX’

Let op: deze formule veronderstelt dat de testdelen parallel zijn. Dit zijn ze zelden. Vuistregels voor vormen van twee testhelften:

• evenwichtige spreiding van gemakkelijke en moeilijke items• niet 1e en 2e helft (mogelijke oplopende moeilijkheid), maar even en oneven nummers• in verschillende versies items te kiezen die inhoudelijk veel op elkaar lijken.• geen items weglaten.

Samenstellen van twee parallelle test is arbitrair; diverse mogelijkheden. Voor elk van de mogelijkheden is de betrouwbaarheid te schatten en gemiddelde geeft dan de echte schatting. Maar: Cronbach geeft eenvoudiger methode: Cronbachs alfa is gelijk aan de gemiddelde splitsingsbetrouwbaarheid

Interne­consistentiemethodeGebaseerd op inwisselbaarheid van individuele items in een test.Procedure: 

• test eenmalig voorleggen aan representatieve groep• Scores op items als basis voor berekeningen. Covarianties berekenen. Variantie van ruwe score 

berekenen• Gegevens invullen in één van de vele coëfficiënten(­methoden) voor een schatting van betrouwbaarheid

Bekendste coëfficiënten(­methode) is de alfacoefficient (Cronbach).Alfa is een ondergrens voor de betrouwbaarheid.

Ofwel:   rXX’ ≥ alfaBovendien: als alle items dezelfde eigenschap meten, is alfa en betrouwbaarheid (ong) gelijk.Formule voor alfa eenvoudig. Daarom populairste methode.Bewijs van stelling, mits

- variantie van elke variabele groter/gelijk 0 is- variantie van verschil van twee variabelen niet negatief is.

Alfa als ondergrens in relatie tot populatie en steekproef.Alfa is in de populatie dus ondergrens voor betrouwbaarheid, maar in praktijk wordt alfa geschat met steekproefgegevens, en kan dus hoger of lager uitvallenEen grotere, representatieve steekproef (min. 500)  lijkt veel op de populatie en alfa zal inderdaad de ondergrens zijn. Hoe kleiner de steekproefgrootte, hoe meer de steekproeven door toeval van elkaar verschillen, hoe groter de fluctuatie in alfa.Een constructie van een goede test vereist dus grote steekproeven. Reden: vele statistische berekeningen met voldoende nauwkeurigheid, ook voor deelgroepen.

Interpretatie en gebruik van alfaAlternatieve formules:

Kuder en Richardson (KR20) is gelijk aan alfa voor het geval alle items dichitoom zijnBerekening van alfa: 

m.b.v. testlengte, alle covarianties tussen de items (=inter­item­covariantie), de variantie van de testscore.De variantie van de testscore is gedefinieerd als de som van de itemscores.

Selectie van items ter verhoging van alfaItems die niet positief bijdragen aan de betrouwbaarheid (of die verlagen) moeten uit de test. Dus items die goed correleren met andere items. Meestal lastig, daarom: item­restcorrelatie = beoordelen van items op hun correlatie met de somscore. Dus per item één item­restcorrelatie, i.p.v. heel veel k­1 inter­item­covarianties.

Mythe van de interne consistentie

Page 23: 1 Historische ontwikkeling van het testen

Veel onderzoekers gebruiken alfa als maat voor de interne consistentie (of ‘homogeniteit’)  van een test en minder vaak als ondergrens voor de betrouwbaarheid. Ongelukkig, want:

- hoge betrouwbaarheid heeft alles te maken met nauwkeurigheid van de meting, niet met wát de test meet

- alfa kan een hoge waarde hebben, terwijl de test inhoudelijk sterk heterogeen is.Voor een indruk van interne consistentie van de test: factoranalyse.

Alternatieven voor alfaLambda2­coefficcient volgens Guttman. Serie van ondergrenzen voor betrouwbaarheid. Coefficienten kunnen worden geordend naar oplopende grootte. Mu0 is gelijk aan alfa, mu1 is gelijk aan lambda.mu0 ≤ mu1 ≤ mu2 ≤ mu3 ≤ … ≤ rXX’ Gegeven de eenvoud en ouderdom van de formule is het vreemd dat lambda2 veel minder vaak gerapporteerd wordt dan alfa.

6.4 Speciale onderwerpen

Nauwkeurigheid van de metingTwee methoden om de betrouwbare score T te schatten.Bv X = score CITO, Y = score voor success in middelbaar onderwijs. Lineaire functie in de puntenwolk staat bekend als het lineaire regressiemodel:  Y = a + bX.Indien correlatie tussen X en Y niet perfect is (dus |r(X,Y)|< 1), dan gaat de schatting van Y gepaard met een zekere mate van onnauwkeurigheid: tussen geobserveerde en geschatte waarde. In een groep personen is het gemiddelde residu gelijk aan nul.De werkelijke Y­waarde in 95% van de gevallen tussen xx.xx en xx.xx zou liggen. Dit is onjuist.Twee methoden om de betrouwbaarheid te meten:

Methode 1:standaarddeviatie van de schattingsfouten is gelijk aan de standaardfout.

Methode 2:Uit klassieke testtheorie: correlatie r(X,T) is gelijk aan √rXX’   r(X,T) = √rXX’   Standaardeviatie van de schattingsfouten T – T’ = standaardschattingsfout:T’ = rxx’X + (1­rXX’)gemX S(T – T’) = S(T)√(1­r2

XT)- Vergelijking van de standaardfout en de standaardmeetfout: schatting van T d.m.v. tweede methode 

is nauwkeuriger dan 1e methode- Schattingsmethode: naarmate rXX’ hoger is, krijgt de individuele testprestatie X meer gewicht. 

Naarmate rXX’ kleiner is en X derhalve onbetrouwbaarder, wordt de rol van groepskenmerk ‘gemX’ belangrijker. Methode 2 geeft meer informatie.

Rekenvoorbeeld: zie blz 233 bovenaanVergelijking van testscores

Testscores zijn tamelijk onnauwkeurige schattingen van T. Is dit algemeen? Ja: 95% betrouwbaarheidsinterval en betrouwbaarheid van 0.90 nog steeds groot interval geeft. 

Hogere betrouwbaarheid is te behalen door meer items in test op te nemen:De winst zit er in dat een 2x zo grote standaardmeetfout wordt gebruikt om testscores te vergelijken op 4x zo lange schaal. Betrouwbaarheidsinterval blijft lang. Toch testscores betrouwbaar en bruikbaar:1 als standaardmeetfout of standaardschattingsfout gering is t.o.v. lengte van de schaal (Dus 

veel items nodig). Standaardmeetfout en –schattingsfout geven meer info dan betrouwbaarheid zelf.

2 Test in wetenschappelijk onderzoek vereist een minder hoge meetnauwkeurigheid. Wel moet betrouwbaarheid behoorlijk zijn. Vooral de grootte van de steekproef van proefpersonen is van belang. Voor ind testgebruik worden hogere eisen gesteld.

3 Door vaak geringe aantal items in de test is de standaardmeetfout relatief groot. Evt compenseren met andere testprestaties/gegevens.

Page 24: 1 Historische ontwikkeling van het testen

Betrouwbaarheid en testlengteVerband tussen betrouwbaarheid en testlengte, via Spearman­Brown formule:

         KrXX’          rKK is de betrouwbaarheid van de verkorte testrKK =  ­­­­­­­­­­­­­­­­­­ K is aantal items verlengdetest/aantal items oorspr test

1 + (K – 1)rXX’ rXX’ is de betrouwbaarheid van de gehele test

Conclusies:• betrouwbaarheidswinst wordt kleiner, naarmate meer items aan de test worden toegevoegd.• Om praktische redenen vaak weinig zin om een test met geringe betrouwbaarheid te verlengen:

o niet eenvoudig om nieuwe items te makeno test kan te lang worden: vermoeiend en demotiverend voor respondent

Dus: testverlening alleen zin als aanvangsbetrouwbaarheid, rXX’, niet al te laat is (bv 0.60 tot 0.80) en het aantal items in de test niet al te groot (10 a 20)Let op: Spearman­brown­formule is gebaseerd op de vooronderstelling van parallele metingen

Betrouwbaarheid en validiteitDe betrouwbaarheid van een testscore X legt beperkingen op aan de correlatie van X met andere variabelen, Y. 

Hoe hoog kan de correlatie van een testscore met een andere variabele maximaal zijn?Betrouwbaarheidsindex:       r(X,T) = √rXX’     Dit is de bovengrens voor de correlatie van testscore X met een 

willekeurige andere variable Y. Deze bovengrens geeft alleen aan  wát de maximale correlatie kan zijn, maar niet wat de echte correlatie in een concreet geval is. Dus: hoge betrouwbaarheid is een noodzakelijke, maar niet voldoende voorwaarde voor een goede validiteit

Bij testverlenging: validiteitswinst is geringer dan de betrouwbaarheidswinst.

Betrouwbaarheid van verschilscoresIs een gevonden verschil tussen twee testscores van dezelfde persoon betrouwbaar, of moet het toegeschreven 

worden aan de onbetrouwbaarheid van één of beide testscores. Bv therapievooruitgang of scores van neuroticisme en agressie tot verschillende typologien. Voor differentiële voorspelling van betrouwbaarheid (bv bij therapievooruitgang) voorwaarden:• betrouwbaarheid van het verschil D is lager naarmate de betrouwbaarheid van X1 en X2 afzonderlijk lager 

is• betrouwbaarheid van verschilscores is gering als de samenhang tussen X1 en X2 sterk is (want dan lijken 

hun betrouwbare scores veel op elkaar; de tests meten hetzelfde).Dus, belangrijk is:

• streven naar zo onafhankelijk mogelijke tests• testscores van beide test zo betrouwbaar mogelijk

Profilering van de testresultaten op een profielblad: vaak onduidelijke statistische onderbouwing; interpretatie, adviezen en beslissingen zijn dubieus. Vaak hebben beslissingen weinig waarde omdat ze gebaseerd zijn op onbetrouwbare verschilscores. Er zijn diverse pogingen gedaan om de afstand van iemads scoreprofiel tot een of ander ideaalproviel in een index uit te drukken.

Latente­klassenanalyse is een recente, statistische ontwikkeling in de classificatie van mensen op basis van scoreprofielen op tests of items uit tests of vragenlijsten. De bruikbaarheid hiervan (betrouwbaarheid en validiteit) moet nog blijken

Betrouwbaarheid en spreiding van scores.Testkenmerken geven alleen binnen díe populatie een geldige aanwijzing van de kwaliteit. Er bestaat een sterk 

positief verband tussen de variantie van de betrouwbare score T en de betrouwbaarheid rXX’. Kanttekeningen:

• Vooronderstelling van een constante, weinig variërende, meetfoutenvariantie (S2(E)).Maar: meetfouten voor personen die veel gissen is groter dan die weinig gissen

• Wel bekend dat rXX’  afneemt bij afnemende variantie.

Page 25: 1 Historische ontwikkeling van het testen

Betrouwbaarheid van heterogene testsVoor het meten van complexe begrippen worden testbatterijen ontwikkeld, met soms 10 of meer deeltests. Het 

streven om de aspecten apart te meten is gebaseerd op theoretische/empirische gegeven dat zij min of meer onafhankelijke intelligentiekenmerken representeren. De onafhankelijkheid of hooguit zwakke samenhang komt tot uiting in lage correlaties of geringe covarianties tussen de scores op deeltests. Bv RAKIT

Voor iemands algemene intelligentienivo, dan totaalscore nodig. Dus alle items als één test zien? Nee, Cronbacks alfa (als ondergrens voor betrouwbaarheid) zal laag zijn. Beter: gestratificeerde alfacoefficient

Generaliseerbaarheid van metingenIndien een psychologische eigenschap veranderlijk is, geeft de test­hertestmethode een indruk van de 

generaliseerbaarheid van de meting in de tijd, terwijl paralleltestmethode laat zien in hoeverre metingen uit de ene test generaliseerbaar is naar de andere.

Cronback’s generaliseerbaarheidtheorie:Aanname dat de testgebruiker altijd een generalisering van de testresultaten beoogt, naar bv tijd, vraagvormen, soortgelijke tests. Totaal van deze condities waarna gegeneraliseerd gaat worden heet universum. Universumscore is de betrouwbare score: de gemiddelde testprestatie berekend over het universum van condities.

Wil men een schatting maken van deze universumscore, dan moeten alle condities ook daadwerkelijk in de testprocedure opgenomen zijn.

Naast het toeval dragen andere variantiebronnen (totaal: foutenterm E) bij aan een gebrek aan generaliseerbaarheid. De samenstelling van deze foutenterm varieert met de definitie van het universum en daarmee varieert tevens de generaliseerbaarheidcoëfficiënt.

6.5 Tot besluitBetrouwbaarheid impliceert niet validiteit. Maar een onbetrouwbare score is altijd invalide.

Page 26: 1 Historische ontwikkeling van het testen

7 Nieuwe ontwikkelingen in testtheorie en testconstructieModellen uit item­responstheorie winnen terrein. Reden: gebruiksmogelijkheden, bv adaptief testen per computer. 

Gunstige meeteigenschappen van item­r­theorie:• schaal: sommige ordinaal, sommigen interval. ‘Meten bij implicatie’ (=implicit measurement). Bv Rasch­

model, met een verschilschaal voor meting van personen.Klassieke testmodel: wel worden onderzocht of items of tests parallel zijn, Niet onderzocht of opsplitsing van testscores in een betrouwbaar deel en een meetfout wel realistisch is. ‘Meten bij fiat’: aangenomen wordt dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond.

• Populatie­onafhankelijk meten. Klassieke testtheorie is populatie­afhankelijk. D.w.z. het aantal goede antwoorden is afhankelijk van het moeilijkheidsniveau van de test. Dus het niveau van de proefpersoon kan niet gescheiden worden van het moeilijkheidsniveau van de test.Populatieonafhankelijkheid = iemands meetwaarde, verkregen met een gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test heeft gemaakt.

Een item­responsmodel is een model uit de theorie die past bij de gegevens (zoals intervalmeetniveau, populatieonafhankelijkheid)

7.1 Principes en begrippen van de item­responstheorieDe item­responstheorie maakt uitspraken mogelijk over de kans dat persoon i met meetwaarde Ѳi een specifieke 

(positieve of negatieve) respons geeft op item g.Deze kans wordt door meetwaarde Ѳi  en door kenmerken van het item g bepaald, zoals de moeilijkheid δg en het 

discriminerend vermogen αg. Dus kans wordt bepaald door zowel persoon als item. Deze  eigenschappen van personen en items kunnen worden geschat uit testgegevens, en zijn dus parameters.

Een kans van 0.70 betekent dat 70% van de personen met dezelfde  ­waarde het positieve antwoord op item Ѳ g geeft. Deze kans op positief antwoord = succeskans. Succeskans is een functie van de te meten psychologische eigenschap.

Wiskundig gezien is de succeskans een functie van de schaal, als meetlat voor het psy eigenschap. De precieze vorm en locatie van de functie wordt bepaald door de kenmerken van het item (moeilijkheid, discriminerend vermogen). Dit is de item­respons functie, ook wel item­karakteristieke functie of item­karakteristieke curve.

Vorm van de functie:• succeskans is een monotone niet­dalende functie van de schaal. (Voor psy eigenschappen zijn 

verbanden tussen succeskans en eigenschap vaak intuïtief en niet ondersteund door psychologische theorie. Rechtvaardigheid moet dan wel empirisch zijn)

• de helling van de functie varieert. Kritisch gebied waar de helling van de functie relatief steil is. Binnen dit gebied is de succeskans goed te onderscheiden, daarbuiten niet.

• Drie kenmerken van items, die de exacte vorm van de item­responsfunctie in een bepaalde klasse van item­responsmodellen bepalen:

o bij lage Ѳ­waarden is de succeskans duidelijk groter dan 0. Er is een gis­kans. De exacte gis­kans hangt af van aantal alternatieven en van inhoudelijke itemkenmerken (samen de pseudokansniveau). De pseudokansniveau  (  P(Xg=1|Ѳ) = Уg  ). Уg is de pseudokansniveauparameter.

o De curve heeft een specifieke locatie op de Ѳ­schaal. Deze locatie is het punt op de schaal waar (1 + Уg)/2, de locatieparameter δg (ook wel ‘moeilijkheidsparameter’ genoemd)

o Steilheid van de item­responsfunctie: naarmate steiler, wordt verdeling van personen scherper in 2­en gedeeld. Het  discriminerend vermogen van het item is een functie van de richtingscoëfficiënt van de raaklijn aan de item­reponsfunctie in het punt (δg, 1 + Уg)/2). Het discriminerend vermogen wordt aangegeven met αg (discriminatieparameter). Deze parameter is groter bij steilere helling, waar het item meer discrimineert.

Page 27: 1 Historische ontwikkeling van het testen

7.2 Enkele modellen uit de item­responstheorieConceptueel verschillen deze modellen maar weinig. Verschillen wel in de keuze van de wiskundige functie. 

Strengere modellen leggen meer beperkingen op aan het ‘gedrag’ en leggen dus meer structuur op aan patronen van itemscores. Zwakkere (in termen van hun vooronderstellingen) geven meer vrijheid. Empirische testgegevens zijn vaak beter in overeenstemming met de zwakkere modellen dan met de strengere. 

Er is sprake van een spanning tussen mate van praktische toepasbaarheid van een model  en  de kwaliteit van de meting.

Het Rasch­modelFormulering en meetniveau

Strengste model. Ook wel één­parameter logistische model.Eigenschappen:

• Voor zeer kleine Ѳ­waarden is de succeskans vrijwel nul. Indien uit de itemeigenschappen wel een succeskans groter dan nul is, dan is het Rasch­model niet geschikt.

• Alle items hebben hetzelfde discriminerend vermogen• Schaaltransformaties zijn toegestaan• Meetwaarden van respondenten en items veranderen, maar de onderlinge ordeningen van resp 

personen en items blijft onveranderlijk.• Versies:

o Logaritmische schaal die verschiltransformaties toelaato antilogarimische schaal met ratio­eigenschappenAfstanden tussen metingen zijn serieus.

• Items mogen varieren in moeilijkheidPopulatie­onafhankelijkheid

Eigenschappen:• populatieonafhankelijkheid (= ­Ѳ waarden zijn onafhankelijk van de moeilijkheden), ofwel binnen 

de populatie kunnen deelgroepen bestaan die ieder eigen moeilijkheidsniveau hebben• Effecten van personen en items op de succeskansen zijn onafhankelijk en interacties spelen 

geen rol. (Indien wel, dan is Rasch­model niet het juiste model). De invloeden van persoon en item op de testprestatie kunnen wel uit elkaar gehaald worden.Anders gezegd: de verhouding van de meetwaarden van twee personen, is onafhankelijk van de moeilijkheid van de items. Is dit niet het geval, dan zijn er meer vaardigheden of eigenschappen in het spel.

Een numeriek voorbeeld van geschatte parameters uit het Rasch­model• ­Ѳ waarden staan op een andere schaal dan het aantal­goed (X). Het nut van de  ­Ѳ schaal ligt 

vooral in meetniveau en populatie­onafhankelijkheid• ­Ѳ scores kunnen zowel positief als negatief zijn• Standaardmeetfout per  ­Ѳ waarde• Betrouwbaarheidsintervallen zijn behoorlijk lang. Geschatte meetwaarden dienen dus ver uiteen 

te liggen, wil er sprake zijn van een significant verschil. => dus grote aantal items.

Modellen met respectievelijk twee en drie itemparametersBirnbaum­model met twee itemparameters en het model met drie itemparameters. Beide modellen zijn een veralgemenisering van het Rasch­model.

Het Birnbaum­modelFormulering en meetniveau

Ook wel: twee­parameter logistische model.Eigenschappen:

• Items in de test verschillen in discriminerend vermogen.• Items mogen varieren in moeilijkheid (net als Rasch)

Page 28: 1 Historische ontwikkeling van het testen

• Voor lage  ­Ѳ waarden nadert de succeskans op het item 0 (net als Rasch)• Transformaties van persoons­ en itemparameters hebben geen invloed op de succeskans.• De schaal heeft eigenschappen van een intervalschaal (net als Rasch)

Populatie­onafhankelijkheidEigenschappen: Populatie­onafhankelijk (net als Rasch). Welk problemen:

• meetwaarde Ѳi is onafhankelijk van de itemmoeilijkheden, maar afhankelijk van de discriminatieparameters van de door respondent i correct beantwoorde items. Ofwel: gegeven het discriminierend vermogen van de gebruikte items, kan Ѳ bepaald worden en bij iedere test die uit het itemdomein wordt samengesteld, komt men tot dezelfde  ­Ѳ waarde. Maar: moeilijkheids­ en discriminatieparameters kunnen niet populatie­onafhankelijk bepaald worden.

Het drie­parameter logistische modelFormulering en meetniveau

Eigenschappen:• pseudokansnivea kan varieren voor iedere item in de test• Items mogen varieren in discriminerend vermogen en moeilijkheid.

Populatie­onafhankelijkheidOnafhankelijkheid is mogelijk, mits de populatie­afhankelijke itemparameters bekend zijn.

De modellen volgens MokkenMinst restrictieve model

Het model van monotone homogeniteitFormulering en meetniveau

Uitgangspunt dat over veel psychologische eigenschappen zo weinig kennis bestaat dat het gebruik van de relatief strenge modellen niet gerechtvaardigd is (waar items alleen maar varieren op moeilijkheid). Bovendien verwachten deze strenge modellen een item­responsfunctie die eerst een lage, vrijwel constante waarde heeft, vervolgens een tijdje relatief snel stijgt, daarna constant dichtbij 1.Mokken: item­responsfunctie die wel monotoon niet­dalen zijn, maar verder geen beperkingen. Het antwoordgedrag op alle items een afspiegeling zijn van dezelfde psychologische eigenschap.Model impliceert dat personen kunnen worde geordend op Ѳ m.b.v. hun totaalscores X, de som van de itemscores. De eigenschappen van de verschilschaal en de intervalschaal kwijt, maar wel de ordinale schaal voor personen.Dit model leidt, vanwege de zwakke vooronderstellingen, tot het geringste verlies van items, dus hogere betrouwbaarheid. Evenmin als Ѳ geschat kan worden, kunnen item­moelijkheden of andere itemparameters geschat worden. Wel kan p­waarde, proportie van enen herkend. Dus hoe groter p­waarde, hoe gemakkelijker/populairder het item.

Populatie­onafhankelijkheidPopulatie­onafhankelijk: elke selectie van items uit het itemdomein, waarvoor het model van monotone homogeniteit geldt, leidt in theorie tot dezelfde ordening van personen.Ordening van de items naar p­waarde misschien populatie­onafhankelijk? Nee: item­responsfuncties snijden elkaar.

Het model van dubbele monotonieFormulering en meetniveau

Model dat leidt tot populatie­onafhankelijke ordeningen van zowel personen als items. Eigenschappen:

• item­reponsfuncties monotoon niet­dalend• functies mogen elkaar niet snijden (net als Rasch)• personen meten op ordinale schaal• p­waarden van items liggen op ordinale schaal

Populaite­onafhankelijkheid

Page 29: 1 Historische ontwikkeling van het testen

• Ordening van personen is populatie­onafhankelijk. • Ook ordening van items is populatie­onafhankelijk• Testscores en p­waarden zijn niet onderling vergelijkbaar. Dus personen wel met elkaar, items 

wel met elkaar, maar personen en items niet onderling op dezelfde schaal.

De onderlinge relaties van de itemresponsmodellen• In volgorde van algemeen naar specifiek: model van monotone homogeniteit  ­  drie­parameter logistisch 

model  ­  Birnbaum­model  ­  Rasch­model.• Model voor dubbele monotone homogeniteit: item­responsfuncties mogen elkaar niet snijden. Rasch­

model is speciaal geval van dubbele monotone homogeniteit: item­responsfuncties mogen niet snijden, maar moeten parallel zijn. Dus in volgorde van algemeen naar spacifiek: model van monotone homogeniteit  ­ model van dubbele monotonie  ­  Rasch­model.

7.3 Meten van item­responsmodellenEigenschappen van deze modellen t.a.v. afbeelden van personen en items op een schaal:

• Schaaleigenschappen uit het specifieke item­responsmodel. Dus ‘meten bij implicatie’• Schaal: 

o Rasch, Birnbaum, drie­parameter logistisch model  => metrische schaal (interval­, verschil­, rationniveau

o Mokken:   => ordeningen van meetwaarden• Afbeelden:

M.b.v. Rasch, Birnbaum, model van drie parameters = personen op dezelfde schaal.M.b.v. Mokken: ordening van personen en items op aparte schalen

• In specifieke gevallen populatie­onafhankelijk.o Rasch: zowel personen als items populatie­onafhankelijko Birnbaum en drie­parametermodel: alleen personen populatie­onafhankelijko Monotone homogeniteit: ordening van personen populatie­onafhankelijko Dubbele monotonie: zowel ordeningen van personen als items populatie­onafhankelijk

Betekenis en gebruik van metrische schalenVraag of er een psychologische interpretatie aan metrische schalen kan worden gegeven.Ratio­schaal: vergelijking van personen interpreteren in termen van kansen op positieve/neg reacties op een item. 

‘Odds’  = de verhouding van de kans op een positief antwoord en de kans op een negatief antwoord op hetzelfde item voor een vaste meetwaarde (Oig=4 betekent dat persoon i item g in 4 gevallen goed beantwoordt en in één geval fout). Voor het Rasch­model is Odds dus alleen afhankelijk van de meetwaarde van twee personen, maar onafhankelijk van het gebruikte item

Conclusie: meting op een metrische schaal leidt niet tot een directe psychologische interpretatie, maar van ordeningen.

Eggen en Kelderman tonen hoe meetwaarden op Odds­schaal of de  ­Ѳ schaal praktisch gebruikt kunnen worden:• Schaal relateren aan normgroep: de schaal krijgt een gemiddelde en spreiding• meetwaarden relateren aan referentiepunten: absolute aftestgrens• omzetting in percentielscores, omzetting van meetwaarden in succeskansen• omzetting van de schaal uit de item­responstheorie in de schaal uit de klassieke testtheorie. Voordeel: 

ordening volgens T volgt uit de theorie en hoeft niet worden aangenomen,testgebruikers zijn wel bekend met de schaal van betrouwbare score, maar nauwelijks met de  ­Ѳ schaal.

Nauwkeurigheid van de metingItme­responstheorie wordt gezien als een verfijning van de klassieke testtheorie. 

Klassiek: standaardmeetfout is voor elke score op de schaal gelijk. Dit is niet plausibel (mensen die meer gissen hebben grotere meetfout). Item­responstheorie houdt rekening met lokale betrouwbaarheid. Een te gemakkelijke test geeft voor de meting van Ѳi weinig informatie. Wanneer de test goed bij de persoon past, dan is Ѳi nauwkeurig geschat.

Page 30: 1 Historische ontwikkeling van het testen

Voor ieder afzonderlijke item en voor de gehele test kan het informatiegehalte (of de lokale betrouwbaarheid) voor de schatting van Ѳ worden bepaald.Zie grafiek blz 293 van drie iteminformatiefuncties. Hoe groter de waarden van de informatiefunctie, des te hauwkeuriger de meting.Het Rasch­model en Birnbaum­model: de items in de test leveren een onafhankelijke bijdrage aan de informatie van de gehele test. Dit is handig bij testconstructie: items als bouwstenen.Wil men nu bepaalde plaatsen op de  ­Ѳ schaal nauwkeurig meten, dan die items kiezen die op die plaats hun maximale informatiewaarde hebben. 

Ook het model met drie itemparameters laat het gebruik van de informatiefunctie toe. Mokken niet

7.4 Praktisch gebruik van de item­reponstheorieToepassing van de item­reponstheorie op de constructie. Constructie van itembanken. Equivaleren van 

testscores. Testconstructie met itembank. Adaptief testen. Diagnose van afwijkende items en personen

De itembank en equivaliering van scores en kenmerken van itemsMeeste test in praktijk zijn standaarstests. Bezwaren tegen standaartests:

• niet altijd representatief voor een inhoudelijk kennis­ of vaardigheidsdomein. Probleem van inhoudsvaliditeit. Bovendien heeft respondent op iedere standaartest een andere betrouwbare score, dus prestaties op verschillende tests zijn niet goed vergelijkbaar

• test veronderstellen standaarpopulaties. Maar door verschillen in taalbeheersing of curriculum is dit niet helemaal correct

• individualisering van leerproces: niet iedereen is op een gegeven tijdstip even ver gevorderd.• Bezwaren bij onderzoek naar ontwikkelingen in het onderwijsniveau op nationale schaal: geheugen 

effecten, vloed­ en plafondeffectenItembanken is een grote verzameling van gemakkelijk toegankelijke testvragen, elk voorzien van informatie.  De 

combinatie itembank – item­responstheorie is ‘moderne complex’. De combinatie standaardtest en klassieke testtheorie is ‘klassieke complex’.

Reden waarom itembank samengaat met item­reponstheorie is de populatie­onafhankelijheid vna metingen. Mogelijk om alle items uit een bank op dezelfde schaal af te beelden, mits de gehele itembank kan worden beschreven met een item­responsmodel.

Calibreren = afbeelden van een verzameling items op een schaal en het daarbij toekennen van meetwaardenEquivaleren van itemkenmerken = het afbeelden van gecalibreerde items die afkomstig zijn uit verschillende tests 

die alle hetzelfde psychologische begrip meten.Zodra alle items in een bank beschreven worden m.b.v. een item­responsmodel, en zijn de itemkenmerken 

geschat, dan maakt het niet uit welke items we ene persoon voorleggen.  ­Ѳ schaal wordt geschat. De nauwkeurigheid of betrouwbaarheid van die schatting is wel afhankelijk vna de geburikte items.

Opbouwen van een itembank:• bescheiden aantal items voorleggen aan personen. Gegevens verzamelen• Berekeningen: of item­reponsmodel en testgegevens passen; zo ja, dan schatten van item­ en 

persoonskenmerken.• Regelmatig nieuwe items, regelmatig tussentijdse berekeningen, dus steeds meer bekend over kwaliteit 

van de items.Opslaan van items in de itembank:

• Twee klassificatiemethodeno naar onderwerp op plaats in curriculum (bv optellen/vermenigvuldigen, onder/boven 100, enz)o item krijgt een of meer sleutelwoorden. Tweede systeem kent grotere flexibliteit, want nieuwe 

categorien mogelijk.• Naast inhoudelijke kenmerken ook technische info, zoals moeilijheid, discriminerend vermogen, 

pseudokansniveau. antwoordfrequentie, info over mogelijke afwijzing, kruisverwijzingen, enz.

Page 31: 1 Historische ontwikkeling van het testen

Testconstructie op basis van een itembankAfhankelijk van het doel kunnen we slimme keuzes maken uit de items. Er zullen vaak aanvullende testeisen 

gelden, zoals testtijd, aantal items, onderwerpsamenstelling. Wanneer we willen weten wie geslaagd en wie gezakt is, zal de test nauwkeuriger meten rond de 

cesuur/aftestgrens. De testconstructeur maakt een doelinformatiefunctie. De som van de iteminformatiefunctie is gelijk aan de testinformatiefunctie. Daardoor kan uit efficientieoverwegingen de kleinst mogelijke deelverzameling van items uit de itembank geselecteerd worden (waarvan de testinformatiefunctie tenminste even groot is als de doelinformatiefunctie).

Doelinformatiefunctie is ook te gebruiken om de test te veranderen in een gewenste richting

Adaptieve tests• Grote itembank met itemparameters, met tussentijdse schattingen van de persoonsparameter• scores op items moeten kunnen worden beschreven met een item­reponsmodel. Diverse problemen:

o strenge eigen van item­reponsmodelo testconstructeurs gaan uit van een inhoudelijk brede test, met alle aspecten van de te meten 

eigenschap, zodat de test valide is. Item­reponsmodellen veronderstellen één aspect• Na initiele schatting van  ­Ѳ waarde: keuze van volgende items zo dicht mogelijk bij de moeilijkheid van 

deze waarde: meest discriminerende item (en indien drie­parametermodel, ook pseudokansniveau)Adaptieve test kan vereenvoudigd door steeds 2 of meer items voor elke berekening te doen. Varianten:

• ‘two­stage testing’: dezelfde korte test, en voor 2e stadium liggen diverse tests van uiteenlopend moeilijkheidsniveau klaar.

• ‘multi­stage testing’: tussen 2­stage en adaptief testen.Adaptief testen heeft voordelen:

• Nauwkeurige meting• respondenten krijgen tests die op hun niveau zijn afgestemd. Voorkomt concentratieverlies• adaptieve testprocedure is geautomatiseerd en daardoor objectief• testtijd is relatief kort• snelle terugkoppeling van resultaten• testprestaties van verschillende tests kunnen met elkaar worden vergeleken.

Maar toch:• Item­responsmodellen leggen vele restricties op aan de testgegevens• hoge kosten voor ontwikkeling van itembank en adaptief testsysteem• operationalisering van psychologische begrippen en constructie van items zijn bepalend voor itembank. 

Theorien daaronder zijn vaak onvoldoende scherp. Empirische toetsing laat dan zien dat het item­responsmodel niet past en daarom niet populatie­onafhankelijk is, en daarmee vervallen voordelen.

o In onderwijs laat eendimensionaliteit zich niet gemakkelijk combineren met heterogeniteit van meeste itembanken. De meeste eigenschappen zijn inhoudelijk heterogener dan item­responsmodellen veronderstellen

o Vooral bij persoonlijkheids­ en attitudemeting: het aantal benodigde items is moeilijk te halen (al moeilijk om een paar te definieren)

Hoe erg is het dat het item­responsmodel niet altijd past bij de gegevens; welke mate van discrepantie is toegestaan?

VraagonzuiverheidTests worden soms gebruikt in populaties waarvoor ze niet bedoeld zijn. In hoeverre is dit toch gerechtvaardigd? 

Dit is het onderzoek naar vraagonzuiverheid of vraagpartijdigheid (item­bias of ‘differential item functioning’)Sommige items zijn meer in het nadeel van de ene groep dan van de andere, bv want sommige items doen ook 

een beroep op niet­bedoelde eigenschappen. Partijdigheid van items is ongewenst.Vraagonzuiverheid:  de item­responsfunctie van een item in beide/verschillende populaties verschillen.  (Bij een 

zuiver items is de item­responsfunctie in beide populaties identiek). Verborgen meerdimensionaliteit.

Page 32: 1 Historische ontwikkeling van het testen

Voor onderzoek naar vraagonzuiverheid zijn diverse methode voorgesteld. Sommigen vergelijken itemkenmerken. Als de item­responsfunctie van een item in beide groepen identiek, dan zijn moeilijkheid, discrimineren vermogen en pseudokansniveau in beide groepen gelijk

• Item­reponsfuncties kunnen verschillen in moeilijkheid, maar gelijk zijn in discriminerend vermogen en pseudokansniveau. De richting van de partijdigheid is dus steeds dezelfde en daardoor tegen alle leden van een specifieke groep gericht.

• Discriminerend vermogen van items verschilt in beide groepen, waardoor item­reponsfuncties elkaar snijden.

• Bij oppervlakberekeningen (opp tussen twee item­responsfuncties): hoe groter dit oppervlak, des te sterker de onzuiverheid.

Het lastigste deel van het onderzoek naar vraagonzuiverheid is het geven van een inhoudelijke verklaring voor statistisch gebleken onzuiverheid. Drie strategieën voor het onderzoek:

1. inspectie van partijdige items naar opvallende kenmerken. 2. verband leggen tussen eigenschappen van personen enerzijds en kritische kenmerken van partijdige 

items in vergelijking met onpartijdige items anderzijds. Bv beheersing van nl­taal voor Turkse en Marokkaanse leerlingen moeilijk. Dus als veel uitleg in vragen zit, dan zijn zij op achterstand

3. experimentele onderzoek naar de oorzaken van vraagonzuiverheid: moeilijke woorden vervangen door gemakkelijke.

Afwijkende patronen van itemscoresSoms wijken enkele individuen af van andere uit dezelfde populatie, wat niet logisch is uit hun  ­Ѳ waarde en 

itemkenmerken. Mogelijke patronen:1. Afwijkend gedrag op studietoetsen. Slecht op niet voorbereide leerlingen maken ook op gemakkelijke 

items regelmatig een fout. Of bedrog of fraude.2. Scores voor afwijkendheid voegen toe aan de voorspelling van bv examencijfers3. onderzoek naar deelvaardigheden laten mogelijk een bepaald type denkfout zien.4. personen met weinig ervaring met invullen van formulier, kunnen vraag overslaan, maar vergeten een 

vakje over te slaan.Alle methoden hebben gemaan dat de kans op een patroon van itemscores wordt berekend gegeven iemands meetwaarde en de kenmerken van alle items in de test,  en de kans wordt vergeleken met de verwachte kan.

• Recente aanpak gaat uit van persoon­responsfunctie. Die toont zich ale een dalende lijn.Volgens patroon 1 is deze lijn vlak en laagVolgens patroon van testangst, is deze lijn eerst laag en daarna normaalVolgens patroon van ‘bedrog’ is de lijn eerst normaal en aan het eind hoog

• Emons: mogelijkheden om afwijkingen van deze functie statistisch te meten. Ook de wenselijkheid om zo veel mogelijk aanvullende informatie bij de beslissingen over afwijkendheid te betrekken. Overeenkomst met het onderzoek naar vraagonzuiverheid: statistisch gebleken afwijkendheid dient inhoudelijk­psychologisch te worden verklaard.

• Onderzoek naar afwijkende patronen als complement onderzoek naar vraagonzuiverheid. Nulhypothese van zuiverheid: personen uit verschillende groepen, maar met dezelfde  ­waarde, patronen vanѲ  itemscores generenen (die plausibel zijn). Bij verwerpen, dan item onzuiver of persoon afwijkend.

7.5 Tot besluit enkele speciale onderwerpen

Item­responstheorie voor polytoom gescoorde itemsDit zijn rating­scale items (van toepassing … niet van toepassing).De kans op een specifieke itemscore wordt dus voor iedere score apart gemodelleerd. Er is een locatie op de  ­Ѳschaal waarvoor de kans op score 1 het grootst is, een hogere waar kans op score 2 het grootst is, enz. Elke itemscore bij elke  ­Ѳ waarde heeft een positieve kans, maar die kansen verschillen, zodat per  ­Ѳ waarde meestal één score het meest waarschijnlijk is.De som van de kansen per  ­waarde is gelijk aan 1. Daarom zijn de item­responsmodellen voor polytome itemsѲ  zoveel ingewikkelder. Passen van een model bij de gegevens en het scatten van de itemkenmerken zijn lastiger.

Page 33: 1 Historische ontwikkeling van het testen

Vergelijking klassieke testtheorie en item­responstheorieElkaars tegenvoeters, maar eerder aanvullend dan uitsluitend.Voordelen van item­responstheorie:

• item­responsmodellen kunnen als nulhypothese. Pas een model bij de gegevens, dan gelden, bij implicatie, de iegenschappen van het model voor de gegevens. Alle items in de test meten dan dezelfde eigenschap.

• Personen de met verschillende test zijn gemeten, kunnen op dezelfde schaal worden afgebeeld.• betrouwbaarheid van de meting varieert over de schaal. Kan blijken dat de test geschikter is voor de ene 

persoon dan voor de anderIn klassieke testtheorie: passen van het model op de gegevens kan niet goed worden onderzocht, zijn metingen populatie­afhankelijk en wordt de betrouwbaarheid overal op de schaal evengroot verondersteld.Met item­responstheorie zijn nieuwe/geavanceerde toepassingen mogelijk: equivalering van metwaarden, constructie van tests o.b.v. itembank, adaptieve testprocedures, onderzoek naar vraagonzuiverheid en het onderzoek naar afwijkende scorepatronen.Voordelen van klassieke testtheorie zijn meer praktisch:

• eenvoudiger, toegankelijker• het is maar de vraag of de validiteit van de test zoveel minder is.• klassieke testtheiroe ‘werkt’ bij de testconstructie bijna altijd. Item­restcorrelaties gebruiken om evt items 

weg te laten.Let op: meeste vooronderstellingen van de klassieke testtheorie lenen zich niet voor empirische controle.Cito en veel onderwijskundig onderzoek in VS is volgens item­responstheorie. In VS is de populariteit van item­respons ontstaan door justitiele druk.

Rol van item­responstheorie in de psychologische theorievormingIs statistisch gebleken dat er sprake is van onzuiverheid of afwijkendheid, dan is een psychologische verklaring nodig. En vv: ook een psychologische verklaring wordt gezocht voor de totstandkoming vna de testprestatie. Zo krijgen we inzicht hoe testprestaties tot stand komen en welke deelvaardigheden moeilijkheden kunnen opleveren bij het oplossen van problemen.

Page 34: 1 Historische ontwikkeling van het testen

Modellen t.o.v. elkaarModel: Rasch (één­parameter) Birnbaum (2­parameter) Drie­parameter logistisch 

modelMokken: monotone homogeniteit

Mokken: dubbele monotonie

Schaal: Interval­/verschil­/rationiveau

Interval­/verschil­/rationiveau

Interval­/verschil­/rationiveau

Ordening (ordinaal) Ordening (ordinaal)

Ѳ

Schaaltransformatie op Ѳ  + bѲ b  + aѲ

δ variërend variërend variërend variërend VariërendSchaaltransformatie op δ  + bδ B  + aδ

α Overal gelijk variërend variërend variërend VariërendSchaaltransformatie op α ? /bα

Уg (vrijwel) nul (vrijwel) nul Varierend  Varierend  ?Populatie­onafhan­kelijkheid (van personen): 

Ja, maar wel afh van varierende itempar ( )δ

Ja, maar wel afh van varierende itempar (  enδ  

Ja, maar wel afh van varierende itempar (  enδ  

 en Уα g)

Ja, maar wel afh van varierende itempar (  enδ  

 en Уα g)

Ja, maar wel afh van varierende itempar (  enδ  

 en Уα g)Populatie­onafhankelijk­heid van items

Ja Nee (want afh van  )α nee nee Ja (want grafieken snijden elkaar niet)

Afbeelden: personen en items op:

dezelfde schaal dezelfde schaal dezelfde schaal verschillende  schaal verschillende  schaal

Vorm van IRF Niet­snijdende, parallelle functies

Snijdende functies Snijdend Snijdend en grillige vorm Niet­snijdende niet­parallelle, grillige vorm

Allen:• Vorm van irt: x­as: moeilijkheid ( ), y­as: succeskans.   Succeskans = P(Xδ g=1| ). Succeskans = Ѳ de kans op een goed antwoord op een item bij een gegeven 

meetwaarde ( ). Ѳ De succeskans is een wiskundige functie (vorm irt) van  ,  ,  , en УѲ δ α g

• Schaaleigenschappen van het specifieke irm: ‘meten bij implicatie’.• Populatieonafhankelijkheid =  ­waarden zijn onafhankelijk van de moeilijkheden. Dus (als IRTmodel voldoet) voor willekeurige deelpopulatie dezelfde meetwaarden,Ѳ  

ongeacht welke deelpopulatie­items aan de personen wordt voorgelegd.Let op: moeilijkheidsparameters kunnen niet populatie­onafhankelijk gemeten worden (

Page 35: 1 Historische ontwikkeling van het testen

8 Validiteit en betekenisVoor een goede validiteit is een hoge betrouwbaarheid nodig, maar een betrouwbare test is niet perse valide. Betrouwbaarheid: in hoeverre een testscore herhaalbaar is onder gelijkblijvende condities. Dus meetfout in 

testscore is klein.Test is valide als hij aan zijn doel beantwoordt, dus bv correct een bepaalde psychologische eigenschap 

representeerd.

8.1 Het begrip validiteitDe mate waarin de test aan zijn doel beantwoordt.Validiteit heeft betrekking op de vraag of die sprong van het testgedrag naar iets anders verantwoord is. 

Valideringsproces = verzamelen van bewijs dat deze sprong gerechtvaardigd is. Validiteit = mate waarin die rechtvaardiging is gevonden.

De vraag naar validiteit kan betrekking hebben op ieder proces van concluderen tot andere dan waargenomen feiten of gebeurtenissen. Geneeskunde: in hoeverre zegt bloeddruk iets over een mogelijke hartkwaal. Intelligentiescore: in hoeverre zegt deze iets over leervermogen of geschiktheid voor een opleiding. Twee mogelijkheden:

1 Test als voorspeller van ander gedragOver feiten waarvoor we geen directe evidentie hebben. Feiten kunnen in de toekomst liggen (predictie), heden (paradictie) of verleden (postdictie).Enige relativering over de mogelijkheid van correcte voorspellingen:

1. aantoonbare relatie tussen de begrippen (bv) intelligentiescore en schoolsucces2. zinvolle operationalisering van intelligentie/schoolsucces

2 De test als operationalisering van een psychologisch begripCapaciteit, persoonlijkheidstrek of attitude, die verantwoordelijk geacht mag worden voor de testscore of het testresultaat. Gebruik van hypothetische begrippen en meting daarvan.Enige relativering: ook relaties met operationaliseringen van andere psychologische begrippen worden in de beschouwing betrokken.

Predictieve validiteit en begripsvaliditeitPredictief: voorspellend. Begrips: meten van de eigenschap.Alle gebruik van de psychologische test van onder één van deze twee. Daarom alle variëteiten binnen beide soorten.Het onderscheid is niet altijd duidelijk en noodzakelijk. Toch afzonderlijke behandeling, want voor onderwijs en personeelspsychologie is vooral voorspellend gewenst. Daar komen methodologische overwegingen en principes bij die minder kenmerkend zijn voor begripsvalidering.

8.3 Enkele andere onderscheidingen in validiteit

Vier belangrijke soorten validiteit   Uit American Psychological AssociationPredictive validity

= welke mate de voorspellingen, gedaan o.b.v. testprestatie, worden bevestigd door gegevens of observaties verzameld op een later tijdstip.Dus temporeel.Verschil met predictieve valitieit: breder van niet gebonden aan toekomst.

Concurrent validity= hoezeer de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Bv valideren door vergelijking met gelijktijdige prestatiebeoordelingen. Gevaar is dat de resultaten zomaar gegeneraliseerd worden naar ‘predictive’.

Content validity

Page 36: 1 Historische ontwikkeling van het testen

inhoudsvaliditeit = hoezeer de inhoud van de test een geheel van situaties, kenisinhouden of vaardigheden representeert. Vooral in onderwijskunde: taken of kennisinhouden waaruit de test een steekproef vormt.

Inhoudsvaliditeit is dus een indicatie van de mate waarin test of toets het domein van mogelijke items representeert.

Vaak vastgesteld door deskundigen te vragen, maar dit is niet objectief of absoluut.Bezwaar tegen begrip inhoudsvaliditeit is dat empirisch onderzoek vaak ontbreekt. Het vaststellen van inhoudsvaliditeit is dus vooral een kwestie van oordelen, waarbij subjectiviteit 

enigszins kan worden gecontroleerd door meerdere beoordelaars te gebruiken.Formele definitie van inhoudsvaliditeit: sterkte van samenhang tussen de testscore en de totaalscore op 

het gehele itemdomein. Dus: het bepalen van de samenhang tussen de scores op twee tests die verondersteld worden equivalent te zijn. Betrouwbaarheidsschatting is dan op te vatten als een schatting van de inhoudsvaliditeit. Mogelijk dat beide tests niet representatief zijn

Construct validityTot 1955 geen aandacht voor echt wetenschappelijke gedachtegang.De construct validity: door onderzoeken welke psychologische eigenschappen door de test worden gemeten. Drie onderdelen:

• Uitvinden welke eigenschappen een verklaring zouden kunnen geven van de testprestatie (=> verbeeldingskracht o.b.v. observatie en logische bestudering van de test)

• afleiden van toetsbare hypothesen uit de theorie die het ‘construct’ verklaart (=> logisch)• empirisch onderzoek om hypothesen te onderzoeken (=> methodologisch)

Constructvaliditeit komt in de buurt van ‘betekenisanalyse’, maar is breder. Begrips(/betekenis)validering: vragen beantwoorden door gericht, confirmatief onderzoek naar de relatie tussen de testscore en andere operationeliseringen van hetzelfde beoogde begrip. Exploratieve vraag naar betekenis van de test valt buiten begripsvalidering.

Andere onderscheidingen in het begrip validiteitSynthetische validiteit

Voor praktische toepassing van tests in de selectie­ en beroepskeuzepsychologie. Richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criteriumgedrag. Bv i.p.v. ‘leidinggeven’ richten op ‘doelgerichtheid’, ‘vriendelijkheid’, enz.Hiermee wordt probleem opgelost dat voor een complexe functie vaak te weinig proefpersonen zijn voor validering. Door elementen wordt voorspelling gesynthetiseerd: stap in richting van begripsvalidering

Congruent validity= ‘soortgenootvaliditeit’. De mate waarin de test correleert met een andere test, waarvan wordt aangenomen dat die dezelfde eigenschap meet. Dus onderdeel van proces van begripsvalidering

Face validityook wel: indrukvaliditeit. = de relatie tussen test en criterium, gemeten naar de subjectieve indruk van leek of psycholoog. Kan gevaarlijk zijn. Is obstakel voor werkelijk validiteitsonderzoek. Indrukvaliditeit lijkt op begrip ‘transparantheid’ van test. Transparantheid = conditie voor acceptatie van een test. Dus eerder een wenselijke dan noodzakelijke eigenschap

Incremental validity= verbetering van de voorspelling m.b.v. een test t.o.v. voorspellingen die kunnen worden gedaan o.b.v. reeds aanwezige informatie. Voorbeeld van aanwezige info: levensloopgeschiedenis, vooropleidingen.

8.3 Predictieve validiteitHoe goed is criterium te voorspellen: voor toekomst, heden of verleden. Voor predictieve validiteit is representatieve steekproef nodig om testgegevens en criteriumgegevens te verzamelen. Alle bevindingen in een puntenwolk geeft vaak een rechte lijn     Y = a + bX    Bepaling van de lineaire benadering door regressieanalyse

Nadere bepaling van het criteriumbegripCriterium: uiteindelijk (‘ultimate’), tussentijds (‘intermediate’) en onmiddellijk (‘immediate’).

Page 37: 1 Historische ontwikkeling van het testen

Twee problemen bij deze driedeling:• Probleem tijd: uiteindelijk criterium kan ver in de tijd verwijderd zijn, terwijl tussentijds/onmiddellijk 

dichterbij liggen.• Probleem van de beschikbaarheid van het criterium: kan het geoperationaliseerd worden en 

gekwantificeerd worden?Doel van organisatie (niet psychologisch, bv groei) is uitgangspunt

• conceptuele criterium = concretisering van het uiteindelijke organisatiedoel in termen van zichtbare resultaten. Laagste niveau van abstractie. (bv sociale aangepastheid, vaardigheden of arbeidsprestaties)

• Criteriummaat = expliciete, ondubbelzinnige uitspraken of scores die betrekking hebben op criteriumgedrag of –prestatie. Criteriumgedrag of –prestatie is waarneembaar en registreerbaar. Bv  bij sociale aangepastheid: als criteriumgedrag ‘zelfbeoordeling, beoordeling door behandelend arts, acceptatie groepsleden. Criteriummaat is dan de score op een psychiatrische beoordelingsschaal en/of het aantal malen dat patiënt in sociogram wordt gekozen.

Het meten van criterium voldoet aan dezelfde eisen van betrouwbaarheid en validiteit.De relatie tussen criteriumgedrag (of –scores) en het erachter liggende conceptuele criterium (en uiteindelijke 

doel) is niet voor empirisch onderzoek toegankelijk, dus moet rationeel beoordeeld worden.In de praktijk wil men ook weten wat de relatie is tussen twee criteriummaten. Deze blijkt nogal eens zwak.Wie is verantwoordelijk voor de keuze van het conceptuele criterium? Opdrachtgever. Psycholoog adviseert.

Opzet van een test of testbatterij met predictieve validiteitHet proces van het kiezen van tests, de samenstelling van een testbatterij en de bepaling van predictieve validiteit. Zes fasen:Fase 1: Operationalisering van het criterium

In een zo exact mogelijke criteriummaatFase 2: Keuze en constructie van tests

De keuze kan in meer of mindere mate gebaseerd zijn op een psychologische analyse van het criteriumgedrag en van de eisen die daarin gesteld worden.

Fase 3: Proefafneming van bestaande of nieuwe testsBij een bestaande test is een proefafneming alleen nodig als de populatie afwijktPopulatie en steekproef:

Aangezien betrouwbaarheid en validiteit wel gevoelig zijn voor variatie in de spreiding, maar niet voor variatie in het gemiddelde van de testscores, zijn afwijkingen tussen steekproef en populatie qua gemiddelde minder erg dan qua spreiding.Representativiteit van de steekproef => gestratificeerde steekproef.Steekproeven zijn vaak niet representatief wat betreft leeftijd, en daarmee worden belangrijke ontwikkelingsaspecten genegeerdOnderscheid tussen vooronderzoek en hoofdonderzoek: vooronderzoek is de grove zeef, kan volstaan met kleine, niet representatieve steekproef. Wel handig om juist de extreme gevallen in het vooronderzoek mee te nemen.

Itemanalyse:Indien test nog moeten worden geconstrueerd, dan in vooronderzoek ook verzamelen van informatie voor een itemanalyse.Een homogene test verkrijgt men door 

• factoranalyse op de scores. Met factoranalyse worden items die onderling hoog correleren in groepen ‘bij elkaar genomen’: deze items meten bv dezelfde eigenschap

• dat de onderzoeker zelf items rechtstreeks in dezelfde test selecteert op basis van hun onderlinge correlaties of hoge item­restcorrelaties.

Aan het eind van deze fase is de test in zijn definitieve vorm samengesteld.Fase 4: Validatie van de testprocedure

Vergelijking met gelijktijdig criterium (concurrent) zal niet veel tijd vergen. Bij een in de toekomst liggend criterium kan het jaren duren. In plaats daarvan wordt vaak een gelijktijdig criterium gebruikt. Dit is niet 

Page 38: 1 Historische ontwikkeling van het testen

altijd terecht. Bv in een experimentele situatie is er niet dezelfde motivatie en inzet als in een echte sollicitatie.  Ook aan het ideale onderzoek, waarbij gewacht wordt, zijn bezwaren verbonden:

• lange duur, dus erg kostbaar• lange duur, dus van hoeveel proefpersonen zullen de criteriumscores ter beschikking komen? 

Vaak de extremen niet, dus variatiebeperking. Hierdoor zou zowel de betrouwbaarheid als validiteit te laag worden ingeschat. Er zijn correctiemethoden waarmee validiteit wordt teruggeschat

• testuitslagen kunnen bij een latere beoordelaar bekend raken (‘zie je wel’): testscore en criteriumscore zijn niet meer onafhankelijk: contaminatie van het criterium. In zo’n geval valt de correlatie tussen test­ en criteriumscore kunstmatig hoog uit.

Vaststellen van de validiteit:Correlatie tussen testscore en criteriumscore is een aanduiding van de validiteit: validiteitscoefficient. Door product­momentcorrelatie te nemen, wordt aangenomen dat deze een rechte lijn benadert. Vaak wel, niet altijd. Twee bekende uitzonderingsgevallen:

• kromlijnige relatie. Bv tussen motivatie en prestatie: hogere motivatie geeft betere prestatie, maar een te sterke motivatie geeft zoveel spanning dat dit negatief werkt op prestatie

• heteroscedastische relatie: naarmate X toeneemt, neemt de spreiding van waarde van Y toe. Bv intelligentie (X) en studieprestatie (Y)

Vele relaties zijn niet perfect homoscedastisch: onderzoeken en niet kritiekloos gebruiken van product­momentcorrelatie:

• Tests soms nuttig als ‘suppressor’variabele. (Komt niet veel voor in praktijk).X correleert met Y, en X2 niet met Y, maar wel met X1. X2 is suppressor, omdat hij het niet­relevante deel van X1 bij de voorspelling van Y onderdrukt.Y = a + b1X1 – b2X2

Voorbeeld: taalvaardigheid is voor technisch beroep niet van belang, wel rekenvaardigheid.

• Testscores kunnen functioneren als moderatorvariabelen. Bv een testscore correleert wel voor mannen met Y maar niet voor vrouwen. Sekse is dan een moderatorvariabele. Voorbeeld: rol van motivatie in de relatie tussen intelligentiescores (X) en schoolprestaties (Y). In valideringsonderzoek kan het zeer de moeite waard zijn met moderatoren rekening te houden. Zij maken duidelijk dat tests soms maar in een beperkt aantal deelgroepen uit een populatie bruikbaar zijn om een criterium te voorspellen.

• Twee variabelen correleren elk met Y, maar hun interactie­effect ook: ‘moderated regression’.

Fase 5: Samenstelling van de predictorbatterijTests worden gecombineerd in een maximaal voorspellende testbatterij. Een veelgebruikte statistische methode is multipele of meervoudige regressie­analyse:Y = a + b1X1 + b2X2 + … + bmXm

Ideaal is een batterij van tests, die onderling laag correleren en alle hoog met Y correleren, dus alle ene uniek aspect van Y verklaren.Het succes van de gehele testbatterij wordt uitgedrukt in de multipele correlatie. Er bestaan ook andere methoden voor de combinatie van predictoren: multivariate analyse, zoals profielanalyse, discriminantanalyse en multidimensionale schaaltechnieken.

Fase 6: Kruisvalidering‘Cross validation’ = het statistische voorspellingsmodel o.b.v. steekproefgegevens wordt gecontroleerd op een nieuwe, representatieve steekproef van proefpersonen. Reden voor deze controle: veel trial­and­error. En als men veel modellen probeert, stapelen die fouten op (kanskapitalisatie). Dus voorkomen dat je veel modellen probeert, door uit te gaan van een theorie of rationele analyse. Kanskapitalisatie controleren door

• nieuwe steekproef uit de populatie te trekken => duur en tijdrovend

Page 39: 1 Historische ontwikkeling van het testen

• steekproef aselect te splitsen. Dan de kansrijke modellen van de ene deelsteekproef vergelijken met de ander. Als er weinig kanskapitalisatie is, zullen correlaties weinig verschillen.

Kruisvalidering is van groot belang in vrijwel elk onderzoek, waarin een effect of een relatie wordt geschat. Daarom is het zorgelijk dat het zo weinig gebeurt.

Differentiatie in het criteriumonderzoekResultaten van het empirisch valideringsonderzoek zijn over het algemeen niet zo rooskleurig: validiteitcoefficienten van ong 0.3 en 0.4.Tests met geringe validiteit leveren soms toch nog een zinvolle bijdrage aan de beslissing, vooral die test die een beroep doen op unieke eigenschappen. Waarom zijn veel validiteitscoefficienten zo laag? Vijf redenen:

1. Geringe betrouwbaarheid van het criteriumEr is meestal minder aandacht voor de constructie van een betrouwbare criteriummaat. Schoolcijfers, bedrijfsbeoordelingen, psychiatrische classificaties zijn vaak onvoldoende betrouwbaar.

2. Miskenning van een niet­lineaire relatie tussen predictor en criterium.Verleidelijk om een rechtlijnige relatie aan te nemen, die ook overal even sterk is (lineariteit en  homoscedasticiteit). Want dit maakt toepassing van standaard­statistische methoden mogelijk (en product­momentcorrelatie voor de sterkte van de relatie).Eenvoudig te onderzoeken: ‘scatter plot’.

3. Negeren van de complexe samenstelling van groepenDe relatie tussen predictor en criterium kan verschillen voor deelgroepen. Dus: juiste covariaten of moderatorvariabelen vinden

4. Negeren van de variabele betekenis van het criterium in verschillende organisaties.Bv type functie ‘verpleger’ is voor verpleeghuis en verzorgingshuis verschillend. Dus zal criterium ‘beroepssucces’ ook verschillend zijn.

5. Onterechte vereenvoudiging van het criteriumDus meer gedifferentieerde benadering nodig:

a. begrippen op zorgvuldige wijze operationaliseren en metenb. criteriumgedrag: niet zonder meer generaliseerbaar in de tijd. Mensen ontwikkelen.

ValiditeitsgeneralisatieIn hoeverre zijn tests en functies inwisselbaar, dus in hoeverre hebben we met dezelfde voorspellingssituatie te 

maken. Zo ja: dan geen nieuw valideringsonderzoek.Men gaat er van oudsher uit dat predictieve validiteit varieert over wisselende combinaties van voorspellende test 

en te voorspellen criterium.Schmidt en Hunter stellen een methode voor waarbij de vragen worden beantwoord:

Voor alle combinaties van een specifieke test en gedragingen in een specifieke functie worden validiteitscoefficienten verzameld. Deze worden opgevat als waarden en omgezet naar standaardeviatie. Deze geeft de variatie in gevolden validiteitscoefficienten weer.De standaardeviatie wordt gecorrigeerd voor deze veronderstelde methodologische fouten: steekproeffouten, onbetrouwbaarheid van predictoren en criteria en beperking van de vaiatiebreedte.Door nu te corrigeren voor dit soort effecten, wordt een meer realistische schatting van de validiteitscoefficient verkregen. Wanneer na correctie de resulterende standaarddeviatie van validiteitscoefficient gelijk is aan nul, dan betekent dit, dat de validiteit van de tests niet verschilt over deelsituaties.Uit onderzoek blijkt: de validiteitscoefficienten zijn vaak weinig situatiespecifiek, dus generalisatie is mogelijk over organisatie, geografische gebieden, functies en tijdvakken.

In hoeverre kan gebleken validiteit worden gegeneraliseerd? Effectiviteit = representatieve validiteit binnen een specifieke categorie van tests en functies.Schmidt concludeert o.b.v. empirisch onderzoek naar validatiegeneralisatie dat effectiviteit groot genoeg is en resterende variantie klein genoeg, om in 90 a 95% van de nieuwe toepassingen een positieve validiteit te verwachten. Zelfs voor tests voor cognitieve vaardigheden: geen situatiespecificiteit.

Page 40: 1 Historische ontwikkeling van het testen

Enkele punten van kritiek op de onderzoeksmethoden om generalisatie te onderzoeken:• ingewikkelde criteria als beroepssucces zijn op veel te eenvoudige manier gemeten. Slecht 

geoperationaliseerde criteria leidt tot te lage validiteiten met te weinig spreiding. Dus als wel goed was gemeten, zou de mogelijkheid van situatiespecificiteit niet verworpen worden

• correctie is vaak te groot

Beperkingen van predictieve validiteitLeidt statistische analyse na predictoren altijd tot inzicht (waarom een testbatterij het criterium goed voorspelt)?

Soms zijn verbanden van tests met criteria erg doorzichtig, soms helemaal niet.‘Construct validity’ / begripsvalidering  is onmisbaar voor testconstructie. Reden:

• blind toepassen van test omdat ‘deze werkt’  leidt niet tot inzicht.• blind afgaan op grootste correlaties impliceert dat men alle mogelijke predictoren moet onderzoeken. Dat 

is onbegonnen werk.• Er kan sprake zijn van een unieke situatie die nauwelijks in een criterium is vast te stellen (bv nieuwe 

functie). Indien er wel inzicht in psychologische betekenis van testgedrag is, dan kan in ieder geval enkele hypothesen worden geformuleerd.

• Psycholoog zal zonder theorie in de problemen komen, wanneer de onderzochte moet worden ‘beschreven’.

• Betekenisanalyse en begripsvaliditeit halen ‘het criterium’ van zijn voetstukConclusie: predictieve validiteit is onmisbaar voor de praktijk van voorspellen testgebruik,    maar voor wetenschappelijk inzicht én praktisch gebruik is begripsanalyse onmisbaar.

8.4 Betekenis en begripsvaliditeit

BegripsvalideringDe betekenisanalyse worden in dezelfde fasen doorlopen als die van theorievorming en toetsing van theorieën. 

1. Creatieve fase: trachten theorie te vinden of op te stellen. Hypothetisch2. Theorie bevestigen (is begripsvalidering) door concrete voorspelling te doen.

Van belang hierbij is:• 1e fase, creatief, wordt gezocht naar plausibele verklaringen• voorspelling moet ondubbelzinnig te onderzoeken zijn• nooit definitief te bewijzen of een test al dan niet ene bepaalde theoretische betekenis heeft• ook van belang is het om alternatieve hypothesen te kunnen verwerpen

Betekenisanalyse = het vinden van een theorie of theoretisch begrip als verklaring voor het testgedrag. Begripsanalyse = het empirisch bevestigen van deze verklaringBinnen begripsanalyse onderscheid tussen

• trekvalidering = in hoeverre testgedrag verklaard kan worden m.b.v. persoonelijkheidstrek of geschiktheid. Theorie is hierbij niet noodzakelijk

• Nomologische validering = testgedrag verklaren uit een psychologische theorie.Voordeel van inbedding van testgedrag in nomologisch netwerk is dat de betekenis in meer algemene psychologische termen kan worden begrepen.

De mogelijkheid om testgedrag te relateren aan nomologisch netwerk is groter naarmate de psychologie als wetenschap verder vordert en er meer nomologische netwerken ontstaan. Bv een test voor transitief redeneren is gebaseerd op 3 theorieën.

Nomologische validering is nog lang geen gemeengoed. Doorgaans alleen valideren op trekvaliditeit.Verschil tussen trekvaliditeit en nomologische validiteit is meer gradueel dan principieel. Vaak ontbreekt een 

theorie. Door toetsing van de theorie beoordelen we de test en door evaluatie van de test beoordelen en vormen we de theorie.Tests spelen in psychologische theorievorming vaak zelfs een dominante rol. Bv Standford­Binet­test voor intelligentie. Een testontwikkelaar begint ook nooit zomaar in vacuum, maar o.b.v. noties.

Page 41: 1 Historische ontwikkeling van het testen

Fase van begripsvalidering start, nadat een trek of nomologisch netwerk is gekozen als potentiele verklaring van het testgedrag. Start door formuleren van voorspellingen. De uitkomsten van de empirische toetsing leveren dan de basis voor de conclusies over de juistheid van deze potentiele verklaring

Twee soorten voorspellingen:• confirmerende validering = oorspronkelijke hypothese bevestigen• discriminante validering = alternatieve hypothesen verwerpen.Als voorbeeld ‘neurotische labiliteit’ in ABV­test. Zie boek blz 375.In dit voorbeeld begripsvalidering door correlationeel onderzoek. Kan ook met experimenteel onderzoek.

Betekenisanalyse: op zoek naar de betekenisOnderzoeker start vaak met vage vermoedens (soms met duidelijke en expliciete theoretische uitgangspunten). Twee manieren om het testgedrag te analyseren (en daarmee de testbetekenis):

• Structuuronderzoek.o psychologische analyse van de inhoud van de items. Proberen greep te krijgen op het 

oplossingsproces door hardop te laten denken, te interviewen, te observeren. Hieruit komen slechts veronderstellingen.

o analyse van formele kenmerken, zoals keuzeantwoorden/vrije antwoorden, mate van snelheidskarakter, onderzochte weet de bedoeling. Ook correlatie tussen testscores op twee verschillende tijdstippen.

• relatieonderzoek. Vier vormeno spreiding en normen.  In verschillende groepen bestudereno experimenteel onderzoek: voorleggen onder verschillende conditieso factoranalyse: explorerende methode om informatie die in groot aantal variabelen is vervat, 

samen te vatten in een geringer aantal (=factoren)Factor is een gewogen som van itemscores of testscores.  Indien correlaties of covarianties tussen testscores ongeveer nul is, zijn de tests onafhankelijk. Indien correlaties hoog, dan psychologisch veel overlap (dus dezelfde eigenschap). Werkelijkheid ligt tussen beide.Verschil tussen regressieanalyse en factoranalyse:

Regressieanalyse = gewichten worden zodanig gekozen, dat het criterium goed wordt voorspeld.Factoranalyse = gewichten zodanig gekozen, dat de informatie in te 

testscores zo goed mogelijk wordt samengevat.Drie soorten factoren:

algemene: waarmee vrijwel alle tests samenhangen groepsfactoren: kleiner gedeelte van de tests vertegenwoordigd specifieke factoren: één test of slechts enkele items.

Factoranalyse is dus handig voor exploratie vna de betekenis van de test: met welke factoren hoog correleren, en met welke laag. O.b.v. psychologische interpretatie wordt de betekenis verduidelijkt. Bv RAKIT: factoranalyse geeft performale intelligentie (fluid intelligence) en verbale intelligentie (crystallized intelligence).In de praktijk is waarde van factoranalyse overtrokken. Want resultaat is afhankelijk van voorwaarden en uitgangspunten als:

soort en hoeveelheid van de variabelen die men in de analyse opneemt. de steekproef waarop de analyse is uitgevoerd. Naarmate meer variaties zijn er 

hogere correlaties tussen testscores. De structuur van factoren wordt daardoor scherper

Enkele wiskundige en technische vooronderstellingen, die vaak een sterk arbitrair karakter hebben

interpretatie van de resultaten van factoranalyse: subjectieve inhoudsanalyseo Wat kan de test voorspellen?

Wisselwerking tussen betekenisanalyse en predictieve validiteit. Voorspellingen geven aanleiding tot zinvolle veronderstellingen over de testbetekenis.

Page 42: 1 Historische ontwikkeling van het testen

Zowel structuuronderzoek als relatieonderzoek dragen bij tot voorlopige formulering van een antwoord op de betekenisvraag. Verbeelding en systematische analyse dienen gecombineerd.

Alternatieve verklaringenEen test die wordt verondersteld eigenschap A te eten, mag geen relatie vertonen met tests of variabelen die 

eigenschap B meten, waarvan wordt verondersteld dat deze niet met eigenschap A samenhangt. Lage correlatie tussen een test en eigenschap B is even belangrijk en bemoedigend dan de correlatie met eigenschap A.

De waarde van het verwerpen van alternatieve verklaringen is niet steeds even groot. Hangt af van:• precisie van de experimentele opzet. Een onjuiste of slordige opzet kan ten onrechte een alternatieve 

verklaring verwerpen• plausibiliteit van de alternatieve verklaring

Het is zinvol om een aantal alternatieven als routine te controleren:1. Samenhang met intelligentie. Bv F­schaal voor autoritaire instellingen. Deze hangt negatief samen met 

intelligentie, en daardoor natuurlijk ook negatief samen met andere2. sociale wenselijkheid als onbedoelde eigenschap

Vooral bij persoonlijkheidsvragenlijsten. Wanneer een test in sterke mate sociale wenselijkheid meet, kan worden gesteld dat de test niet goed functioneert. Onderscheid:

a. individuele sociale wenselijkheid (ofwel: test attitude of test­taking attitude). Te onderzoeken door te vragen, of niet­anoniem met wel­anoniem te vergelijken

b. algemene sociale wenselijkheid. Te onderzoeken door proefpersonen de sociale wenselijkheid van antwoorden te laten beoordelen en een algemene sociale­wenselijkheidssleutel te construeren.

Neiging van sociaal wenselijke antwoorden is toch praktisch bruikbaar. De reductie van sociale wenselijkheid wordt bevorderd door een grotere subtiliteit van de opzet van de vragenlijst en de procedure van afneming.

3. Antwoordtendenties: neiging tot consistent keuzepatroon4. Instemtendentie (‘acquiescence­set’): instemmen met de richting van de vraag5. Positievoorkeur: bv voorkeur voor neutrale middenpositie, of voor 3e antwoord bij 4­keuze6. Semantische interpretatie: ‘altijd’, ‘soms’,  enz.7. sequentietendentie: verdeling over keuzemogelijkheden, bv even vaak ja en nee8. snelheidtendentie versus precisietendentie: nadruk op snelheid en kwantiteit of juist kwaliteit9. uitvoerigheidtendentie (‘inclusiveness’), vooral bij vrije­antwoordentests10. gistendentie11. voorkeur voor formele kenmerken, bv neiging voor het langste antwoord te kiezen, of opties met 

vreemde, technische of wetenschappelijke termen.

8.5 Nogmaals betrouwbaarheid en validiteitBetrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor: 

• de betrouwbare testscore uit de klassieke testtheorie• de persoonsparameter uit de item­responstheorie

Een lage betrouwbaarheid houdt in dat de test wel de eigenschap meet, maar dit doet met veel ruis

Multitrek­multimethodebenadering   van Campbell en Fiske:methode voor evaluatie van tests: 

• onderscheid in betrouwbaarheid en validiteit, • verschil in confirmerende en discriminante validiteit, • verband met methodevariantie en trekvariantie

Iedere test is een ‘trek­methode­eenheid, en de variantie van de testscore wordt bepaald door zowel variantie in de gemeten trek/eigenschap als in de methode/test

Methode I Methode II Methode III

Page 43: 1 Historische ontwikkeling van het testen

trek A B C A B C A BMeth. IA

b

B m bC m m bMeth. IIA

v d d b

B v d m bC v m m bMeth. IIIA

v v d d b

B v v d m bC v d v m m

b­waarden: monotrek­monomethode­overlap: betrouwbaarheidv­waarden: monotrek­heteromethode­overlap: confirmerende validteitm­waarden: heterotrek­monomethode­overlap: methodevariantied­waarden (of blanko): heterotrek­heteromethode­overlap

Vier overwegingen:• v­waarden moeten significant van nul afwijken en voldoende hoog zijn om verder werken met de test te 

rechtvaardigen.• v­waarden moeten hoger zijn dan d­waarden• v­waarden moeten hoger zijn dan m­waarden• In de m­driehoeken en d­driehoeken moeten ongeveer gelijke patronen van correlaties zijn.

Volgens deze benadering:• test­hertestmethode: b­waarden• Twee paralleltests: b­waarden• Afwijking van parallellie: v­waarde

Met multitrek­multimethodebenadering wordt een model geboden om enerzijds betrouwbaarheid en anderzijds de confirmerende en discriminante validiteit van een test te onderzoeken.

Page 44: 1 Historische ontwikkeling van het testen

9 De bijdrage van de test in het beslissingsprocesWetenschappelijke waarde van een test wordt bepaald door het belang van de eigenschap die wordt gemeten. De praktische waarde van een test wordt beoordeeld o.b.v. de te nemen beslissingen.Wat wordt bedoeld met de bijdrage van een test aan een beslissing of een beoordeling? Bv: CITO­toets: hoeveel 

juiste schooladviezen worden gegeven o.b.v. het gebruik van de CITO­toets, of een alternatieve vorm van beoordelen waarvan de CITO­toets geen deel uitmaakt.

(Cronbach en Gleser:) niet de test vergelijken met een aselecte toewijzing van kandidaten (want dat is overschatting van de bijdrage van de test), maar vergelijken met de a­priori­strategie (totaal van andere voorspellingsmogelijkheden). Dus ‘incremental validity’.

Overigens is aselect selecteren soms reëel (voor zeer eenvoudige functies): ‘antecedent probability’ of ‘base rate’.Dit hfdstk: soorten beslissingen; meest voorkomende in psy; beslissingsprc bij open­vraag

9.1 Taxonomie van beslissingenBeslissingen over mensen bevat drie elementen:

• individu (of meer)• twee of meer behandelingen (‘treatments’) waartussen gekozen wordt• informatie die dient als basis voor beslissing

Beslissingsstrategie = samenstel van beslissingsregels. Schematisch: 

Een beslissingsstrategie kan expliciet of vaag/onduidelijk zijn. Vaak ook discrepantie tussen normatieve strategie en feitelijk gevolgde.

Indelingsprincipes m.b.t. beslissingen over mensen:• Onderscheid individuele met institutionele beslissingen

Individuele beslissingen zijn eenmalig, rendement varieertInstitutionele beslissingen zijn een groot aantal gelijksoortige. Vaste serie beslissingsregels (dus ‘institutionele beslissingsstrategie’). Bv toelatingsprocedure, rijbewijsexamen, therapiekeuze

• Onderlinge relatie van de te kiezen alternatieven:o kwantitatief verschillen, maar wel in één dimensie: univariaat. Bv schooltypen. Dan alleen 

varieren vna de strengheid van normen.o Multivariate informatie: keuzealternatieven die verschillen qua niveau en qua aard. Bv keuze 

tussen studie psy of economie, plaatsing als ICT­deskundige of als assistent­personeelschef.• Binnen de beslissingen o.b.v.  univariate informatie: keuze voor één enkel treatment of een keuze uit 

verschillendeTaxonomie van beslissingen:

Institutionele beslissingen

Indi

Page 45: 1 Historische ontwikkeling van het testen

viduele beslissingen

Univariate informatie

DicotomieNiet/wel

Selectie

Ja/nee­keuze

KlassenPlaatsing (niveauverschillen)

Niveaukeuze

Multivariate informatie

Plaatsing (kwalitatieve verschillen)

Soortkeuzen 

Differentiaties:• twee soorten beslissingen (‘plaatsing (niveauverschillen)’ en ‘selectie’) kunnen soms in één model. Vaak 

in bedrijfs­ en schoolpsychologie• Binnen categorie van plaatsingsbeslissingen rekening houden met beperkingen. 

Soms is het aantal kandidaten onbeperkt, soms beperkingen in aantal plaatsen• Onderscheid bij plaatsingsbeslissingen in variabele en vaste treatments.• Vraag of de beslissingen in een enkele fase worden genomen (‘single­stage’ of ‘non­sequential 

decisions’) of in verschillende fasen verloopt (‘sequential decisions’). Voorbeeld: voorselectie.

9.2 Enkelvoudige selectie­ c.q. afwijzingsmodelZie taxonomie van beslissingen onder ‘selectie’.Enkel criterium, waarbij twee mogelijkheden zijn: voldoet wel/ voldoet niet. Daarom ook wel ‘afwijzingsmodel’.  Het gaat om institutionele beslissingen met univariate informatie. Dit betekent niet perse één enkele test.

Het gebruik van een enkele test.Hoe hoog moet de correlatie met criterium zijn, wil de test zinvol zijn?Illustreren m.b.v. voorbeeld:

Crite

rimpr

esta

tie

A B

Page 46: 1 Historische ontwikkeling van het testen

60

5040302010  1Testprestatie ­­­­­­­­­­­­ >

Vier categorien individuen:A. personen ten onrechte afgewezen:  positieve missers ofwel ‘false positives’B. personen die terecht zijn aangenomen:  positieve treffersC. personen die terecht zijn afgewezen: negatieve treffersD. personen die onterecht zijn aangenomen:  negatieve missers

Selectieratio = pct kandidaten dat wordt aangenomen    Toevalskans = pct geschikte kandidaten volgens toeval 

(‘antecedent probability’ of ‘base rate’)  Succesratio = pct succesvolle kandidaten binnen de aangenomen groep:  

Stel: toevalskans is 0.76 en selectieratio is 0.86, dan heeft test duidelijk toegevoegde waarde.Waar is succesratio van afhankelijk?

• Afhankelijk van correlatie van test met criterium. Hoe hoger de correlatie, hoe voller de kwadranten B en C

• Beïnvloed door toevalskans. Toevalskans is afhankelijk van kwaliteit van aanbod (meer in B) en strengheid van beoordeling van criteriumprestaties (plaats van horizontale lijn).

• Beïnvloed door selectieratio. Hoe meer personen worden afgewezen, hoe groter de breuk (B/B+D) (plaats van verticale lijn)

Enkele repercussies voor bijdrage van test:• Dat ondanks de test toch nog een ongeschikte kandidaat wordt aangenomen, hoeft niet aan test te 

liggen, maar kan ook aan kwaliteit van aanbod, of geringe aanbod liggen.• Ook oordelen en waardebepalingen spelen een rol:

o Horizontale lijn bepaalt wat voldoende is en wat onvoldoende iso Het aantal kandidaten dat aangenomen moet wordeno hoeveel risico men wil lopen om een ongeschikte persoon aan te nemenDoor selectieratio te variëren, varieert men tevens de verhouding tussen positieve en negatieve missers: hoe minder positieve, hoe meer negatieve missers en vv.

• Als toevalskans dicht bij 1 ligt, heeft testen geen zin. Omgekeerd: als er weinig geschikte kandidaten zijn, heeft een test met betrekkelijk lage validiteit al een bijdrage.

• Bij zeer hoge waarde van selectieratio en bij constante toevalskans, is een veel hogere validiteit nodig, dan wanneer een strenge selectie en klein pct moet worden aangenomen.

• Relatie tussen positieve (C) en negatieve missers (D). Bij verschuiving van aftestgrens naar rechts vermindert aantal negatieve missers (D). Aantal positieve missers wordt groter. Kwestie van beleid waar men die aftestgrens legt. Belangrijk:

o situaties waarin negatieve missers ernstige gevolgen hebben. Bv bij zeer dure opleiding (piloot). In dat geval liever meer positieve missers (C)

o In andere situaties aantal positieve missers zo klein mogelijk. Bv bij een niet veel voorkomende en moeilijk vast te stellen eigenschap (bv wetenschappelijk research)

o Zowel positieve als negatieve missers zo klein mogelijk. Bv overgang van 5e naar 6e VWO.

C D

Page 47: 1 Historische ontwikkeling van het testen

Vaststellen van de optimale aftestgrens is lastig. Aftestgrens is optimaal, als de daarbij behorende opbrengst of utiliteit van de selectieprocedure maximaal is, of, omgekeerd, als het verlies van de procedure minimaal is.

• Bij zeer lage toevalskans (bv klinische psychologie) kan een test met lage ‘base rate’ (matige validiteit) het aantal foutieve beslissingen zelfs vergroten. Ook bij meer valide, toch nog veel ten onrechte afgewezen kandidaten.

De absolute waarde van de validiteit van een test heeft op zich weinig betekenis. Ook met andere factoren, zoals toevalskans en selectieratio, moet rekening worden gehouden.Van welke factoren is de nuttigheid/utiliteit van een testprocedure bij een gegeven toevalskans afhankelijk?

Formule:   U = SΔ U x rXU x  (X’)  ­  C  ξ U is netto utiliteitswinst per onderzochteΔ

• Standaarddeviatie in de utiliteitsscores: indien een geringe toename in de criteriumprestatie voor de organisatie toch van grote waarde is, zal de nuttigheid van het testonderzoek eveneens groot zijn.

• Correlatie tussen test en utiliteit, rXU, en tussen test en criterium is volgens de formule lineair gerelateerd aan het nuttig effect van de test. Uitgangspunt hierbij is het vaal niet­reele geval dat iedereen die aan de minimum eisen voldoet,voor de organisatie van evenveel waarde is.

• De selectieratio is van invloed op de utiliteit. Bij extreme waarden van de selectieratio, waarbij men zeer velen moet afwijzen of bijna iedereen moet aannemen, kan de utiliteit negatief worden, omdat het nuttige effect van het testen niet opweegt tegen het totaal aan testkosten

• Met de formule is uit te rekenen of de kosten van het testprogramma  (C) opwegen tegen het uiteindelijke rendement van de selectieprocedure.

Het gelijktijdig gebruik van diverse testsZelden volstaat één enkele test. Vooral als het criterium heterogeen is. Testbatterij: test die hoog correleren met criteriumprestatie, maar onderling laag.Op welke wijze moeten gegevens gecombineerd voor goede testresultaten?

• Statistisch wegen van testscores en berekenen van succeskansen: actuarische statistische voorspelling• Niet­statistisch, intuïtief: intuïtieve, klinische voorspelling.

Niet in alle gevallen is een gewogen samenstelling van testscores de meest aangewezen methode.• soms voor iedere test een afzonderlijke kritische score: multiple cut­off procedure. 

Veelvoudige minimumscore: conjunctief. Bv bij sportprestaties, of gezichtsscherpte bij piloten.• Gewogen samenstelling: compensatorisch. Dit is in veel gevallen.• of een combinatie

Selectie in één of meer fasenSoms efficiënter om trapsgewijs te testen, bv bij sollicitaties: eerst selectie op brieven.Ook deze voorselectie moet valide zijn. De gebruikte test kan in voorselectie ook nuttig zijn als deze minder betrouwbaar en valide is, omdat de toevalskans voor kostbaar vervolgonderzoek toeneemt.Sequentiële beslissingsmodellen kunnen gecompliceerder zijn: bij eerste snelle screening: wie wel, wie niet, wie verder getest in volgende ronde.Ander voorbeeld is in de klinische diagnostiek: MMPI. Zie figuur 9.6 blz 418.

9.3 PlaatsingsbeslissingenDus: keuze uit diverse alternatieven, die van niveau en aard verschillen. Vraagt om andere beslissingsmodel, want multivariaat.

Plaatsing en niveauverschillenWaardebepaling en vergelijkingen tussen niet­kwantitatief vergelijkbare grootheden.Rol psycholoog: 

• kansen op behalen van resultaten van beslissingen bepalen en expliciteren• ervoor zorgen dat de beslisser rekenschap geeft van prioriteiten in waardesysteem en adequate 

waardering van uitkomsten.Bv keuze tussen opleiding A en B

Page 48: 1 Historische ontwikkeling van het testen

1. kans tot volbrengen van opleiding (=samenhang tussen test en criterium): regressievergelijking of verwachtingstabellen

2. waardering van voltooing van opleiding  A of B, en waarde van niet­voltooide opleidingE(rendement) = P(A) x W(A)  +  P(­A) x W(­A) P=kans op voltooien, W=waarde, A/B=opleiding

Enkele relaties tussen beslissingsrendement (y­as) en testprestatie/predictor (x­as in grafiek):• parallelle lijnen: rendement van beide opleidingen nemen even snel toe, maar A heeft steeds hoger 

rendement• samenvallende lijnen:  identieke toename in rendement en compenseren kansen met waarden• snijdende lijnen: beneden bepaalde testprestatie heeft B de voorkeur, daarboven A• niet rechtlijnige lijnen: grillig

Vaak extra beperkingen: beperkt aantal plaatsen, of sommige functies moeten perse vervuld worden. In de praktijk worden dit soort beslissingen op gevoel gedaan: ad­hoc strategie. Meer exacte en rationele procedure heeft de voorkeur.

Plaatsing en kwalitatieve verschillenOok hier: kansen op succes versus de waarde van goed vervullen van de functie. Bv twee sterk verschillende 

opleidingen, vooral als inhoud verschilt. Testbatterij nodig. Testprestaties moeten dan zo sterk mogelijk tussen beide opleidingen differentiëren. Dus hoge correlatie van test met criteria voor beide opleidingen is niet voldoende.

Testbatterij, waarbij scores op de deeltests optimaal voorspelt voor één van de alternatieven. Eenvoudigst wanneer sommige test hoog correleren met het ene criterium en met het andere niet, en andere tests omgekeerd.

Bij selectie op één criterium is de bijdrage van de test evenredig aan de validiteit. Bij de differentiële voorspelling is niet alleen de correlatie met afzonderlijke criteria, maar ook differentiële validiteit van belang. Dus als validiteiten van testscore X met de twee criteria verder uiteenlopen. Testscore X heeft dan dus ene hogere differentiële validiteit.

Vergelijkbaar met beslissingen o.b.v. univariate informatie, vooral zonder restricties en eisen. Wanneer wel eisen, dan snel te complex: plaatsingsstrategie om n individuen over n posities in M verschillende plaatsingen te verdelen.

Andere, praktische manieren:• ‘cut and fit method’: eerst meest bekwame kandidaten in de best bij hen passende functies plaatsen, 

daarna minder bekwame kandidaten meer aselect.• Bepaalde functie is zo veel belangrijker dan andere functie, dat de beste voor de eerste functie zonder 

meer geplaatst wordt.

9.4 Individuele beslissingenVeel van het psychologisch advieswerk is in institutioneel kader. Ander deel bij helpen bij het nemen van individuele beslissingen. Het verschil tussen beide: evaluatie van de resultaten van beslissingen van individuen is, een individuele en ook over individuen variërende zaak is.In geval van kwalitatief verschillende alternatieven dient de informatie die de basis van de beslissing vormt een hoge differentiële validiteit te bezitten. Illustratie:

• Voorbeeld 1: of een mw een functie E zal accepteren of niet. Kans van slagen is 0.60, falen 0.40. Stel: waarde van falen 3x zo ernstig dan hebben van succes:E(rendement) = 0.60 x 1 + 0.40 x (­3) = ­0.60

• Voorbeeld 2: kwalitatieve keuze tussen een technische opleiding F en een commerciële opleiding G. Stel: kans van slagen op F is 0.80, op G 0.60. Waarde voor opleiding F is 10, 15 voor G. Waarde bij niet­halen te verwaarlozen. De kostenfactor (moeite, inspanning, tijd en kosten) moeten gewaardeerd worden. Dus: kostenwaarde voor F is 2 en voor G is 4Voor F:  E(rendement) = 0.80 x 10 – 2 = 6Voor G: E(rendement) = 0.60 x 15 – 4 = 5

• Voorbeeld 3: schoolkeuze. Niet alleen alternatieven van halen / niet­halen, ook de mogelijkheid dat slechts enkele klassen met succes worden gehaald

Page 49: 1 Historische ontwikkeling van het testen

….exacte kansbepaling is meestal niet zo eenvoudig. Waardering van de diverse uitkomsten is niet eenvoudig. Bovendien veelal binnen een keuze weer mogelijkheden.

9.5 Open vraagOpen­vraagprobleem (bv wat is er met persoon aan de hand) is er sprake van een zeer groot aantal mogelijkheden. Belang van vraag­ en probleemanalyse, want bij openvraag blijkt het vaak na onderzoek te gaan om een gerichte keuzevraag. Soms is het nog onvoldoende doordacht, of onredelijke verwachtingen bestaan. Voor beantwoording kan men persoon beste testen:

• 1e fase: reduceren van grote aantal mogelijkheden. Tests die groot aantal mogelijkheden tegelijk bestrijken, evt. niet zo betrouwbaar 

• 2e fase: o.b.v. beperkt aantal mogelijkheden hypotheses toetsen. Gericht, betrouwbaar instrument.Cronback en Gleser: twee typen nader omschreven in termen van informatietheorie:

Bandwijdte (‘bandwidth’) en zuiverheid (‘fidelity’). Een test kan niet beide tegelijk bezitten: grote bandwijdte gaat ten koste van de zuiverheid en vv.

Steeds getracht een compromis te vinden: bij definitieve conclusie of keuze moet de zekerheid maximaal zijn, bij hypothesevorming juist breedte.

Geringe bandwijdte en grote zuiverheid zijn volgens klassieke testbenadering ideaal. Bv intelligentietest en test voor specifieke vaardigheden (met goede begrips­ en predictieve validiteit en hoge betrouwbaarheid).

Om de zuiverheid van brede­bandtest zoch te verbeteren:• standaardisering van de procedure van afnemen; objectief  verwerkingssysteem• voldoende items voor spreiding in testprestaties• voor verschillende populaties normgegevens beschikbaar• beoordeelde kenmerken moeten plaats in theorie krijgenHiermee nemen betrouwbaarheid en validiteit toe, maar neemt bandwijdte af.

Voor keuze ne het gebruik van brede­bandtest voor exploratieve doeleinden zijn niet zulke duidelijke regels te geven als voor selectie­ of plaatsingsbeslissing. Bij subjectief gebruik rekening houden met:

• bij het ontwikkelen van hypothesen aansluiten bij literatuur of eigen ervaring• in hypothesevorming altijd gebruik gemaakt van impliciete en expliciete theorieën. Afzien van duistere 

theorieën.• afzien van gebruik van projectietests, die testtechnisch gebrekkig zijn.

9.6 Tot besluitBij beslissingen over personen wordt de praktische waarde van de psychologische test ondergeschikt gemaakt aan het belang en de waarde van deze beslissingen.

Page 50: 1 Historische ontwikkeling van het testen

10 Ethiek van het testenDe test neemt niet de beslissing voor rekening, maar is wel een factor van betekenis.Gewicht van test wordt nogal eens overschat.De publieke opinie oordeelt niet onverdeeld gunstig over de psychologische tests. Soms terechte punten van 

kritiek, dikwijls eenzijdige en misplaatste generalisaties.  Vaak ten onrechte geen onderscheid gemaakt tussen testgebruik in de praktijk en principiële mogelijkheden en de kwaliteiten van tests.

Goed informeren van de onderzochte d.m.v. toelichting en voorbeeldopgaven.Veel kritiek, maar het is onverstandig deze te negeren: 

1. veel waars2. er is veel weerstand tegen testen3. psycholoog en psychologie hebben er voor een deel zelf naar gemaakt, door te veel met hun tests te 

pretenderen. Maar het is onjuist dat zij zich nooit druk maken over praktische en ethische consequenties (sinds 1961 code voor psychologen)

Attitude t.o.v. testen in het algemeen:• test fungeert vaak als zondebok voor frustraties. Valt toch mee: onderzoek wijst uit dat eigen ervaring 

geen grote rol speelt bij ontstaan van deze attitude• Dieper liggende oorzaak: algemeen onbehagen over de toenemende bureaucratisering en 

vertechnisering van de maatschappij. Vrees voor manipulatie.Maar moedigt het testen niet een onpersoonlijke, rigide en mechanistische processen aan? Leidt predictie niet 

gauw tot controle en determinatie van het menselijk gedrag?Vooral in institutioneel verband. Maar eigenlijk niet probleem van testonderzoek, maar van beslissingsproces.

Meer specifieke bezwaren hierna.

10.1 Levensbeschouwelijke en menselijke bezwarenUniciteit van de mens en de onmogelijkheid dit te meten

Het feit dat de mens niet ‘te meten’ is.Maar test gaat om onderzoek van waarneembaar gedrag

Rollen van psycholoog en onderzochteReduceert het testen de mensen niet tot onpersoonlijke objecten met een superieure machtsrol van testpsycholoog en soms infantiel aandoende testopdrachten?Er moet een persoonlijke introductie zijn. Ook duidelijkheid over doel, gelegenheid tot ontmoeting en een gesprek, waarin geen machtsverhoudingen bestaan. Tests moet voldoende uitdagend zijn.Het verzet tegen de ondergeschikte rol / afhankelijkheidspositie: is maar de vraag of dit verwijt de test betreft.In NIP­ethiek uit 1961: primaire zorg van psycholoog is: het welzijn en de belangen van de cliënt (onderzochte). Praktijk kent twee uitersten:

• leer aan het leven aanpassen. Dus belangen van organisatie in meenemen.• verdedigen dat de belangen van het individu altijd dienen te prevaleren.

Commentaar op deze twee uitersten:• Het is maar de vraag of toekennen van gelijke kansen ethisch wel ideaal is: lui, onbekwaam, 

enz.• Loting is in strijd met streven naar optimale benutting. APA (1969): full manpower usage and full 

conservation of human resources are essential ingredients of a healthy society• Werkgever zal nooit willen loten. Indien testen niet, dan toch alternatieve methoden met 

mogelijk geringer voorspellend vermogen.NIP­ethiek (1976): cliëntsysteem. Psycholoog stelt zich in dienst van beide partijen, en beide hebben recht op vertrouwelijke behandeling.

Page 51: 1 Historische ontwikkeling van het testen

10.2 Technische en methodologische bezwarenVoor veel bezwaren geldt het probleem dat er onvoldoende scherp onderscheid wordt gemaakt tussen praktisch slecht functionerende tests en het principe van de test als zodanig. Het bestaan van slechte tests leidt niet tot de conclusie dat goed testgebruik niet mogelijk is.Psychometrische kwaliteit van tests

Vaak onbetrouwbaarheid onvoldoende, maar nog vaker begripsvaliditeit of predictieve validiteit onvoldoende of onbekend, normtabellen ontbreken of normpopulatie wijkt af.

COTAN: onderzoek onder 457 tests heeft 33% onvoldoende betrouwbaar, 35% onvoldoende begripsvaliditeit, 67% onvoldoende predictieve validiteit, 59% onvoldoende voor normen. Sinds die tijd lichte verbetering

1993 –Sijtsma: 21% van alle tests heeft voldoende voor validiteit en normen (=78 tests)Let op: ook in voorselectie van selectietraject zijn onvoldoende­tests niet geoorloofd, want ook dan vallen al kandidaten af.

NIP: psychodiagnostische instrumenten kunnen alleen voor advies worden gebruikt als de theoretische herkomst, betrouwbaarheid, validiteit en normering voldoende zijn.

Stereotypen­bevestigende karakter van testsMethodologisch bezwaar op de gekozen tests als zodanig. De test zouden door hun beperkte en behoudende karakter de ondernemende, creatieve en exceptionele kandidaat weren, en de fantasie­ en initiatiefloze conformist belonen. Ook  zouden tests leiden tot homogenisering en bevriezing van een bestaande ondernemingsstijl. Het gaat hier niet om kritiek op de test, maar kritiek op het gekozen criterium.

10.3 MisbruikEthisch karakter

Schending van vertrouwenOfwel: of de testresultaten wel voldoende binnenskamer blijven

• bij wetenschappelijk onderzoek moet gewaakt worden voor de anonimiteit van de proefpersoon• in praktische onderzoekssituaties zijn twee gevaren:

o niet­psychologen krijgen inzage. Dit leidt naast schending van vertrouwen ook tot misinterpretatie en misbruik. AST­NIP: alleen bewerkte testuitslagen verstrekken

o opdrachtgever die het rapport leest, zal het ook voor andere doeleinden gebruiken. AST­NIP: niet voor andere doeleinden gebruiken, en onderzochte mag elk moment het onderzoek stoppen, en moet toestemming geven om rapport door te sturen

• Verstrekken van informatie aan collega­psychologen. Ook dan is toestemming van betrokkene nodig.

• Geheimhouding van onderzochte zelf. Ook hier gevaar van misinterpretatie en ongewenste effecten. AST­NIP: cliënt heeft recht op nabespreking; recht op inzage in het rapport voor het naar opdrachtgever gaat; op eventuele blokkering; op aanvulling, correctie en eventuele verwijdering van gegevens; o een afschrift van het rapport; op inzage in en afschrift van het onderzoeksdossier.Slechts een rechterlijke uitspraak kan de psycholoog verplichten om een rapport aan derden te openbaren.

MisleidingSterkst bij indirecte tests.

• Geen probleem bij wetenschappelijk onderzoek. Zolang anonimiteit en persoon geen schade leidt, de proefpersonen vrijwillig meedoen, doel wordt toegelicht.

• Ook geen probleem bij therapieën en in individueel advieswerk• Mogelijk wel daar, waar conflict tussen belangen ontstaat, bv selectie­ en 

plaatsingsbeslissingen. Maar: als principe van selectie is aanvaard, dan is het probleem opgelost. NIP: wel goed voorlichten

Page 52: 1 Historische ontwikkeling van het testen

Binnendringen in het privelevenTer relativering: het binnendringen kan niet los gezien worden van de bedoeling van de test. Bv MMPI gaat het niet om de waarheid. Bovendien worden antwoorden onpersoonlijk verwerkt.Van de 109 vragenlijsten (met 5300 items) bleken slechts 10 items onacceptabelBij alle vormen van informatie inwinnen is er sprake van binnendringen in het privéleven. Dus weinig zin om absolute privacy te eisenRecht op privacy: het belang hiervan moet worden afgewogen tegen andere belangen:

• recht op kennis, om onszelf en de wereld te kennen• wenselijkheid of noodzaak om enige controle over de vrijheid van leden uit te oefenen. 

Veiligheid boven privacy.• recht op privacy afwegen tegen de wenselijkheid om in een maatschappij optimale benutting 

van kwaliteiten, capaciteiten en kennis te bereiken.Dus: evenwicht tussen uiteenlopende belangen

DiscriminatieNL sinds ’80. VS sinds ‘60

• klachten dat tests niet goed zijn gestandaardiseerd voor minderheidsgroepen• Inhoud van de test: zouden capaciteiten, prestaties en vooral kennisaspecten meten, die 

bevoorrechte groepen beter hebben kunnen ontwikkelen. Vooral in persoonlijkheidstest en biografische vragenlijsten zitten vragen die verkapt vragen naar ras of nationale origine.

• valideringsonderzoek is op beperkte groepen gedaan. Resultaten worden vaak gegeneraliseerd naar andere populaties.

Verdedigers: test stelt slechts objectief vast wat iemand kan en kent, niet dat mensen ongelijke waarde hebben.Een test als zodanig kan nooit discriminerend zijn. Wat wel discriminerend is:

• Testinterpretatie. Bv intelligentietestscores. Het aangeboren potentieel (intelligentie A) kan niet zuiver, los van omgevingsinvloeden gemeten worden. Bij concrete metingen is het resultaat een aanduiding van ‘Intelligentie B’, het fenotypische aspect van cognitieve vermogens (dus resultante van genetische en omgevingsinvloeden). Wel kan de ene test beter A meten dan de andere. Deze zijn minder cultureel gevoelig. Echte cultuurvrije tests bestaan niet.

• testgebruik. Vooral op terrein van selectie: minderheidsgroepen, die gemiddeld lager scoren op de test krijgen minder kans. Twee strategieën:

o Strategie van de maximalisering van de doelmatigheid:Personen met de grootste kansen op succes in de functie worden geselecteerd, door validiteit van procedure te maximaliseren. Discriminatie? Niet wanneer score overeenkomt met score op prestatie in de functie. Wel wanneer ene groep met een bepaalde testscore een systematisch hogere criteriumscore haalt. In dit geval: aftestgrenzen voor verschillende groepen. Twee problemen hierbij:

als criteriumprestatie een oneerlijke weergave is (bv bevooroordeelde beoordelingen). Dan via ‘zuivering’ criterium aanpassen.

Voor maximalisering is vaak variabelen als sekse, sociaaleconomische klasse, etnische groepering, enz nodig. Dit zou directe discriminering betekenen?

Twee benaderingen: Ongekwalificeerde individualisme: alles wat validiteit verhoogt, wordt 

opgenomen (als predictor of als moderator). Dus als lid zijn van allochtone groep kansen vermindert, dan opnemen in model.

Gekwalificeerde individualisme: directe discriminatie niet acceptabel. Validiteit wel proberen te maximaliseren, maar dan toch vaak indirecte discriminatie. 

o Strategie van de maximalisering van gelijke kansen Loting, de meest extreme, maar geen enkele doelmatigheid Gewogen loting

Page 53: 1 Historische ontwikkeling van het testen

Gecorrigeerde individualisme: alle predictoren worden gecorrigeerd voor hun samenhang met mogelijk discriminerende variabelen. Bv scores op test voor logisch redeneren worden gecorrigeerd voor samenhang met scores op een test voor Nl woordenschat. Residuscore wordt gebruik voor selectie.

Uit iedere categorie een bepaald percentage selecteren (quota­systeem)Dus: doelstelling van maximale doelmatigheid en maximaal gelijke kansen zijn vaak in strijd met elkaar.

Conclusie: onjuist om de test als zodanig te beschuldigen van discriminatie. Er is altijd de interpretatie of het gebruik. Het is een beleidsbeslissing welk evenwicht tussen beide.

10.4 Tot besluit.