pedagogischekringleuven.files.wordpress.com€¦ · Web view2020. 9. 24. · onervarenheid (mbt...

Thema 3: Kenmerken van een wetenschappelijk onderbouwde test

Moeten we, als we een uitspraak willen doen over de eigenschappen van een persoon, wel een test gebruiken?

Hoe onderscheidt een wetenschappelijk onderbouwde psychologische test zich van het voorwetenschappelijke oordeel?

1. Efficiëntie

o testconstructeur heeft verzameling van opgaven geselecteerd of geconstrueerd die optimaal een appèl doen op de te meten eigenschap

o diagnosticus creëert een testsituatie waarin bijkomstigheden en storende invloeden zo veel mogelijk worden geweerd

Situaties typerend voor alledaags contact kan gebruikt worden om IQ te beoordelen PROBLEEM: wachten tot gedrag zich voordoet, IQ is slechts ‘bijproduct’ inexacte en arbitraire schatting ↔ intelligentietests

voorbeeld 1: intelligentietest- bestaat uit taken die voor hun oplossing een beroep doen op diverse belangrijke

aspecten van intelligentie- niet afhankelijk van het moment waarop het gedrag zich voordoet - bijkomstige invloeden + storende variabelen worden onder controle gehouden- geeft in enkele uren tijd vrij volledig beeld van intelligentie, terwijl vergelijkbare

observatie van gedrag ‘in vivo’ meerdere dagen in beslag zou nemen

voorbeeld 2: persoonlijkheidsvragenlijst- aan respondent wordt gevraagd zich een voorstelling te maken van groot aantal

situaties en hoe hij/zij er typisch op reageert- via zelfrapportering respondent krijgt men op korte tijd indruk van belangrijkste

persoonlijkheidskenmerken, in plaats van langdurige observatie

2. Standaardisatie en objectiviteit

o Testonderzoek is een complex proces want grote verschillen tussen: - testsituaties - onderzochte personen - proefleiders - tests

o Belang van standaardisatie - bij zowel afname als scoring - voorwaarde voor vergelijkbaarheid van testprestaties of –scores

1

als men de testpersoon wil vergelijken, moet men een representatieve vergelijkingsgroep hebben, waarbij de test onder gelijke omstandigheden plaatsvindt een test kan hier meer/minder aan voldoen volledige afwezigheid ≠ test

2.1 Afname

2.1.1 testsituatie - instructie goed uitgewerkt- proefleider houdt zich aan instructie- opvallende of specifieke omgevingsinvloeden worden geweerd (temperatuur, geluid,

helderheid van licht, lichtinval, ventilatie, schrijfcondities)- storingen tijdens testafname worden voorkomen- (bij groepstests) samenwerken of afschrijven wordt verhinderd- Vooral van belang bij groepstest + tests op snelheid

2.2.2 proefpersoon - vermoeidheid, emotionele opwinding,...- (vermeende) verwachtingen proefleider inlossen of een test met opzet sabotteren- sociale wenselijkheid- vertrouwdheid met specifieke test of testonderzoek in algemeen- motivatie- angst voor gevolgen

bij belangrijke gevolgen ↑ testangst vs. persoonlijkheidstrek ‘angst’ - positieve faalangst = bevorderlijk - negatieve faalangst = verstorend

- situatie waarin pp verkeert zo constant mogelijk houden

2.2.3 proefleider- interactie met proefpersoon (vooral bij individuele afname)- onervarenheid (mbt specifieke test of testonderzoek in algemeen)- tendens om ideaaltypen te ontdekken + populaire, niet-empirische theorieën te willen

bevestigen

2.2 Scoring

o wordt ook wel ‘objectiviteit’ genoemd: onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer, beoordelaar of interpretator - bij een objectief testonderzoek maakt het niet uit wie de beoordelaar is - objectiviteit impliceert openheid en reproduceerbaarheid van de evaluatieprocedure

vanuit deze omschrijving kan de overeenkomst tussen beoordelaars beschouwd worden als een maat van objectiviteit

2

o tests verschillen van elkaar in de mate waarin ze (kunnen) beantwoorden aan de eis van objectiviteit - heel objectief: verwerking van antwoorden bij schriftelijke meerkeuzetests - weinig objectief: interpretatie van antwoorden bij observatietests en projectieve technieken

o hoe groter de inbreng van de beoordelaar in het proces van verwerken van gegevens, hoe groter de kans op subjectieve beïnvloeding - spanningsveld met relevantie - indien men verder wil gaan dan objectief controleerbare gedragsaspecten gebruikt men best exact voorgeschreven verwerkingsprocedure

o onderscheid tussen 1) reacties op items met open-vraagvorm 2) reacties op geprecodeerde items

1) scoring van reacties op items met openvraagvorm - reacties kunnen verbaal of niet-verbaal zijn - door de openvraagvorm is er risico op subjectiviteit en lage overeenkomst tussen beoordelaars

- zinvolle uitspraken en voorspellingen onmogelijk - lage validiteit * manieren om risico te verminderen: > gebruik van coderingssysteem (= stelsel van regels en voorschriften dat volledig, duidelijk en ondubbelzinnig is) > goede instructie van de beoordelaars + gelegenheid tot training - Checklist * welke eigenschappen al dan niet aanwezig zijn * lijkt op persoonlijkheidsvragenlijst * hoge overeenstemming ≠ automatisch hoge validiteit overeenkomst tussen beoordelaars = noodzakelijk MAAR ≠ voldoende belang van kwaliteitseisen

2) scoring van reacties op geprecodeerde items

- ‘meerkeuzevragen’ - verschillende opties:

1. handscoring2. zelfscoring3. machinale scoring

1. handscoring:• corrector telt goede en foute antwoorden, overgeslagen of onvolledig ingevulde

items• aan de hand van correct ingevuld protocol of verbetersleutel (transparant of

geperforeerd karton)• nadelen: duurt lang, risico op fouten

3

2. zelfscoring:• antwoordformulier scoort zichzelf door middel van een doordrukprocédé met een

aan het antwoordformulier vastgemaakt tweede vel met cirkeltjes• corrector moet alleen nog de markeringen in de cirkeltjes optellen• nadeel: kostprijs• voordelen: snelheid en efficiëntie

3. machinescoring:• antwoorden worden aangebracht op speciale antwoordformulieren die nadien

ingelezen kunnen worden• verwerking gebeurt volledig machinaal (soms ook vergelijking met normen en

interpretatie) voorbeeld: BRIEF (vragenlijst executief functioneren)

laat toe om verzamelde gegevens voor onderzoek te gebruiken - kwaliteitskenmerken van de test - informatie over de geteste groep als geheel

• wordt in sommige gevallen gecombineerd met computerafname

3. Bewerkte scores/Normering

3.1 output van een testafname = ruwe testscores per item 0/1 of fijnere gradatie itemscores worden gecombineerd (bijv. opgeteld) tot ruwe testscore ruwe scores kunnen voor veel verschillende dingen staan

- aantal goede of foute antwoorden in een kennistest- aantal ‘ja’-antwoorden op een persoonlijkheidsvragenlijst- aantal mislukte pogingen op handvaardigheidstest- som van scores op ‘ratingschaal’ van een attitudevragenlijst- ...

ruwe scores zeggen niet veel, ze moeten geïnterpreteerd worden dat kan op verschillende manieren:

1) criteriumgericht referentiekader : * vergelijking met bepaalde standaard (criterium – absoluut meten)

- hoeveel opgaven waren er? - hoeveel punten worden er afgetrokken voor een fout? ...

2) normgericht referentiekader : * vergelijking met relevante anderen (normgroep – relatief meten)

- hoe hebben anderen het gedaan? - waren er veel die een betere/mindere prestatie leverden?

3.2 criteriumgericht referentiekader = absoluut meten analyse van de doelen van het proces dat men bij de proefpersonen wil evalueren

4

prestatie wordt beoordeeld zonder er de prestaties van anderen bij te betrekken - hoe goed is de prestatie in vergelijking met een absolute standaard?

vaak gebruikt in onderwijskundige context- in welke mate hebben leerlingen het nagestreefde onderwijskundige doel bereikt?- hoeveel kennis/inzicht hebben leerlingen verworven?- antwoord is voor iedere leerling onafhankelijk van wat andere leerlingen presteren

noodzakelijk = goede voorafgaande analyse- welk proces wil men bij de onderzochte analyseren?- kan de mate waarin het al dan niet verwezenlijkt zijn van beoogde doelen betrouwbaar

gemeten worden?

3.3 normgericht referentiekader

‘norm’ = referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd op de kenmerken

van de verdeling van de ruwe scores in een populatie; die kenmerken worden geschat op basis van een representatieve steekproef

test wordt voorgelegd aan een representatieve, grote en op toeval samengestelde steekproef uit de populatie waarvoor de test bedoeld is

verzamelde testscores worden statistisch bewerkt zodat een vlotte vergelijking mogelijk wordt tussen de testscore van een welbepaald persoon en die van de referentiegroep

- afhankelijkheid van groep proefpersonen waarop normen zijn vastgesteld generaliseerbaarheid van de norm hangt af van de grootte van de

vergelijkingsgroep belangrijk om, bij rapportering, de specifieke kenmerken van de normgroep te

vermelden bij vertaling van een test kan men niet zomaar de normgegevens uit het

oorspronkelijke taalgebied overnemen normen zijn niet absoluut; geregelde revisie is noodzakelijk

cf. Flynn-effect normering kan gebeuren

- binnen één referentiegroep- ten aanzien van meerdere referentiegroepen

diverse leeftijdsgroepen mannen/vrouwen bevolkingsgroepen/klinische groepen ...

let op: bij normering is altijd sprake van een vergelijking met anderen, maar niet elke vergelijking met anderen heeft een normkarakter!

3.4 Vergelijking en normen gebaseerd op rangorde

3.4.1 Rangscores eenvoudigste vorm van vergelijking tussen individuen: rangordening

5

bewerkte score = rangnummer interpretatie afhankelijk van groepsgrootte

- nuttig voor snelle aanduiding van prestatie in vergelijking met anderen in dezelfde groep

- zonder kennis van groepsgrootte en buiten de bewuste groep geen betekenis

3.4.2 Percentielen

percentielen = de 99 punten die een frequentieverdeling verdelen in 100 groepen van gelijke grootte

voorbeeld: Pc 70 = punt op de schaal waaronder 70% van de verdeling gelegen is Berekend door middel van lineaire interpolatie bekende percentielen:

- P50: mediaan- P25: eerste kwartiel (Q1)- P75: derde kwartiel (Q3)

o wat als grote groep respondenten zelfde ruwe score heeft? ruwe score beslaat meerdere percentielen voorbeeld:

28% heeft ruwe score <=61 34% heeft ruwe score <= 62, dus 6% heeft score 62

met welk percentiel stemt 62 overeen? 28 + 0,5 (34-28) = 28 + 3 = Pc 31

Voordelen- onafhankelijk van groepsgrootte- eenvoudige en snelle berekening- gemakkelijke toepasbaarheid en inzichtelijkheid

Nadelen- ordinaal meetniveau, waardoor beperkingen in mogelijke statistische

bewerkingen (geen gemiddelden/varianties, alleen rangcorrelaties)- frequentieverdeling percentiele scores niet vergelijkbaar met die van ruwe

scores

o afhankelijkheid van het niveau, spreiding en andere kenmerken van de groep niet bij gebruik van percentiele normen schatting van verdeling in de populatie + resultaten staan los van de concrete groep

o Bendaring adhv normaal verdeling - steekproef uit normaal verdeelde populatie afkomstig - gemiddelde en spreiding om ‘handige’ schaal te krijgen

3.4.3 Decielen frequentieverdeling wordt in 10 gelijke groepen verdeeld

3.4.4 Vigintielen

6

frequentieverdeling wordt in 20 gelijke groepen verdeeld Voorbeeld: Zelfbeoordelingsvragenlijst (ZBV-K)

- vragenlijst die toestandsangst en angstdispositie meet - telkens 20 vragen met drie alternatieven - normen voor basisschool en voortgezet onderwijs - ruwe subtestscores omgezet naar decielen

3.5 Vergelijking en normen gebaseerd op gemiddelde en spreiding

o omzetting van ruwe scores in standaardscore-eenhedeno diverse varianten:

- standaardscores: z-scores- genormaliseerde standaardscores: T-scores, deviatie-IQ

3.5.1 Standaardscores of z-scores

standaardscore (Zx) drukt uit hoeveel standaarddeviaties (SDx) een ruwe score (X) van het gemiddelde (gemX) afwijkt

formule: Zx = (X – gemX)/SDx

zonder transformatie hebben standaardscores vaak een klein bereik en zijn het zowel positieve als negatieve getallen

om dat vermijden zijn lineaire transformaties (y=ax+b) mogelijk bijv: gemiddelde op 50 of 100 zetten (z’=z+50; z’=z+100)

bijv: standaarddeviatie op 10 of 20 zetten (z’=10z; z’=20z) bijv. gemiddelde op 50 zetten en standaarddeviatie op 10 (z’=10z+50)

o Bij omzetting van ruwe scores naar standaardscores:- wordt de verdeling verschoven (gemiddelde wordt van elke score afgetrokken)- wordt de afstand tussen de scores veranderd (elke score wordt gedeeld door de

standaarddeviatie)- maar blijven andere kenmerken (scheefheid, bimodaliteit,...) gelijk

standaardscores behouden dus dezelfde verdelingskenmerken als ruwe scores: z-scores zijn dus niet automatisch normaal verdeeld! Niet-normale verdeling blijft niet-normaal!

3.5.1 Genormaliseerde standaardscores

niet-lineaire transformatie: de verdeling van scores wordt zodanig vervormd dat er een normale verdeling ontstaat ruwe scores worden omgezet in genormaliseerde standaard scores

vergroot gebruiksgemak, maar doet werkelijkheid soms geweld aan gekende voorbeelden:

- T-scores > gem 50, SD 10

- Stanines > komt van ‘standard score’ en ‘nine’

7

> schaal van 1 tot 9 met getalswaarden die corresponderen met gelijke intervallen onder de normaalverdeling

> stanines komen niet exact overeen met bepaalde ruwe scores, maar vertegenwoordigen een breedte van 0,5 SD > Voorbeeld: NEO-PI-R

* normen beschikbaar voor diverse deelpopulaties - volgens testsituatie (neutraal/selectie/begeleiding) - volgens land (Nederland/België) - volgens geslacht (mannen/vrouwen) - volgens leeftijd (<30 / 30-50 / >50) - volgens opleiding (laag/gemiddeld/hoog)

met indicatie van waar het wel of niet aangewezen is deelnormen te gebruiken

* ruwe subtestscores omgezet naar stanines

- Deviatie-IQ > gem 100, SD 15*

> Stanford-Binet traditie: SD 16

3.6 noot: verhoudingsnormen

o testscores worden gedeeld door een andere variabele en er daardoor onafhankelijk van gemaakto bekendste voorbeeld = traditioneel intelligentiequotiënt

IQ = (ML/CL) x 100 waarbij ML = mentale leeftijd

CL = chronologische leeftijdo berekening mentale leeftijd

basisleeftijd = leeftijd waarop nog geen fouten gemaakt worden (hier: 6 jaar) voor elke goed beantwoorde opgave in de hogere schalen wordt nog ¼ jaar bijgeteld

(hier: 13 * ¼ = 3.25 jaar) mentale leeftijd: 6 + 3.25 = 9.25 jaar

o berekening traditioneel IQ (ML/CL)*100 (als hier CL=10.5 dan tradIQ = (9.25/10.50)*100 = 88) kanttekeningen bij traditioneel IQ

- ML en CL zijn geen vergelijkbare grootheden - IQ schommelt door interindividuele verschillen in ontwikkeling van intelligentie - oudere mensen in nadeel - een jaar achterstand heeft verschillend effect op verschillende leeftijden voldoen niet aan evenredigheid tav spreiding op hogere leeftijden

o verhoudingsnormen hebben vooral historisch belang - ingevoerd in Stanford-Binet 1916 - in Wechslertests en vanaf Stanford Binet 1960 vervangen door deviatie-IQ

o verhoudingsnormen waren wel makkelijk te vatten: “hoe ver is kind in zijn ontwikkeling van intelligentie voor of achter?” (intelligentie als ontwikkelingsbegrip)

4. Betrouwbaarheid

8

"Reliability refers to the consistency of measurement when the testing procedure is repeated on a population of individuals or groups"

o verwijst naar herhaalbaarheid van de meetresultaten: wanneer een test onder gelijkblijvende condities diverse malen aan een zelfde persoon wordt voorgelegd, moet de verkregen testscore over de testsessies heen zo weinig mogelijk variëren

moeilijk voor psychologische metingen - fluctuaties groter en complexer grotere verschillen - herinnering: niet eenvoudig/onmogelijkheid van 2 onafhankelijke metingen

voorbeeld 1: lichaamslengte meten van een groep kinderen (M1) | rangorde maken van klein naar groot

Piet 117 cm Lotte 100 cmSarah 129 cm Jan 113 cmJan 113 cm Piet 117 cmKlaas 140 cm Sarah 129 cmLotte 100 cm Klaas 140 cm

meting herhalen (M1 / M2) | rangordes vergelijken

M1 M2 Piet 117 cm 116 cm Lotte 100 cm Lotte 101 cm

Sarah 129 cm 128 cm Jan 113 cm Jan 113 cmJan 113 cm 113 cm Piet 117 cm Piet 116 cmKlaas 140 cm 140 cm Sarah 129 cm Sarah 128 cmLotte 100 cm 101 cm Klaas 140 cm Klaas 140 cm

voorbeeld 2: gewicht meten van zakken appelen (M1) | rangorde maken van klein naar groot

blauwe zak 0,9 kg rode zak 0,8 kgrode zak 0,8 kg blauwe zak 0,9 kggele zak 2,1 kg groene zak 1,4 kggroene zak 1,4 kg gele zak 2,1 kg

meting herhalen (M1 / M2) | rangordes vergelijken

M1 M2 blauwe zak 0,9 kg 0,8 kg rood 0,8 kg blauw 0,8 kg

rode zak 0,8 kg 0,9 kg blauw 0,9 kg rood 0,9 kg

9

gele zak 2,1 kg 2,0 kg groen 1,4 kg groen 1,4 kggroene zak 1,4 kg 1,4 kg geel 2,1 kg geel 2,0 kg

vaststellingen: verschillen tussen M1 en M2 zijn klein rangordes verschillen niet of nauwelijks

→ metingen van lengte en gewicht zijn betrouwbaar net als fysische eigenschappen (lengte, gewicht) worden ook psychologische eigenschappen (bijv.

intelligentie) gemeten bij psychologische metingen kan verwacht worden dat fluctuaties in prestaties en gedrag als

reactie op testvragen en –opgaven groter en complexer van aard zijn en dat de verschillen tussen eerste en tweede meting dus ook groter zullen zijn

doel = in kaart brengen wat de relatieve inbreng is van de onvoorspelbare invloeden over testafnames heen op de testprestaties

testscore die een bepaalde persoon in een specifieke testsessie behaalt, kan opgesplitst worden in twee componenten:

- systematisch deel dat over testafnames niet verandert (‘ware score’)- toevallig deel dat over testafnames op onvoorspelbare wijze varieert

(‘foutencomponent’)

foutencomponent verandert de score van de geteste persoon op toevallige wijze (soms naar boven soms naar onder)

over herhalingen heen heffen de foutencomponenten elkaar op ↓

als men het gemiddelde neemt van een groot aantal herhalingen, krijgt men de “ware” score

MAAR psychologische metingen zijn niet herhaalbaar... het is niet zinvol iemand diverse malen dezelfde test voor te leggen (geheugen, leren,...)

DUS ‘hypothetische’ herhaling nodig...

(= zoeken naar een realistische benadering van het ideaal van onafhankelijke replicatie van de testprocedure)

4.1 Herhaalbaarheid van metingen

o Herhaaldelijk voorleggen van dezelfde test leidt tot * Zelfde score herinnering * Betere score bijleren

* Slechtere score verkeerde trucjes Na verloop van tijd wel stabiliseerbaar Zinvolle herhaling wordt bemoeilijklijkt door geheugeneffecten en leerprocessen niet/nauwelijks zinvol in de praktijk

o Belang van gelijkblijvende condities (ook voor de psychologische eigenschappen van de pp)

10

o Voorwaarden herhaalbaarheid: * testprestaties zijn onafhankelijk * pp leer niet van afneming tot afneming * pp herinnert zich niets van vorige test * testsituatie is onveranderd

4.2 Vier benaderingen

4.2.1 Parallelvormmethode twee inwisselbare (maar niet-identieke) tests worden afgenomen bij groep proefpersonen

onafhankelijke replicaties betrouwbaarheid wordt gedefinieerd als correlatie tussen de twee ‘parallelle’ testscores kanttekening: in de praktijk moeilijk om echt parallelle tests te ontwikkelen

4.2.2 Test-hertestmethode test wordt met een behoorlijke tussentijd tweemaal aan dezelfde groep proefpersonen

voorgelegd betrouwbaarheid wordt gedefinieerd als correlatie tussen de testscores van de twee afnames kanttekening: het is mogelijk dat de gemeten eigenschap verandert in de tussentijd en dat is niet

bij iedereen in gelijke mate zo- leereffecten- geheugeneffecten- directe invloed van eerste meting op gemeten eigenschap (bijv. attitudeverandering)

4.2.3 Splitsingsmethode test wordt in twee helften met elk evenveel items gesplitst, die zoveel mogelijk parallel zijn = efficiënte variant van de parallelvormmethode betrouwbaarheid wordt gedefinieerd als correlatie tussen de scores op de twee testhelften kanttekening: in de praktijk moeilijk om een test in echt parallelle helften te splitsen

4.2.4 Interneconsistentiemethode test wordt één keer afgenomen betrouwbaarheid wordt gebaseerd op de variantie van de testscore en alle covarianties tussen de

items bekendste coëfficiënt = Cronbach’s alpha (α) betrouwbaarheidscoëfficiënten variëren tussen 0 en 1

11

4.3 Evaluatie als de test gebruikt wordt om belangrijke beslissingen over individuen te nemen: .90+ goed .80-.90 voldoende <.80 onvoldoende als de test gebruikt wordt om minder belangrijke beslissingen over individuen te nemen:

.80+ goed .70-.80 voldoende <.70 onvoldoende als de test gebruikt wordt voor groepsvergelijkingen of experimentele toepassingen (try-out van

nieuwe tests) .70+ goed .60-.70 voldoende <.60 onvoldoende betrouwbaarheid is een noodzakelijke voorwaarde voor validiteit

een onbetrouwbare test geeft vooral meetfouten weer en kan de bedoelde psychologische eigenschap hooguit heel zwak representeren

betrouwbaarheid is evenwel geen voldoende voorwaarden voor validiteit een betrouwbare test kan onbedoeld iets anders meten dan wat de bedoeling was wat is wel nodig voor validiteit? (→ 4.5)

5. Validiteit kernvraag = meet een test wat hij verondersteld wordt te meten?

vb. Iemands’ intelligentie inschatten op basis van - reactie op praktische problemen - schoolprestaties - belezenheid, …. Zijn deze indicaties de juiste?

validiteit = mate waarin de test aan zijn doel beantwoordto niet eigenschap van de test op zicho uitspraak over validiteit kan alleen met verwijzing naar de bedoeling van een testo als een test meerdere doelen dient, kan het zijn dat hij voor het ene doel wel en voor het

andere niet valide is Validity refers to the degree to which evidence and theory support the interpretations of test

scores entailed by proposed uses of the test" gemeenschappelijk doel van alle tests = via testgedrag iets kunnen zeggen over niet-testgedrag

o gedragingen die ook representatief zijn voor de gemeten eigenschap, maar die niet door de specifieke verzameling van items in de test werden opgeroepen

o gedragingen die representatief zijn voor de eigenschappen of prestaties, die men met behulp van de testscore zou willen voorspellen Bv. ingangsexamen geneeskunde

validiteit gaat over de vraag of de sprong van het testgedrag naar het niet-testgedrag verantwoord is

12

Validiteit v/e test is een noodzakelijke, maar niet voldoende voorwaarde voor een goede validiteit.

5.1 Doelstellingen

twee grote soorten doelstellingen en daaraan gelinkt twee hoofdtypes validiteit:o doel = ander gedrag voorspellen (→predictieve validiteit)o doel = psychologisch begrip operationaliseren (→begripsvaliditeit)

elk gebruik van een psychologische test is onder te brengen bij een van deze twee doelstellingen

5.1.1 Predictieve validiteit

primair doel = bepaald gedrag of bepaalde prestatie buiten de testsituatie voorspellen (= criterium)

o wordt vastgesteld door na te gaan in welke mate de voorspellingen, gedaan op de basis v/d testprestaties, worden bevestigd door gegevens of observaties verzameld op een later tijdstip.

predictie in methodologische zin, los van het tijdsaspecto criterium in toekomst (predictie in enge zin)

= predictieve validiteit in enge zino criterium in heden (paradictie)

= gelijktijdige/concurrente validiteito criterium in verleden (postdictie

Voorspelling = het doen v/e uitspraak over feiten waarvoor we geen directe evidentie hebben, maar waarover we een conclusie formuleren op basis v/d kennis van gegevens waarvan we veronderstellen dat ze met directe feiten samenhangen.

o om een goede voorspelling mogelijk te maken moet aan volgende voorwaarden voldaan zijn:

zowel voor de predictor als voor het criterium moeten goede meetinstrumenten voorhanden zijn

zowel de test als het te voorspellen gedrag moeten uitingen zijn van eigenschappen waartussen een aantoonbare relatie bestaat

er zijn diverse mogelijkheden om predictieve validiteit na te gaano associaties tussen test en criteriumo onderscheidend vermogen van de test ten aanzien van het criterium

5.1.2 Begripsvaliditeit

primair doel = een capaciteit, persoonlijkheidstrek of attitude operationaliseren begripsvaliditeit = de mate waarin een test het begrip meet dat hij beoogt te meten bij onderzoek naar de psychologische betekenis van testresultaten wordt ook gekeken naar

relaties met operationaliseringen van andere begrippen (= nomologisch netwerk) Deelvragen:

13

o komt de interne structuur van de test overeen met de verwachte structuur? = interne begripsvaliditeit

o vertoont de test de verwachte mate van samenhang met andere tests die operationaliseringen zijn van ofwel een zelfde begrip ofwel een verschillend begrip? = externe begripsvaliditeit

o samenhang met tests die hetzelfde meten: convergente/congruente validiteit Vb. associaties tussen KAIT en Wechlerschalen

o samenhang met tests die iets anders meten: divergente/ discriminante validiteit

5.1.3 Predictieve vs begripsvaliditeit

predictieve validiteit en begripsvaliditeit hebben raakvlakken:o soms maakt een ‘te voorspellen criterium’ ook deel uit van het nomologisch netwerk,

waardoor onderzoek naar de begripsvaliditeit ook informatie over het voorspellend vermogen van de test oplevert vb: één van de definiërende kenmerken van psychopathie is “criminele recidive”

o testen is zelden een activiteit op zich (alleen om eigenschap te meten), maar gebeurt vaak met het oog op een buiten de test gelegen doel (voorspelling van een criterium) vb. onderzochte beschrijven in psychologische termen (doel = operationalisering van eigenschap) met oog op uitspraak over de prognose of doorverwijzing naar een behandeling (doel = criterium voorspellen)

5.2 Andere validiteitskenmerken

5.2.1 Inhoudsvaliditeit

o hoe goed representeert de inhoud van de test een geheel van situaties, kennisinhouden of vaardigheden waarover conclusies getrokken moeten worden?

o = indicatie van de mate waarin de test het domein van mogelijke items representeert vaak nagegaan door bevraging van deskundigen gevaar van cirkelredenering (men gaat gebruik maken van andere tests om te

kijken of de test inhoudsvalide is)o vooral relevant binnen onderwijskundige diagnostiek

5.2.2 Constructvaliditeit o wordt geëvalueerd door te onderzoeken welke psychologische eigenschappen door de

test worden gemeten.o Drie onderdelen

Uitvinden welke eigenschappen een verklaring zouden kunnen geven v/d testprestatie

14

Afleiden van toetsbare hypothesen uit de theorie die het ‘construct’ verklaart. Uitvoeren van een empirisch onderzoek om deze hypothesen te toetsen

o ≈ betekenisanalyse

5.2.3 Soortgenotenvaliditeit/ congruent validityo Geeft de mate aan waarin een test correleert met een andere test waarvan wordt

aangenomen dat die dezelfde eigenschap meeto Onderdeel van het proces van begripsvalidering

5.2.4 Synthetische validiteito richt zich op identificeerbare en op zichzelf zinvolle onderdelen van het criterium veeleer

dan op het criterium als geheel (hoe goed voorspelt de test bepaalde onderdelen van het criterium?)

o uit de afzonderlijke voorspelde elementen wordt de voorspelling van het hele criterium gesynthetiseerd (evidentie van validiteit v/e bepaalde vaardigheid en zo door de validiteit van de kleinere stukjes de validiteit van de gehele test meten)

o vergroot de potentiële steekproef voor het valideringsonderzoeko stap richting begripsvalidering en betekenisanalyse o vooral van belang voor praktische toepassingen van tests in de selectie- en

beroepskeuzesector Bv. testen voor personeelsselectie

5.2.5 Indrukvaliditeit/ face validityo indruk die de geteste persoon heeft over de validiteit van de testo mate waarin de persoon die de test aflegt de test relevant acht voor datgene waarvoor

hij/zij getest wordt relatie tussen test en criterium is duidelijk betekenis van test is duidelijk

o staat los van of de test daadwerkelijk samenhangt met criterium of daadwerkelijk bedoelde eigenschap meet (cf. ‘faith validity’)

o verwant met ‘transparantheid’ conditie voor de ‘acceptatie’ v/e test waarmee naast betrouwbaarheid, validiteit

en nuttigheid voor beslissingen een nieuw gezichtspunt wordt toegevoegd a/d evaluatie van tests

o is wenselijke maar niet noodzakelijke eigenschap van een goede testo Gevaar: zelf geloven dat test valide is

5.2.6 Incrementele validiteit

15

o betere voorspelling door het toevoegen van een of meerdere tests aan reeds aanwezige informatie

o situeert zich op het domein van predictieve validiteit Bv. a.d.h.v. een regressieanalyse: voegt de performante test iets toe? Heeft het een significante voorspellende waarde?

6. Cotan 1959 oprichting COmmissie TestAangelegenheden Nederland (COTAN), naar model van

Educational Test Services in VSo overzicht/beoordeling van in Nederland bestaande en in gebruik zijnde tests:

Documentatie van Tests en Testresearch in Nederlando vroeger twee boekdelen:

Testbeschrijvingen Testresearch

(eerste editie 1961, nadien aanvullingen/updates)o nu volledig elektronisch systeem

Richtlijnen van de COTAN versie mei 2010 (7 specifieke criteria, die erna heel specifiek opgedeeld worden in deelvragen)

o uitgangspunten van testconstructieo kwaliteit van het testmateriaalo kwaliteit van de handleidingo normeno betrouwbaarheido begripsvaliditeito criteriumvaliditeit

Test kan voor beoordeling ingestuurd worden als hij aan een aantal voorwaarden voldoet:o in Nederland verkrijgbaaro voor het Nederlands taalgebied geconstrueerd, vertaald en/of bewerkto afnameprocedure gestandaardiseerdo onderzoek naar of validiteit of betrouwbaarheid of normeno voor professioneel gebruik ontwikkeldo maakt direct of indirect uitspraken over personen mogelijk

Tests die niet officieel uitgegeven zijn of die niet genormeerd zijn (waardoor individuele toepassing af te raden is), kunnen in COTAN opgenomen worden als researchinstrument.

werkwijze COTANo elk van de zeven criteria wordt beoordeeld als 'onvoldoende', 'voldoende' of 'goed'o Quotering is soms argument voor al/niet gebruiken van een test, maar...o relativerende kanttekeningeno 'goed' alleen voor gebruik bij geteste populatieo sommige criteria belangrijker dan andereo gebruik van testen die (nog) niet voldoende scoren moet beargumenteerd worden

16

COTAN-beoordeling WISC-III KAIT1. uitgangspunten testconstructie goed goed2. kwaliteit van het testmateriaal goed goed3. kwaliteit van de handleiding goed goed4. normen voldoende voldoende5. betrouwbaarheid voldoende goed6. begripsvaliditeit voldoende goed7. criteriumvaliditeit onvoldoende onvoldoende (te weinig onderzoek naar criteriumvaliditeit)

Zie vragen per onderdeel in slides

17

pedagogischekringleuven.files.wordpress.com€¦ · Web view2020. 9. 24. · onervarenheid (mbt...

Documents

Transcript of pedagogischekringleuven.files.wordpress.com€¦ · Web view2020. 9. 24. · onervarenheid (mbt...