pedagogischekringleuven.files.wordpress.com · Web viewRotatie: men kan de assen van de...

Deel 1: Inleiding

1. Inleiding tot het data-analytisch proces

Flowchart van het data-analyse proces(= statistische inferentie)

- Voorbereidingen: Zijn de onderzoeksvragen duidelijk? Evalueer proefopzet:

Op toeval toegewezen Quasi-experiment

Controleer op fouten: Decimaal punt

- Exploratieve data-analyse: Vertrouwd worden met de gegevens Uitbijters detecteren Boxplots, histogram (mediaan), …

- Statistische inferentie: Formuleer modellen en hypothesen:

H0 en H1 (beperkt en uitgebreid model) Toetsstatistiek (keuze en waarde) Leid steekproevenverdeling af, bepaal p-waarde en neem een beslissing Bepaal effectgrootte

- Presentatie: Formuleer conclusie:

Geef antwoord op onderzoeksvragen Gebruik inhoudelijke terminologie

Vat resultaten samen in grafiek Geef grenzen van bevindingen aan

1

Deel 2: Variantie analyse

2. Variantie analyse met 1 factor

Exploratieve data-analyseDe vier groepen worden met elkaar vergeleken met behulp van boxplots:

- 1: een beetje rechtsscheef (= positief scheef), hoogste gemiddelde, uitschieter- 2: linksscheef (= negatief scheef)- 3: een beetje rechtsscheef- 4: linksscheef

Notatie en voorstelling van de gegevens- Y ij : score van persoon i in groep j op de AV- n j : aantal observaties in groep j- a : aantal groepen- Y j : steekproefgemiddelde in groep j- Y : globale steekproefgemiddelde

Voorstelling in (tabelvorm of) participant dataset:- 1 lijntje per persoon (iedereen krijgt een nummer)

2

Statistische inferentieANOVA: ANalysis Of VAriance, verschillen in populatiegemiddelden van de vier groepen?

- Formuleer modellen en hypothesen: Beperkt model, H0: Alle gemiddelden zijn gelijk aan elkaar

Y ij=μ+εijεij N (0 , σ2)

Uitgebreid model, H1: Er is ergens een verschil in gemiddelde

Y ij=μ j+εij εij N (0 , σ 2)

- Toetsstatistiek (keuze en waarde): 2 aspecten zijn van belang (beste balans tussen de 2 vinden):

Fit: hoe goed passen de modellen bij de gegevens?

SSError∨Beperkt=∑j=1

a

∑i=1

n j

(Y ij−Y )2=SSTotaal

SSError∨Uitgebreid=∑j=1

a

∑i=1

n j

(Y ij−Y j )2

SSError∨Beperkt≥SSError∨Uitgebreid

Complexiteit van beide modellen:# vrijheidsgraden = # observaties - # geschatte parameters i/h model

df Beperkt=∑j=1

a

n j−1=N−1

df Uitgebreid=∑j=1

a

n j−a=N−a

F-statistiek:

F=

SSError∨Beperkt−SSError∨Uitgebreid

df Beperkt−d f UitgebreidSSError∨Uitgebreid

df Uitgebreid

¿

SSEffect

a−1SSError∨Uitgebreid

N−a

=MSEffect

MS Error∨Uitgebreid= variabiliteit tusen groepenvariabiliteit binnen groepen

SSEffect=∑j=1

a

n j (Y j−Y )2

- Leid steekproevenverdeling af, bepaal p-waarde en neem een beslissing: Resultaten samengevat in ANOVA-tabel:

3

Evaluatie van de effectgrootte- Verschilmaten:

Methode 1: 95% betrouwbaarheidinterval (Y k−Y j )± tN−a (0.975 )×SE (Y k−Y j )

Methode 2: gestandaardiseerd verschil

d=Y k−Y j

√MSError∨Uitgebre id

Interpretatie: 0.25 klein effect, 0.50 medium effect, 1 groot effect- Associatiematen:

Methode 1: R² (proportie verklaarde variantie)

R ²=SSEffect

SSTotaal=η2=proportie verklaarde variantie

Methode 2: ω2 (correctie voor R²)

ω2=SSEffect− (a –1 ) MSError∨Uitgebreid

SSTotaal+MS Error∨Uitgebreid<R ²

- Opmerkingen: Rapporteer altijd maat van effectgrootte Helpt bij het evalueren van praktische significantie maar interpretatie is niet altijd

eenvoudig Verschilmaten:

Ruw verschil: eigenlijk vooral zinvol als AV te interpreteren eenheid heeft (vb. meter, euro, kg, …)

Gestandaardiseerd verschil: uniforme schaal (in termen van standaarddeviaties)

Associatiematen: Eenheidsloos: tussen 0 en 1 Vuistregel: beneden 10% is klein effect R² = 20-30% is zeer hoog (vele factoren beïnvloeden het gedrag)

Praktische significantie? Niet altijd het geval: vb. onderzoeker die theorie o.b.v. cruciale predictie wil

weerleggen ⇒

wil veel evidentie tegen H0 en dus kleine p-waarde

4

Assumpties van ANOVA modellen- 3 assumpties:

Normaliteit: Niet cruciaal tenzij zeer scheve verdelingen en kleine maar ongelijke

steekproefgroottes AV in ANOVA is kwantitatief (continu) Grafisch: boxplots, normaal kwantiel diagram Remedie: transformaties, alternatieve procedures

Onafhankelijkheid: Cruciaal 2 types:

o Clustereffecten: observaties in te delen in clusters, waarbij observaties uit zelfde cluster meer op elkaar lijken dan observaties uit verschillende clusters

o Seriële effecten: personen zijn herhaaldelijk gemeten, waarbij opeenvolgende metingen samenhangen (speciaal geval van cluster)

Gelijke populatiestandaarddeviaties binnen de groepen: Checken van homoscedasticiteit:

o Grafisch: boxplots, residuenploto Statistische tests (vaak echter nadelen): Levene’s test

- Robuustheid tegen uitschieters: Uitschieter is observatie die ver ligt van het groepsgemiddelde ANOVA is niet robuust tegen uitschieters want gebaseerd op gemiddelden en

kwadratische afwijkingen van gemiddelden- Opmerkingen:

Let op voor schendingen van de assumpties Bewust zijn voor steekproefvariabiliteit

ContrastenWelke groepen verschillen er nu juist van elkaar? (verder uitpluizen van de onderzoeksvraag)

Contrast γ: soort verschil van populatiegemiddelden van a groepen

Bij contrastanalyse gaan we volgende hypothesen toetsen:

Complicatie: vaak willen we in 1 studie meerdere contrasten toetsen

5

Soorten contrasten:- Geplande contrasten:

Te toetsen contrast wordt vastgelegd voor het uitvoeren van de studie- Posthoc contrasten:

Te toetsen contrast wordt bepaald op basis van resultaten uit studie- Paarsgewijs contrast:

Slechts 2 groepen betrekken in het contrast- Complex contrast:

Meer dan 2 groepen betrekken in het contrast

Aantal contrasten:- Één gepland contrast:

Populatiewaarde contrast:

Geschat via groepsspecifieke steekproefgemiddelden:

Toetsstatistiek:

- Meerdere geplande contrasten:

Complicatie bij toetsen van meerdere geplande contrasten voor één studie: Type-1 fouten:

o αPC: individuele kans op type-1 fouto αPE: experimentgebaseerde kans op type-1 fout

methode waar vergeleken wordt met andere α: Bonferroni Pr (ten minste 1 type-1 fout) ≤ PαPC = αPE

αPC = αPE/P- Complexe posthoc contrasten:

Posthoc contrasten zijn problematisch: Wetenschapsfilosofisch probleem: je gebruikt je gegevens om hypothese op

te stellen en die hypothese toets je vervolgens met dezelfde data:

Vergelijk met andere steekproevenverdeling om p-waarde te berekenen

Methode van Scheffé:

Verwerp H0 als |t c|>√ (a−1 )Fa−1 , N−a (1−aPE )

6

- Paarsgewijze contrasten: Drie geplande paarsgewijze contrasten toetsen: Bonferroni met P=3 Alle mogelijke paarsgewijze contrasten toetsen:

Bonferroni met P = a×(a−1)/2o Probleem: als a groot is, wordt P al snel zeer groot en het gevolg is

een erg conservatieve procedure Methode met groter onderscheidingsvermogen: Tukey-Kramer (TK)

Contrastbeslissingsboom:

7

3. Variantie analyse met 2 factoren

Exploratieve data-analyseAantal geproduceerde woorden in functie van de verwerking (oppervlakkig vs. diepgaand) en het type woorden (concreet vs. abstract).

Notatie en voortelling van de gegevensProefopzet met 2 factoren: A en B

- A : j = 1,..., a niveaus - B : k = 1,..., b niveaus - a ´ b proefopzet - n observaties in elke cel - Yijk : score van persoon i in conditie of cel (j,k)

Voorstelling in (tabelvorm of) participant dataset

8

Hoofdeffecten en interactieKan je aflezen in de tabel:

Of op een lijnplot:

- Hoofdeffecten: 2 gemiddelden nemen en met elkaar vergelijken (effect wanneer verschil)- Interactie: wanneer lijnen niet parallel lopen is er sprake van interactie

Disordonale of cross-over interactie: wanneer lijnen kruisen

9

Effectparameters- Variantie-analyse met 1 factor:

Populatiegemiddelde voor groep j: μ j

Globale populatiegemiddelde: μ=1a∑j=1

a

μ j

Uitgebreid model: Y ij=μ j+εij=μ+(μ j−μ)+εij=μ+α j+εij Hieruit volgt dat alle α’s optellen tot 0

- Variantie-analyse met 2 factoren: Meest uitgebreide model mogelijk: Y ijk=μ jk+εijk=μ+α j+βk+(αβ ) jk+εij Waarbij:

Alle interactie-effect parameters tellen op tot 0 (ook per rij, kolom)

Statistische inferentieEr zijn 3 te toetsen onderzoeksvragen met bijhorende hypothesen:

- Is er een hoofdeffect van factor A?

- Is er een hoofdeffect van factor B?

- Is er een interactie-effect van A en B?

Hoofdeffect van factor A:

- Formuleer modellen en hypothesen:

10

Vrijheidsgraden:

- Toetsstatistiek: keuze en waarde

Opmerkingen: Errorkwadratensom van beperkte model wordt niet opgenomen in ANOVA-

tabel bij multifactoriële variantie-analyse SSTotaal is errorkwadratensom van een beperkt model met gelijke μ’s: “binnen-cellen”-rijlabel voor error van uitgebreide model, want MSerror|uitgebreid

is zuivere schatter van populatie variantie σ 2

- Bepaal effectgrootte

Hoofdeffect van factor B: analoog aan factor A

Interactie-effect: analoog aan factor A

Volledige ANOVA-tabel na uitvoeren deze 3 onderzoeken:

11

Formuleer aan het einde ook altijd zeker een conclusie die de 3 effecten weergeeft.

Opmerkingen:

- Geen Bonferroni- of Scheffé-correctie voor feit dat je eigenlijk 3 toetsen uitvoert: 3 families van toetsen, kans op type-1 fout wordt per familie gecontroleerd

- Relatie effectenkwadratensom en totale kwadratensom:

ContrastanalyseValt buiten deze cursus

12

Deel 3: Regressieanalyse

4. Enkelvoudige lineaire regressie

Notatie- i : index voor “experimentele eenheid” of observatie (i = 1, ..., n)- Yi : score op criterium voor eenheid i - Xi : score op predictor voor eenheid i

Exploratieve data-analyse

0 5 10 15 20 25 300

10

20

30

40

50

60

letterkennis

scor

e op

één

min

uut t

est

Het enkelvoudige lineaire regressiemodel assumpties en interpretatie

Achterliggende assumpties:

- Voor elke waarde van X, is verdeling van Y normaal (elke waarde van X definieert subpopulatie van Y-scores)

- Varianties van alle normale subpopulaties zijn gelijk- Verband tussen X en verwachte waarde voor Y is lineair- Alle observaties zijn onafhankelijk

13

Interpretatie van parameters of regressiecoëfficiënten:

- β0 = intercept, verwachte waarde van Y indien X gelijk is aan 0- β1 = helling, regressiegewicht (of slope), verwachte verandering in Y bij eenheidstoename X

Statistische inferentieAan de hand van het regressiemodel kunnen we de inferentie met betrekking tot de helling maken.

- Formuleer modellen en hypothesen:

Kleinste kwadratenschatters nodig voor onbekende parameters in beide modellen:

We schatten als regressielijn een horizontale lijn met als intercept het gemiddelde van Y

Intercepten zijn niet gelijk aan elkaar

14

Fit van beide modellen: errorkwadratensom, samenvattende maat voor grootte van residuen

Residuen onder het beperkte en uitgebreide model:

Complexiteit van beide modellen:Aantal vrijheidsgraden = aantal observaties – aantal geschatte parameters in het model

- Toetsstatistiek: keuze en waarde Optie 1: F-statistiek

15

Optie 2: t-statistiek

Men kan aantonen dat er geldt:

- Bepaal steekproevenverdeling en p-waarde: Gegeven H0 is waar:

Resultaten van F-toets kunnen weergegeven worden in ANOVA-tabel:

Effectgrootte- Drie maten voor effectgrootte:

Associatiesterkte: Proportie verklaarde variantie: R²

Opmerkingen:o R² wordt determinatiecoëfficiënt genoemdo 0 ≤ R² ≤ 1o Bij enkelvoudige lineaire regressie: R² = r XY

2

16

Regressiecoëfficiënt (en corresponderend BI):

Gestandaardiseerde regressiecoëfficiënt: Populair in sociale wetenschappen, omdat ze uitweg bieden als meeteenheid

niet duidelijk te interpreteren valt Zowel X als Y standaardiseren:

o Hoe score op X* en Y* interpreteren: aantal standaarddeviaties dat observatie boven of onder het gemiddelde scoort

Indien we nu Y* regresseren op X* dan verkrijgen we als regressiecoëfficiënten:

Hoe β1¿ interpreteren?

o Bij een toename van 1 standaarddeviatie in X is er een verwachte

verandering in Y van β1¿=rXY standaarddeviaties

- Formuleer conclusie

Assumpties- Vier assumpties:

Lineariteit: Twee afwijkingen mogelijk:

o Niet-lineaire relatieo Uitschieters die de lineaire relatie vertekenen

Regressie is niet robuust:o Schattingen van parameters zijn niet meer zuivero p-waarden en BI reflecteren niet de juiste onzekerheid

maak gebruik van andere methoden en/of andere uitschieteranalyse Constante variantie (homoscedasticiteit):

Zie variantie-analyse Regressie is niet (helemaal) robuust:

o Schattingen van parameters zijn nog wel zuivero p-waarden en BI reflecteren niet de juiste onzekerheid

Normaliteit: Schending van normaliteit is minst erg

Onafhankelijkheid- Hoe robuust is lineaire regressie?

Merk op dat R² niet gebruikt kan worden om de validiteit van de modelassumpties te evalueren

17

Grafische hulpmiddelen voor checken assumpties- Drie belangrijke hulpmiddelen:

Spreidingsdiagrammen (Y vs. X)

Kijk in elke band of de verdeling op die van een andere band lijkt en of de punten dicht genoeg bij de regressierechte liggen

Residuenplots (Y−Y vs. Y ) Zinvol om:

o Observaties met extreme afwijkingen t.o.v. de regressielijn te detecteren (uitschieters)

o Niet-lineariteit op te sporeno Heteroscedasticiteit te detecteren

Visuele perceptie: patronen, afwijkingen van lineariteit, … zijn gemakkelijker te beoordelen t.o.v. horizontale lijn dan t.o.v. niet-horizontale lijn

Boxplots van residuen Y−Y Opsporen van uitschieters en afwijkingen van normaliteit:

o Niet zo heel dramatisch bij 1 uitschietero Wel dramatisch bij enorme scheefheid en uitschieters

18

5. Meervoudige lineaire regressieCriterium en predictoren zijn allemaal kwantitatief

Exploratieve data-analyse- Draftman’s plot of matrix van spreidingsdiagrammen

Notatie- i : index voor “experimentele eenheid” (i = 1, ..., n)- k : index voor predictor (k = 1, ..., p)

extra index om predictor aan te duiden- Yi : score op criterium voor eenheid i - Xik : score op predictor Xk voor eenheid i

Het meervoudige lineaire regressiemodel

- Als p = 2, dan kan de regressiefunctie worden voorgesteld als een vlak in drie dimensies (X1, X2 en Y)

- Voor p > 2 is een grafische voorstelling niet meer mogelijk

19

- Interpretatie van de regressiecoëfficiënten:

- Als bk = 0, dan is er geen verband tussen Y en Xk in de populatie bovenop de andere predictoren

- als bk ¹ 0, dan is er een verband tussen Y en Xk in de populatie bovenop de andere predictoren

interpretatie van de regressiegewichten bij meervoudige lineaire regressie is relatief of contextafhankelijk (context = andere predictoren in het model)

- achterliggende assumpties? Voor elke combinatie van waarden voor X1, ..., Xp is de verdeling van Y normaal

(combinatie van waarden voor X1, …, Xp definieert een subpopulatie van Y-scores) Varianties van alle normale subpopulaties zijn gelijk Verband tussen verwachte waarde voor Y en X1, ..., Xp is lineair De observaties zijn onafhankelijk

Statistische inferentie met betrekking tot één gewicht- welke inferenties zijn mogelijk?

Inferentie m.b.t. 1 regressiegewicht Gezamenlijke inferentie m.b.t. meerdere of alle regressiegewichten Toetsen of twee regressiegewichten aan elkaar gelijk zijn Inferentie m.b.t. intercept Inferentie m.b.t. verwachte waarde voor Y gegeven een bepaalde combinatie van X1

= x1, ..., Xp = xp

- Hier focussen we op inferentie m.b.t. 1 regressiegewicht- Formules zijn terug te vinden op het formularium- Formuleer modellen en hypothesen:

Kleinste kwadratenschatters voor de onbekende parameters in beide modellen: Indien 2 predictoren:

Meer dan 2 predictoren valt buiten bestek deze cursus

20

Interpretatie van β1: bijdrage van X1 in de voorspelling van Y bovenop de bijdrage van X2 aan de voorspelling

rY1 = directe correlatie tussen X1 en Y r12rY2 = indirecte correlatie tussen X1 en Y

voor directe correlatie gebeurt een correctie

waarde van de regressiegewichten hangt af van de andere predictoren in de regressieanalyse (en hun onderlinge correlaties)

fit van beide modellen:

Merk op: als p > 1, SSTotaal ≠ SSError|Beperkt want beperkt model bevat dan p – 1 predictoren

complexiteit van beide modellen:aantal vrijheidsgraden = aantal observaties – aantal geschatte parameters in het model

- toetsstatistiek: keuze en waarde optie 1: F-statistiek

optie 2: t-statistiek

Net zoals bij enkelvoudige lineaire regressie geldt er: F = t²- bepaal steekproevenverdeling en p-waarde:

gegeven H0 is waar:

bepaal p-waarde

21

Effectgrootte- Vier maten voor effectgrootte:

Associatiesterkte (voor het hele model): Proportieverklaarde variantie:

(in SPSS zie je gewoon R²) Indien geen ambiguïteit mogelijk gebruiken we ook R² als notatie In context van meervoudige regressie wordt R² coëfficiënt van meervoudige

determinatie genoemd (gebruik van meerdere predictoren) R wordt de meervoudige correlatie genoemd Er kan worden aangetoond dat R = rY Y

Probleem is dat door alsmaar predictoren toe te voegen, R² alleen maar gelijk kan blijven of stijgen:

o Door steekproefvariabiliteit zullen predictoren die in de populatie geen voorspellende waarde hebben soms toch R² opdrijven

o Je kan R² quasi gelijkmaken aan 1 door allerlei irrelevante predictoren toe te voegen

Alternatief: gecorrigeerde of adjusted R²

o Als p klein is: ongeveer gelijk aan R²o Als p groter wordt: correctie wordt groter

22

Gekwadrateerde partcorrelatie (voor een bepaalde predictor): Effectgrootte of bijdrage van elke predictor in voorspelling van het criterium

evalueren is niet zo eenvoudig als in enkelvoudige lineaire regressie Voor eenvoudig geval p= 2 (Y, X1, en X2):

o Als je X2 voorspelt op basis van X1 (regressie van X2 op X1), dan kan X2 als volgt ontbonden worden:

o Als X2 nog een bijdrage heeft in de voorspelling van Y bovenop X1, dan moet het residu correleren met Y

Semipartiële of partcorrelatie

Notatie: Formule:

Eigenschap:

Als X2 geen bijdrage heeft in voorspelling voor Y bovenop X1:

o Relatie met meervoudige determinatiecoëfficiënt:

o Uitbreiding naar p predictoren:

Regressiecoëfficiënt (en corresponderend BI):

Gestandaardiseerde regressiecoëfficiënt: Worden bekomen door regressieanalyse uit te voeren op

gestandaardiseerde variabelen Als p = 2

23

Correlaties tussen predictoren- Predictoren zijn vaak onderling gecorreleerd- Leiden tot verrassende fenomenen bij meervoudige regressie, die vaak voorkomen in de

praktijk: Onechte correlatie Suppressie (multi)collineariteit

Contradicties tussen partcorrelatie en enkelvoudige correlatie- Als predictoren ongecorreleerd zijn:

Geschatte regressiegewichten veranderen niet door andere predictoren op te nemen Partcorrelaties zijn gelijk aan enkelvoudige correlaties en R² kan in onafhankelijke

bijdragen opgesplitst worden Vb. als p = 2

- Onechte correlatie: Predictor is gecorreleerd met criterium, maar draagt niet bij aan voorspelling

bovenop andere predictoren, vb:

- Suppressie: Eigenlijk omgekeerde fenomeen van onechte correlatie: X2 correleert niet met Y,

maar levert wel bijdrage in voorspelling van Y bovenop X1, vb:

Suppressie in ruime zin: inbrengen van op zichzelf zwakke voorspeller X2 zorgt ervoor dat X1 en X2 het criterium veel beter voorspellen

- (multi)collineariteit: Sterke lineaire afhankelijkheid tussen twee of meerdere predictoren, leidt tot

instabiele regressiegewichten (maar niet tot lage proportie verklaarde variantie) Bouncing Bèta’s: door 1 observatie toe te veranderen of predictor toe te

voegen, veranderen de Bèta’s enorm.

24

Hoe detecteren we (multi)collineariteiten? Dramatische veranderingen in geschatte regressiegewichten wanneer een

predictor wordt toegevoegd of weggelaten, of wanneer een observatie verandert of weggelaten wordt

Geen significante toetsen voor de regressiegewichten van zeer belangrijke variabelen (of grote SE en BI)

Geschatte regressiegewichten met een teken tegengesteld aan theoretische predicties en/of verwachtingen

Hoge correlaties tussen paren van predictoren Hoe lossen we dit op?

Weglaten van een predictor of eerst uitvoeren van PCA analyse

6. Speciale predictoren bij meervoudige lineaire regressie en modelconstructie

Centreren- Enkelvoudige lineaire regressiefunctie:

- Intercept β0: verwachte waarde van Y indien X = 0- Vaak is X = 0 geen realistische waarde en is ze niet

geobserveerd in de steekproef- Uitspraak over verwachte Y voor X = 0 is dan extrapolatie- Extrapolatie is vaak zinloos en mogelijk risicovol:

Zinloos: vaak is X = 0 totaal onrealistische waarde Risicovol: uitspraak over verband tussen Y en X in

regio waar geen observaties zijn- Alternatief: centreren van predictor X- Definitie:

- Nieuwe regressievergelijking:

- Intercept ~β0: verwachte waarde van Y indien ~X = 0

- Na centreren heeft intercept dus andere interpretatie, die waarschijnlijk eenduidiger is- Geschatte helling verandert niet, intercept wel:

- Verklaarde variantie en voorspellingen zijn eveneens hetzelfde- Analoge analyse voor meervoudige lineaire regressie met gecentreerde predictoren

25

Categorische predictoren en indicatorvariabelen- Exploratieve data-analyse:

- Dummycodering: Informatie in categorische variabele moet numeriek gemaakt worden om bruikbaar

te zijn voor regressieanalyse Gebeurt via een verzameling van speciaal geconstrueerde indicator- of

dummyvariabelen die de waarden 0 of 1 aannemen Om c categorieën voor te stellen zijn er c – 1 indicatorvariabelen nodig

De laatste categorie heeft op elke dummyvariabele de waarde 0o Anders zou dit perfecte collineariteit creëren

Vb. 4 categorieën: dummyvariabelen X2, X3 en X4 nodig- Populatiemodel: c = 2

We veronderstellen 2 predictoren (p = 2) waarbij X1 een kwantitatieve predictor is en X2 een indicatorvariabele (c = 2) voor een categorische variabele:

Interpretatie van regressiecoëfficiënten: Verwachte criteriumscore voor observatie uit groep 1:

o Regressie van Y op X1 is lineair met intercept β0 en regressiegewicht β1 in groep 1

Verwachte criteriumscore voor observatie uit groep 2:

o Regressie van Y op X1 is lineair met intercept β0+β2 en regressiegewicht β1 in groep 2

26

Samengevat: b0 = intercept van groep 1 (referentiegroep) b1 = regressiegewicht voor X1 voor beide groepen b2 = verschil tussen intercept van beide groepen

Omdat regressiegewicht van X1 gelijk is in beide groepen: Regressielijn per groep zijn parallel Verband tussen Y en X1 is hetzelfde in beide groepen en dus geen interactie

tussen groep en X1

- Algemene geval met c categorieën:

We veronderstellen p = c waarbij X1 een kwantitatieve predictor is en X2,…,Xc indicatorvariabelen

Xi2 = 1 voor groep 2, 0 anders Xic = 1 voor groep c, 0 anders Groep 1 is de referentiegroep

Interpretatie van regressiecoëfficiënten: Verwachte criteriumscore voor observatie uit groep 1:

o Regressie van Y op X1 is lineair met intercept β0 en regressiegewicht β1 in groep 1


o Regressie van Y op X1 is lineair met intercept β0+β2 en regressiegewicht β1 in groep 2

Verwachte criteriumscore voor observatie uit groep c:

27

o Regressie van Y op X1 is lineair met intercept β0+βc en regressiegewicht β1 in groep c

Samengevat: b0 = intercept van groep 1 (referentiegroep) b1 = regressiegewicht voor X1 in alle groepen (1 t.e.m. c) b2 = verschil tussen intercept van groep 2 en groep 1

… bc = verschil tussen intercept van groep c en groep 1

Omdat het regressiegewicht van X1 hetzelfde is in alle groepen Parallelle regressielijnen Verband tussen criterium en predictor X1 is hetzelfde in alle groepen en dus

is er geen interactie tussen de categorische predictor en X1

- Statistische inferentie: H0: β0=0

Regressielijnen in beide groepen vallen samen Geen verschil tussen Intercepten van beide regressielijnen

Waarom schat men niet gewoon een aparte regressielijn per groep? β1 wordt verondersteld hetzelfde te zijn in beide groepen, dus is het beter

om de informatie van de twee groepen te gebruiken om die parameter te schatten

Men verkrijgt een betere schatting van σ 2 door gebruik te maken van meer gegevens (en σ 2 is belangrijk bij de berekening van SE)

- Opmerkingen: Modellen met meerdere kwalitatieve variabelen: zelfde principe Modellen met enkele kwalitatieve variabelen (één of meerdere): ANOVA-modellen

(zie H7) Modellen met kwalitatieve en kwantitatieve variabelen, waarbij de kwalitatieve

variabelen van primair belang zijn: ANCOVA-modellen (zie H7)

Productterm voor een interactie tussen een kwantitatieve en categorische predictor- Op basis van het spreidingsdiagram lijkt er een

interactie te zijn tussen leeftijd en geslacht- Hoe interactie modelleren?

Indicator- of dummyvariabele Xi2, met mannen als referentiegroep

28

- Interactie wordt in regressiemodel opgenomen via nieuwe variabele die het product is van twee variabelen waartussen interactie vermoed wordt:

29

- Populatiemodel:

We veronderstellen p = 3 waarbij X1 een kwantitatieve predictor is en X2 een indicatorvariabele en X3 een productterm (interactie tussen X1 en X2)

- Interpretatie van regressiecoëfficiënten: Verwachte criteriumscore voor observatie uit groep 1:

Regressie van Y op X1 is lineair met intercept β0 en regressiegewicht β1 in groep 1


Regressie van Y op X1 is lineair met intercept β0+β2 en regressiegewicht β1+ β3 in groep 2

- Samengevat: b0 = intercept van groep 1 (referentiegroep) b1 = regressiegewicht voor X1 in groep 1 b2 = verschil tussen intercept van groepen 1 en 2 b3 = verschil tussen helling voor X1 tussen groep 1 en 2

- Omdat helling van X1 niet meer gelijk hoeft te zijn in alle groepen: Niet-parallelle regressielijnen Verband tussen Y en X1 is niet gelijk in alle groepen en dus is er interactie tussen de

categorische predictor en X1

- Statistische inferentie: H0: β3=0 Wat bij interactie tussen categorische variabele met c categorieën en één

kwantitatieve variabele? c – 1 indicatorvariabelen c – 1 productvariabelen

30

Productterm voor een interactie tussen twee kwantitatieve predictoren- Interactie tussen continue variabelen:

Vroeger: dichotomisatie van één of allebei de variabelen Nu: niet doen, want je verliest informatie

- Net zoals bij interactie tussen categorische en continue predictor wordt er gewerkt met productterm

- Populatiemodel:

- Statistische inferentie loopt zoals voorheen- Waarom zorgt aanwezigheid van de productterm voor modelleren interactie?- We bekijken binnenscore regressielijn:

verband tussen criterium en een predictor, gegeven bepaalde waarde voor andere predictor

Eerst kijken hoe die lijnen eruit zien zonder interactie Stel dat β3 = 0, dan is voor X2 = a

o Relatie tussen Y en X1 is gelijk voor alle waarden van X2

o Intercept van regressielijn verandert, helling niet Kies a als laag, gemiddeld en hoog:

Grafische voorstelling zonder interactie

Waarom slechts beperkt aantal a waarden?o In principe oneindig veel waarden nodig, maar is niet handig en

overzichtelijko Gemiddelde plus en min 1 standaarddeviatie zorgt ervoor dat je kijkt

naar het gebied waar waarde van X2 liggen

31

Nu bekijken we de zaak met interactie: Stel dat β3 ≠ 0 (dus wel interactie), dan is voor X2 = a

o De relatie tussen Y en X1 verandert naargelang de waarde van X2

o Zowel intercept als helling wijzigen We kiezen dezelfde drie a waarden als daarnet Grafische voorstelling met interactie

Wat is de interpretatie van β1 en β2?o De relatie tussen Y en X1 als X2 = 0o De relatie tussen Y en X2 als X1 = 0

Betere interpretatie van β1 en β2 kan verkregen worden door de predictoren X1 en X2 te centreren

Interactieterm is dan het product van de twee gecentreerde predictoren

Indien ~X2 = 0 dan is

o Dus ~β1 is het verband tussen Y en ~X1 (en X1) voor een gemiddelde waarde van X2

3 binnenscore regressielijnen op basis van 3 mogelijke waarden voor a

Grafische voorstelling

32

Zonder gecentreerde predictoren en met interactie: Geen verschil in voorspellende waarde van Y of proportie verklaarde

variantie Aantrekkelijke interpretatie van de regressiegewichten van predictoren gaat

verloren Belang van interacties:

Dragen vaak weinig bij tot proportieverklaarde variantie Let op met interpretatie hoofdeffecten bij significantie interactie Vaak wordt één van de predictoren (kwantitatief of categorisch) in de interactie ook

een moderatorvariabele genoemd Deze variabele modereert het verband tussen het criterium en de andere

predictor

Modelconstructie- Tot nu toe: gedaan alsof we weten welke predictoren in het regressiemodel horen- Situatie in realiteit is complexer: ligt vaak niet helemaal vast welke predictoren we best

opnemen- Rekening houden met twee soorten overwegingen:

Inhoudelijke Statistische

- Doel: vinden van interessant model dat goed bij de gegevens past zonder onnodig complex te zijn

- Er zijn geen duidelijke, afgebakende en vaststaande regels die je automatisch kan volgen, enkel principes:

Laat je leiden door inhoudelijke overwegingen: Wat zijn de onderzoeksvragen? Wat zegt de theorie? Resultaat eerder onderzoek? Wat zegt het gezond verstand?

o Predictoren die om één of meerdere van deze redenen belangrijk zijn, worden best opgenomen in de regressievergelijking

Neem interacties tussen predictoren met sterke hoofdeffecten op: Meestal niet nodig om alle mogelijke interacties te evalueren

33

Interacties tussen meer dan 2 predictoren: zeer gegronde theoretische overwegingen nodig om ze op te nemen

Er is een voorkeur voor zogenaamde hiërarchische modellen: Als het model een interactie bevat, worden corresponderende hoofdeffecten

best ook opgenomen Als het model een kwadratische term (X²) bevat, wordt ook best de lineaire

term opgenomen Een intercept is best altijd aanwezig

34

Voorkeur om enkel significante effecten te behouden in het model maar elk van voorgaande principes kan deze voorkeur overrulen:

Reden: te veel predictoren opnemen kan ervoor zorgen dat meerdere effecten oninterpreteerbaar worden (door onderlinge correlaties)

Vb. intercept is vaak niet significant Houd rekening met significantie en verwachtingen van effecten: welke predictoren

laat je vallen uit het model indien mogelijk? Niet significant en niet verwachte teken: vaak een reden om predictor te

laten vallen Niet significant maar verwachte teken: meestel ok om deze op te nemen Significant maar niet verwachte teken: nadenken waarom, predictoren

weglaten/toevoegen, eventueel nieuwe data verzamelen Significant en verwachte teken: opnemen in model

- Opmerkingen: Onderscheid tussen waar en nuttig model Belang van replicatie:

Een enkele studie is nooit afdoende bewijs voor bestaan van een effect Stabiliteit is belangrijk:

Effect verandert niet door aan- of afwezigheid van andere predictoren Doel van een studie kan ook de voorspelling van het criterium zijn Oppassen met significantie in contexten met veel observaties (waar quasi elk effect

significant is): Effecten die niet groot genoeg zijn maar wel significant kan men dan toch

weglaten Effectgrootte is dan belangrijk

Onderscheid observationeel en experimenteel onderzoek: Experimenteel onderzoek: vaak beperkte set van factoren waarbij alle

effecten simultaan (hoofdeffecten + interacties) worden onderzochto Modelconstructie vaak minder belangrijk

Groepen of verzamelingen van predictoren kunnen ook samen horen en samen in en uit model:

Vb. dummyvariabelen Vermijd automatische selectieprocedures Constructie van een model is een iteratief creatief proces

35

7. Covariantie analyse en het algemeen lineair model

ANCOVA- Bij experimenten is veel van de variabiliteit in afhankelijke variabele

Niet gevolg van experimentele manipulatie (onafhankelijke variabele) Maar van bestaande individuele verschillen:

Covariaat = continue individuele verschilvariabele- Doel covariantie analyse: controleren voor variabiliteit ten gevolge van covariaat- Gevolg: stijging van onderscheidingsvermogen (power) en precisie (kleinere BI voor contrast)

- Covariaat en afhankelijke variabele moeten niet op dezelfde schaal gemeten zijn- Exploratieve data-analyse:

Gecodeerd spreidingsdiagram:

- Statistische inferentie: Zelfde werkwijze als in ANOVA en regressieanalyse Notatie ontlenen we aan ANOVA (link met regressie later)

36

STAP 1:

Error kwadraten sommen bij ANCOVA:

Aantal vrijheidsgraden:

STAP 2:

STAP 3: Gegeven H0 is waar:

38

STAP 4: Partiële maat:

Proportie verklaarde variantie R²:o Gebaseerd op gewone ANOVA analyse, dus geen rekening gehouden

met covariaat Conclusie Functie covariantie analyse:

Vergroten onderscheidingsvermogen omnibustoets Vergroten precisie schatting effecten

Vergelijk met resultaat zonder covariaat in rekening te brengen (ANOVA)

- Aangepaste gemiddelden: ANCOVA: Vergelijk voorspelde Y-waarden per groep gegeven bepaalde waarde op covariaat X Gegeven dat ANCOVA neerkomt op meervoudige regressie met parallelle

regressielijnen voor de groepen, blijft het verschil tussen de voorspelde Y-waarden gelijk voor verschillende X-waarden

We kijken naar adjusted means, de gemiddelde scores in de groepen gegeven een gemiddelde waarde voor X

39

Voorspelde waarde voor groep j gegeven Xij:

Waarbij aj een groepsspecifiek intercept is Adjusted mean per groep:

Correctieterm voor gemiddelden is een product

Grootte van de aanpassing hangt af van: Geschat regressiegewicht van de covariaat Verschil tussen algemeen gemiddelde en groepsgemiddelde (voor de

covariaat) Waarom niet veel adjustment in een experiment?

Groepen zijn naar verwachting gelijk met betrekking tot de covariaat- Assumpties:

ANCOVA model:

(technische) assumpties: Homoscedasticiteit Onafhankelijkheid van de residuen Normaliteit van de residuen Covariaatscores zijn vrij van meetfouten Relatie tussen E(Yj|Xj) en Xj is lineair

Regressielijnen voor de groepen zijn parallel:o Kan gemakkelijk getoetst wordeno Eigenlijk minder cruciale assumptie, maar vergemakkelijkt

interpretatie Inhoudelijke assumptie:

Voldoende overlap van de covariaatscores tussen de condities:o In de praktijk: nagaan dat de gemiddelden van covariaat niet

verschillen tussen de conditieso Gebrek aan overlap ontstaat in vier gevallen:o Geval 1: ongelukkige randomisering in experiment:

Gemiddeld genomen verschillen tussen condities Maar kan wel gebeuren in een concreet geval Leidt niet tot problemen m.b.t. interpretatie

o Geval 2: onzuivere toewijzingsprocedure (geen probleem)o Geval 3: behandeling beïnvloedt covariaat in experiment (probleem)

Duidelijke onderzoeksvraag en goede vertaling in design en analyse zijn een must

o Geval 4: niet-equivalente groepen quasi-experiment

40

Algemeen lineair model- ANOVA, regressie en ANCOVA zijn voorbeelden van het algemene lineaire model (ALM):

Waarbij predictoren X1,…,Xp zowel continu als indicatorvariabelen kunnen zijn: Kwalitatief: ANOVA Kwantitatief: regressie Ertussen: ANCOVA

- ANOVA: proefopzet met 1 factor met a niveaus:

Verwachte waarden in elke conditie onder beide modelformuleringen: beide

modellen hebben a = 4 parameters:

ANOVA: zijn alfa’s gelijk of niet? Regressie: 4 verschillende toetsen

- ANCOVA: regressiemodel met covariaat en vier indicatorvariabelen:

Verwachte waarden in elke conditie onder beide modelformuleringen:

Zelfde SSError en verklaarde variantie voor deze modellen

41

8. Regressie, causaliteit en mediatie

Interpretatie regressieanalyse- Twee manieren:

Predictieve interpretatie: Verwacht verschil in criterium tussen 2 subpopulaties die 1 eenheid

verschillen m.b.t. bepaalde predictor en op de andere predictoren dezelfde waarde hebben (vergelijking tussen individuen)

Vb. groep van werkende moeders vergelijken met groep van niet-werkende moeders met hetzelfde IQ

Tegenfeitelijke interpretatie: Verwachte verandering in criterium bij een eenheidstoename in een

bepaalde predictor waarbij de andere predictoren constant blijven (vergelijking binnen individuen)

Vb. werkstatus van een moeder veranderen en rest constant houden

Tegenfeitelijke theorie van causaliteit- Scores invullen volgens Tegenfeitelijke interpretatie:

- Werkelijkheid:

42

Deze waarden kennen we niet dus kan het behandelingseffect niet berekend worden- Fundamentele probleem van causale inferentie:

Je kan nooit beide potentiële scores observeren Causale effect van een behandeling valt niet te berekenen:

Probleem kan enkel opgelost worden door het maken van extra assumpties- Drie basismethode om het fundamentele probleem op te lossen:

Gebruik maken van een vervangscore (close substitute): Vb. effect van dieet op gewicht De potentiële scores kunnen niet simultaan geobserveerd worden Gebruik van pre- en postbehandeling score:

Cruciale assumptie: unit homogeneity (al de rest moet constant blijven) Toevallige toewijzing (random assignment):

Techniek die bij experimentele proefopzetten wordt gebruikt Toevallige toewijzing: toewijzing en potentiële scores zijn onafhankelijk Gevolg: geen systematische selectie en dus gemiddeld gezien zijn de twee

groepen gelijk met betrekking tot alle geobserveerde en ongeobserveerde storende variabelen (en die zijn geassocieerd met hogere/lagere potentiële scores)

Individuele causale effecten nog altijd niet te berekenen Het gemiddelde causale effect is wel te schatten omdat, buiten de

experimentele behandeling, de participanten in controleconditie gemiddeld gezien gelijk zijn aan die van de experimentele conditie

Schatting van gemiddelde causale effect in experiment is het verschil tussen de twee steekproefgemiddelden

Statistische controle (statistical adjustment): Lange tijd experimenten beschouwd als de enige manier om causale

inferenties te maken Maar experimenteel onderzoek is vaak niet mogelijk

o Quasi-experimenteel onderzoek

43

o Controle-/behandelingsconditie verschillen soms op tal van vlakkeno Vooral wanneer groepen niet toevallig ingedeeld zijn (selectiebias)

Vb. evaluatie van een VDAB-opleidingo Ook zonder opleiding zou groep die eraan deelnam waarschijnlijk

meer verdienen (motivatie, …) Uitweg: statistische controle:

o Door te controleren voor variabelen die een verschil uitmaken tussen controle- en behandelingsgroep proberen we te schatten wat er zou gebeurd zijn mocht een participant uit de controlegroep de behandeling gekregen hebben en vice versa

o Variabelen waarvoor we controleren: confounding variables of storende variabelen

Mediatie- Vaak is causale inferentie een black box aanpak:

Is er een effect van een variabele op andere variabele?- Soms wil men een gedetailleerder beeld van het causale proces (causale mechanisme)- Mediatieanalyse kan hierbij helpen:

Mediator is variabele die tussen de oorzaak (T) en gevolg (Y) zit Mediator medieert de relatie tussen T en Y

- Wat is het? Analysetechnieken om mediatie te onderzoeken:

Padanalyse Regressie analyse in drie stappen (meest populair):

o Regressie van Y op T: is T gerelateerd met Y? is er een direct effect van behandeling op criterium dat kan gemedieerd worden?

o Regressie van M op T: is er een effect van de behandeling op de mediator?

44

o Regressie van Y op M en T: is er een relatie tussen de mediator en criterium indien de behandeling constant gehouden wordt? Is er nog een relatie tussen de behandeling en criterium na controle voor de mediator?

o Verschillende types van effecten: Totaal effect van T op Y (groen) Indirect (of gemedieerd) effect van T op Y (rood) Netto effect van T op Y (blauw)

Voor eenvoudige mediatiemodellen leveren beide technieken dezelfde resultaten op Belangrijke inferentievragen:

Volledige of partiële mediatie?o Statistische inferentie i.v.m. γ2:

o Als γ2 = 0 dan is er spraken van volledige mediatie, anders partiëleo Standaardfout wordt bekomen via gewone meervoudige

regressieanalyseo Inferenties gebaseerd op t-verdeling:

t-toets Betrouwbaarheidsinterval

Hoe sterk is het indirect (of gemedieerd) effect?

o Schatting:

o Benaderende standaardfout:

45

o Inferenties gebaseerd op standaardnormale steekproevenverdeling: z-toets Betrouwbaarheidsinterval

o Bovenstaande is procedure van Sobelo Bootstrap gebaseerde toets is beter (via teruglegging)

Sterkte van de mediatie nagaan (effectgrootte)?o Ratio indirect effect en totaal effect:

Werkt enkel goed bij grote steekproeven (> 500) Effectgrootte ligt niet noodzakelijk tussen 0 en 1

(soms >1 of <0)

46

Opmerkingen:o Is de eerste stap in de gebruikte procedure nodig? JA

Als T en Y ver van elkaar liggen in de tijd, is de directe relatie misschien zwak, maar kan er toch sprake zijn van mediatie (distaal mediatieproces)

Als T en Y dicht bij elkaar liggen in de tijd, is de directe relatie waarschijnlijk sterk (proximaal mediatieproces)

o Normale patroon is dat nettopad zwakker is dan totale pad: Suppressie kan ook optreden als α 1x γ1en γ2 een

tegengesteld teken hebben Soms is het netto-effect γ2 zelfs negatief (terwijl totaaleffect

positief is), en dat zorgt voor een moeilijke interpretatieo Wanneer partiële mediatie?

Er is nog een netto-effect Er zijn nog andere mediatoren Er zijn inter-individuele verschillen in het mediatie-

mechanismeo Onderscheid mediator – moderator (maar combinaties mogelijk:

gemodereerde mediatie en gemedieerde moderatie)

CAPS is mediator Individuele verschillen zijn moderator

- Assumpties en schendingen: Cruciale assumpties van gebruikte procedure:

Lineaire regressie Temporele contiguïteit:

o Behandeling komt eerst, dan mediator en dan pas criterium Toevallige toewijzing aan condities:

o Hoeft strikt genomen niet maar vergemakkelijkt interpretatie

Onafhankelijkheid van de foutentermen en :o Indien niet voldaan geen zuivere schatters van causale effecteno Niet voldaan: wanneer er een lurking/omitted variabele W is

Constante parameters voor alle individuen- Kritiek op mediatie onderzoek:

Veelal niet aan de strikte assumpties voldaan Idealiter zou men mediator moeten kunnen manipuleren Mediatie onderzoek naar causale mechanismen is een cumulatieve aangelegenheid

47

Deel 4: Hoofdcomponenten analyse en factoranalyse

9. Principale componentenanalyse en factoranalyse- Vaak is er interesse in de onderlinge samenhang van variabelen zonder een onderscheid te

maken tussen afhankelijke en onafhankelijke variabele.- Twee types van vragen:

Hoe de informatie in data zo goed mogelijk samenvatten aan de hand van een kleiner aantal variabelen

Meer beschrijvend Principale componentenanalyse (PCA)

Kunnen we de correlaties verklaren aan de hand van onderliggende latente variabelen en welke zijn dat?

Meer verklarend Factoranalyse (FA)

Voorbeeld- Studie van sociaal gedrag van kinderen

Vaders van 10 tot 12 jarige kinderen vullen een CSBS (vragenlijst) in CSBS, 3 vormen van sociaal gedrag:

Relationele agressie Overte agressie Prosociaal gedrag

5-puntenschaal- Vraag: kunnen we de samenhang tussen negen uitspraken verklaren aan de hand van drie

latente variabelen?

48

Gegevens en notatie- I eenheden (meestal personen) gemeten op J variabelen: X1, X2, …, XJ

- Datamatrix X met I rijen en J kolommen- Score van i-de persoon op j-de variabele: xij

- Voor ons voorbeeld: Eenheden zijn kinderen Variabelen zijn 9 uitspraken x31 = 2 (score van kind 3 op variabele 1 = 2)

- Later gaan de lijnen door de puntenwolken ook door de oorsprong moeten gaan, de rode doet dit duidelijk niet:

oplossing: door te centreren verschuiven we de oorsprong naar het midden hierdoor zijn er altijd lijnen door de oorsprong mogelijk (groen): assen na centreren

Data na standaardiseren:

- Aantal eenheden: Meestal wil men op basis van gegevens van I personen een uitspraak doen over

populatie Hoe groter de steekproef en dus I, hoe minder de resultaten zullen fluctueren over

steekproeven heen Vuistregel: 5 à 10 personen per variabele

- Aantal variabelen: Latente variabele zal enkel in analyse naar voor komen als gemeten door voldoende

aantal manifeste variabelen Vuistregel: minstens 3 manifeste variabelen per latent construct

49

Exploratieve data-analyse- PCA en FA gebruikt om lineaire samenhang tussen variabelen te beschrijven of te verklaren- Daarom logisch om data te exploreren aan de hand van:

Correlatiematrix Draftman’s plot

In driehoeken behoorlijk hoge correlaties voor gedragsmatig onderzoek Andere correlaties veel lager

Principale componentenanalyse- Basisprincipe:

Informatie in X zo goed mogelijk samenvatten aan de hand van klein aantal nieuwe variabelen F1, F2, …, FQ

Deze nieuwe variabelen (principale componenten of hoofdcomponenten) zijn gewogen combinaties van oorspronkelijke variabelen

x: oorspronkelijke variabele w: gewicht per variabele f: component = nieuwe variabele i: persoon q: component

Merk op: PCA is niet gebaseerd op een expliciet statistisch model (in statistisch model worden verdelingsassumpties gemaakt)

Principale componenten zijn de zogenaamde hoofdassen van de puntenwolk

Eerste component verklaart meeste variantie, dan tweede, … Alle componenten zijn onafhankelijk van elkaar (orthogonaal: loodrecht)

50

PCA ontbindt matrix X in twee nieuwe matrices F (componentenscores) en B (ladingenmatrix)

F: Scores van eenheden op componenten Er zijn evenveel componenten als variabelen (nog geen informatiereductie) Alle componenten zijn onafhankelijk van elkaar, dus correlaties tussen de

kolommen zijn gelijk aan 0 Componentscores zijn gestandaardiseerd per component

B: bjq = correlatie tussen de j-de variabele en de q-de component b²jq = hoeveelheid verklaarde variantie in j-de variabele door component q Evenveel componenten als variabelen:

Vuistregel: |bjq| > .40 is hoge lading

Eigenwaarde: per kolom gekwadrateerd en opgeteld Proportie verklaarde variantie: eigenwaarde delen door J (aantal variabelen) Cumulatief %: opgeteld over kolommen heen (PC1 + PC2 + PC3 = bijna 70%)

Reconstructie van de gestandaardiseerde observaties:

51

- Reductie van aantal principale componenten: Als we PCA toepassen, eindigen we meestal met evenveel principale componenten

als variabelen Probleem: we wilden toch samenvatting van informatie? Daarom vaak slechts beperkt aantal principale componenten weerhouden Vraag: hoeveel componenten? Vier strategieën:

Gebaseerd op hypothese:o Vaak a priori idee over hoeveel componenten nodig om informatie in

data goed samen te vatteno Dit idee is gebaseerd op vorig onderzoek of theoretisch argument

Scree test:o Zoekt optimale balans tussen spaarzaamheid en goed samenvatten

van informatieo Ga in Scree plot op zoek naar knik of elleboogo Weerhoud één component mindero Rationale: vanaf knikpunt verklaren componenten ongeveer

evenveel variante en voegen dus niet veel meer toe

o Meerdere kniks? Kiezen op basis van hypothese en resterende mogelijke keuzes

Eigenwaarde-groter-dan-één criterium:o Weerhoud componenten met eigenwaarde groter dan 1o Rationale: deze componenten beschrijven meer variantie dan 1

afzonderlijke variabeleo Resulteert niet noodzakelijk in zelfde aantal als Scree test

(vaak meer weerhouden dan bij Scree test)

Interpreteerbaarheid:o Immers, doel van PCA is vaak inzicht verwerven in gegevens

52

o Om PCA oplossingen interpreteerbaar te maken vaak nodig om te roteren

Als beperkt aantal componenten weerhouden, kan men data niet meer perfect reconstrueren:

Introductie van voorspellingsfout eij:

Proportie verklaarde variantie per variabele meestal kleiner dan 1, deze proportie kan als volgt berekend worden:

- Rotatievrijheid: PCA oplossingen vaak moeilijk te interpreteren (zelfs met beperkte Q)

Alle variabelen laden hoog op eerste component Variabelen laden sterk op meerdere componenten Ladingen zijn niet extreem hoog of laag (in absolute waarde)

Gebruik maken van rotatievrijheid om betere interpretatie te bekomen We starten met grafische representatie van de ladingenmatrix (ladingenplot) Punten in de plot zijn variabelen, assen zijn de componenten en de ladingen zijn de

coördinaten van de variabelen (verkregen via loodrechte projectie op de assen) Merk op: proportie verklaarde variantie per variabele = afstand vanaf oorsprong

Rotatie: men kan de assen van de ladingenplot draaien zonder de proportie verklaarde variantie te wijzigen

Na rotatie spreken we niet meer over principale componenten maar simpelweg over componenten

Probleem: hoe roteren? Criterium nodig Algemeen criterium = simpele structuur: een zo eenvoudig mogelijk patroon

van ladingeno Op elke component laden slechts een paar variabelen sterk, rest

ongeveer nul

53

o Gevolg: de variabelen worden in Q groepjes ingedeeld die elk 1 component definiëren (en dus gebruikt worden om de component te interpreteren)

o Idealiter komt men deze structuur uit Twee methoden van rotatiemethoden:

Orthogonaal: componenten na rotatie nog steeds onafhankelijk (VARIMAX) Obliek: de componenten zijn gecorreleerd na rotatie (PROMAX of OBLIMIN)

o Oblieke rotatie realiseert simpele structuur beter dan orthogonale (want meer vrijheid)

MAAR ten koste van toegenomen complexiteit:o Assen in ladingenplot niet meer loodrecht en ladingen zijn

evenwijdige projecties op de asseno Ladingen zijn geen correlaties meer tussen variabelen en

componenteno Ladingenmatrix wordt nu de patroonmatrix genoemd en de

correlaties tussen variabelen en componenten staan in de structuurmatrix

o Proportie verklaarde variantie is niet meer te berekenen door de ladingen te kwadrateren (houdt geen rekening met correlatie tussen componenten)

o Totale proportie verklaarde variantie is niet gelijk aan de som verklaarde varianties per component

54

VARIMAX ROMAX: 3 matrices1 matrix - Patroon:

Evenwijdige projecties Simpele structuur is beter

- Structuur: Correlaties Minder simpele structuur

- Samenhang twee andere matrices Structuurmatrix kan berekend worden op basis van patroonmatrix en correlaties

tussen de componenten:

rjq: waarde uit structuurmatrix bjq’: waarde uit patroonmatrix rqq’: uit 3e matrix (correlatie)

Factoranalyse- Basisidee:

FA is gebaseerd op een statistisch model: verdelingen worden verondersteld voor sommige parameters

Assumptie: variantie van variabelen kan opgesplitst worden in twee stukken Gemeenschappelijke variantie = communaliteit

o Variantie die variabele deelt met één of meerdere variabelen Unieke variantie = uniciteit

o Variantie die specifiek is voor variabele in kwestieo Ontstaat door meetfout en door systematische variantie

Bij FA wordt enkel gemeenschappelijke variantie gemodelleerd (bij PCA totale) Correlaties tussen variabelen zo goed mogelijk reconstrueren Aanname dat variabelen klein aantal latente constructen

(gemeenschappelijke factoren) meten- Één gemeenschappelijke factor:

fi: score van i-de persoon op gemeenschappelijke factor F

55

Op populatieniveau is verwachte waarde F gelijk aan 0 en variantie gelijk aan 1

bj: lading van j-de variabele op F Interpreteren als correlatie tussen variabele en gemeenschappelijke factor Hieruit kan communaliteit van variabele h²j (proportie gemeenschappelijke

variantie van variabele j) berekend worden

Proportie variantie verklaard door gemeenschappelijke factor:

uij: score van i-de persoon op unieke factor van variabele j, Uj

Op populatieniveau geen correlaties tusseno Unieke factor onderlingo Unieke factoren en gemeenschappelijke factoro Logisch, want zulke correlaties zouden impliceren dat unieke

variantie deels gemeenschappelijk is Uniciteit van variabele j, uj te berekenen als

Om na te gaan in welke mate FA erin slaagt om geobserveerde correlaties te reconstrueren, kunnen we (gegeven assumpties) afleiden dat (NK)

Als we de ladingen schatten, dan voorspellen we in de steekproef volgende correlatie tussen variabelen j en j’

Als model goed bij gegevens past, mag residuele correlatie (= geobserveerde – voorspelde) niet te groot zijn

Vuistregel: absolute waarde van residuele correlaties mag niet groter zijn dan 0.05 Als dit wel het geval is, twee mogelijke redenen:

Steekproef niet representatief (steekproefcorrelaties wijken sterk af van populatiecorrelaties)

Meer dan één gemeenschappelijke factor nodig- Q gemeenschappelijke factoren:

fiq: score voor de i-de persoon op gemeenschappelijke factor Fq

Op populatieniveau is verwachte waarde van Fq

gelijk aan 0 en variantie gelijk aan 1

Als = 0, orthogonale factoren, anders oblieke bjq: lading van j-de variabele op gemeenschappelijke factor Fq

Als factoren orthogonaal, ladingen interpreteren als correlaties tussen variabelen en factoren

56

Als factoren orthogonaal, communaliteiten h²j te berekenen als

Proportie variantie verklaard door Fq:

uij: score van i-de persoon op unieke factor van variabele j, Uj

Op populatieniveau geen correlaties tussen:o Unieke factoren onderlingo Unieke factoren en gemeenschappelijke factoren

Uniciteit van variabele j, u²j te berekenen als Ook hier kan men residuele correlaties (= geobserveerde –

voorspelde) berekenen om na te gaan of het model goed past bij de gegevens

Als factoren orthogonaal:

Residuele correlaties bij Q = 3

o Allemaal kleiner dan .05 dit model is goed FA oplossingen kunnen eveneens zowel orthogonaal als obliek geroteerd worden Onder invloed van rotatie veranderen:

Ladingen Factorscores Proportie variantie verklaard door de afzonderlijke factoren

Maar niet: Totale proportie verklaarde variantie Voorspelde correlaties Communaliteiten en uniciteiten

- Schatten van parameters: Schatten van FA parameters veel ingewikkelder dan bij PCA Immers, FA focust op gemeenschappelijke varianties i.p.v. totale variantie zoals PCA Echter, grootte van gemeenschappelijke variantie niet gekend en moet dus eveneens

geschat worden Hierbij maakt men vaak de assumptie dat scores op gemeenschappelijke factoren

normaal verdeeld zijn Verschillende schattinsmethoden voorgesteld, twee vaak gebruikte zijn:

Maximum Likelihood Principal Axis Factoring

57

Vergelijking PCA en FA- Welk methode is de beste? PCA of FA? hevig debat

PCA en FA oplossingen zullen verschillen, maar verschillen meestal klein PCA ladingen vaak iets hoger dan FA ladingen, want PCA focust op totale

variantie i.p.v. gemeenschappelijke Relatieve verhoudingen van ladingen en dus ook interpretatie heel

vergelijkbaar FA beter wanneer unieke varianties van variabelen sterk verschillen PCA beter wanneer assumpties van FA (vb. normaliteit) niet opgaan

- Voor wat wij gebruiken van deze methodes maakt het niet uit welk we gebruiken(Zie vergelijking van 2 tabellen op volgende pagina)

Exploratorische versus confirmatorische factoranalyseTot nu toe hebben we enkel Exploratorische FA toegepast.

- Ervan uitgegaan dat men nog geen sterk idee heeft van samenhang van variabelen: Vb. gegevens van eetstoornispatiënt exploreren Besproken variant van FA wordt Exploratorische FA (EFA) genoemd

- Soms wel hypothese over samenhang van variabelen, over welke variabelen bepaald latent construct meten:

Vb. statistisch toetsen of items van vragenlijst effectief hetzelfde construct meten Gebruik confirmatorische variant van FA (CFA): valt buiten bestek deze cursus

58

pedagogischekringleuven.files.wordpress.com · Web viewRotatie: men kan de assen van de...

Documents

Transcript of pedagogischekringleuven.files.wordpress.com · Web viewRotatie: men kan de assen van de...