theorie studentencursus kwantitatieve analyse
-
Upload
justine-blancquaert -
Category
Documents
-
view
236 -
download
6
description
Transcript of theorie studentencursus kwantitatieve analyse
KWANTITATIEVE ANALYSE
Mathias Leonard Vercauteren
Faculteit Politieke en Sociale Wetenschappen
2
Inhoudsopgave:
1. ANOVA
A. Vergelijking van 2 verwachtingen
1) Z-procedure 2) t-procedure 3) Voorbeelden 4) Samengestelde t-procedures
a. Z-procedure b. t-procedure c. Voorbeeld d. Gebruik samengestelde procedure
B. ANOVA
1) Probleemstelling en logica ANOVA 2) Van t-test naar ANOVA 3) Eén-factor ANOVA-model 4) Schatting van populatieparameters 5) F-toets
a. SST b. SSG c. SSE d. F-toetsingsgrootheid
6) Contrasten
C. Meervoudige vergelijkingen
1) Least Significant Differences (LSD) 2) Bonferroni-methode 3) Voorbeeld 4) Statistische significantie revisited
2. MEERVOUDIGE REGRESSIE
A. Herhaling BVA (STAT 1)
1) Spreidingsdiagram (scatterplot) 2) Enkelvoudige lineaire regressie analyse 3) Kleinste kwadratenregressie (OLS) 4) Covariantie 5) Standaardisatie = Z-transformatie 6) Correlatiecoëfficiënt 7) Determinatiecoëfficiënt 8) B: Gestandaardiseerde b
B. Bivariate correlatie- en regressie-analyse
1) Voorbeeld a. SPSS-output
2) Vertekeningen a. Outliers b. Invloedrijke waarnemingen c. Non-lineariteit
3) Residuen-analyse 4) Controle op invloedrijke waarnemingen
3
a. DfFit b. DfBeta
C. Inferentie over regressiecoëfficiënten
1) Assumpties 2) Betrouwbaarheidsinterval 3) Significantietoets
3. OPSTAP NAAR MULTIVARIATE ANALYSE
A. Opstap naar multivariate analyse
1) Types relaties 2) Voorbeelden
B. Het multivariate model met 2 onafhankelijke variabelen
1) Concept van gedeelde variantie 2) Illustratie 3) Uitbreiding naar meer onafhankelijke variabelen
4. MULTIPLE REGRESSIE-ANALYSE
A. Inleiding tot multiple regressie-analyse
1) Het multivariate basismodel a. Concept van gedeelde variantie b. Voorbeelddata c. Relatie bivariate b’s en meervoudige b’s
2) Coëfficiënten a. Residuelen b. Meervoudige correlatiecoëfficiënt c. Meervoudige determinatiecoëfficiënt d. Gestandaardiseerde partiële regressiecoëfficient e. Semi-Partiële correlatie (part-correlatie) f. Partiële correlatie
B. Multiple regressie-analyse: Coëfficiënten
1) Toepassing a. Beschrijving data b. Coëfficiënten c. Outliers d. Uitbreiding naar meer predictoren
2) Types relaties tussen variabelen a. Verhouding bi- en multivariatie coëfficiente b. Type 1 correlatie-patroon
i. Redundantie ii. Suppressie
c. Type 2 correlatie-patroon i. Suppressie
d. Patroon voor meer dan 3 variabelen
4
C. Multiple regressie-analyse: Assumpties
1) Inleiding a. Steekproevenverdeling van b b. t-test voor bivariate regressie
2) Assumpties a. Assumptie 1: ε is niet gecorreleerd met X b. Assumptie 2: Homoscedasticiteit c. Assumptie 3: εi’s zijn onafhankelijk d. Assumptie 4: ε is normaal verdeeld e. Assumptie 5: lineariteit f. Assumptie 6: Afwezigheid multicollineariteit
3) Voorbeeld 4) F-tests
a. F voor b b. F voor R² c. F voor subsets van X
D. Multiple regressie-analyse: Dummy Codering en Interactie-effecten
1) Nominale Onafhankelijke variabelen a. Dummy codering dichotome varn b. Dummy codering polytome varn c. Effect-codering
2) Modelleren interactie-effecten a. Interactie interval X – nominaal X b. Interactie interval X – interval X c. Hogere complexiteit
5
ANOVA
6
A. Vergelijking van 2 verwachtingen
Situatie:
We beschouwen twee groepen als twee EAS, waarvan elk betrekking heeft op een andere populatie en met een mogelijk verschillende n (steekproefomvang). De resultaten van groep 1 zijn onafhankelijk van groep 2.
Ho: Er is geen verschil tussen de 2 groepen (nulhypothese)
Ha: Er is wél een verschil tussen de 2 groepen (eventueel met een specificatie van de richting) (alternatieve hypothese)
Indien σ1 en σ2 gekend zijn, gebruiken we de z-procedure. Indien σ1 en σ2 niet gekend zijn, gebruiken we de t-procedure met s1 en s2 als schatting voor σ1 en σ2.
1. Z-procedure
X1 en X2 zijn onafhankelijke stochastische variabelen (=kansvariabelen), dus 2 toevalsvariabelen met een numerieke uitkomst. De verdeling verschilt echter van steekproef tot steekproef. De verwachting van het verschil = verschil van de verwachtingen:
schatter voor µ1 - µ2 = xx 21−
We gebruiken de steekproevenverdeling van twee gemiddelden als indicatie voor het verschil van de twee populatieverwachtingen.
De variantie van het verschil = som van de varianties:
σ2
21 xx −= de variantie van de steekproevenverdeling van een verschil tussen twee
verwachtingen.
Indien N(µ1,σ1) en N(µ2,σ2), dan N(0,1):
Meestal kennen we σ niet en gebruiken we de standaardafwijking s als schatting. Bijgevolg moeten we de t-procedure gebruiken.
2. t-procedure
We hebben twee gemiddelden xx 21− en gaan er vanuit dat er een verschil is tussen
beiden door toeval. We gaan nagaan hoe groot die kans is dat het verschil door louter toeval komt. Wanneer we stellen dat die kans klein is, kunnen we onze Ho (nulhypothese) verwerpen. Ho = µ1 = µ2 (bijvoorbeeld mannen en vrouwen zijn gelijk op basis van etnocentrisme)
Ha = µ1 ≠ µ2
nnnnxxxx
2
2
2
1
2
1
22
222
2
2
1
1
2121
σσσσσσσ +=+=+=
−
nn
µµxxz
2
2
2
1
2
1
2121)()(
σσ +
−−−=
7
Bij de nulhypothese gaan we ervan uit dat het verschil tussen µ1 - µ2 gelijk is aan 0, indien we ervan uit gaan dat Ho klopt.
We bepalen een significantietoest om na te gaan in hoeverre we onze steekproevenverdeling kunnen doortrekken naar de populatie. Dus in hoeverre we ons verwachte verschil kunnen gaan veralgemenen.
In de steekproevenverdeling is de verwachting µ1 - µ2 = 0
De standaardafwijking van de steekproevenverdeling is
2
²
2
1
²
1
21 nnxx
σσσ +=
−
Die variantie ²
1σ en ²
2σ van de populatie (in ons voorbeeld: etnocentrisme) kennen we
meestal niet, dus gaan we s (standaardafwijking uit de steekproef) gaan gebruiken.
De formule wordt dan:
2
²
2
1
²
1
21 n
S
n
S
xxS +=−
Bij een N-verdeling � kennen we σ (of gaan we ervan uit)
Bij een t-verdeling � kennen we σ niet en gebruiken we s
Bij een t-verdeling gaan we een grotere overschrijdingskans bekomen dan bij een N-verdeling, dit heeft als gevolg dat het moeilijker wordt om de nulhypothese te verwerpen.
Als het zo is dat Ho klopt (dus dat er geen verschil is) dan zullen we in 1 op de 1000 steekproeven, door louter toeval, een verschil vinden van 1 of > (gegeven in de opdracht), met als gevolg dat we de nulhypothese kunnen verwerpen.
2-steekproevengrootheid:
We gaan de kleinste groep gaan gebruiken (tussen n1 en n2) omdat we ervan uit gaan dat onze nulhypothese klopt. Heeft ook te maken met de overschrijdingskans, deze kans is groter als je uitgaat van de kleinste groep. Dat komt doordat je df (vrijheidsgraden) minder zijn i.v.m. de grootste groep.
Een probleem: heeft geen t-verdeling (2 en niet 1 σ gesubstitueerd + df)
• oplossing 1: df exact herberekenen uit data (software)
• oplossing 2: df benaderen: min(n1-1,n2-1) (handmatig) � conservatieve toets
We gebruiken de kleinste groep om onze df (vrijheidsgraden) te berekenen. H0: µ1 - µ2 = 0
De nul (0) laten we echter weg in onze berekeningen.
ns
ns
µµxxt
2
2
2
1
2
1
2121)()(
+
−−−=
8
De regels m.b.t. robuustheid van 1 EAS gaan ook hier op (voor n1+n2). Zelfs meer robuust dan t-procedure voor 1 EAS, vooral als twee steekproeven ongeveer dezelfde omvang hebben.
3. Voorbeelden: survey 1BA vs. APS2002
• survey naar de maatschappelijke oriëntatie van1BA PSW o n = 432 (volledig: 385) o respons-rate : 68,9% (volledig: 61,4%) o hier beschouwd als EAS uit volledige 1BA PSW
• vergelijken met EAS uit Vlaamse bevolking (APS2002) • vergelijken verwachtingen op: ethnocentrisme, traditionalisme, individualisme, aanvaardbaarheid van maatschappelijke en wettelijke normoverschrijding
• via schaalconstructie: o attitudes gemeten via Likert-items (nt. normoverschrijding)
� 5-puntenschaal (volledig oneens <-> volledig eens) � verschillende items meten deelaspecten � items variëren in intensiteit en richting (positief vs. negatief) � antwoord op elk item = numerieke score
o construeren schaal door per individu scores te sommeren op items (na hercoderen zodat alle in dezelfde richting wijzen)
o (beter: nagaan unidimensionaliteit of constructie deelschalen (via factoranalyse))
o + hier: herschaald [0,20]
ns
ns
xxt
2
2
2
1
2
1
21)(
+
−=
ns
ns
txx2
2
2
1
2
1*
21)( +±−
9
Ethnocentrisme
APS PSW
We merken dat er een verschil is tussen PSW en APS, a.d.h.v. onze t-verdeling. We stellen dat de Vlaming (APS) meer etnocentristisch is dan de 1BA student PSW. Maar we moeten echter onze onzekerheid in rekening brengen. Onze overschrijdingskans is kleiner dan 0,05 wat wijst op een systematisch verschil. H0: µ1 - µ2 = 0 (essentie van de significantietoets) H0: In de populatie is er geen verschil met 1
ste bachelorstudenten m.b.t. etnocentrisme We kunnen onze H0 verwerpen want onze kans is kleiner dan 0,001. Tevens ligt de nul (0) niet in het betrouwbaarheidsinterval, wat er dus op wijst dat er een verschil is.
Traditionalisme
APS PSW
Ethnocentrisme (/20)
19,0
17,0
15,0
13,0
11,0
9,0
7,0
5,0
3,0
1,0
300
200
100
0
Std. Dev = 3,72
Mean = 10,8
N = 1257,00
Ethnocentrisme (/20)
19,0
17,0
15,0
13,0
11,0
9,0
7,0
5,0
3,0
1,0
100
80
60
40
20
0
Std. Dev = 3,05
Mean = 6,9
N = 340,00
001,0)(2
91,19
340
²05,3
1257
²72,3
)9,68,10()(
2
2
2
1
2
1
21
<≥
=
+
−=
+
−=
tTP
t
ns
ns
xx
29,451,3
39,0)9,68,10(
340
²05,3
1257
²72,398,1)9,68,10(
)(
21
2
2
2
1
2
1*
21
<−<
±−
+±−
+±−
µµ
ns
ns
txx
Traditionalisme (/20)
19,0
17,0
15,0
13,0
11,0
9,0
7,0
5,0
3,0
1,0
600
500
400
300
200
100
0
Std. Dev = 2,65
Mean = 11,9
N = 1404,00
Traditionalisme (/20)
19,0
17,0
15,0
13,0
11,0
9,0
7,0
5,0
3,0
1,0
140
120
100
80
60
40
20
0
Std. Dev = 2,63
Mean = 9,3
N = 371,00
10
H0: we veronderstellen geen verschil (APS = PSW)
t-score = 16,91
df = 370 (kleinste groep = PSW = 371-1) We bekomen een overschrijdingskans die < 0,001, dus hebben we bij 1 op 1000 EAS een verschil, Ho verwerpen want een kleine kans. Wat is die 0,001 nu? Wel, onze H0 (nulhypothese) stelt dat er geen verschil is tussen APS en PSW. We zeggen dat er wel een verschil is en gaan na of dat verschil statistisch significant is of
dat het louter door toeval komt. Hiervoor gebruiken we een t-toets (want σ kennen we
niet). We bekomen een overschrijdingskans van minder dan 1 op 1000 EAS. Die kans is heel klein waardoor we onze nulhypothese mogen verwerpen. Er is dus iets systematisch aan de gang.
4. Samengestelde t-procedures
Indien 2 normale populaties dezelfde (ongekende) standaardafwijking σ hebben � t voor verschil volgt exacte de t-verdeling (slechts 1 substitutie noodzakelijk)
s1 en s2 vormen schatters voor σ : informatie combineren als gewogen gemiddelde
(s p2= samengestelde schatter voor de variantie (pooled estimator of variance))
Stel bijvoorbeeld dat we twee groepen (2 EAS) willen vergelijken met elkaar.
Bijvoorbeeld een groep mannen met 1σ ( 1S ) en 1µ en een groep vrouwen met 2σ ( 2S )
en 2µ . We willen nagaan of dit verschil statistisch significant is a.d.h.v. een t-toets.
In onze nulhypothese verwachten we dat 1σ en 2σ gelijk zijn ( 1σ = 2σ )
We gebruiken het gewogen gemiddelde s p2omdat in H0: µ1 = µ2
Dat is de belangrijkste voorwaarde, dat we veronderstellen dat in de populatie, de
groepen hetzelfde zijn. M.a.w. dat ze dezelfde σ (s) en dezelfde µ hebben. In ons
voorbeeld zou dat dus zijn dat mannen en vrouwen, in de populatie, gelijk zijn aan elkaar. Dus dat µ = µ1 = µ2
Indien dit klopt dan mogen we s p2 gebruiken.
Een vuistregel om dit na te gaan is dat de standaardafwijking van de verschillende groepen niet dubbel zo groot mag zijn.
001,0)(2
91,16
371
²63,2
1404
²65,2
)3,99,11()(
2
2
2
1
2
1
21
<≥
=
+
−=
+
−=
tTP
t
ns
ns
xx
90,230,2
30,0)3,99,11(
371
²63,2
1404
²65,298,1)3,99,11(
)(
21
2
2
2
1
2
1*
21
<−<
±−
+±−
+±−
µµ
ns
ns
txx
2
)1()1(
21
2
22
2
112
−+
−+−=
nnsnsn
sp
11
Stel bijvoorbeeld dat 1S =7 en 2S = 2, dan mogen we s p2 niet gebruiken.
Maar als 1S =2 en 2S = 2,5 dan mogen we s p2 wel gebruiken.
a. Z-procedures
Bij de Z-procedure gaan we ervan uit dat 1σ en 2σ gekend zijn.
De variantie van verschil = som van varianties
Toetsingsgrootheid
b. t-procedures
Substitutie σ door sp Twee-steekproevengrootheid t om H0: µ1 = µ2 te testen (exact t verdeeld):
n1 en n2 zijn in feite aan elkaar gelijk. n1 = n2 = n (steekproefomvang). Want we gebruiken de samengestelde schatter, en gaan er bijgevolg vanuit dat beide groepen gelijk zijn aan elkaar. (cfr. M&M voor meer uitleg)
betrouwbaarheidsinterval met df = n1 + n2 - 2:
c. Voorbeeld
Werkt Calcium bloeddrukverlagend ? Onderzoek via 2 groepen (behandeling vs. placebo).
H0: µ1 = µ2 Ha: µ1 > µ2
+=+=+=+=
−
nnnnnnxx
21
2
2
2
1
2
22
2
2
2
1
2 11
2121
σσσσσσσσ
nn
µµxxz
21
2121
11
)()(
+
−−−=
σ
nns
xx
p
t
21
21
11
)(
+
−=
nnstxx p
21
*
21
11)( +±−
385,7
536,5421110
²901,5)10(²743,8)9(
2
)1()1(
21
2
22
2
112
=
=−+
+=
−+
−+−=
s
nnsnsn
s
p
p
12
484407N =
DIP2
HSO+-LSO
ETHNO2
20
15
10
5
0
P(T≥1,634) met t(19): tabel D: 0,05 < p < 0,10
90% betrouwbaarheidsinterval:
vb. Ethnocentrisme naar diploma (APS2002)
Report
ETHNO2
11,2817 407 3,50850
9,2157 484 3,27230
10,1595 891 3,53367
DIP2
1,00 -LSO
2,00 HSO+
Total
Mean N Std. Deviation
d. Gebruik samengestelde procedure
• dikwijls gebruikt ⇐ als n zo goed als gelijk: robuust tegen niet-normaliteit en ongelijke standaardafwijking
• maar opletten bij grote verschillen in n en s, vooral bij kleine steekproeven
634,1227,3
273,5
11
1
10
1385,7
)273,0(5
11
)(
21
21 ==
+
−−=
+
−=
nns
xx
p
t
]852,10,306,0[579,5273,511
)(
21
*
21−=±=+±−
nnstxx p
382,3
440,112484407
²272,3)483(²509,3)406(
2
)1()1(
21
2
22
2
112
=
=−+
+=
−+
−+−=
s
nnsnsn
s
p
p 235,18
484
1
407
1382,3
)216,9(282,11
11
)(
21
21 =
+
−=
+
−=
nns
xx
p
t
13
B. ANOVA
Bij ANOVA gaan we groepsgemiddelden gaan berekenen en vergelijken. Het is een toets voor verschil tussen verwachtingen. (variantie-analyse)
1. Probleemstelling en logica ANOVA
Bij ANOVA gaan we verwachtingen gaan vergelijken.
Tussen 2 groepen/populaties � t-procedure
Tussen meer dan 2 groepen/populaties � variantie-analyse: ANOVA
ANOVA = ANalysis Of VAriance
• één-factor anova =verwachting vergelijken tussen categorieën van 1 andere variabele
• twee- of meer-factor anova = verwachting vergelijken tussen categorieën van 2 of meer andere variabelen
Wij gaan ons hier echter beperken tot één-factor anova.
Logica
De logica van ANOVA is naar analogie met de t-procedure, maar hier gebeurt het via de F-grootheid.
We trekken een EAS uit elke populatie.
H0: alle populatieverwachtingen gelijk Ha: niet alle populatieverwachtingen zijn gelijk
Vereisten/assumpties:
• data afkomstig van verschillende EAS(of gerandomiseerde experimentele designs) • te vergelijken kenmerk:
o normaal verdeeld met gelijke σ o metrisch o = te verklaren kenmerk � a-symmetrische techniek
• factoren: categorische variabelen Vb. 12.1
14
Zijn de waargenomen verschillen in de gemiddelden statistisch significant of een gevolg van toeval? � noodzakelijk variatie + steekproefomvangen in rekening te brengen
⇐ s en n bepalen SE x
We gaan twee soorten van varianties gaan vergelijken met elkaar.
Grotere binnengroepsvariatie � grotere onzekerheid
Verschillen in x (of medianen) en heel veel spreidingen (overlappend) binnen de groepen.
Geringere binnengroepsvariatie � geringere onzekerheid
Hier zelfde verschillen in medianen, enkel minder spreiding.
De verschillen binnen de groepen gaan we gaan vergelijken met de verschillen tussen de groepen. We krijgen wel een aanwijzing dat er een verschil is in de populatie. Dus, we vergelijken de variatie tussen de groepen (tussengroepsvariatie) met de variatie binnen de groepen (binnengroepsvariatie).
2. Van t-test naar ANOVA
De vergelijking tussen 2 groepen:
�
In t-formule wordt er tweemaal n gebruikt, maar dat is omdat n1 en n2 gelijk zijn aan elkaar, omdat we de samengestelde schatter gebruiken. (zie hierboven)
)( 212
2
xxn − = variatie tussen de groepen * factor voor n [teller]
ss p
p
xxn
nn
xxt
)(2
11
2121
−=
+
−=
s
xxt
p
n
2
2
2)( 212
−=
15
s p2= variatie binnen de groepen (samengestelde schatter voor gemeenschappelijke
variantie) [noemer]
t² = F -test voor 2 groepen
Complexer bij ANOVA: test of alle verwachtingen aan elkaar gelijk � indien H0 verworpen: verder bekijken welke
Voorbeeld (12.3)
In hoerver is er een verschil tussen deze groepen?
F = 10,35 met P < 0,001
De overschrijdingskans is kleiner van 1 op 1000, dus mogen we onze nulhypothese verwerpen.
welke ?
• zelf contrasten maken: als vooraf gespecificeerde hypothese • meervoudige (paarsgewijze) vergelijking: verkenning
3. Eén-factor ANOVA-model
WAARNEMING = ‘AANPASSING’ + RESIDU
Aanpassing = SST en Residu = SSE EAS uit populatie N(µ,σ) � x1,x2,...xn 1 eenheid: xj (subscript j = om een individu aan te geven)
anders genoteerd: xj = µ + εj met εj EAS uit N(0,σ) xj = kenmerk van een individu en εj = de afwijking
ANOVA: EAS uit I populaties van grootte van elke EAS: ni
16
Report
ETHNO2
12,1632 146 3,5244
10,7886 261 3,4079
9,9822 211 3,1788
8,6233 273 3,2257
10,1595 891 3,5337
DIP
geen/LO
LSO
HSO
HO
Total
Mean N Std. Deviation
één-factor ANOVA model:
xij = µi + εij
o εij EAS uit N(0,σ) = de residuen volgen een normaalverdeling o µi = groepsgemiddelde o gemeenschappelijke st.afw. σ o onbekende parameters: µi‘s en σ
4. Schatting van populatieparameters
µi schatten door xi :
met eij = xij - xi
σ schatten door sp :
We moeten rekening houden met onze assumptie dat alle σi’s = σ , maar ANOVA niet extreem gevoelig aan schending hiervan.
De vuistregel is: OK als (max(si)/min(si)) < 2
ANOVA is ook robuust voor schending van assumpties, het kan tegen een stootje. Het moeten al zware outliers zijn om echt een effect te hebben.
Ethnocentrisme APS2002
n
xx
i
jij
i
ni
∑== 1
)1(...)1()1(
)1(...)1()1(
21
22
22
2
112
−++−+−
−++−+−=
nnnsnsnsn
sI
II
p
ETHNO2
20,0
18,0
16,0
14,0
12,0
10,0
8,0
6,0
4,0
2,0
0,0
ETHNO2
Frequency
300
200
100
0
Std. Dev = 3,53
Mean = 10,0
N = 1027,00
17
De gemiddelde in dit voorbeeld verschillen, komt dit door louter toeval? We doen een F-test omdat we gaan vergelijken tussen de groepen en binnen de groepen, en we doen dan een significantie-toets op de F-waarden.
5. F-toets
ANOVA: vergelijking van variaties (tussen groepen / binnen groepen)
Het is een globale maat die vergelijkingen maakt tussen variatie tussen groepen t.o.v. variatie binnen groepen. Berekening F via ‘kwadratensommen’ (‘Sum of Squares’ , ‘SS’), cf.:
S² is een decompositie in 2 componenten, nml. De variatie tussen de groepen en de variatie binnen de groepen. De variatie tussen groepen = de systematische verklaring
De variatie binnen groepen = de residuele variatie
a. SST: Sum of Squares Total
SST= de verschillen tussen waarnemingen en globaal gemiddelde
= ‘te verklaren’ variatie (totale variatie) = sommeren van kwadraten
• DFT = N - 1 (Degrees of Freedom Total) • MST = SST / DFT (gemiddelde (Mean) kwadratensom) = s² • MST = de variantie die we willen verklaren. • SST = SSG + SSE
• in vb. ethnocentrisme: o SST = 11113,28 o DFT = 890 o MST = 12,49
Verschil tussen S² en SST = de noemer: geen (n-1) bij SST.
Verschil variatie en variantie
Ze verwijzing in principe naar hetzelfde, maar de berekening is anders.
Variatie is )²( xxi∑ − (de sum of squares)
273211261146N =
DIP
HOHSOLSOgeen/LO
ETHNO2
20
18
16
14
12
10
8
6
4
2
0196928
6297761204
1208
73771
210
13958889314391871098
930934
769
1379
1
1
2
2)(
−=∑ −=
n
i
n
i
xxs
18
Variantie = 1
)²(
−
−∑n
xxi (de gemiddelde variatie)
[idem voor covariatie en covariantie]
b. SSG: Sum of Squares between Groups
SSG = verschillen tussen groepsgemiddelden en globaal gemiddelde, berekend per waarneming
= tussengroeps variatie; variatie veroorzaakt door verschillen tussen groepsgemiddelden
• DFG = I - 1 • MSG = SSG / DFG
• in vb. ethnocentrisme: o SSG = 1340,36 (variatie groep) o DFG = 3 (bv: 4 groepen – 1) o MSG = 446,79 (variantie)
c. SSE: Sum of Squares of Error (error = residu)
SSE = verschillen tussen waarnemingen en groepsgemiddelde
= binnengroeps variatie
• DFE = N - I • MSE = SSE / DFE = (sp)² (= samengestelde maat)
• ijx = deze waarde wordt je gegeven
• in vb. ethnocentrisme: o SSE = 9772,92 o DFE = 887 o MSE = 11,02
d. F-toetsingsgrootheid
F = MSG / MSE
Als F=1: groepen verschillen evenveel van elkaar als individuen onderling al van elkaar verschillen � geen effect van groepen
Als F > 1: tussengroepsvariantie > binnengroepsvariantie � effect van groepen
Als H0 waar: geen verschil tussen de groepsverwachtingen: steekproeven van verschillende groepen zijn eigenlijk steekproeven uit eenzelfde populatie
� MSG = MSE ; beide goede schatters van σ²
Hoe groter F, hoe meer bewijs dat er effectief verschil is tussen groepen.
Ho = omgekeerde van de verwachting, dus er is geen verschil. Bijvoorbeeld 3 verdelingen vallen samen µ1 = µ2 = µ3
∑ −=
=n
j
xxiSSG1
2
)(
∑ −=
=n
j
xx iijSSE1
2
)(
19
Hoe groot moet F zijn om statistisch significant te zijn?
Steekproevenverdeling = verschil tussen 4 groepen. Hoe groot is dan verdelingen en overschrijdingskans?
F-grootheid volgt F(I-1,N-I) verdeling � berekenen overschrijdingskans: tabel E (lang en complex � SPSS-output)
F-toets steeds eenzijdig ⇐ F ≥ 0
• vb. ethnocentrisme: F = 40,55 p < 0,0001
o Overschrijdingskans van een F-waarde: als het zo is dat in de populatie geen verschil is, dan zal minder dan 1 op 1000 EAS uit de populatie een F-waarde opleveren van 40,55 of > (door louter toeval komen wordt)
• SPSS-output:
ANOVA
ETHNO2
1340,362 3 446,787 40,551 ,000
9772,918 887 11,018
11113,280 890
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
Sum of Squares
Df
Mean Square
F
Sig.
Between groups SSG DFG MSG F=MSG/MSE
Within groups SSE DFE MSE
total SST DFT MST
Probleem: enkel globale test op verschil we weten nog niet welke verwachtingen statistisch significant verschillen
6. Contrasten
Indien bij onderzoek specifieke hypothesen m.b.t. verschillen tussen verwachtingen geformuleerd werden. Er is een verschil maar waar? We gaan dus bij contrastcodering het verschil na tussen bijvoorbeeld Ho/Univ en geen/LO. Bij contrasten gaan we zelf onze vergelijken kiezen, maar niet alle combinaties zijn gemogelijk. ²Alternatieve H0 en Ha formuleren
Zeer complex (eerst kennis nodig van contrastcodering), niet kunnen toepassen
Nu niet kennen (p. 621-628)
20
C. MEERVOUDIGE VERGELIJKINGEN
Indien geen specifieke a priori verwachtingen. Dus, er is een verschil, maar waar?
Dus na het verwerpen van de algemene H0 gaan we na welke paren van verwachtingen van elkaar verschillen, dit via een aangepaste t-toets:
De ‘meervoudig’ t-toets: sp voor alle groepen gebruikt
• verwerpen H0: µi = µj indien |tij| ≥ t** (2-zijdig)
• we toetsen paarsgewijs (2 aan 2) • t**= geeft aan in welk gebied 95% van de gevallen liggen. (2,5% links en 2,5% rechts)
Er zijn 2 manieren om t** te bepalen:
• Least Significant Differences (LSD • Bonferroni-methode
1. Least Significant Differences (LSD)
t**: bovenste α/2-kritieke waarde voor t(DFE)-verdeling
Evenveel afzonderlijke significantietoetsen als er paarsgewijze vergelijkingen zijn
Probleem bij het herhaaldelijk toetsen
Stel bijvoorbeeld dat I = 20 (groepen) en α=0,05 (significantieniveau), dan krijgen we 190 paarsgewijze vergelijkingen van verwachtingen. Bij elke van die 190 t-toetsen hebben 5% kans op het foutief verwerpen van de H0. Dit is een type 1 fout. ⇒ globale kans op foutief verwerpen H0 is onaanvaardbaar hoog! (in 5% van 190 t-toetsen: 9,5) Dus door het herhaaldelijke toetsen hebben we meer fouten want het kapitaliseert uw fouten. Daarom gaan we LSD nooit gebruiken, het is wel gemakkelijk maar fout. Je hebt een foutief significantieniveau en een foutieve overschrijdingskans. Want je gaat alle mogelijke combinaties gaan vergelijken (2 aan 2) op het 5% significantieniveau, met als gevolg dat je H0 verkeerdelijk kan verwerpen.
Oplossing: t** zo bepalen dat hiervoor gecontroleerd wordt � verschillende alternatieven beschikbaar (zoals de Bonferroni-methode)
2. Bonferroni-methode
De Bonferroni-methode is een meer correcte berekening van t** (oplossing probleem LSD, een correctie op het herhaaldelijke toetsen) Bij α=0,05: 5% kans op minstens één foutieve verwerping van H0 over alle vergelijkingen samen. Je hebt 5% kans dat je bijvoorbeeld 1 van de 190 t-toetsen fout hebt (en dus H0 verkeerdelijk kan verwerpen).
Naast de t-toetsen, vaak ook gebruik van simultane betrouwbaarheidsintervallen voor verschillen tussen verwachtingen.
nns
xxt
ji
p
ji
ij11
+
−=
nnstxx
jipji
11**)( +±−
21
Report
ETHNO2
8,6652 113 3,2667
9,1011 178 3,5193
9,5933 210 3,5050
9,8162 195 3,5244
10,5627 137 3,0567
11,6565 123 3,2224
12,5528 71 3,0683
10,0292 1027 3,5308
LFTCAT
<25j.
25-34j.
35-44j.
45-54j.
55-64j.
65-74j.
75j.+
Total
Mean N Std. Deviation
3. Voorbeelden
Multiple Comparisons
Dependent Variable: ETHNO2
1,3746* ,3430 ,000 ,7013 2,0479
2,1810* ,3573 ,000 1,4797 2,8823
3,5399* ,3403 ,000 2,8720 4,2079
-1,3746* ,3430 ,000 -2,0479 -,7013
,8064* ,3073 ,009 ,2033 1,4095
2,1653* ,2874 ,000 1,6013 2,7293
-2,1810* ,3573 ,000 -2,8823 -1,4797
-,8064* ,3073 ,009 -1,4095 -,2033
1,3589* ,3043 ,000 ,7617 1,9561
-3,5399* ,3403 ,000 -4,2079 -2,8720
-2,1653* ,2874 ,000 -2,7293 -1,6013
-1,3589* ,3043 ,000 -1,9561 -,7617
1,3746* ,3430 ,000 ,4675 2,2817
2,1810* ,3573 ,000 1,2362 3,1259
3,5399* ,3403 ,000 2,6400 4,4398
-1,3746* ,3430 ,000 -2,2817 -,4675
,8064 ,3073 ,053 -6,1482E-03 1,6190
2,1653* ,2874 ,000 1,4055 2,9251
-2,1810* ,3573 ,000 -3,1259 -1,2362
-,8064 ,3073 ,053 -1,6190 6,148E-03
1,3589* ,3043 ,000 ,5544 2,1634
-3,5399* ,3403 ,000 -4,4398 -2,6400
-2,1653* ,2874 ,000 -2,9251 -1,4055
-1,3589* ,3043 ,000 -2,1634 -,5544
(J) DIP
LSO
HSO
HO
geen/LO
HSO
HO
geen/LO
LSO
HO
geen/LO
LSO
HSO
LSO
HSO
HO
geen/LO
HSO
HO
geen/LO
LSO
HO
geen/LO
LSO
HSO
(I) DIP
geen/LO
LSO
HSO
HO
geen/LO
LSO
HSO
HO
LSD
Bonferroni
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
Std.Error = standaardfout (standaardafwijking van de steekproevenverdeling) = de gemiddelde afwijking van de steekproevenverdeling t.o.v. het gemiddelde
Ethnocentrisme naar leeftijd (APS2002)
We hebben 7 leeftijdsgroepen. De oudere groepen hebben hogere waarden. De standaardafwijkingen liggen dicht bij elkaar. 71123137195210178113N =
LFTCAT
75j.+65-74j.55-64j.45-54j.35-44j.25-34j.<25j.
ETHNO2
20
18
16
14
12
10
8
6
4
2
0
1392
49084810811208441
921698879
1274
73771
1439
317
323
22
ANOVA
ETHNO2
1229,187 6 204,864 18,074 ,000
11561,256 1020 11,335
12790,443 1026
Between Groups
Within Groups
Total
Sum of
Squares df Mean Square F Sig.
We mogen Ho verwerpen want we hebben een kleine overschrijdingskans. Dus nu kunnen we gaan kijken waar zich die verschillen juist voordoen.
Dus welke groepsverschillen zijn statistisch significant? Want niet alle verschillen tussen 2 groepen zijn statistisch significant.
Bonferroni
-,4359 ,4049 1,000 -1,6693 ,7974
-,9281 ,3928 ,385 -2,1244 ,2682
-1,1510 ,3980 ,082 -2,3633 6,125E-02
-1,8975* ,4278 ,000 -3,2005 -,5944
-2,9913* ,4387 ,000 -4,3275 -1,6552
-3,8876* ,5099 ,000 -5,4405 -2,3348
,4359 ,4049 1,000 -,7974 1,6693
-,4921 ,3430 1,000 -1,5368 ,5526
-,7151 ,3490 ,855 -1,7781 ,3478
-1,4615* ,3826 ,003 -2,6269 -,2961
-2,5554* ,3948 ,000 -3,7577 -1,3531
-3,4517* ,4726 ,000 -4,8910 -2,0124
,9281 ,3928 ,385 -,2682 2,1244
,4921 ,3430 1,000 -,5526 1,5368
-,2230 ,3348 1,000 -1,2427 ,7968
-,9694 ,3697 ,186 -2,0955 ,1567
-2,0633* ,3823 ,000 -3,2275 -,8990
-2,9596* ,4622 ,000 -4,3672 -1,5519
(J) LFTCAT
25-34j.
35-44j.
45-54j.
55-64j.
65-74j.
75j.+
<25j.
35-44j.
45-54j.
55-64j.
65-74j.
75j.+
<25j.
25-34j.
45-54j.
55-64j.
65-74j.
75j.+
<25j.
(I) LFTCAT
<25j.
25-34j.
35-44j.
45-54j.
Mean
Difference
(I-J) Std. Error Sig. Lower Bound Upper Bound
95% Confidence Interval
De groepen met een significantieniveau van 1= extreme groepen verschillen statistisch significant, aanleunende groepen zijn niet statistisch significant.
23
Statistics
ETHNO2
1027
450
10,0292
,11018
10,0000
3,53077
Valid
Missing
N
Mean
Std. Error of Mean
Median
Std. Deviation
1,1510 ,3980 ,082 -6,1251E-02 2,3633
,7151 ,3490 ,855 -,3478 1,7781
,2230 ,3348 1,000 -,7968 1,2427
-,7464 ,3753 ,987 -1,8895 ,3967
-1,8403* ,3877 ,000 -3,0210 -,6596
-2,7366* ,4667 ,000 -4,1579 -1,3153
1,8975* ,4278 ,000 ,5944 3,2005
1,4615* ,3826 ,003 ,2961 2,6269
,9694 ,3697 ,186 -,1567 2,0955
,7464 ,3753 ,987 -,3967 1,8895
-1,0939 ,4182 ,190 -2,3675 ,1798
-1,9902* ,4923 ,001 -3,4896 -,4907
2,9913* ,4387 ,000 1,6552 4,3275
2,5554* ,3948 ,000 1,3531 3,7577
2,0633* ,3823 ,000 ,8990 3,2275
1,8403* ,3877 ,000 ,6596 3,0210
1,0939 ,4182 ,190 -,1798 2,3675
-,8963 ,5018 1,000 -2,4246 ,6320
3,8876* ,5099 ,000 2,3348 5,4405
3,4517* ,4726 ,000 2,0124 4,8910
2,9596* ,4622 ,000 1,5519 4,3672
2,7366* ,4667 ,000 1,3153 4,1579
1,9902* ,4923 ,001 ,4907 3,4896
,8963 ,5018 1,000 -,6320 2,4246
<25j.
25-34j.
35-44j.
55-64j.
65-74j.
75j.+
<25j.
25-34j.
35-44j.
45-54j.
65-74j.
75j.+
<25j.
25-34j.
35-44j.
45-54j.
55-64j.
75j.+
<25j.
25-34j.
35-44j.
45-54j.
55-64j.
65-74j.
45-54j.
55-64j.
65-74j.
75j.+
The mean difference is significant at the .05 level.*.
4. Statistische significantie revisited
Bij significantietoets: 2 soorten fouten mogelijk: type I: H0 verwerpen terwijl ze juist is (kans = α) type II: H0 aanvaarden terwijl Ha juist is
vb. Ethnocentrisme (APS-2002) 95% betrouwbaarheidsinterval: 9,81 < µ < 10,25
H0: µ=10 ; Ha: µ≠10 H0: µ=9,75 ; Ha: µ≠9,75
2P(T ≥ |t|) > 0,25 2P(T ≥ |t|) = 0,01
27,011,0
1003,10
/
0 =−
=−
=ns
xt
µ54,2
11,0
75,903,10
/
0 =−
=−
=ns
xt
µ
24
MEERVOUDIGE REGRESSIE
25
A. Herhaling BVA (STATISTIEK 1)
Zie Statistiek 1 voor meer informatie over:
1) Spreidingsdiagram (scatterplot) 2) Enkelvoudige lineaire regressie analyse 3) Kleinste kwadratenregressie (OLS) 4) Covariantie 5) Standaardisatie = Z-transformatie 6) Correlatiecoëfficiënt 7) Determinatiecoëfficiënt 8) B: Gestandaardiseerde b
7. Determinatiecoëfficiënt
2)( yyi −∑ = gekwadrateerde standaardafwijking van y = de variantie van y = TSS
∑=
−n
i
ii yy1
2)ˆ( = waargenomen y t.o.v. de verwachte y = de residuen oftewel SSE
M.a.w. de afwijking van elk puntje in de puntenwolk t.o.v. de regressierechte, of de
residuele variatie.
TSS – SSE = de variatie die we wél verklaren. (oftewel RegSS)
RegSS = regression Sum of Squares = de variatie tussen de groepen oftewel de variatie
die we verklaren.
r² = (a + e) – e = a
a+e a+e
� dit is bij 1 onafhankelijke variabele (BVA) a = de gedeelde variatie (of covariatie) tussen Y en X1
R² = a + b + c
a+b+c+e
Meestal laten we (a+b+c+e) weg aangezien
dat gelijk is aan 1 doordat we hier met
gestandaardiseerde variabelen werken.
∑
∑ ∑
=
= =
−
−−−=
n
i
i
n
i
n
i
iii
yy
yyyy
r
1
2
1 1
22
2
)(
)ˆ()(
TSS
RegSS
TSS
SSETSS2 =−
=r
yrden enomen waa van waargvariantie
y waarden chte van verwavariantie2 =rs
sr
y
y
xy 2
2
ˆ2=
26
B. Bivariate correlatie- en regressie-analyse
1. Voorbeeld
In multivariate analyse krijgen de coëfficiënten soms een andere notatie. Aangezien we bij MVA verschillende richtingscoëfficiënten hebben, zetten we bij elke rico een subscript om te zien over welke populatie het gaat. b � b1 B � B1 (= richtingscoëfficiënten) a � b0 A � B0 (= intercept)
Laten we de verschillende coëfficiënten uit volgend voorbeeld eens interpreteren.
leeftijd -> aantal jaren onderwijs (APS2002)
a = intercept = het snijpunt van de regressierechte met de Y-as indien X nul (0) is. M.a.w. wanneer men 0 jaar is, heeft mijn 16,29 jaar onderwijs gevolgd.
b = richtingscoëfficiënt = bij een verschil van 1 eenheid op de X-as, verwachten we een verschil van -0,087 eenheden op de Y-as � dit is een negatief effect. Maar aangezien b gevoelig is voor de meeteenheid en spreiding, gebruiken we liever de gestandaardiseerde rico B. B = gestandaardiseerde richtingscoëfficiënt = bij een verschil van 1 standaardafwijking op de X-as, verwachten we een verschil van -0,46 standaardafwijkingen op de Y-as � dit is een relatief sterk negatief effect.
r = correlatiecoëfficiënt = -0,46 = een tamelijk grote negatieve samenhang
Leeftijd
908070605040302010
Aantal jaren onderwijs gevolgd
25
20
15
10
5
000 =−=−= BxByA
rn
zz
z
zz
zz
zzzz
B
n
i
yx
n
i
x
n
i
yx
n
i
xx
n
i
yyxx ii
i
ii
i
ii
===−
−−=
∑
∑
∑
∑
∑=
=
=
=
= 1
1
2
1
1
2
1
)(
))((
46,0
21,0
46,0
087,0
29,16
087,029,16ˆ
2
−=
=
−=
−=
=
−=
B
r
b
a
XY
r
27
r² = determinatiecoëfficiënt = 21% van alle verschillen (variantie) bij het aantal jaren onderwijs gevolgd, wordt verklaard door verschillen in leeftijd. M.a.w. 79% van de verschillen in aantal jaren onderwijs gevolgd, is te verklaren a.d.h.v. andere variabelen. In multivariate analyse gaan we pogen om de rest te verklaren.
a. SPSS-output
R Square = R² Adjusted R Square + Std. Error of the Estimate = MVA-coëfficiënten
We passen ANOVA toe aangezien we de groepsgemiddelden gaan vergelijken (per leeftijd).
Regression = tussengroepsvariantie; we hebben een df (vrijheidsgraden) van 1, aangezien we ook maar 1 onafhankelijke variabele hebben. Residual = binnengroepsvariantie; we hebben 1459 mensen in onze analyse Ho = er is géén invloed van leeftijd op het aantal jaren onderwijs gevolgd Ha = er is wél een invloed van leeftijd op het aantal jaren onderwijs gevolgd
F = 3377,091/8,676 = 389,224; met een df = 1 � overschrijdingskans (Sig.) = 0,000
P < 0,0001 = de kans dat als de nulhypothese (Ho) waar is, hebben we een kans van 1 op 1000 EAS dat we toch een EAS steekproef trekken met een verschil (indien Ho waar is) zo groot als F = 389,224 of groter, door louter toeval. M.a.w. we mogen de nulhypothese Ho verwerpen.
ANOVAb
3377,091 1 3377,091 389,224 ,000a
12658,987 1459 8,676
16036,078 1460
Regression
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), LEEFTIJDa.
Dependent Variable: Aantal jaren onderwijs gevolgdb.
Model Summary
,459a ,211 ,210 2,9456
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), LEEFTIJDa.
28
Ongestandaardiseerd Gestand.
B Std. Error Beta t Sig.
(constant) b0 ,225 72,453 .000
LEEFTIJD b1 ,004 B1 -19,729 .000
b0 = a = 16,293 = stochastische variabelen, dus onderhevig aan toeval. Een andere EAS kan bijvoorbeeld 16,1 geven in plaats van 16,293.
b1 = b = -8,70E-02
B1 = B = -0,459
Std.Error = de standaardafwijking in de steekproevenverdeling.
We hebben een standaardafwijking van 0,225. Dit is de gemiddelde standaardafwijking van de steekproevenverdeling van het intercept (a).
Bijvoorbeeld:
i. a is in de 1ste EAS = 16,293 ii. a is in de 2de EAS = 16,1 iii. a is in de 3de EAS = 15,99 iv. � Std.Error = 0,225
Significantietoets (Sig.)
We moeten de toetsingsgrootheid (t-score) berekenen.
t = 16,293 – gemiddelde constante in steekproevenverdeling (= 0 ; waarde uit Ho) Std. Error
= 16,293
0,225
= 72,453 (t-score)
Indien het intercept gelijk is aan nul (0), uit de hele populatie, dan hebben we een kans van minder dan 1 op 1000 EAS dat we een verschil bekomen. Deze kans is klein, dus kunnen we onze nulhypothese (Ho) verwerpen en hebben we dus een statistisch significant intercept.
Coefficientsa
16,293 ,225 72,453 ,000
-8,70E-02 ,004 -,459 -19,729 ,000
(Constant)
LEEFTIJD
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig.
Dependent Variable: Aantal jaren onderwijs gevolgda.
29
2. Vertekeningen
a. Outliers
Uitschieters hebben een sterke invloed op de regressie-oplossing, aangezien zij de regressielijn naar zich toe trekken.
Tussen bovenstaande spreidingsdiagrammen zie je een immens verschil. Zeker in de richtingscoëfficiënten: 1,65 � 1,06 De outliers trekken de regressierechte naar zich toe. Ook de determinatiecoëfficiënt verandert (verklaarde variantie) = 96% � 29% Dus bekijk eerst de verdeling van de variabelen afzonderlijk vooralleer de resultaten te interpreteren. Is de rechte wel een goeie samenvatting?
b. Invloedrijke waarnemingen
Een outlier is niet altijd een invloedrijke waarneming. Dus een invloedrijke waarneming ≠ outlier (kan dicht bij regressielijn)
Een invloedrijke waarneming is een waarneming die de regressiecoëfficiënten sterk beïnvloedt, m.a.w. kunnen dus de resultaten beïnvloeden.
Spreidingsdiagram van lichaamslengte en -gewicht
0
10
20
30
40
50
60
70
80
90
100
160 165 170 175 180 185
lengte (cm)
gew
icht (k
g)
Spreidingsdiagram van lichaamslengte en -gewicht
0
10
20
30
40
50
60
70
80
90
100
160 165 170 175 180 185
lengte (cm)
gew
icht (k
g)
96,0
65,196,213ˆ
2=
+−=
r
xy
29,0
06,138,109ˆ
2=
+−=
r
xy
30
Als een outlier op de regressielijn ligt of er heel dichtbij, al ligt bij immens ver, hij zal amper invloedrijk zijn aangezien hij in de lijn van de regressierechte ligt. Geval 18 illustreert dit. Geval 19 is dan eerder wel een invloedrijke waarneming. Maar het blijft vooral een onderwerp ter discussie. Wanneer een variabele ervoor zorgt dat een negatieve samenhang, plots een positieve samenhang wordt of dat er een significante verandering van de regressierechte plaatsvindt, kunnen we spreken van een invloedrijke waarneming.
c. Non-lineariteit
Non-lineariteit betekent dat er een curve nodig is aangezien een regressielijn geen goede samenvatting is. Bij lineariteit gaan we de puntenwolk samenvatten via een rechte, maar bij non-lineariteit moeten we het samenvatten via een curve.
Bijvoorbeeld statusgroepen en aantal kinderen. Hoge en lage statusgroepen kunnen veel kinderen hebben, terwijl midden statusgroepen relatief weinig kinderen hebben.
4. Residuen-analyse
We gaan nagaan, door te kijken naar de residuelenpatronen, in welke mate we een regressie- en correlatieanalyse mogen uitvoeren. Bij residuen-analyse gaan we de regressierechte horizontaal neerklappen en daar de puntenwolk op leggen. Op de Y-as krijgen we de residuen tegenoverstaande van de regressielijn (= 0). De gemiddelde afwijking tot de regressierechte van de residuen zou nul (0) moeten zijn.
0
0
=
=
r
b
31
(a) Indien de regressielijn een goede samenvatting is van de data, dan hebben we geen systematisch patroon in residuen en dus geen probleem.
(b) non-lineariteit. Levert wel een probleem. Zie puntje 2.b.
(c) heteroscedasticiteit. Bij heteroscedasticiteit heb je bij lage X-waarden een dichte spreiding (grote r²) en bij hoge X-waarden een grotere spreiding (kleine r²). Je merkt dit aan de trechtervorm in de puntenwolk. Heteroscedasticiteit levert een probleem bij de schatting van de standaardfout.
Maar wat is nu een groot residu?
Dit kunnen we nagaan door de residuen te gaan standaardiseren. Hiervoor zijn er twee manieren:
1) gewone standaardisering:
Hierbij gaan we gaan kijken naar de residuen op zich en deze in een standaard uitdrukken. Dus de waargenomen residuen gaan we delen door de standaardafwijking over alle residuen.
e / eS
( eS = standaardafwijking berekend over alle residuen)
Dit volgt een normaalverdeling N(0,1). Vervolgens kunnen we het 95% betrouwbaarheidsinterval gaan opstellen in het gebied [-1,96 , 1,96]. Dat maakt het mogelijk om uitzonderlijke residuen die groter of kleiner zijn dan het 95% betrouwbaarheidsinterval te identificeren als zijn grote residuen.
Het enige probleem is echter dat grote residuen de standaardafwijking opblazen. � oplossing: studentisering
2) Studentisering:
e / ieS −
( ieS − = standaardafwijking berekend over alle residuen van regressie-analyse zonder case i)
e = de afwijking van iY en iY
32
In SPSS:
Hier zullen we de residuelen moeten gaan bewaren, dit doe je als volgt:
Regression � lineair � save � residuals
� …
- SRE = gestudentiseerde residuelen (studentized residuals) - RES = residuelen (unstandarised residuals) - ZRE = gestandaardiseerde residuelen (standarised residuals)
Deze coëfficiënten bevinden zich achteraan de dataset, nadat je ze hebt aangemaakt. Residuelen die zich bevinden in het 95% (99%) betrouwbaarheidsinterval, beschouwen we als normale residuelen. De 5% (1%) die buiten het betrouwbaarheidsinterval valt, beschouwen we als grote residuelen. In SPSS staat dit standaard op 3%, dus je krijgt dan alle residuen met een afwijking kleiner of groter dan 3. Je kan dit veranderen naar bijvoorbeeld 2. Vervolgens kunnen we al deze coëfficiënten in een scatterplot steken.
Zoals je kan zien zijn de residuen zo goed als normaal verdeeld. We kunnen ze samenvatten a.d.h.v. plots, standaardafwijking, mediaan, …
Unstandardized Residual
11,09,0
7,05,0
3,01,0
-1,0-3,0
-5,0-7,0
-9,0
300
200
100
0
Std. Dev = 2,94
Mean = 0,0
N = 1461,00
LEEFTIJD
908070605040302010
Unstandardized Residual
20
10
0
-10
Studentized Residual
4,003,50
3,002,50
2,001,50
1,00,50
0,00-,50
-1,00
-1,50
-2,00
-2,50
-3,00
200
100
0
Std. Dev = 1,00
Mean = -,00
N = 1461,00
LEEFTIJD
908070605040302010
Studentized Residual
4
3
2
1
0
-1
-2
-3
RES
SRE
33
Lijst van cases met gestand. residueel > 3
Casewise Diagnosticsa
3,370 21,00 11,0731 9,9269
3,001 18,00 9,1590 8,8410
3,385 20,00 10,0290 9,9710
3,281 21,00 11,3341 9,6659
3,872 21,00 9,5940 11,4060
3,045 21,00 12,0301 8,9699
3,105 19,00 9,8550 9,1450
3,267 20,00 10,3770 9,6230
3,045 21,00 12,0301 8,9699
3,902 21,00 9,5070 11,4930
Case Number
108
334
391
491
509
794
839
1132
1169
1354
Std. Residual
ONDJREN
Aantal jaren
onderwijs
gevolgd
Predicted
Value Residual
Dependent Variable: ONDJREN Aantal jaren onderwijs gevolgda.
4. Controle op invloedrijke waarnemingen
Dit is een tweede manier om te kijken of alles in orde is en om ervoor te zorgen dat twee of drie grote residuen onze analyse en oplossing niet vertekenen en zo onze samenvatting beïnvloeden.
a. DfFit
= ‘difference between fitted values’
Bij DfFit zijn alle verwachten waarde yiˆ als case i in rekening wordt genomen en
wanneer case i niet in rekening wordt genomen. Dus het verschil tussen yiˆ berekend
voor volledige dataset (met case i) en yiˆ berekend zonder case i.
Indien dit verschil (DfFit) groot is, dan hebben we een grote invloed van case i. Indien dit verschil (DfFit) klein is, dan hebben we een kleine invloed van case i.
Je hebt 1 DfFit per case. Niet of wel gestandaardiseerd, beiden zijn mogelijk. Het is een globale indicatie, omdat je over de hele lijn gaat kijken, of een case een grote invloed heeft.
b. DfBeta
DfBeta is het verschil tussen b-coëfficiënt berekend voor volledige dataset en b-coëfficiënt berekend zonder case i. Het is dus hetzelfde als bij DfFit, maar nu wordt enkel het verschil berekent tussen de richtingscoëfficiënten (b’s). DfBeta geeft dus een indicatie van wat de invloed is van 1 case i op de richtingscoëfficiënt. Je gaat per rico bekijken.
Je hebt 1 DfBeta per case per regressiecoëfficiënt. Niet of wel gestandaardiseerd, om te zien of het uitzonderlijk is.
34
In SPSS:
Regression � Lineair � Save � Influence statistics
- df(Beta) = DFB - df(Beta)std. = SDB - df(Fit) = DFF - df(Fit)std. = SDF
DFBo = invloed op het intercept (a)
DFB1 = invloed op richtingscoëfficiënt (b)
(idem bij SDB)
Bijvoorbeeld: DFBo = 0,004 Dus indien case 1 eruit wordt genomen, dan stijgt ons intercept (a) met 0,004.
DFFIT
,0300
,0250
,0200
,0150
,0100
,0050
,0000
-,0050
-,0100
-,0150
-,0200
-,0250
500
400
300
200
100
0
Std. Dev = ,00
Mean = -,0002
N = 1461,00
Standardized DFFIT
,188,163
,138,113
,088,063
,038,013
-,012
-,037
-,062
-,087
-,112
-,137
300
200
100
0
Std. Dev = ,04
Mean = -,001
N = 1461,00
� Oudere leeftijd, maar toch een hoog opleidingsniveau. Maar deze outliers zijn niet ontzettend groot.
Zo goed als normaal verdeeld. Belangrijkste verschil is de standaardafwijking. De meeste cases hebben amper een invloed op de samenvatting. Zo zijn allemaal mooi verdeeld rond de nul (0).
Deze plots heeft een golvend patroon, dat komt doordat de variabele leeftijd een discrete variabele is.
LEEFTIJD
908070605040302010
Standardized DFFIT
,3
,2
,1
0,0
-,1
-,2
35
DFBETA LEEFTIJD
,00069
,00056
,00044
,00031
,00019
,00006
-,00006
-,00019
-,00031
-,00044
-,00056
600
500
400
300
200
100
0
Std. Dev = ,00
Mean = 0,00000
N = 1461,00
Standardized DFBETA LEEFTIJD
,175,150
,125,100
,075,050
,025,000
-,025
-,050
-,075
-,100
-,125
600
500
400
300
200
100
0
Std. Dev = ,03
Mean = ,000
N = 1461,00
Je hebt hier 2 grote toppen, m.a.w. een hoge concentratie rondt de nul (0). Dit is echter perfect normaal bij regressie-analyse. De middengroep ligt dan ook in het midden =
zwaartepunt [ YX , ] en hebben weinig effect op de richtingscoëfficiënt.
� Oudere leeftijd, maar toch een hoog opleidingsniveau. Maar deze outliers zijn niet ontzettend groot.
Dit is een raar patroon (invloed van elke case op richtingscoëfficiënt).
DfBeta lage leeftijd groot
DfBeta gemiddelde leeftijd klein
DfBeta hoge leeftijd groot
= de waarden van de richtingscoëfficiënt wordt vooral bepaald door lage en hoge waarden op X in plaats van de middengroep. Hoge en lage waarden trekken het zwaarst aan de rico.
LEEFTIJD
908070605040302010
Standardized DFBETA LEEFTIJD
,2
,1
0,0
-,1
-,2
36
C. Inferentie over regressiecoëfficiënten
We willen iets zeggen over de regressiecoëfficiënt (β ) uit de populatie.
We willen iets weten over β maar hebben enkel de richtingscoëfficiënt (b) uit de
steekproef.
We zullen aan de hand van een t-verdeling, een significantietoets doen tussen twee
groepen met 1µ en
2µ . Is het verschil daartussen statistisch significant?
Situatie vergelijkbaar met verschil tussen 2 verwachtingen. Populatie:
We gaan na of het verschil tussen deze groepen statistisch significant is.
Maar hier: vele mogelijke verschillende waarden X
Bij regressieanalyse hebben we heel veel groepen (hier 3 maar kunnen er meer zijn). Het verband tussen de verschillende groepen is dat ze een lineaire functie hebben.
εββ ++= xY010
xY ββ10
ˆ +=
exbby iii++=
10
xbby ii 10ˆ +=
37
De spreiding ligt rond de verwachting (kan dus normaal verdeeld zijn). In de populatie heb je zo’n verdeling. De variabelen in de bevolking liggen rond de verwachte Y-waarde. We kunnen dit schatten door de verwachten residuen.
In steekproef: y bij gegeven x is kansvariabele met bepaalde µ en σ
De verwachting y varieert volgens lineaire functie met x
Steekproefgrootheden: normaal verdeelde zuivere schatters
De steekproevenverdeling van de regressiecoëfficiënt is over alle mogelijke steekproeven
de verwachting (µ ) en die is gelijk aan de verwachting (µ ) in de populatie. Er is echter nog een ontbrekende parameter: σ � S � populatieparameter meestal onbekend � e ’s gebruiken als schatting
= de geschatte standaardafwijking van de steekproevenverdeling
De standaardafwijking van de residuen (S²), we gebruiken de residuen als schatting van de standaardafwijking van de steekproevenverdeling.
1. Assumpties (zie ook Multiple regressie analyse)
• Lineariteit • normaliteit:
e ’s normaal verdeeld met gemiddelde 0 [N(0,1)] • homoscedasticiteit:
e ’s hebben constante variantie We veronderstellen dat de variate van de residuen gelijk is voor alle X-waarden.
• geen autocorrelatie: e ’s zijn onafhankelijk van elkaar We veronderstellen dat de residuelen van alle cases onafhankelijk zijn van elkaar. De ene heeft geen invloed op de andere (normaal gezien), maar dit is niet altijd zo. Bijvoorbeeld wanneer we een enquête afnemen in scholen, kan het zijn dat de selectie afhankelijk is van de scholen zelf. Per school hebben we een ander publiek (elite vs. populaire scholen). Met als gevolg dat twee residuen met elkaar verbonden zijn via school in plaats van via willekeurige residuen.
� nagaan via Durbin Watson test [0 , 4]
• geen vertekening door outliers en invloedrijke waarnemingen
xy
ββµ10
+=
xy bb 10ˆ +=
2
)²( ˆ2
−
−=∑
n
yys
ii
38
Met alle gegevens hierboven berekent, kunnen we nu aan inductieve statistiek gaan doen.
2. Betrouwbaarheidsinterval
Zowel voor b0 als voor b1:
met t(n-2) verdeling
SEb= standaardafwijking van de steekproevenverdeling van de richtingscoëfficiënt
Voorbeeld LEEFTIJD � ONDJREN :
• b0 = 16,293 � 95%-CI: [15,85 , 16,73]
• b1 = -0,087 � 95%-CI: [-0,096 , -0,078]
3. Significantietoets
Oftewel een t-toets. We vergelijken tussen de richtingscoëfficiënten uit de steekproef en delen deze door de richtingscoëfficiënten die we formuleren in de nulhypothese (Ho).
• Ho: β0 = 0
▫ verwachte Y bij X = 0 dikwijls niet interessant ▫ tenzij ev. X in deviation scores (afwijking t.o.v. gemidd.)
• Ho: β1 = 0
▫ geen effect (horizontale rechte)
SEtb b*±
39
Toetsingsgrootheid:
met n-2 vrijheidsgraden
Meestal doen we een tweezijdige toets.
Bijvoorbeeld:
• b0 = 16,293 � t = 72,453 � p < 0,001
• b1 = 0,087 � t = -19,729 � p < 0,001
Coefficientsa
16,293 ,225 72,453 ,000
-8,70E-02 ,004 -,459 -19,729 ,000
(Constant)
LEEFTIJD
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig.
Dependent Variable: Aantal jaren onderwijs gevolgda.
SEb
b
t
1
1=
40
OPSTAP NAAR MULTIVARIATE ANALYSE
41
A. Opstap naar multivariate analyse
1. Types relaties
Een bivariate effectrelatie is niet altijd gelijk aan een causale relatie. Enkele aandachtspunten:
� beschrijvende vs. inductieve statistiek � cross-sectionele vs. longitudinale data � verborgen variabelen (Z) / multivariate analyse
� Het bivariate geval
Types van relaties met meer dan 2 variabelen:
���� Gemeenschappelijke afhankelijkheid/ wederzijdse oorzaak
De relatie tussen X en Y is geen echte relatie, zij wordt beïnvloed door een 3e variabele Z. Men noemt deze relatie dan ook een “schijnverband”.
���� Intermediaire variabele
Geen rechtstreekse relatie tussen X en Y, misschien een beetje invloed van X op Y. Vb: X = etniciteit � Z = SES � Y = criminaliteit
���� Verstrengeling
Dit is de meest voorkomende soort relatie. De derde variabele heeft tevens een invloed op Y én is gecorreleerd met X. Je moet die in rekening brengen om het netto-effect te krijgen. Vb: Y = aantal keer naar theatervoorstelling X = leeftijd
Z = opleidingsniveau � Jongeren meer dan ouderen
� Hoger opgeleiden gaan vaker ! relatie tussen leeftijd en opleidingsniveau: jongeren zijn hoger opgeleid dan ouderen!
X Y
Z
X Y
X Y Z
X Y
Z
42
���� Interactie-effect
Variabele Z heeft een effect op de relatie tussen X en Y.
Hoe kies je een set van onafhankelijke variabelen? Door te kijken naar de theorie.
� Bij multivariate statistiek spreekt men van netto-effecten.
• maar zelfs met correcte toepassing MVA-technieken, blijft: � cross-sectionele vs. longitudinale data � mogelijkheid verborgen variabelen => vaststellen effectrelatie ≠ causale relatie
• ev. wel sterke indicatie voor causale relatie, indien: � sterke samenhang � statistische controle voor diverse andere kenmerken (MVA) � samenhang wordt consistent gevonden in vele onderzoeken � vermeende oorzaak gaat vooraf aan het effect
Sterke samenhang: Stijging in opleidingsniveau levert een daling in etnocentrisme. Wij gaan nakijken naar de dimensies van verschillende onderzoeken (� causaal verband)
� Repliceerbaarheid van onderzoek.
vb. bijwonen van niet-klassieke concerten/festivals (voorbije 6 maand), naar al dan niet hebben van kinderen
� Wie samenwoont met partner en kinderen vertoont een tweemaal lagere kans (odds) om frequent een niet-klassiek concert/festival bijgewoond te hebben dan wie enkel met de partner woont (interpretatie i.t.v. oddsratio)
� Mensen met kinderen gaan meer frequent naar concerten (15,3% <-> 21,1%), dit komt door de invloed van een 3e variabele, nml. leeftijd. Mensen met inwonende kinderen gaan frequenter.
� Dit bleek niet uit de vergelijking van percentages (integendeel) ⇐ o.a. samenhang ts. hebben van (thuiswonende) kinderen - leeftijd
X Y
Z
0 1-2 3+
Bivariaat (%)
woont met partner, zonder kinderen 84,7% 8,1% 7,2% (100%)
woont met partner en kinderen 78,8% 14,1% 7,0% (100%)
Multivariaat (kansverhoudingen)
woont met partner, zonder kinderen . . .
woont met partner en kinderen . - 1,1 - 2,0 *
43
2. Voorbeelden
leeftijd -> ethnocentrisme (APS 2002)
jaren onderwijs -> ethnocentrisme (APS2002)
20,00 40,00 60,00 80,00
Leeftijd
0,00
5,00
10,00
15,00
20,00
Eth
nocentr
ism
e
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
��
�
�
�
�
���
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
��
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
��
�
��
� �
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
��
�
���
�
�
�
� �
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
� �
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
���
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
� �
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
30,0
09,0
30,0
061,0
17,7
061,017,7ˆ
2
=
=
=
=
=
+=
B
r
b
a
XY
r
5,00 10,00 15,00 20,00
Aantal jaren onderwijs gevolgd
0,00
5,00
10,00
15,00
20,00
Eth
nocentr
ism
e
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
��
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
� �
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
��
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
37,0
13,0
37,0
382,0
7,14
382,07,14ˆ
2
−=
=
−=
−=
=
−=
B
r
b
a
XY
r
44
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�� �
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
� �
�
�
�
�
�
�
�
��
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
���
�
��
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
���
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
��
�
�
��
�
�
��
�
�
�
��� �
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
� ��
�
�
�
�
�
�
�
�
�
�
� �
�
jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (APS2002)
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
��
�
��
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
��
�
�
�� �
�
�
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
� �
�
�
�
�
�
�
�� �
�
�
�
� �
�
��
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
152,0
292,0
15,0
03,0
305,0
358,12
031,0305,0358,12ˆ
2
1
2
2
1
21
=
−=
=
=
−=
=
+−=
BBR
b
b
XXa
Y
45
B. Het multivariate model met 2 onafhankelijke variabelen
• Y: afhankelijke variabele • X1 en X2: onafhankelijke variabelen (metrisch) • a: intercept (verwachte Y als X1 en X2 = nul)
• b1: netto-effect van X1 op Y (met X2 constant gehouden) (statistisch gecontroleerd voor X2)
• b2: netto-effect van X2 op Y (met X1 constant gehouden) (statistisch gecontroleerd voor X1)
• εεεε: cumulatief effect alle andere oorzaken Y ; verzameling van alle andere mogelijke variabelen die een invloed op Y kunnen hebben (verzameling Z-variabelen; residuele variatie) � Stuk van de niet-verklaarde variantie.
� Verwachte Y
� Waargenomen Y ( e = residueel)
� Gestandaardiseerde Y, verwachte Z-score op var. Y Geen intercept ( a ) want a = 0 bij standaardisatie.
Voorbeeld: X1 = Partner
X2 = Kinderen
Y = Cultuurparticipatie
ε = Opleidingsniveau, leeftijd, …
X1
X2
Y ε
XbXbaY2211
ˆ ++=
eXbXbaY +++=2211
eXX ZBZBZ Y++=
2121
46
1. Concept van gedeelde variantie
BIVARIATE ANALYSE MULTIVARIATE ANALYSE
Eén cirkel staat voor de totale variatie van een variabele.
Bivariate analyse:
Eén cirkel staat voor de totale variatie van een variabele. In het bivariate model is er een overlapping tussen X1 en Y en tussen X2 en Y. Deze overlapping is een deelverzameling en staat voor de covariatie tussen (a) en (b). M.a.w. de mate waarin ze samen variëren.
Er is echter géén variatie tussen X1 en X2 aangezien het hier bivariaat is. Daarom is het voldoende om twee afzonderlijke bivariate analyses te doen:
• a + c • b + c Doordat we tweemaal C in rekening brengen krijgen we een vertekening en dus een overschatting van de coëfficiënten.
Multivariate analyse:
In het multivariate model covariëren X1 en X2 ook, er is dus een samenhang tussen de twee onafhankelijke variabelen.
Het stukje C staat hier voor de overlapping tussen X1, X2 en Y.
• a + c = het effect van X1 op Y • b + c = het effect van X2 op Y • c + d = het effect van X1 op X2 en omgekeerd Wat we in de multivariate analyse gaan doen is het stukje C weghalen zodat wat het netto-effect krijgen van X1 op Y (= stukje a) en van X2 op Y (= stukje b).
47
2. Een illustratie
2 afzonderlijke bivariate regressie-analyses:
a = 14,7
b = - 0,382
r² = 13% � a + c
Dus 13% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau.
a = 7,17
b = 0,061
r² = 9% � b + c
Dus 9% van de verschillen in etnocentrisme worden verklaard door verschillen in leeftijd.
MAAR:
We moeten rekening houden met de
gedeelde variaties (c) tussen X1-X2-Y.
Indien we de r² (determinatiecoëfficiënten) samentellen, verklaren we 22% van de totale variatie. (zijn “perfecte” coëfficiënten) Dus 22% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd, 22% hebben we verklaard. DIT IS FOUTIEF, WANT C HEBBEN WE TWEE KEER GETELD!!!
Multivariate analyse:
Hier gaan we het stukje C eruit halen.
a = 14,7
b1 = 0,305
b2 = 0,031
� De richtingscoëfficiënten zijn lager dan bij de bivariate analyse. (1/4de van het effect valt weg doordat we overschat hebben bij de bivariate analyse)
R² = 15% � a+ b + c
)(22,0
46,0
2dcr
r
OPLEIDINGLEEFTIJD
OPLEIDINGLEEFTIJD
+==
−=
−
−
)15,0(
031,0305,07,14
2cba
eLEEFTIJDOPLEIDINGISMEETHNOCENTR
R ++==
++−=
)13,0(
382,07,14
2ca
eOPLEIDINGISMEETHNOCENTR
r +==
+−=
)09,0(
061,017,7
2cb
eLEEFTIJDISMEETHNOCENTR
r +==
++=
48
R² = de meervoudige determinatiecoëfficiënt
Dus 15% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd, 15% hebben we verklaard.
jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [3D-puntenwolk] (APS2002)
Van een 3D-puntenwolk naar een 2D- regressievlak (zie grafiek hieronder).
! Dit is geen longitudinaal onderzoek, het is cross-sectioneel onderzoek. Met andere woorden, we kunnen geen voorspellingen doen m.b.t. de toekomst e.a. We kunnen onze voorspellingen dus niet gaan doortrekken op langere termijn.
jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [2D-regressievlak] (APS2002)
Wat heeft nu het grootste effect op etnocentrisme? Opleidingsniveau want de gestandaardiseerde richtingscoëfficiënt is het grootst (B1 = - 0,292)
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�� �
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
� �
�
�
�
�
�
�
�
��
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
���
�
��
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
���
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
��
�
�
��
�
�
��
�
�
�
��� �
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
��
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
���
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
��
�
��
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
��
�
�
�� �
�
�
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
� �
�
�
�
�
�
�
�� �
�
�
�
� �
�
��
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
��
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
��
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
�
� �
�
�
�
�
�
�
152,0
292,0
152,0292,0
15,0
031,0
305,0
7,14
031,0305,07,14ˆ
2
1
ˆ
2
2
1
21
21
=
−=
+−=
=
=
−=
=
+−=
BB
ZZZ
R
b
b
XX
XX
a
Y
Y
49
B
Leeftijd 0,034 Opleiding -0,318 Lidmaatschap verenigingen
-0,067
Vertrouwen politieke instellingen
-0,184
Vertrouwen administratie
-0,074
Vertrouwen gerecht -0,129 Vertrouwen leger 0,089
R² (N=1554)
0,304
(+ ook controle voor geslacht en levensbeschouwing) (bron: Meuleman B. & J. Billiet (2005) De evolutie van etnische dreiging tussen 1991 en 2004 en de relatie met institutioneel vertrouwen. in: Vlaanderen Gepeild 2005, pp.37-60).
Je kan de ongestandaardiseerde richtingscoëfficiënt b1 en b2 niet met elkaar gaan vergelijken omdat ze zeer gevoelig zijn voor de meeteenheid en de spreiding. Hierdoor moeten we B1 met B2 gaan vergelijken om een goeie voorspelling te krijgen. B1 = bij een verschil van 1 standaardafwijking in het aantal jaren onderwijs gevolgd, verwachten we een verschil van – 0,292 standaardafwijkingen op de etnocentrismeschaal. Dit is natuurlijk een zinloze interpretatie, maar we kunnen vergelijken en dat kunnen we niet met b1 en b2.
R² = 0,15 = 15% van de verschillen in etnocentrisme hebben we verklaard door verschillen in opleidingsniveau en leeftijd.
In hoeverre is opleidingsniveau verklarend? Er zijn nog veel andere (verborgen) variabelen die een effect kunnen hebben. Zoals bijvoorbeeld urbanisatiegraad (en de samenhang met opleidingsniveau): Bv: - 0,305 is netto-effect van opleidingsniveau gecontroleerd op leeftijd. Maar misschien is er ook een mogelijke samenhang met de verstedelijkingsgraad, dus moeten we controleren op een mogelijke 4e variabele. Hiervoor moeten we de theorieën gaan nakijken. Tevens is het afhankelijk van steekproef tot steekproef (= steekproefvariatie) Dus moeten we een betrouwbaarheidsinterval opstellen van b1 om zeker te zijn. Ook kunnen er zich meetfouten voordoen. Hiervoor moet de operationalisatie heel goed uitgewerkt worden.
3. Uitbreiding naar meer onafhankelijke variabelen
Eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen:
een illustratie (APS 2004): perceptie van bedreiging door migranten (Y)
Regressie-analyse van perceptie van bedreiging door migranten
- gestandaardiseerde regressie-coëfficiënten
Hier zijn er 7 onafhankelijke variabelen. R² = 30,4% van de verschillen in de perceptie van bedreiging door migranten, worden verklaard door verschillen in de 7 onafhankelijke variabelen. Opleiding heeft het grootste effect want B is - 0,318.
XbXbXbaY332211
ˆ +++=
....ˆ44332211+++++= XbXbXbXbaY
50
MULTIPLE REGRESSIE-ANALYSE
51
A. Inleiding tot multiple regressie-analyse
Correlaties tussen � � afhankelijke variabele
onafhankelijke
variabelen
onafhankelijk variabelen
We gaan ervan uit dat alle variabelen van metrisch meetniveau zijn. In de multiple regressie-analyse gaan we gaan controleren op associaties tussen de onafhankelijke variabelen.
1. Het multivariate basismodel
Lineair-additief model
• ε : cumulatief effect alle andere oorzaken Y (‘random variable’)
• β : ‘true coefficient’ (beta) ≠ regressiecoëfficiënt ⇐ ‘sampling error’ (bij b; rico) ⇐ ‘measurement error’ (bij b) ⇐ conceptueel onderscheid tussen:
• statistisch hulpmiddel • bestudeerd fenomeen
We willen β berekenen maar we kunnen dit niet want we kennen die niet, dus gaan we b (richtingscoëfficiënt) gebruiken ter vervangen. De richtingscoëfficiënten (b’s) zijn niet aan elkaar gelijk. lineair = voor alle effecten veronderstellen we een lineair effect.
additief = we hebben “+”-tekens, sommatie effecten.
X1
X2
Y ε
52
Puntnotatie:
� controleren / constant houden
� partiële regressiecoëfficiënt by 2.1
� voorspeld door a y 12. (of ook: ay12)
� lineair-additief model; waargenomen Y
� verwachte Y; b ter vervangen van β
� Puntnotatie, wat we bedoelen in de regressie.
Voorbeeld:
b1 = by 2.1
= het effect van X1 op Y statistisch gecontroleerd met X2 (constant)
= netto-effect
a= a y 12. = intercept, verwachte waarde op Y voorspeld door de waarde X1 en X2
a. Concept van gedeelde variantie
BIVARIATE ANALYSE MULTIVARIATE ANALYSE
Eén cirkel staat voor de totale variatie van een variabele.
De cirkels zijn even groot = Z-score. Het zijn hier dus gestandaardiseerde variabelen. In feite is X1 = ZXi (fout bij McClendon)
εα ββ +++= XXY2211
XbXbaY2211
ˆ ++=
XbXba yyyY
21.212.112.ˆ ++=
53
Multivariate analyse:
Hier is er dus een samenhang tussen de twee onafhankelijke variabelen.
by 2.1= a (C is eruit)
b. Voorbeelddata
X1: aantal jaren ervaring (onafh.) X2: aantal publicaties (onafh.) Y: jaarloon (in 1000$) (afh.)
geweten dat: Y = 20 + 1X1 + 2X2 + εεεε maar hier: schatten om logica te illustreren
a = intercept, standaardloon van 20.000 $
X1 = per jaar ervaring komt er 1000 $ bij
X2 = per publicatie komt er 2000 $ bij
ε = residueel, staat hier voor andere verdiensten (extra $ erbij)
Twee bivariate analyses
We hebben een onderzoekspopulatie van 5 personen. Bijvoorbeeld persoon 1 heeft 0 jaren ervaring (X1), 2 publicaties uitgegeven (X2) en
54
verdient 26.000$ (Y). We verwachten dat hij normaal 24.000$ ( Y ) verdient, er is dus een residueel van +2 (ε).
Persoon 1 heeft een afwijking van -9 ( YY − ) t.o.v. van het gemiddelde jaarloon (Y ).
by1 = het bivariate effect van X1 op Y.
In de regressie vergelijking ( y = 23,09 + 2,382 1x ) zien we dat we het effect van X1 op Y
overschatten indien we X2 buiten beschouwing laten.
1ya > 2.1ya : 23,09 > 20,30
1yb > 2.1yb : 2,382 > 1
Grafisch
55
c. Relatie bivariate b’s en meervoudige b’s
De bivariate regressiecoëfficiënten (RC) overschatten ‘ware’ RC’s. We hebben dus een zware overschatting indien we enkel X1 en X2 gebruiken.
(--> vb. case 5)
oorzaak: correlatie tussen X1 en X2 � ‘dubbeltelling’
Oplossing overschatting
We moeten een methode vinden om X2 uit X1 en X1 uit X2 te krijgen. Dit gaan we doen via regressie-analyse.
X1 = a + bX2 + εX1 (hier is X1 de afhankelijke) [εX1 = a + f] X2 = a + bX1 + εX2 (hier is X2 de afhankelijke) [εX2 = b + g]
� partiële RC’s, zonder C!
De overlappende variatie tussen X1 en X2 op Y en de covariatie tussen X1 en X2 (c+d) zorgen ervoor dat met een probleem zitten. Dus gaan we a.d.h.v regressie-analyse dat probleem oplossen. Bijvoorbeeld als we X1 als afhankelijke variabele nemen en X2 als onafhankelijke (c+d) dan gaan we ons enkel focussen op het residu εX1.
R² zal dan c+d zijn, en deze gaan we gaan gebruiken in onze regressie-analyse.
εX1 = 1 – R² = a + f
We willen het stukje C weg als we het effect van X1 of X2 op Y willen nagaan.
Dus gaan we onze nieuwe variabele εX1 in relatie brengen met Y. Op deze manier is het stukje C uit onze vergelijking. We gaan dit ook doen voor X2.
Dus we gaan een nieuwe regressie-analyse uitvoeren (MVA), waar we niet X1 en X2 in onze analyse opnemen, maar wel εX1 en εX2 (zonder C).
XXaY21
94,2382,2ˆ ++=
39,85*94,25*382,23594,2382,2ˆ21
=−−=−−= XXYa
67,589*94,210*382,239,8ˆ =++=Y
εε 2211ˆ
XX bbaY ++=f g
56
Zo bekomen we de partiële richtingscoëfficiënten b1 en b2.
12b = het effect van publiciteit (X2) op jaren ervaring (X1) = 0,940
2.1X = de verwachte waarde op X1
Voorbeeld case 1: 2.1X = 2,18 = bij 2 publicaties verwachten we 2,18 jaren ervaring
1X - 2.1X = residu ε 1X = dit is onze nieuwe variabele, de geresidualiseerde variabele van
X1 waar X2 eruit is gehaald (dus a + f). Deze εX1 gebruiken we om de covariatie van Y te berekenen.
( 1X - 2.1X )(Y-Y ) = 23,82 = de covariatie tussen Y en de geresidualiseerde X1 variabele.
Hier is het stukje C uit verwijderd!
2.1yb = het netto-effect van de geresidualiseerde variabele X1 op Y, statistisch
gecontroleerd op X2 = het effect van jaren ervaring op loon, statistisch gecontroleerd op het effect van publicaties.
57
Idem tabel 3.2, maar dan voor X2 in plaats van X1
1.2X = de verwachte waarde op X2
Voorbeeld case 1: 1.2X = 1,54 = bij 0 jaren ervaring verwachten we 1,54 publicaties.
2X - 1.2X = residu ε 2X = dit is onze nieuwe variabele, de geresidualiseerde variabele van
X2 waar X1 eruit is gehaald (dus b + g). Deze εX2 gebruiken we om de covariatie van Y te berekenen.
( 2X - 1.2X )(Y-Y ) = 35,03 = de covariatie tussen Y en de geresidualiseerde X2 variabele.
Hier is het stukje C uit verwijderd!
1.2yb = het netto-effect van de geresidualiseerde variabele X2 op Y, statistisch
gecontroleerd op X1 = het effect van publicaties op loon, statistisch gecontroleerd op het effect van jaren ervaring.
12.ya = analoog berekend als het bivariate geval (regressievlak). Het regressievlak moet
door het evenwichtspunt ( X en Y ).
58
Waar moeten we C aan toekennen?
Aan X1 of X2? Daarom moet C eruit.
We halen de gedeelde variatie tussen de onafhankelijke variabelen eruit en kijken dan naar het effect op de afhankelijke variabele (C eruit).
Grafisch
ac
e
b
g d f
Y
X2 X1
� effect εεεεX1 en εεεεX2 op Y
ac
e
b
g d f
Y
X2 X1
X2 uit X1 halen
� εεεεX2 = b +g
ac
e
b
g d f
Y
X2 X1
X1 uit X2 halen
� εεεεX1 = a +f
59
2. Coëfficiënten
a. Residuelen
Hier gaan we na hoe goed X1 en X2 nu de variantie in Y verklaren. Hoe goed is onze regressie nu?
12YYS
−= 1,6733 = de standaardafwijking van de residuen.
(in de reader van McClendon wordt er een andere formule gebruikt, nml. 1/n i.p.v. 1/n-1)
12Y = de verwachte waarde op Y
b. Meervoudige correlatiecoëfficiënt
(Hoe goed is onze voorspelling?)
12YYr = de bivariate correlatie tussen de waargenomen en verwachte variabele Y.
Wij gaan trachten zo goed mogelijk de afhankelijke variabelen te verklaren.
YS = standaardafwijking waargenomen Y
60
Unstandardized Predicted Value
50403020
Y
60
50
40
30
20 Rsq = 0,9702
12YS = standaardafwijking verwachte waarde van Y
12YY SS = covariatie
De bivariate correlatie kan niet negatief worden.
max. = 1 = perfecte voorspelling
min. = 0 (!) = geen samenhang
De residuen zijn niet perfect gecorreleerd.
12.YR = de correlatie tussen Y en Y .
12.YR = 0,9850 = bijna perfecte correlatie.
c. Meervoudige determinatiecoëfficiënt
(Hoe groot is stuk a + b + c?)
12.2YR = de variatie die we willen begrijpen, geeft goed weer wat we bedoelen.
∑ − )²( YY = de variatie van de waargenomen waarden (totale variatie) � SST
(delen door n-1 = variantie; vierkantswortel = standaardafwijking).
∑ − )²ˆ( 12YY = variatie van de residuelen = afwijking van elke waargenomen waarde t.o.v.
de verwachte waarde. � SSE
61
12.2YR =
SST
SSESST −= .9702 � de proportie van de totale variantie die verklaard wordt
door de onafhankelijke variabelen.
Probleem bij R² is dat we een overschatting hebben van de populatie-R².
Dit komt door steekproeffouten. (cf. situatie waar R in populatie = 0) (meer marge voor fouten als populatie-R klein is) Dus we hebben een overschatting voor de steekproefvariatie voor R². We hebben afwijkingen in opwaartse bewegingen.
Oplossing: adjusted R² (2R )
Deze is steeds kleiner dan R². Alsook is de afwijking t.o.v. R² groter naarmate er meer onafhankelijke variabelen (k) zijn en wanneer R² kleiner is.
k = de onafhankelijke variabelen.
d. Gestandaardiseerde partiële regressiecoëfficiënt
In multivariate analyse werken we met gestandaardiseerde richtingscoëfficiënten. De ongestandaardiseerde coëfficiënten zijn gevoelig voor spreiding. Het is dus moeilijk te zeggen wat een groot/klein effect is, alsook zijn ze schaal-afhankelijk.
Oplossing: standaardisering
Berekeningen zijn analoog aan het niet-gestandaardiseerde geval.
YZ = gestandaardiseerde verwachte waarde voor Y.
ac
e
b
g d f
Y
X2 X1
SST = a + c + b + e
SSE = e , kunnen we niet verklaren door onafhankelijke var.
zzz y 216524,03804,0ˆ +=
62
2Z heeft een groter effect (0,6524) dan 1Z (0,3804). Hier kunnen we dus gaan
vergelijken. Het nadeel is wel dat het een inhoudelijk zinloze interpretatie is, aangezien men hier spreekt in termen van standaardafwijkingen.
De waarden zijn mathematisch onbegrensd en liggen praktisch in het interval [-1,+1].
De som van de afwijkingen (bij Z1, Z2 en Zy) is per definitie gelijk aan 0. (cf. tabel 3.5)
e. Semi-partiële correlatie (part-correlatie)
Definitie: correlatie tussen Y en X waarvan andere predictor uitgehaald. De covariatie tussen Y en X.
ssXX
srXX
nYY
Y ˆ
/))((
2.11
ˆ2.11
1
−
∑ −−=
63
2.11 XX − = de residuelen
2.1X = de verwachte waarde van X1 als X2 de afhankelijke variabele is.
In voorbeeld is 1sr de correlatie tussen loon en het aantal jaren ervaring, met statische
controle voor (het aantal jaren ervaring en) aantal publicaties.
1sr = 0,2251
2sr = 0,3861
1sr ligt in het interval [-1,+1].
Interpretatie ²1sr : bijkomende variantie uniek verklaard door X1 (of daling in R² door
weglaten X1) = de gecontroleerde determinatiecoëfficiënt
Dus, hoeveel verschil in loon wordt verklaard door verschil in jaren ervaring = 5%
(a)
(b)
(c)
Dus c = ervaring + publicaties verklaren samen 77%
Stel X1 is uit het model => c + b = 0,14 + 0,77 c+b is de R² van de bivariate analyse => verklaarde variatie gaat met a dalen,zonder X1
f. Partiële correlatie
Definitie: correlatie tussen Y en X waarbij andere predictor zowel uit X als Y gehaald.
X2 zowel uit X1 als uit Y halen. Bij semi-partieel halen we X2 uit X1.
� stukje b is het verschil tussen de twee.
De partiële correlatie ( 1pr ) ligt in het interval [-1,+1].
rRsr YY
2
2
2
12.
2
1−=
0507,02
1=sr
1490,02
2=sr
7705,0)1490,00507,0(9702,0)(2
2
2
1
2
12.=+−=+− srsrRY
9702,01490,08212,0)²2251,0()²9062.0(2
2
2
1
2
12.=+=+=+= srrR YY
ssXXY
rprXXYY
nY
Y
ˆˆ
/))((
2.112
ˆˆ2.112
2.11−−
∑ −−==
64
In voorbeeld:
1pr = 0,7936
2pr = 0,9129
Interpretatie ²1pr : hoe goed verklaart X1 het deel van de variantie in Y die niet verklaard
wordt door X2
In voorbeeld:
²1pr = 0,6299
²2pr = 0,8333
1 - ²2Yr = 1 – (b+c) � a + e
1 is de totale variatie van Y (want deze is gestandaardiseerd)
rrRprY
YY
2
2
2
2
2
12.2
1 1−
−=
65
B. Multiple regressie-analyse: Coëfficiënten
1. Toepassing: 1973-1977 Quality of Employment Survey
• blanke mannen, 25-64 jaar, in voltijds loonverband • Y: jaarloon in 100$ (EARN) • X1: aantal jaren scholing voltooid (EDUC) (0[0], 1-7[4], 8[8], 9-11[10], 12[12], 13-15[14], 16[16], 17-19[18]) � ordinaal
• X2: aantal jaren ervaring (EXPER)
a. Beschrijving data
B (bivariaat)
Correlations (r) zijn de bivariate analyses. We zien dat inkomen voornamelijk bepaald wordt door opleidingsniveau. Maar dit zegt niet genoeg over het effect van inkomen.
We zien een negatief verband (- 0,323) tussen opleidingsniveau en ervaring.
Daarom moeten we multivariate analyse gaan toepassen.
66
Bivariate scatterplots
We gaan eerst kijken naar de verdeling van de outliers. De scatterplots geeft de relatie weer met de afhankelijke variabele inkomen.
a) Geen metrische variabele, maar een categorische. En we hebben 3 probleemgevallen (= invloedrijke waarnemingen) � sterk effect opleidingsniveau op inkomen (!) er is vertekening
b) Tevens drie probleemgevallen
� Een negatief categorisch verband
67
Multivariate 3D-scatterplots
In dit 3D-scatterplot gaan we loodlijnen trekken (“spikes”) voor een beter zicht te krijgen. We merken op dat de loodlijnen oplopen van links naar rechts.
We gaan dit tevens conditioneel gaan bekijken: (p.68)
68
69
b. Coëfficiënten (multivariaat)
C is nog niet getoond: C is negatief! A+B > a+b+c
Legende:
sr = semi-partiële correlatiecoëfficiënt (part-correlatie)
²sr = semi-partiële determinatiecoëfficiënt
pr = partiële correlatiecoëfficiënt
²pr = partiële determinatiecoëfficiënt
B = meervoudige gestandaardiseerde richtingscoëfficiënt
Shrunken ²R = .1737 = 17,3% van de verschillen in inkomen, worden verklaard door verschillen in opleidingsniveau en aantal jaren ervaring. (Hoe goed is onze voorspelling?)
²1sr = .173 = 17,3% van de verschillen in inkomen worden alleen verklaard door
verschillen in opleidingsniveau. Alle verklaringskracht van verschillen in inkomen, komt uit verschil in opleidingsniveau.
²2sr = .036 = 3,6% van de verschillen in inkomen worden alleen verklaard door
verschillen in het aantal jaren ervaring.
²1pr = .174 = 17,4% van de verschillen in inkomen die niet verklaard worden door de
verschillen in aantal jaren ervaring, worden verklaard door verschillen in opleidingsniveau.
70
²2pr = .042 = 4,2% van de verschillen in inkomen die niet verklaard worden door de
verschillen in opleidingsniveau, worden verklaard door verschillen in het aantal jaren ervaring.
B = de meervoudige gestandaardiseerde richtingscoëfficiënt. (= gestandaardiseerd b )
� Wat heeft nu het grootste effect op het inkomen?
2XB = .201
1XB = .440 = bij 1 standaardafwijking verschil op opleidingsniveau, verwachten we een
verschil van .440 standaardafwijking op inkomen.
Dit is een dubbel zo groot effect dan 2X
B !
In tegenstelling tot bivariate correlatie, zijn deze B ’s groter. (cf. tabel 3.9) .440 > .375
.201 > .059
Bij bivariaat gaan we het effect van X1 op Y na. Bij multivariaat gaan we X2 in rekening brengen, met als gevolg dat de ware aard van het effect van X1 op Y naar boven komt. Dus het effect bij multivariate is groter dan bij bivariaat = suppressie.
1Xb = 6.798 = bij een verschil van 1 jaar opleiding,verwachten we een verschil van 679$.
²R = SST
SSESST − =
1473832
12134331473832 − (waarbij 260398 = 14732832 – 1213433)
6,798 X1 = bij een verschil van 1 jaar opleiding, verwachten we een verschil van 680$
0,954 X2 = bij een verschil (tussen 2 mensen) bij 1 jaar ervaring, verwachten we een verschil van 95$.
Grafisch (multivariaat)
XX
XbXba YYYY
21
21.212.112.
954,0798,672,10
ˆ
++=
++=
71
c. Outliers
Bijvoorbeeld case 552 weglaten, dan zal b1 dalen met 0,092 (6,798 dalen).
Cook’s D = Cook’s Distance = de gemiddelde van de verschillen van de dfBeta’s.
b1 en b2 hebben een invloed op de richtingscoëfficiënt.
d. Uitbreiding naar meer predictoren
Een eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen.
123.Ya = intercept
23.1Yb = netto-effect (rico) van X1 op Y, statistisch gecontroleerd voor X2 en X3 (constant)
)ˆ( 23.11∑ − XX )( YY − = de associatie van de geresidualiseerde X1 en Y
23.1X = de geresidualiseerde X1 variabelen
� In SPSS: meervoudige regressieanalyse met X1 als afhankelijke en X2 + X3 als
XbXbXba YYYYY
312.3213.2123.1123.ˆ +++=
XX
XbXba YYYY
21
21.212.112.
954,0798,672,10
ˆ
++=
++=
∑∑
−
−−=
)²(
)()(
ˆ
ˆ
23.11
23.11
23.1
XX
YYXXbY
72
onafhankelijke variabelen. Klik vervolgens op Save en op de residuelen.
Zo bekom je 23.1X , want deze functie bewaart de verwachte X1 waarden.
De idee van statistische controle blijft hetzelfde.
123.²YR = verschil tussen de totale variatie in Y (SST) – residuen (SSE)
totale variatie in Y (SST)
= verschil tussen totale verklaarde variatie – variatie die verklaard wordt indien X1 uit de analyse gehaald wordt.
= partiële determinatiecoëfficiënt
2. Types relaties tussen variabelen
a. Verhouding bi- en multivariatie coëfficiënten
De gestandaardiseerde partiële ≠ gestandaardiseerde bivariate parameters
Enkele mogelijkheden:
• ‘redundancy’ (redundantie) o B (in MVA) zelfde teken als r (in BVA) maar kleiner in absolute waarde
o de bivariate coëfficiënt is groter (>) dan de multivariate coëfficiënt
• ‘suppression’ (suppressie) o B zelfde teken als r maar groter in absolute waarde o B tegengesteld teken van r en kleiner/groter in absolute waarde o de bivariate coëfficiënt is kleiner (<) dan de multivariate coëfficiënt o het effect van X1 en X2 wordt onderdrukt o ook mogelijk negatief effect van X1 op Y
Voor een beter begrip:
= relatie tussen het bivariate effect van X1 op Y en multivariate component
∑∑
−
−−−=
)²(
)²()²( ˆ1232
123.
YYYYYY
RY
RRsr YY
2
23.
2
123.
2
1−=
RRRprY
YY
2
23.
2
23.
2
123.2
1 1−
−=
rrrr
BYY
Y 2
12
1221
2.11−
−=
73
b. Type 1 correlatie-patroon (3 varn.)
In dit type correlatie-patroon zijn alle correlaties positief of positief te maken. (a) type 1 correlatie-patroon = positieve correlatie tussen alle variabelen.
(c) correlatie-patroon is terug te voeren tot (a) door Y (de schaal) om te coderen, waardoor alles positief wordt. Idem met (b), hier gaan we gewoon X2 omcoderen.
Dat is nodig zodat 122rrY hetzelfde teken zal hebben als 1Yr .
Gemeenschappelijk:
• alle r’s positief te maken door omgekeerd coderen X’ = (Xmax + Xmin) - X
• 122rrY zelfde teken als 1Yr
• 121rrY zelfde teken als 2Yr
� de 2 delen van de teller hebben hetzelfde teken
X1
X2
Y ε
Dit is r (zonder X2)
vb: .03 zonder X2
In MVA (B)
Vb: X1 � Y = .05
We zien in ons voorbeeld suppressie: .03 < .05
Dus, met X2 erbij komt het effect van X1 op Y tot zijn volste recht.
rrrr
BYY
Y 2
12
1221
2.11−
−=
74
i. Redundantie
We hebben redundantie als:
| 1Yr | > | 122rrY | EN | 2Yr | > | 121rrY | (� 1Yr - 122rrY )
Indien het geldt voor X1, dan ook bij X2.
Indien X1 groter is in bivariate analyse, dan ook bij multivariate analyse.
1Yr = bivariate effect van X1 op Y, zonder controle op X2
2.1YB = multivariate effect van X1 op Y, statistisch gecontroleerd op X2
In voorbeeld: ( 1Yr ) .6 > ( 2.1YB ) .33
Of anders geformuleerd:
• deel van relatie X1-Y is redundant met deel van relatie X2-Y • gedeelde variatie tussen X1, X2 en Y • partiële relatie < zero-orde relatie (B, sr²) • c positief
• 1²sr + 2²sr ≤ ²R
Dit is het meest frequent voorkomende type van correlatie-patroon.
Bij multivariaat ga je het gedeelde stukje C eruit halen. De totaal verklaarde variatie is a + b + c. Dat kan kleiner zijn dan a + b, m.a.w. het kan zijn dat het stukje c negatief is!
ii. Suppressie
We hebben suppressie als:
• B tegengesteld teken van r
| 1Yr | < | 122rrY | of | 2Yr | < | 121rrY |
o maar (‘tegengestelde teken’ suppressie)
als | 1Yr | < | 122rrY | dan | 2Yr | > | 121rrY | en
als | 2Yr | < | 121rrY | dan | 1Yr | > | 122rrY |
(<= 12r voor zowel 2.1YB als 1.2YB )
75
• |B| groter dan |r| (‘gelijke teken’ suppressie)
| 2Yr | > | 121rrY | en (1- 12²r ) < teller
(voorbeeld: universiteit en loon, per publicatie en jaar ervaring)
In het bivariate geval ( r ) zien we een positief effect, terwijl we in het multivariate geval ( B ) een negatief effect waarnemen. Hieruit concluderen we dat de bivariate analyse foutief is. We bekomen hier dus andere conclusies in multivariate dan in bivariate analyse. De suppressie werkt in beide richtingen.
1Yr = bij 1 standaardafwijking verschil in jaren ervaring, verwachten we een verschil
van .3252 standaardafwijkingen verschil in loon.
2.1YB = -.8503 = hier is het omgekeerd
1.2YB = 1.4583
We bemerken bij 2.1YB en 1.2YB iets systematisch met het type 1 correlatie-patroon.
Er is suppressie: - tegengestelde teken suppressie bij 2.1YB
- gelijke teken suppressie bij 1.2YB
76
Grafisch suppressie
Bij bivariaat gaat het enkel om het positieve effect van X1 op Y. Bij multivariaat gaan we X2 erbij nemen en zien we een negatief effect X1 op Y.
Het totale effect (BVA) van X1 op Y (a+c) Het echte effect van X1 op Y is in feite negatief. Bij BVA zit er een stuk van het effect van X2 op Y, mee in het effect van X1 op Y. Dat effect is hier positief. Bij BVA wordt het negatieve effect onderdrukt.
MVA: Stukje C eruit en dus positief stuk valt weg, waardoor we enkel nog het negatief stuk overhouden. BVA: Bij X2 op Y heb je een positief effect. Het totale effect wordt onderdrukt door het negatieve stukje dat meekomt uit X1.
Dus we krijgen een onderdrukking van het totale effect door relatie met andere variabelen.
1²sr + 2²sr ≥ ²R (‘negatieve’ c) � BVA ≥ MVA
0,2534 + 0,7455 > 0,8513
X1
X2
Y ε -
+ (bivar.)
+
+
Effect op Y
X1
X2
- +
- +
77
c. Type 2 correlatie-patroon (3 varn.)
In dit type correlatie-patroon zijn alle correlaties negatief of negatief te maken. Hier gaan we de Y variabelen moeten omcoderen.
Gemeenschappelijk:
• alle r’s negatief te maken door omgekeerd coderen X’ = (Xmax + Xmin) - X
• 122rrY tegengesteld teken van 1Yr
• 121rrY tegengesteld teken van 2Yr
�2 delen van teller hebben tegengesteld teken
i. Suppressie
Hier hebben we steeds ‘gelijke teken’ suppressie: |B| > |r| (MVA coëf. > BVA coëf.) voor elke onafhankelijke variabele. We hebben in dit type correlatie-patroon geen redundantie.
� 1²sr + 2²sr ≥ ²R
rrrr
BYY
Y 2
12
1221
2.11−
−=
78
De bivariate coëfficiënt X1 = .38 (bij correlations = BVA) wordt onderdrukt door X2 = .059
Bij de MVA is het echte effect van X1 = .44 (B) en idem voor X2 = .20
Bij het type 2 correlatie-patroon hoort redundantie niet tot de mogelijkheid, we hebben steeds ‘gelijke teken’ suppressie.
d. Patroon voor meer dan 3 variabelen
Dit is té complex voor eenvoudige weergave
• bepaalde predictor kan redundant zijn met bepaalde andere predictoren en in suppressie met nog andere predictoren
Voorkomen redundantie/suppressie afhankelijk van aantal en sterkte redundante t.o.v. suppressieve relaties met andere predictoren.
79
C. Multiple regressie-analyse: Assumpties
1. Inleiding
Je afhankelijke variabele moet altijd metrisch zijn! We nemen steeds enkele assumpties aan, waaraan voldoen moet worden vooraleer je aan regressie analyse kan doen. Maar wat is het probleem als onze assumpties geschonden zijn? Toch voor a-symmetrische relaties.
a. Steekproevenverdeling van b (richtingscoëfficiënt)
Dit is de steekproefvariatie beschreven door een steekproevenverdeling. Van steekproef tot steekproef krijgen we een andere richtingscoëfficiënt, maar gemiddeld
genomen ligt deze dicht bij de populatiewaarde β [beta] = de richtingscoëfficiënt in de populatie.
Met de steekproevenverdeling willen we iets zeggen over de volledige populatie. Maar het gaat steeds over n (uw steekproefpopulatie, vb: n = 1000), hierna moeten we gaan zien of onze bevindingen statistisch significant zijn of niet zodanig dat we het kunnen doortrekken naar de gehele populatie.
In figuur 4.3 zien we dat bepaalde aantallen afwijken, we kennen de verwachting µ maar niet de standaardafwijking σ ?
Enkele assumpties:
• b is een zuivere schatter (unbiased estimate) van β
βµ =b
80
� bσ = de standaardafwijking van de steekproevenverdeling van de b
εσ = de standaardafwijking van de residuen in de populatie
xs = de standaardafwijking van X (waargenomen X)
ε = de populatie residuen [eta]
= de steekproevenverdeling is bij benadering normaal verdeeld
• Gauss-Markov theorema: OLS regressievergelijking geeft ‘Best Linear Unbiased Estimate’ van β: meest efficiënte schatter ⇐ minimale standaardfout
• (vertaald) OLS regressie = richtingscoëfficiënt in een steekproef is de best mogelijke lineaire, niet vertekende schatter van β; het is een techniek die ervoor zorgt dat we zo’n minimaal mogelijke afwijkingen hebben van de residuelen.
• maar: hiervoor assumpties aannemen over ε !
Onze grootste bekommernis met assumpties: Wat moet je doen na analyses?
1) residuen-analyse (Hebben we invloedrijke waarnemingen?) dfBeta’s of dergelijks. 2) Assumpties testen 3) Indien alle assumpties vervult zijn, kunnen we de resultaten gaan interpreteren.
b. t-test voor bivariate regressie
We gaan de verschillen (residuelen) in de steekproef gaan schatten. Doordat σ niet gekend is, gebruiken we s (standaardafwijking uit de steekproef). Dit levert een bijkomende onzekerheid waardoor we een t-verdeling moeten gebruiken.
Dus de ‘ware’ σ niet gekend � berekenen uit data.
We doen een t-test om de kans te bepalen dat steekproeffouten ervoor zorgen dat b ≠ β (hoeveel standaardafwijkingen is b verwijderd van β)
We gaan onze onzekerheid incalculeren door een t-verdeling te doen. Hierdoor wordt de staart(kans) dan ook groter, met als gevolg dat de overschrijdingskans ook groter wordt en het moeilijker wordt om Ho (nulhypothese) te verwerpen.
Dus over de residuen moeten we eerst een aantal assumpties gaan testen vooraleer we dit hard kunnen maken.
t -verdeling
⇐ geschatte i.p.v. ‘ware’ standaardfout, dit levert bijkomende onzekerheid
• grotere proportie > |2| dan N • benadert normaalverdeling bij grote n
nsXb
σσ ε=
Nb ~
nss
sX
YY
b
ˆ−=
81
0H : β = 0
• kans op type 1 fout (correcte nulhypothese verwerpen) • gebruikelijk α-niveau: 0,05 • two-tailed vs. one-tailed test
2. Assumpties
a. Assumptie 1: εεεε is niet gecorreleerd met X
Deze assumptie is niet iets empirisch, het is eerder iets conceptueel.
We veronderstellen geen correlatie tussen de onafhankelijke variabelen en de residuen. M.a.w. zoveel mogelijk van de invloeden op Y gaan we in ons model gaan opnemen. Dus uw model moet zo goed mogelijk zijn anders zijn de schattingen vertekend.
Indien wel εεεε wel gecorreleerd is met X:
• b vertekende schatter (verstrengeling of ‘spuriousness’) • of b = totaal (direct + indirect) effect
� hypothesetoetsing: - b vertekend ⇒ t vertekend (over/onderschat) - standaardafw. residuelen overschat � t vertekend (onderschat) - netto-effect: afhankelijk van verhouding vorige
Oplossing: modelconstructie (alle relevante X’en opgenomen) => je kan inzichten en andere onderzoeken gaan gebruiken, ook andere modellen overnemen.
X1
X2
Y ε
We veronderstellen geen correlatie tussen X1 en ε. Dus geen samenhang tussen het verklaarde deel
van Y en het niet verklaarde deel van Y.
SEss bbb
bbbt ==
−=
0
ss
sss YY
X
XYYb
nb
n
bbt
ˆˆ ˆˆ
)(
)/( −−
===
82
b. Assumptie 2: Homoscedasticiteit
Gelijke spreiding van de residuen voor de onafhankelijke variabelen. Gelijke spreiding van de X waarden op Y = voor elke onafhankelijke variabele moet er een gelijke spreiding zijn in de puntenwolk. = homoscedasticiteit ε vertoont zelfde variantie voor elke Xi (homoscedasticiteit) Indien niet: heteroscedasticiteit (var(ε) is gecorreleerd met X)
• geen probleem van vertekende schatter • wel van efficiëntie: over/onderschatten van standaardfout • Probleem in de mate waarin de standaardfout correct is • Probleem met significantietoetsen.
Met op dat bij heteroscedasticiteit er een positief, uitwaaiend patroon zichtbaar is. Heteroscedasticiteit levert problemen met significantietoetsen.
De gevolgen van heteroscedasticiteit:
• formule voor standaardfout b niet geldig • bS onderschat als positieve correlatie X en var(ε)
� t overschat � foutief verwerpen 0H (+omgekeerd)
of zelfs als correcte beslissing m.b.t. 0H : significantieniveau incorrect
Dus bij een positief heteroscedastisch patroon wordt bS onderschat (kleiner dan
bij een homoscedastisch patroon)
bS onderschat ==> t-score delen door de standaardfout, deze is dan te klein
==> t-score is groter dan normaal (bij homoscedasticiteit)
• als correctie: b niet meest efficiënte schatter van β � bS overschat � t onderschat
� niet verwerpen 0H die wel verworpen zou worden met meer efficiënte
schattingsmethode
sb
bt =
83
t-score in steekproevenverdeling en overschrijdingskans berekenen. (normaal). Maar bij heteroscedasticiteit krijgen we een overschatting van de t-score, dus bevinden we ons meer naar rechts in de
steekproevenverdeling, waardoor het gemakkelijker wordt om 0H te
verwerpen.
Detectie: plot X tegenover e
• zero-orde en conditioneel (op X) gemiddelde van e =0 • checken of spreiding e constant over X • alternatief |e| of e²: checken of gemiddelde |e| of e² varieert met X
• multiple regressie: o plot tegenover verwachte Y voor algemeen idee o plot tegenover geresidualiseerde X om probleemX te identificeren (bvb. X1 - X1.23)
Voorbeeld 1: aantal broers/zussen � vruchtbaarheid
sb
bt =
84
Voorbeeld 2: EARNING = EDUC + EXPER
Deze puntenwolk lijkt een uitwaaiend patroon te hebben. Het is misschien heteroscedastisch, maar het is niet zeker. Tip: Kijk naar patroon, met flagrante patronen moet je rekening houden.
Relatie van verwachte waarde op Y
en (ruwe) residuen ( YYiˆ− )
� normaal mogen we hier geen patroon in zien!
Predicted Earnings = Y
Oplossing: de residuen kwadrateren om een beter zicht te krijgen. (Squared residuals)
85
Bij de bovenste (b) zien we wel een heteroscedastisch patroon. Door het kwadrateren worden de residuen groter. Maar de vraag is nu echter, aan wat ligt het nu?
Bij de onderste (a) zetten we de residuen af tegen de geresidualiseerde variabelen. Dus de residuen plotten tegen de geresidualiseerde onafhankelijke variabele.
We merken op dat de heteroscedasticiteit voornamelijk zit bij opleiding (education).
Bij heteroscedasticiteit: OLS-schatters niet langer meest efficiënte schatters (laagste standaardfout)
� remediëring: Weighted Least Squares (WLS)
• WLS: minimaliseren SSE*
• OLS: wi = 1 • bij heteroscedasticiteit: laag gewicht aan cases met grote foutenvariantie
Dit is een uitbreiding van de OLS, bij OLS is het gewicht steeds 1. Bijvoorbeeld:
Aantal kinderen per vrouw, + leeftijd en SES We veronderstellen:
Jonge leeftijd = niet veel kinderen, weinig variatie
Oudere leeftijd = veel kinderen, veel variatie
� heteroscedasticiteit
Oplossing = WLS, idem als bij gewone regressieanalyse, maar hier gaan we elk residu gaan wegen. Dus grote residuen, krijgen een kleiner gewicht. En lage residuen, krijgen een groter gewicht.
c. Assumptie 3: εεεεi’s zijn onafhankelijk
De residuelen zijn onafhankelijk van elkaar, m.a.w. de puntjes in de puntenwolk zijn onafhankelijk van elkaar. Maar soms is dat niet zo. Bijvoorbeeld leerlingen uit dezelfde school lijken heel sterk op elkaar (SES, regio,…) dan lukraak verschillende leerlingen uit verschillende scholen (meer diversiteit). Hierdoor zijn de residuelen van de leerlingen uit dezelfde school, gecorreleerd met elkaar.
Indien iε ’s niet onafhankelijk zijn, krijgen we autocorrelatie. (vaak door nabijheid cases in tijd, ruimte of sociaal)
Doordat de iε ’s niet onafhankelijk zijn van elkaar, krijgen we een onder/overschatting van de standaardfout. (meestal: onderschatten: gelijkaardigheid)
∑ −−∑ − == )()ˆ( **22*
XbaYwYYwSSE iiii ii
XbaY **ˆ +=
86
Wat zijn de gevolgen van autocorrelatie?
• formule voor standaardfout b niet geldig • bS onderschat als positieve autocorrelatie (gelijkenis)
� t overschat � foutief verwerpen 0H (+omgekeerd)
of zelfs als correcte beslissing m.b.t. 0H : significantieniveau incorrect
• als correctie: b niet meest efficiënte schatter van β � bS overschat � t onderschat
� niet verwerpen 0H die wel verworpen zou worden met meer efficiënte
schattingsmethode
Detectie van autocorrelatie via de Durbin-Watson test [0,4]
De Durbin-Watson test levert een score tussen de 0 en de 4, waarbij 2 staat voor geen probleem. Dus 2 vertelt ons dat we voldoen aan de assumptie dat er geen correlatie is tussen de residuelen. In SPSS doen we dit via regression -> lineair -> statistics -> Colline diagn. De score vindt men terug in de model summary. Een oplossing voor de autocorrelatie is multi-level analye.
We gaan hierbij gaan kijken welke invloed verschillende niveaus hebben op de afhankelijke variabelen, dit niveau per niveau. Bijvoorbeeld niveau 1 zijn de leerlingen, niveau 2 is de klasse en niveau 3 is de school.
d. Assumptie 4: εεεε is normaal verdeeld
We veronderstellen dat de residuelen normaal verdeeld zijn. Indien dit niet zo gaan we een probleem krijgen met de t-toets, waarbij we nagaan of
0H we kunnen verwerpen.
• b/ bS niet verdeeld als t � foutief significantieniveau
o foutief verwerpen 0H of foutief niet-verwerpen 0H
o enkel problematisch bij kleine steekproeven • mogelijk dat b niet meest efficiënte schatting
Detectie:
Via een histogram van de residuelen of via een normal probability plot waarbij alle puntjes op één lijn moeten liggen.
sb
bt =
87
e. Assumptie 5: Lineariteit
Dit is een geval apart. We veronderstellen steeds dat de effecten op de onafhankelijke variabelen perfect lineair zijn. Maar lineariteit is niet altijd het geval (bijvoorbeeld non-lineariteit).
Er is dan wel een effect maar het is geen lineair effect. Wij gaan niet-lineaire effecten nagaan door transformatie.
Meervoudig lineair regressiemodel: additief: effect X op Y gelijk voor elke Xi = conditioneel gemiddelde = voor elke Xi (partieel) = e = 0
maar: niet lineaire effecten mogelijk
Hier zie je dat de regressielijn door het midden gaat (Y indien X=1, X=2, …)
Het is een lijn die de gemiddelde verbindt. Het is echter te complex om in de praktijk de conditionele gemiddelden te gaan berekenen.
In de praktijk gaan we gebruik maken van residuelen-plots.
Dat is OK voor detectie non-lineariteit, maar moeilijk/onmogelijk om het type non-lineariteit vast te stellen.
88
We gaan na of er een patroon in de plots zit. 1) zitten er invloedrijke waarnemingen in? 2) wat is het patroon?
(a) lage X = lage Y midden X = midden Y hoge X = lage Y
(b) puntenwolk stijgt in verschillende maten, afvlakkend effect bij hoge X.
Dit zijn de residuen-analyses. Merk op dat (a) en (b) hetzelfde zijn. Er is hier geen verschil.
Een gewone residuelenplot laat niet toe (a) en (b) te analyseren, dus gaan we een andere residuelen plot moeten gebruiken. Namelijk de partial-residual plots.
Hierbij gaan we voor elke residu het effect van X op Y erbij gaan tellen. (! De geresidualiseerde variabele erbij tellen)
Partiële residueel voor Xj
Vaak is het nuttig om een Lowess-schatting toe te voegen. Lowess-schatting = locally weighted scatterplot smoother
Lowess-schatting in SPSS:
Via regression -> lineair -> plots -> res.anal. (+ histogram)
In de output gaan we dan de partiële residuelen plot zien. We kunnen vervolgens onze assumpties gaan testen: is het heteroscedastisch? Is er non-lineariteit? Wanneer je dubbelklikt op de plot kun je in het venster klikken op elements -> fit line at total. In het properties venster kun je dan de fit method veranderen van lineair (lineaire regressie rechte) naar Loess (Lowess-schatting). Klik vervolgens op aplly.
XBEE ijji
j
i+=
)(
89
Tevens kun je bij % of points to fit invullen hoeveel analyses er uitgevoerd moeten worden. Hoe kleiner het getal, hoe regressie-analyses er uitgevoerd worden.
De rechte lijn in (a) en (b) is de OLS regressie rechte. De kromme, gebogen lijn in (a) en (b) is de Lowess-schatting. Bij de Lowess-schatting gaat we binnen een puntenwolk verschillende regressie-analyses uitvoeren. Al die verschillende analyses gaan overlappen en de verschillende lijntjes worden dan met elkaar verbonden. Via een smoothing gaan ze de gebroken lijntjes samenbrengen. De Lowess-schatting is nooit een perfect rechte lijn. Wanneer de Lowess-schatting zo goed als recht ligt, gaan we er vanuit dat het lineair is.
In plot (b) lijkt de Lowess-schatting op een non-lineair verband met een afvlakkend effect. Maar in welke mate komt dat door invloedrijke waarnemen, die zich rechts bevinden? Wat kunnen we doen aan het niet-lineair patroon?
Remediëring afhankelijk van type non-lineariteit:
• monotone non-lineariteit: transformatie X (of Y) (machts- of log-transformaties)
A B
90
We gaan op onze onafhankelijke variabele die een niet-lineair verband vertoont met de afhankelijke variabele, een transformatie doen. We doen dit als trucje om toch een lineaire regressieanalyse te doen, maar dan wel met een getransformeerde onafhankelijke variabele. In plot A is de lijn Y=f(X) de samenvatting van de puntenwolk. De lijn Y=f(X’) is de getransformeerde lijn. We veranderen X naar X’ door deze tot bijvoorbeeld de derde macht te verheffen. Het gaat hem dan om de relatie van X’ en Y in plaats van de relatie X en Y, zodanig krijgen we een perfect lineair verloop. Let echter wel op bij de interpretatie van de lijn. Het is niet langer 1 verschil op X, maar het is 1 verschil op X².
Plot B is een sjabloon om te zien hoe onze puntenwolk verdeeld is. We leggen dat sjabloon op onze puntenwolk en we kunnen dan aflezen tot welke macht we X moeten verheffen om tot een perfect lineair verband te kunnen komen. Bijvoorbeeld 3 staat voor X³, 2 staat vor X² en 0,-1 en -2 staan voor logtransformaties. We stellen ons dus de eerst de vraag welke vorm onze puntenwolk volgt. Bijvoorbeeld lijn 3. Vervolgens kunnen we een transformatie uitvoeren van X door X te verheffen in ons voorbeeld tot de derde macht, dus X³. Hierna kunnen we onze regressielijn tekenen.
• niet-monotone non-lineariteit: polynomialen Indien onze rechte niet monotoon stijgt, spreken we van polynomialen.
We nemen X en X² op en krijgen zo een buigpunt. Bijvoorbeeld: + 2X – X² = negatief verband
- 2X + X² = positief verband
X² is een getransformeerde X [in SPSS: compute -> new]
Twee buigpunten is een polynomiaal van de derde orde. + 2X – X² + .1X³
De regressieschatting geeft dan de invulling. Gelukkig komt dit niet zo vaak voor in de praktijk.
XbXbXbXbXbk
kaY ++++++= ...
4
4
3
3
2
21
91
f. Assumptie 6: Afwezigheid multicollineariteit
De mate van overlapping in variantie van de onafhankelijke variabelen mag niet té groot zijn. M.a.w. de samenhang tussen de onafhankelijke variabelen mag niet zo groot zijn.
De overlapping in de variatie van de onafhankelijk = C eruit, dit geeft ons de netto-schattingen.
= de standaardafwijking van de richtingscoëfficiënt van de steekproevenverdeling (b1)
12ˆ
ˆYY
S−= de standaardafwijking
12²1 r− = 1 – de samenhang tussen de 2 onafhankelijke variabelen
Naarmate ²r toeneemt, neemt bxs toe.
Dus naarmate ²r toeneemt (multicollineariteit), neemt t af � naarmate onafhankelijke variabelen sterker gecorreleerd, moeilijker om effect van elk betrouwbaar van elkaar te scheiden.
Hoge correlatie = klein resultaat � grote 1bs
Hoe groter samenhang tussen onafhankelijke. � grote 1bs
1bs gebruiken voor de t-toets. Maar indien 1bs groot is dan wordt t klein.
Dus je kan een vertekening krijgen van de t-toets.
Dit heeft als implicatie dat de overschrijdingskans té groot is, waardoor 0H moeilijker te
verwerpen is.
Maar hoe groot is nu die impact?
Voor 3 of meer onafhankelijke variabelen:
R²i: gekwadrateerde meervoudige correlatiecoëfficiënt van Xi (tss. alle onafh. var.) met alle andere Xk Hoge R²i: hoge multicollineariteit � grote standaardfout
rs
ss
n
YY
b 2
121
1
1
ˆˆ12
−=
−
rs
ss
n
YY
b 2
122
2
1
ˆˆ12
−=
−
sb
tb1
1
1=
Rs
ss
ii
Y
bi
n
Y k
21
ˆˆ...12
−=
−
VIFs
s
Rs
ss i
i
Y
ii
Y
bin
Y
n
Y kk
ˆˆ ˆ
1
1ˆ...12...12
2
−−=
−=
92
iVIF = Variance Inflation Factor, geeft aan in welke mate de t-toets beïnvloedt wordt
door een té grote samenhang tussen de onafhankelijke variabelen. Dus geeft aan in welke mate er een verschil is.
Een hogere iR geeft ons een hogere iVIF .
Vooral bij hoge waarde van de (meerv.) correlatiecoëfficiënt.
Bijvoorbeeld de geschatte standaardfout is 1,67 keer groter bij een iR van .80
We hebben pas een probleem bij een iR van .90 en hoger, dan bevinden we ons in de
problemenzone.
In SPSS: Regression -> Lineair -> statistics -> collineairty diagnostics
Bij de iVIF moet er nog een vierkantswortel van getrokken worden om een beter zicht te
krijgen.
Xi met hoogste multicollineariteit: grootste standaardfout en minst statistisch significant
Oplossing:
• selectie: Het geeft aan dat het bijna onmogelijk is om twee onafhankelijke variabelen lost te trekken zijn (grote iR en iVIF ). Je bent tweemaal hetzelfde aan
het meten, dus moet je een keuze maken welke variabele je gaat nemen. • datareductie technieken: Er worden latente dimensies uitgeschakeld (factoranalyse), omdat de correlatie tussen dimensies tot een minimum wordt gereduceerd.
3. Voorbeeld: 1986 Akron Area Survey (n=513)
• Y: anomie [4,16] (ANOMIA) • X1: jaren opleiding gevolgd (EDUC) • X2: gezinsinkomen (INCOME) • X3: subj. tekort aan geld (SHORTINC) (neg) • X4: subj. tevredenheid levensstand. (SATINC) • X5: subj. beloning levensstand. (REWRDINC) • in welke mate wordt anomie bepaald door subjectieve of objectieve oorzaken van aliënatie ?
93
We hebben hier 2 sets van variabelen. 1) Objectieve variabelen X1, X2 en X3
2) Subjectieve variabelen X4 en X5
De vraag is niet of alle richtingscoëfficiënten statistisch significant zijn. De vraag is wél indien we alle objectieve variabelen in rekening brengen, het dan zo is dat de subjectieve variabelen nog iets bijdragen?
Y = a + b1 X1 + b2 X2 + b3 X3 + e
� .1102 = 11,02 % wordt verklaard door de objectieve set variabelen. (zonder subj. var.)
94
Y = a + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b5 X5 + e
� .1106 = 11,06 % wordt verklaard door de objectieve én de subjectieve set variabelen.
.1102 (enkel obj.) -> .1106 (obj. + subj.)
Subjectieve kenmerken voegen weinig additief toe. De anomie wordt voornamelijk verklaard door de objectieve indicatoren.
4. F-tests
We trachten zoveel mogelijk variatie in de afhankelijke variabele te verklaren.
Dus zorgen we ervoor dat we zoveel mogelijk onafhankelijke variabelen hebben die de variatie kunnen verklaren. Je begint met 2 onafhankelijke variabelen en je voegt er steeds meer aan toe. Je begint dus met 1 set van onafhankelijke variabelen om daarna een 2de set van onafhankelijke variabelen eraan toe te voegen.
Vervolgens stellen we ons de vraag of de verandering in R² statistisch significant genoeg is om te kunnen spreken van een kwalitatieve toename (bij een toename van onafhankelijke variabelen).
We hebben een familie van testen voor:
• test van b • gecombineerd effect alle Xi (test van R²) • gecombineerd effect subset Xi’s
1
X)/allevoorR²(1
X)]/gehoudenconstantallevoor(R²X)allevoor[(R²F
2
1
2
1
dfdf
−−=
=
−
−=
kn
wordtgetestdatXaantal
df
df
95
De essentie is de vergelijking van R². Het is mogelijk voor verschillende elementen. Hier: 2 of 3 onafhankelijke variabelen in model (variabelen samennemen)
Bij partiële of semi-partiële R²: 1 onafhankelijke variabele (variabele per variabele) => beschrijvende statistiek
a. F voor b
t-test is bijzonder ding van de F-test. t-test, test per richtingscoëfficiënt. t-test is in feite F-test in geval we 1 rico beschouwen. F-test, test voor alle richtingscoëfficiënten (neemt de rico’s samen).
H0: ββββ1=0
b. F voor R²
• 0H : R²=0
dus: β1 = β2 = β3 = 0 • mogelijke inconsistenties met individuele F/t
o meervoudige F statistisch significant maar individuele F/t niet (o.a. bij hoge correlatie tussen onafhankelijke variabelen)
o meervoudige F niet statistisch significant maar individuele F/t wel: element van discussie
� resultaten niet gebruiken (louter toeval) � resultaten wel gebruiken
)13/()1(
1/)(2
123.
2
23.
2
123.
1 −−−
−=
nRRR
FY
YY
tF2
11=
)13/()1(
3/2
123.
2
123.
−−−=
nRR
FY
Y
96
c. F voor subsets van X
• 0H : β1 = β2 = 0
• geval van multicollineariteit
• Bijvoorbeeld: 3 indicatoren van subjectief inkomen o F voor deze subset niet statistisch significant + SHORTINC niet statistisch significant effect na controle andere ⇒ geen statistisch significant effect van subjectief inkomen
)13/()1(
2/)(2
123.
2
3.
2
123.
1 −−−
−=
nRrR
FY
YY
97
D. Multiple regressie-analyse: Dummy codering en interactie-effecten
1. Nominale onafhankelijke variabelen
We kunnen niet steeds de onafhankelijke variabelen metrisch gaan operationaliseren, maar je kan wel categorische kenmerken transformeren naar metrische kenmerken. Nominale (of ordinale) variabelen zijn vaak zinvolle verklarende variabelen. Maar hoe gaan we deze opnemen?
Via dummy codering of effect-codering (of ...)
De interpretatie van het effect: verschil in Y statistische significantie (ANOVA):
o t-test voor verschil in gemiddelden o F-test voor verschil in gemiddelden
Dus we voeren een ANOVA uit (of t-test) Bijvoorbeeld de gemiddelde etnocentrismescore voor mannen en vrouwen en we gaan deze gaan vergelijken door middel van een variantie-analyse.
Via ANOVA -> 1way krijgen we 1 onafhankelijke variabele. (analoge berekening)
Eigenlijk specifiek geval van regressie-analyse met interval-variabelen: ook test van verschil in gemiddelden.
A B
98
Bij plot A gaat de regressielijn door het midden van de conditionele verdeling. Deze plots is een uitbreiding op het klassieke lineaire regressie-analyse model. In plot B staat A voor de vrouwen en B voor de mannen. Bij deze categorische verdeling hebben elk van de twee groepen een conditionele verdeling en we kunnen daarvan de gemiddelden van verbinden met een regressielijn. We berekenen dus de richtingscoëfficiënt die door deze twee groepsgemiddelden gaat.
= verschil van het gemiddelde van Y van groep B en A
verschil van groep B en A
Het probleem is echter er geen gelijke afstanden zijn tussen groep A en B aangezien ze beiden categorische variabelen zijn. Dus moeten we aan groep A een waarde 0 geven en aan groep B een waarde 1, dit is dummy codering.
a. Dummy codering dichotome (2 cat.) var n
Welke numerieke scores gaan we toekennen aan de categorieën van de nominale onafhankelijke variabele?
o 0 aan de ene categorie o 1 aan de andere categorie
We doen dit voor de interpreteerbaarheid van de parameters.
Bij dummy codering nemen we de ene groep als referentiegroep en vergelijken we de andere groep daarmee.
Bijvoorbeeld: tevredenheid met leven vergeleken tussen blank en zwart.
Verschil in groepsgemiddelden (5,5 vs. 4,76), dit gaan we vertalen in een regressie vergelijking door de formule toe te passen. De groep blanken geven we de code 0 en de groep zwarten geven we de code 1.
Dus de richtingscoëfficiënt YXb is het verschil in groepsgemiddelden.
De zwarten scoren 0,75 punten lager dan de blanken.
Het intercept is het gemiddelde Y voor de referentiegroep (= blanken).
XXYY
bAB
AB
YX −
−=
7549,001
5168,57619,4−=
−−
=−
−=
XXYY
bAB
AB
YX
XY 7549,05168,5ˆ −=
99
5,51 is het gemiddelde voor de referentiegroep = blanken.
Y = gemiddelde Y voor de referentiegroep – afwijken andere groep t.o.v. ref.groep
• positief: Y groter voor X=1 dan voor X=0 (+omgekeerd) • grootte: grootte van verschil in Y (in feite zelfde interpretatie als bij interval variebelen)
• intercept: Y voor X=0 b = verschil 1 eenheid op X = verschil groep A t.o.v. groep B ! code-keuze is een artificiële keuze, positief en negatief niet meer interpreteren op de klassieke manier. Je kan bijvoorbeeld niet stellen dat blanken superieur zijn aan zwarten.
Regressievergelijking
0 = blank; 1 = zwart.
Parameters voor inductieve statistiek = interval onafhankelijke variabelen
b. Dummy codering polytome (meerdere cat.) var n
Dezelfde logica als voor dichotome variabelen:
• kiezen referentiecategorie • dummy voor elke andere categorie (niet 1 dummy voor alle andere categorieën)
Het is veiliger om de grootste groep als referentiegroep te nemen. In dit voorbeeld heb je 4 categorieën. De gehuwden zijn het meest gelukkig (5,68) en de gescheiden personen zijn het minst gelukkig (4,9).
100
1 dummy voor alle categorieën - 1 (1 categorie 0 voor alle cases: referentiecategorie)
• keuze van referentiecategorie: o inhoudelijk/substantieve overwegingen o relatieve frequenties
In het voorbeeld heb je meerdere dummy’s. Je hebt evenveel dummy’s nodig als categorieën – 1. Bijvoorbeeld 4 categorieën levert 3 dummy’s. In ons voorbeeld hebben we 3 nieuwe dummy’s met gehuwden als referentiegroep.
Interpretatie:
5,68 = gemiddelde van de gehuwden (indien de rest = 0)
- 0,78; - 0,25; - 0,52 = de afwijkingen van de andere categorieën t.o.v. de ref.groep.
R Square = .04260 = 5% wordt verklaard door huwelijksverschillen (verklaarde variantie)
Variables in the equation = de variantieanalyse
Enkel bij widowed kunnen we de 0H niet verwerpen (Sig T = .1808)
NEVERWIDOWEDDIVORCEDaY bbb 321ˆ +++=
NEVERWIDOWEDDIVORCEDY 52,025,078,068,5ˆ −−−=
101
In SPSS: Bivariate verschil mannen en vrouwen op basis van etnocentrisme.
Analyse -> compare means
Voorbeeld: geslacht: 1 = man -> 10,03
2 = vrouw -> 10,02
Wordt verschil bijvoorbeeld bepaald door opleidingsniveau? (Suppressie of redundantie?)
NIET: via lineair regression (factor = geslacht) � niet gecodeerd!
WEL: compute -> geslacht
If (v3=1) geslacht=0
If (v3=2) geslacht=1
V3 = geslachtsvariabele
Nadat we deze nieuwe variabele hebben kunnen we lineaire regressie toepassen met de nieuwe variabele als onafhankelijke variabele.
Dummies + andere X: andere interpretatie a en b
R Square = verklaarde variantie is ook mogelijk
Het is weliswaar moeilijker met een bijkomende variabele.
-.35; -.47; -.75 zijn de partiële B’s. 5.18099 = intercept = verwachte waarde op Y als alle andere variabelen gelijk zijn aan 0.
Gemiddelde X is statistisch gecontroleerd op leeftijd => geen brutto-effecten meer.
102
c. Effect-codering
Wat te doen als we niet weten wie we als referentiegroep gaan nemen?
Bij effect-codering gaan we gaan vergelijken t.o.v. het algemene gemiddelde, terwijl we bij dummy codering groepen gaan vergelijken t.o.v. referentiegroep. Effect-codering wordt gebruikt indien de keuze van de referentiecategorie problematisch is of een andersoortige interpretatie meer geschikt lijkt. De referentiegroep geven we code -1 mee en valt dus in feite weg uit onze berekeningen, hierdoor verliezen we echter informatie.
Dummy codering is weliswaar veel efficiënter. De groep die we als -1 gaan nemen maakt niet uit.
Wijziging betekenis regressiecoëfficiënten.
Y = het algemeen gemiddelde
a = 5,30 = gemiddelde over de 4 groepen heen.
gYa
YYY g+++
==...
21
YYb ii−=
NEVERWIDOWEDDIVORCEDY 14,014,039,030,5ˆ −+−=
103
2. Modelleren interactie-effecten
Effect van een bepaalde variabele op de relatie tussen de andere onafhankelijke variabele op de onafhankelijke variabele.
Indien we geen interactie-effecten hebben, hebben we twee groepen.
Tot nog toe: enkel additieve effecten
Hier: multiplicatieve effecten
Betekenis additief (Y=WORDSUM)
WY = regressierechte voor de blanken
BY = regressierechte voor de zwarten
Indien er geen interactie-effect zou de plot er zo uitzien. Zwart of blank levert additioneel iets toe, maar geen effect op opleidingsniveau en vocabularium.
1,076X1 (want 1 is blank)
RACEEDUCY 076,1381,0454,0ˆ ++=
104
a. Interactie interval X – nominaal X
� We nemen onafhankelijke X1 en X2 op + de productterm van X1 X2 (interactievar.) [compute -> interaction educ x race]
Schatting: X3 = X1 * X2 (+ opnemen X1 en X2)
Meerdere dummies:
Wat is interactievariabele? Heeft ras een effect of heeft education een effect? Hier in ons voorbeeld is ras de interactievariabele. Effect X2 (ras) beschouwen we op zich.
Interpretatie:
WY = white en BY = black � interactie-
effect.
Grootte van het effect X op Y is afhankelijk van ras.
0,19 � verschil in steilheid.
0.989 = zuiverste verschil
RACEDUC = nieuwe varibele ! Ook voor 2 metrische.
XXbXbXbaY2132211
ˆ +++=
XbXXbbaY221231
)(ˆ +++=
XbXXbbaY112132
)(ˆ +++=
XDbXDbDbDbXbaY125114231211
ˆ +++++=
XbXXbbaY221231
)(ˆ +++=
XXXY212
989,0)192,0213,0(226,2ˆ −++=
X
XY B
1
1
213,0226,2
0*989,0)0*192,0213,0(226,2ˆ
+=
−++=
105
b. Interactie interval X – interval X
(Ook voor 2 metrische variabelen). Dezelfde logica als interval X - nominaal X
Voorbeeld 1: Wordt het effect van opleiding sterker of zwakker naarmate we kijken op hogere leeftijd?
Effect X2 wordt groter bij hogere X1 waarden
(+ omgekeerd)
Voorbeeld 2:
Negatieve interactievorm
AGEEDUCAGEEDUCY *002,002,005,02ˆ +++=
AGEEDUCAGEEDUCY *05,006,036,02ˆ −++=
106
c. Hogere complexiteit
Alle mogelijke interactie-effecten met 3 X.
In SPSS:
Compute interactie = geslacht x ondjren.
Compute interactie 2 = ondjren X lft.
� toevoegen in lineaire regressie (indep.) Output; coëfficients.
XXXb
XXbXXbXXb
XbXbXbaY
3217
326315214
332211ˆ
+
+++
+++=