theorie studentencursus kwantitatieve analyse

106
KWANTITATIEVE ANALYSE Mathias Leonard Vercauteren Faculteit Politieke en Sociale Wetenschappen

description

studentencursus kwantitatieve analyse

Transcript of theorie studentencursus kwantitatieve analyse

Page 1: theorie studentencursus kwantitatieve analyse

KWANTITATIEVE ANALYSE

Mathias Leonard Vercauteren

Faculteit Politieke en Sociale Wetenschappen

Page 2: theorie studentencursus kwantitatieve analyse

2

Inhoudsopgave:

1. ANOVA

A. Vergelijking van 2 verwachtingen

1) Z-procedure 2) t-procedure 3) Voorbeelden 4) Samengestelde t-procedures

a. Z-procedure b. t-procedure c. Voorbeeld d. Gebruik samengestelde procedure

B. ANOVA

1) Probleemstelling en logica ANOVA 2) Van t-test naar ANOVA 3) Eén-factor ANOVA-model 4) Schatting van populatieparameters 5) F-toets

a. SST b. SSG c. SSE d. F-toetsingsgrootheid

6) Contrasten

C. Meervoudige vergelijkingen

1) Least Significant Differences (LSD) 2) Bonferroni-methode 3) Voorbeeld 4) Statistische significantie revisited

2. MEERVOUDIGE REGRESSIE

A. Herhaling BVA (STAT 1)

1) Spreidingsdiagram (scatterplot) 2) Enkelvoudige lineaire regressie analyse 3) Kleinste kwadratenregressie (OLS) 4) Covariantie 5) Standaardisatie = Z-transformatie 6) Correlatiecoëfficiënt 7) Determinatiecoëfficiënt 8) B: Gestandaardiseerde b

B. Bivariate correlatie- en regressie-analyse

1) Voorbeeld a. SPSS-output

2) Vertekeningen a. Outliers b. Invloedrijke waarnemingen c. Non-lineariteit

3) Residuen-analyse 4) Controle op invloedrijke waarnemingen

Page 3: theorie studentencursus kwantitatieve analyse

3

a. DfFit b. DfBeta

C. Inferentie over regressiecoëfficiënten

1) Assumpties 2) Betrouwbaarheidsinterval 3) Significantietoets

3. OPSTAP NAAR MULTIVARIATE ANALYSE

A. Opstap naar multivariate analyse

1) Types relaties 2) Voorbeelden

B. Het multivariate model met 2 onafhankelijke variabelen

1) Concept van gedeelde variantie 2) Illustratie 3) Uitbreiding naar meer onafhankelijke variabelen

4. MULTIPLE REGRESSIE-ANALYSE

A. Inleiding tot multiple regressie-analyse

1) Het multivariate basismodel a. Concept van gedeelde variantie b. Voorbeelddata c. Relatie bivariate b’s en meervoudige b’s

2) Coëfficiënten a. Residuelen b. Meervoudige correlatiecoëfficiënt c. Meervoudige determinatiecoëfficiënt d. Gestandaardiseerde partiële regressiecoëfficient e. Semi-Partiële correlatie (part-correlatie) f. Partiële correlatie

B. Multiple regressie-analyse: Coëfficiënten

1) Toepassing a. Beschrijving data b. Coëfficiënten c. Outliers d. Uitbreiding naar meer predictoren

2) Types relaties tussen variabelen a. Verhouding bi- en multivariatie coëfficiente b. Type 1 correlatie-patroon

i. Redundantie ii. Suppressie

c. Type 2 correlatie-patroon i. Suppressie

d. Patroon voor meer dan 3 variabelen

Page 4: theorie studentencursus kwantitatieve analyse

4

C. Multiple regressie-analyse: Assumpties

1) Inleiding a. Steekproevenverdeling van b b. t-test voor bivariate regressie

2) Assumpties a. Assumptie 1: ε is niet gecorreleerd met X b. Assumptie 2: Homoscedasticiteit c. Assumptie 3: εi’s zijn onafhankelijk d. Assumptie 4: ε is normaal verdeeld e. Assumptie 5: lineariteit f. Assumptie 6: Afwezigheid multicollineariteit

3) Voorbeeld 4) F-tests

a. F voor b b. F voor R² c. F voor subsets van X

D. Multiple regressie-analyse: Dummy Codering en Interactie-effecten

1) Nominale Onafhankelijke variabelen a. Dummy codering dichotome varn b. Dummy codering polytome varn c. Effect-codering

2) Modelleren interactie-effecten a. Interactie interval X – nominaal X b. Interactie interval X – interval X c. Hogere complexiteit

Page 5: theorie studentencursus kwantitatieve analyse

5

ANOVA

Page 6: theorie studentencursus kwantitatieve analyse

6

A. Vergelijking van 2 verwachtingen

Situatie:

We beschouwen twee groepen als twee EAS, waarvan elk betrekking heeft op een andere populatie en met een mogelijk verschillende n (steekproefomvang). De resultaten van groep 1 zijn onafhankelijk van groep 2.

Ho: Er is geen verschil tussen de 2 groepen (nulhypothese)

Ha: Er is wél een verschil tussen de 2 groepen (eventueel met een specificatie van de richting) (alternatieve hypothese)

Indien σ1 en σ2 gekend zijn, gebruiken we de z-procedure. Indien σ1 en σ2 niet gekend zijn, gebruiken we de t-procedure met s1 en s2 als schatting voor σ1 en σ2.

1. Z-procedure

X1 en X2 zijn onafhankelijke stochastische variabelen (=kansvariabelen), dus 2 toevalsvariabelen met een numerieke uitkomst. De verdeling verschilt echter van steekproef tot steekproef. De verwachting van het verschil = verschil van de verwachtingen:

schatter voor µ1 - µ2 = xx 21−

We gebruiken de steekproevenverdeling van twee gemiddelden als indicatie voor het verschil van de twee populatieverwachtingen.

De variantie van het verschil = som van de varianties:

σ2

21 xx −= de variantie van de steekproevenverdeling van een verschil tussen twee

verwachtingen.

Indien N(µ1,σ1) en N(µ2,σ2), dan N(0,1):

Meestal kennen we σ niet en gebruiken we de standaardafwijking s als schatting. Bijgevolg moeten we de t-procedure gebruiken.

2. t-procedure

We hebben twee gemiddelden xx 21− en gaan er vanuit dat er een verschil is tussen

beiden door toeval. We gaan nagaan hoe groot die kans is dat het verschil door louter toeval komt. Wanneer we stellen dat die kans klein is, kunnen we onze Ho (nulhypothese) verwerpen. Ho = µ1 = µ2 (bijvoorbeeld mannen en vrouwen zijn gelijk op basis van etnocentrisme)

Ha = µ1 ≠ µ2

nnnnxxxx

2

2

2

1

2

1

22

222

2

2

1

1

2121

σσσσσσσ +=+=+=

nn

µµxxz

2

2

2

1

2

1

2121)()(

σσ +

−−−=

Page 7: theorie studentencursus kwantitatieve analyse

7

Bij de nulhypothese gaan we ervan uit dat het verschil tussen µ1 - µ2 gelijk is aan 0, indien we ervan uit gaan dat Ho klopt.

We bepalen een significantietoest om na te gaan in hoeverre we onze steekproevenverdeling kunnen doortrekken naar de populatie. Dus in hoeverre we ons verwachte verschil kunnen gaan veralgemenen.

In de steekproevenverdeling is de verwachting µ1 - µ2 = 0

De standaardafwijking van de steekproevenverdeling is

2

²

2

1

²

1

21 nnxx

σσσ +=

Die variantie ²

1σ en ²

2σ van de populatie (in ons voorbeeld: etnocentrisme) kennen we

meestal niet, dus gaan we s (standaardafwijking uit de steekproef) gaan gebruiken.

De formule wordt dan:

2

²

2

1

²

1

21 n

S

n

S

xxS +=−

Bij een N-verdeling � kennen we σ (of gaan we ervan uit)

Bij een t-verdeling � kennen we σ niet en gebruiken we s

Bij een t-verdeling gaan we een grotere overschrijdingskans bekomen dan bij een N-verdeling, dit heeft als gevolg dat het moeilijker wordt om de nulhypothese te verwerpen.

Als het zo is dat Ho klopt (dus dat er geen verschil is) dan zullen we in 1 op de 1000 steekproeven, door louter toeval, een verschil vinden van 1 of > (gegeven in de opdracht), met als gevolg dat we de nulhypothese kunnen verwerpen.

2-steekproevengrootheid:

We gaan de kleinste groep gaan gebruiken (tussen n1 en n2) omdat we ervan uit gaan dat onze nulhypothese klopt. Heeft ook te maken met de overschrijdingskans, deze kans is groter als je uitgaat van de kleinste groep. Dat komt doordat je df (vrijheidsgraden) minder zijn i.v.m. de grootste groep.

Een probleem: heeft geen t-verdeling (2 en niet 1 σ gesubstitueerd + df)

• oplossing 1: df exact herberekenen uit data (software)

• oplossing 2: df benaderen: min(n1-1,n2-1) (handmatig) � conservatieve toets

We gebruiken de kleinste groep om onze df (vrijheidsgraden) te berekenen. H0: µ1 - µ2 = 0

De nul (0) laten we echter weg in onze berekeningen.

ns

ns

µµxxt

2

2

2

1

2

1

2121)()(

+

−−−=

Page 8: theorie studentencursus kwantitatieve analyse

8

De regels m.b.t. robuustheid van 1 EAS gaan ook hier op (voor n1+n2). Zelfs meer robuust dan t-procedure voor 1 EAS, vooral als twee steekproeven ongeveer dezelfde omvang hebben.

3. Voorbeelden: survey 1BA vs. APS2002

• survey naar de maatschappelijke oriëntatie van1BA PSW o n = 432 (volledig: 385) o respons-rate : 68,9% (volledig: 61,4%) o hier beschouwd als EAS uit volledige 1BA PSW

• vergelijken met EAS uit Vlaamse bevolking (APS2002) • vergelijken verwachtingen op: ethnocentrisme, traditionalisme, individualisme, aanvaardbaarheid van maatschappelijke en wettelijke normoverschrijding

• via schaalconstructie: o attitudes gemeten via Likert-items (nt. normoverschrijding)

� 5-puntenschaal (volledig oneens <-> volledig eens) � verschillende items meten deelaspecten � items variëren in intensiteit en richting (positief vs. negatief) � antwoord op elk item = numerieke score

o construeren schaal door per individu scores te sommeren op items (na hercoderen zodat alle in dezelfde richting wijzen)

o (beter: nagaan unidimensionaliteit of constructie deelschalen (via factoranalyse))

o + hier: herschaald [0,20]

ns

ns

xxt

2

2

2

1

2

1

21)(

+

−=

ns

ns

txx2

2

2

1

2

1*

21)( +±−

Page 9: theorie studentencursus kwantitatieve analyse

9

Ethnocentrisme

APS PSW

We merken dat er een verschil is tussen PSW en APS, a.d.h.v. onze t-verdeling. We stellen dat de Vlaming (APS) meer etnocentristisch is dan de 1BA student PSW. Maar we moeten echter onze onzekerheid in rekening brengen. Onze overschrijdingskans is kleiner dan 0,05 wat wijst op een systematisch verschil. H0: µ1 - µ2 = 0 (essentie van de significantietoets) H0: In de populatie is er geen verschil met 1

ste bachelorstudenten m.b.t. etnocentrisme We kunnen onze H0 verwerpen want onze kans is kleiner dan 0,001. Tevens ligt de nul (0) niet in het betrouwbaarheidsinterval, wat er dus op wijst dat er een verschil is.

Traditionalisme

APS PSW

Ethnocentrisme (/20)

19,0

17,0

15,0

13,0

11,0

9,0

7,0

5,0

3,0

1,0

300

200

100

0

Std. Dev = 3,72

Mean = 10,8

N = 1257,00

Ethnocentrisme (/20)

19,0

17,0

15,0

13,0

11,0

9,0

7,0

5,0

3,0

1,0

100

80

60

40

20

0

Std. Dev = 3,05

Mean = 6,9

N = 340,00

001,0)(2

91,19

340

²05,3

1257

²72,3

)9,68,10()(

2

2

2

1

2

1

21

<≥

=

+

−=

+

−=

tTP

t

ns

ns

xx

29,451,3

39,0)9,68,10(

340

²05,3

1257

²72,398,1)9,68,10(

)(

21

2

2

2

1

2

1*

21

<−<

±−

+±−

+±−

µµ

ns

ns

txx

Traditionalisme (/20)

19,0

17,0

15,0

13,0

11,0

9,0

7,0

5,0

3,0

1,0

600

500

400

300

200

100

0

Std. Dev = 2,65

Mean = 11,9

N = 1404,00

Traditionalisme (/20)

19,0

17,0

15,0

13,0

11,0

9,0

7,0

5,0

3,0

1,0

140

120

100

80

60

40

20

0

Std. Dev = 2,63

Mean = 9,3

N = 371,00

Page 10: theorie studentencursus kwantitatieve analyse

10

H0: we veronderstellen geen verschil (APS = PSW)

t-score = 16,91

df = 370 (kleinste groep = PSW = 371-1) We bekomen een overschrijdingskans die < 0,001, dus hebben we bij 1 op 1000 EAS een verschil, Ho verwerpen want een kleine kans. Wat is die 0,001 nu? Wel, onze H0 (nulhypothese) stelt dat er geen verschil is tussen APS en PSW. We zeggen dat er wel een verschil is en gaan na of dat verschil statistisch significant is of

dat het louter door toeval komt. Hiervoor gebruiken we een t-toets (want σ kennen we

niet). We bekomen een overschrijdingskans van minder dan 1 op 1000 EAS. Die kans is heel klein waardoor we onze nulhypothese mogen verwerpen. Er is dus iets systematisch aan de gang.

4. Samengestelde t-procedures

Indien 2 normale populaties dezelfde (ongekende) standaardafwijking σ hebben � t voor verschil volgt exacte de t-verdeling (slechts 1 substitutie noodzakelijk)

s1 en s2 vormen schatters voor σ : informatie combineren als gewogen gemiddelde

(s p2= samengestelde schatter voor de variantie (pooled estimator of variance))

Stel bijvoorbeeld dat we twee groepen (2 EAS) willen vergelijken met elkaar.

Bijvoorbeeld een groep mannen met 1σ ( 1S ) en 1µ en een groep vrouwen met 2σ ( 2S )

en 2µ . We willen nagaan of dit verschil statistisch significant is a.d.h.v. een t-toets.

In onze nulhypothese verwachten we dat 1σ en 2σ gelijk zijn ( 1σ = 2σ )

We gebruiken het gewogen gemiddelde s p2omdat in H0: µ1 = µ2

Dat is de belangrijkste voorwaarde, dat we veronderstellen dat in de populatie, de

groepen hetzelfde zijn. M.a.w. dat ze dezelfde σ (s) en dezelfde µ hebben. In ons

voorbeeld zou dat dus zijn dat mannen en vrouwen, in de populatie, gelijk zijn aan elkaar. Dus dat µ = µ1 = µ2

Indien dit klopt dan mogen we s p2 gebruiken.

Een vuistregel om dit na te gaan is dat de standaardafwijking van de verschillende groepen niet dubbel zo groot mag zijn.

001,0)(2

91,16

371

²63,2

1404

²65,2

)3,99,11()(

2

2

2

1

2

1

21

<≥

=

+

−=

+

−=

tTP

t

ns

ns

xx

90,230,2

30,0)3,99,11(

371

²63,2

1404

²65,298,1)3,99,11(

)(

21

2

2

2

1

2

1*

21

<−<

±−

+±−

+±−

µµ

ns

ns

txx

2

)1()1(

21

2

22

2

112

−+

−+−=

nnsnsn

sp

Page 11: theorie studentencursus kwantitatieve analyse

11

Stel bijvoorbeeld dat 1S =7 en 2S = 2, dan mogen we s p2 niet gebruiken.

Maar als 1S =2 en 2S = 2,5 dan mogen we s p2 wel gebruiken.

a. Z-procedures

Bij de Z-procedure gaan we ervan uit dat 1σ en 2σ gekend zijn.

De variantie van verschil = som van varianties

Toetsingsgrootheid

b. t-procedures

Substitutie σ door sp Twee-steekproevengrootheid t om H0: µ1 = µ2 te testen (exact t verdeeld):

n1 en n2 zijn in feite aan elkaar gelijk. n1 = n2 = n (steekproefomvang). Want we gebruiken de samengestelde schatter, en gaan er bijgevolg vanuit dat beide groepen gelijk zijn aan elkaar. (cfr. M&M voor meer uitleg)

betrouwbaarheidsinterval met df = n1 + n2 - 2:

c. Voorbeeld

Werkt Calcium bloeddrukverlagend ? Onderzoek via 2 groepen (behandeling vs. placebo).

H0: µ1 = µ2 Ha: µ1 > µ2

+=+=+=+=

nnnnnnxx

21

2

2

2

1

2

22

2

2

2

1

2 11

2121

σσσσσσσσ

nn

µµxxz

21

2121

11

)()(

+

−−−=

σ

nns

xx

p

t

21

21

11

)(

+

−=

nnstxx p

21

*

21

11)( +±−

385,7

536,5421110

²901,5)10(²743,8)9(

2

)1()1(

21

2

22

2

112

=

=−+

+=

−+

−+−=

s

nnsnsn

s

p

p

Page 12: theorie studentencursus kwantitatieve analyse

12

484407N =

DIP2

HSO+-LSO

ETHNO2

20

15

10

5

0

P(T≥1,634) met t(19): tabel D: 0,05 < p < 0,10

90% betrouwbaarheidsinterval:

vb. Ethnocentrisme naar diploma (APS2002)

Report

ETHNO2

11,2817 407 3,50850

9,2157 484 3,27230

10,1595 891 3,53367

DIP2

1,00 -LSO

2,00 HSO+

Total

Mean N Std. Deviation

d. Gebruik samengestelde procedure

• dikwijls gebruikt ⇐ als n zo goed als gelijk: robuust tegen niet-normaliteit en ongelijke standaardafwijking

• maar opletten bij grote verschillen in n en s, vooral bij kleine steekproeven

634,1227,3

273,5

11

1

10

1385,7

)273,0(5

11

)(

21

21 ==

+

−−=

+

−=

nns

xx

p

t

]852,10,306,0[579,5273,511

)(

21

*

21−=±=+±−

nnstxx p

382,3

440,112484407

²272,3)483(²509,3)406(

2

)1()1(

21

2

22

2

112

=

=−+

+=

−+

−+−=

s

nnsnsn

s

p

p 235,18

484

1

407

1382,3

)216,9(282,11

11

)(

21

21 =

+

−=

+

−=

nns

xx

p

t

Page 13: theorie studentencursus kwantitatieve analyse

13

B. ANOVA

Bij ANOVA gaan we groepsgemiddelden gaan berekenen en vergelijken. Het is een toets voor verschil tussen verwachtingen. (variantie-analyse)

1. Probleemstelling en logica ANOVA

Bij ANOVA gaan we verwachtingen gaan vergelijken.

Tussen 2 groepen/populaties � t-procedure

Tussen meer dan 2 groepen/populaties � variantie-analyse: ANOVA

ANOVA = ANalysis Of VAriance

• één-factor anova =verwachting vergelijken tussen categorieën van 1 andere variabele

• twee- of meer-factor anova = verwachting vergelijken tussen categorieën van 2 of meer andere variabelen

Wij gaan ons hier echter beperken tot één-factor anova.

Logica

De logica van ANOVA is naar analogie met de t-procedure, maar hier gebeurt het via de F-grootheid.

We trekken een EAS uit elke populatie.

H0: alle populatieverwachtingen gelijk Ha: niet alle populatieverwachtingen zijn gelijk

Vereisten/assumpties:

• data afkomstig van verschillende EAS(of gerandomiseerde experimentele designs) • te vergelijken kenmerk:

o normaal verdeeld met gelijke σ o metrisch o = te verklaren kenmerk � a-symmetrische techniek

• factoren: categorische variabelen Vb. 12.1

Page 14: theorie studentencursus kwantitatieve analyse

14

Zijn de waargenomen verschillen in de gemiddelden statistisch significant of een gevolg van toeval? � noodzakelijk variatie + steekproefomvangen in rekening te brengen

⇐ s en n bepalen SE x

We gaan twee soorten van varianties gaan vergelijken met elkaar.

Grotere binnengroepsvariatie � grotere onzekerheid

Verschillen in x (of medianen) en heel veel spreidingen (overlappend) binnen de groepen.

Geringere binnengroepsvariatie � geringere onzekerheid

Hier zelfde verschillen in medianen, enkel minder spreiding.

De verschillen binnen de groepen gaan we gaan vergelijken met de verschillen tussen de groepen. We krijgen wel een aanwijzing dat er een verschil is in de populatie. Dus, we vergelijken de variatie tussen de groepen (tussengroepsvariatie) met de variatie binnen de groepen (binnengroepsvariatie).

2. Van t-test naar ANOVA

De vergelijking tussen 2 groepen:

In t-formule wordt er tweemaal n gebruikt, maar dat is omdat n1 en n2 gelijk zijn aan elkaar, omdat we de samengestelde schatter gebruiken. (zie hierboven)

)( 212

2

xxn − = variatie tussen de groepen * factor voor n [teller]

ss p

p

xxn

nn

xxt

)(2

11

2121

−=

+

−=

s

xxt

p

n

2

2

2)( 212

−=

Page 15: theorie studentencursus kwantitatieve analyse

15

s p2= variatie binnen de groepen (samengestelde schatter voor gemeenschappelijke

variantie) [noemer]

t² = F -test voor 2 groepen

Complexer bij ANOVA: test of alle verwachtingen aan elkaar gelijk � indien H0 verworpen: verder bekijken welke

Voorbeeld (12.3)

In hoerver is er een verschil tussen deze groepen?

F = 10,35 met P < 0,001

De overschrijdingskans is kleiner van 1 op 1000, dus mogen we onze nulhypothese verwerpen.

welke ?

• zelf contrasten maken: als vooraf gespecificeerde hypothese • meervoudige (paarsgewijze) vergelijking: verkenning

3. Eén-factor ANOVA-model

WAARNEMING = ‘AANPASSING’ + RESIDU

Aanpassing = SST en Residu = SSE EAS uit populatie N(µ,σ) � x1,x2,...xn 1 eenheid: xj (subscript j = om een individu aan te geven)

anders genoteerd: xj = µ + εj met εj EAS uit N(0,σ) xj = kenmerk van een individu en εj = de afwijking

ANOVA: EAS uit I populaties van grootte van elke EAS: ni

Page 16: theorie studentencursus kwantitatieve analyse

16

Report

ETHNO2

12,1632 146 3,5244

10,7886 261 3,4079

9,9822 211 3,1788

8,6233 273 3,2257

10,1595 891 3,5337

DIP

geen/LO

LSO

HSO

HO

Total

Mean N Std. Deviation

één-factor ANOVA model:

xij = µi + εij

o εij EAS uit N(0,σ) = de residuen volgen een normaalverdeling o µi = groepsgemiddelde o gemeenschappelijke st.afw. σ o onbekende parameters: µi‘s en σ

4. Schatting van populatieparameters

µi schatten door xi :

met eij = xij - xi

σ schatten door sp :

We moeten rekening houden met onze assumptie dat alle σi’s = σ , maar ANOVA niet extreem gevoelig aan schending hiervan.

De vuistregel is: OK als (max(si)/min(si)) < 2

ANOVA is ook robuust voor schending van assumpties, het kan tegen een stootje. Het moeten al zware outliers zijn om echt een effect te hebben.

Ethnocentrisme APS2002

n

xx

i

jij

i

ni

∑== 1

)1(...)1()1(

)1(...)1()1(

21

22

22

2

112

−++−+−

−++−+−=

nnnsnsnsn

sI

II

p

ETHNO2

20,0

18,0

16,0

14,0

12,0

10,0

8,0

6,0

4,0

2,0

0,0

ETHNO2

Frequency

300

200

100

0

Std. Dev = 3,53

Mean = 10,0

N = 1027,00

Page 17: theorie studentencursus kwantitatieve analyse

17

De gemiddelde in dit voorbeeld verschillen, komt dit door louter toeval? We doen een F-test omdat we gaan vergelijken tussen de groepen en binnen de groepen, en we doen dan een significantie-toets op de F-waarden.

5. F-toets

ANOVA: vergelijking van variaties (tussen groepen / binnen groepen)

Het is een globale maat die vergelijkingen maakt tussen variatie tussen groepen t.o.v. variatie binnen groepen. Berekening F via ‘kwadratensommen’ (‘Sum of Squares’ , ‘SS’), cf.:

S² is een decompositie in 2 componenten, nml. De variatie tussen de groepen en de variatie binnen de groepen. De variatie tussen groepen = de systematische verklaring

De variatie binnen groepen = de residuele variatie

a. SST: Sum of Squares Total

SST= de verschillen tussen waarnemingen en globaal gemiddelde

= ‘te verklaren’ variatie (totale variatie) = sommeren van kwadraten

• DFT = N - 1 (Degrees of Freedom Total) • MST = SST / DFT (gemiddelde (Mean) kwadratensom) = s² • MST = de variantie die we willen verklaren. • SST = SSG + SSE

• in vb. ethnocentrisme: o SST = 11113,28 o DFT = 890 o MST = 12,49

Verschil tussen S² en SST = de noemer: geen (n-1) bij SST.

Verschil variatie en variantie

Ze verwijzing in principe naar hetzelfde, maar de berekening is anders.

Variatie is )²( xxi∑ − (de sum of squares)

273211261146N =

DIP

HOHSOLSOgeen/LO

ETHNO2

20

18

16

14

12

10

8

6

4

2

0196928

6297761204

1208

73771

210

13958889314391871098

930934

769

1379

1

1

2

2)(

−=∑ −=

n

i

n

i

xxs

Page 18: theorie studentencursus kwantitatieve analyse

18

Variantie = 1

)²(

−∑n

xxi (de gemiddelde variatie)

[idem voor covariatie en covariantie]

b. SSG: Sum of Squares between Groups

SSG = verschillen tussen groepsgemiddelden en globaal gemiddelde, berekend per waarneming

= tussengroeps variatie; variatie veroorzaakt door verschillen tussen groepsgemiddelden

• DFG = I - 1 • MSG = SSG / DFG

• in vb. ethnocentrisme: o SSG = 1340,36 (variatie groep) o DFG = 3 (bv: 4 groepen – 1) o MSG = 446,79 (variantie)

c. SSE: Sum of Squares of Error (error = residu)

SSE = verschillen tussen waarnemingen en groepsgemiddelde

= binnengroeps variatie

• DFE = N - I • MSE = SSE / DFE = (sp)² (= samengestelde maat)

• ijx = deze waarde wordt je gegeven

• in vb. ethnocentrisme: o SSE = 9772,92 o DFE = 887 o MSE = 11,02

d. F-toetsingsgrootheid

F = MSG / MSE

Als F=1: groepen verschillen evenveel van elkaar als individuen onderling al van elkaar verschillen � geen effect van groepen

Als F > 1: tussengroepsvariantie > binnengroepsvariantie � effect van groepen

Als H0 waar: geen verschil tussen de groepsverwachtingen: steekproeven van verschillende groepen zijn eigenlijk steekproeven uit eenzelfde populatie

� MSG = MSE ; beide goede schatters van σ²

Hoe groter F, hoe meer bewijs dat er effectief verschil is tussen groepen.

Ho = omgekeerde van de verwachting, dus er is geen verschil. Bijvoorbeeld 3 verdelingen vallen samen µ1 = µ2 = µ3

∑ −=

=n

j

xxiSSG1

2

)(

∑ −=

=n

j

xx iijSSE1

2

)(

Page 19: theorie studentencursus kwantitatieve analyse

19

Hoe groot moet F zijn om statistisch significant te zijn?

Steekproevenverdeling = verschil tussen 4 groepen. Hoe groot is dan verdelingen en overschrijdingskans?

F-grootheid volgt F(I-1,N-I) verdeling � berekenen overschrijdingskans: tabel E (lang en complex � SPSS-output)

F-toets steeds eenzijdig ⇐ F ≥ 0

• vb. ethnocentrisme: F = 40,55 p < 0,0001

o Overschrijdingskans van een F-waarde: als het zo is dat in de populatie geen verschil is, dan zal minder dan 1 op 1000 EAS uit de populatie een F-waarde opleveren van 40,55 of > (door louter toeval komen wordt)

• SPSS-output:

ANOVA

ETHNO2

1340,362 3 446,787 40,551 ,000

9772,918 887 11,018

11113,280 890

Between Groups

Within Groups

Total

Sum of

Squares df Mean Square F Sig.

Sum of Squares

Df

Mean Square

F

Sig.

Between groups SSG DFG MSG F=MSG/MSE

Within groups SSE DFE MSE

total SST DFT MST

Probleem: enkel globale test op verschil we weten nog niet welke verwachtingen statistisch significant verschillen

6. Contrasten

Indien bij onderzoek specifieke hypothesen m.b.t. verschillen tussen verwachtingen geformuleerd werden. Er is een verschil maar waar? We gaan dus bij contrastcodering het verschil na tussen bijvoorbeeld Ho/Univ en geen/LO. Bij contrasten gaan we zelf onze vergelijken kiezen, maar niet alle combinaties zijn gemogelijk. ²Alternatieve H0 en Ha formuleren

Zeer complex (eerst kennis nodig van contrastcodering), niet kunnen toepassen

Nu niet kennen (p. 621-628)

Page 20: theorie studentencursus kwantitatieve analyse

20

C. MEERVOUDIGE VERGELIJKINGEN

Indien geen specifieke a priori verwachtingen. Dus, er is een verschil, maar waar?

Dus na het verwerpen van de algemene H0 gaan we na welke paren van verwachtingen van elkaar verschillen, dit via een aangepaste t-toets:

De ‘meervoudig’ t-toets: sp voor alle groepen gebruikt

• verwerpen H0: µi = µj indien |tij| ≥ t** (2-zijdig)

• we toetsen paarsgewijs (2 aan 2) • t**= geeft aan in welk gebied 95% van de gevallen liggen. (2,5% links en 2,5% rechts)

Er zijn 2 manieren om t** te bepalen:

• Least Significant Differences (LSD • Bonferroni-methode

1. Least Significant Differences (LSD)

t**: bovenste α/2-kritieke waarde voor t(DFE)-verdeling

Evenveel afzonderlijke significantietoetsen als er paarsgewijze vergelijkingen zijn

Probleem bij het herhaaldelijk toetsen

Stel bijvoorbeeld dat I = 20 (groepen) en α=0,05 (significantieniveau), dan krijgen we 190 paarsgewijze vergelijkingen van verwachtingen. Bij elke van die 190 t-toetsen hebben 5% kans op het foutief verwerpen van de H0. Dit is een type 1 fout. ⇒ globale kans op foutief verwerpen H0 is onaanvaardbaar hoog! (in 5% van 190 t-toetsen: 9,5) Dus door het herhaaldelijke toetsen hebben we meer fouten want het kapitaliseert uw fouten. Daarom gaan we LSD nooit gebruiken, het is wel gemakkelijk maar fout. Je hebt een foutief significantieniveau en een foutieve overschrijdingskans. Want je gaat alle mogelijke combinaties gaan vergelijken (2 aan 2) op het 5% significantieniveau, met als gevolg dat je H0 verkeerdelijk kan verwerpen.

Oplossing: t** zo bepalen dat hiervoor gecontroleerd wordt � verschillende alternatieven beschikbaar (zoals de Bonferroni-methode)

2. Bonferroni-methode

De Bonferroni-methode is een meer correcte berekening van t** (oplossing probleem LSD, een correctie op het herhaaldelijke toetsen) Bij α=0,05: 5% kans op minstens één foutieve verwerping van H0 over alle vergelijkingen samen. Je hebt 5% kans dat je bijvoorbeeld 1 van de 190 t-toetsen fout hebt (en dus H0 verkeerdelijk kan verwerpen).

Naast de t-toetsen, vaak ook gebruik van simultane betrouwbaarheidsintervallen voor verschillen tussen verwachtingen.

nns

xxt

ji

p

ji

ij11

+

−=

nnstxx

jipji

11**)( +±−

Page 21: theorie studentencursus kwantitatieve analyse

21

Report

ETHNO2

8,6652 113 3,2667

9,1011 178 3,5193

9,5933 210 3,5050

9,8162 195 3,5244

10,5627 137 3,0567

11,6565 123 3,2224

12,5528 71 3,0683

10,0292 1027 3,5308

LFTCAT

<25j.

25-34j.

35-44j.

45-54j.

55-64j.

65-74j.

75j.+

Total

Mean N Std. Deviation

3. Voorbeelden

Multiple Comparisons

Dependent Variable: ETHNO2

1,3746* ,3430 ,000 ,7013 2,0479

2,1810* ,3573 ,000 1,4797 2,8823

3,5399* ,3403 ,000 2,8720 4,2079

-1,3746* ,3430 ,000 -2,0479 -,7013

,8064* ,3073 ,009 ,2033 1,4095

2,1653* ,2874 ,000 1,6013 2,7293

-2,1810* ,3573 ,000 -2,8823 -1,4797

-,8064* ,3073 ,009 -1,4095 -,2033

1,3589* ,3043 ,000 ,7617 1,9561

-3,5399* ,3403 ,000 -4,2079 -2,8720

-2,1653* ,2874 ,000 -2,7293 -1,6013

-1,3589* ,3043 ,000 -1,9561 -,7617

1,3746* ,3430 ,000 ,4675 2,2817

2,1810* ,3573 ,000 1,2362 3,1259

3,5399* ,3403 ,000 2,6400 4,4398

-1,3746* ,3430 ,000 -2,2817 -,4675

,8064 ,3073 ,053 -6,1482E-03 1,6190

2,1653* ,2874 ,000 1,4055 2,9251

-2,1810* ,3573 ,000 -3,1259 -1,2362

-,8064 ,3073 ,053 -1,6190 6,148E-03

1,3589* ,3043 ,000 ,5544 2,1634

-3,5399* ,3403 ,000 -4,4398 -2,6400

-2,1653* ,2874 ,000 -2,9251 -1,4055

-1,3589* ,3043 ,000 -2,1634 -,5544

(J) DIP

LSO

HSO

HO

geen/LO

HSO

HO

geen/LO

LSO

HO

geen/LO

LSO

HSO

LSO

HSO

HO

geen/LO

HSO

HO

geen/LO

LSO

HO

geen/LO

LSO

HSO

(I) DIP

geen/LO

LSO

HSO

HO

geen/LO

LSO

HSO

HO

LSD

Bonferroni

Mean

Difference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Std.Error = standaardfout (standaardafwijking van de steekproevenverdeling) = de gemiddelde afwijking van de steekproevenverdeling t.o.v. het gemiddelde

Ethnocentrisme naar leeftijd (APS2002)

We hebben 7 leeftijdsgroepen. De oudere groepen hebben hogere waarden. De standaardafwijkingen liggen dicht bij elkaar. 71123137195210178113N =

LFTCAT

75j.+65-74j.55-64j.45-54j.35-44j.25-34j.<25j.

ETHNO2

20

18

16

14

12

10

8

6

4

2

0

1392

49084810811208441

921698879

1274

73771

1439

317

323

Page 22: theorie studentencursus kwantitatieve analyse

22

ANOVA

ETHNO2

1229,187 6 204,864 18,074 ,000

11561,256 1020 11,335

12790,443 1026

Between Groups

Within Groups

Total

Sum of

Squares df Mean Square F Sig.

We mogen Ho verwerpen want we hebben een kleine overschrijdingskans. Dus nu kunnen we gaan kijken waar zich die verschillen juist voordoen.

Dus welke groepsverschillen zijn statistisch significant? Want niet alle verschillen tussen 2 groepen zijn statistisch significant.

Bonferroni

-,4359 ,4049 1,000 -1,6693 ,7974

-,9281 ,3928 ,385 -2,1244 ,2682

-1,1510 ,3980 ,082 -2,3633 6,125E-02

-1,8975* ,4278 ,000 -3,2005 -,5944

-2,9913* ,4387 ,000 -4,3275 -1,6552

-3,8876* ,5099 ,000 -5,4405 -2,3348

,4359 ,4049 1,000 -,7974 1,6693

-,4921 ,3430 1,000 -1,5368 ,5526

-,7151 ,3490 ,855 -1,7781 ,3478

-1,4615* ,3826 ,003 -2,6269 -,2961

-2,5554* ,3948 ,000 -3,7577 -1,3531

-3,4517* ,4726 ,000 -4,8910 -2,0124

,9281 ,3928 ,385 -,2682 2,1244

,4921 ,3430 1,000 -,5526 1,5368

-,2230 ,3348 1,000 -1,2427 ,7968

-,9694 ,3697 ,186 -2,0955 ,1567

-2,0633* ,3823 ,000 -3,2275 -,8990

-2,9596* ,4622 ,000 -4,3672 -1,5519

(J) LFTCAT

25-34j.

35-44j.

45-54j.

55-64j.

65-74j.

75j.+

<25j.

35-44j.

45-54j.

55-64j.

65-74j.

75j.+

<25j.

25-34j.

45-54j.

55-64j.

65-74j.

75j.+

<25j.

(I) LFTCAT

<25j.

25-34j.

35-44j.

45-54j.

Mean

Difference

(I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

De groepen met een significantieniveau van 1= extreme groepen verschillen statistisch significant, aanleunende groepen zijn niet statistisch significant.

Page 23: theorie studentencursus kwantitatieve analyse

23

Statistics

ETHNO2

1027

450

10,0292

,11018

10,0000

3,53077

Valid

Missing

N

Mean

Std. Error of Mean

Median

Std. Deviation

1,1510 ,3980 ,082 -6,1251E-02 2,3633

,7151 ,3490 ,855 -,3478 1,7781

,2230 ,3348 1,000 -,7968 1,2427

-,7464 ,3753 ,987 -1,8895 ,3967

-1,8403* ,3877 ,000 -3,0210 -,6596

-2,7366* ,4667 ,000 -4,1579 -1,3153

1,8975* ,4278 ,000 ,5944 3,2005

1,4615* ,3826 ,003 ,2961 2,6269

,9694 ,3697 ,186 -,1567 2,0955

,7464 ,3753 ,987 -,3967 1,8895

-1,0939 ,4182 ,190 -2,3675 ,1798

-1,9902* ,4923 ,001 -3,4896 -,4907

2,9913* ,4387 ,000 1,6552 4,3275

2,5554* ,3948 ,000 1,3531 3,7577

2,0633* ,3823 ,000 ,8990 3,2275

1,8403* ,3877 ,000 ,6596 3,0210

1,0939 ,4182 ,190 -,1798 2,3675

-,8963 ,5018 1,000 -2,4246 ,6320

3,8876* ,5099 ,000 2,3348 5,4405

3,4517* ,4726 ,000 2,0124 4,8910

2,9596* ,4622 ,000 1,5519 4,3672

2,7366* ,4667 ,000 1,3153 4,1579

1,9902* ,4923 ,001 ,4907 3,4896

,8963 ,5018 1,000 -,6320 2,4246

<25j.

25-34j.

35-44j.

55-64j.

65-74j.

75j.+

<25j.

25-34j.

35-44j.

45-54j.

65-74j.

75j.+

<25j.

25-34j.

35-44j.

45-54j.

55-64j.

75j.+

<25j.

25-34j.

35-44j.

45-54j.

55-64j.

65-74j.

45-54j.

55-64j.

65-74j.

75j.+

The mean difference is significant at the .05 level.*.

4. Statistische significantie revisited

Bij significantietoets: 2 soorten fouten mogelijk: type I: H0 verwerpen terwijl ze juist is (kans = α) type II: H0 aanvaarden terwijl Ha juist is

vb. Ethnocentrisme (APS-2002) 95% betrouwbaarheidsinterval: 9,81 < µ < 10,25

H0: µ=10 ; Ha: µ≠10 H0: µ=9,75 ; Ha: µ≠9,75

2P(T ≥ |t|) > 0,25 2P(T ≥ |t|) = 0,01

27,011,0

1003,10

/

0 =−

=−

=ns

xt

µ54,2

11,0

75,903,10

/

0 =−

=−

=ns

xt

µ

Page 24: theorie studentencursus kwantitatieve analyse

24

MEERVOUDIGE REGRESSIE

Page 25: theorie studentencursus kwantitatieve analyse

25

A. Herhaling BVA (STATISTIEK 1)

Zie Statistiek 1 voor meer informatie over:

1) Spreidingsdiagram (scatterplot) 2) Enkelvoudige lineaire regressie analyse 3) Kleinste kwadratenregressie (OLS) 4) Covariantie 5) Standaardisatie = Z-transformatie 6) Correlatiecoëfficiënt 7) Determinatiecoëfficiënt 8) B: Gestandaardiseerde b

7. Determinatiecoëfficiënt

2)( yyi −∑ = gekwadrateerde standaardafwijking van y = de variantie van y = TSS

∑=

−n

i

ii yy1

2)ˆ( = waargenomen y t.o.v. de verwachte y = de residuen oftewel SSE

M.a.w. de afwijking van elk puntje in de puntenwolk t.o.v. de regressierechte, of de

residuele variatie.

TSS – SSE = de variatie die we wél verklaren. (oftewel RegSS)

RegSS = regression Sum of Squares = de variatie tussen de groepen oftewel de variatie

die we verklaren.

r² = (a + e) – e = a

a+e a+e

� dit is bij 1 onafhankelijke variabele (BVA) a = de gedeelde variatie (of covariatie) tussen Y en X1

R² = a + b + c

a+b+c+e

Meestal laten we (a+b+c+e) weg aangezien

dat gelijk is aan 1 doordat we hier met

gestandaardiseerde variabelen werken.

∑ ∑

=

= =

−−−=

n

i

i

n

i

n

i

iii

yy

yyyy

r

1

2

1 1

22

2

)(

)ˆ()(

TSS

RegSS

TSS

SSETSS2 =−

=r

yrden enomen waa van waargvariantie

y waarden chte van verwavariantie2 =rs

sr

y

y

xy 2

2

ˆ2=

Page 26: theorie studentencursus kwantitatieve analyse

26

B. Bivariate correlatie- en regressie-analyse

1. Voorbeeld

In multivariate analyse krijgen de coëfficiënten soms een andere notatie. Aangezien we bij MVA verschillende richtingscoëfficiënten hebben, zetten we bij elke rico een subscript om te zien over welke populatie het gaat. b � b1 B � B1 (= richtingscoëfficiënten) a � b0 A � B0 (= intercept)

Laten we de verschillende coëfficiënten uit volgend voorbeeld eens interpreteren.

leeftijd -> aantal jaren onderwijs (APS2002)

a = intercept = het snijpunt van de regressierechte met de Y-as indien X nul (0) is. M.a.w. wanneer men 0 jaar is, heeft mijn 16,29 jaar onderwijs gevolgd.

b = richtingscoëfficiënt = bij een verschil van 1 eenheid op de X-as, verwachten we een verschil van -0,087 eenheden op de Y-as � dit is een negatief effect. Maar aangezien b gevoelig is voor de meeteenheid en spreiding, gebruiken we liever de gestandaardiseerde rico B. B = gestandaardiseerde richtingscoëfficiënt = bij een verschil van 1 standaardafwijking op de X-as, verwachten we een verschil van -0,46 standaardafwijkingen op de Y-as � dit is een relatief sterk negatief effect.

r = correlatiecoëfficiënt = -0,46 = een tamelijk grote negatieve samenhang

Leeftijd

908070605040302010

Aantal jaren onderwijs gevolgd

25

20

15

10

5

000 =−=−= BxByA

rn

zz

z

zz

zz

zzzz

B

n

i

yx

n

i

x

n

i

yx

n

i

xx

n

i

yyxx ii

i

ii

i

ii

===−

−−=

∑=

=

=

=

= 1

1

2

1

1

2

1

)(

))((

46,0

21,0

46,0

087,0

29,16

087,029,16ˆ

2

−=

=

−=

−=

=

−=

B

r

b

a

XY

r

Page 27: theorie studentencursus kwantitatieve analyse

27

r² = determinatiecoëfficiënt = 21% van alle verschillen (variantie) bij het aantal jaren onderwijs gevolgd, wordt verklaard door verschillen in leeftijd. M.a.w. 79% van de verschillen in aantal jaren onderwijs gevolgd, is te verklaren a.d.h.v. andere variabelen. In multivariate analyse gaan we pogen om de rest te verklaren.

a. SPSS-output

R Square = R² Adjusted R Square + Std. Error of the Estimate = MVA-coëfficiënten

We passen ANOVA toe aangezien we de groepsgemiddelden gaan vergelijken (per leeftijd).

Regression = tussengroepsvariantie; we hebben een df (vrijheidsgraden) van 1, aangezien we ook maar 1 onafhankelijke variabele hebben. Residual = binnengroepsvariantie; we hebben 1459 mensen in onze analyse Ho = er is géén invloed van leeftijd op het aantal jaren onderwijs gevolgd Ha = er is wél een invloed van leeftijd op het aantal jaren onderwijs gevolgd

F = 3377,091/8,676 = 389,224; met een df = 1 � overschrijdingskans (Sig.) = 0,000

P < 0,0001 = de kans dat als de nulhypothese (Ho) waar is, hebben we een kans van 1 op 1000 EAS dat we toch een EAS steekproef trekken met een verschil (indien Ho waar is) zo groot als F = 389,224 of groter, door louter toeval. M.a.w. we mogen de nulhypothese Ho verwerpen.

ANOVAb

3377,091 1 3377,091 389,224 ,000a

12658,987 1459 8,676

16036,078 1460

Regression

Residual

Total

Model1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), LEEFTIJDa.

Dependent Variable: Aantal jaren onderwijs gevolgdb.

Model Summary

,459a ,211 ,210 2,9456

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), LEEFTIJDa.

Page 28: theorie studentencursus kwantitatieve analyse

28

Ongestandaardiseerd Gestand.

B Std. Error Beta t Sig.

(constant) b0 ,225 72,453 .000

LEEFTIJD b1 ,004 B1 -19,729 .000

b0 = a = 16,293 = stochastische variabelen, dus onderhevig aan toeval. Een andere EAS kan bijvoorbeeld 16,1 geven in plaats van 16,293.

b1 = b = -8,70E-02

B1 = B = -0,459

Std.Error = de standaardafwijking in de steekproevenverdeling.

We hebben een standaardafwijking van 0,225. Dit is de gemiddelde standaardafwijking van de steekproevenverdeling van het intercept (a).

Bijvoorbeeld:

i. a is in de 1ste EAS = 16,293 ii. a is in de 2de EAS = 16,1 iii. a is in de 3de EAS = 15,99 iv. � Std.Error = 0,225

Significantietoets (Sig.)

We moeten de toetsingsgrootheid (t-score) berekenen.

t = 16,293 – gemiddelde constante in steekproevenverdeling (= 0 ; waarde uit Ho) Std. Error

= 16,293

0,225

= 72,453 (t-score)

Indien het intercept gelijk is aan nul (0), uit de hele populatie, dan hebben we een kans van minder dan 1 op 1000 EAS dat we een verschil bekomen. Deze kans is klein, dus kunnen we onze nulhypothese (Ho) verwerpen en hebben we dus een statistisch significant intercept.

Coefficientsa

16,293 ,225 72,453 ,000

-8,70E-02 ,004 -,459 -19,729 ,000

(Constant)

LEEFTIJD

Model

1

B Std. Error

Unstandardized

Coefficients

Beta

Standardi

zed

Coefficien

ts

t Sig.

Dependent Variable: Aantal jaren onderwijs gevolgda.

Page 29: theorie studentencursus kwantitatieve analyse

29

2. Vertekeningen

a. Outliers

Uitschieters hebben een sterke invloed op de regressie-oplossing, aangezien zij de regressielijn naar zich toe trekken.

Tussen bovenstaande spreidingsdiagrammen zie je een immens verschil. Zeker in de richtingscoëfficiënten: 1,65 � 1,06 De outliers trekken de regressierechte naar zich toe. Ook de determinatiecoëfficiënt verandert (verklaarde variantie) = 96% � 29% Dus bekijk eerst de verdeling van de variabelen afzonderlijk vooralleer de resultaten te interpreteren. Is de rechte wel een goeie samenvatting?

b. Invloedrijke waarnemingen

Een outlier is niet altijd een invloedrijke waarneming. Dus een invloedrijke waarneming ≠ outlier (kan dicht bij regressielijn)

Een invloedrijke waarneming is een waarneming die de regressiecoëfficiënten sterk beïnvloedt, m.a.w. kunnen dus de resultaten beïnvloeden.

Spreidingsdiagram van lichaamslengte en -gewicht

0

10

20

30

40

50

60

70

80

90

100

160 165 170 175 180 185

lengte (cm)

gew

icht (k

g)

Spreidingsdiagram van lichaamslengte en -gewicht

0

10

20

30

40

50

60

70

80

90

100

160 165 170 175 180 185

lengte (cm)

gew

icht (k

g)

96,0

65,196,213ˆ

2=

+−=

r

xy

29,0

06,138,109ˆ

2=

+−=

r

xy

Page 30: theorie studentencursus kwantitatieve analyse

30

Als een outlier op de regressielijn ligt of er heel dichtbij, al ligt bij immens ver, hij zal amper invloedrijk zijn aangezien hij in de lijn van de regressierechte ligt. Geval 18 illustreert dit. Geval 19 is dan eerder wel een invloedrijke waarneming. Maar het blijft vooral een onderwerp ter discussie. Wanneer een variabele ervoor zorgt dat een negatieve samenhang, plots een positieve samenhang wordt of dat er een significante verandering van de regressierechte plaatsvindt, kunnen we spreken van een invloedrijke waarneming.

c. Non-lineariteit

Non-lineariteit betekent dat er een curve nodig is aangezien een regressielijn geen goede samenvatting is. Bij lineariteit gaan we de puntenwolk samenvatten via een rechte, maar bij non-lineariteit moeten we het samenvatten via een curve.

Bijvoorbeeld statusgroepen en aantal kinderen. Hoge en lage statusgroepen kunnen veel kinderen hebben, terwijl midden statusgroepen relatief weinig kinderen hebben.

4. Residuen-analyse

We gaan nagaan, door te kijken naar de residuelenpatronen, in welke mate we een regressie- en correlatieanalyse mogen uitvoeren. Bij residuen-analyse gaan we de regressierechte horizontaal neerklappen en daar de puntenwolk op leggen. Op de Y-as krijgen we de residuen tegenoverstaande van de regressielijn (= 0). De gemiddelde afwijking tot de regressierechte van de residuen zou nul (0) moeten zijn.

0

0

=

=

r

b

Page 31: theorie studentencursus kwantitatieve analyse

31

(a) Indien de regressielijn een goede samenvatting is van de data, dan hebben we geen systematisch patroon in residuen en dus geen probleem.

(b) non-lineariteit. Levert wel een probleem. Zie puntje 2.b.

(c) heteroscedasticiteit. Bij heteroscedasticiteit heb je bij lage X-waarden een dichte spreiding (grote r²) en bij hoge X-waarden een grotere spreiding (kleine r²). Je merkt dit aan de trechtervorm in de puntenwolk. Heteroscedasticiteit levert een probleem bij de schatting van de standaardfout.

Maar wat is nu een groot residu?

Dit kunnen we nagaan door de residuen te gaan standaardiseren. Hiervoor zijn er twee manieren:

1) gewone standaardisering:

Hierbij gaan we gaan kijken naar de residuen op zich en deze in een standaard uitdrukken. Dus de waargenomen residuen gaan we delen door de standaardafwijking over alle residuen.

e / eS

( eS = standaardafwijking berekend over alle residuen)

Dit volgt een normaalverdeling N(0,1). Vervolgens kunnen we het 95% betrouwbaarheidsinterval gaan opstellen in het gebied [-1,96 , 1,96]. Dat maakt het mogelijk om uitzonderlijke residuen die groter of kleiner zijn dan het 95% betrouwbaarheidsinterval te identificeren als zijn grote residuen.

Het enige probleem is echter dat grote residuen de standaardafwijking opblazen. � oplossing: studentisering

2) Studentisering:

e / ieS −

( ieS − = standaardafwijking berekend over alle residuen van regressie-analyse zonder case i)

e = de afwijking van iY en iY

Page 32: theorie studentencursus kwantitatieve analyse

32

In SPSS:

Hier zullen we de residuelen moeten gaan bewaren, dit doe je als volgt:

Regression � lineair � save � residuals

� …

- SRE = gestudentiseerde residuelen (studentized residuals) - RES = residuelen (unstandarised residuals) - ZRE = gestandaardiseerde residuelen (standarised residuals)

Deze coëfficiënten bevinden zich achteraan de dataset, nadat je ze hebt aangemaakt. Residuelen die zich bevinden in het 95% (99%) betrouwbaarheidsinterval, beschouwen we als normale residuelen. De 5% (1%) die buiten het betrouwbaarheidsinterval valt, beschouwen we als grote residuelen. In SPSS staat dit standaard op 3%, dus je krijgt dan alle residuen met een afwijking kleiner of groter dan 3. Je kan dit veranderen naar bijvoorbeeld 2. Vervolgens kunnen we al deze coëfficiënten in een scatterplot steken.

Zoals je kan zien zijn de residuen zo goed als normaal verdeeld. We kunnen ze samenvatten a.d.h.v. plots, standaardafwijking, mediaan, …

Unstandardized Residual

11,09,0

7,05,0

3,01,0

-1,0-3,0

-5,0-7,0

-9,0

300

200

100

0

Std. Dev = 2,94

Mean = 0,0

N = 1461,00

LEEFTIJD

908070605040302010

Unstandardized Residual

20

10

0

-10

Studentized Residual

4,003,50

3,002,50

2,001,50

1,00,50

0,00-,50

-1,00

-1,50

-2,00

-2,50

-3,00

200

100

0

Std. Dev = 1,00

Mean = -,00

N = 1461,00

LEEFTIJD

908070605040302010

Studentized Residual

4

3

2

1

0

-1

-2

-3

RES

SRE

Page 33: theorie studentencursus kwantitatieve analyse

33

Lijst van cases met gestand. residueel > 3

Casewise Diagnosticsa

3,370 21,00 11,0731 9,9269

3,001 18,00 9,1590 8,8410

3,385 20,00 10,0290 9,9710

3,281 21,00 11,3341 9,6659

3,872 21,00 9,5940 11,4060

3,045 21,00 12,0301 8,9699

3,105 19,00 9,8550 9,1450

3,267 20,00 10,3770 9,6230

3,045 21,00 12,0301 8,9699

3,902 21,00 9,5070 11,4930

Case Number

108

334

391

491

509

794

839

1132

1169

1354

Std. Residual

ONDJREN

Aantal jaren

onderwijs

gevolgd

Predicted

Value Residual

Dependent Variable: ONDJREN Aantal jaren onderwijs gevolgda.

4. Controle op invloedrijke waarnemingen

Dit is een tweede manier om te kijken of alles in orde is en om ervoor te zorgen dat twee of drie grote residuen onze analyse en oplossing niet vertekenen en zo onze samenvatting beïnvloeden.

a. DfFit

= ‘difference between fitted values’

Bij DfFit zijn alle verwachten waarde yiˆ als case i in rekening wordt genomen en

wanneer case i niet in rekening wordt genomen. Dus het verschil tussen yiˆ berekend

voor volledige dataset (met case i) en yiˆ berekend zonder case i.

Indien dit verschil (DfFit) groot is, dan hebben we een grote invloed van case i. Indien dit verschil (DfFit) klein is, dan hebben we een kleine invloed van case i.

Je hebt 1 DfFit per case. Niet of wel gestandaardiseerd, beiden zijn mogelijk. Het is een globale indicatie, omdat je over de hele lijn gaat kijken, of een case een grote invloed heeft.

b. DfBeta

DfBeta is het verschil tussen b-coëfficiënt berekend voor volledige dataset en b-coëfficiënt berekend zonder case i. Het is dus hetzelfde als bij DfFit, maar nu wordt enkel het verschil berekent tussen de richtingscoëfficiënten (b’s). DfBeta geeft dus een indicatie van wat de invloed is van 1 case i op de richtingscoëfficiënt. Je gaat per rico bekijken.

Je hebt 1 DfBeta per case per regressiecoëfficiënt. Niet of wel gestandaardiseerd, om te zien of het uitzonderlijk is.

Page 34: theorie studentencursus kwantitatieve analyse

34

In SPSS:

Regression � Lineair � Save � Influence statistics

- df(Beta) = DFB - df(Beta)std. = SDB - df(Fit) = DFF - df(Fit)std. = SDF

DFBo = invloed op het intercept (a)

DFB1 = invloed op richtingscoëfficiënt (b)

(idem bij SDB)

Bijvoorbeeld: DFBo = 0,004 Dus indien case 1 eruit wordt genomen, dan stijgt ons intercept (a) met 0,004.

DFFIT

,0300

,0250

,0200

,0150

,0100

,0050

,0000

-,0050

-,0100

-,0150

-,0200

-,0250

500

400

300

200

100

0

Std. Dev = ,00

Mean = -,0002

N = 1461,00

Standardized DFFIT

,188,163

,138,113

,088,063

,038,013

-,012

-,037

-,062

-,087

-,112

-,137

300

200

100

0

Std. Dev = ,04

Mean = -,001

N = 1461,00

� Oudere leeftijd, maar toch een hoog opleidingsniveau. Maar deze outliers zijn niet ontzettend groot.

Zo goed als normaal verdeeld. Belangrijkste verschil is de standaardafwijking. De meeste cases hebben amper een invloed op de samenvatting. Zo zijn allemaal mooi verdeeld rond de nul (0).

Deze plots heeft een golvend patroon, dat komt doordat de variabele leeftijd een discrete variabele is.

LEEFTIJD

908070605040302010

Standardized DFFIT

,3

,2

,1

0,0

-,1

-,2

Page 35: theorie studentencursus kwantitatieve analyse

35

DFBETA LEEFTIJD

,00069

,00056

,00044

,00031

,00019

,00006

-,00006

-,00019

-,00031

-,00044

-,00056

600

500

400

300

200

100

0

Std. Dev = ,00

Mean = 0,00000

N = 1461,00

Standardized DFBETA LEEFTIJD

,175,150

,125,100

,075,050

,025,000

-,025

-,050

-,075

-,100

-,125

600

500

400

300

200

100

0

Std. Dev = ,03

Mean = ,000

N = 1461,00

Je hebt hier 2 grote toppen, m.a.w. een hoge concentratie rondt de nul (0). Dit is echter perfect normaal bij regressie-analyse. De middengroep ligt dan ook in het midden =

zwaartepunt [ YX , ] en hebben weinig effect op de richtingscoëfficiënt.

� Oudere leeftijd, maar toch een hoog opleidingsniveau. Maar deze outliers zijn niet ontzettend groot.

Dit is een raar patroon (invloed van elke case op richtingscoëfficiënt).

DfBeta lage leeftijd groot

DfBeta gemiddelde leeftijd klein

DfBeta hoge leeftijd groot

= de waarden van de richtingscoëfficiënt wordt vooral bepaald door lage en hoge waarden op X in plaats van de middengroep. Hoge en lage waarden trekken het zwaarst aan de rico.

LEEFTIJD

908070605040302010

Standardized DFBETA LEEFTIJD

,2

,1

0,0

-,1

-,2

Page 36: theorie studentencursus kwantitatieve analyse

36

C. Inferentie over regressiecoëfficiënten

We willen iets zeggen over de regressiecoëfficiënt (β ) uit de populatie.

We willen iets weten over β maar hebben enkel de richtingscoëfficiënt (b) uit de

steekproef.

We zullen aan de hand van een t-verdeling, een significantietoets doen tussen twee

groepen met 1µ en

2µ . Is het verschil daartussen statistisch significant?

Situatie vergelijkbaar met verschil tussen 2 verwachtingen. Populatie:

We gaan na of het verschil tussen deze groepen statistisch significant is.

Maar hier: vele mogelijke verschillende waarden X

Bij regressieanalyse hebben we heel veel groepen (hier 3 maar kunnen er meer zijn). Het verband tussen de verschillende groepen is dat ze een lineaire functie hebben.

εββ ++= xY010

xY ββ10

ˆ +=

exbby iii++=

10

xbby ii 10ˆ +=

Page 37: theorie studentencursus kwantitatieve analyse

37

De spreiding ligt rond de verwachting (kan dus normaal verdeeld zijn). In de populatie heb je zo’n verdeling. De variabelen in de bevolking liggen rond de verwachte Y-waarde. We kunnen dit schatten door de verwachten residuen.

In steekproef: y bij gegeven x is kansvariabele met bepaalde µ en σ

De verwachting y varieert volgens lineaire functie met x

Steekproefgrootheden: normaal verdeelde zuivere schatters

De steekproevenverdeling van de regressiecoëfficiënt is over alle mogelijke steekproeven

de verwachting (µ ) en die is gelijk aan de verwachting (µ ) in de populatie. Er is echter nog een ontbrekende parameter: σ � S � populatieparameter meestal onbekend � e ’s gebruiken als schatting

= de geschatte standaardafwijking van de steekproevenverdeling

De standaardafwijking van de residuen (S²), we gebruiken de residuen als schatting van de standaardafwijking van de steekproevenverdeling.

1. Assumpties (zie ook Multiple regressie analyse)

• Lineariteit • normaliteit:

e ’s normaal verdeeld met gemiddelde 0 [N(0,1)] • homoscedasticiteit:

e ’s hebben constante variantie We veronderstellen dat de variate van de residuen gelijk is voor alle X-waarden.

• geen autocorrelatie: e ’s zijn onafhankelijk van elkaar We veronderstellen dat de residuelen van alle cases onafhankelijk zijn van elkaar. De ene heeft geen invloed op de andere (normaal gezien), maar dit is niet altijd zo. Bijvoorbeeld wanneer we een enquête afnemen in scholen, kan het zijn dat de selectie afhankelijk is van de scholen zelf. Per school hebben we een ander publiek (elite vs. populaire scholen). Met als gevolg dat twee residuen met elkaar verbonden zijn via school in plaats van via willekeurige residuen.

� nagaan via Durbin Watson test [0 , 4]

• geen vertekening door outliers en invloedrijke waarnemingen

xy

ββµ10

+=

xy bb 10ˆ +=

2

)²( ˆ2

−=∑

n

yys

ii

Page 38: theorie studentencursus kwantitatieve analyse

38

Met alle gegevens hierboven berekent, kunnen we nu aan inductieve statistiek gaan doen.

2. Betrouwbaarheidsinterval

Zowel voor b0 als voor b1:

met t(n-2) verdeling

SEb= standaardafwijking van de steekproevenverdeling van de richtingscoëfficiënt

Voorbeeld LEEFTIJD � ONDJREN :

• b0 = 16,293 � 95%-CI: [15,85 , 16,73]

• b1 = -0,087 � 95%-CI: [-0,096 , -0,078]

3. Significantietoets

Oftewel een t-toets. We vergelijken tussen de richtingscoëfficiënten uit de steekproef en delen deze door de richtingscoëfficiënten die we formuleren in de nulhypothese (Ho).

• Ho: β0 = 0

▫ verwachte Y bij X = 0 dikwijls niet interessant ▫ tenzij ev. X in deviation scores (afwijking t.o.v. gemidd.)

• Ho: β1 = 0

▫ geen effect (horizontale rechte)

SEtb b*±

Page 39: theorie studentencursus kwantitatieve analyse

39

Toetsingsgrootheid:

met n-2 vrijheidsgraden

Meestal doen we een tweezijdige toets.

Bijvoorbeeld:

• b0 = 16,293 � t = 72,453 � p < 0,001

• b1 = 0,087 � t = -19,729 � p < 0,001

Coefficientsa

16,293 ,225 72,453 ,000

-8,70E-02 ,004 -,459 -19,729 ,000

(Constant)

LEEFTIJD

Model

1

B Std. Error

Unstandardized

Coefficients

Beta

Standardi

zed

Coefficien

ts

t Sig.

Dependent Variable: Aantal jaren onderwijs gevolgda.

SEb

b

t

1

1=

Page 40: theorie studentencursus kwantitatieve analyse

40

OPSTAP NAAR MULTIVARIATE ANALYSE

Page 41: theorie studentencursus kwantitatieve analyse

41

A. Opstap naar multivariate analyse

1. Types relaties

Een bivariate effectrelatie is niet altijd gelijk aan een causale relatie. Enkele aandachtspunten:

� beschrijvende vs. inductieve statistiek � cross-sectionele vs. longitudinale data � verborgen variabelen (Z) / multivariate analyse

� Het bivariate geval

Types van relaties met meer dan 2 variabelen:

���� Gemeenschappelijke afhankelijkheid/ wederzijdse oorzaak

De relatie tussen X en Y is geen echte relatie, zij wordt beïnvloed door een 3e variabele Z. Men noemt deze relatie dan ook een “schijnverband”.

���� Intermediaire variabele

Geen rechtstreekse relatie tussen X en Y, misschien een beetje invloed van X op Y. Vb: X = etniciteit � Z = SES � Y = criminaliteit

���� Verstrengeling

Dit is de meest voorkomende soort relatie. De derde variabele heeft tevens een invloed op Y én is gecorreleerd met X. Je moet die in rekening brengen om het netto-effect te krijgen. Vb: Y = aantal keer naar theatervoorstelling X = leeftijd

Z = opleidingsniveau � Jongeren meer dan ouderen

� Hoger opgeleiden gaan vaker ! relatie tussen leeftijd en opleidingsniveau: jongeren zijn hoger opgeleid dan ouderen!

X Y

Z

X Y

X Y Z

X Y

Z

Page 42: theorie studentencursus kwantitatieve analyse

42

���� Interactie-effect

Variabele Z heeft een effect op de relatie tussen X en Y.

Hoe kies je een set van onafhankelijke variabelen? Door te kijken naar de theorie.

� Bij multivariate statistiek spreekt men van netto-effecten.

• maar zelfs met correcte toepassing MVA-technieken, blijft: � cross-sectionele vs. longitudinale data � mogelijkheid verborgen variabelen => vaststellen effectrelatie ≠ causale relatie

• ev. wel sterke indicatie voor causale relatie, indien: � sterke samenhang � statistische controle voor diverse andere kenmerken (MVA) � samenhang wordt consistent gevonden in vele onderzoeken � vermeende oorzaak gaat vooraf aan het effect

Sterke samenhang: Stijging in opleidingsniveau levert een daling in etnocentrisme. Wij gaan nakijken naar de dimensies van verschillende onderzoeken (� causaal verband)

� Repliceerbaarheid van onderzoek.

vb. bijwonen van niet-klassieke concerten/festivals (voorbije 6 maand), naar al dan niet hebben van kinderen

� Wie samenwoont met partner en kinderen vertoont een tweemaal lagere kans (odds) om frequent een niet-klassiek concert/festival bijgewoond te hebben dan wie enkel met de partner woont (interpretatie i.t.v. oddsratio)

� Mensen met kinderen gaan meer frequent naar concerten (15,3% <-> 21,1%), dit komt door de invloed van een 3e variabele, nml. leeftijd. Mensen met inwonende kinderen gaan frequenter.

� Dit bleek niet uit de vergelijking van percentages (integendeel) ⇐ o.a. samenhang ts. hebben van (thuiswonende) kinderen - leeftijd

X Y

Z

0 1-2 3+

Bivariaat (%)

woont met partner, zonder kinderen 84,7% 8,1% 7,2% (100%)

woont met partner en kinderen 78,8% 14,1% 7,0% (100%)

Multivariaat (kansverhoudingen)

woont met partner, zonder kinderen . . .

woont met partner en kinderen . - 1,1 - 2,0 *

Page 43: theorie studentencursus kwantitatieve analyse

43

2. Voorbeelden

leeftijd -> ethnocentrisme (APS 2002)

jaren onderwijs -> ethnocentrisme (APS2002)

20,00 40,00 60,00 80,00

Leeftijd

0,00

5,00

10,00

15,00

20,00

Eth

nocentr

ism

e

��

��

��

��

��

���

��

��

��

��

��

��

��

��

� �

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

���

� �

��

��

��

��

��

��

��

��

��

��

��

��

� �

� �

��

��

��

��

��

��

���

��

� �

��

��

� �

30,0

09,0

30,0

061,0

17,7

061,017,7ˆ

2

=

=

=

=

=

+=

B

r

b

a

XY

r

5,00 10,00 15,00 20,00

Aantal jaren onderwijs gevolgd

0,00

5,00

10,00

15,00

20,00

Eth

nocentr

ism

e

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

� �

��

� �

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

37,0

13,0

37,0

382,0

7,14

382,07,14ˆ

2

−=

=

−=

−=

=

−=

B

r

b

a

XY

r

Page 44: theorie studentencursus kwantitatieve analyse

44

��

��

��

��

�� �

��

�� �

� �

��

��

��

���

��

� �

��

��

���

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��� �

��

��

��

� �

��

��

�� �

��

��

� �

��

��

��

��

� �

��

��

��

� ��

� �

jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (APS2002)

��

��

��

��

��

��

��

��

��

��

��

��

�� �

��

��

��

� �

�� �

� �

�� �

� �

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

� �

� �

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

�� �

��

��

� �

��

� �

152,0

292,0

15,0

03,0

305,0

358,12

031,0305,0358,12ˆ

2

1

2

2

1

21

=

−=

=

=

−=

=

+−=

BBR

b

b

XXa

Y

Page 45: theorie studentencursus kwantitatieve analyse

45

B. Het multivariate model met 2 onafhankelijke variabelen

• Y: afhankelijke variabele • X1 en X2: onafhankelijke variabelen (metrisch) • a: intercept (verwachte Y als X1 en X2 = nul)

• b1: netto-effect van X1 op Y (met X2 constant gehouden) (statistisch gecontroleerd voor X2)

• b2: netto-effect van X2 op Y (met X1 constant gehouden) (statistisch gecontroleerd voor X1)

• εεεε: cumulatief effect alle andere oorzaken Y ; verzameling van alle andere mogelijke variabelen die een invloed op Y kunnen hebben (verzameling Z-variabelen; residuele variatie) � Stuk van de niet-verklaarde variantie.

� Verwachte Y

� Waargenomen Y ( e = residueel)

� Gestandaardiseerde Y, verwachte Z-score op var. Y Geen intercept ( a ) want a = 0 bij standaardisatie.

Voorbeeld: X1 = Partner

X2 = Kinderen

Y = Cultuurparticipatie

ε = Opleidingsniveau, leeftijd, …

X1

X2

Y ε

XbXbaY2211

ˆ ++=

eXbXbaY +++=2211

eXX ZBZBZ Y++=

2121

Page 46: theorie studentencursus kwantitatieve analyse

46

1. Concept van gedeelde variantie

BIVARIATE ANALYSE MULTIVARIATE ANALYSE

Eén cirkel staat voor de totale variatie van een variabele.

Bivariate analyse:

Eén cirkel staat voor de totale variatie van een variabele. In het bivariate model is er een overlapping tussen X1 en Y en tussen X2 en Y. Deze overlapping is een deelverzameling en staat voor de covariatie tussen (a) en (b). M.a.w. de mate waarin ze samen variëren.

Er is echter géén variatie tussen X1 en X2 aangezien het hier bivariaat is. Daarom is het voldoende om twee afzonderlijke bivariate analyses te doen:

• a + c • b + c Doordat we tweemaal C in rekening brengen krijgen we een vertekening en dus een overschatting van de coëfficiënten.

Multivariate analyse:

In het multivariate model covariëren X1 en X2 ook, er is dus een samenhang tussen de twee onafhankelijke variabelen.

Het stukje C staat hier voor de overlapping tussen X1, X2 en Y.

• a + c = het effect van X1 op Y • b + c = het effect van X2 op Y • c + d = het effect van X1 op X2 en omgekeerd Wat we in de multivariate analyse gaan doen is het stukje C weghalen zodat wat het netto-effect krijgen van X1 op Y (= stukje a) en van X2 op Y (= stukje b).

Page 47: theorie studentencursus kwantitatieve analyse

47

2. Een illustratie

2 afzonderlijke bivariate regressie-analyses:

a = 14,7

b = - 0,382

r² = 13% � a + c

Dus 13% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau.

a = 7,17

b = 0,061

r² = 9% � b + c

Dus 9% van de verschillen in etnocentrisme worden verklaard door verschillen in leeftijd.

MAAR:

We moeten rekening houden met de

gedeelde variaties (c) tussen X1-X2-Y.

Indien we de r² (determinatiecoëfficiënten) samentellen, verklaren we 22% van de totale variatie. (zijn “perfecte” coëfficiënten) Dus 22% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd, 22% hebben we verklaard. DIT IS FOUTIEF, WANT C HEBBEN WE TWEE KEER GETELD!!!

Multivariate analyse:

Hier gaan we het stukje C eruit halen.

a = 14,7

b1 = 0,305

b2 = 0,031

� De richtingscoëfficiënten zijn lager dan bij de bivariate analyse. (1/4de van het effect valt weg doordat we overschat hebben bij de bivariate analyse)

R² = 15% � a+ b + c

)(22,0

46,0

2dcr

r

OPLEIDINGLEEFTIJD

OPLEIDINGLEEFTIJD

+==

−=

)15,0(

031,0305,07,14

2cba

eLEEFTIJDOPLEIDINGISMEETHNOCENTR

R ++==

++−=

)13,0(

382,07,14

2ca

eOPLEIDINGISMEETHNOCENTR

r +==

+−=

)09,0(

061,017,7

2cb

eLEEFTIJDISMEETHNOCENTR

r +==

++=

Page 48: theorie studentencursus kwantitatieve analyse

48

R² = de meervoudige determinatiecoëfficiënt

Dus 15% van de verschillen in etnocentrisme worden verklaard door verschillen in opleidingsniveau en leeftijd, 15% hebben we verklaard.

jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [3D-puntenwolk] (APS2002)

Van een 3D-puntenwolk naar een 2D- regressievlak (zie grafiek hieronder).

! Dit is geen longitudinaal onderzoek, het is cross-sectioneel onderzoek. Met andere woorden, we kunnen geen voorspellingen doen m.b.t. de toekomst e.a. We kunnen onze voorspellingen dus niet gaan doortrekken op langere termijn.

jaren onderwijs (X1) + leeftijd (X2) -> ethnocentrisme (Y) [2D-regressievlak] (APS2002)

Wat heeft nu het grootste effect op etnocentrisme? Opleidingsniveau want de gestandaardiseerde richtingscoëfficiënt is het grootst (B1 = - 0,292)

��

��

��

��

�� �

��

�� �

� �

��

��

��

���

��

� �

��

��

���

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��� �

��

��

��

� �

��

��

�� �

��

��

� �

��

��

��

��

� �

��

��

��

���

� �

��

��

��

��

��

��

��

��

��

��

��

��

�� �

��

��

��

� �

�� �

� �

�� �

� �

��

��

��

��

��

��

��

��

��

��

��

� �

��

��

��

��

� �

��

��

��

��

��

��

��

��

��

��

� �

� �

� �

��

��

��

��

��

��

��

��

��

��

��

��

��

��

�� �

��

��

� �

��

� �

152,0

292,0

152,0292,0

15,0

031,0

305,0

7,14

031,0305,07,14ˆ

2

1

ˆ

2

2

1

21

21

=

−=

+−=

=

=

−=

=

+−=

BB

ZZZ

R

b

b

XX

XX

a

Y

Y

Page 49: theorie studentencursus kwantitatieve analyse

49

B

Leeftijd 0,034 Opleiding -0,318 Lidmaatschap verenigingen

-0,067

Vertrouwen politieke instellingen

-0,184

Vertrouwen administratie

-0,074

Vertrouwen gerecht -0,129 Vertrouwen leger 0,089

R² (N=1554)

0,304

(+ ook controle voor geslacht en levensbeschouwing) (bron: Meuleman B. & J. Billiet (2005) De evolutie van etnische dreiging tussen 1991 en 2004 en de relatie met institutioneel vertrouwen. in: Vlaanderen Gepeild 2005, pp.37-60).

Je kan de ongestandaardiseerde richtingscoëfficiënt b1 en b2 niet met elkaar gaan vergelijken omdat ze zeer gevoelig zijn voor de meeteenheid en de spreiding. Hierdoor moeten we B1 met B2 gaan vergelijken om een goeie voorspelling te krijgen. B1 = bij een verschil van 1 standaardafwijking in het aantal jaren onderwijs gevolgd, verwachten we een verschil van – 0,292 standaardafwijkingen op de etnocentrismeschaal. Dit is natuurlijk een zinloze interpretatie, maar we kunnen vergelijken en dat kunnen we niet met b1 en b2.

R² = 0,15 = 15% van de verschillen in etnocentrisme hebben we verklaard door verschillen in opleidingsniveau en leeftijd.

In hoeverre is opleidingsniveau verklarend? Er zijn nog veel andere (verborgen) variabelen die een effect kunnen hebben. Zoals bijvoorbeeld urbanisatiegraad (en de samenhang met opleidingsniveau): Bv: - 0,305 is netto-effect van opleidingsniveau gecontroleerd op leeftijd. Maar misschien is er ook een mogelijke samenhang met de verstedelijkingsgraad, dus moeten we controleren op een mogelijke 4e variabele. Hiervoor moeten we de theorieën gaan nakijken. Tevens is het afhankelijk van steekproef tot steekproef (= steekproefvariatie) Dus moeten we een betrouwbaarheidsinterval opstellen van b1 om zeker te zijn. Ook kunnen er zich meetfouten voordoen. Hiervoor moet de operationalisatie heel goed uitgewerkt worden.

3. Uitbreiding naar meer onafhankelijke variabelen

Eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen:

een illustratie (APS 2004): perceptie van bedreiging door migranten (Y)

Regressie-analyse van perceptie van bedreiging door migranten

- gestandaardiseerde regressie-coëfficiënten

Hier zijn er 7 onafhankelijke variabelen. R² = 30,4% van de verschillen in de perceptie van bedreiging door migranten, worden verklaard door verschillen in de 7 onafhankelijke variabelen. Opleiding heeft het grootste effect want B is - 0,318.

XbXbXbaY332211

ˆ +++=

....ˆ44332211+++++= XbXbXbXbaY

Page 50: theorie studentencursus kwantitatieve analyse

50

MULTIPLE REGRESSIE-ANALYSE

Page 51: theorie studentencursus kwantitatieve analyse

51

A. Inleiding tot multiple regressie-analyse

Correlaties tussen � � afhankelijke variabele

onafhankelijke

variabelen

onafhankelijk variabelen

We gaan ervan uit dat alle variabelen van metrisch meetniveau zijn. In de multiple regressie-analyse gaan we gaan controleren op associaties tussen de onafhankelijke variabelen.

1. Het multivariate basismodel

Lineair-additief model

• ε : cumulatief effect alle andere oorzaken Y (‘random variable’)

• β : ‘true coefficient’ (beta) ≠ regressiecoëfficiënt ⇐ ‘sampling error’ (bij b; rico) ⇐ ‘measurement error’ (bij b) ⇐ conceptueel onderscheid tussen:

• statistisch hulpmiddel • bestudeerd fenomeen

We willen β berekenen maar we kunnen dit niet want we kennen die niet, dus gaan we b (richtingscoëfficiënt) gebruiken ter vervangen. De richtingscoëfficiënten (b’s) zijn niet aan elkaar gelijk. lineair = voor alle effecten veronderstellen we een lineair effect.

additief = we hebben “+”-tekens, sommatie effecten.

X1

X2

Y ε

Page 52: theorie studentencursus kwantitatieve analyse

52

Puntnotatie:

� controleren / constant houden

� partiële regressiecoëfficiënt by 2.1

� voorspeld door a y 12. (of ook: ay12)

� lineair-additief model; waargenomen Y

� verwachte Y; b ter vervangen van β

� Puntnotatie, wat we bedoelen in de regressie.

Voorbeeld:

b1 = by 2.1

= het effect van X1 op Y statistisch gecontroleerd met X2 (constant)

= netto-effect

a= a y 12. = intercept, verwachte waarde op Y voorspeld door de waarde X1 en X2

a. Concept van gedeelde variantie

BIVARIATE ANALYSE MULTIVARIATE ANALYSE

Eén cirkel staat voor de totale variatie van een variabele.

De cirkels zijn even groot = Z-score. Het zijn hier dus gestandaardiseerde variabelen. In feite is X1 = ZXi (fout bij McClendon)

εα ββ +++= XXY2211

XbXbaY2211

ˆ ++=

XbXba yyyY

21.212.112.ˆ ++=

Page 53: theorie studentencursus kwantitatieve analyse

53

Multivariate analyse:

Hier is er dus een samenhang tussen de twee onafhankelijke variabelen.

by 2.1= a (C is eruit)

b. Voorbeelddata

X1: aantal jaren ervaring (onafh.) X2: aantal publicaties (onafh.) Y: jaarloon (in 1000$) (afh.)

geweten dat: Y = 20 + 1X1 + 2X2 + εεεε maar hier: schatten om logica te illustreren

a = intercept, standaardloon van 20.000 $

X1 = per jaar ervaring komt er 1000 $ bij

X2 = per publicatie komt er 2000 $ bij

ε = residueel, staat hier voor andere verdiensten (extra $ erbij)

Twee bivariate analyses

We hebben een onderzoekspopulatie van 5 personen. Bijvoorbeeld persoon 1 heeft 0 jaren ervaring (X1), 2 publicaties uitgegeven (X2) en

Page 54: theorie studentencursus kwantitatieve analyse

54

verdient 26.000$ (Y). We verwachten dat hij normaal 24.000$ ( Y ) verdient, er is dus een residueel van +2 (ε).

Persoon 1 heeft een afwijking van -9 ( YY − ) t.o.v. van het gemiddelde jaarloon (Y ).

by1 = het bivariate effect van X1 op Y.

In de regressie vergelijking ( y = 23,09 + 2,382 1x ) zien we dat we het effect van X1 op Y

overschatten indien we X2 buiten beschouwing laten.

1ya > 2.1ya : 23,09 > 20,30

1yb > 2.1yb : 2,382 > 1

Grafisch

Page 55: theorie studentencursus kwantitatieve analyse

55

c. Relatie bivariate b’s en meervoudige b’s

De bivariate regressiecoëfficiënten (RC) overschatten ‘ware’ RC’s. We hebben dus een zware overschatting indien we enkel X1 en X2 gebruiken.

(--> vb. case 5)

oorzaak: correlatie tussen X1 en X2 � ‘dubbeltelling’

Oplossing overschatting

We moeten een methode vinden om X2 uit X1 en X1 uit X2 te krijgen. Dit gaan we doen via regressie-analyse.

X1 = a + bX2 + εX1 (hier is X1 de afhankelijke) [εX1 = a + f] X2 = a + bX1 + εX2 (hier is X2 de afhankelijke) [εX2 = b + g]

� partiële RC’s, zonder C!

De overlappende variatie tussen X1 en X2 op Y en de covariatie tussen X1 en X2 (c+d) zorgen ervoor dat met een probleem zitten. Dus gaan we a.d.h.v regressie-analyse dat probleem oplossen. Bijvoorbeeld als we X1 als afhankelijke variabele nemen en X2 als onafhankelijke (c+d) dan gaan we ons enkel focussen op het residu εX1.

R² zal dan c+d zijn, en deze gaan we gaan gebruiken in onze regressie-analyse.

εX1 = 1 – R² = a + f

We willen het stukje C weg als we het effect van X1 of X2 op Y willen nagaan.

Dus gaan we onze nieuwe variabele εX1 in relatie brengen met Y. Op deze manier is het stukje C uit onze vergelijking. We gaan dit ook doen voor X2.

Dus we gaan een nieuwe regressie-analyse uitvoeren (MVA), waar we niet X1 en X2 in onze analyse opnemen, maar wel εX1 en εX2 (zonder C).

XXaY21

94,2382,2ˆ ++=

39,85*94,25*382,23594,2382,2ˆ21

=−−=−−= XXYa

67,589*94,210*382,239,8ˆ =++=Y

εε 2211ˆ

XX bbaY ++=f g

Page 56: theorie studentencursus kwantitatieve analyse

56

Zo bekomen we de partiële richtingscoëfficiënten b1 en b2.

12b = het effect van publiciteit (X2) op jaren ervaring (X1) = 0,940

2.1X = de verwachte waarde op X1

Voorbeeld case 1: 2.1X = 2,18 = bij 2 publicaties verwachten we 2,18 jaren ervaring

1X - 2.1X = residu ε 1X = dit is onze nieuwe variabele, de geresidualiseerde variabele van

X1 waar X2 eruit is gehaald (dus a + f). Deze εX1 gebruiken we om de covariatie van Y te berekenen.

( 1X - 2.1X )(Y-Y ) = 23,82 = de covariatie tussen Y en de geresidualiseerde X1 variabele.

Hier is het stukje C uit verwijderd!

2.1yb = het netto-effect van de geresidualiseerde variabele X1 op Y, statistisch

gecontroleerd op X2 = het effect van jaren ervaring op loon, statistisch gecontroleerd op het effect van publicaties.

Page 57: theorie studentencursus kwantitatieve analyse

57

Idem tabel 3.2, maar dan voor X2 in plaats van X1

1.2X = de verwachte waarde op X2

Voorbeeld case 1: 1.2X = 1,54 = bij 0 jaren ervaring verwachten we 1,54 publicaties.

2X - 1.2X = residu ε 2X = dit is onze nieuwe variabele, de geresidualiseerde variabele van

X2 waar X1 eruit is gehaald (dus b + g). Deze εX2 gebruiken we om de covariatie van Y te berekenen.

( 2X - 1.2X )(Y-Y ) = 35,03 = de covariatie tussen Y en de geresidualiseerde X2 variabele.

Hier is het stukje C uit verwijderd!

1.2yb = het netto-effect van de geresidualiseerde variabele X2 op Y, statistisch

gecontroleerd op X1 = het effect van publicaties op loon, statistisch gecontroleerd op het effect van jaren ervaring.

12.ya = analoog berekend als het bivariate geval (regressievlak). Het regressievlak moet

door het evenwichtspunt ( X en Y ).

Page 58: theorie studentencursus kwantitatieve analyse

58

Waar moeten we C aan toekennen?

Aan X1 of X2? Daarom moet C eruit.

We halen de gedeelde variatie tussen de onafhankelijke variabelen eruit en kijken dan naar het effect op de afhankelijke variabele (C eruit).

Grafisch

ac

e

b

g d f

Y

X2 X1

� effect εεεεX1 en εεεεX2 op Y

ac

e

b

g d f

Y

X2 X1

X2 uit X1 halen

� εεεεX2 = b +g

ac

e

b

g d f

Y

X2 X1

X1 uit X2 halen

� εεεεX1 = a +f

Page 59: theorie studentencursus kwantitatieve analyse

59

2. Coëfficiënten

a. Residuelen

Hier gaan we na hoe goed X1 en X2 nu de variantie in Y verklaren. Hoe goed is onze regressie nu?

12YYS

−= 1,6733 = de standaardafwijking van de residuen.

(in de reader van McClendon wordt er een andere formule gebruikt, nml. 1/n i.p.v. 1/n-1)

12Y = de verwachte waarde op Y

b. Meervoudige correlatiecoëfficiënt

(Hoe goed is onze voorspelling?)

12YYr = de bivariate correlatie tussen de waargenomen en verwachte variabele Y.

Wij gaan trachten zo goed mogelijk de afhankelijke variabelen te verklaren.

YS = standaardafwijking waargenomen Y

Page 60: theorie studentencursus kwantitatieve analyse

60

Unstandardized Predicted Value

50403020

Y

60

50

40

30

20 Rsq = 0,9702

12YS = standaardafwijking verwachte waarde van Y

12YY SS = covariatie

De bivariate correlatie kan niet negatief worden.

max. = 1 = perfecte voorspelling

min. = 0 (!) = geen samenhang

De residuen zijn niet perfect gecorreleerd.

12.YR = de correlatie tussen Y en Y .

12.YR = 0,9850 = bijna perfecte correlatie.

c. Meervoudige determinatiecoëfficiënt

(Hoe groot is stuk a + b + c?)

12.2YR = de variatie die we willen begrijpen, geeft goed weer wat we bedoelen.

∑ − )²( YY = de variatie van de waargenomen waarden (totale variatie) � SST

(delen door n-1 = variantie; vierkantswortel = standaardafwijking).

∑ − )²ˆ( 12YY = variatie van de residuelen = afwijking van elke waargenomen waarde t.o.v.

de verwachte waarde. � SSE

Page 61: theorie studentencursus kwantitatieve analyse

61

12.2YR =

SST

SSESST −= .9702 � de proportie van de totale variantie die verklaard wordt

door de onafhankelijke variabelen.

Probleem bij R² is dat we een overschatting hebben van de populatie-R².

Dit komt door steekproeffouten. (cf. situatie waar R in populatie = 0) (meer marge voor fouten als populatie-R klein is) Dus we hebben een overschatting voor de steekproefvariatie voor R². We hebben afwijkingen in opwaartse bewegingen.

Oplossing: adjusted R² (2R )

Deze is steeds kleiner dan R². Alsook is de afwijking t.o.v. R² groter naarmate er meer onafhankelijke variabelen (k) zijn en wanneer R² kleiner is.

k = de onafhankelijke variabelen.

d. Gestandaardiseerde partiële regressiecoëfficiënt

In multivariate analyse werken we met gestandaardiseerde richtingscoëfficiënten. De ongestandaardiseerde coëfficiënten zijn gevoelig voor spreiding. Het is dus moeilijk te zeggen wat een groot/klein effect is, alsook zijn ze schaal-afhankelijk.

Oplossing: standaardisering

Berekeningen zijn analoog aan het niet-gestandaardiseerde geval.

YZ = gestandaardiseerde verwachte waarde voor Y.

ac

e

b

g d f

Y

X2 X1

SST = a + c + b + e

SSE = e , kunnen we niet verklaren door onafhankelijke var.

zzz y 216524,03804,0ˆ +=

Page 62: theorie studentencursus kwantitatieve analyse

62

2Z heeft een groter effect (0,6524) dan 1Z (0,3804). Hier kunnen we dus gaan

vergelijken. Het nadeel is wel dat het een inhoudelijk zinloze interpretatie is, aangezien men hier spreekt in termen van standaardafwijkingen.

De waarden zijn mathematisch onbegrensd en liggen praktisch in het interval [-1,+1].

De som van de afwijkingen (bij Z1, Z2 en Zy) is per definitie gelijk aan 0. (cf. tabel 3.5)

e. Semi-partiële correlatie (part-correlatie)

Definitie: correlatie tussen Y en X waarvan andere predictor uitgehaald. De covariatie tussen Y en X.

ssXX

srXX

nYY

Y ˆ

/))((

2.11

ˆ2.11

1

∑ −−=

Page 63: theorie studentencursus kwantitatieve analyse

63

2.11 XX − = de residuelen

2.1X = de verwachte waarde van X1 als X2 de afhankelijke variabele is.

In voorbeeld is 1sr de correlatie tussen loon en het aantal jaren ervaring, met statische

controle voor (het aantal jaren ervaring en) aantal publicaties.

1sr = 0,2251

2sr = 0,3861

1sr ligt in het interval [-1,+1].

Interpretatie ²1sr : bijkomende variantie uniek verklaard door X1 (of daling in R² door

weglaten X1) = de gecontroleerde determinatiecoëfficiënt

Dus, hoeveel verschil in loon wordt verklaard door verschil in jaren ervaring = 5%

(a)

(b)

(c)

Dus c = ervaring + publicaties verklaren samen 77%

Stel X1 is uit het model => c + b = 0,14 + 0,77 c+b is de R² van de bivariate analyse => verklaarde variatie gaat met a dalen,zonder X1

f. Partiële correlatie

Definitie: correlatie tussen Y en X waarbij andere predictor zowel uit X als Y gehaald.

X2 zowel uit X1 als uit Y halen. Bij semi-partieel halen we X2 uit X1.

� stukje b is het verschil tussen de twee.

De partiële correlatie ( 1pr ) ligt in het interval [-1,+1].

rRsr YY

2

2

2

12.

2

1−=

0507,02

1=sr

1490,02

2=sr

7705,0)1490,00507,0(9702,0)(2

2

2

1

2

12.=+−=+− srsrRY

9702,01490,08212,0)²2251,0()²9062.0(2

2

2

1

2

12.=+=+=+= srrR YY

ssXXY

rprXXYY

nY

Y

ˆˆ

/))((

2.112

ˆˆ2.112

2.11−−

∑ −−==

Page 64: theorie studentencursus kwantitatieve analyse

64

In voorbeeld:

1pr = 0,7936

2pr = 0,9129

Interpretatie ²1pr : hoe goed verklaart X1 het deel van de variantie in Y die niet verklaard

wordt door X2

In voorbeeld:

²1pr = 0,6299

²2pr = 0,8333

1 - ²2Yr = 1 – (b+c) � a + e

1 is de totale variatie van Y (want deze is gestandaardiseerd)

rrRprY

YY

2

2

2

2

2

12.2

1 1−

−=

Page 65: theorie studentencursus kwantitatieve analyse

65

B. Multiple regressie-analyse: Coëfficiënten

1. Toepassing: 1973-1977 Quality of Employment Survey

• blanke mannen, 25-64 jaar, in voltijds loonverband • Y: jaarloon in 100$ (EARN) • X1: aantal jaren scholing voltooid (EDUC) (0[0], 1-7[4], 8[8], 9-11[10], 12[12], 13-15[14], 16[16], 17-19[18]) � ordinaal

• X2: aantal jaren ervaring (EXPER)

a. Beschrijving data

B (bivariaat)

Correlations (r) zijn de bivariate analyses. We zien dat inkomen voornamelijk bepaald wordt door opleidingsniveau. Maar dit zegt niet genoeg over het effect van inkomen.

We zien een negatief verband (- 0,323) tussen opleidingsniveau en ervaring.

Daarom moeten we multivariate analyse gaan toepassen.

Page 66: theorie studentencursus kwantitatieve analyse

66

Bivariate scatterplots

We gaan eerst kijken naar de verdeling van de outliers. De scatterplots geeft de relatie weer met de afhankelijke variabele inkomen.

a) Geen metrische variabele, maar een categorische. En we hebben 3 probleemgevallen (= invloedrijke waarnemingen) � sterk effect opleidingsniveau op inkomen (!) er is vertekening

b) Tevens drie probleemgevallen

� Een negatief categorisch verband

Page 67: theorie studentencursus kwantitatieve analyse

67

Multivariate 3D-scatterplots

In dit 3D-scatterplot gaan we loodlijnen trekken (“spikes”) voor een beter zicht te krijgen. We merken op dat de loodlijnen oplopen van links naar rechts.

We gaan dit tevens conditioneel gaan bekijken: (p.68)

Page 68: theorie studentencursus kwantitatieve analyse

68

Page 69: theorie studentencursus kwantitatieve analyse

69

b. Coëfficiënten (multivariaat)

C is nog niet getoond: C is negatief! A+B > a+b+c

Legende:

sr = semi-partiële correlatiecoëfficiënt (part-correlatie)

²sr = semi-partiële determinatiecoëfficiënt

pr = partiële correlatiecoëfficiënt

²pr = partiële determinatiecoëfficiënt

B = meervoudige gestandaardiseerde richtingscoëfficiënt

Shrunken ²R = .1737 = 17,3% van de verschillen in inkomen, worden verklaard door verschillen in opleidingsniveau en aantal jaren ervaring. (Hoe goed is onze voorspelling?)

²1sr = .173 = 17,3% van de verschillen in inkomen worden alleen verklaard door

verschillen in opleidingsniveau. Alle verklaringskracht van verschillen in inkomen, komt uit verschil in opleidingsniveau.

²2sr = .036 = 3,6% van de verschillen in inkomen worden alleen verklaard door

verschillen in het aantal jaren ervaring.

²1pr = .174 = 17,4% van de verschillen in inkomen die niet verklaard worden door de

verschillen in aantal jaren ervaring, worden verklaard door verschillen in opleidingsniveau.

Page 70: theorie studentencursus kwantitatieve analyse

70

²2pr = .042 = 4,2% van de verschillen in inkomen die niet verklaard worden door de

verschillen in opleidingsniveau, worden verklaard door verschillen in het aantal jaren ervaring.

B = de meervoudige gestandaardiseerde richtingscoëfficiënt. (= gestandaardiseerd b )

� Wat heeft nu het grootste effect op het inkomen?

2XB = .201

1XB = .440 = bij 1 standaardafwijking verschil op opleidingsniveau, verwachten we een

verschil van .440 standaardafwijking op inkomen.

Dit is een dubbel zo groot effect dan 2X

B !

In tegenstelling tot bivariate correlatie, zijn deze B ’s groter. (cf. tabel 3.9) .440 > .375

.201 > .059

Bij bivariaat gaan we het effect van X1 op Y na. Bij multivariaat gaan we X2 in rekening brengen, met als gevolg dat de ware aard van het effect van X1 op Y naar boven komt. Dus het effect bij multivariate is groter dan bij bivariaat = suppressie.

1Xb = 6.798 = bij een verschil van 1 jaar opleiding,verwachten we een verschil van 679$.

²R = SST

SSESST − =

1473832

12134331473832 − (waarbij 260398 = 14732832 – 1213433)

6,798 X1 = bij een verschil van 1 jaar opleiding, verwachten we een verschil van 680$

0,954 X2 = bij een verschil (tussen 2 mensen) bij 1 jaar ervaring, verwachten we een verschil van 95$.

Grafisch (multivariaat)

XX

XbXba YYYY

21

21.212.112.

954,0798,672,10

ˆ

++=

++=

Page 71: theorie studentencursus kwantitatieve analyse

71

c. Outliers

Bijvoorbeeld case 552 weglaten, dan zal b1 dalen met 0,092 (6,798 dalen).

Cook’s D = Cook’s Distance = de gemiddelde van de verschillen van de dfBeta’s.

b1 en b2 hebben een invloed op de richtingscoëfficiënt.

d. Uitbreiding naar meer predictoren

Een eenvoudige uitbreiding naar drie en meer onafhankelijke variabelen.

123.Ya = intercept

23.1Yb = netto-effect (rico) van X1 op Y, statistisch gecontroleerd voor X2 en X3 (constant)

)ˆ( 23.11∑ − XX )( YY − = de associatie van de geresidualiseerde X1 en Y

23.1X = de geresidualiseerde X1 variabelen

� In SPSS: meervoudige regressieanalyse met X1 als afhankelijke en X2 + X3 als

XbXbXba YYYYY

312.3213.2123.1123.ˆ +++=

XX

XbXba YYYY

21

21.212.112.

954,0798,672,10

ˆ

++=

++=

∑∑

−−=

)²(

)()(

ˆ

ˆ

23.11

23.11

23.1

XX

YYXXbY

Page 72: theorie studentencursus kwantitatieve analyse

72

onafhankelijke variabelen. Klik vervolgens op Save en op de residuelen.

Zo bekom je 23.1X , want deze functie bewaart de verwachte X1 waarden.

De idee van statistische controle blijft hetzelfde.

123.²YR = verschil tussen de totale variatie in Y (SST) – residuen (SSE)

totale variatie in Y (SST)

= verschil tussen totale verklaarde variatie – variatie die verklaard wordt indien X1 uit de analyse gehaald wordt.

= partiële determinatiecoëfficiënt

2. Types relaties tussen variabelen

a. Verhouding bi- en multivariatie coëfficiënten

De gestandaardiseerde partiële ≠ gestandaardiseerde bivariate parameters

Enkele mogelijkheden:

• ‘redundancy’ (redundantie) o B (in MVA) zelfde teken als r (in BVA) maar kleiner in absolute waarde

o de bivariate coëfficiënt is groter (>) dan de multivariate coëfficiënt

• ‘suppression’ (suppressie) o B zelfde teken als r maar groter in absolute waarde o B tegengesteld teken van r en kleiner/groter in absolute waarde o de bivariate coëfficiënt is kleiner (<) dan de multivariate coëfficiënt o het effect van X1 en X2 wordt onderdrukt o ook mogelijk negatief effect van X1 op Y

Voor een beter begrip:

= relatie tussen het bivariate effect van X1 op Y en multivariate component

∑∑

−−−=

)²(

)²()²( ˆ1232

123.

YYYYYY

RY

RRsr YY

2

23.

2

123.

2

1−=

RRRprY

YY

2

23.

2

23.

2

123.2

1 1−

−=

rrrr

BYY

Y 2

12

1221

2.11−

−=

Page 73: theorie studentencursus kwantitatieve analyse

73

b. Type 1 correlatie-patroon (3 varn.)

In dit type correlatie-patroon zijn alle correlaties positief of positief te maken. (a) type 1 correlatie-patroon = positieve correlatie tussen alle variabelen.

(c) correlatie-patroon is terug te voeren tot (a) door Y (de schaal) om te coderen, waardoor alles positief wordt. Idem met (b), hier gaan we gewoon X2 omcoderen.

Dat is nodig zodat 122rrY hetzelfde teken zal hebben als 1Yr .

Gemeenschappelijk:

• alle r’s positief te maken door omgekeerd coderen X’ = (Xmax + Xmin) - X

• 122rrY zelfde teken als 1Yr

• 121rrY zelfde teken als 2Yr

� de 2 delen van de teller hebben hetzelfde teken

X1

X2

Y ε

Dit is r (zonder X2)

vb: .03 zonder X2

In MVA (B)

Vb: X1 � Y = .05

We zien in ons voorbeeld suppressie: .03 < .05

Dus, met X2 erbij komt het effect van X1 op Y tot zijn volste recht.

rrrr

BYY

Y 2

12

1221

2.11−

−=

Page 74: theorie studentencursus kwantitatieve analyse

74

i. Redundantie

We hebben redundantie als:

| 1Yr | > | 122rrY | EN | 2Yr | > | 121rrY | (� 1Yr - 122rrY )

Indien het geldt voor X1, dan ook bij X2.

Indien X1 groter is in bivariate analyse, dan ook bij multivariate analyse.

1Yr = bivariate effect van X1 op Y, zonder controle op X2

2.1YB = multivariate effect van X1 op Y, statistisch gecontroleerd op X2

In voorbeeld: ( 1Yr ) .6 > ( 2.1YB ) .33

Of anders geformuleerd:

• deel van relatie X1-Y is redundant met deel van relatie X2-Y • gedeelde variatie tussen X1, X2 en Y • partiële relatie < zero-orde relatie (B, sr²) • c positief

• 1²sr + 2²sr ≤ ²R

Dit is het meest frequent voorkomende type van correlatie-patroon.

Bij multivariaat ga je het gedeelde stukje C eruit halen. De totaal verklaarde variatie is a + b + c. Dat kan kleiner zijn dan a + b, m.a.w. het kan zijn dat het stukje c negatief is!

ii. Suppressie

We hebben suppressie als:

• B tegengesteld teken van r

| 1Yr | < | 122rrY | of | 2Yr | < | 121rrY |

o maar (‘tegengestelde teken’ suppressie)

als | 1Yr | < | 122rrY | dan | 2Yr | > | 121rrY | en

als | 2Yr | < | 121rrY | dan | 1Yr | > | 122rrY |

(<= 12r voor zowel 2.1YB als 1.2YB )

Page 75: theorie studentencursus kwantitatieve analyse

75

• |B| groter dan |r| (‘gelijke teken’ suppressie)

| 2Yr | > | 121rrY | en (1- 12²r ) < teller

(voorbeeld: universiteit en loon, per publicatie en jaar ervaring)

In het bivariate geval ( r ) zien we een positief effect, terwijl we in het multivariate geval ( B ) een negatief effect waarnemen. Hieruit concluderen we dat de bivariate analyse foutief is. We bekomen hier dus andere conclusies in multivariate dan in bivariate analyse. De suppressie werkt in beide richtingen.

1Yr = bij 1 standaardafwijking verschil in jaren ervaring, verwachten we een verschil

van .3252 standaardafwijkingen verschil in loon.

2.1YB = -.8503 = hier is het omgekeerd

1.2YB = 1.4583

We bemerken bij 2.1YB en 1.2YB iets systematisch met het type 1 correlatie-patroon.

Er is suppressie: - tegengestelde teken suppressie bij 2.1YB

- gelijke teken suppressie bij 1.2YB

Page 76: theorie studentencursus kwantitatieve analyse

76

Grafisch suppressie

Bij bivariaat gaat het enkel om het positieve effect van X1 op Y. Bij multivariaat gaan we X2 erbij nemen en zien we een negatief effect X1 op Y.

Het totale effect (BVA) van X1 op Y (a+c) Het echte effect van X1 op Y is in feite negatief. Bij BVA zit er een stuk van het effect van X2 op Y, mee in het effect van X1 op Y. Dat effect is hier positief. Bij BVA wordt het negatieve effect onderdrukt.

MVA: Stukje C eruit en dus positief stuk valt weg, waardoor we enkel nog het negatief stuk overhouden. BVA: Bij X2 op Y heb je een positief effect. Het totale effect wordt onderdrukt door het negatieve stukje dat meekomt uit X1.

Dus we krijgen een onderdrukking van het totale effect door relatie met andere variabelen.

1²sr + 2²sr ≥ ²R (‘negatieve’ c) � BVA ≥ MVA

0,2534 + 0,7455 > 0,8513

X1

X2

Y ε -

+ (bivar.)

+

+

Effect op Y

X1

X2

- +

- +

Page 77: theorie studentencursus kwantitatieve analyse

77

c. Type 2 correlatie-patroon (3 varn.)

In dit type correlatie-patroon zijn alle correlaties negatief of negatief te maken. Hier gaan we de Y variabelen moeten omcoderen.

Gemeenschappelijk:

• alle r’s negatief te maken door omgekeerd coderen X’ = (Xmax + Xmin) - X

• 122rrY tegengesteld teken van 1Yr

• 121rrY tegengesteld teken van 2Yr

�2 delen van teller hebben tegengesteld teken

i. Suppressie

Hier hebben we steeds ‘gelijke teken’ suppressie: |B| > |r| (MVA coëf. > BVA coëf.) voor elke onafhankelijke variabele. We hebben in dit type correlatie-patroon geen redundantie.

� 1²sr + 2²sr ≥ ²R

rrrr

BYY

Y 2

12

1221

2.11−

−=

Page 78: theorie studentencursus kwantitatieve analyse

78

De bivariate coëfficiënt X1 = .38 (bij correlations = BVA) wordt onderdrukt door X2 = .059

Bij de MVA is het echte effect van X1 = .44 (B) en idem voor X2 = .20

Bij het type 2 correlatie-patroon hoort redundantie niet tot de mogelijkheid, we hebben steeds ‘gelijke teken’ suppressie.

d. Patroon voor meer dan 3 variabelen

Dit is té complex voor eenvoudige weergave

• bepaalde predictor kan redundant zijn met bepaalde andere predictoren en in suppressie met nog andere predictoren

Voorkomen redundantie/suppressie afhankelijk van aantal en sterkte redundante t.o.v. suppressieve relaties met andere predictoren.

Page 79: theorie studentencursus kwantitatieve analyse

79

C. Multiple regressie-analyse: Assumpties

1. Inleiding

Je afhankelijke variabele moet altijd metrisch zijn! We nemen steeds enkele assumpties aan, waaraan voldoen moet worden vooraleer je aan regressie analyse kan doen. Maar wat is het probleem als onze assumpties geschonden zijn? Toch voor a-symmetrische relaties.

a. Steekproevenverdeling van b (richtingscoëfficiënt)

Dit is de steekproefvariatie beschreven door een steekproevenverdeling. Van steekproef tot steekproef krijgen we een andere richtingscoëfficiënt, maar gemiddeld

genomen ligt deze dicht bij de populatiewaarde β [beta] = de richtingscoëfficiënt in de populatie.

Met de steekproevenverdeling willen we iets zeggen over de volledige populatie. Maar het gaat steeds over n (uw steekproefpopulatie, vb: n = 1000), hierna moeten we gaan zien of onze bevindingen statistisch significant zijn of niet zodanig dat we het kunnen doortrekken naar de gehele populatie.

In figuur 4.3 zien we dat bepaalde aantallen afwijken, we kennen de verwachting µ maar niet de standaardafwijking σ ?

Enkele assumpties:

• b is een zuivere schatter (unbiased estimate) van β

βµ =b

Page 80: theorie studentencursus kwantitatieve analyse

80

� bσ = de standaardafwijking van de steekproevenverdeling van de b

εσ = de standaardafwijking van de residuen in de populatie

xs = de standaardafwijking van X (waargenomen X)

ε = de populatie residuen [eta]

= de steekproevenverdeling is bij benadering normaal verdeeld

• Gauss-Markov theorema: OLS regressievergelijking geeft ‘Best Linear Unbiased Estimate’ van β: meest efficiënte schatter ⇐ minimale standaardfout

• (vertaald) OLS regressie = richtingscoëfficiënt in een steekproef is de best mogelijke lineaire, niet vertekende schatter van β; het is een techniek die ervoor zorgt dat we zo’n minimaal mogelijke afwijkingen hebben van de residuelen.

• maar: hiervoor assumpties aannemen over ε !

Onze grootste bekommernis met assumpties: Wat moet je doen na analyses?

1) residuen-analyse (Hebben we invloedrijke waarnemingen?) dfBeta’s of dergelijks. 2) Assumpties testen 3) Indien alle assumpties vervult zijn, kunnen we de resultaten gaan interpreteren.

b. t-test voor bivariate regressie

We gaan de verschillen (residuelen) in de steekproef gaan schatten. Doordat σ niet gekend is, gebruiken we s (standaardafwijking uit de steekproef). Dit levert een bijkomende onzekerheid waardoor we een t-verdeling moeten gebruiken.

Dus de ‘ware’ σ niet gekend � berekenen uit data.

We doen een t-test om de kans te bepalen dat steekproeffouten ervoor zorgen dat b ≠ β (hoeveel standaardafwijkingen is b verwijderd van β)

We gaan onze onzekerheid incalculeren door een t-verdeling te doen. Hierdoor wordt de staart(kans) dan ook groter, met als gevolg dat de overschrijdingskans ook groter wordt en het moeilijker wordt om Ho (nulhypothese) te verwerpen.

Dus over de residuen moeten we eerst een aantal assumpties gaan testen vooraleer we dit hard kunnen maken.

t -verdeling

⇐ geschatte i.p.v. ‘ware’ standaardfout, dit levert bijkomende onzekerheid

• grotere proportie > |2| dan N • benadert normaalverdeling bij grote n

nsXb

σσ ε=

Nb ~

nss

sX

YY

b

ˆ−=

Page 81: theorie studentencursus kwantitatieve analyse

81

0H : β = 0

• kans op type 1 fout (correcte nulhypothese verwerpen) • gebruikelijk α-niveau: 0,05 • two-tailed vs. one-tailed test

2. Assumpties

a. Assumptie 1: εεεε is niet gecorreleerd met X

Deze assumptie is niet iets empirisch, het is eerder iets conceptueel.

We veronderstellen geen correlatie tussen de onafhankelijke variabelen en de residuen. M.a.w. zoveel mogelijk van de invloeden op Y gaan we in ons model gaan opnemen. Dus uw model moet zo goed mogelijk zijn anders zijn de schattingen vertekend.

Indien wel εεεε wel gecorreleerd is met X:

• b vertekende schatter (verstrengeling of ‘spuriousness’) • of b = totaal (direct + indirect) effect

� hypothesetoetsing: - b vertekend ⇒ t vertekend (over/onderschat) - standaardafw. residuelen overschat � t vertekend (onderschat) - netto-effect: afhankelijk van verhouding vorige

Oplossing: modelconstructie (alle relevante X’en opgenomen) => je kan inzichten en andere onderzoeken gaan gebruiken, ook andere modellen overnemen.

X1

X2

Y ε

We veronderstellen geen correlatie tussen X1 en ε. Dus geen samenhang tussen het verklaarde deel

van Y en het niet verklaarde deel van Y.

SEss bbb

bbbt ==

−=

0

ss

sss YY

X

XYYb

nb

n

bbt

ˆˆ ˆˆ

)(

)/( −−

===

Page 82: theorie studentencursus kwantitatieve analyse

82

b. Assumptie 2: Homoscedasticiteit

Gelijke spreiding van de residuen voor de onafhankelijke variabelen. Gelijke spreiding van de X waarden op Y = voor elke onafhankelijke variabele moet er een gelijke spreiding zijn in de puntenwolk. = homoscedasticiteit ε vertoont zelfde variantie voor elke Xi (homoscedasticiteit) Indien niet: heteroscedasticiteit (var(ε) is gecorreleerd met X)

• geen probleem van vertekende schatter • wel van efficiëntie: over/onderschatten van standaardfout • Probleem in de mate waarin de standaardfout correct is • Probleem met significantietoetsen.

Met op dat bij heteroscedasticiteit er een positief, uitwaaiend patroon zichtbaar is. Heteroscedasticiteit levert problemen met significantietoetsen.

De gevolgen van heteroscedasticiteit:

• formule voor standaardfout b niet geldig • bS onderschat als positieve correlatie X en var(ε)

� t overschat � foutief verwerpen 0H (+omgekeerd)

of zelfs als correcte beslissing m.b.t. 0H : significantieniveau incorrect

Dus bij een positief heteroscedastisch patroon wordt bS onderschat (kleiner dan

bij een homoscedastisch patroon)

bS onderschat ==> t-score delen door de standaardfout, deze is dan te klein

==> t-score is groter dan normaal (bij homoscedasticiteit)

• als correctie: b niet meest efficiënte schatter van β � bS overschat � t onderschat

� niet verwerpen 0H die wel verworpen zou worden met meer efficiënte

schattingsmethode

sb

bt =

Page 83: theorie studentencursus kwantitatieve analyse

83

t-score in steekproevenverdeling en overschrijdingskans berekenen. (normaal). Maar bij heteroscedasticiteit krijgen we een overschatting van de t-score, dus bevinden we ons meer naar rechts in de

steekproevenverdeling, waardoor het gemakkelijker wordt om 0H te

verwerpen.

Detectie: plot X tegenover e

• zero-orde en conditioneel (op X) gemiddelde van e =0 • checken of spreiding e constant over X • alternatief |e| of e²: checken of gemiddelde |e| of e² varieert met X

• multiple regressie: o plot tegenover verwachte Y voor algemeen idee o plot tegenover geresidualiseerde X om probleemX te identificeren (bvb. X1 - X1.23)

Voorbeeld 1: aantal broers/zussen � vruchtbaarheid

sb

bt =

Page 84: theorie studentencursus kwantitatieve analyse

84

Voorbeeld 2: EARNING = EDUC + EXPER

Deze puntenwolk lijkt een uitwaaiend patroon te hebben. Het is misschien heteroscedastisch, maar het is niet zeker. Tip: Kijk naar patroon, met flagrante patronen moet je rekening houden.

Relatie van verwachte waarde op Y

en (ruwe) residuen ( YYiˆ− )

� normaal mogen we hier geen patroon in zien!

Predicted Earnings = Y

Oplossing: de residuen kwadrateren om een beter zicht te krijgen. (Squared residuals)

Page 85: theorie studentencursus kwantitatieve analyse

85

Bij de bovenste (b) zien we wel een heteroscedastisch patroon. Door het kwadrateren worden de residuen groter. Maar de vraag is nu echter, aan wat ligt het nu?

Bij de onderste (a) zetten we de residuen af tegen de geresidualiseerde variabelen. Dus de residuen plotten tegen de geresidualiseerde onafhankelijke variabele.

We merken op dat de heteroscedasticiteit voornamelijk zit bij opleiding (education).

Bij heteroscedasticiteit: OLS-schatters niet langer meest efficiënte schatters (laagste standaardfout)

� remediëring: Weighted Least Squares (WLS)

• WLS: minimaliseren SSE*

• OLS: wi = 1 • bij heteroscedasticiteit: laag gewicht aan cases met grote foutenvariantie

Dit is een uitbreiding van de OLS, bij OLS is het gewicht steeds 1. Bijvoorbeeld:

Aantal kinderen per vrouw, + leeftijd en SES We veronderstellen:

Jonge leeftijd = niet veel kinderen, weinig variatie

Oudere leeftijd = veel kinderen, veel variatie

� heteroscedasticiteit

Oplossing = WLS, idem als bij gewone regressieanalyse, maar hier gaan we elk residu gaan wegen. Dus grote residuen, krijgen een kleiner gewicht. En lage residuen, krijgen een groter gewicht.

c. Assumptie 3: εεεεi’s zijn onafhankelijk

De residuelen zijn onafhankelijk van elkaar, m.a.w. de puntjes in de puntenwolk zijn onafhankelijk van elkaar. Maar soms is dat niet zo. Bijvoorbeeld leerlingen uit dezelfde school lijken heel sterk op elkaar (SES, regio,…) dan lukraak verschillende leerlingen uit verschillende scholen (meer diversiteit). Hierdoor zijn de residuelen van de leerlingen uit dezelfde school, gecorreleerd met elkaar.

Indien iε ’s niet onafhankelijk zijn, krijgen we autocorrelatie. (vaak door nabijheid cases in tijd, ruimte of sociaal)

Doordat de iε ’s niet onafhankelijk zijn van elkaar, krijgen we een onder/overschatting van de standaardfout. (meestal: onderschatten: gelijkaardigheid)

∑ −−∑ − == )()ˆ( **22*

XbaYwYYwSSE iiii ii

XbaY **ˆ +=

Page 86: theorie studentencursus kwantitatieve analyse

86

Wat zijn de gevolgen van autocorrelatie?

• formule voor standaardfout b niet geldig • bS onderschat als positieve autocorrelatie (gelijkenis)

� t overschat � foutief verwerpen 0H (+omgekeerd)

of zelfs als correcte beslissing m.b.t. 0H : significantieniveau incorrect

• als correctie: b niet meest efficiënte schatter van β � bS overschat � t onderschat

� niet verwerpen 0H die wel verworpen zou worden met meer efficiënte

schattingsmethode

Detectie van autocorrelatie via de Durbin-Watson test [0,4]

De Durbin-Watson test levert een score tussen de 0 en de 4, waarbij 2 staat voor geen probleem. Dus 2 vertelt ons dat we voldoen aan de assumptie dat er geen correlatie is tussen de residuelen. In SPSS doen we dit via regression -> lineair -> statistics -> Colline diagn. De score vindt men terug in de model summary. Een oplossing voor de autocorrelatie is multi-level analye.

We gaan hierbij gaan kijken welke invloed verschillende niveaus hebben op de afhankelijke variabelen, dit niveau per niveau. Bijvoorbeeld niveau 1 zijn de leerlingen, niveau 2 is de klasse en niveau 3 is de school.

d. Assumptie 4: εεεε is normaal verdeeld

We veronderstellen dat de residuelen normaal verdeeld zijn. Indien dit niet zo gaan we een probleem krijgen met de t-toets, waarbij we nagaan of

0H we kunnen verwerpen.

• b/ bS niet verdeeld als t � foutief significantieniveau

o foutief verwerpen 0H of foutief niet-verwerpen 0H

o enkel problematisch bij kleine steekproeven • mogelijk dat b niet meest efficiënte schatting

Detectie:

Via een histogram van de residuelen of via een normal probability plot waarbij alle puntjes op één lijn moeten liggen.

sb

bt =

Page 87: theorie studentencursus kwantitatieve analyse

87

e. Assumptie 5: Lineariteit

Dit is een geval apart. We veronderstellen steeds dat de effecten op de onafhankelijke variabelen perfect lineair zijn. Maar lineariteit is niet altijd het geval (bijvoorbeeld non-lineariteit).

Er is dan wel een effect maar het is geen lineair effect. Wij gaan niet-lineaire effecten nagaan door transformatie.

Meervoudig lineair regressiemodel: additief: effect X op Y gelijk voor elke Xi = conditioneel gemiddelde = voor elke Xi (partieel) = e = 0

maar: niet lineaire effecten mogelijk

Hier zie je dat de regressielijn door het midden gaat (Y indien X=1, X=2, …)

Het is een lijn die de gemiddelde verbindt. Het is echter te complex om in de praktijk de conditionele gemiddelden te gaan berekenen.

In de praktijk gaan we gebruik maken van residuelen-plots.

Dat is OK voor detectie non-lineariteit, maar moeilijk/onmogelijk om het type non-lineariteit vast te stellen.

Page 88: theorie studentencursus kwantitatieve analyse

88

We gaan na of er een patroon in de plots zit. 1) zitten er invloedrijke waarnemingen in? 2) wat is het patroon?

(a) lage X = lage Y midden X = midden Y hoge X = lage Y

(b) puntenwolk stijgt in verschillende maten, afvlakkend effect bij hoge X.

Dit zijn de residuen-analyses. Merk op dat (a) en (b) hetzelfde zijn. Er is hier geen verschil.

Een gewone residuelenplot laat niet toe (a) en (b) te analyseren, dus gaan we een andere residuelen plot moeten gebruiken. Namelijk de partial-residual plots.

Hierbij gaan we voor elke residu het effect van X op Y erbij gaan tellen. (! De geresidualiseerde variabele erbij tellen)

Partiële residueel voor Xj

Vaak is het nuttig om een Lowess-schatting toe te voegen. Lowess-schatting = locally weighted scatterplot smoother

Lowess-schatting in SPSS:

Via regression -> lineair -> plots -> res.anal. (+ histogram)

In de output gaan we dan de partiële residuelen plot zien. We kunnen vervolgens onze assumpties gaan testen: is het heteroscedastisch? Is er non-lineariteit? Wanneer je dubbelklikt op de plot kun je in het venster klikken op elements -> fit line at total. In het properties venster kun je dan de fit method veranderen van lineair (lineaire regressie rechte) naar Loess (Lowess-schatting). Klik vervolgens op aplly.

XBEE ijji

j

i+=

)(

Page 89: theorie studentencursus kwantitatieve analyse

89

Tevens kun je bij % of points to fit invullen hoeveel analyses er uitgevoerd moeten worden. Hoe kleiner het getal, hoe regressie-analyses er uitgevoerd worden.

De rechte lijn in (a) en (b) is de OLS regressie rechte. De kromme, gebogen lijn in (a) en (b) is de Lowess-schatting. Bij de Lowess-schatting gaat we binnen een puntenwolk verschillende regressie-analyses uitvoeren. Al die verschillende analyses gaan overlappen en de verschillende lijntjes worden dan met elkaar verbonden. Via een smoothing gaan ze de gebroken lijntjes samenbrengen. De Lowess-schatting is nooit een perfect rechte lijn. Wanneer de Lowess-schatting zo goed als recht ligt, gaan we er vanuit dat het lineair is.

In plot (b) lijkt de Lowess-schatting op een non-lineair verband met een afvlakkend effect. Maar in welke mate komt dat door invloedrijke waarnemen, die zich rechts bevinden? Wat kunnen we doen aan het niet-lineair patroon?

Remediëring afhankelijk van type non-lineariteit:

• monotone non-lineariteit: transformatie X (of Y) (machts- of log-transformaties)

A B

Page 90: theorie studentencursus kwantitatieve analyse

90

We gaan op onze onafhankelijke variabele die een niet-lineair verband vertoont met de afhankelijke variabele, een transformatie doen. We doen dit als trucje om toch een lineaire regressieanalyse te doen, maar dan wel met een getransformeerde onafhankelijke variabele. In plot A is de lijn Y=f(X) de samenvatting van de puntenwolk. De lijn Y=f(X’) is de getransformeerde lijn. We veranderen X naar X’ door deze tot bijvoorbeeld de derde macht te verheffen. Het gaat hem dan om de relatie van X’ en Y in plaats van de relatie X en Y, zodanig krijgen we een perfect lineair verloop. Let echter wel op bij de interpretatie van de lijn. Het is niet langer 1 verschil op X, maar het is 1 verschil op X².

Plot B is een sjabloon om te zien hoe onze puntenwolk verdeeld is. We leggen dat sjabloon op onze puntenwolk en we kunnen dan aflezen tot welke macht we X moeten verheffen om tot een perfect lineair verband te kunnen komen. Bijvoorbeeld 3 staat voor X³, 2 staat vor X² en 0,-1 en -2 staan voor logtransformaties. We stellen ons dus de eerst de vraag welke vorm onze puntenwolk volgt. Bijvoorbeeld lijn 3. Vervolgens kunnen we een transformatie uitvoeren van X door X te verheffen in ons voorbeeld tot de derde macht, dus X³. Hierna kunnen we onze regressielijn tekenen.

• niet-monotone non-lineariteit: polynomialen Indien onze rechte niet monotoon stijgt, spreken we van polynomialen.

We nemen X en X² op en krijgen zo een buigpunt. Bijvoorbeeld: + 2X – X² = negatief verband

- 2X + X² = positief verband

X² is een getransformeerde X [in SPSS: compute -> new]

Twee buigpunten is een polynomiaal van de derde orde. + 2X – X² + .1X³

De regressieschatting geeft dan de invulling. Gelukkig komt dit niet zo vaak voor in de praktijk.

XbXbXbXbXbk

kaY ++++++= ...

4

4

3

3

2

21

Page 91: theorie studentencursus kwantitatieve analyse

91

f. Assumptie 6: Afwezigheid multicollineariteit

De mate van overlapping in variantie van de onafhankelijke variabelen mag niet té groot zijn. M.a.w. de samenhang tussen de onafhankelijke variabelen mag niet zo groot zijn.

De overlapping in de variatie van de onafhankelijk = C eruit, dit geeft ons de netto-schattingen.

= de standaardafwijking van de richtingscoëfficiënt van de steekproevenverdeling (b1)

12ˆ

ˆYY

S−= de standaardafwijking

12²1 r− = 1 – de samenhang tussen de 2 onafhankelijke variabelen

Naarmate ²r toeneemt, neemt bxs toe.

Dus naarmate ²r toeneemt (multicollineariteit), neemt t af � naarmate onafhankelijke variabelen sterker gecorreleerd, moeilijker om effect van elk betrouwbaar van elkaar te scheiden.

Hoge correlatie = klein resultaat � grote 1bs

Hoe groter samenhang tussen onafhankelijke. � grote 1bs

1bs gebruiken voor de t-toets. Maar indien 1bs groot is dan wordt t klein.

Dus je kan een vertekening krijgen van de t-toets.

Dit heeft als implicatie dat de overschrijdingskans té groot is, waardoor 0H moeilijker te

verwerpen is.

Maar hoe groot is nu die impact?

Voor 3 of meer onafhankelijke variabelen:

R²i: gekwadrateerde meervoudige correlatiecoëfficiënt van Xi (tss. alle onafh. var.) met alle andere Xk Hoge R²i: hoge multicollineariteit � grote standaardfout

rs

ss

n

YY

b 2

121

1

1

ˆˆ12

−=

rs

ss

n

YY

b 2

122

2

1

ˆˆ12

−=

sb

tb1

1

1=

Rs

ss

ii

Y

bi

n

Y k

21

ˆˆ...12

−=

VIFs

s

Rs

ss i

i

Y

ii

Y

bin

Y

n

Y kk

ˆˆ ˆ

1

1ˆ...12...12

2

−−=

−=

Page 92: theorie studentencursus kwantitatieve analyse

92

iVIF = Variance Inflation Factor, geeft aan in welke mate de t-toets beïnvloedt wordt

door een té grote samenhang tussen de onafhankelijke variabelen. Dus geeft aan in welke mate er een verschil is.

Een hogere iR geeft ons een hogere iVIF .

Vooral bij hoge waarde van de (meerv.) correlatiecoëfficiënt.

Bijvoorbeeld de geschatte standaardfout is 1,67 keer groter bij een iR van .80

We hebben pas een probleem bij een iR van .90 en hoger, dan bevinden we ons in de

problemenzone.

In SPSS: Regression -> Lineair -> statistics -> collineairty diagnostics

Bij de iVIF moet er nog een vierkantswortel van getrokken worden om een beter zicht te

krijgen.

Xi met hoogste multicollineariteit: grootste standaardfout en minst statistisch significant

Oplossing:

• selectie: Het geeft aan dat het bijna onmogelijk is om twee onafhankelijke variabelen lost te trekken zijn (grote iR en iVIF ). Je bent tweemaal hetzelfde aan

het meten, dus moet je een keuze maken welke variabele je gaat nemen. • datareductie technieken: Er worden latente dimensies uitgeschakeld (factoranalyse), omdat de correlatie tussen dimensies tot een minimum wordt gereduceerd.

3. Voorbeeld: 1986 Akron Area Survey (n=513)

• Y: anomie [4,16] (ANOMIA) • X1: jaren opleiding gevolgd (EDUC) • X2: gezinsinkomen (INCOME) • X3: subj. tekort aan geld (SHORTINC) (neg) • X4: subj. tevredenheid levensstand. (SATINC) • X5: subj. beloning levensstand. (REWRDINC) • in welke mate wordt anomie bepaald door subjectieve of objectieve oorzaken van aliënatie ?

Page 93: theorie studentencursus kwantitatieve analyse

93

We hebben hier 2 sets van variabelen. 1) Objectieve variabelen X1, X2 en X3

2) Subjectieve variabelen X4 en X5

De vraag is niet of alle richtingscoëfficiënten statistisch significant zijn. De vraag is wél indien we alle objectieve variabelen in rekening brengen, het dan zo is dat de subjectieve variabelen nog iets bijdragen?

Y = a + b1 X1 + b2 X2 + b3 X3 + e

� .1102 = 11,02 % wordt verklaard door de objectieve set variabelen. (zonder subj. var.)

Page 94: theorie studentencursus kwantitatieve analyse

94

Y = a + b1 X1 + b2 X2 + b3 X3 + b4 X4 + b5 X5 + e

� .1106 = 11,06 % wordt verklaard door de objectieve én de subjectieve set variabelen.

.1102 (enkel obj.) -> .1106 (obj. + subj.)

Subjectieve kenmerken voegen weinig additief toe. De anomie wordt voornamelijk verklaard door de objectieve indicatoren.

4. F-tests

We trachten zoveel mogelijk variatie in de afhankelijke variabele te verklaren.

Dus zorgen we ervoor dat we zoveel mogelijk onafhankelijke variabelen hebben die de variatie kunnen verklaren. Je begint met 2 onafhankelijke variabelen en je voegt er steeds meer aan toe. Je begint dus met 1 set van onafhankelijke variabelen om daarna een 2de set van onafhankelijke variabelen eraan toe te voegen.

Vervolgens stellen we ons de vraag of de verandering in R² statistisch significant genoeg is om te kunnen spreken van een kwalitatieve toename (bij een toename van onafhankelijke variabelen).

We hebben een familie van testen voor:

• test van b • gecombineerd effect alle Xi (test van R²) • gecombineerd effect subset Xi’s

1

X)/allevoorR²(1

X)]/gehoudenconstantallevoor(R²X)allevoor[(R²F

2

1

2

1

dfdf

−−=

=

−=

kn

wordtgetestdatXaantal

df

df

Page 95: theorie studentencursus kwantitatieve analyse

95

De essentie is de vergelijking van R². Het is mogelijk voor verschillende elementen. Hier: 2 of 3 onafhankelijke variabelen in model (variabelen samennemen)

Bij partiële of semi-partiële R²: 1 onafhankelijke variabele (variabele per variabele) => beschrijvende statistiek

a. F voor b

t-test is bijzonder ding van de F-test. t-test, test per richtingscoëfficiënt. t-test is in feite F-test in geval we 1 rico beschouwen. F-test, test voor alle richtingscoëfficiënten (neemt de rico’s samen).

H0: ββββ1=0

b. F voor R²

• 0H : R²=0

dus: β1 = β2 = β3 = 0 • mogelijke inconsistenties met individuele F/t

o meervoudige F statistisch significant maar individuele F/t niet (o.a. bij hoge correlatie tussen onafhankelijke variabelen)

o meervoudige F niet statistisch significant maar individuele F/t wel: element van discussie

� resultaten niet gebruiken (louter toeval) � resultaten wel gebruiken

)13/()1(

1/)(2

123.

2

23.

2

123.

1 −−−

−=

nRRR

FY

YY

tF2

11=

)13/()1(

3/2

123.

2

123.

−−−=

nRR

FY

Y

Page 96: theorie studentencursus kwantitatieve analyse

96

c. F voor subsets van X

• 0H : β1 = β2 = 0

• geval van multicollineariteit

• Bijvoorbeeld: 3 indicatoren van subjectief inkomen o F voor deze subset niet statistisch significant + SHORTINC niet statistisch significant effect na controle andere ⇒ geen statistisch significant effect van subjectief inkomen

)13/()1(

2/)(2

123.

2

3.

2

123.

1 −−−

−=

nRrR

FY

YY

Page 97: theorie studentencursus kwantitatieve analyse

97

D. Multiple regressie-analyse: Dummy codering en interactie-effecten

1. Nominale onafhankelijke variabelen

We kunnen niet steeds de onafhankelijke variabelen metrisch gaan operationaliseren, maar je kan wel categorische kenmerken transformeren naar metrische kenmerken. Nominale (of ordinale) variabelen zijn vaak zinvolle verklarende variabelen. Maar hoe gaan we deze opnemen?

Via dummy codering of effect-codering (of ...)

De interpretatie van het effect: verschil in Y statistische significantie (ANOVA):

o t-test voor verschil in gemiddelden o F-test voor verschil in gemiddelden

Dus we voeren een ANOVA uit (of t-test) Bijvoorbeeld de gemiddelde etnocentrismescore voor mannen en vrouwen en we gaan deze gaan vergelijken door middel van een variantie-analyse.

Via ANOVA -> 1way krijgen we 1 onafhankelijke variabele. (analoge berekening)

Eigenlijk specifiek geval van regressie-analyse met interval-variabelen: ook test van verschil in gemiddelden.

A B

Page 98: theorie studentencursus kwantitatieve analyse

98

Bij plot A gaat de regressielijn door het midden van de conditionele verdeling. Deze plots is een uitbreiding op het klassieke lineaire regressie-analyse model. In plot B staat A voor de vrouwen en B voor de mannen. Bij deze categorische verdeling hebben elk van de twee groepen een conditionele verdeling en we kunnen daarvan de gemiddelden van verbinden met een regressielijn. We berekenen dus de richtingscoëfficiënt die door deze twee groepsgemiddelden gaat.

= verschil van het gemiddelde van Y van groep B en A

verschil van groep B en A

Het probleem is echter er geen gelijke afstanden zijn tussen groep A en B aangezien ze beiden categorische variabelen zijn. Dus moeten we aan groep A een waarde 0 geven en aan groep B een waarde 1, dit is dummy codering.

a. Dummy codering dichotome (2 cat.) var n

Welke numerieke scores gaan we toekennen aan de categorieën van de nominale onafhankelijke variabele?

o 0 aan de ene categorie o 1 aan de andere categorie

We doen dit voor de interpreteerbaarheid van de parameters.

Bij dummy codering nemen we de ene groep als referentiegroep en vergelijken we de andere groep daarmee.

Bijvoorbeeld: tevredenheid met leven vergeleken tussen blank en zwart.

Verschil in groepsgemiddelden (5,5 vs. 4,76), dit gaan we vertalen in een regressie vergelijking door de formule toe te passen. De groep blanken geven we de code 0 en de groep zwarten geven we de code 1.

Dus de richtingscoëfficiënt YXb is het verschil in groepsgemiddelden.

De zwarten scoren 0,75 punten lager dan de blanken.

Het intercept is het gemiddelde Y voor de referentiegroep (= blanken).

XXYY

bAB

AB

YX −

−=

7549,001

5168,57619,4−=

−−

=−

−=

XXYY

bAB

AB

YX

XY 7549,05168,5ˆ −=

Page 99: theorie studentencursus kwantitatieve analyse

99

5,51 is het gemiddelde voor de referentiegroep = blanken.

Y = gemiddelde Y voor de referentiegroep – afwijken andere groep t.o.v. ref.groep

• positief: Y groter voor X=1 dan voor X=0 (+omgekeerd) • grootte: grootte van verschil in Y (in feite zelfde interpretatie als bij interval variebelen)

• intercept: Y voor X=0 b = verschil 1 eenheid op X = verschil groep A t.o.v. groep B ! code-keuze is een artificiële keuze, positief en negatief niet meer interpreteren op de klassieke manier. Je kan bijvoorbeeld niet stellen dat blanken superieur zijn aan zwarten.

Regressievergelijking

0 = blank; 1 = zwart.

Parameters voor inductieve statistiek = interval onafhankelijke variabelen

b. Dummy codering polytome (meerdere cat.) var n

Dezelfde logica als voor dichotome variabelen:

• kiezen referentiecategorie • dummy voor elke andere categorie (niet 1 dummy voor alle andere categorieën)

Het is veiliger om de grootste groep als referentiegroep te nemen. In dit voorbeeld heb je 4 categorieën. De gehuwden zijn het meest gelukkig (5,68) en de gescheiden personen zijn het minst gelukkig (4,9).

Page 100: theorie studentencursus kwantitatieve analyse

100

1 dummy voor alle categorieën - 1 (1 categorie 0 voor alle cases: referentiecategorie)

• keuze van referentiecategorie: o inhoudelijk/substantieve overwegingen o relatieve frequenties

In het voorbeeld heb je meerdere dummy’s. Je hebt evenveel dummy’s nodig als categorieën – 1. Bijvoorbeeld 4 categorieën levert 3 dummy’s. In ons voorbeeld hebben we 3 nieuwe dummy’s met gehuwden als referentiegroep.

Interpretatie:

5,68 = gemiddelde van de gehuwden (indien de rest = 0)

- 0,78; - 0,25; - 0,52 = de afwijkingen van de andere categorieën t.o.v. de ref.groep.

R Square = .04260 = 5% wordt verklaard door huwelijksverschillen (verklaarde variantie)

Variables in the equation = de variantieanalyse

Enkel bij widowed kunnen we de 0H niet verwerpen (Sig T = .1808)

NEVERWIDOWEDDIVORCEDaY bbb 321ˆ +++=

NEVERWIDOWEDDIVORCEDY 52,025,078,068,5ˆ −−−=

Page 101: theorie studentencursus kwantitatieve analyse

101

In SPSS: Bivariate verschil mannen en vrouwen op basis van etnocentrisme.

Analyse -> compare means

Voorbeeld: geslacht: 1 = man -> 10,03

2 = vrouw -> 10,02

Wordt verschil bijvoorbeeld bepaald door opleidingsniveau? (Suppressie of redundantie?)

NIET: via lineair regression (factor = geslacht) � niet gecodeerd!

WEL: compute -> geslacht

If (v3=1) geslacht=0

If (v3=2) geslacht=1

V3 = geslachtsvariabele

Nadat we deze nieuwe variabele hebben kunnen we lineaire regressie toepassen met de nieuwe variabele als onafhankelijke variabele.

Dummies + andere X: andere interpretatie a en b

R Square = verklaarde variantie is ook mogelijk

Het is weliswaar moeilijker met een bijkomende variabele.

-.35; -.47; -.75 zijn de partiële B’s. 5.18099 = intercept = verwachte waarde op Y als alle andere variabelen gelijk zijn aan 0.

Gemiddelde X is statistisch gecontroleerd op leeftijd => geen brutto-effecten meer.

Page 102: theorie studentencursus kwantitatieve analyse

102

c. Effect-codering

Wat te doen als we niet weten wie we als referentiegroep gaan nemen?

Bij effect-codering gaan we gaan vergelijken t.o.v. het algemene gemiddelde, terwijl we bij dummy codering groepen gaan vergelijken t.o.v. referentiegroep. Effect-codering wordt gebruikt indien de keuze van de referentiecategorie problematisch is of een andersoortige interpretatie meer geschikt lijkt. De referentiegroep geven we code -1 mee en valt dus in feite weg uit onze berekeningen, hierdoor verliezen we echter informatie.

Dummy codering is weliswaar veel efficiënter. De groep die we als -1 gaan nemen maakt niet uit.

Wijziging betekenis regressiecoëfficiënten.

Y = het algemeen gemiddelde

a = 5,30 = gemiddelde over de 4 groepen heen.

gYa

YYY g+++

==...

21

YYb ii−=

NEVERWIDOWEDDIVORCEDY 14,014,039,030,5ˆ −+−=

Page 103: theorie studentencursus kwantitatieve analyse

103

2. Modelleren interactie-effecten

Effect van een bepaalde variabele op de relatie tussen de andere onafhankelijke variabele op de onafhankelijke variabele.

Indien we geen interactie-effecten hebben, hebben we twee groepen.

Tot nog toe: enkel additieve effecten

Hier: multiplicatieve effecten

Betekenis additief (Y=WORDSUM)

WY = regressierechte voor de blanken

BY = regressierechte voor de zwarten

Indien er geen interactie-effect zou de plot er zo uitzien. Zwart of blank levert additioneel iets toe, maar geen effect op opleidingsniveau en vocabularium.

1,076X1 (want 1 is blank)

RACEEDUCY 076,1381,0454,0ˆ ++=

Page 104: theorie studentencursus kwantitatieve analyse

104

a. Interactie interval X – nominaal X

� We nemen onafhankelijke X1 en X2 op + de productterm van X1 X2 (interactievar.) [compute -> interaction educ x race]

Schatting: X3 = X1 * X2 (+ opnemen X1 en X2)

Meerdere dummies:

Wat is interactievariabele? Heeft ras een effect of heeft education een effect? Hier in ons voorbeeld is ras de interactievariabele. Effect X2 (ras) beschouwen we op zich.

Interpretatie:

WY = white en BY = black � interactie-

effect.

Grootte van het effect X op Y is afhankelijk van ras.

0,19 � verschil in steilheid.

0.989 = zuiverste verschil

RACEDUC = nieuwe varibele ! Ook voor 2 metrische.

XXbXbXbaY2132211

ˆ +++=

XbXXbbaY221231

)(ˆ +++=

XbXXbbaY112132

)(ˆ +++=

XDbXDbDbDbXbaY125114231211

ˆ +++++=

XbXXbbaY221231

)(ˆ +++=

XXXY212

989,0)192,0213,0(226,2ˆ −++=

X

XY B

1

1

213,0226,2

0*989,0)0*192,0213,0(226,2ˆ

+=

−++=

Page 105: theorie studentencursus kwantitatieve analyse

105

b. Interactie interval X – interval X

(Ook voor 2 metrische variabelen). Dezelfde logica als interval X - nominaal X

Voorbeeld 1: Wordt het effect van opleiding sterker of zwakker naarmate we kijken op hogere leeftijd?

Effect X2 wordt groter bij hogere X1 waarden

(+ omgekeerd)

Voorbeeld 2:

Negatieve interactievorm

AGEEDUCAGEEDUCY *002,002,005,02ˆ +++=

AGEEDUCAGEEDUCY *05,006,036,02ˆ −++=

Page 106: theorie studentencursus kwantitatieve analyse

106

c. Hogere complexiteit

Alle mogelijke interactie-effecten met 3 X.

In SPSS:

Compute interactie = geslacht x ondjren.

Compute interactie 2 = ondjren X lft.

� toevoegen in lineaire regressie (indep.) Output; coëfficients.

XXXb

XXbXXbXXb

XbXbXbaY

3217

326315214

332211ˆ

+

+++

+++=