Hoofdstuk 2

66
Hoofdstuk 2 Kijken naar gegevens : relaties

description

Hoofdstuk 2. Kijken naar gegevens : relaties. Hoofdstuk 1 : 1 variabele Hoofdstuk 2 : relaties tussen verschillende variabelen In gegevensverzameling : meerdere variabelen per geval Geval : individuele persoon individueel dier individueel ding waarvoor variabelen. - PowerPoint PPT Presentation

Transcript of Hoofdstuk 2

Page 1: Hoofdstuk 2

Hoofdstuk 2

Kijken naar

gegevens : relaties

Kijken naar

gegevens : relaties

Page 2: Hoofdstuk 2

• Hoofdstuk 1 : 1 variabele • Hoofdstuk 2 : relaties tussen verschillende

variabelen

• In gegevensverzameling : meerdere variabelen per geval

• Geval : individuele persoon

individueel dier

individueel ding waarvoor variabelen

Page 3: Hoofdstuk 2

Num Leeftijd Sexe Score

1 25 1 63

2 28 1 54

3 26 2 70

Page 4: Hoofdstuk 2

• Kwantitatieve of kwalitatieve variabelen– kwantitatief : numeriek (gemid. en stand.afw.)– kwalitatief : klasse, categorie

• Bij meerdere variabelen vaak kwantitatief en kwalitatief samen aanwezig

• Relatie tussen twee variabelen– gewoon relatie– ene heeft invloed op de andere

Page 5: Hoofdstuk 2

• Invloed van ene variabele

= de verklarende variabele

OF

de onafhankelijke variabele

op de andere variabele

= de te verklaren variabele

OF

de afhankelijke variabele

Page 6: Hoofdstuk 2

2.1. Spreidingsdiagrammen

• Doel : relatie tussen 2 kwantitatieve variabelen bij zelfde individu grafisch weergeven

• Voorbeeld : punten van Tom 2de jaar 3de jaar

taal 7 7.5rekenen 9 8.5WO 8 8LO 8.5 8Tekenen 6.5 6Muziek 7.5 7

Page 7: Hoofdstuk 2

TWEEDE

9,59,08,58,07,57,06,56,0

DE

RD

E

9,0

8,5

8,0

7,5

7,0

6,5

6,0

5,5

Page 8: Hoofdstuk 2

A. Spreidingsdiagrammen interpreteren

• Zoeken naar een globaal patroon

• Meest voorkomende : LINEAIRE relatie :

= de vorm van een rechte lijn

• RICHTING : Positieve samenhang : – boven gemidd voor A, ook boven gemidd voor B– onder gemidd voor A, ook onder gemidd voor B– OF : HOE MEER HOE MEER

Page 9: Hoofdstuk 2

• RICHTING : Negatieve samenhang :– boven gemidd voor A, onder gemidd voor B en

omgekeerd– OF : HOE MEER HOE MINDER

• VORM : Lineair of niet lineair – Relatie niet altijd lineair

• STERKTE van verband : hoe meer op een rechte lijn hoe sterker

Page 10: Hoofdstuk 2

B. Kwalitatieve verklarende variabelen

• Kwalitatieve variabelen kunnen – ook grafisch in spreidingsdiagrammen

• > de kwalitatieve variabele op de x-as

– of met zij-aan-zij doosdiagramman

• Voorbeeld : geslacht en score op een test

Page 11: Hoofdstuk 2

GESLACHT

2,22,01,81,61,41,21,0,8

SC

OR

E1

17

16

15

14

13

12

11

Page 12: Hoofdstuk 2

55N =

GESLACHT

2,001,00

SC

OR

E1

17

16

15

14

13

12

11

10

Page 13: Hoofdstuk 2

• Soms wel een ordening : opleiding & inkomen

444N =

OPLEID

3,002,001,00

INK

OM

EN

1600

1400

1200

1000

800

600

Page 14: Hoofdstuk 2

2.2. Correlatie

• Sterke lineaire relatie als de punten dicht bij een rechte lijn liggen

• Zwakke relatie als de punten verspreidt liggen

• Maar dit niet enkel op het zicht interpreteren : een numerieke maat nodig die de sterkte aanduidt

Page 15: Hoofdstuk 2

A. De correlatie r

• Correlatiecoëfficiënt : meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen

• Correlatie : enkel betrekking op LINEAIRE relatie tussen KWANTITATIEVE variabelen

Page 16: Hoofdstuk 2

• Correlatiecoëfficiënt r

r = 1/ (n-1) x – x y – y

s x s y

• Samenhang tussen x en y : als zowel x als y onder gemiddelde of beide boven gemiddelde zal r hierboven groter worden

Page 17: Hoofdstuk 2

•Als x en y tegengestelde tekens hebben, zal de correlatie negatief zijn

•In de formule wordt gebruik gemaakt van gestandaardiseerde afwijkingen

(x - gem x)/sx . DUS wijziging in meeteenheid heeft geen invloed op r.

•Formule van r niet kennen wel computeroutput

Page 18: Hoofdstuk 2

B. Eigenschappen van correlatie• Geen x en y bij correlatie, geen afhankelijke

en onafhankelijke variabele• Moeten twee kwantitatieve variabelen zijn• r verandert niet als de meeteenheid van x, y

of beide verandert• Een positieve r wijst op een positieve

samenhang, een negatieve r op een negatieve samenhang

• r ligt tussen -1 en +1, positieve en negatieve samenhang

Page 19: Hoofdstuk 2

• Naarmate r dichter naar -1 of +1 gaat liggen de punten dichter bij de rechte lijn, en is het verband sterker

• Waarden van r die dichtbij 0 liggen geven een heel zwak lineair verband

• r=1 of r=-1 betekenen dat de punten precies op de rechte lijn liggen, dan is er een perfect verband

• Correlatie meet slechts de sterkte van een lineaire relatie, sterke kromlijnige relaties worden niet in correlatie weerspiegeld

• R is niet resistent, wordt sterk beïnvloed door uitschieters

Page 20: Hoofdstuk 2

2.3. Kleinste-kwadratenregressie

• Hoe kunnen we spreidingsdiagram op een korte manier weergeven

• Meest eenvoudige relatie :

afhankelijke variabele y hangt lineair (rechtlijnig) af van een onafhankelijke variabele x

• REGRESSIELIJN = rechte lijn die afhankelijkheid van een variabele van een andere beschrijft

Page 21: Hoofdstuk 2

• Bij correlatie : 2 kwantitatieve variabelen zonder x en y

• Bij regressie : duidelijke x = onafhankelijke variabele

y = afhankelijke variabele

• Regressielijn : voorspellen van y op basis van x

Page 22: Hoofdstuk 2

A. Aanpassen van een lijn aan de data

• Bij een lineair patroon in het spreidingsdiagram gaat een rechte lijn niet PRECIES door alle punten

• DUS : aanpassen van een lijn = lijn tekenen die zo dicht mogelijk bij de punten komt

• De VERGELIJKING van zo een lijn geeft een beknopte beschrijving van de afhankelijkheid van y van variabele x

Page 23: Hoofdstuk 2

• Voorbeeld : gemiddelde lengte naar leeftijdleeftijd in maanden lengte in cm

18 76.119 77.020 78.121 78.222 78.823 79.724 79.925 81.126 81.227 81.828 82.829 83.5

Page 24: Hoofdstuk 2

LEEFTIJD

3028262422201816

LE

NG

TE

84

82

80

78

76

Page 25: Hoofdstuk 2

• Beschrijving van een rechte lijn

y = a + b x

y = te verklaren variabele of afhankelijke

op verticale as

x = de verklarende of onafhankelijke

op horizontale as

b = de helling, hoeveelheid waarmee y

toeneemt als x één eenheid toeneemt

a = constante (waarde van y bij x=0)

Page 26: Hoofdstuk 2

• Terug naar het voorbeeld :

lengte = 64.93 + (0.635 . leeftijd)

– helling b = 0.635 dus elke maand ongeveer 0.6 cm lengte toenemen

– dus b = mate van verandering in y als x verandert

– constante a = 64.93 zou lengte zijn bij leeftijd 0 (geboorte) indien ze zouden groeien met vaste verhouding, wat niet zo is, dus niet belangrijk

Page 27: Hoofdstuk 2

B. Voorspelling• Op basis van regressielijn kan de afhankelijke

variabele y VOORSPELD worden op basis van xbv. wat zou de lengte zijn bij leeftijd 32 ?

Lengte = 64.93 + (0.635 X 32) = 85.25 cmof grafisch op basis van figuur

(extrapolatie)

• Als de gegevens zeer dicht bij de lijn liggen is de voorspelling betrouwbaar, bij grote spreiding rondom de lijn minder

Page 28: Hoofdstuk 2

C. Kleinste-kwadratenregressie

• Hoe vinden we nu deze lijn door de data ?– methode van de kleinste kwadraten

• HOE ?– Eerst y voorspellen uit x– y op y-as– verticale afstanden van punten tot de lijn zijn fouten

in de voorspelling van y– doel is zo weinig mogelijk fouten dus afwijkingen

zo klein mogelijk maken

Page 29: Hoofdstuk 2

– Sommige punten boven (positief) en andere onder (negatief) dus kwadrateren zodat allen positief zijn

– som van de kwadraten is de omvang van alle afwijkingen

– DUS die lijn zoeken waarvoor de som van de kwadraten het kleinst is

= de kleinste kwadraten regressielijn

Page 30: Hoofdstuk 2

Normal P-P Plot of LENGTE

Observed Cum Prob

1,00,75,50,250,00

Exp

ect

ed

Cu

m P

rob

1,00

,75

,50

,25

0,00

Page 31: Hoofdstuk 2

• Afwijking = waargenomen y - voorspelde y

= yi - yi

= yi - a - bxi

(afwijkingen)2 = (yi - a - bxi )2

= som van kwadraten van de afwijking zo klein mogelijk

= hiervoor moeten a en b gevonden worden

Page 32: Hoofdstuk 2

(afwijkingen)2 = (yi - a - bxi )2

in voorbeeld :

(76.1 - a - 18b)2 + (77.0 - a - 19b) 2 + …

• formule niet kennen

• wel op basis van computeroutput

Page 33: Hoofdstuk 2

D. Interpreteren van de regressielijn

• Regression :

Coefficients

t Sig.

Model B Std. Error Beta

1 (Constant) 64,928 ,508 127,709 ,000

LEEFTIJD ,635 ,021 ,994 29,665 ,000

a Dependent Variable: LENGTE

Page 34: Hoofdstuk 2

E. Correlatie en regressie

• Bij regressielijn afhankelijke variabele voorspellen uit onafhankelijke– y op x

• Maar kan ook omgekeerd regressie van – x op y

Beide regressielijnen zijn sterk verschillend– verticale minimaliseren– horizontale minimaliseren

Page 35: Hoofdstuk 2

1e verband tussen correlatie en regressie

• Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x

– bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele

Page 36: Hoofdstuk 2

• r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie

2e verband tussen correlatie en regressie• Helling van de regressielijn

sy

b = r

sx

of een verandering van 1 st.afw. in x komt overeen met een verandering van r st.afw. in y

Page 37: Hoofdstuk 2

• Als we weten dat de kleinste kwadraten regressielijn loopt door het punt

( x, y) van de grafiek

en de helling is r sy / sx

DAN kan de regressie volledig beschreven worden uit gem x, gem y, sx, sy, en r

Page 38: Hoofdstuk 2

2.4. Waarschuwingen over regressie en correlatie

• Regressie en correlatie worden heel veel gebruikt

• Ook zonder nadenken

• Steeds zicht blijven houden op mogelijkheden en beperkingen

Page 39: Hoofdstuk 2

A. Residuen

• Residu = het verschil tussen een waargenomen waarde en de door het model voorspelde waarde = AFWIJKING

residu = waargenomen y - voorspelde y

= y - y

• Bij kijken naar gegevens eerst globaal patroon en dan de afwijking

WAARNEMING = AANPASSING + RESIDU

Page 40: Hoofdstuk 2

• Voorbeeld :- bij 24 maand was de lengte 79.9 cm- regressielijn :

y = 64.93 + (0.635 X 24) = 80.17- het residu bedraagt 79.9 - 80.17 = -0.27

• residuen zijn de verticale afstanden tot de regressielijn

• het zijn de afwijkingen die overblijven nadat de lijn is getrokken waarvan de som van de kwadraten van afwijkingen zo klein mogelijk is

Page 41: Hoofdstuk 2

• Door residuen te bekijken zien we hoe goed de lijn de gegevens beschrijft

• Het gemiddelde van de residuen is steeds gelijk aan 0 indien de kleinste-kwadratenlijn werd berekend

• Bekijken op basis van een residuendiagram

Page 42: Hoofdstuk 2

Scatterplot

Dependent Variable: LENGTE

LENGTE

8482807876

Re

gre

ssio

n D

ele

ted

(P

ress

) R

esi

du

al ,6

,4

,2

0,0

-,2

-,4

Page 43: Hoofdstuk 2

• Het residuendiagram moet een ongestructureerde band zijn om 0

• Indien er een patroon zit in de residuen– bv. curvilinear– bv. systematish groter wordende residuen

=> dan moet er verder gekeken worden of er niets over het hoofd is gezien

• Op basis van residuen zou een verborgen variabele kunnen worden ontdekt

Page 44: Hoofdstuk 2

B. Verborgen variabelen

• Een verborgen variabele heeft een belangrijke invloed op de relaties maar is niet opgenomen bij de bestudeerde variabelen

• Door een specifiek patroon in residuen diagram kan bv. opgespoord worden

Page 45: Hoofdstuk 2

C. Uitschieters en invloedrijke waarnemingen

• Naast globaal patroon zijn afzonderlijke punten die buiten dat patroon vallen soms nog belangrijker

• Voorbeeld : leeftijd waarop een kind begint te spreken en latere score op test regressielijn : later spreken, lagere score

Page 46: Hoofdstuk 2

• Uitschieters in regressie : in verticale richting ver van de regressielijn dus groot residu – kunnen we ontdekken op basis van

residuendiagram

• Invloedrijke waarnemingen in regressie : als verwijdering ervan een opvallende wijziging in de regressielijn teweegbrengt, vaak extreme x-waarden– kan niet op basis van residuen gevonden worden,

wel spreidingsdiagram

Page 47: Hoofdstuk 2

• Bij invloedrijke waarnemen :– nagaan of ze correct zijn– behoort ze wel tot de populatie

DOEN : eens regressielijn met en zonder invloedrijke waarnemingen bekijken

Page 48: Hoofdstuk 2

D. Wees alert

• Alleen maar voor lineaire samenhang• noch r, noch kleinste-kwadratenregressie is

resistent :

dus : - kijken naar invloedrijke waarneming

- opletten voor intikfouten• Steeds opletten voor verborgen variabelen bv.

positieve correlatie tussen leraren-salarissen en verkoop van sterke drank

Page 49: Hoofdstuk 2

• = nonsens correlaties = een sterke correlatie impliceert geen oorzaak-gevolg relatie

• soms lage correlatie maar toch verband bv. twee clusters

DUS : niet alleen naar correlatie kijken ook steeds naar de figuur

• Pas y voorspellen uit x bij voldoende sterke r2 , dus eerst correlatie kwadrateren en pas dan regressie

Page 50: Hoofdstuk 2

• Ook opletten met extrapolatie : dikwijls geldt de regressielijn enkel voor een beperkt gebied van x

• Opletten met correlaties tussen gemiddelden

-> door gemiddelden wordt reeds heel wat variatie gladgestreken

-> deze correlaties zijn gewoonlijk overschattingen

Page 51: Hoofdstuk 2

• Bij beschrijving van 2 variabelen– niet alleen op correlatie en regressie baseren

– ook telkens gemiddelde en standaardafwijking in rekening brengen

– figuur maken is altijd zinvol

Page 52: Hoofdstuk 2

2.6. Relatie tussen kwalitatieve variabelen

• Tot nu toe enkel kwantitatieve

• Kwalitatieve zijn ook belangrijk – geslacht, ras, beroep = in se kwalitatief– kwantitatief in klassen

• Analyses gebaseerd op aantallen of percentages gevallen in elke klasse

• Twee kwalitatieve variabelen : voorgesteld in een kruistabel

Page 53: Hoofdstuk 2

GESLACHT * KLEUR CrosstabulationCount

KLEUR Total

1,00 2,00 3,00

GESLACHT

1,00 3 2 2 7

2,00 3 2 5

Total 6 4 2 12

Page 54: Hoofdstuk 2

A. Marginale verdelingen• Marginale verdelingen = totalen van beide

variabelen uit onderrand en rechterkolom

• Relaties tussen kwalitatieve variabelen door uit de aantallen de percentages te berekenen

• Grafisch voorstellen in staafdiagram : hoogte van de staaf is percentage

• Gesegmenteerd staafdiagram : 100% in 1 staaf voorgesteld : vergelijking

Page 55: Hoofdstuk 2

3 2 2 7

42,9% 28,6% 28,6% 100,0%

3 2 5

60,0% 40,0% 100,0%

6 4 2 12

50,0% 33,3% 16,7% 100,0%

Count

% withinGESLACHT

Count

% withinGESLACHT

Count

% withinGESLACHT

1,00

2,00

GESLACHT

Total

1,00 2,00 3,00

KLEUR

Total

GESLACHT * KLEUR Crosstabulation

Page 56: Hoofdstuk 2

010203040506070

jongen meisje

blond

bruin

zwart

Page 57: Hoofdstuk 2

0%

20%

40%

60%

80%

100%

jongen meisje

zwart

bruin

blond

Page 58: Hoofdstuk 2

B. Beschrijven van relaties• Bij kruistabellen altijd percentages in twee

richtingen mogelijk rij-percentages en kolom-percentages

GESLACHT * KLEUR CrosstabulationKLEUR Total1,00 2,00 3,00

GESLACHT1,00 Count 3 2 2 7

% within KLEUR 50,0% 50,0% 100,0% 58,3%2,00 Count 3 2 5

% within KLEUR 50,0% 50,0% 41,7%

Total Count 6 4 2 12% within KLEUR 100,0% 100,0% 100,0% 100,0%

Page 59: Hoofdstuk 2

0

20

40

60

80

100

blond bruin zwart

jongen

meisje

Page 60: Hoofdstuk 2

C. De paradox van Simpson

• Voorbeeld : ziekenhuizenA B

overleden 3% (63) 2% (16)

overleefd 97% (2037) 98% (784)

goede conditie slechte conditie

A B A B

overleden 1% (6) 1.3% (8) 3.8% (57) 4% (8)

overleefd 99% (594) 98.7% (592) 96.2% (1433) 96% (192)

Page 61: Hoofdstuk 2

• Paradox van Simpson = de omkering van de richting van een relatie wanneer de data uit verscheidene groepen gecombineerd worden tot een enkele groep

• Oorzaak : een verborgen derde variabele– beter om een driedimensionale tabel te maken

zodat elke variabele zichtbaar wordt– nooit uitspraken op grond van eerste indruk,

steeds grondig onderzoeken en nadenken– Samenvoegen van drie variabelen naar twee

variabelen is altijd gevaarlijk: info verlies

Page 62: Hoofdstuk 2

2.7. Oorzaak en gevolg• Dikwijls : onafhankelijke variabelen

veroorzaken afhankelijke variabelen• MAAR dit is vaak niet terecht

– snelheidslimiet - minder verkeersdoden– wet op wapenbezit - minder moorden

Kunnen we hier echt spreken van een OORZAAK ?

=> dikwijls naast deze ene onafhankelijke variabele nog veel andere die een rol spelen

Page 63: Hoofdstuk 2

• Echte oorzaak-gevolg relatie uit toekomstgericht onderzoek,

longitudinaal waarbij personen jaren gevolgd worden

• Steeds zoeken naar verborgen variabelen !

Voorbeeld : roken - longkanker

- genetische hypothese

- “slonzige levensstijl”

Page 64: Hoofdstuk 2

• Samenhang tussen x en y kan :

1. Oorzaak en gevolg : veranderingen in x veroorzaken veranderingen in y

2. Gemeenschappelijke afhankelijkheid : zowel x als y reageren op veranderingen in verborgen variabelen

3. Verstrengeling : naast x zijn er nog zoveel andere factoren die een effect hebben op y (bv. SES)

Page 65: Hoofdstuk 2

• Figuur :

x y

x y

z

x y

z

1

2

3

Page 66: Hoofdstuk 2

• Hoe een oorzaak-gevolg relatie vastleggen ?

EXPERIMENT = enige bevredigende methode : bij wijziging van x ook veranderingen in y waarbij verborgen variabelen beheerst worden

• Als experimenten niet mogelijk zijn : – verschillende onderzoeken, verschillende groepen– effect blijft na opnemen van derde variabelen– plausibele verklaring is noodzakelijk– samenhang is sterk