Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en...

61
Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1

Transcript of Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en...

Page 1: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Beschrijvende en inferentiële statistiek

College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen

tentamenstof)

1

Page 2: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Vandaag

• Uitwerking huiswerkopdracht• Uitwerking oude tentamenvragen• Multivariate regressie (of multipele of

meervoudige regressie), dus met meerdere X-en en één Y

2

Page 3: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Huiswerkopdracht

• Ik ben benieuwd of het aantal minuten dat een student per dag tv kijkt verband houdt met zijn/haar cijfer voor het tentamen van BIS

• Mijn hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS

• Gebruik de data van de Georgia Student Survey (zie BB). Beschouw CGPA (college GPA) als tentamencijfer BIS.

• Voer dit in SPSS in, maak een scatterplot en voer een regressie-analyse uit

• Trek je conclusie omtrent de hypothese

3

Page 4: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

X is hoeveel minuten een student per dag tv kijkt (watchTV in dataset)

Y is cijfer (CGPA in dataset)

4

Page 5: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Scatterplot

5

Page 6: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Scatterplot met regressielijn

6

Page 7: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

R-square van 0.125.

Dus: 12.5% van de variantie in het tentamencijfer wordt verklaard door hoeveel minuten een student per dag tv kijkt.

7

Page 8: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Heeft tv kijken ook echt een significante invloed op het tentamencijfer?

Regressie-analyse uitvoeren

8

Page 9: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

9

Page 10: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Alternatieve hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS

Nulhypothese: hoeveel een student per dag tv kijkt heeft geen invloed op zijn/haar tentamencijfer voor BIS

Eenzijdig of tweezijdig?

10

Page 11: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

We toetsen eenzijdig met onze hypothese, dus de p-waarde is .006 / 2 = .003.

Negatieve slope: hoe meer tv kijken, hoe lager het cijfer

11

Page 12: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

12

Page 13: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

13

Page 14: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Conclusie

Hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS (p < .05)

14

Page 15: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

15

Page 16: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

16

Page 17: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

17

Page 18: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

18

Page 19: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Vandaag

• Meervoudige regressie:Meerdere X-en die invloed hebben op Y

19

Page 20: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Gevoelstemperatuur

“De temperatuur ligt rond -5 graden. Omdat de wind flink blijft doorstaan, blijft het ook overdag zeer koud aanvoelen, de gevoelstemperatuur ligt rond -15 graden.”

De gevoelstemperatuur wordt berekend uit een combinatie van de luchttemperatuur en de gemiddelde windsnelheid. Bron: www.wikipedia.nl

Gevoelstemperatuur =

13,12 + 0,6215·Temperatuur – 11,37·Windsterkte

20

Page 21: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Formules

• Bivariate (enkelvoudige) regressie:

• Multivariate (meervoudige) regressie:

bxay ˆ

332211ˆ xbxbxbay

21

Page 22: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Centrale vraag

Hoe kan ik op basis van beperkt aantal observaties uitspraak doen over relatie tussen 1 afhankelijke en meerdere onafhankelijke variabelen in hele populatie?

22

Page 23: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Ik wil weten welke factoren de prijs van eten in restaurants bepalen.

Eerst onderzoek ik wat de invloed is van service op de prijs.

23

Page 24: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Causaal model

Service restaurant

Prijs restaurant

24

Page 25: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Betaal je voor service?

1

11

769,2985,0ˆ

ˆ

xy

xbay

25

Page 26: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Scatterplot

x1: service

2520151050

0

20

40

60

80

100

30

y: prijs18201 xy ,,ˆ

26

Page 27: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

We weten nu dat service een significante invloed heeft op de prijs.

Hoe zit dat met de kwaliteit van het eten en de entourage van het restaurant?

27

Page 28: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Causaal model

Prijs

Service

Entourage

Kwaliteit eten

28

Page 29: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Je maakt eerst een correlatiematrix

29

Page 30: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Correlatiematrix

30

Page 31: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Op basis van de correlatiematrix bepaal je of je een bepaalde X weg moet laten

We zagen net dat de kwaliteit van het eten geen invloed had op de prijs. De entourage en de service wel.

We laten kwaliteit eten dus weg.

31

Page 32: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Aangepast causaal model

Prijs

Service

Entourage

32

Page 33: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

– x1 = service

– x2 = entourage

– Regressievergelijking

= α + β1· x1 + β2· x2

y

33

Page 34: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Voorspellingsvergelijking

21

2211

540,2778,0062,3ˆ

ˆ

xxy

xbxbay

Geeft aan of het interceptsignificant van 0 afwijkt.

34

Page 35: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Verklaarde variantie van Y

• R2

– Welk deel van variantie in Y wordt verklaard door X-en?

yin variatieTotale

yin variatiee verklaardmodelDoor 2 R

TSS

MSSR 2

35

Page 36: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

36

Prijs

Service R2 =8,3%

Page 37: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

37

Prijs

Service

Entourage

R2 =14,5%

Page 38: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• R2

– Daalt nooit na toevoegen extra variabelen

• Formele interpretatie: De error als je de voorspelde Y gebruikt (met service en entourage in de formule) is 14.5% kleiner dan de error als je de gemiddelde Y gebruikt (dus zonder service en entourage).

• Praktische intepretatie: Service en entourage verklaren 14.5% van de variantie van prijs.

38

Page 39: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Gestandaardiseerde coëfficiënten- Slopes gedeeld door standaarddeviatie- Waarom?- Zodat je ze gemakkelijk kunt vergelijken- Welke variabele heeft grootste effect op y?

39

Page 40: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Is er relatie in de populatie tussen service en prijs?

40

Page 41: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

1. Hypothesen (service en prijs)– H0: β1 = 0

– Ha: β1 ≠ 0

2. Toetsingsgrootheid (t-score)

se

bt 1

se

b 11 926,0

840,0

778,0

840,0

0778,0

41

Page 42: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Is er relatie in populatie?

p-waarde– De kans dat ik in de steekproef zo’n sterk (of nog

sterker) verband tussen service en prijs vind, als in de populatie géén verband zou zijn, is 35,6%.

Conclusiep > α ↔ 0,356 > 0,05.Verwerp H0 niet. We hebben onvoldoende bewijs dat er in de populatie een verband bestaat tussen de service en de prijs van het restaurant.

42

Page 43: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Is er relatie in de populatie tussen entourage en prijs?

43

Page 44: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Is er relatie in populatie?

Hypothesen (entourage en prijs)– H0: β2 = 0

– Ha: β2 ≠ 0

Conclusie: Verwerp H0. We hebben voldoende bewijs dat er in de populatie een verband is tussen de entourage en de prijs van het restaurant (p < .05).

44

Page 45: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Dus

1) Met meervoudige regressie onderzoek je de invloed van meerdere X-en op Y

2) Je maakt eerst een correlatiematrix3) Bepaalt obv die matrix welke X-en je meeneemt4) Je kijkt of de slopes significant zijn5) Je bekijkt de R-square om te weten hoeveel variantie

van Y verklaard wordt door de X-en

45

Page 46: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Ik wil cyberpestgedrag kunnen verklaren.

Ik ben benieuwd wat de invloed is van leeftijd, gepest worden in de klas en woede.

46

Page 47: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Correlatiematrix

47

Page 48: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

48

R = multipele correlatie, dus correlatie van alle x-en gezamelijk met y

r = afzonderlijke correlaties, dus afzonderlijke x met y, gecontroleerd voor de andere x (-en)

Page 49: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Regression towards the mean

49

Page 50: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Vorige keer

Beta = slope / standaarddeviatie, dus de gestandaardiseerde slope. Als je het standaardiseert, heb je geen last meer van verschillende meeteenheden (belangrijk bij meervoudige regressie).

50

Page 51: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Correlatie is hier .855• Als X (uren studie) 1 standaarddeviatie

omhoog gaat, gaat Y (cijfer) .855 standaarddeviatie omhoog

51

Page 52: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Regression towards the mean

The predicted y is relatively closer to the mean than xis to its mean (p.601)

Wanneer x één sd omhoog gaat, gaat y r sd’s omhoog

Regression towards the mean: Y zal de neiging hebben terug te keren naar het gemiddelde

52

Page 53: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Regression towards the mean voorbeeld

• StatLabtoets 1 en 2• X = toets 1, Y = toets 2

53

Page 54: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Cijfer toets 1 voorspelt cijfer toets 2• Jantje had een extreem hoge score bij toets 1: een 9,5• Op toets 2 zal hij volgens de regressieformule een 7.99 halen,

wat minder extreem• Klaas had een erg lage score bij toets 1: een 2• Op toets 2 zal hij volgens de regressieformule een 3.22 halen,

wat minder laag• Regression towards the mean: een extreme score zal een

volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen

54

Page 55: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

• Correlatie bij StatLabtoetsen was .424. • Gemiddelde toets 1: 7.8, met sd = 1.50• Gemiddelde toets 2: 7.0, met sd = 2.13• Als iemand 1 sd boven het gemiddelde van toets 1 scoorde

(dus een 7.8+1.50=9.30), dan scoorde deze persoon .424 standaarddeviaties in toets 2 hoger (dus 7.0+(0.424*2.13)=7.90).

• Dus: een extreme score in toets 1 zal bij toets 2 minder extreem zijn

55

Page 56: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Regression towards the mean in de praktijk

Een extreme score zal een volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen.

56

Page 57: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

Hoe in SPSS?

• Regressie: Analyze > Regression > Lineair. Dependent is Y en bij Independent kun je alle X-en invullen.

57

Page 58: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

College 12 Hoofdstuk 15

Vanaf pagina 745:

Reliability analysis using SPSSDoor Gerhard van de Bunt

58

Page 59: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

59

Page 60: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

60

Page 61: Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen tentamenstof) 1.

61