Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en...
-
Upload
karen-koning -
Category
Documents
-
view
216 -
download
0
Transcript of Beschrijvende en inferentiële statistiek College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en...
Beschrijvende en inferentiële statistiek
College 10 – Anouk den Hamer – Hoofdstuk 13 (13.5 en 13.6 geen
tentamenstof)
1
Vandaag
• Uitwerking huiswerkopdracht• Uitwerking oude tentamenvragen• Multivariate regressie (of multipele of
meervoudige regressie), dus met meerdere X-en en één Y
2
Huiswerkopdracht
• Ik ben benieuwd of het aantal minuten dat een student per dag tv kijkt verband houdt met zijn/haar cijfer voor het tentamen van BIS
• Mijn hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS
• Gebruik de data van de Georgia Student Survey (zie BB). Beschouw CGPA (college GPA) als tentamencijfer BIS.
• Voer dit in SPSS in, maak een scatterplot en voer een regressie-analyse uit
• Trek je conclusie omtrent de hypothese
3
X is hoeveel minuten een student per dag tv kijkt (watchTV in dataset)
Y is cijfer (CGPA in dataset)
4
Scatterplot
5
Scatterplot met regressielijn
6
R-square van 0.125.
Dus: 12.5% van de variantie in het tentamencijfer wordt verklaard door hoeveel minuten een student per dag tv kijkt.
7
Heeft tv kijken ook echt een significante invloed op het tentamencijfer?
Regressie-analyse uitvoeren
8
9
Alternatieve hypothese: hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS
Nulhypothese: hoeveel een student per dag tv kijkt heeft geen invloed op zijn/haar tentamencijfer voor BIS
Eenzijdig of tweezijdig?
10
We toetsen eenzijdig met onze hypothese, dus de p-waarde is .006 / 2 = .003.
Negatieve slope: hoe meer tv kijken, hoe lager het cijfer
11
12
13
Conclusie
Hoe meer minuten een student per dag tv kijkt, hoe lager zijn/haar tentamencijfer voor BIS (p < .05)
14
15
16
17
18
Vandaag
• Meervoudige regressie:Meerdere X-en die invloed hebben op Y
19
Gevoelstemperatuur
“De temperatuur ligt rond -5 graden. Omdat de wind flink blijft doorstaan, blijft het ook overdag zeer koud aanvoelen, de gevoelstemperatuur ligt rond -15 graden.”
De gevoelstemperatuur wordt berekend uit een combinatie van de luchttemperatuur en de gemiddelde windsnelheid. Bron: www.wikipedia.nl
Gevoelstemperatuur =
13,12 + 0,6215·Temperatuur – 11,37·Windsterkte
20
Formules
• Bivariate (enkelvoudige) regressie:
• Multivariate (meervoudige) regressie:
bxay ˆ
332211ˆ xbxbxbay
21
Centrale vraag
Hoe kan ik op basis van beperkt aantal observaties uitspraak doen over relatie tussen 1 afhankelijke en meerdere onafhankelijke variabelen in hele populatie?
22
Ik wil weten welke factoren de prijs van eten in restaurants bepalen.
Eerst onderzoek ik wat de invloed is van service op de prijs.
23
Causaal model
Service restaurant
Prijs restaurant
24
Betaal je voor service?
1
11
769,2985,0ˆ
ˆ
xy
xbay
25
Scatterplot
x1: service
2520151050
0
20
40
60
80
100
30
y: prijs18201 xy ,,ˆ
26
We weten nu dat service een significante invloed heeft op de prijs.
Hoe zit dat met de kwaliteit van het eten en de entourage van het restaurant?
27
Causaal model
Prijs
Service
Entourage
Kwaliteit eten
28
Je maakt eerst een correlatiematrix
29
Correlatiematrix
30
Op basis van de correlatiematrix bepaal je of je een bepaalde X weg moet laten
We zagen net dat de kwaliteit van het eten geen invloed had op de prijs. De entourage en de service wel.
We laten kwaliteit eten dus weg.
31
Aangepast causaal model
Prijs
Service
Entourage
32
– x1 = service
– x2 = entourage
– Regressievergelijking
= α + β1· x1 + β2· x2
y
33
• Voorspellingsvergelijking
21
2211
540,2778,0062,3ˆ
ˆ
xxy
xbxbay
Geeft aan of het interceptsignificant van 0 afwijkt.
34
Verklaarde variantie van Y
• R2
– Welk deel van variantie in Y wordt verklaard door X-en?
yin variatieTotale
yin variatiee verklaardmodelDoor 2 R
TSS
MSSR 2
35
36
Prijs
Service R2 =8,3%
37
Prijs
Service
Entourage
R2 =14,5%
• R2
– Daalt nooit na toevoegen extra variabelen
• Formele interpretatie: De error als je de voorspelde Y gebruikt (met service en entourage in de formule) is 14.5% kleiner dan de error als je de gemiddelde Y gebruikt (dus zonder service en entourage).
• Praktische intepretatie: Service en entourage verklaren 14.5% van de variantie van prijs.
38
• Gestandaardiseerde coëfficiënten- Slopes gedeeld door standaarddeviatie- Waarom?- Zodat je ze gemakkelijk kunt vergelijken- Welke variabele heeft grootste effect op y?
39
Is er relatie in de populatie tussen service en prijs?
40
1. Hypothesen (service en prijs)– H0: β1 = 0
– Ha: β1 ≠ 0
2. Toetsingsgrootheid (t-score)
se
bt 1
se
b 11 926,0
840,0
778,0
840,0
0778,0
41
Is er relatie in populatie?
p-waarde– De kans dat ik in de steekproef zo’n sterk (of nog
sterker) verband tussen service en prijs vind, als in de populatie géén verband zou zijn, is 35,6%.
Conclusiep > α ↔ 0,356 > 0,05.Verwerp H0 niet. We hebben onvoldoende bewijs dat er in de populatie een verband bestaat tussen de service en de prijs van het restaurant.
42
Is er relatie in de populatie tussen entourage en prijs?
43
Is er relatie in populatie?
Hypothesen (entourage en prijs)– H0: β2 = 0
– Ha: β2 ≠ 0
Conclusie: Verwerp H0. We hebben voldoende bewijs dat er in de populatie een verband is tussen de entourage en de prijs van het restaurant (p < .05).
44
Dus
1) Met meervoudige regressie onderzoek je de invloed van meerdere X-en op Y
2) Je maakt eerst een correlatiematrix3) Bepaalt obv die matrix welke X-en je meeneemt4) Je kijkt of de slopes significant zijn5) Je bekijkt de R-square om te weten hoeveel variantie
van Y verklaard wordt door de X-en
45
Ik wil cyberpestgedrag kunnen verklaren.
Ik ben benieuwd wat de invloed is van leeftijd, gepest worden in de klas en woede.
46
Correlatiematrix
47
48
R = multipele correlatie, dus correlatie van alle x-en gezamelijk met y
r = afzonderlijke correlaties, dus afzonderlijke x met y, gecontroleerd voor de andere x (-en)
• Regression towards the mean
49
Vorige keer
Beta = slope / standaarddeviatie, dus de gestandaardiseerde slope. Als je het standaardiseert, heb je geen last meer van verschillende meeteenheden (belangrijk bij meervoudige regressie).
50
• Correlatie is hier .855• Als X (uren studie) 1 standaarddeviatie
omhoog gaat, gaat Y (cijfer) .855 standaarddeviatie omhoog
51
Regression towards the mean
The predicted y is relatively closer to the mean than xis to its mean (p.601)
Wanneer x één sd omhoog gaat, gaat y r sd’s omhoog
Regression towards the mean: Y zal de neiging hebben terug te keren naar het gemiddelde
52
Regression towards the mean voorbeeld
• StatLabtoets 1 en 2• X = toets 1, Y = toets 2
53
• Cijfer toets 1 voorspelt cijfer toets 2• Jantje had een extreem hoge score bij toets 1: een 9,5• Op toets 2 zal hij volgens de regressieformule een 7.99 halen,
wat minder extreem• Klaas had een erg lage score bij toets 1: een 2• Op toets 2 zal hij volgens de regressieformule een 3.22 halen,
wat minder laag• Regression towards the mean: een extreme score zal een
volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen
54
• Correlatie bij StatLabtoetsen was .424. • Gemiddelde toets 1: 7.8, met sd = 1.50• Gemiddelde toets 2: 7.0, met sd = 2.13• Als iemand 1 sd boven het gemiddelde van toets 1 scoorde
(dus een 7.8+1.50=9.30), dan scoorde deze persoon .424 standaarddeviaties in toets 2 hoger (dus 7.0+(0.424*2.13)=7.90).
• Dus: een extreme score in toets 1 zal bij toets 2 minder extreem zijn
55
Regression towards the mean in de praktijk
Een extreme score zal een volgende keer dat gemeten wordt waarschijnlijk dichterbij het gemiddelde liggen.
56
Hoe in SPSS?
• Regressie: Analyze > Regression > Lineair. Dependent is Y en bij Independent kun je alle X-en invullen.
57
College 12 Hoofdstuk 15
Vanaf pagina 745:
Reliability analysis using SPSSDoor Gerhard van de Bunt
58
59
60
61