Help! Statistiek!
description
Transcript of Help! Statistiek!
Help! Statistiek!
Doel: Informeren over statistiek in klinisch onderzoek.
Tijd: Derde woensdag in de maand, 12-13 uur
18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” (Lokaal 16 OC)20 juni: “Logistische regressie” (Lokaal 16 OC)19 september: ”Survival analyse”
Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy PostDG Epidemiologie
Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.
Lineaire regressie
• Wat is het?• Wanneer gebruiken we het (niet)?• Wat komt er allemaal bij kijken?• Waar komt de naam eigenlijk vandaan?
Enkelvoudige lineaire regressie
• Er is een continue responsievariabele Y
• Er is een verklarende variabele X
• We zijn geïnteresseerd in de relatie tussen Y en X
• We beschikken over onafhankelijke waarnemingen
• Een lineair verband lijkt redelijk
Bijvoorbeeld: systolische bloeddruk
Bijvoorbeeld: leeftijd
Relatie is niet symmetrisch!
Lineair verband?
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
Lineair verband?
10080604020
700,00
600,00
500,00
400,00
300,00
200,00
100,00
0,00
resp
ons
leeftijd
Lineaire regressie (formule)• We schatten de populatierelatie
• We nemen aan dat
iii XY 10
),0(N~ 2
80,0060,0040,00
leeft
159,00
156,00
153,00
150,00
147,00
144,00
141,00
sys
80,0060,0040,00
leeft
180,00
170,00
160,00
150,00
140,00
130,00
120,00
sys
Controleren!
Rechtlijnig verband van de gemiddeldenResiduen normaal verdeeld rond leeftijds-
gemiddelde, met dezelfde spreiding
De geschatte regressielijn
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
Waarom is dit de “best passende lijn”?
De geschatte lijn
• De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is
Rond 1800Gauss en Legendre
Astronomie
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
ukResidu e = verschiltussen waargenomenen voorspelde waarde
Minimaliseer 2ie
Lineaire regressie in SPSSModel Summary
,178a ,032 ,028 21,685Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), leeftijda.
ANOVAb
4251,553 1 4251,553 9,041 ,003a
129783,2 276 470,229134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), leeftijda.
Dependent Variable: syst. bloeddruk beginb.
Coefficientsa
128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003
(Constant)leeftijd
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
SBP = 128,8 + 0,33*leeftijd,
bv, de geschatte bloeddruk van een 70-jarige:SBP = 128,8 + 0,33*70 = 151,9
Coefficientsa
128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003
(Constant)leeftijd
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
Toelichting SPSS uitdraai
P < 0,05
De geschatte regressielijn
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
H0: β1 = 0 (geen lineair verband)
0
b0
• De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen)
• Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel
• De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie
ANOVAb
4251,553 1 4251,553 9,041 ,003a
129783,2 276 470,229134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), leeftijda.
Dependent Variable: syst. bloeddruk beginb.
ANalysis Of VAriance
Regression Model Summary
,178a ,032 ,028 21,685Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), leeftijda.
ANOVAb
4251,553 1 4251,553 9,041 ,003a
129783,2 276 470,229134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), leeftijda.
Dependent Variable: syst. bloeddruk beginb.
Coefficientsa
128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003
(Constant)leeftijd
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
,003
,003
F = t²
• R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r)
• R square = R in het kwadraat = SSregression /SStotal = de proportie verklaarde variantie
• Adjusted R square: reëlere schatting van R² in de populatie
• Standaard error of the estimate = gemiddelde grootte van een residu
Model Summary
,178a ,032 ,028 21,685Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), leeftijda.
Controle van de aannames
• Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie)
• Het verband tussen E(Y) en X is lineair (strooiingsdiagram)
• De residuen zijn normaal verdeeld (pplot)• De spreiding van de residuen is gelijk,
ongeacht de grootte van X (scatter)
Normaliteit van de residuen
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob
0,0
0,2
0,4
0,6
0,8
1,0Ex
pect
ed C
um P
rob
Dependent Variable: syst. bloeddruk begin
Normal P-P Plot of Regression Standardized Residual
Normaliteit van de residuen
3210-1-2-3
Regression Standardized Residual
50
40
30
20
10
0
Freq
uenc
y
Mean =-1,21E-15Std. Dev. =0,998
N =278
Histogram
Dependent Variable: syst. bloeddruk
Homogene spreiding van de residuen
-4 -3 -2 -1 0 1 2 3
Regression Standardized Predicted Value
-3
-2
-1
0
1
2
3
Reg
ress
ion
Stan
dard
ized
Res
idua
l
Dependent Variable: syst. bloeddruk begin
Scatterplot
Lineaire regressie op deze data
10080604020
700,00
600,00
500,00
400,00
300,00
200,00
100,00
0,00
resp
ons
leeftijd
10080604020
leeftijd
700,00
600,00
500,00
400,00
300,00
200,00
100,00
0,00
resp
ons
R Sq Linear = 0,168
Controle aannames
1,00,80,60,40,20,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
Exp
ecte
d C
um P
rob
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: respons
3210-1-2-3-4
Regression Standardized Predicted Value
6
3
0
Reg
ress
ion
Sta
ndar
dize
d R
esid
ual
Scatterplot
Dependent Variable: respons
Overweeg een transformatie (bv logaritmisch) ofzoek naar een verbetering van je model
(toevoegen van variabelen)
De gebruikte testen zijn niet valide!
Betrouwbaarheidsintervallen(gemiddelden)
Breedte BI verschilt per leeftijd
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
Predictie-intervallen(individueel)
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
R Sq Linear = 0,032
Kan men een lineaire regressie uitvoeren als de verklarende
variabele dichotoom is?• Bijvoorbeeld wil men
weten of bloeddruk afhangt van het geslacht
Kan men een lineaire regressie uitvoeren als de verklarende
variabele dichotoom is?
• Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht
0 0,2 0,4 0,6 0,8 1
geslacht
100
120
140
160
180
200
220
syst
. blo
eddr
uk b
egin
man vrouw
Test van de richtingscoëfficiënt = gepoolde t-test
Linear Regression
0,00 0,25 0,50 0,75 1,00
geslacht
100
125
150
175
200
syst
. blo
eddr
uk b
egin
syst. bloeddruk begin = 147,74 + 7,22 * geslachtR-Square = 0,03man
vrouw
Gemiddelde mannen: 147,74
Gemiddelde vrouwen154,97
H0: β1=0
Maakt de gebruiktecodering iets uit?
Verklarende variabelen:
• Continu: ok• Dichotoom: ok• Nominaal met meer dan twee categorieën:
maak dummy’s (hulpvariabelen)• Ordinaal: als er sprake lijkt van een
lineaire trend: ok, anders dummy’s
Meervoudige lineaire regressie
• Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y?
• Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2?
Relatie studie-uren en cijfer
2,00 4,00 6,00 8,00 10,00 12,00 14,00
studieuren
5,00
6,00
7,00
8,00
9,00
cijfe
r
Linear Regression
2,50 5,00 7,50 10,00 12,50
studieuren
5,00
6,00
7,00
8,00
9,00ci
jfer
cijfer = 7,76 + -0,09 * studieurenR-Square = 0,09
Conclusie van deze enkelvoudige regressie-analyse:
• Hoe langer je studeert hoe lager je cijfer• ?????• Wat gebeurt er als we rekening houden
met de vooropleiding van de respondenten?
hoog laag
vooropleiding
2,50 5,00 7,50 10,00 12,50
studieuren
5,00
6,00
7,00
8,00
9,00ci
jfer
hoog laag
vooropleiding
2,50 5,00 7,50 10,00 12,50
studieuren
0,00
4,00
8,00
12,00
cijfe
r
Conclusie van deze meervoudige regressie-analyse
• In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studie-uren op het cijfer
• Dit effect is in beide groepen ongeveer gelijk• Als we geen rekening houden met de
vooropleiding, schatten we het effect van studie-uren op het cijfer totaal verkeerd
• Vooropleiding wordt een confounder genoemd
Enkelvoudige lineaire Regressie Model Summary
,178a ,032 ,028 21,685Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), leeftijda.
ANOVAb
4251,553 1 4251,553 9,041 ,003a
129783,2 276 470,229134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), leeftijda.
Dependent Variable: syst. bloeddruk beginb.
Coefficientsa
128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003
(Constant)leeftijd
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
Equivalentie van F-test en t-test
Leeftijd verklaart ongeveer 3%van de spreiding van bloeddruk
Wat gebeurt er als we geslacht toevoegen?
10080604020
leeftijd
220
200
180
160
140
120
100
syst
. blo
eddr
uk
vrouwman
geslacht
Meervoudige lineaire regressieModel Summary
,223a ,050 ,043 21,523Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), geslacht, leeftijda.
ANOVAb
6639,944 2 3319,972 7,167 ,001a
127394,9 275 463,254134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), geslacht, leeftijda.
Dependent Variable: syst. bloeddruk beginb.
Coefficientsa
129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011
5,972 2,630 ,136 2,271 ,024
(Constant)leeftijdgeslacht
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
Meervoudige lineaire regressieModel Summary
,223a ,050 ,043 21,523Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), geslacht, leeftijda.
ANOVAb
6639,944 2 3319,972 7,167 ,001a
127394,9 275 463,254134034,8 277
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), geslacht, leeftijda.
Dependent Variable: syst. bloeddruk beginb.
Coefficientsa
129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011
5,972 2,630 ,136 2,271 ,024
(Constant)leeftijdgeslacht
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: syst. bloeddruk begina.
Leeftijd en geslacht verklaren samen ongeveer 5 % van de
spreiding van de bloeddrukANOVA toetst de H0 dat leeftijden geslacht samen niets verklaren
Geen equivalentie meer tussen F-test en t-test(en)
T-test van geslacht toetst de H0 dat geslacht niets verklaart, rekening houdend met leeftijdWas 0,33
20 40 60 80 100
leeftijd
100
120
140
160
180
200
220
syst
. blo
eddr
uk b
egin
vrouwen (1)mannen (0)
SBP = 129 + 0,3*leeftijd + 6*geslacht
NB
• Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie:- onafhankelijke data- lineair verband- normaal verdeelde residuen
- homogene spreiding van de residuen
Twee continue verklarende variabelen
syst. bloeddruk begin = 127,58 + 0,38 * leeftijd + -0,21 * diabduR-Square = 0,04
Linear Regression
Interactie• Als het effect van een verklarende variabele
beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie.
• Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie.
• In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen.
Model met interactie
21322110 * XXXXY
Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de vergelijking voor niet rokers:
Y = β0 + β1*leeftijd + εMaar voor rokers:
Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε = β0 + β2 + (β1 + β3)*leeftijd + ε
Als de coëfficiënt van de interactieterm (β3) significant is, lopen de regressielijnen van rokers en niet-rokers niet parallel en spreken we van interactie (ook wel effectmodificatie genoemd).
Als de interactieterm significant is, horen de bijbehorende hoofdeffecten ook in het model!
Voorbeeld van interactie
10080604020
220
200
180
160
140
120
100
syst
. blo
eddr
uk
rokenniet rokenroken2
leeftijd
Hoe wordt een model opgebouwd?
• Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?)
• Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie
• Bouw het model stap voor stap op, te beginnen met de meest significante verklarende variabele
• Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren
De term “regressie”
• Regressie = terugval• Wat heeft dat met een lineair verband te
maken?• Onderzoek van Francis Galton naar de
lengte van ouders en kinderen
Regression to the mean
Francis Galton
y = x
Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886
Valkuil:Regressie naar het gemiddelde!
Geen (normale) lineaire regressie
• Y dichotoom– Wel / geen verbetering na 1 uur
• Y categorisch (>2 categorieën)• Y ordinaal • Herhaalde waarnemingen
• Overlevingsduren
Logistische regressie
Repeated measures MANOVAMixed effects modelsMultilevel analyse
Survival analyse
Polytome logistische regressie
Ordinale logistische regressie
Volgende keer …
• Woensdag 20 juni: Logistische regressie• Zie
http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie/courses
• Bedankt voor uw aandacht