Help! Statistiek!

50
Help! Statistiek! Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” (Lokaal 16 OC) 20 juni: “Logistische regressie” (Lokaal 16 OC) 19 september: ”Survival analyse” Sprekers: Vaclav Fidler, Hans Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

description

Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april:“Welke toets wanneer?” 16 mei:“Lineaire regressie” (Lokaal 16 OC) - PowerPoint PPT Presentation

Transcript of Help! Statistiek!

Page 1: Help! Statistiek!

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” (Lokaal 16 OC)20 juni: “Logistische regressie” (Lokaal 16 OC)19 september: ”Survival analyse”

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy PostDG Epidemiologie

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Page 2: Help! Statistiek!

Lineaire regressie

• Wat is het?• Wanneer gebruiken we het (niet)?• Wat komt er allemaal bij kijken?• Waar komt de naam eigenlijk vandaan?

Page 3: Help! Statistiek!

Enkelvoudige lineaire regressie

• Er is een continue responsievariabele Y

• Er is een verklarende variabele X

• We zijn geïnteresseerd in de relatie tussen Y en X

• We beschikken over onafhankelijke waarnemingen

• Een lineair verband lijkt redelijk

Bijvoorbeeld: systolische bloeddruk

Bijvoorbeeld: leeftijd

Relatie is niet symmetrisch!

Page 4: Help! Statistiek!

Lineair verband?

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Page 5: Help! Statistiek!

Lineair verband?

10080604020

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

leeftijd

Page 6: Help! Statistiek!

Lineaire regressie (formule)• We schatten de populatierelatie

• We nemen aan dat

iii XY 10

),0(N~ 2

80,0060,0040,00

leeft

159,00

156,00

153,00

150,00

147,00

144,00

141,00

sys

80,0060,0040,00

leeft

180,00

170,00

160,00

150,00

140,00

130,00

120,00

sys

Controleren!

Rechtlijnig verband van de gemiddeldenResiduen normaal verdeeld rond leeftijds-

gemiddelde, met dezelfde spreiding

Page 7: Help! Statistiek!

De geschatte regressielijn

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Waarom is dit de “best passende lijn”?

Page 8: Help! Statistiek!

De geschatte lijn

• De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is

Rond 1800Gauss en Legendre

Astronomie

Page 9: Help! Statistiek!

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

ukResidu e = verschiltussen waargenomenen voorspelde waarde

Minimaliseer 2ie

Page 10: Help! Statistiek!

Lineaire regressie in SPSSModel Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Page 11: Help! Statistiek!

SBP = 128,8 + 0,33*leeftijd,

bv, de geschatte bloeddruk van een 70-jarige:SBP = 128,8 + 0,33*70 = 151,9

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Toelichting SPSS uitdraai

P < 0,05

Page 12: Help! Statistiek!

De geschatte regressielijn

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

H0: β1 = 0 (geen lineair verband)

0

b0

Page 13: Help! Statistiek!

• De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen)

• Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel

• De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

ANalysis Of VAriance

Page 14: Help! Statistiek!

Regression Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

,003

,003

F = t²

Page 15: Help! Statistiek!

• R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r)

• R square = R in het kwadraat = SSregression /SStotal = de proportie verklaarde variantie

• Adjusted R square: reëlere schatting van R² in de populatie

• Standaard error of the estimate = gemiddelde grootte van een residu

Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

Page 16: Help! Statistiek!

Controle van de aannames

• Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie)

• Het verband tussen E(Y) en X is lineair (strooiingsdiagram)

• De residuen zijn normaal verdeeld (pplot)• De spreiding van de residuen is gelijk,

ongeacht de grootte van X (scatter)

Page 17: Help! Statistiek!

Normaliteit van de residuen

0,0 0,2 0,4 0,6 0,8 1,0

Observed Cum Prob

0,0

0,2

0,4

0,6

0,8

1,0Ex

pect

ed C

um P

rob

Dependent Variable: syst. bloeddruk begin

Normal P-P Plot of Regression Standardized Residual

Page 18: Help! Statistiek!

Normaliteit van de residuen

3210-1-2-3

Regression Standardized Residual

50

40

30

20

10

0

Freq

uenc

y

Mean =-1,21E-15Std. Dev. =0,998

N =278

Histogram

Dependent Variable: syst. bloeddruk

Page 19: Help! Statistiek!

Homogene spreiding van de residuen

-4 -3 -2 -1 0 1 2 3

Regression Standardized Predicted Value

-3

-2

-1

0

1

2

3

Reg

ress

ion

Stan

dard

ized

Res

idua

l

Dependent Variable: syst. bloeddruk begin

Scatterplot

Page 20: Help! Statistiek!

Lineaire regressie op deze data

10080604020

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

leeftijd

Page 21: Help! Statistiek!

10080604020

leeftijd

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

R Sq Linear = 0,168

Page 22: Help! Statistiek!

Controle aannames

1,00,80,60,40,20,0

Observed Cum Prob

1,0

0,8

0,6

0,4

0,2

0,0

Exp

ecte

d C

um P

rob

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: respons

3210-1-2-3-4

Regression Standardized Predicted Value

6

3

0

Reg

ress

ion

Sta

ndar

dize

d R

esid

ual

Scatterplot

Dependent Variable: respons

Overweeg een transformatie (bv logaritmisch) ofzoek naar een verbetering van je model

(toevoegen van variabelen)

De gebruikte testen zijn niet valide!

Page 23: Help! Statistiek!

Betrouwbaarheidsintervallen(gemiddelden)

Breedte BI verschilt per leeftijd

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Page 24: Help! Statistiek!

Predictie-intervallen(individueel)

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

R Sq Linear = 0,032

Page 25: Help! Statistiek!

Kan men een lineaire regressie uitvoeren als de verklarende

variabele dichotoom is?• Bijvoorbeeld wil men

weten of bloeddruk afhangt van het geslacht

Page 26: Help! Statistiek!

Kan men een lineaire regressie uitvoeren als de verklarende

variabele dichotoom is?

• Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht

0 0,2 0,4 0,6 0,8 1

geslacht

100

120

140

160

180

200

220

syst

. blo

eddr

uk b

egin

man vrouw

Page 27: Help! Statistiek!

Test van de richtingscoëfficiënt = gepoolde t-test

Linear Regression

0,00 0,25 0,50 0,75 1,00

geslacht

100

125

150

175

200

syst

. blo

eddr

uk b

egin

syst. bloeddruk begin = 147,74 + 7,22 * geslachtR-Square = 0,03man

vrouw

Gemiddelde mannen: 147,74

Gemiddelde vrouwen154,97

H0: β1=0

Maakt de gebruiktecodering iets uit?

Page 28: Help! Statistiek!

Verklarende variabelen:

• Continu: ok• Dichotoom: ok• Nominaal met meer dan twee categorieën:

maak dummy’s (hulpvariabelen)• Ordinaal: als er sprake lijkt van een

lineaire trend: ok, anders dummy’s

Page 29: Help! Statistiek!

Meervoudige lineaire regressie

• Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y?

• Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2?

Page 30: Help! Statistiek!

Relatie studie-uren en cijfer

2,00 4,00 6,00 8,00 10,00 12,00 14,00

studieuren

5,00

6,00

7,00

8,00

9,00

cijfe

r

Page 31: Help! Statistiek!

Linear Regression

2,50 5,00 7,50 10,00 12,50

studieuren

5,00

6,00

7,00

8,00

9,00ci

jfer

cijfer = 7,76 + -0,09 * studieurenR-Square = 0,09

Page 32: Help! Statistiek!

Conclusie van deze enkelvoudige regressie-analyse:

• Hoe langer je studeert hoe lager je cijfer• ?????• Wat gebeurt er als we rekening houden

met de vooropleiding van de respondenten?

Page 33: Help! Statistiek!

hoog laag

vooropleiding

2,50 5,00 7,50 10,00 12,50

studieuren

5,00

6,00

7,00

8,00

9,00ci

jfer

Page 34: Help! Statistiek!

hoog laag

vooropleiding

2,50 5,00 7,50 10,00 12,50

studieuren

0,00

4,00

8,00

12,00

cijfe

r

Page 35: Help! Statistiek!

Conclusie van deze meervoudige regressie-analyse

• In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studie-uren op het cijfer

• Dit effect is in beide groepen ongeveer gelijk• Als we geen rekening houden met de

vooropleiding, schatten we het effect van studie-uren op het cijfer totaal verkeerd

• Vooropleiding wordt een confounder genoemd

Page 36: Help! Statistiek!

Enkelvoudige lineaire Regressie Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Equivalentie van F-test en t-test

Leeftijd verklaart ongeveer 3%van de spreiding van bloeddruk

Wat gebeurt er als we geslacht toevoegen?

Page 37: Help! Statistiek!

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

vrouwman

geslacht

Page 38: Help! Statistiek!

Meervoudige lineaire regressieModel Summary

,223a ,050 ,043 21,523Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), geslacht, leeftijda.

ANOVAb

6639,944 2 3319,972 7,167 ,001a

127394,9 275 463,254134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), geslacht, leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011

5,972 2,630 ,136 2,271 ,024

(Constant)leeftijdgeslacht

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Page 39: Help! Statistiek!

Meervoudige lineaire regressieModel Summary

,223a ,050 ,043 21,523Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), geslacht, leeftijda.

ANOVAb

6639,944 2 3319,972 7,167 ,001a

127394,9 275 463,254134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), geslacht, leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011

5,972 2,630 ,136 2,271 ,024

(Constant)leeftijdgeslacht

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Leeftijd en geslacht verklaren samen ongeveer 5 % van de

spreiding van de bloeddrukANOVA toetst de H0 dat leeftijden geslacht samen niets verklaren

Geen equivalentie meer tussen F-test en t-test(en)

T-test van geslacht toetst de H0 dat geslacht niets verklaart, rekening houdend met leeftijdWas 0,33

Page 40: Help! Statistiek!

20 40 60 80 100

leeftijd

100

120

140

160

180

200

220

syst

. blo

eddr

uk b

egin

vrouwen (1)mannen (0)

SBP = 129 + 0,3*leeftijd + 6*geslacht

Page 41: Help! Statistiek!

NB

• Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie:- onafhankelijke data- lineair verband- normaal verdeelde residuen

- homogene spreiding van de residuen

Page 42: Help! Statistiek!

Twee continue verklarende variabelen

syst. bloeddruk begin = 127,58 + 0,38 * leeftijd + -0,21 * diabduR-Square = 0,04

Linear Regression

Page 43: Help! Statistiek!

Interactie• Als het effect van een verklarende variabele

beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie.

• Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie.

• In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen.

Page 44: Help! Statistiek!

Model met interactie

21322110 * XXXXY

Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de vergelijking voor niet rokers:

Y = β0 + β1*leeftijd + εMaar voor rokers:

Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε = β0 + β2 + (β1 + β3)*leeftijd + ε

Als de coëfficiënt van de interactieterm (β3) significant is, lopen de regressielijnen van rokers en niet-rokers niet parallel en spreken we van interactie (ook wel effectmodificatie genoemd).

Als de interactieterm significant is, horen de bijbehorende hoofdeffecten ook in het model!

Page 45: Help! Statistiek!

Voorbeeld van interactie

10080604020

220

200

180

160

140

120

100

syst

. blo

eddr

uk

rokenniet rokenroken2

leeftijd

Page 46: Help! Statistiek!

Hoe wordt een model opgebouwd?

• Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?)

• Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie

• Bouw het model stap voor stap op, te beginnen met de meest significante verklarende variabele

• Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren

Page 47: Help! Statistiek!

De term “regressie”

• Regressie = terugval• Wat heeft dat met een lineair verband te

maken?• Onderzoek van Francis Galton naar de

lengte van ouders en kinderen

Page 48: Help! Statistiek!

Regression to the mean

Francis Galton

y = x

Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886

Valkuil:Regressie naar het gemiddelde!

Page 49: Help! Statistiek!

Geen (normale) lineaire regressie

• Y dichotoom– Wel / geen verbetering na 1 uur

• Y categorisch (>2 categorieën)• Y ordinaal • Herhaalde waarnemingen

• Overlevingsduren

Logistische regressie

Repeated measures MANOVAMixed effects modelsMultilevel analyse

Survival analyse

Polytome logistische regressie

Ordinale logistische regressie

Page 50: Help! Statistiek!

Volgende keer …

• Woensdag 20 juni: Logistische regressie• Zie

http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie/courses

• Bedankt voor uw aandacht