Help! Statistiek!

Post on 14-Feb-2016

40 views 2 download

description

Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 18 april:“Welke toets wanneer?” 16 mei:“Lineaire regressie” (Lokaal 16 OC) - PowerPoint PPT Presentation

Transcript of Help! Statistiek!

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

18 april: “Welke toets wanneer?” 16 mei: “Lineaire regressie” (Lokaal 16 OC)20 juni: “Logistische regressie” (Lokaal 16 OC)19 september: ”Survival analyse”

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy PostDG Epidemiologie

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Lineaire regressie

• Wat is het?• Wanneer gebruiken we het (niet)?• Wat komt er allemaal bij kijken?• Waar komt de naam eigenlijk vandaan?

Enkelvoudige lineaire regressie

• Er is een continue responsievariabele Y

• Er is een verklarende variabele X

• We zijn geïnteresseerd in de relatie tussen Y en X

• We beschikken over onafhankelijke waarnemingen

• Een lineair verband lijkt redelijk

Bijvoorbeeld: systolische bloeddruk

Bijvoorbeeld: leeftijd

Relatie is niet symmetrisch!

Lineair verband?

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Lineair verband?

10080604020

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

leeftijd

Lineaire regressie (formule)• We schatten de populatierelatie

• We nemen aan dat

iii XY 10

),0(N~ 2

80,0060,0040,00

leeft

159,00

156,00

153,00

150,00

147,00

144,00

141,00

sys

80,0060,0040,00

leeft

180,00

170,00

160,00

150,00

140,00

130,00

120,00

sys

Controleren!

Rechtlijnig verband van de gemiddeldenResiduen normaal verdeeld rond leeftijds-

gemiddelde, met dezelfde spreiding

De geschatte regressielijn

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Waarom is dit de “best passende lijn”?

De geschatte lijn

• De populatie regressielijn wordt geschat met behulp van de kleinste kwadratenmethode: neem die lijn waarvoor de som van de gekwadrateerde residuen zo klein mogelijk is

Rond 1800Gauss en Legendre

Astronomie

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

ukResidu e = verschiltussen waargenomenen voorspelde waarde

Minimaliseer 2ie

Lineaire regressie in SPSSModel Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

SBP = 128,8 + 0,33*leeftijd,

bv, de geschatte bloeddruk van een 70-jarige:SBP = 128,8 + 0,33*70 = 151,9

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Toelichting SPSS uitdraai

P < 0,05

De geschatte regressielijn

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

H0: β1 = 0 (geen lineair verband)

0

b0

• De totale spreiding van SBP wordt gesplitst in een verklaard deel en een onverklaard deel (de residuen)

• Er wordt getoetst of het verklaarde deel net zo groot is als het onverklaarde deel

• De F-test is gelijkwaardig met de t-test voor β1 in een enkelvoudige lineaire regressie

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

ANalysis Of VAriance

Regression Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

,003

,003

F = t²

• R is de multiple correlatiecoëfficiënt (gelijk aan de absolute waarde van r)

• R square = R in het kwadraat = SSregression /SStotal = de proportie verklaarde variantie

• Adjusted R square: reëlere schatting van R² in de populatie

• Standaard error of the estimate = gemiddelde grootte van een residu

Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

Controle van de aannames

• Alle paren waarnemingen (X,Y) zijn onafhankelijk van elkaar (externe informatie)

• Het verband tussen E(Y) en X is lineair (strooiingsdiagram)

• De residuen zijn normaal verdeeld (pplot)• De spreiding van de residuen is gelijk,

ongeacht de grootte van X (scatter)

Normaliteit van de residuen

0,0 0,2 0,4 0,6 0,8 1,0

Observed Cum Prob

0,0

0,2

0,4

0,6

0,8

1,0Ex

pect

ed C

um P

rob

Dependent Variable: syst. bloeddruk begin

Normal P-P Plot of Regression Standardized Residual

Normaliteit van de residuen

3210-1-2-3

Regression Standardized Residual

50

40

30

20

10

0

Freq

uenc

y

Mean =-1,21E-15Std. Dev. =0,998

N =278

Histogram

Dependent Variable: syst. bloeddruk

Homogene spreiding van de residuen

-4 -3 -2 -1 0 1 2 3

Regression Standardized Predicted Value

-3

-2

-1

0

1

2

3

Reg

ress

ion

Stan

dard

ized

Res

idua

l

Dependent Variable: syst. bloeddruk begin

Scatterplot

Lineaire regressie op deze data

10080604020

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

leeftijd

10080604020

leeftijd

700,00

600,00

500,00

400,00

300,00

200,00

100,00

0,00

resp

ons

R Sq Linear = 0,168

Controle aannames

1,00,80,60,40,20,0

Observed Cum Prob

1,0

0,8

0,6

0,4

0,2

0,0

Exp

ecte

d C

um P

rob

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: respons

3210-1-2-3-4

Regression Standardized Predicted Value

6

3

0

Reg

ress

ion

Sta

ndar

dize

d R

esid

ual

Scatterplot

Dependent Variable: respons

Overweeg een transformatie (bv logaritmisch) ofzoek naar een verbetering van je model

(toevoegen van variabelen)

De gebruikte testen zijn niet valide!

Betrouwbaarheidsintervallen(gemiddelden)

Breedte BI verschilt per leeftijd

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

Predictie-intervallen(individueel)

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

R Sq Linear = 0,032

Kan men een lineaire regressie uitvoeren als de verklarende

variabele dichotoom is?• Bijvoorbeeld wil men

weten of bloeddruk afhangt van het geslacht

Kan men een lineaire regressie uitvoeren als de verklarende

variabele dichotoom is?

• Bijvoorbeeld wil men weten of bloeddruk afhangt van het geslacht

0 0,2 0,4 0,6 0,8 1

geslacht

100

120

140

160

180

200

220

syst

. blo

eddr

uk b

egin

man vrouw

Test van de richtingscoëfficiënt = gepoolde t-test

Linear Regression

0,00 0,25 0,50 0,75 1,00

geslacht

100

125

150

175

200

syst

. blo

eddr

uk b

egin

syst. bloeddruk begin = 147,74 + 7,22 * geslachtR-Square = 0,03man

vrouw

Gemiddelde mannen: 147,74

Gemiddelde vrouwen154,97

H0: β1=0

Maakt de gebruiktecodering iets uit?

Verklarende variabelen:

• Continu: ok• Dichotoom: ok• Nominaal met meer dan twee categorieën:

maak dummy’s (hulpvariabelen)• Ordinaal: als er sprake lijkt van een

lineaire trend: ok, anders dummy’s

Meervoudige lineaire regressie

• Hoe berekenen we het effect van een variabele (X1) op Y terwijl we rekening willen houden met het effect van een tweede variabele (X2) op Y?

• Maar eerst: waarom is het eigenlijk nodig om rekening te houden met X2?

Relatie studie-uren en cijfer

2,00 4,00 6,00 8,00 10,00 12,00 14,00

studieuren

5,00

6,00

7,00

8,00

9,00

cijfe

r

Linear Regression

2,50 5,00 7,50 10,00 12,50

studieuren

5,00

6,00

7,00

8,00

9,00ci

jfer

cijfer = 7,76 + -0,09 * studieurenR-Square = 0,09

Conclusie van deze enkelvoudige regressie-analyse:

• Hoe langer je studeert hoe lager je cijfer• ?????• Wat gebeurt er als we rekening houden

met de vooropleiding van de respondenten?

hoog laag

vooropleiding

2,50 5,00 7,50 10,00 12,50

studieuren

5,00

6,00

7,00

8,00

9,00ci

jfer

hoog laag

vooropleiding

2,50 5,00 7,50 10,00 12,50

studieuren

0,00

4,00

8,00

12,00

cijfe

r

Conclusie van deze meervoudige regressie-analyse

• In beide groepen, gevormd op grond van de vooropleiding, is een positief effect van studie-uren op het cijfer

• Dit effect is in beide groepen ongeveer gelijk• Als we geen rekening houden met de

vooropleiding, schatten we het effect van studie-uren op het cijfer totaal verkeerd

• Vooropleiding wordt een confounder genoemd

Enkelvoudige lineaire Regressie Model Summary

,178a ,032 ,028 21,685Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), leeftijda.

ANOVAb

4251,553 1 4251,553 9,041 ,003a

129783,2 276 470,229134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

128,767 7,573 17,004 ,000,334 ,111 ,178 3,007 ,003

(Constant)leeftijd

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Equivalentie van F-test en t-test

Leeftijd verklaart ongeveer 3%van de spreiding van bloeddruk

Wat gebeurt er als we geslacht toevoegen?

10080604020

leeftijd

220

200

180

160

140

120

100

syst

. blo

eddr

uk

vrouwman

geslacht

Meervoudige lineaire regressieModel Summary

,223a ,050 ,043 21,523Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), geslacht, leeftijda.

ANOVAb

6639,944 2 3319,972 7,167 ,001a

127394,9 275 463,254134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), geslacht, leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011

5,972 2,630 ,136 2,271 ,024

(Constant)leeftijdgeslacht

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Meervoudige lineaire regressieModel Summary

,223a ,050 ,043 21,523Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), geslacht, leeftijda.

ANOVAb

6639,944 2 3319,972 7,167 ,001a

127394,9 275 463,254134034,8 277

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), geslacht, leeftijda.

Dependent Variable: syst. bloeddruk beginb.

Coefficientsa

129,095 7,518 17,172 ,000,286 ,112 ,153 2,554 ,011

5,972 2,630 ,136 2,271 ,024

(Constant)leeftijdgeslacht

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: syst. bloeddruk begina.

Leeftijd en geslacht verklaren samen ongeveer 5 % van de

spreiding van de bloeddrukANOVA toetst de H0 dat leeftijden geslacht samen niets verklaren

Geen equivalentie meer tussen F-test en t-test(en)

T-test van geslacht toetst de H0 dat geslacht niets verklaart, rekening houdend met leeftijdWas 0,33

20 40 60 80 100

leeftijd

100

120

140

160

180

200

220

syst

. blo

eddr

uk b

egin

vrouwen (1)mannen (0)

SBP = 129 + 0,3*leeftijd + 6*geslacht

NB

• Voor een meervoudige lineaire regressie gelden dezelfde voorwaarden als voor een enkelvoudige lineaire regressie:- onafhankelijke data- lineair verband- normaal verdeelde residuen

- homogene spreiding van de residuen

Twee continue verklarende variabelen

syst. bloeddruk begin = 127,58 + 0,38 * leeftijd + -0,21 * diabduR-Square = 0,04

Linear Regression

Interactie• Als het effect van een verklarende variabele

beïnvloed wordt door een tweede verklarende variabele dan spreken we van interactie of effectmodificatie.

• Bijvoorbeeld als het effect van leeftijd op de bloeddruk bij rokers anders is dan bij niet rokers, is er sprake van interactie.

• In het lineair model wordt dan een interactieterm (bijvoorbeeld het product van leeftijd en roken) opgenomen.

Model met interactie

21322110 * XXXXY

Bijvoorbeeld als X1 = leeftijd, X2 = roken (0 = niet, 1 = wel) dan wordt de vergelijking voor niet rokers:

Y = β0 + β1*leeftijd + εMaar voor rokers:

Y = β0 + β1*leeftijd + β2*1 + β3*leeftijd*1 + ε = β0 + β2 + (β1 + β3)*leeftijd + ε

Als de coëfficiënt van de interactieterm (β3) significant is, lopen de regressielijnen van rokers en niet-rokers niet parallel en spreken we van interactie (ook wel effectmodificatie genoemd).

Als de interactieterm significant is, horen de bijbehorende hoofdeffecten ook in het model!

Voorbeeld van interactie

10080604020

220

200

180

160

140

120

100

syst

. blo

eddr

uk

rokenniet rokenroken2

leeftijd

Hoe wordt een model opgebouwd?

• Kijk eerst naar univariate analyses (welke variabelen hangen samen met Y?)

• Selecteer variabelen die mogelijk een rol spelen in de multivariate analyse op grond van een ruime alfa (0,25) en theorie

• Bouw het model stap voor stap op, te beginnen met de meest significante verklarende variabele

• Kijk alleen naar interacties tussen variabelen die sterk significant zijn of waarvan je op grond van theorie of literatuur verwacht dat ze interacteren

De term “regressie”

• Regressie = terugval• Wat heeft dat met een lineair verband te

maken?• Onderzoek van Francis Galton naar de

lengte van ouders en kinderen

Regression to the mean

Francis Galton

y = x

Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute 1886

Valkuil:Regressie naar het gemiddelde!

Geen (normale) lineaire regressie

• Y dichotoom– Wel / geen verbetering na 1 uur

• Y categorisch (>2 categorieën)• Y ordinaal • Herhaalde waarnemingen

• Overlevingsduren

Logistische regressie

Repeated measures MANOVAMixed effects modelsMultilevel analyse

Survival analyse

Polytome logistische regressie

Ordinale logistische regressie

Volgende keer …

• Woensdag 20 juni: Logistische regressie• Zie

http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie/courses

• Bedankt voor uw aandacht