Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden:...

57
Introductie tot de lineaire regressie Twee gemiddelden Meer gemiddelden Nog meer gemiddelden: Enkelvoudige regressie en correlatie Multiple lineaire regressie

Transcript of Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden:...

Page 1: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Introductie tot de lineaire regressie

Twee gemiddelden Meer gemiddelden Nog meer gemiddelden:

Enkelvoudige regressie en correlatie Multiple lineaire regressie

Page 2: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

RECAP: twee gemiddelden: t-test

Spreidingsdiagram

PROVINCIE

LE

NG

TE

160

165

170

175

180

185

190

195

200

205

Friesland Limburg

Page 3: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

RECAP: twee gemiddelden: t-test

±1.96*Std. Err.

±1.00*Std. Err.

Mean

Box & Whisker Plot: LENGTE

PROVINCIE

LE

NG

TE

172

174

176

178

180

182

184

186

Friesland Limburg

Page 4: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

RECAP: twee gemiddelden: t-test

Group Statistics

24 179,83 9,748 1,990

20 177,50 10,293 2,302

GROEPFriesland

Limburg

LENGTEN Mean Std. Deviation

Std. ErrorMean

Independent Samples Test

,000 ,993 ,771 42 ,445 2,33 3,027 -3,776 8,442

,767 39,696 ,448 2,33 3,042 -3,817 8,484

Equal variancesassumed

Equal variancesnot assumed

LENGTEF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Page 5: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Gewichtsverlies per groep

GROEP

VE

RL

IES

-2

0

2

4

6

8

10

12

14

A B C

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

Page 6: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot: gewichtsverlies per groep

GROEP

VE

RL

IES

-2

0

2

4

6

8

10

12

A B C

Page 7: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

RECAP: meerdere gemiddelden: variantie analyse (AN O VA)

Descriptives

VERLIES

10 2,9200 2,49880 ,79019 1,1325 4,7075 -1,00 6,80

10 6,5800 3,37369 1,06685 4,1666 8,9934 1,70 12,60

10 8,2000 2,23805 ,70774 6,5990 9,8010 4,10 11,80

30 5,9000 3,47424 ,63431 4,6027 7,1973 -1,00 12,60

1,00

2,00

3,00

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

ANOVA

VERLIES

146,328 2 73,164 9,697 ,001

203,712 27 7,545

350,040 29

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

VAR5

3,002,001,00

Me

an

of

VE

RL

IES

9

8

7

6

5

4

3

2

Page 8: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Inleiding

Doel: bestuderen van de relatie tussen twee continue variabelen X en Y

statistisch verband: associatie (# causaal verband); positief vs negatief

wanneer het doel is te weten of twee variabelen geassocieerd zijn:correlatie onderzoek

wanneer het doel is de ene variabele uit de andere te voorspellen:regressie onderzoek

Introductie tot de lineaire regressie

Page 9: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Stap 1: spreidingsdiagramma (scatterplot)Zijn DNA-index en proliferatieindex geassocieerd?

Page 10: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoekIntroductie tot de lineaire regressie

nummer systolische bloeddruk diastolische bloeddruk lichaamsgewicht

1 122.5 82.5 45

2 125 82.5 55

3 125 75 43

4 110 65 55

5 137.5 90 44

6 122.5 82.5 47

7 110 75 47

8 112.5 80 33

9 135 85 41

10 130 90 60

11 120 75 39

12 130 80 45

13 110 67.5 37

14 100 75 33

15 105 70 47

16 102.5 72.5 43

Gemiddelde 118.6 78 44.6

Stand. Dev. 11.7 7.4 7.5

Page 11: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoekIntroductie tot de lineaire regressie

Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177

DBD

SB

D

95

105

115

125

135

145

62 68 74 80 86 92

Page 12: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoekIntroductie tot de lineaire regressie

Spreidingsdiagram SBD tegen lichaamsgewichtCorrelation: r = ,30653

Lichaamsgewicht

SB

D

95

105

115

125

135

145

30 34 38 42 46 50 54 58 62

Page 13: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Stap 2: berekenen van een correlatiecoëfficiënt

PearsonSpearmanKendall

Waarde: -1 tot +1-1 en +1 geven perfect verband aan

Meest gebruikt: Pearson (productmoment-correlatiecoëfficiënt), rToets en betrouwbaarheidsinterval

Populatie correlatiecoëfficiënt:

Page 14: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie

22 )()(

))((

yyxx

yyxxr

ii

ii

Page 15: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoekIntroductie tot de lineaire regressie

y(SBD x(DBP) y-gem(y) x-gem(x) (y-gem(y))² (x-gem(x))² (y-gem(y))(x-gem(x))122,5 82,5 3,9 4,5 15,21 20,25 17,55

125 82,5 6,4 4,5 40,96 20,25 28,8125 75 6,4 -3 40,96 9 -19,2110 65 -8,6 -13 73,96 169 111,8

137,5 90 18,9 12 357,21 144 226,8122,5 82,5 3,9 4,5 15,21 20,25 17,55

110 75 -8,6 -3 73,96 9 25,8112,5 80 -6,1 2 37,21 4 -12,2

135 85 16,4 7 268,96 49 114,8130 90 11,4 12 129,96 144 136,8120 75 1,4 -3 1,96 9 -4,2130 80 11,4 2 129,96 4 22,8110 67,5 -8,6 -10,5 73,96 110,25 90,3100 75 -18,6 -3 345,96 9 55,8105 70 -13,6 -8 184,96 64 108,8

102,5 72,5 -16,1 -5,5 259,21 30,25 88,55

1897,5 1247,5 0 0 2049,6 815,25 110,55

Page 16: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie

78.0)25.815)(6.2049(

55.1010

)()(

))((

22

r

yyxx

yyxxr

ii

ii

Page 17: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie

Deel teller en noemer door n-1, dan is

22 )()(

))((

yyxx

yyxxr

ii

ii

YX

XY

SS

Sr

waarin SX en SY de steekproefstandaardafwijkingen zijn van X en Y en SXY is de zgn steekproefcovariantie van X en Y

1

))((

n

yyxxS iiXY

Page 18: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Covariantie: gevoelig voor mate van associatie

Introductie tot de lineaire regressie

LEEFTIJD vs. POLS

Correlation: r = ,17594

LEEFTIJD

PO

LS

55

60

65

70

75

80

85

90

95

100

15 20 25 30 35 40 45 50 55 60 65 70 75

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

Gemiddelde pols

Gemiddelde leeftijd

Page 19: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Introductie tot de lineaire regressie

Spreidingsdiagram SBD tegen DBDCorrelation: r = ,78177

DBD

SB

D

95

105

115

125

135

145

62 68 74 80 86 92

Covariantie: gevoelig voor mate van associatie

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

0))(( yyxx ii

Page 20: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Pearson productmoment-correlatiecoëfficiënt

Introductie tot de lineaire regressie

22 )()(

))((

yyxx

yyxxr

ii

ii

Test: Nul hypothese: correlatiecoëfficiënt is 0

Betrouwbaarheidsinterval

Page 21: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatiematrix

Introductie tot de lineaire regressie

Correlations

1 ,782** ,307

. ,000 ,248

16 16 16

,782** 1 ,208

,000 . ,440

16 16 16

,307 ,208 1

,248 ,440 .

16 16 16

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

SRR

DRR

GEWICHT

SRR DRR GEWICHT

Correlation is significant at the 0.01 level (2-tailed).**.

Page 22: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatiematrix

Introductie tot de lineaire regressie

Correlations (GEWICH~2.STA 3v*16c)

SRR

DRR

GEWICHT

Page 23: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Drie-dimensioneel:

Introductie tot de lineaire regressie

32,939 35,877 38,816 41,755 44,694 47,632 50,571 53,51 56,449 59,387 above

Quadratic Surface

SRR vs. DRR vs. GEWICHT

(Casewise deletion of missing data)

Page 24: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Regression95% confid.

DNAIND vs. PROLIND

(PROLIND = ,30681 + 8,3624 * DNAIND)

Correlation: r = ,48856

DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Page 25: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Regression95% confid.

DIAM vs. DNAIND (Casewise MD deletion)

DNAIND = -1,189 + ,34627 * DIAM

Correlation: r = ,71806

DIAM

DN

AIN

D

0,2

0,8

1,4

2,0

2,6

3,2

5 6 7 8 9 10

Page 26: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Regression95% confid.

DIAM vs. DIAM2 (Casewise MD deletion)

DIAM2 = 0,0000 + 2,0000 * DIAM

Correlation: r = 1,0000

DIAM

DIA

M2

10

12

14

16

18

20

5 6 7 8 9 10

Page 27: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Contraindicaties, voorwaarden

X en Y: bivariate normaalverdelingLineariteitUitbijters

DNAIND

PL

OID

BA

L

-60

-40

-20

0

20

40

60

80

100

120

0,2 0,8 1,4 2,0 2,6 3,2

DNAIND

PL

OID

BA

L

-60

-40

-20

0

20

40

60

80

100

120

0,2 0,8 1,4 2,0 2,6 3,2

Page 28: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Correlatie-onderzoek

Introductie tot de lineaire regressie

Voorwaarden niet voldaan

Niet parametrische equivalent:

SPEARMAN Correlatiecoëfficiënt

Page 29: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie (simple linear regression)

Introductie tot de lineaire regressie

X en Y: spelen verschillende rolY (afhankelijke variabele) wordt verklaard door X (onafhankelijke variabele)

X-en moeten geen aselecte steekproef zijnEr mag evenwel niet geselecteerd worden voor Y.

Eerste stap: spreidingsdiagramma

Y heeft voor elke waarde van X een kansverdeling met als gemiddelde µ(x)Doel regressie-analyse: het maken van een schatting van µ(x) voor elke waarde van x

µ(x) = alfa + beta.xalfa en beta worden geschat (a en b).

Page 30: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Stap 1: spreidingsdiagramma (scatterplot)

Page 31: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Regression95% confid.

DNAIND vs. PROLIND (Casewise MD deletion)

PROLIND = 0,30681 + 8,3624 * DNAIND

(Correlation: r = ,48856)

DNAIND

PR

OL

IND

-5

0

5

10

15

20

25

30

35

0,2 0,8 1,4 2,0 2,6 3,2

Page 32: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Voor elke observatie is Y e (het residu) verwijderd van de verwachte waarde

X iii eXY

ei

iii eXY

Page 33: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Verwachte waarde van residu (e) = 0

Criterium: ‘kleinste kwadratencriterium’ (least squares)d.w.z. dat de som van de gekwadrateerde geschatte residuen minimaal is:

Berekening van de richtingscoëfficient wordt dan:

(de covariantie tussen X en Y gedeelt door de steekproefvariantie van X)

n

iii

n

iii XYYYSSE

11)².()²(),(

iii eXY

2)(

))((

xx

yyxxb

i

ii

Page 34: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

SpreidingsdiagramLeeftijd vs bloeddruk

20 Vrouwen

LEEFTIJD

Sys

tolis

che

blo

ed

dru

k

80

100

120

140

160

180

15 25 35 45 55 65 75

Page 35: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Nummer x(lft) y(SBD) x-gem y-gem (x-gem)² (y-gem)² (x-gem)(y-gem)1 20 105 -24 -17,25 576 297,5625 4142 23 105 -21 -17,25 441 297,5625 362,253 25 125 -19 2,75 361 7,5625 -52,254 28 107,5 -16 -14,75 256 217,5625 2365 31 137,5 -13 15,25 169 232,5625 -198,256 35 127,5 -9 5,25 81 27,5625 -47,257 37 105 -7 -17,25 49 297,5625 120,758 39 120 -5 -2,25 25 5,0625 11,259 40 112,5 -4 -9,75 16 95,0625 39

10 43 120 -1 -2,25 1 5,0625 2,2511 45 120 1 -2,25 1 5,0625 -2,2512 47 120 3 -2,25 9 5,0625 -6,7513 50 147,5 6 25,25 36 637,5625 151,514 52 95 8 -27,25 64 742,5625 -21815 54 127,5 10 5,25 100 27,5625 52,516 54 130 10 7,75 100 60,0625 77,517 60 132,5 16 10,25 256 105,0625 16418 62 117,5 18 -4,75 324 22,5625 -85,519 65 120 21 -2,25 441 5,0625 -47,2520 70 170 26 47,75 676 2280,063 1241,5

Som 880 2445 0 0 3982 5373,75 2215

Page 36: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

556,03982

2215

)(

))((2

b

xx

yyxxb

i

ii

8,97

44556,025,122

a

a

xbya

Page 37: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Relatie correlatie & lineaire regressie

Introductie tot de lineaire regressie

22)(

))((

X

XY

i

ii

s

s

xx

yyxxb

YX

XY

ii

ii

ss

s

yyxx

yyxxr

22 )()(

))((

Y

X

s

sbr

Als r nul is, is ook b nul

Page 38: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Verklaarde variantie

Introductie tot de lineaire regressie

222.

222.

)1(

)1(2

1

YxY

YxY

srs

srn

ns

Hoe goed men Y kan voorspellen op basis van gemiddelde: hangt af van variabiliteit

Bij gebruik X hangt de variabiliteit af van de variabiliteit van Y voor een gegeven waarde van Xr² kan geïnterpreteerd worden als de relatieve reductie van de variabiliteit van Y door gebruik te maken van de regressie van Y op Xr² x 100% is het percentage door X ‘verklaarde variantie’

Page 39: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Regression95% confid.

LEEFTIJD vs. SBD

SBD = 97,775 + ,55625 * LEEFTIJD

Correlation: r = ,47883

LEEFTIJD

SB

D

80

100

120

140

160

180

15 25 35 45 55 65 75

Page 40: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Enkelvoudige lineaire regressie

Introductie tot de lineaire regressie

Voorwaarden:

Lineariteit: de relatie tussen Y en X is lineair (som residuen 0)Gelijke varianties: de standaardafwijking van Y is voor alle waarden van X

gelijk (variantie van e constant)Normaliteit: voor elke waarde van X volgt Y een normale verdeling (e

normaal)

Evaluatie:

op basis van spreidingsdiagrammaop basis van residuenplot

Page 41: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Inleiding: multiple regressie

Meerdere onafhankelijke variabelen:

Multiple of multivariate regressie ?

Voorspellen Y of wegwerken verstoring ?

Typeverdeling Y Regressiemodel

normaal multiple lineaire regressiedichotoom multiple logistische regressiePoisson Poisson regressieoverlevingsduurgegevens Cox proportionele hazard regressie

Page 42: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Multiple lineaire regressie

Veronderstelling:

Y normaal verdeeld met gemiddelde:

Verdeling X-en: geen eisenaselect, select, gestratificeerd…

Y is wel aselect getrokken gegeven de waarden van de verschillende X-en

Regressiecoëfficiënten: gemiddelde toename van Y bij de toename vanéén eenheid X.geeft de invloed van X weer, gecorrigeerd voor de andere X-en.

pp XXX ...... 2211

Page 43: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Multiple lineaire regressie

Alternatieve formulering:

waarbij e een normaal verdeling volgt met als gemiddelde 0 en onbekende standaardafwijking sigma, die niet van de Xi’s afhangt.

De regressiecoëfficiënten worden opnieuw geschat door gebruik te maken van het kleinste kwadratencriterium

moet minimaal zijn.

Schattingen (+ se (p-waarde) en betrouwbaarheidsintervallen): computerprogramma nodig

eXXXY pp ...... 2211

)²......( 22111

pipii

n

ii XXXY

Page 44: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

Medisch onderzoeker heeft in een ontwikkelingsland uit enkele plattelandsdorpen 31 mensen willekeurig geselecteerd.

Bij hen werd de systolische bloeddruk, het lichaamsgewicht, de leeftijd en de polsfrequentie gemeten.

Aan de hand van een multiple regrssie wordt nagegaan hoe de systolische bloeddruk afhangt van gewicht, leeftijd en polsslag.

afhankelijke variabele : Y (systolische bloeddruk in mm Hg)onafhankelijke variabelen : X1 (gewicht in kg)

X2 (leeftijd in jaren)X3 (polsfrequentie in slagen/minuut)

Page 45: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Analyse:– Eerst enkelvoudige regressies– Onderlinge correlaties tussen X-en?– Multiple lineaire regressie

» Schatten van de intercept en van de regressiecoëfficiënten kleinste kwadratencriterium computerprogramma nodig standaardfouten voor de coëfficiënten en p-waarde voor toetsing nul-hypothese (regressiecoëfficiënt = 0)

» Interpretatie cave: causaliteit?

Page 46: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

Regression95% confid.

GEWICHT vs. SYSTBLDR

SYSTBLDR = 87,084 + ,63267 * GEWICHT

Correlation: r = ,49944

GEWICHT

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

25 35 45 55 65 75 85 95

Page 47: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

Regression95% confid.

LEEFTIJD vs. SYSTBLDR

SYSTBLDR = 107,69 + ,38975 * LEEFTIJD

Correlation: r = ,34415

LEEFTIJD

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

15 25 35 45 55 65 75

Page 48: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

Regression95% confid.

POLS vs. SYSTBLDR

SYSTBLDR = 67,423 + ,68690 * POLS

Correlation: r = ,42632

POLS

SY

ST

BL

DR

90

100

110

120

130

140

150

160

170

55 60 65 70 75 80 85 90 95 100

Page 49: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

GEWICHT vs. POLS

Correlation: r = ,17657

GEWICHT

PO

LS

55

60

65

70

75

80

85

90

95

100

25 35 45 55 65 75 85 95

Page 50: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

LEEFTIJD vs. POLS

Correlation: r = ,17594

LEEFTIJD

PO

LS

55

60

65

70

75

80

85

90

95

100

15 25 35 45 55 65 75

Page 51: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

LEEFTIJD vs. GEWICHT

Correlation: r = ,36546

LEEFTIJD

GE

WIC

HT

25

35

45

55

65

75

85

95

15 25 35 45 55 65 75

Page 52: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Analyse:– Variantieanalyse tabel

» afwijking yi t.o.v. gemiddelde y is de regressiecomponent + de residuele component

» kwadratensommen

» F-toets

» R²

n

iii

n

ii

n

ii yyyyyy

1

2

1

2

1

2 )ˆ()ˆ()(

)ˆ()ˆ( iiii yyyyyy

tot

reg

SS

SSR 2

res

reg

MS

MSF

Page 53: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

ANOVAb

2493,057 3 831,019 5,636 ,004a

3980,814 27 147,438

6473,871 30

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.

Dependent Variable: SYSTBLDRb.

Model Summary

,621a ,385 ,317 12,14Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), POLS, LEEFTIJD, GEWICHTa.

Coefficientsa

46,258 20,783 2,226 ,035

,492 ,207 ,388 2,376 ,025

,163 ,185 ,144 ,880 ,386

,536 ,249 ,332 2,152 ,040

(Constant)

GEWICHT

LEEFTIJD

POLS

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: SYSTBLDRa.

Page 54: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Inspectie - Inspectie +

0

20

40

60

80

100

Geen hoge koorts

Hoge koorts

Prevalentie als een functie van het diagnostisch profiel

Prev= 0.04 + 0.25(koorts) + 0.41(inspectie)

multiple lineaire regressie

Streptococcen infectie

Ja Neen totaal

inspectie + hoge koorts 104 45 149

geen hoge koorts 270 330 600

inspectie - hoge koorts 177 435 612

geen hoge koorts 3 72 75

totaal 554 882 1436

Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen

Multiple lineaire regressie

Page 55: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Prevalentie als een functie van het diagnostisch profiel

Prev= 0.04 + 0.25(koorts) + 0.41(inspectie) + 0.20(inspectie)(koorts)

Streptococcen infectie

Ja Neen totaal

inspectie + hoge koorts 134 15 149

geen hoge koorts 270 330 600

inspectie - hoge koorts 177 435 612

geen hoge koorts 3 72 75

totaal 554 882 1436

Voorbeeld: diagnose van streptococcen keelontsteking gebaseerd op klinische bevindingen

Inspectie - Inspectie +

0

20

40

60

80

100

Geen hoge koorts

Hoge koorts

interactieterm

Multiple lineaire regressie

Page 56: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

Page 57: Introductie tot de lineaire regressie l Twee gemiddelden l Meer gemiddelden l Nog meer gemiddelden: l Enkelvoudige regressie en correlatie l Multiple lineaire.

Multiple lineaire regressie

Voorbeeld

http://faculty.vassar.edu/lowry/webtext.html