HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE...

22
Theorie Statistiek – Les 14 1 HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Transcript of HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE...

Page 1: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

Theorie Statistiek – Les 14 1

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Page 2: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 2

DATA STRUKTUUR

Afhankelijke variabele: Eén kontinue variabele

Onafhankelijke variabele(n):

- één discrete variabele: één gecontroleerde factor

- twee discrete variabelen: twee gecontroleerde factoren

- n discrete variabelen: n gecontroleerde factoren

- n continue variabelen: REGRESSIE ANALYSE

- discrete en continue variabelen:

COVARIANTIE ANALYSE = ANCOVA

Page 3: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 3

Voorbeeld : Vergelijking van haemoglobine bij patienten die lijden aan drie ziekten

Diagnose Ziekte A Ziekte B Ziekte C

Metingen 13 13 15 12 9 10 11 10 10 7 6 6 8

Aantal metingen

4 5 4

Gemiddelde 13,25 10,00 6,75

Voor iedere groep zijn er verschillende waarnemingen, dit zijn de replicaties.

Vraag: Is het gemiddeld gehalte aan haemoglobine gelijk voor de drie ziekten ?

Page 4: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 4

Men wenst na te gaan of de drie gemiddelden gelijk zijn. Dit komt overeen met de nulhypothese:

H0: µ1 = µ2 = µ3

Hiervoor gebruikt men variantie analyse met één gecontroleerde factor (één discrete variabele), nl. de ziekte

Page 5: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 5

Methodologie: De totale variabiliteit wordt gesplitst in twee delen:

1) de variabiliteit van de metingen voor eenzelfde ziekte (INTRA)

2) de variabiliteit tussen ziekten (INTER)

Het effect van de factor (ziekte) wordt getoetst door de twee bronnen van variabiliteit te vergelijken.

Page 6: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 6

Een maat voor de totale variabiliteit wordt gegeven door:

~S 2 = 11

2

1nx xi

i

n

−−∑

=( )

= 11n −

KS(totaal)

KS(totaal) = totale kwadratensom

KS(totaal) = ( )x xii

n−∑

=

2

1

= x xnii

i

n 22

1−∑

=

( )

Page 7: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 7

In het voorbeeld:

xii

n 2

1=∑ = 132 + 132 + 152 + 122 + 122 + ... = 1394

xii

n

=∑

1 = 13 + 13 + 15 + 12 + 12 + ... = 130

KS(totaal) = 1394 - 130 13013× = 1394 - 1300 = 94

Page 8: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 8

KS(totaal) wordt gesplitst in twee delen

- deel 1: KS(factor) komt overeen met INTER variabiliteit

- deel 2: KS(residu) (of fout) komt overeen met INTRA variabiliteit

Page 9: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 9

KS(factor) = deel te wijten aan de ziekte

= j

j jn x x=∑ −

1

3 2( )

= ( )( )C

nCn

Cn

x

n

ii1

2

1

22

2

32

3

2

1

13

+ + −∑=

waar:

nj = aantal metingen voor ziekte j

x j = gemiddelde voor ziekte j

Cj = som der metingen voor ziekte j

In het voorbeeld:

KS(ziekte) = ( )534

505

274

13013

2 2 2 2+ + −

= 1384,5 - 1300

= 84,5

Page 10: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 10

KS(residu) = deel te wijten aan de variabiliteit binnen elke ziekte

= ( )x xii

j=∑ −

1

13 2

= xii

2

1

13

=∑ - ( )C

nCn

Cn

12

1

22

2

32

3+ +

In het voorbeeld:

KS(residu) = 1394 - 1384,5

= 9,5

Page 11: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 11

KS (totaal) = KS (factor) + KS (residu)

94 = 84,5 + 9,5

Page 12: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 12

VRIJHEIDSGRADEN

Voor iedere term wordt de variantie geschat door de kwadraatsom te delen door het aantal vrijheidsgraden

Het aantal vrijheidsgraden (VG) geeft aan hoeveel termen van een som kunnen worden veranderd zonder het totaal te veranderen.

Men heeft voor de verschillende termen:

KS(totaal) ➾ VG(totaal) = n - 1

KS(ziekte) ➾ VG(ziekte) = k - 1

KS(residu) ➾ VG(residu) = (n - 1) - (k - 1) = n - k

Het aantal vrijheidsgraden van het residu wordt ook gegeven door:

(n1-1) + (n2-1) + (n3-1) + ....

= n - k

Page 13: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 13

VARIANTIE ANALYSE TABEL

In de laatste kolom komen de gemiddelde kwadraatsommen:

GK = KS / VG

Bron van variatie KS VG GK

Ziekte

Residu

Totaal

Page 14: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 14

VARIANTIE ANALYSE TABEL

De nulhypothese wordt nagegaan door middel van een F-toets. Hiervoor moeten de volgende voorwaarden worden voldaan:

• Normale verdeling van de residuën

• Gelijke variantie in de verschillende groepen

• Onafhankelijkheid van de waarnemingen

Bron van variatie KS VG GK

Ziekte 84,5 2 42,25

Residu 9,5 10 0,95

Totaal 94,0 12

Page 15: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 15

TOETS OP GELIJKHEID VAN GEMIDDELDEN

F = GK (factor) / GK (residu)

= INTER / INTRA

In het voorbeeld:

F = 42,25 / 0,95 = 44,47

Men vergelijkt deze waarde met deze in een tabel voor de Fisher verdeling met 2 en 10 vrijheidsgraden.

Men gebruikt een éénzijdige tabel (de F-verdeling is een positieve verdeling).

De gevonden waarde op het 5% niveau is 4,10.

Page 16: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 16

CONCLUSIE

Men verwerpt de nulhypothese omdat de berekende waarde groter is dan de waarde in de tabel, op het 5% niveau (4,10).

De GK (ziekte) is veel groter dan de GK (residu):

p < 0,05 (en zelfs p < 0,005)

Het besluit is dat het gemiddeld haemoglobine niveau verschillend is voor patienten met de drie aandoeningen.

Page 17: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 17

OPSPOREN VAN VERSCHILLEN

Indien de globale F-toets een significant verschil tussen de groepen aantoont worden bijkomende toetsen gebruikt om na te gaan tussen welke groepen deze bestaan:

de RANGE toetsen.

Veelgebruikte range toetsen zijn de SNK toets (STUDENT-NEUMANN-KEULS) en de SCHEFFE toets

Page 18: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 18

VOORBEELD VAN COMPUTER PROGRAMMA

Met SPSS kan men variantieanalyse modellen gebruiken met de algemene instruktie ANOVA of met de instruktie ONEWAY (voor ANOVA met één gecontroleerde factor)

Deze laatste instruktie geeft voor het voorbeeld de volgende output:

Page 19: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 19

WISKUNDIGE MODELLEN

Het doel is de verklaring van een waarneming.

In een model met één gecontroleerde factor hangt de waarneming af van deze factor en van het residu

yij = µ + αj + εij

waar

µ = algemeen gemiddelde

αj = afwijking door niveau j van de factor

εij = afwijking te wijten aan de meting (residu)

Page 20: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 20

VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN

Veronderstel dat twee discrete factoren een invloed hebben op de meting, bv. ziekte en geslacht.

Een mogelijk wiskundig model is:

yijh = µ + αj + βh + εijh

waar

µ = algemeen gemiddelde

αj = afwijking voor ziekte j

βh = afwijking voor geslacht met code h

εijh = afwijking te wijten aan de meting (residu)

code voor geslacht:

h = 1: man h = 2: vrouw

Page 21: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 21

VARIANTIE ANALYSE MET TWEE GECONTROLEERDE FACTOREN EN INTERACTIE

Interactie tussen ziekte en geslacht betekent dat het verschil tussen de ziekten verschillend is bij mannen en vrouwen (voorbeeld: voor mannen een groot verschil en voor vrouwen geen verschil).

Om dit te onderzoeken kan volgend model worden gebruikt:

yijh = µ + αj + βh + γjh + εijh

waar

µ = algemeen gemiddelde

αj = afwijking voor ziekte j

βh = afwijking voor geslacht h

γjh = interactie term

εijh = afwijking te wijten aan de meting (residu)

Page 22: HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)minf.vub.ac.be/~rbuyl/cursus/H8.pdf · VARIANTIE ANALYSE (ANOVA) 3 Theorie Statistiek – Les 14 Voorbeeld : Vergelijking van haemoglobine

VARIANTIE ANALYSE (ANOVA)

Theorie Statistiek – Les 14 22

VARIANTIE ANALYSE VOOR HERHAALDE METINGEN

Wanneer verschillende metingen worden uitgevoerd voor elk object (of elke patient) wordt de analyse uitgevoerd met variantie analyse voor herhaalde metingen.

Een bijzonder geval is de

PRE-TEST POST-TEST ANALYSE

Model met twee medicaties (A en B) en twee perioden (vóór en na de behandeling).

Men onderzoekt drie effekten:

1) Interactie tussen behandeling en tijd: Is de evolutie in de tijd dezelfde voor de twee behandelingen?

2) Effect van de tijd: Is er een globale evolutie tijdens de behandeling?

3) Effect van de behandeling: Is er een globaal verschil tussen behandelingen?