Help! Statistiek!

29
Help! Statistiek! Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 mei multiple testing 18 juni statistische aspecten van de probiotica studie 17 sept Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

description

Help! Statistiek!. Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 mei multiple testing 18 junistatistische aspecten van de probiotica studie 17 sept… - PowerPoint PPT Presentation

Transcript of Help! Statistiek!

Page 1: Help! Statistiek!

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

21 mei multiple testing18 juni statistische aspecten van de probiotica studie17 sept …

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post

DG Epidemiologie

www.EpidemiologyGroningen.nl

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Page 2: Help! Statistiek!

Multiple testing

• Wat is het (klassieke) probleem?

• “klassieke” oplossingen

• Recenter probleem

• Nieuwe oplossingen

Page 3: Help! Statistiek!

Fouten van eerste en tweede soortbij het uitvoeren van een statistische toets

Beslissing

H0 waar H0 niet waar

Werkelijkheid H0 waar OK Fout van de eerste soort, kans hierop: α

H0 niet waar Fout van de tweede soort, kans hierop: β

OK

Hebben mannen en vrouwen gemiddeld dezelfde bloeddruk (BD)?H0: gemiddelde BD mannen = gemiddelde BD vrouwen

Page 4: Help! Statistiek!

Het klassieke probleem van de multiple testing

• Bij een statistische toets hanteren we significantieniveau α (in de regel 0,05). Dat wil zeggen dat we een kans ter grootte van α accepteren om ten onrechte de nulhypothese te verwerpen

• Dit wordt ook wel de Comparison-wise error rate (CWER) genoemd

• Wat betekent het uitvoeren van meerdere onafhankelijke toetsen voor de totale kans om minstens één nulhypothese ten onrechte te verwerpen (als alle nulhypothesen waar zijn)?

“Overall alpha”Family-wise error rate (FWER)Kanskapitalisatie!

Page 5: Help! Statistiek!

FWER en CWER

Als we n onafhankelijke toetsen uitvoeren, elk met een CWER = 0,05, geldt

nFWER )95,0(1

Aantal toetsen overall alphan FWER

3 0,14310 0,401100 0,994

Page 6: Help! Statistiek!

Klassieke oplossingen

In een ANOVA worden k groepen met elkaar vergeleken met betrekking tot een normaal verdeelde responsievariabele Y.

end verschillzijn ngemiddelde tweeminstens :

... :

1

210

H

H k

Als de ANOVA significant is, willen we weten welke groepenverschillen. Als we alle paarsgewijze vergelijkingen willen

doen, moeten we toetsen uitvoeren.2

)1(*

2

kkkn

Bijvoorbeeld: 4 groepen 4*3/2 = 6 toetsen

Page 7: Help! Statistiek!

Post-hoc toetsen• Zorg dat je de FWER (overall-alpha) beheerst na een ANOVA• Er zijn vele Post-hoc toetsen, optimaal onder verschillende

omstandigheden, o.a.- LSD: paarsgewijze t-toetsen met

SD op basis van alle groepen- Bonferroni: als LSD met aangepaste α per toets

CWER = α / (aantal uitgevoerde toetsen) (in SPSS aangepaste P-waarde)

- Bonferroni-Holm: step-down procedure op geordende P-waarden (verschillende α per toets)

- Tukey: gebaseerd op kritieke waarden uit de “studentized range statistic”

- Scheffé: voor lineaire combinaties van gemiddelden

Page 8: Help! Statistiek!

Post-hoc toetsen in SPSS

Page 9: Help! Statistiek!

Multiple Comparisons

Dependent Variable: syst.bloeddr.93

-1,868 4,923 ,704 -11,53 7,79-5,352 4,886 ,273 -14,94 4,23

-11,311* 5,160 ,029 -21,43 -1,191,868 4,923 ,704 -7,79 11,53

-3,484* 1,419 ,014 -6,27 -,70-9,443* 2,185 ,000 -13,73 -5,165,352 4,886 ,273 -4,23 14,943,484* 1,419 ,014 ,70 6,27

-5,959* 2,099 ,005 -10,08 -1,8411,311* 5,160 ,029 1,19 21,439,443* 2,185 ,000 5,16 13,735,959* 2,099 ,005 1,84 10,08

-1,868 4,923 1,000 -14,88 11,14-5,352 4,886 1,000 -18,26 7,56

-11,311 5,160 ,171 -24,95 2,321,868 4,923 1,000 -11,14 14,88

-3,484 1,419 ,085 -7,23 ,27-9,443* 2,185 ,000 -15,22 -3,675,352 4,886 1,000 -7,56 18,263,484 1,419 ,085 -,27 7,23

-5,959* 2,099 ,028 -11,50 -,4111,311 5,160 ,171 -2,32 24,959,443* 2,185 ,000 3,67 15,225,959* 2,099 ,028 ,41 11,50

(J) bmiklassebmi 20 - <25bmi 25 - <30bmi >= 30bmi < 20bmi 25 - <30bmi >= 30bmi < 20bmi 20 - <25bmi >= 30bmi < 20bmi 20 - <25bmi 25 - <30bmi 20 - <25bmi 25 - <30bmi >= 30bmi < 20bmi 25 - <30bmi >= 30bmi < 20bmi 20 - <25bmi >= 30bmi < 20bmi 20 - <25bmi 25 - <30

(I) bmiklassebmi < 20

bmi 20 - <25

bmi 25 - <30

bmi >= 30

bmi < 20

bmi 20 - <25

bmi 25 - <30

bmi >= 30

LSD

Bonferroni

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound95% Confidence Interval

The mean difference is significant at the .05 level.*.

Page 10: Help! Statistiek!

Multiple Comparisons

Dependent Variable: syst.bloeddr.93

-1,868 4,923 ,981 -14,53 10,80-5,352 4,886 ,692 -17,92 7,22

-11,311 5,160 ,126 -24,59 1,961,868 4,923 ,981 -10,80 14,53

-3,484 1,419 ,068 -7,14 ,17-9,443* 2,185 ,000 -15,06 -3,825,352 4,886 ,692 -7,22 17,923,484 1,419 ,068 -,17 7,14

-5,959* 2,099 ,024 -11,36 -,5611,311 5,160 ,126 -1,96 24,599,443* 2,185 ,000 3,82 15,065,959* 2,099 ,024 ,56 11,36

-1,868 4,923 1,000 -14,88 11,14-5,352 4,886 1,000 -18,26 7,56

-11,311 5,160 ,171 -24,95 2,321,868 4,923 1,000 -11,14 14,88

-3,484 1,419 ,085 -7,23 ,27-9,443* 2,185 ,000 -15,22 -3,675,352 4,886 1,000 -7,56 18,263,484 1,419 ,085 -,27 7,23

-5,959* 2,099 ,028 -11,50 -,4111,311 5,160 ,171 -2,32 24,959,443* 2,185 ,000 3,67 15,225,959* 2,099 ,028 ,41 11,50

(J) bmiklassebmi 20 - <25bmi 25 - <30bmi >= 30bmi < 20bmi 25 - <30bmi >= 30bmi < 20bmi 20 - <25bmi >= 30bmi < 20bmi 20 - <25bmi 25 - <30bmi 20 - <25bmi 25 - <30bmi >= 30bmi < 20bmi 25 - <30bmi >= 30bmi < 20bmi 20 - <25bmi >= 30bmi < 20bmi 20 - <25bmi 25 - <30

(I) bmiklassebmi < 20

bmi 20 - <25

bmi 25 - <30

bmi >= 30

bmi < 20

bmi 20 - <25

bmi 25 - <30

bmi >= 30

Tukey HSD

Bonferroni

MeanDifference

(I-J) Std. Error Sig. Lower Bound Upper Bound95% Confidence Interval

The mean difference is significant at the .05 level.*.

Page 11: Help! Statistiek!

Multiple testing is niet alleen een ANOVA probleem

• Bij meervoudige lineaire regressie speelt eveneens het probleem van kanskapitalisatie

• Vergelijk ANOVA met lineaire regressie met een nominale verklarende variabele

• Toetsen van diverse lineaire modellen geeft ook kanskapitalisatie

1122110 * ... ** kk dummydummydummyY

Page 12: Help! Statistiek!

Parametervrije toetsen

• Wat te doen na een significante Kruskal-Wallis?– Paarsgewijze Mann-Whitney toetsen met Bonferroni

gecorrigeerde P-waarden?– Conover (Practical nonparametric statistics, 1999):

21

21

2)

11()

1(|| 2

1jij

j

i

i

nnkN

TNSt

n

R

n

R

Page 13: Help! Statistiek!

Recenter probleem:Micro-array analyse

• Bij toetsen op duizenden genen is de klassieke manier (beheersen van FWER) te conservatief

• Voorselectie van interessante genen: een vals positief resultaat is niet zo’n ramp terwijl een vals negatief resultaat als meer vervelend wordt ervaren– Hedenfalk e.a. (2001); 3226 genen bij vrouwen met

borstkanker (BRCA1-gen versus BRCA2-gen)

• We zoeken een ander criterium: de FDR (false discovery rate)

Page 14: Help! Statistiek!

Sequentiële FDR(Benjamini en Hochberg, 1995)

• FDR = de verwachte proportie van de verworpen nulhypotheses die ten onrechte verworpen is

niet significant totaalsignificant

Ware nulhypothesen U V m0

Niet ware nulhypothesen T S m1

m – R R m

FDR = E(V/R)

Alleen Rwordt waargenomen!

Alleen mbekend

Page 15: Help! Statistiek!

De FDR

niet significant totaalsignificant

Ware nulhypothesen U V m0Niet ware nulhypothesen T S m1

m – R R m

Benjamini en Hochberg (1995):

als alle nulhypothesen waar zijn, dus T = S = m1 = 0, heeft het

controleren van de FDR tot gevolg dat de FWER gecontroleerd wordt

(dus de overall-alpha blijft binnen de gedefinieerde grens)

Page 16: Help! Statistiek!

Over de FDR

• Als er in werkelijkheid wel nulhypothesen onwaar zijn, is FDR kleiner of gelijk aan FWER. Controle van FDR betekent niet langer controle van FWER, maar geeft meer power.

• Hoe meer nulhypotheses onwaar zijn, hoe groter de winst in power

Page 17: Help! Statistiek!

Multiple testing volgens Benjamini en Hochberg:

Sequentiële FDR procedure

• m nulhypothesen: H1, H2, … , Hm

• m P-waarden: P1, P2, … , Pm

• Geordend: P(1) ≤ P(2) ≤ … ≤ P(m)

• Zoek de grootste i waarvoor geldt

q = gekozen niveau van controle (bv 0,05)• En verwerp alle H(i) i = 1, 2, … , k

qP mi

i )(Vergelijk

Bonferroni (Holm)

Page 18: Help! Statistiek!

Voorbeeld (Benjamini en Hochberg)

• 15 toetsen• Geordende P-waarden:

P(1) P(2) P(3) P(4) P(5) P(6) P(14) P(15)0,0001 0,0004 0,0019 0,0095 0,0201 0,0278 … 0,7590 1,00

• Vergelijk iedere P(i) met (i/15)*0,05, te beginnen met P(15) (stepup)

• 1 > (15/15)*0,05• 0,7590 > (14/15)*0,05 = 0,047• …• 0,0201 > (5/15)*0,05 = 0,017• 0,0095 < (4/15)*0,05 = 0,013

Verwerp H(1) t/m H(4)

Bonferroni:α = 0,05/15 = 0,0033

Page 19: Help! Statistiek!

FDR nader bekeken

• Sequentiële FDR conservatief, met name als het aantal onware nulhypothesen relatief groot is

• Benjamini e.a. (2001): tweestapsprocedure waarbij na de eerste stap de proportie ware nulhypothesen (π0) wordt geschat en in de tweede wordt gebruikt om de grens q aan te passen

• Storey (2002): directe wijze om π0 te schatten

m

rm 10

Page 20: Help! Statistiek!

Het schatten van π0

• We willen π0 = m0/m schatten

niet significant totaalsignificant

Ware nulhypothesen U V m0

Niet ware nulhypothesen T S m1

m – R R m

Page 21: Help! Statistiek!

H0: µ = 100

x

y

60 80 100 120 140

0.0

0.0

10

.02

0.0

30

.04

Als H0 waar is

steekproef

Wat verwacht jevan de P-waarde?

Page 22: Help! Statistiek!

H0: µ = 100

x

y

60 80 100 120 140

0.0

0.0

10

.02

0.0

30

.04

Als H0 waar is …is de P-waarde uniform verdeeld op [0,1]

Gebieden met gelijke oppervlaktes

Page 23: Help! Statistiek!

Als de nulhypothese niet waar is

• Is de P-waarde niet uniform verdeeld op het interval [0 ; 1], maar zul je relatief vaker een kleine P-waarde vinden

1

P-waardenuit m0

P-waardenuit m1

AantalP-waarden

Page 24: Help! Statistiek!

3226 genen (BRCA data)

)1(

}{#)(0

m

p j

Verwacht aantal P-waarden > is (1 - )*m0 + klein deel m1, dusm0 ≈ #{P>} / (1-)

Page 25: Help! Statistiek!

π0 als functie van

Page 26: Help! Statistiek!

Concreet voorbeeld (Hedenfalk)

• 3226 toetsen

• P < 0,001: 51 significant

• P < 0,0001: 10 significant

• Bonferroni: α = 0,05/3226 = 0,000015

• FDR (Storey): q = 0,05 geeft 160 significante genen (waarvan er vermoedelijk 8 ten onrechte)

Page 27: Help! Statistiek!

Gebruik FDR

• FDR wordt gebruikt voor– Correctie multiple testing (sequentiële FDR,

Benjamini en Hochberg)– Variabele selectie (Ghosh)– Vergelijken van (nieuwe) statistische

methoden. Bij gelijk aantal verworpen nulhypothesen is de methode met de kleinste FDR de beste methode

Page 28: Help! Statistiek!

literatuur• Conover, Practical nonparametric statistics (Wiley 1999)• Benjamini en Hochberg, Controlling the False Discovery Rate: a

practical and powerful approach to multiple testing (Journal Royal Stat. Soc. B, 1995)

• Benjamini, Krieger, Yekutieli: Two staged linear step up FDR controlling procedure (Technical report 2001)

• Nguyen, On estimating the proportion of true null hypotheses for false discovery rate controlling procedures in exploratory DNA microarray studies (Computational statistics and data analysis, 2004)

• Storey, A direct approach to false discovery rates (Journal Royal Stat. Soc. B, 2002)

• Ghosh e.a., the false discovery rate: a variable selection perspective (J. Stat. Plan. Infer., 2004)

Page 29: Help! Statistiek!

Volgende lezing

18 junistatistische aspecten van de probiotica studie