Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de...

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

20 mei : Statistiek en Ethiek17 juni : Groeicurven16 september :

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide

www.EpidemiologieGroningen.nl

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Overzicht

- WMO- Criteria toetsing- Onderzoeksprotocol- Onderzoeksvraag

- en onderzoekspopulatie- en onderzoeksopzet- en powerberekening- en statistische analyses

- eenzijdige toetsing versus tweezijdige toetsing- informed consent: methodologische problemen

WMO

de Wet Medisch wetenschappelijk Onderzoek

met mensen

Heeft betrekking op al het wetenschappelijk onderzoek waarbij proefpersonen aan handelingen worden onderworpen of hen gedragsregels worden opgelegd

WMO

de Wet Medisch wetenschappelijk Onderzoek

met mensen

Regelt de toetsing van onderzoek in de zin van de WMO

Onderzoek in de zin van de WMO mag alleen worden uitgevoerd als een erkende toetsingscommissie een positief WMO-oordeel heeft afgegeven voor een onderzoekprotocol

erkende toetsingscommissie: Medisch Ethisch Toetsingscommissie: METc

Criteria toetsing

Op basis van Artikel 3 (eerste 4 punten van de 8)

a. het wetenschappelijk onderzoek leidt tot nieuwe inzichten op het gebied van de geneeskunde

b. Het is niet mogelijk om op een andere, minder ingrijpende manier tot dergelijk inzicht te komen

c. Het belang van het onderzoek staat in redelijke verhouding tot de belasting (bezwaren en risico’s) van de proefpersoon

d. Het onderzoek voldoet aan de eisen van een juiste methodologie

Criteria toetsing

StellingEen slecht opgezet en uitgevoerd onderzoek is niet

ethisch.

m.b.t. opzetCitaat May W.W., 1975: The composition and function ofethical committees. J. Medical Ethics

“one of the most serious ethical problems in clinical research is that placing subjects at risk and injury, discomfort, or inconvenience in experiments where there are too few subjects for valid results, too many subjects

for the point to be established, or an improperly designed random or double blind procedure”

Criteria toetsingNiet alleen opzet is belangrijk:

Onderzoeksstadia:1. Planning2. Design3. Dataverzameling en invoer/beheer4. Analyse5. Interpretaties/conclusies6. publicatie

Methodologie en statistiek spelen een essentiële rol in de

wetenschappelijke kwaliteit van onderzoek.

OnderzoeksprotocolBestaat uit verplichte delen, waaronder:

1. Onderzoeksdoel/onderzoeksvragen2. Onderzoeksdesign3. Uitkomstmaten4. Onderzoeksgroep/powerberekening5. Statistische analyses

6. WMO-vormvereisten

Onderzoeksprotocol: Een contract van de onderzoeker met de groep

proefpersonen

Template is te downloaden op www.ccmo.nl

http://www.ccmo.nl/

OnderzoeksvraagDoelstellingen van het onderzoek

Vertaald naar onderzoeksvragen

Relatie met statistisch toetsingsprobleem:

• Formuleren van H0

• Formuleren van H1

• Uitspraken als “Verwerp H0 ten gunste van H1” of

“Verwerp H0 niet”

Dit betekent: H1 weerspiegelt de onderzoeksvraag

Denk aan falsificatie principe van Popper

wetenschappelijke opbrengst / belang

OnderzoeksvraagDoelstellingen van het onderzoek

Vertaald naar onderzoeksvragen

Relatie met statistisch schattingsprobleem

Schatting van effect grootte is doel:

Betrouwbaarheidsinterval BI:Welke waarden passen bij (zijn verenigbaar met) de

data

95% BI: geschatte effect grootte 2*SE

wetenschappelijke opbrengst / belang

Doel en onderzoekspopulatie

Definitie van onderzoekspopulatie noodzakelijk

- Inclusie criteria- Exclusie criteria

Essentieel om later te generaliseren! Implicaties voor hettrekken van conclusies

- Hoe homogener de onderzoekspopulatie, hoe minder mogelijkheden om te generaliseren

- Hoe heterogener de onderzoekspopulatie, hoe beter men kan generaliseren

Nadeel van heterogene populatie?

Doel en design

Doelstellingen van het onderzoek bepaalt het design.

Verschillende opsplitsingen in onderzoek mogelijk:1. Observationeel/interventie studie (karakter)2. Prospectief/retrospectief (dataverzameling)

3. Pilot studie / bevestigende studie4. Bij geneesmiddelenstudie fase1 t/m fase 4 studie

3 en 4 : onderscheid naar bewijskracht :

- wat wil men met het onderzoek bereiken? - Relatie met belang van het onderzoek

Doel en designPilot onderzoek

- Haalbaarheid (feasibility)- Eerste effect schattingen

Kenmerken:1. Nieuwe interventie of diagnostiek met onbekende effecten2. Kleine aantallen proefpersonen3. Uitkomstmaten moeten gericht zijn op haalbaarheidsindicatoren en effect maten

Powerberekening en hypothese toetsen omtrent effect sizes: niet nodig.Berekening van aantal proefpersonen alleen op basis vanbetrouwbaarheids-intervallen (precisie van de schattingen)

Doel en designBevestigende studie

- Men wil bepalen welke interventie/diagnostisch tool het beste is.

- Toetsen van een hypothese en op basis daarvan beslissing nemen t.a.v. nieuwe tool

Kenmerken:1. Effect sizes zijn al in een eerdere studie geschat2. Uitkomstmaten moeten gericht zijn op het meten van effect

- primaire uitkomstmaat kiezen3. Aantal proefpersonen moet via een powerberekening op de primaire effectmaat worden verantwoord

Zowel statistische toetsing als betrouwbaarheidsintervallen zijn

van belang: klinische en statistische significantie!

15

Power berekeningen

•Nodig voor balans tussen klinische relevantie and statistische significantie

•Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen?

Let op : dit hangt samen met de

onderzoeksvraag!!!

En dus ook met belang van het onderzoek

16

Voorbeeld klinische en statistische significantie

Voorbeeld 1:Vergelijking van 2 behandelingen A en B m.b.t.bloeddrukverlaging na 1 maand

RCT: 20 proefpersonen (A:10 ; B:10)

Resultaten:Steekproefgemiddelde verlaging voor A :22Steekproefgemiddelde verlaging voor B : 17Verschil 5; Standard error : 4

95% Betrouwbaarheidsinterval:5 2*4 : (-3 ; 13)

17


95% betrouwbaarheidsinterval:

5 2*4 : (-3 ; 13)

Verzameling van niet verworpen nulhypotheses

Verzameling van effect groottes die verenigbaar

zijn met de data

Conclusie???

18


Voorbeeld 2:Vergelijking van 2 behandelingen A en B m.b.t. wachttijden palliatieve behandeling voor botmetastasen

RCT: 1000 respondents: (A: 500; B: 500)

ResultatenSteekproefgemiddelde voor A: 8 dagenSteekproefgemiddelde voor B: 5 dagenVerschil: 3 dagen; Standard error: 0.2

95% betrouwbaarheidsinterval:3 2*0.2 : (2.6; 3.4)

19


95% betrouwbaarheidsinterval:

3 2*0.2 : (2.6; 3.4)

Verzameling van niet verworpen nulhypotheses

Verzameling van effect groottes die verenigbaar

Zijn met de data

Conclusie???

20

Power:klinische relevantie en statistische significantie

• Geen significante verschillen, maar wel klinisch relevante verschillen in het betrouwbaarheidsinterval: meer informatie is nodig om conclusies te trekken (voorbeeld 1) Underpowered study

• Significante verschillen, maar geen klinisch relevante verschillen in het betrouwbaarheidsinterval: de bevindingen hebben geen klinische implicaties; er is teveel informatie (voorbeeld 2). Overpowered study

21

Power berekeningen

• Nodig voor balans tussen klinische relevantie and statistische significantie

• Essentiele stap bij studie design: Wat zijn relevante verschillen die men wil aantonen?

Na keuze toets, geef input:• Significantie niveau α• Gestandaardiseerde

effect grootte (A- B)/

• Steekproefgrootte

Power (1-β)

22

Power

stijgt power stijgt

23

Power

effect size stijgt power stijgt

24

Power

n stijgt power stijgt

Statistische analyse

Statistische modellering geeft

1. Schatting van effect sizes2. Toetsen van hypotheses

In onderzoeksprotocol dient een analyseplan te wordenopgenomen.

Waarom? ?

1. Analyseplan is check op juiste methodologie2. Dwingt onderzoeker om expliciet na te denken over design, uitkomstmaten en analyse

Eenzijdig en tweezijdig toetsen

Gebruikelijk: tweezijdige toetsing

Waarom?

1. Als we al zeker zijn van de superioriteit van nieuw experiment, waarom dan experimenteren

2. Objectiviteit : correctie van vooringenomenheid


Wat zijn de argumenten voor eenzijdige toetsing?

1. Minder mensen nodig: dus minder mensen worden belast

2. Minder mensen krijgen de slechtere behandeling3. Veel onderzoeksvragen zijn eenzijdig, dus waarom

tweezijdig toetsen?


Tabel : aantallen per groep; α = 5%; 1- = 80%; t-test

Verschil

Tweezijdig

N1 = N2

Eenzijdig

N1 = N2

2:1 randomisatie

N1 N2

0.2

0.6

1.0

1.6

2

393

45

17

8

6

310

36

14

6

4

295 590

34 68

13 26

6 12

4 8


Minder mensen?

Een eenzijdige toets heeft ±0.80 keer zoveel mensen nodig als

een tweezijdige toets, met α = 5% (power 80% of 90%).

Dus winst is geen factor 2!


Minder mensen krijgen de slechtere (aanname) behandeling

Oplossingen:

1. interim analyses2. 2: 1 randomisatie

2:1 alleen als je voldoende tijd hebt.


Veel onderzoeksvragen zijn eenzijdig

Voorbeelden: 1. Bij non-inferiority studies of equivalentie studies:

De nieuwe behandeling mag niet slechter zijnDe beide behandelingen moeten gelijkwaardig zijn.

Marges van gelijkwaardigheid of inferiority worden gegeven.

2. Per definitie additief: voorbeeld uitbreiding diagnostiek

3. Knottnerus & Bouter (2001) Journal of Epidemiology Als de standaard zorg alleen maar aangepast wordt bij

het vinden van superioriteit ?????


Voorbeeld

Vergelijking van 2 behandelingen A en B m.b.t.bloeddrukverlaging na 1 maand

RCT: 40 proefpersonen (A:20 ; B:20)

Resultaten:Steekproefgemiddelde verlaging voor A : 22Steekproefgemiddelde verlaging voor B : 17Verschil 5; Standard error : 3

Test statistic t = 5/3 = 1.7

Bijbehorende eenzijdige

P-waarde = 5%

1.645x

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

y

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Bijbehorende tweezijdige

P-waarde = 5%


Voorbeeld: A is nieuw middel:

Vergelijking van 2 behandelingen A en B m.b.t.bloeddrukverlaging na 1 maandVerlaging A :22; Verlaging B: 17; Verschil 5; se: 3

Tweezijdig EenzijdigH0: µA - µB = 0 H0: µA - µB ≤ 0H1: µA - µB ≠ 0 H1: µA - µB ≥ 0

Verwerp H0 als t >1.95 Verwerp H0 als t>1.645

of als t <-1.96

Test statistic t = 5/3 = 1.7 Conclusie?


Voorbeeld: B is nieuw middel:

Vergelijking van 2 behandelingen A en B m.b.t.bloeddrukverlaging na 1 maandVerlaging A :22; Verlaging B: 17; Verschil -5; se: 3

Tweezijdig EenzijdigH0: µB - µA = 0 H0: µB - µA ≤ 0H1: µB - µA ≠ 0 H1: µB - µA ≥ 0

Verwerp H0 als t>1.95 Verwerp H0 als t>1.645

of als t<-1.96

Test statistic t = -5/3 = -1.7 Conclusie?


Wat betekent H0 niet verwerpen?Is H0 dan waar?

Een niet significant resultaat betekent niet: bewijs voor de H0!

Het betekent : nog niet voldoende informatie! Check zijn erinteressante verschillen in het BI?

• Eenzijdige toetsing: heeft meer power, omdat je minder bewijskracht hoeft te leveren! :

• tweezijdige toetsing met α = 5% is gelijkwaardig met eenzijdige toetsing met α = 2.5% qua bewijskracht

Tweezijdige toetsing: geeft meer informatie in geval van negatieve resultaten.


Gebruikelijk: tweezijdige toetsing

Waarom?

1. Als we al zeker zijn van de superioriteit van nieuw experiment, waarom dan experimenteren

2. Objectiviteit : correctie van vooringenomenheid3. Bewijskracht minstens zo groot als bij eenzijdige toetsing4. Bij negatieve uitkomst van trial: geen problemen;

vandaar kosten effectief

Referentie: Moyé & Tita (2002) in circulation : defending rationale for thetwo tailed Test in Clinical research

Informed consent

informed consent is verplicht : niet alleen bij WMO, maar ook bij WGBO. (Wet op de Geneeskundige Behandelingsovereenkomst; Betreft onderzoek met gegevens van patiënten verzameld inkader van klinisch onderzoek)

• Schriftelijke informatie zodat een goede afweging gemaakt kan worden door de individuele proefpersoon.

• Schriftelijke toestemming van deelname

Proefpersonen onderwerpen zich willens en wetens aan medisch wetenschappelijk onderzoek: persoonlijke integriteit.

Informed consent

Methodologische problemen

1. Veel administratieve rompslomp : genereert fouten2. Kosten en tijd : onderzoek wordt onmogelijk gemaakt3. Bias als gevolg van selectie van proefpersonen4. Na informed consent is de behandeling veranderd, en

worden de verkeerde onderzoeksarmen vergeleken

Oplossingen: uitdaging voor de onderzoekers en

methodologen/statistici

Volgende keer

17 juni : Groeicurven

Zaal 16

Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de...

Documents

Transcript of Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de...