Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2:...

92
Biostatistiek: uitgeschreven 2015-2016 Ik heb dit samengesteld door het probleem van veel te veel tijd tussen twee herexamens. Er zijn in deze periode wel een aantal zonnige dagen geweest dus ik kan niet garanderen dat er altijd met evenveel toewijding aan gewerkt is. Deze syllabus is een combinatie van slides en wat er tijdens de les is gezegd geweest (ja ik heb al die lessen nog eens bekeken). Dat er dus een aantal herhalingen in voorkomen zal dus zeker geen uitzondering zijn. Hopelijk zijn jullie er iets mee en anders.. tja spijtig

Transcript of Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2:...

Page 1: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

Biostatistiek: uitgeschreven 2015-2016

Ik heb dit samengesteld

door het probleem van

veel te veel tijd tussen

twee herexamens. Er zijn

in deze periode wel een

aantal zonnige dagen

geweest dus ik kan niet

garanderen dat er altijd

met evenveel toewijding

aan gewerkt is.

Deze syllabus is een

combinatie van slides en

wat er tijdens de les is

gezegd geweest (ja ik heb

al die lessen nog eens

bekeken). Dat er dus een

aantal herhalingen in

voorkomen zal dus zeker

geen uitzondering zijn.

Hopelijk zijn jullie er iets

mee en anders.. tja spijtig

Page 2: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

Inhoud Deel 1: introductie, motivatie en voorbeeld ............................................................... 1

Hoofdstuk 2: Homeopathie: de test ....................................................................... 1

Deel 2: Basis principes van statistische methoden ..................................................... 2

Hoofdstuk 3: wat is statistiek? .............................................................................. 2

Hoofdstuk 4: populatie VS. Steekproef (sample) ..................................................... 6

Hoofdstuk 5: causaliteit en randomisatie ..............................................................13

Deel 3: omschrijven en opsommen van data ............................................................16

Hoofdstuk 6: types van resultaten .......................................................................16

Hoofdstuk 7: grafische presentatie van gegevens ..................................................17

Hoofdstuk 8: kengetallen (summary statistics) ......................................................21

Deel 4: basis concepten van statistische besluitvorming ............................................24

Hoofdstuk 9: beschrijven van de populatie ............................................................24

Hoofdstuk 10: van populatie toto steekproef en terug tot populatie ..........................28

hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie .............................32

Hoofdstuk 12: betrouwbaarheidsinterval ...............................................................37

Hoofdstuk 13: hypothesetesten ...........................................................................40

Deel 5: enkele frequent gebruikte testen .................................................................45

Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data .............................46

Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data ..............................50

Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data ............................55

Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data ....................................59

Deel 6: verdere onderwerpen over statistische conclusie ...........................................63

Hoofdstuk 18: fouten in statistiek: basis concepten ................................................63

Hoofdstuk 19: fouten in de statistiek: praktische implicaties ...................................70

Hoofstuk 20: eenzijdig vs tweezijdig testen ...........................................................78

Hoofdstuk 21: beschrijven van associaties ............................................................80

Hoofdstuk 22: non parametrische testen ..............................................................86

Page 3: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

1

B.P.

Beginselen van biostatistiek

3e Bachelor BMW

1e semester

Deel 1: introductie, motivatie en voorbeeld

Hoofdstuk 2: Homeopathie: de test

Blinding:

Omdat een onderzoeker onbewust een invloed kan uitoefenen bij de interpretatie van de

resultaten, worden testen blind gemaakt.

Door random codes te geven aan stalen (of behandeling). Zodat de onderzoeker niet kan

afleiden over welke stalen het gaat wordt hij zo min mogelijk beïnvloed door zijn eigen

standpunten. Pas wanneer alle data geanalyseerd is zal bekend gemaakt worden welke

codes aan welke stalen of behandelingen gekoppeld is.

Hoe subjectiever de metingen zijn , hoe belangrijker het is dat blinding word

toegepast.

Overleving van patiënt = objectief

Tumor reductie = semi-objectief

Wanneer je bij een onderzoek 40 stalen moet onderzoeken, waarvan 20 placebo en 20

geneesmiddel (GM), dan gaat elk staal een andere random nummer krijgen. Bij de analyses

weet men niet of ze de placebo staal of een GM staal aan het bekijken zijn.

Dubbel blinding:

In sommige gevallen is het van belang dat patiënt noch onderzoeker weet welke

behandeling er gegeven werd. Dit gebeurt wanneer onderzoeker en patiënt al dan niet

onbewust de resultaten zou kunnen beïnvloeden.

Pijn metingen

Levenskwaliteit metingen

Blinding is niet altijd mogelijk!!

Dit is voornamelijk te zien waarbij er een visueel aspect aanwezig is

Als je verschillende soorten verband wilt testen

Als je verschillende technieken wilt bestuderen

Placebo:

Dit zijn pillen zonder de actieve bestanddelen van een geneesmiddel. Deze worden gebruikt

wanneer je wilt testen of een GM ook effectief herstel bevorderd.

Er is namelijk een factor van natuurlijk herstel die kan plaatsvinden waardoor het moeilijk

is te bepalen of het gemeten effect door het GM komt of dat het een natuurlijk fenomeen

is. Om hier onderscheid in te kunnen maken ga je 2 groepen maken, 1 groep krijgt het GM

en de andere groep een placebo. De groep met GM zou een beter of sneller herstel moeten

ondervinden dan de placebo groep.

Page 4: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

2

B.P.

Er moet echter wel aandacht besteed worden aan ethiek !!

Het geven van placebo aan ernstig zieke patiënten is niet ethisch verantwoord!

In zo een gevallen zal er een vergelijking gemaakt worden tussen het nieuwe

GM en het “oude” GM.

Er zal dan onderzocht worden of de nieuwe behandeling beter of

minstens even goed is al de standaard behandeling.

Deel 2: Basis principes van statistische methoden

Hoofdstuk 3: wat is statistiek?

Voorbeeld 1: ziekteverzuim

Is er een verband tussen

geslacht en ziekteverzuim?

Vrouw: 184

429= 42,9%

Man: 58

156= 37,2%

Echter, zelfs als ziekteverzuim gelijk is tussen mannen en vrouwen is er een mogelijkheid

dat deze waarde door puur toeval bekomen zijn.

Deze kans (p-waarde) zal berekend worden en getoetst aan een voorop gestelde waarde

(α). Op basis hiervan kan er meer duidelijkheid gebracht worden in de geobserveerde

waarden.

Stelling (H0): ziekteverzuim bij mannen is gelijk aan ziekte verzuim bij vrouwen

P-waarde < 0,05 stelling (H0) verwerpen

P-waarde > 0,05 stelling (H0) aanvaarden

Als de stelling onwaarschijnlijk lijkt, dat geeft dit evidentie dat er een relatie

is tussen ziekteverzuim en het geslacht.

Als de stelling waarschijnlijk lijkt, dan bied dit evidentie dat er geen relatie

is.

Dit resultaat suggereert dat er meer

ziekte verzuim is bij vrouwen dan bij

mannen

Page 5: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

3

B.P.

Voorbeeld 2: baarmoederhalskanker (BMHK)

Er wordt hier getracht te analyseren of er een verband is tussen het voorkomen van BMHK

en de leeftijd waarop ze voor de eerste keer zwanger waren. Hiervoor worden 2 groepen

gemaakt

Cancer cases (BMHK) 49

Non cancer cases (controle) 317

Aan alle vrouwen werd gevraagd wat hun leeftijd was bij de eerste zwangerschap.

is er een verband tussen het

krijgen van BMHK en de

leeftijd waarop de eerste

zwangerschap heeft plaats

gevonden?

> 25 jaar met kanker: 7

49= 14,3%

>25 jaar zonder kanker: 114

317= 35,96%

Hoe waarschijnlijk is het dat dit verschil te observeren is door puur toeval zelfs al is er

geen relatie is tussen kanker en de leeftijd van de eerste zwangerschap?

Als de kans klein is, dan is er een verband.

Als de kans groot is, dan is er geen relatie.

Voorbeeld 3: gewichtstoename bij ratten

Voor dit experiment werden 2 groepen gemaakt.

Ratten die een dieet kregen hoog in proteïnen

Ratten die een dieet kregen laag in proteïnen

Is gewichtstoename

afhankelijk van het dieet?

Hier bestaat ook weer de kans dat dit door puur toeval is gemeten.

Als zo een verschil een hoge probabiliteit (waarschijnlijkheid) heeft dat het

voorkomt door puur toeval; wilt dit zeggen dat er geen verschil is tussen de diëten

en het verschil in gewichtstoename.

Dit suggereert dat het hebben

van BMHK meer waarschijnlijk is

wanneer je voor de eerste keer

zwanger bent geweest voor de

leeftijd van 25.

De gemiddelden suggereren dat

er een verschil is.

Page 6: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

4

B.P.

Voorbeeld 4: overlevingstijden van kankerpatiënten

In dit onderzoek werden kankerpatiënten, met verschillende aangetaste organen,

behandeld met ascorbaat in additie van de standaard behandeling. Er werd dan gekeken

wat de overlevingstijd was (in dagen).

Verschillen de overlevingstijden

bij de verschillende geaffecteerde

organen?

Dit kan echter door puur toeval waargenomen zijn. De kans dat dit voorkomt door

puur toeval wordt berekend.

Als het onwaarschijnlijk lijkt dat de verschillen waargenomen zijn door puur toeval

(een kleine p-waarde), heb je evidentie dat er een verschil is in overlevingstijd (H0

verwerpen).

Als er een grote probabiliteit is dat deze waarden door puur toeval zijn gemeten,

wilt het zeggen dat er geen verschil is tussen overlevingstijden. (H0 aanvaarden)

H0 is bij het testen van hypotheses die later terug komen.

Voorbeeld 5: captopril data

Er zijn 15 patiënten het hypertensie. Bij iedereen word de bloeddruk gemeten voor en na

de behandeling met captopril.

Hoe zal de behandeling de

Bloeddruk beïnvloeden?

Hier zal het interessant

zijn om te weten hoe

waarschijnlijk de

geobserveerde

veranderingen in

bloeddruk door puur

toeval gebeuren.

Een hoge waarschijnlijkheid dat het puur toeval is, wijst er op dat captopril geen

verschil veroorzaakt.

Een lage probabiliteit wijst er op dat captopril wel voor een verschil zorgt.

Als je deze waarden bekijkt, lijkt

het dat er een verschil is in

overlevingstijd tussen de kankers

in verschillende organen.

Page 7: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

5

B.P.

Voorbeeld 6: prevalentie van zware verkoudheid bij kinderen

Bij 1319 kinderen werd er op verschillende leeftijd (12 en 14 jaar) een meting gedaan

over de prevalentie van een zware verkoudheid.

Er werd gecontroleerd of het kind een zware verkoudheid heeft gehad in

de laatste 12 maanden.

is er een verschil in

prevalentie bij de 2

leeftijden?

12 jaar: 356

1319= 27%

14 jaar: 468

1319= 35%

A: zowel op 12 als op 14 jaar een zware verkoudheid gehad

B: op 12 jaar een verkoudheid gehad, op 14 jaar niet

C: op 12 jaar geen verkoudheid gehad , op 14 jaar wel

D: zowel op 12 als op 14 jaar geen verkoudheid gehad

Ook hier ga je weer proberen te achterhalen wat de kans is dat dit door puur toeval is

gemeten.

Als het heel onwaarschijnlijk is dat dit gemeten is door puur toeval (kleine P-

waarde) wijst dat erop dat er wel degelijk een verschil is tussen de prevalentie en

de leeftijd.

Wanneer het waarschijnlijk lijkt (grote P-waarde), dan is er evidentie dat er geen

verschil is.

Voorbeeld 7: operatie data

Tijdens een operatie moet de bloeddruk soms verlaagd worden, hiervoor wordt een

hypotensief middel toegediend. Na de operatie dient deze bloeddruk zo snel mogelijk terug

op normale waarden komen.

In dit onderzoek werd de hersteltijd van 53 patiënten, met 3 verschillende operaties,

geanalyseerd. Er werden 3 metingen gedaan.

A) Tijd nodig dat de systolische bloeddruk van de patiënt terug op 100

mmHG komt.

B) 10-base log(dose) van het GM in log(mg)

C) De gemiddelde systolische bloeddruk terwijl het GM toegediend werd

Hoe varieert de hersteltijd (A) ten opzichte van de andere parameters (B en C)

Om dit te beantwoorden wordt er gezocht naar trend in de data. Het is moeilijk om een

potentiële relatie te vinden tussen BD en een log. van iets (log(dose)).

A B

C D

Deze data suggereert dat er bij

ouder worden de prevalentie op een

zware verkoudheid groter wordt.

Page 8: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

6

B.P.

Objectieve criteria gebruiken!!!

Om enige discussies naderhand te vermijden

Hoe objectiever de criteria, hoe beter.

Conclusie:

De bedoeling van statistiek is tweezijdig:

Beschrijvende statistiek

Weergeven wat er gemeten is

- Gemiddelde

- Percentage

- grafieken

- …

Interferentiële statistiek (wiskundige / beslissende statistiek)

Kijken tot welke graad de bestudeerde waardes terug getrokken

(veralgemeend) kunnen worden op de populatie (∞).

Interferentieel onderzoek toetst of de werkelijkheid al dan niet in

overeenstemming is met de wetenschappelijke hypotheses en

theorieën.

Hoofdstuk 4: populatie VS. Steekproef (sample)

Bij het uitvoeren van een onderzoek wordt er getracht een uitspraak te kunnen maken

over de volledige populatie.

Het is onmogelijk om de volledige populatie te analyseren want deze is ∞ en veranderd

constant (sterfte,…). Er zal een deel van de populatie geanalyseerd worden die de populatie

representeert (de steekproef).

De steekproef moet goed gekozen zijn om een veralgemening, naar de

totale populatie, toe te staan op het einde van het onderzoek.

Voordat je de steekproef gaat samenstellen moet eerst de populatie goed gedefinieerd

zijn. Er zal op het einde getracht worden om een uitspraak te maken over de populatie op

basis van gegevens verzameld uit een steekproef. Pas als je de populatie goed gedefinieerd

hebt, kan je beginnen met het samenstellen van een steekproef die representatief is voor

de populatie. daarnaast ga je kijken op welke wijze de steekproef genomen zal worden van

de populatie (random of niet, …).

De populatie:

In de praktijk wordt een populatie gedefinieerd aan de hand van in- en exclusiecriteria.

Inclusiecriteria:

Zijn parameters die aanwezig moeten zijn om bij de populatie te horen.

Zeer belangrijk!!!!

Vb.: hebben van een bepaalde ziekte;

leeftijd; geslacht; …

Exclusiecriteria:

Zijn parameters die niet mogen aanwezig zijn om tot te populatie te

mogen horen.

Vb.: zwanger zijn;

eerder een behandeling gehad voor de zelfde aandoening (om

te vermijden dat het gemeten effect te wijten is aan de andere

behandeling)

Page 9: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

7

B.P.

De (random) steekproef

De steekproef is het deel van de populatie dat je gebruikt om je onderzoek op te doen om

daarna een antwoord te kunnen formuleren over die populatie.

Het spreekt voor zich dat de populatie goed gekozen moet worden, liefst random.

Vb.: als je een onderzoek doet over rugklachten bij het verplegend personeel in

Belgische ziekenhuizen en de steekproef bestaat enkel uit:

Vrouwen

Verpleegkundigen van universitair ziekenhuis

<40 jaar oud

Geeft geen goede representatie van de volledige populatie!!!

Optimaal ga je de steekroef proberen samen te stellen met de zelfde karakteristieken als

de populatie:

Zelfde proportie als

Zelfde leeftijdsverdeling als in populatie

Zelfde soorten ziekenhuizen als in populatie

Zoals eerder vermeld gaat een goede steekproef de populatie representeren en hiervoor

moet de populatie goed gedefinieerd zijn!!!

Vb.: bij onderzoek naar depressie worden enkel gehospitaliseerde patiënten met

een depressie opgenomen in de steekproef.

Geeft geen goede representatie van alle depressieve, personen

met depressie die niet zijn opgenomen worden uitgesloten!

Als er op voorhand duidelijk gemaakt word dat de populatie

gehospitaliseerde depressieve zijn, is deze steekproef wel goed.

(zo maak je er een van de inclusiecriteria van)

- Random steekproef -

Het willekeurig samenstellen van je steekproef

Door het willekeurig samenstellen van je steekproef, die je populatie representeert,

krijg je de beste vertegenwoordiging van je populatie.

Hoe groter je de random steekproef maakt, hoe beter de populatie gaat

vertegenwoordigd zijn

Het is moeilijk om een volledig random steekproef samen te stellen. Denk maar aan alle

ziekenhuizen en verpleegkundigen. Het is praktisch niet haalbaar om uit elk ziekenhuis

verplegend personeel te halen voor uw onderzoek.

Een oplossing kan zijn dat je eerst random ziekenhuizen gaat selecteren en dan

in die ziekenhuizen random verplegers kiezen.

Er moet ook rekening gehouden worden met de grootte van het ziekenhuis. Als

je in elk ziekenhuis 10 verplegers gaat halen, gaat dit niet representatief zijn als

je hele grote en kleine ziekenhuizen gaat moeten vergelijken.

Op helemaal correct te werken zal je de grootte van het ziekenhuis

proportioneel, representatief moeten vertegenwoordigen in de

steekproef. In andere woorden gaan er bij grote ziekenhuizen meer

verplegers opgenomen worden dan bij kleine ziekenhuizen.

Page 10: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

8

B.P.

Er kan ook nog het probleem opduiken dat er personen niet willen deelnemen aan

het onderzoek, je kan ze niet verplichten

Uitvallers zijn ook frequent voorkomend

Het is dus duidelijk niet eenvoudig om een random steekproef samen te stellen. Er zijn

veel problemen die zich kunnen voordoen en hier moet je ook rekening mee houden bij

het opstellen ervan.

Statistiek VS kanstheorie

Kanstheorie:

Hier weet je de verhouding in de populatie en je gaat berekenen wat de kans is dat er

minstens die verhouding in je steekproef een effect gaat ondervinden.

Vb.: als je weet dat 75% van de populatie een effect heeft bij een bepaald GM, dan

ga je berekenen wat de kans is dat 75% van je steekproef een effect zal

ondervinden.

Statistiek:

Hier ga je andersom te werk, je hebt een steekproef en van hieruit ga je een uitspraak

proberen te maken over de populatie.

omdat je niet de volledige populatie

hebt, is het moeilijk om een exacte

uitspraak te maken. Als we een

marge kunnen aantonen is dat al

veel (tussen zoveel en zoveel).

Altijd eerlijk weergeven waarom er personen niet deelnemen

of uitgevallen zijn. (alles in kaart proberen te brengen)

Finaal ga je bij statistiek dus

een uitspraak maken over de

populatie!!

Bij kansrekening doe je het

omgekeerde

Page 11: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

9

B.P.

Types van studies

Er zin verschillende manieren om data te verzamen. De sterkte van de evidentie (van het

bewijs) is afhankelijk van de methoden die gebruikt werden.

Prospecties VS retrospectief

Prospectief:

Je gaat een groep patiënten volgen over tijd en gaat kijken of er veranderingen

voordoen in die groep.

Vb.: een maand volgen en dan zien of een bepaalde parameter (bloeddruk)

gestegen of gedaald is.

zie data set ratten, captopril,

BMHK

Retrospectief:

Kijken naar patiënt die nu een bepaalde aandoening heeft en vragen / nagaan wat

er in het verleden heeft plaats gevonden om zo risicofactoren te achterhalen.

Vb.: mensen met longkanker bevragen of ze in het verleden gerookt hebben.

zie data BMHK, ziekteverzuim

een prospectieve test geeft meer kracht aan je resultaat dan een retrospectieve test.

Bij prospectieve test heb je alles beter onder controle

Bij retrospectief heb je minder onder controle omdat je berust op het

geheugen van de patiënt betrouwbaarheid???

Experimenteel VS observationele studie

Experimenteel:

Gegevens die voortkomen uit een experiment dat je nieuw hebt opgesteld en

waarvan je de gegevens van verzameld.

Je hebt echt een experiment uitgevoerd om aan je gegevens te komen

Observationeel:

Er is geen experiment gebeurt. Berust op gegevens die stelselmatig worden

bijgehouden.

Vb.: elke keer als je opgenomen word in het ziekenhuis worden een aantal

parameters gecontroleerd en bijgehouden (bloeddruk, glycemie,…) uit

routine. Een onderzoeker kan dan naar die instelling gaan en bepaalde data

die hij wilt onderzoeken opvragen. Het analyseren van die gegevens is

observationeel onderzoek.

zie data ziekteverzuim

Observationeel onderzoek is een steekproef die je neemt, echter is de vraag in welke mate

deze random is?

Je hebt wel een steekproef, maar op welke populatie gebeurt de uitspraak?

Vb.: IDEWE data.

Er wordt een onderzoek gedaan op basis van de gegevens die verzameld

werden via IDEWE.

Page 12: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

10

B.P.

- Er wordt geprobeerd een link te maken tussen ziekteverzuim en

een bepaald beroep.

Het resultaat dat hier bekomen word, zal geen uitspraak

leveren voor de Vlaamse populatie. De reden hiertoe is

dat IDEWE zich gespecialiseerd in geneeskundige

beroepscategorieën.

Dan een uitspraak doen over de volledige populatie is

niet representatief.

Het experimenteel onderzoek geeft een sterker resultaat dan observationeel onderzoek.

Bij experimenteel onderzoek heb je een betere controle over wat je meet en

onder welke condities.

Observationeel onderzoek levert ook vaker missings (patiënten waarbij ze de

parameters zijn vergeten te meten). missings proberen te beperken!!

Cross-sectionele VS longitudinale studies

Cross-sectionele studie

Proefpersonen worden op 1 bepaald moment gemeten

Vb.: groeicurves zijn samengesteld door crossectionele gegevens

o Afwijkingen op deze curves zegt niet perse iets over het

kind!!

o Als je vandaag BMI berekend van verschillende personen

van verschillende leeftijden kan je een crossectionelecurve

maken.

Zie data ziekteverzuim, BMHK

Longitudinale studie

Proefpersoon meerdere keren meten over een langere periode

(opvolgingsonderzoeken).

- Gebruikt om evolutie in kaart te brengen

- Gaat het effect van behandeling direct zijn of komt het effect na een langere

tijd?

- Heeft effect maar een beperkte duur?

Bij longitudinaal kan je uitspraken maken over de evolutie die iemand ondergaat, dit gaat

niet bij crossectionele studies.

Rekening houden met de populatie en steekproef

Over welke populatie wil je een uitspraak maken?

Op basis van die populatie ga je de steekproef samenstellen!!!

Page 13: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

11

B.P.

Klinische studies

Meest strenge / belangrijkste methode.

Levert het sterkste resultaat

Zijn random

Blind/dubbel blind

Altijd prospectief

Experimeenteel

kan longitudinaal of cross sectioneel zijn

Je begint met een aantal patiënten en volgt ze in de tijd, ondertussen doe je enkele

metingen die van belang zijn voor je onderzoek.

(Longitudinaal onderzoek is niet persé een prospectieve studie!!)

Cohort studie

Een goed gedefinieerde groep mensen met analoge karakteristieken (met dezelfde

kenmerken) wordt gevolgd over tijd. Meestal tot een bepaalde gebeurtenis.

Mensen met een zelfde; gelijk startpunt

Vb.: - afgestudeerde 2012 10 jaar later onderzoeken, moeten

niet persé even oud zijn.

- Mensen van het zelfde geboortejaar

- Mensen die een zelfde behandeling hebben gekregen over

een periode van tijd

Cohort studies komen niet zo vaak voor.

Case-control studie

Studie waarbij je twee groepen neemt respectievelijk cases en controls, en deze worden

dan retrospectief bestudeerd.

Een groep met proefpersonen die een bepaalde aandoening hebben

Een groep met personen zonder de aandoening.

Vb.: bij onderzoek naar longkaker

Cases: patiënten die longkanker hebben

Controls: random mensen zonder longkanker.

Bij beide groepen ga je dan navragen of ze roken of hebben gerookt

en hoeveel,….

Je kan ook een prospectieve studie hebben waar je gebruik maakt van een

controle groep, dit is geen case-control studie!!!

Een case-control studie bied enkel de mogelijkheid om uitspraken

te maken tussen risicofactoren en de prevalentie van een ziekte.

Page 14: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

12

B.P.

Ja gaat altijd rekening moeten houden met de kans dat je fouten maakt in de conclusie door

onder andere random variabiliteit.

Met statistiek ga je bepalen :

- Hoe zeker je mag zijn

- Hoe ga je vermijden nog zo een fouten te maken

Het risico uitsluiten gaat niet!!

Matched case-control studie

Sluit aan bij de case-control studie. het verschil hier is dat je ervoor gaat zorgen dat de

case en control groepen lijken op elkaar.

Voor elke case ga je een control zoeken die voor bepaalde kenmerken lijkt op de

case.

Leeftijd (case 20 jaar control 20 jaar)

Geslacht

Huidskleur

Dit ga je doen om te voorkomen dat je op het einde van je onderzoek merkt dat de groep

cases veel ouders is dan de control groep. Of op andere vlakken te fel verschilt van de

andere.

Het zou namelijk kunnen dat eerder vermelde parameters een invloed uitoefenen op de

ziekte waardoor je een verkeerd beeld gaat krijgen als de groepen van elkaar verschillen.

Ideaal ga je voor zoveel mogelijk factoren gelijkenissen zoeken maar dat is praktisch niet

haalbaar.

Je gaat keuzes maken welke factoren je zeker wilt matchen (meestal leeftijd en

geslacht)

Random steekproef – variabiliteit – onzekerheid

Wat voor studie je ook opzet, je zal altijd met een steekproef zitten (die door willekeur tot

stand is gekomen random)

Echter gaat dit meestal wel gepaard met complicaties.

Een steekproef representeert een gedeelte van de populatie. Als je een andere

random steekproef neemt, ga je een ander deel van de populatie gaan meten.

Hierdoor ga je ook lichtjes andere gegevens te zien krijgen en de conclusie kan

ook lichtjes veranderen.

Absolute zekerheid van de conclusies over de populaties kan niet verwacht worden

als je van een steekproef kom!

- Random variabiliteit -

Zorgt ervoor dat je een verschil gaat waarnemen als je een experiment een 2e keer gaat

doen met een andere steekproef.

Als je een goed GM hebt, met een goede respons, ga je altijd wel een effect

waarnemen. Soms zal dat effect wat groter zijn en soms wat kleiner. Dat

is het gevolg van random variabiliteit.

Alles wat je meet is voor een stuk random variabiliteit en voor een stuk

echt effect. Het is de bedoeling van statistiek die 2 uit elkaar te halen. Op

deze manier ga je proberen te achterhalen dat wat je gezien hebt niet enkel

random variabiliteit is maar dat het ook effectief een effect levert.

Page 15: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

13

B.P.

Hoofdstuk 5: causaliteit en randomisatie

Causaal effect

Stel het onderzoek over homeopathie

Als er een verschil wordt waargenomen tussen homeopathie (H) en placebo (P), in

voorkeur voor H, wilt dit niet noodzakelijk zeggen dat H ‘meer’ effectief is. Zelfs niet

onder dubbel blinding.

o Wat als één groep meer dan bevat?

o Of als één groep gemiddeld ouders is dan de andere

o …

Het geobserveerde verschil is niet noodzakelijk een causaal effect. Het waargenomen effect

kan te wijten zijn aan een verschil in reactie.

Voordat je uitspraken kan maken over causaliteit, ga je moeten zorgen dat beide groepen

gelijkaardig zijn!!! (zowel voor gekende als ongekende factoren)

Dit kan maar op 1 manier! randomisatie!!!!

Randomisatie is het op volledig willekeurige manier je steekproef opdelen in groepen.

Voor iedereen een munt opgooien. Kop = groep 1 (behandeling A); munt = groep

2 (behandeling B).

Je kan niet uitsluiten dat er kleine fouten komen in de groepen maar je kan er wel voor

zorgen dat er geen systemische fouten gemaakt worden.

Als je dit correct doet ga je 2 groepen krijgen die gelijkaardig aan elkaar zijn wat maakt

dat je een uitspraak kan maken over causaliteit na onderzoek.

Bij niet gerandomiseerde groepen kan je wel verbanden aantonen maar geen

causaal verband!

Verschillende manieren tot randomisatie

Simpele randomisatie

Munt opgooien …

Het nadeel is dat de groepen meestal niet gelijk verdeeld zijn.

Moeilijk om in de praktijk te vertalen.

└> dokter moet patiënt indelen

Voorkeursbehandeling van dokter zorgt voor bias!

Dit kan wel opgelost worden door de indeling via computer te laten verlopen.

Blok randomisatie

Randomiseren in blokken (vast aantal personen per blok)

Vb.: blokken van 6 personen

└> 3 krijgen behandeling A en 3 krijgen behandeling B

Op het einde zijn er evenveel patiënten in groep A als B.

Nadeel: als de arts weet wat de blok grootte is kunnen ze het voorspellen.

Page 16: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

14

B.P.

Dit heeft implicaties als de arts een voorkeur geeft aan één van de

behandelingen.

Als er bijvoorbeeld een heel zieke patiënt komt en de arts heeft voorkeur voor

behandeling A maar hij heeft kunnen achterhalen dat hij bij deze patiënt

behandeling B zou moeten toekennen, kan hij die patiënt niet opnemen in het

onderzoek en daar buiten gaan behandelen met A.

Hierdoor gaat de random steekproef verloren omdat je zelf gaat beslissen wie

er opgenomen wordt en wie niet.

Oplossing door de blok grootte constant te veranderen.

Eerst een blok van 4, dan 6, dan 4, dan 10,...

Gestratificeerd randomiseren

Sterk gerelateerd aan mached case-control studie.

Zelfs als je randomiseert kan het zijn dat er toch verschillen zijn waar te nemen (1

groep ouders of in 1 groep meer vrouwen dan in de andere). Deze verschillen

kunnen toevallig zijn maar kunnen wel voorkomen.

In sommige situaties wil je zelfs deze toevallige variatie uitsluiten. Bijvoorbeeld als je weet

dat de leeftijd een bepalende factor is in de aandoening ga je variatie in deze factor willen

vermijden. In deze gevallen ga je gestratificeerd randomiseren.

Stratificeren op leeftijd:

- Eerst wachten tot je 2 patiënten hebt met de zelfde leeftijd (of

een andere parameter) en pas dan ga je ze randomiseren.

1 iemand krijgt A; de andere krijgt B. toegekend op random

wijze.

- Terug eerst 2 patiënten zoeken met zelfde karakteristieken

- …

Het is moeilijker om dit te doen omdat je altijd moet wachten tot je 2 patiënten hebt met

de zelfde karakteristieken voor je kan randomiseren. Dit kan in combinatie gebeuren met

block randomisatie.

Extreme gevallen:

Tweeling studies

Tweeling 1 behandeling A

Tweeling 2 behandeling B

Cross over studies

Elke groep patiënten krijgt zowel behandeling A als B. (eerst A en dan B)

Niet iedereen gaat eerst A en dan B toegediend krijgen omdat je anders

het effect door tijd kunt observeren.

Op random wijze wordt bepaald wie eerst A en wie eerst B krijgt

Testen op 1 persoon

Bijvoorbeeld bij testen naar irritatie van zalf A en B op de huid.

Omdat de huid op 1 persoon de zelfde karakteristieken heeft en er dus

geen verschil kan plaats vinden door ‘een ander type huid’ te hebben.

Enige verschil dat je kan zien is linker en rechter hand of oog,…

Welke hand of oog behandeling A of B krijgt gebeurt random!!

Pre- post test

Voor en na de behandeling meten.

Page 17: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

15

B.P.

Randomisatie is niet altijd mogelijk

Voorbeeld 1:

Een studie naar chemo en het effect op de ongeboren baby

Ideaal gaat zijn dat je 2 groepen hebt van zwangere vrouwen

Groep 1 krijgt chemo

Groep 2 krijgt geen chemo

Deze opstelling is niet ethisch verantwoord dus kan niet uitgevoerd worden. De oplossing

is door gebruik te maken van historische controles.

└> voor elke zwangere vrouw die chemo krijgt ga je een zwangere vrouw zoeken

die geen chemo krijgt. Meestal in eerder verzamelde data!

Er kan hier geen causaal verband aangetoond worden omdat er geen randomisatie

is gebeurt.

Je kan hoogstens melden dat er al dan niet een verschil gevonden is.

Voorbeeld 2:

Relatie tussen kanker en roken

Ideaal zou zijn dat er 2 groepen gemaakt werden

Groep 1 mag niet roken

Groep 2 moet roken

Ook hier is het niet ethisch verantwoord. De oplossing is om te zoeken naar patiënten met

longkanker en een groep zoeken zonder kanker en vragen naar hun rookgedrag in het

verleden.

Er gaat ook her wel een verband kunnen aangetoond worden maar gaan causaal

verband.

Er is nu wel aangetoond dat er bij rokers meer longkanker voorkomt. Er kan echter

nog steeds gezegd worden dat rokers genetisch anders zijn dan niet rokers.

Implicaties:

Ongelijkheden, met respect voor belangrijke prognostische factoren, kunnen niet

uitgesloten worden.

De ene groep was toch iets ouder dan de andere,…

Wat zou ik gezien hebben als de twee groepen gelijk zouden zijn?

Correcties kunnen uitgevoerd worden aan de hand van statistische methoden. Dit kan

echter enkel op gekende factoren, niet op de ongekende.

Page 18: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

16

B.P.

Deel 3: omschrijven en opsommen van data

Wordt gebruikt om gegevens overzichtelijk te maken voor analyse

Grafieken

Tabellen

Kengetallen (gemiddelde,…)

Hoofdstuk 6: types van resultaten

Het type van gegevens zal een invloed hebben op hoe je de gegevens gaat kunnen

presenteren in grafieken en dergelijk.

Kwalitatieve data

Data zonder numerieke waarde (of die niet van belang is)

Dichotome waarde

de waarde die je meet kan maar 2 mogelijkheden hebben

Dood – levend

Man – vrouw

Deze data wordt in een data set meestal wel omschreven als 1 en 2 maar deze nummering

heeft geen belang.

Nominale waarde

In de mogelijke antwoorden is geen natuurlijke volgorde

Haarkleur

Oorzaak van overlijden

Je hebt hier meerdere mogelijkheden en je kan ze ook nummeren maar de nummering

heeft geen belang (het is enkel om te bepalen welke kleur of dergelijk het is).

Ordinaal

Waarde die in een vaste, zinvolle volgorde kunnen geplaatst worden.

Pijn score (schaal 1 -10)

Hier kan je onderscheid maken in de graad van pijn. Deze

nummering kan geordend worden maar de nummer op zich is

bepaald door de onderzoeker zelf.

Als je bijvoorbeeld oorzaken van overlijden hebt, ga je die in een dataset

terugvinden onder een nummer.

1 = vermoord met hamer

2 = kanker

3 = de pest

Dit is gewoon een nummering om de oorzaken te classificeren. Het zegt

niets over de ernst van de oorzaak of dergelijk.

Page 19: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

17

B.P.

Kwantitatieve data

Gegevens die wel een numerieke waarde bevat

Discrete waarde

De waarde kan maar een wel bepaalde waarde hebben

Zijn gegevens waar de numerieke waarde van belang is maar

waarvan de waarde vast liggen.

Vb.: radioactieve deeltjes in een ruimte.

Het aantal deeltjes kan alle waarde in nemen maar er is maar

1 effectief getal dat gemeten word. Deze gegevens zijn ook

van belang ( ze zeggen iets over de ernst van de toestand).

Continue gegevens

Gegevens zitten in het continuüm

Vb.: gewicht en lengte

Je kan alle waarde waarnemen maar we beperken onszelf

meestal. Gewicht wordt in kg weergegeven en tot 2 cijfers

na de komma. Dat kan echter verder tot na de komma gaan

maar dat word niet gedaan.

Het onderscheid tussen continu en discrete waarde is niet altijd even gemakkelijk te

maken.

Hoofdstuk 7: grafische presentatie van gegevens

Gegevens met 1 variabele

Kwalitatieve variabelen

Staafdiagram

Taartdiagram

Kwantitatieve variabelen

Histogram

De keuze van het interval is belangrijk!!!

De intervalgrootte is afhankelijk van de grootte van de steekproef.

Page 20: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

18

B.P.

Te klein interval: Als je steekproef klein is kan het zijn dat je 1

persoon per staaf krijgt en dat is niet de bedoeling.

Te groot interval: hier ga je verlies van informatie hebben

Box (whiskers) plot

Het voordeel hier is dat je geen intervallen hoeft te kiezen.

Bevat:

Mediaan (blauw)

75 en 25 percentiel

(50% van de observaties

zitten in het rode vlak)

De whiskers geven de

spreiding weer

Uitschieters worden

weergegeven met een

sterretje boven of onder de

whiskers

Gegevens met meerdere variabelen

Kwalitatieve data

Gecategoriseerde staafdiagram

Op deze wijze krijg je in 1 blik een duidelijke

representatie van de gegevens.

Page 21: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

19

B.P.

Kwantitatieve data

Scatterplot

Elke patiënt wordt voorgesteld als 1 symbool.

Door deze samen te brengen kan er een

eventuele trend gezien worden.

Punten dicht bij elkaar = verband

Punten ver uit elkaar = geen verband

Scatterplot + boxplot (of histogram) combo

Door deze 2 te combineren, krijg je

ook een beeld over de verdeling van

de gegevens (normaal, scheef,…)

Scatterplot van tijd/log(dosis)

Boxplot van de tijd

Boxplot van de log(dosis)

Scatterplot matrix

Meerdere veranderlijke kunnen samen

gebracht worden in een scatterplot

matrix.

Page 22: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

20

B.P.

Gemende: kwalitatief en kwantitatief

Gecategoriseerde box plot

Als je bijvoorbeeld 3 verschillende behandelingen hebt onderzocht en je wilt de tijd van

herstel bekijken ten opzichte van die 3 behandelingen.

Als je wilt aantonen dat de hersteltijden

per behandeling verschillend zijn, geeft

dit al een visualisatie dat er een verschil

in data is.

Verder in het onderzoek ga je

proberen te achterhalen of het

verschil dat je gezien hebt al dan

niet toeval is.

Gecategoriseerd histogram

Geeft de zelfde informatie als de gecategoriseerde box plot maar nu met histogrammen.

Bubble blot

Hier ga je 3 veranderlijke tegelijk visualiseren.

Symbool grootte

Groot symbool = hoge waarde

Klein symbool = lagere waarde

Scatter plot (X en Y as)

Page 23: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

21

B.P.

Hoofdstuk 8: kengetallen (summary statistics)

Locatie: waar liggen de gegevens ongeveer?

Zijn het groso modo grote of kleine geobserveerde waarden?

Spreiding: hoe dicht liggen de gegevens bij elkaar?

Meten van de locatie

Waar liggen da observaties ongeveer?

Steekproef gemiddelde

Steekproef mediaan

(Middelste waarde)

Steekproef modus

Meest geobserveerde waarde (niet altijd informatief)

Veel testen in de statistiek zijn gemaakt op het gemiddelde. Hierdoor gaan we zoveel

mogelijk met gemiddelde proberen te werken.

Het gemiddelde is echter onderhevig aan extreme waarden, de mediaan heeft dit probleem

niet

Als we met scheve data zitten : gebruik maken van de mediaan

Bij symmetrische data : gebruik maken van het gemiddelde

Page 24: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

22

B.P.

Meten van de spreiding

Hoe gelijkwaardig zijn de observaties?

Spreiding zegt niets over de locatie!!

Gemiddelde afstand tot het gemiddelde

(afstand – gemiddelde) en daar neem je het gemiddelde van

Komt altijd uit op 0 dus zegt niets over de spreiding

Kwadratische afstand, van alle observaties, tot het gemiddelde

Bied een oplossing voor het eerste

(afstand – gemiddelde)² en daar neem je het gemiddelde van

0 = geen spreiding in de observaties

Hoe groter de waarde, hoe meer spreiding er is.

Gemiddelde variantie

Kwadratische afstand van alle observaties tot het gemiddelde

Bij het nemen van het gemiddelde ga je delen door n-1

De reden waarom, zien we later

Kleine waarde : weinig spreiding

Grote waarde : veel spreiding

Bij het kwadrateren van de gegevens heb je wel het nadeel dat het resultaat niet meer de

zelfde eenheid heeft als de gemeten waarden (cm cm²,…)

Om dit probleem op te lossen, neem je de √ van s² (steekproef variantie). Zo krijg je

een waarde die terug in de zelfde eenheid staat als de geobserveerde waarde.

= standaard deviatie (s)

Bereik (R)

Is de afstand tussen de hoogste en de laagste waarde

Hoe groter je steekproef, hoe groter de kans is dat je extreme waarde

hebt waardoor R beïnvloed word.

Om de invloed van uitschieters te voorkomen, kan je gebruik

maken van de Interkwartiel afstand (IQR)

De IQR is de afstand die je overhoud als je de 25% hoogste en laagste waarde weg doet.

Als we met scheve data zitten : gebruik maken van IQR

Bij symmetrische data : gebruik maken van standaard deviatie

Zowel variantie, kwadratische variantie als standaard deviatie zijn onderhevig aan

uitschieters

IQR is niet onderhevig aan uitschieters, de grootte van de steekproef maakt hier ook niet

uit.

Page 25: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

23

B.P.

Percentages

het gemiddelde bij dichotome variabele = het percentage

- Hier is het niet nuttig om een standaard deviatie te meten omdat je met het

percentage alles kan afleiden.

Geometrisch gemiddelde en standaarddeviatie

Als de gegevens niet symmetrisch zijn, ga je denken om de mediaan te gebruiken. Echter

zoals eerder gezegd zijn er veel testen in de statistiek gemaakt op het gemiddelde. We

gaan dus zoveel mogelijk met een gemiddelde proberen te werken. Als je met scheve data

zit kun je de gegevens transformeren om zo eventueel een iets symmetrischer resultaat

te bekomen. Als de gegevens symmetrisch genoeg zijn kan je dat gemiddelde gebruiken.

Omdat je een logaritmische aanpassing hebt gedaan, zegt dit gemiddelde niet veel omdat

dit op een log schaal is. Daarom ga je dit gemiddelde terug transformeren (exponentieel)

Wat je nu bekomt is niet het gewone gemiddelde!!

Geometrisch gemiddelde

Het geometrisch gemiddelde zal een kleinere waarde bevatten dan het gewone gemiddelde

wat aantoont dat ze minder beïnvloed is door extreme waardes.

Kun je het geometrisch gemiddelde wel gebruiken??

Enkel als je ongeveer symmetrische waarde bekomt na transformatie!!

Je gaat hier enkel een uitspraak kunnen maken over de log gegevens

Missing data

komt zelden voor, als het voorkomt moet het wel eerlijk vermeld worden en niet gewoon

weglaten. Enkel zo ga je een eerlijk antwoord kunnen formuleren (laat onzekerheid zien)

het hebben van missing data kan ervoor zorgen dat de steekproef niet meer random is.

Als er in een onderzoek vermeld staat dat er met een geometrisch

gemiddelde is gewerkt, weet je dat ze log getransformeerd

hebben.

In andere woorden kun je ook achterhalen dat de oorspronkelijke

waardes scheef verdeeld waren en dat ze na transformatie ±

normaal verdeeld waren

Page 26: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

24

B.P.

Vb.: als je in een bedrijf vraagt hoeveel iemand verdiend en alle personen die veel

verdienen vullen het niet in je steekproef gaat niet meer representatief zijn voor

de populatie.

je kan geen gegevens creëren maar eerlijk zijn moet

het vermelden van missings kan dienen als een kwaliteitslabel (geen missings = goed)

grafische representatie van beschrijvende statistiek.

Kengetallen meedelen via figuren. Hier moet je wel opletten welke figuren je gebruikt.

Rechter figuur is niet goed omdat je hier een beeld geeft van het gemiddelde met de

standaard deviatie, dit kan enkel gebruikt worden bij gegevens die symmetrisch verdeeld

zijn of getransformeerd.

Bij de linker figuur kan je duidelijk zien of er al dan niet scheefheid is. Deze figuur is ook

beter om te gebruiken.

Deel 4: basis concepten van statistische besluitvorming

Hoofdstuk 9: beschrijven van de populatie

Stochastische variabele (X)

Daar waar je in een steekproef spreekt over observaties (x) ga je in de populatie spreken

over stochastische variabele (X)

Stel we willen een onderzoek doen naar BMI en we hebben een steekproef van n=321.

BMI zal genoteerd worden als X (onderdeel van de populatie)

De 321 observaties in onze steekproef worden respectievelijk genoteerd als

x1,x2,x3,…,x321

BMI is een stochastische variabele omdat deze afhankelijk is van puur toeval. Als je 1

iemand random uit de populatie neemt, dan kan je onmogelijk op voorhand weten welke

BMI deze persoon zal hebben. Dat zal je eerst de persoon moeten wegen en meten.

Page 27: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

25

B.P.

Het is dus niet mogelijk om te zeggen dat iemand die je random uit de populatie neemt

een BMI zal hebben van 20. Je kan hoogstens zeggen dat de kans groter is dat ze een BMI

zal hebben tussen een bepaalde marge (vb tussen 20 en 25).

Stochastische variabele zijn dus ook afhankelijk van random variabiliteit. Bij het herhalen

van een experiment ga je dus een verschil observeren in je observaties.

Hoe waarschijnlijk het is om een bepaalde waarde te bekomen kan wel

beschreven worden aan de hand van een verdelingsfunctie, de

kansverdelingsfunctie.

└> vb.: normaal verdeling,…

Deze verdeling zegt wat de mogelijke, realistische waardes zijn die je kan bekomen en wat

de kans is die daarbij hoort.

Net zoals bij de classificaties in de observaties, zijn stochastische variabelen ook in te delen

in de zelfde klassen.

Discrete probabiliteitsverdeling (kansverdeling)

Deze verdeling beschrijft wat de kans is om een specifieke waarde te observeren van een

discrete random variabele.

Vb.: stel als X de random variabele is voor ziekteverzuim, dan kan X enkel de

waarde 1 of 0 aannemen.

𝑋 = ⧼ 1 → 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 0 → 𝑔𝑒𝑒𝑛 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚

De discrete kansverdeling, beschrijft wat de kans is op het observeren van een 1 of een 0.

Deze kansen zijn percentages van nullen en eentjes die je zou observeren als het

experiment opnieuw en opnieuw zou gedaan worden of die je zou observeren als de n van

je steekproef = ∞.

We zitten hier met discrete waardes dus we kunnen deze visualiseren met behulp van een

bar plot.

Page 28: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

26

B.P.

Omdat we hier uitspraken maken over de populatie, gebruiken we Griekse letters.

𝜋0 = probabiliteit om een 0 te observeren P(X=0)

└> proportie nullen die je zou observeren in

een ∞ grote steekproef

𝜋1 = probabiliteit om een 1 te observeren P(X=1)

└> proportie eentjes die je zou observeren

in een ∞ grote steekproef

Dit is een voorbeeld van de bernoulli verdeling. Er zijn nog meer soorten verdelingen:

multinomiaal, binominaal,…

Continue probabiliteitsverdeling

Beschrijft hoe waarschijnlijk het is dat je een continue random variabele meet die plaats

vind in een bepaalde marge.

Bij discrete waardes, konden we een uitspraak maken over de populatie door de bar plot

(staafdiagram) te veralgemenen tot een ∞ grote steekproef. Voor continue variabelen

kunnen we op dit zelfde idee verder werken.

We kunnen het histogram van de populatie benaderen door de n van de steekproef te

vergroten. Hoe groter de steekproef, hoe beter de populatie zal benaderd worden. Als je

deze blijft vergroten ga je uiteindelijk komen op een “glad” histogram.

└> dit stelt dan de densiteitsfunctie voor

(beschrijft het histogram van een ∞ grote steekproef

Van dit histogram kunnen we dan de probabiliteit afleiden om een waarde te observeren

tussen een bepaald bereik (tussen a en b).

De probabiliteit is gelijk aan de oppervlakte onder de densiteitsfunctie tussen punt

a en b.

De totale oppervlakte van de densiteitsfunctie moet gelijk zijn aan 1

Er bestaan verschillende densiteitsfuncties

o Normaal

o T verdeling

o …

Page 29: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

27

B.P.

Samenvatting van de karakteristieken voor de kansverdeling

De probabiliteitsverdeling kan bekeken worden als een uitbreiding van het staafdiagram of

histogram tot de totale populatie of een ∞ grote steekproef. Het beschtrijft de

waarschijnlijkheid om een bepaalde waarde te observeren wanneer je random iemand uit

de populatie neemt. Gelijkaardig als bij de steekproef kan je nu ook maten van locatie en

spreiding definiëren voor de totale populatie.

Dit zijn dus de spreiding en de locatie die je zal meten in een ∞ grote

steekproef

Zoals eerder gezegd, gaan we als we over de populatie spreken gebruik maken van griekse

letters

µ en σ² zijn waardes zijn theoretische

concepten omdat niemand ze ooit zou

kunnen meten.

�̅� en en s² zijn de waardes die we wel

kunnen meten.

De normaal verdeling

De normaal (of gaus) verdeling is de meest frequent gebruikte verdeling in de statistiek.

De densiteitsfunctie die daarbij hoort kan als volgt omschreven worden.

𝑓(𝑥) = 1

√2𝜋 𝜎² 𝑒𝑥𝑝 {−

1

2𝜎2 (𝑥 − µ)²}

De densiteitsfunctie is afhankelijk van µ en σ². Als deze twee waarden gekend zijn, kan de

normaal verdeling voor die populatie bepaald worden.

Als een random variabele (X) normaal verdeeld is met een gemiddelde µ en een variantie

σ², dan kan dit genoteerd worden als 𝑋~𝑁(µ, 𝜎2). X volgt de normale verdeling met als

parameters µ en σ².

Er zijn oneindig veel verschillende normaal verdelingen (want deze is

afhankelijk van µ en σ²).

De standaard normaal verdeling

De belangrijkste eigenschap van de standaard normaal verdeling is dan alle andere

normaal verdelingen kunnen getransformeerd worden tot een standaard normaal verdeling

en andersom.

De parameters µ en σ² zullen respectievelijk de locatie en de spreiding bepalen van je

normale verdeling.

Page 30: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

28

B.P.

Van de moment dat je de parameters µ en σ² hebt, kan

je berekenen wat de kans zal zijn dat je een waarde gaat

observeren bij een µ ± σ .

Veel statistische processen volgen de benadering van de normaal verdeling. We gaan altijd

proberen een normale verdeling te vinden die onze dataset omschrijft. Als we dat bepaald

hebben kunnen we verdere berekeningen maken die gebaseerd zijn op de normale

verdeling.

en s² in de steekproef geven een schatting weer wat µ en σ² zouden kunnen zijn in de

populatie. met de gegevens die we uit onze steekproef halen kunnen we dus een normale

verdeling maken van wat wij verwachten te zien in de populatie.

Hoofdstuk 10: van populatie tot steekproef en terug tot populatie

van populatie tot steekproef

we hebben besproken hoe dat de probabiliteitsverdeling (densiteitsfunctie) beschrijft hoe

waarschijnlijk het is om een waarde te observeren als je random iemand uit die populatie

neemt.

Wanneer we een steekproef hebben die groot genoeg is, kan men verwachten dat

het geobserveerde histogram de probabiliteitsverdeling zal benaderen

= probabiliteits theorie

We kunnen dus vanuit de

probabiliteitsverdeling een

beeld creëren van wat we

verwachten te zien in een

steekproef.

Page 31: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

29

B.P.

Van steekproef tot populatie

Omdat we nooit helemaal zeker kunnen zijn van de probabiliteits verdeling

(densiteitsfunctie), gaan we vanuit de steekproef een schatting proberen te maken van de

reële populatieverdeling.

Dit is wat we met statistiek gaan proberen te doen. (statistische schatting / inferentie).

Om dit te kunnen verwezenlijken, moeten we er wel proberen voor te zorgen dat onze

steekproef de populatie zal benaderen. Dit doen we door ervoor te zorgen dat we de

steekproef random gaan samenstellen en dat ze groot genoeg is.

Voorbeeld: BMI

Om een uitspraak te kunnen maken over de BMI in de populatie, gaan we om te beginnen

een grote, random steekproef nemen en deze beschrijven. Dit hebben we gedaan en we

bekomen dit histogram.

Zoals je ziet is het histogram niet symmetrisch verdeeld

dus zullen we niet instaat zijn om het gemiddelde en

standaard deviatie te gebruiken. Hierdoor zullen we de

normaal verdeling ook niet gebruiken.

We willen natuurlijk liefst een normaal verdeling

gebruiken omdat deze gemakkelijk te interpreteren is.

Wat we kunnen proberen is de gegevens te

transformeren zodat de gegevens meer normaal

verdeeld zullen zijn. Als we zien dat na transformatie de

gegevens normaal verdeeld zijn, dan kunnen we hier wel

een normaalverdeling gebruiken.

Er zijn een aantal mogelijke transformaties die we kunnen toepassen. De keuze van welke

transformatie hangt af hoe het histogram en uitzien.

In onderstaande figuur word duidelijk gemaakt welke transformatie je gaat toepassen in

welke situatie.

Page 32: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

30

B.P.

Zoals je ziet kan je de

zelfde scheefheid op

verschillende manieren

modificeren. Welke manier

je gebruikt ga je enkel

kunnen bepalen door het te

proberen.

Als je na transformatie een verdeling bekomt die symmetrisch is, dan kan je gaan bepalen

wat je als µ en σ² gaat gebruiken.

Als je gegevens normaal verdeeld zijn, dan ken je de log(�̅�) en de log(s²) als

een schatting van µ en σ². Om je normaal verdeling mee op te stellen.

Nu kan je deze verdeling gaan gebruiken om te bepalen wat de kans is dat je

een persoon neemt uit de populatie met een BMI >25 of >30,….

Deze berekening zal via bepaalde programma’s gebeuren.

Na berekening kom je op een percentage van 47%.

Dit wilt dus zeggen dat je 47% kans hebt om random een persoon uit de populatie

te nemen die een BMI heeft > 25

Wat je wel moet onthouden is dat dit hier een schatting is want we weten niet exact wat µ

en σ² is in de populatie. We hebben deze geschat op basis van onze steekproef. We hopen

uiteraard dat onze steekproef een goede representatie is van de populatie.

Later zullen we zien dat we wel rekening gaan houden met het feit dat we maar een

schatting maken.

Voorbeeld: normale waarden.

Normale waardes of referentie waarden worden vaak gebruikt bij het rapporteren van

klinische test resultaten. Deze waarden zijn ook gebaseerd op een populatieverdeling die

ze ooit bepaald hebben.

Deze waardes worden gepresenteerd aan de hand van 2 waarden waar een bepaald

percentage van de normale, gezonde, populatie tussen zit.

Vb.: bij 95% gaan we een interval krijgen van [c1 , c2]. Dus 95% van de normale

populatie heeft een waarde die in dit interval zit.

Log √

Exp X²

Page 33: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

31

B.P.

Deze waarden worden dus gebruikt om te controleren

of de gemeten waarde bij de patiënt (Bloeddruk,…)

extreem hoog of extreem laag is.

Alles buiten het interval dat je hebt opgesteld is dus

extreem hoog of laag.

Hoe gaan we die normale waarden nu vastleggen?

Om te beginnen gaan we een grote steekproef nemen

die een goede representatie geeft van onze

populatie.

Van het moment dat we een verdeling hebben

kunnen opstellen van die populatie kunnen we alle

kanten uit.

OPGELET!: er is 5% kans dat je een gezond persoon meet met een te hoge waarde.

Wanneer je meerdere parameters gaat willen testen (bijvoorbeeld 2), gaat de kans stijgen

dat je een gezond persoon meet waarvan 1 of 2 parameters te hoog of te laag zijn.

Als de probabiliteit van een normale waarde = 95% (0,95). Dan is de

waarschijnlijkheid op het hebben van 2 normale waarden, voor 2 onafhankelijke

parameters, = 0,95².

Dus bij het testen van twee parameters, dus bij het combineren van twee 95%

normaal waardes. Zorgt ervoor dat je een interval krijgt dat enkel 90,25% van de

totale populatie bevat.

Algemeen kan je het volgende stellen. Met “k” het aantal gemeten parameters.

Dit fenomeen noemt multiple testing.

Multiple testing zegt dat als je maar lang genoeg test, dan zal je altijd

wel iets vinden met een extreme waarde ook al is er niets mis met die

patiënt. Je bekomt dat resultaat enkel door puur toeval.

Page 34: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

32

B.P.

hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie

Schatting

In het voorgaande deel hebben we karakteristieken (µ, σ²,…) van de populatie bepaald.

Door de densiteitsfunctie van de populatie te achterhalen op basis van het histogram

gezien in de steekproef.

Dit is echter niet altijd mogelijk. Bijvoorbeeld wanneer je in je steekproef een

histogram bekomt met 2 pieken. Hier is het niet mogelijk om een normale verdeling

op te vinden, zelfs niet na transformatie.

Een aders aspect is dan we niet altijd geïnteresseerd zijn in de volledige verdeling,

zoals in het voorbeeld van BMI. Hier wouden we enkel weten wat de kans is om

iemand, random, uit de populatie te nemen met een BMI >25.

We zijn enkel geïnteresseerd in het % mannen met een BMI >25.

Dit is uiteraard mogelijk via de weg die wij gedaan hebben maar dit

neemt wel veel tijd in beslag. Daarnaast zit je nog met het feit dat je

niet altijd een correcte, matchende, densiteitsfunctie kunt vinden.

Er is een manier om heel die tussenstap van het bepalen van de densiteitsfunctie over te

slaan. En dit door een schatting te gaan maken van de karakteristieken waar we in

geïnteresseerd zijn.

Het is namelijk zo dat we ook al bij het bepalen van de densiteitsfunctie een schatting

hebben gemaakt van µ en σ². Dus waarom zouden we die schatting dan niet direct

doortrekken.

Als je steekproef groot en random is, dan ga je er eigenlijk ook vanuit dat deze het beeld

van de populatie benaderd. We gaan ons dus niets meer aantrekken van de verdeling en

stellen onze schatting voor zoals hier boven staat aangegeven.

Je gebruikt deze waarden niet om te geloven dat dit de exacte waarde is maar

om te geloven dat het een goede schatting is.

Je weet dus dat je een fout gaan maken maar dat was bij het bepalen van de

densiteitsfunctie ook al.

Bij een schatting zal dus altijd een onzekerheid zijn.

Page 35: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

33

B.P.

Voorbeeld: BMI

Als we nu het zelfde gaan onderzoeken als voordien zonder eerst de verdeling in kaart te

brengen. Deze hebben we toch niet nodig om een uitspraak te kunnen maken over het %

mannen met een BMI >25.

Je gaat nu gewoon in je steekproef kijken hoeveel mannen er zijn met een BMI

>25.

Dit ga je dan delen door het totaal aantal mannen om zo het percentage te

bekomen.

θ̂ = # 𝑚𝑎𝑛𝑛𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐼 > 25

2605= 46,99%

46,99% is onze schatting van het totaal aantal mannen met een BMI>25.

In onze eerste berekening (met omweg) kwamen we op een percentage

van 47,34%.

Er is dus wel een verschil te zien maar ze zijn toch alle twee fout. (we

weten dat het allebei schattingen zijn)

Later zullen we proberen in kaart te brengen hoeveel onzekerheid op

deze schattingen zit.

Schatting variabiliteit

De schattingen die we maken zijn gebaseerd op de waarden bekomen uit de steekproef

We hebben ook al eerder bepaald dat een

steekproef vatbaar is aan random

variabiliteit. Nu, als onze steekproef hier

onderhevig aan is dan zal onze schatting dit

ook doen.

De schatting θ̂ kan hierdoor geïnterpreteerd worden als 1 gerealiseerde waarde van een

random variabele Ө̂.

└> de verdeling van Ө̂ word de sampling distributie van Ө̂ genoemd.

o Deze omschrijft welke waarde θ̂ je verwacht als je een experiment

veel keer zou herhalen.

Page 36: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

34

B.P.

De sampling distributie Ө̂ is afhankelijk van:

- De betekenis van Ө̂: (mediaan, variantie,…)

- De verdeling van de originele data

- Steekproef grootte

Het bepalen van deze verdeling is zeer moeilijk want in de praktijk ga je maar 1 waarde

zien en dat is je schatting. Je zou een experiment meerder keren moeten doen gewoon om

te zien welke variabiliteit je uitkomt op een schatting. Dit gaat niemand doen. maar toch

zouden we willen weten uit welke verdeling die ene waarde komt.

En hier zitten we dan vast.

Om dit in kaart te brengen hoeveel variabiliteit er zit in je schatting zou je die

verdeling moeten weten (maar dat is onmogelijk met 1 waarde).

o Ofwel ga je het experiment toch meerdere kerenmoeten uitvoeren

o Of we gaan gebruik maken van een simulatie via PC.

Bias en precisie

We gaan dus programma’s gebruiken om de verdeling van Ө̂ te karakteriseren. Er zijn

enkele mogelijke verdelingen die we dan kunnen waarnemen.

Asymmetrisch

- Waarschijnlijk op het maken van een overschatting

- Onderschatting is onwaarschijnlijk

- Gemiddeld gezien gaat de schatting wel correct zijn

dit zien we dus liever niet want als je hier een overschatting

maakt, kan je er heel ver naast zitten

symmetrisch

- Over- en onderschatting zijn even waarschijnlijk

- Gemiddeld gezien gaat de schatting correct zijn

Bij de symmetrische verdeling zijn er wel nog enkele verschillen te zien onderling. En meer

specifiek op gebied van variabiliteit. Daar waar je weinig variabiliteit hebt gaat de

schatting heel precies zijn. Wanneer er veel variabiliteit is, dan gaat de schatting minder

precies zijn.

Page 37: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

35

B.P.

Daarnaast heb je nog de situatie waar je een symetrische

verdeling bekomt maar niet rond 𝜃 (reële waarde).

- Hier zal je systemisch een fout gaan maken

- Gemiddeld gezien zal je schatting dus niet correct

zijn.

Sampling distributie van het steekproef gemiddelde

Veronderstel dat we geïtereseerd zijn in µ van een random variabele X.

Gebaseerd op een random steekproef zal µ geschat worden door �̅�.

�̅� is een realisatie van de stochastische variabele �̅�. De sampling distributie van �̅�

is afhankelijk van de verdeling van X en de n (van de steekproef). We kunnen de

sampling distributie �̅� simuleren onder verschillende settings.

Als we het experiment ∞ keer herhalen en we kijken dan naar het histogram van �̅�, dan

gaan we de verdeling van �̅� zien.

In het algemeen kunnen we besluiten dat wanneer je een steekproef groot genoeg maakt:

- Zal de verdeiling symetrisch ronde de reële waarde µ liggen

- Meer geconcentreerd de verdeling zal zijn rond µ

(de variabiliteit zal dalen)

- De verdeling zal normaal verdeeld zijn

CLT: als je geïntereseerd bent in het gemiddelde, en je gebruikt �̅� als een schatting. Wat

zal de verdeling van �̅� dan zijn met als gemiddelde de echte waarde die je wenst te schatten

(µ,𝜃) en een variantie 𝜎²

𝑛. En dit op voorwaarde dat je steekproef voldoende groot is.

Wat je hier zal bekomen is altijd een normale verdeling. (dit word duidelijk

gemaakt bij de simulaties via de applet (zie cursus)).

µ: gemiddelde (geschtat op basis van �̅�)

σ²: variantie (geschat op basis van s²)

Het is logisch wanneer je veel variabiliteit hebt in de populatie dat je dit ook

gaan terug zien in je schatting (s²)

hier kunnen we dus niets aan veranderen.

n: steekproef grootte (deze kunnen we aanpassen)

Page 38: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

36

B.P.

naar mate de steekproef groter word, gaat de onzekerheid van de schatting kleiner en

kleiner worden. Dis is ook te zien in de simulaties.

De CLT zegt wat je moogt verwachten te zien wanneer je een experiment gaat doen, er

van uitgaande dat je steekproef groot genoeg is.

CLT: de sampling distributie van �̅�, �̅� zal altijd normaal verdeeld zijn met een

bepaalde µ en 𝜎²

𝑛. Dus met dat n groter word zal de onnaukeurigheid dalen.

De steekproef moet dus voldoende groot zijn. Maar wat is nu voldoenede groot?

- Er is geen algemene regel.

o Hangt af van hoe de oorspronkelijke data verdeeld is (hoe de

populatie verdeling er uit ziet)

o Als de gegevens van in het begin al van een normale verdeling

komen zal je minder observaties nodig hebben dan wanneer je start

van gegevens die niet normaal verdeeld zijn.

Het is dus aan te raden om in het onderzoek toch eens te gaan kijken naar de verdeling.

Niet de volledige populatie verdeling in kaart brengen maar gewoon kijken of je gegevens

van je steekproef al dan niet normaal verdeeld zijn.

Als ze symetrisch verdeeld zijn weet je dat je bij minder observaties nog steeds de CLT

gaat kunnen toepassen. Wanneer je heel scheve data hebt en een kleine steekproef dan

kan de CLT niet toegepast worden. Hoe schever de data, hoe moeilijker het wordt om de

CLT toe te passen.

Meer observaties lost dit probleem dan op

De CLT is de reden dat veel natuurlijke fenomenen vaak normaal verdeeld zijn. Een

gemiddelde is normaal verdeeld en is een goede representatie van de populatie.

We kunnen met de CLT niet voor andere Ө̂ gebruiken dan �̅�. We kunnen wel aantonen dat

wanneer we de n vergroten, de Ө̂ de 𝜃 zal benaderen.

Enkel zal je bij �̅� een normale verdeling vinden, daarom gaan we altijd proberen het

gemiddelde te gebruiken boven de mediaan. Zelfs liever het geometrisch gemiddelde dan

mediaan.

Standaard error of the mean.

De CLT kunnen we dus toepassen om de nauwkeurigheid te bepalen van onze schatting µ

(op basis van �̅�). Van de moment dat we de CLT hebben kunnen we zien dat het gemiddelde

= µ en dat de standaard deviatie = 𝜎²

𝑛 (= √

𝜎²

𝑛 =

𝜎

√𝑛).

Deze standaard deviatie wordt ‘standaard error of the mean’ genoemd (de standaard

deviatie van het gemiddelde).De s.e.m. reflecteert de precisie in de schatting van µ door

�̅�.

Het gebruik van de s.e.m. is om aan te tonen hoe nauwkeurig het gemiddelde werd

geschat.

Page 39: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

37

B.P.

Vb.: BMI

Deze data set laat zien wat de BMI is in verschillende beroepsklassen.

Hoe we de gegevens zouden beschrijven zoals we in

het verleden gezien hebben.

o Dan zou je dus zeggen: ik heb een

gemiddelde ± standaard deviatie.

└> dit beschrijft de locatie van de gegevens

in de groep met de spreiding.

o Bij normaal verdeelde gegevens is dit zinvol.

o Wordt gebruikt om je gegevens te

beschrijven (locatie en spreiding)

Hier wordt het gemiddelde weergegeven met de

s.e.m.

o Dit ga je gebruiken om aan te tonen wat je

schatting is en hoe nauwkeurig deze is.

o Je kan dit altijd toepassen omdat de

gegevens toch symmetrisch verdeeld zijn (er

vanuit gaande dat de n groot genoeg is.

Hoofdstuk 12: betrouwbaarheidsinterval

Het betrouwbaarheidsinterval (C.I.) beschrijft hoe het steekproef gemiddelde (�̅�) zich gaat

gedragen als je herhaaldelijk steekproeven gaat nemen.

Vb.: captopril

In dit onderzoek gaan we 15 patiënten onderzoeken waar we de bloeddruk van hebben

gemeten voor en na het toedienen van captopril.

Je bent geïnteresseerd in de verandering in BD voor en na behandeling (X= BDvoor -BDna).

Dit berekenen we op basis van de gegevens gevonden in de steekproef.

Opletten dat je de juiste grafieken laat zien!!!

Gemiddelde ±standaard deviatie: aantonen wat de locatie en spreiding is

Gemiddelde ± s.e.m.: aantonen of je schatting al dan niet nauwkeurig is

Page 40: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

38

B.P.

We willen de CLT toepassen maar we weten niet of n groot genoeg zal zijn. We kijken dan

eerst naar het histogram (van de BD verschillen) om na te kijken of deze al dan niet

symmetrisch verdeeld zijn.

We zien dat er geen echte scheefheid is dus dat de gegevens

‘symmetrisch’ zijn.

We kunnen de CLT toepassen

Voor onze vraagstelling gaan we kijken wat het gemiddelde verschil is in BD waargenomen

in onze steekproef. Als we het gemiddelde verschil bekijken zien we dat er een negatieve

daling is. We komen op een �̅� = 9,27 (gemiddelde daling van 9,27).

Dit blijft maar een schatting voor de µ dus we willen ook wel weten hoever dat onze

schatting van de reële waarde µ ligt. (wat de kans is)

We gaan een interval bepalen rond de schatting die heel waarschijnlijk is de reële

µ te bevatten.

Betrouwbaarheidsinterval (C.I.)

We willen dus een uitspraak maken over hoe ver we van de reële µ zitten. We weten

sowieso dat we er langs zitten want we hebben een schatting gemaakt en deze is

onderhevig aan toeval.

We spreken hier over een kans. Van het moment dat we over een kans spreken hebben

we een verdeling nodig.

We zijn geïnteresseerd om een uitspraak te maken over de kans van het

steekproefgemiddelde (�̅�). Hier komt de CLT naar boven, deze zegt de verdeling te

kennen. Los van wat de verdeling zal zijn van de oorspronkelijke gegevens, zal �̅�

altijd een normale verdeling volgen met dit gemiddelde en variantie. Er ook weer

vanuit gaande dat de n groot genoeg is.

Dankzij de CLT kunnen we berekenen hoe waarschijnlijk het is dat onze schatting ver of

dicht van de correcte waarde ligt.

We kunnen bijvoorbeeld bepalen wat de kans is dat een random steekproef een �̅�

zal bevatten die minder dan 1 unit verschilt van µ.

Page 41: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

39

B.P.

Zoals altijd, word σ² geschat met s². n=15

Met deze gegevens kunnen we bepalen dat we bij een random steekproef in 35% van de

gevallen een schatting van µ hebben die minder dan 1 unit van de reële µ zal verwijderd

zijn.

Deze berekening kan voor verschillende afstanden berekend worden

Het is echter ook mogelijk om het omgekeerde te doen.

Als we nu willen weten wat het interval zal zijn bij een bepaalde probabiliteit.

Bijvoorbeeld als we 95% zekerheid willen hebben dat de units de reële µ

bevatten.

De grootte van het interval duid de precisie aan van de schatting. Deze is afhankelijk van

de σ² in de populatie. (dus kunnen we niet aanpassen)

Een 100% betrouwbaarheidslevel is nutteloos want dat zou een C.I. opleveren van [-∞,∞].

Voorbeeld: BMI

We hebben nu enkel over een gemiddelde gesproken, een C.I. kan echter voor elke

karakteristiek 𝜃, van random variabele X opgesteld worden.

Zoals bij de BMI waar we geïnteresseerd waren in het percentage mannen met een

BMI >25.

Geobserveerde proportie= �̂� = 46,99%

Om te kijken hoe precies die schatting is, kunnen we een C.I. bepalen met een

betrouwbaarheidslevel van 95%.

95% C.I. voor 𝜃 = [0,45;0,49]

Het interval [0,45;0,49] bevat de ongekende proportie 𝜃 met een waarschijnlijkheid

van 95%.

We weten dat wanneer we een normale verdeling hebben, we deze kunnen

standaardiseren (standaard normaal verdeling). Deze is gemakkelijk te

interpreteren dus gaan we hier naar toe proberen te werken.

𝑋 ~ 𝑁(µ, 𝜎2) �̅�−µ

√𝜎² ~ 𝑁(0,1)

In ons voorbeeld hebben we de verdeling �̅�. Hiervan weten we ondertussen dat deze

normaal verdeeld is (CLT) wat wilt zeggen dat we deze kunnen standaardiseren.

�̅� ~ 𝑁(µ,𝜎2

𝑛)

�̅�−µ

√𝜎²

𝑛

~ 𝑁(0,1)

Nu, omdat we dit gestandaardiseerd hebben gaan we de units ook moeten

“transformeren” −1

√𝜎²

𝑛

1

√𝜎²

𝑛

De intervallen die we bekomen is het C.I.

(De 2 units ± �̅�)

Het bekomen percentage is het betrouwbaarheidslevel

Page 42: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

40

B.P.

Hoofdstuk 13: hypothesetesten

Daar waar we bij een betrouwbaarheidsinterval gaan proberen weer te geven hoe

nauwkeurig de schatting is en hoe groot de kans is dat je echt heel ver van de reële waarde

af ligt.

Bij het toetsen van hypothesen gaan we echter een uitspraak (hypothese) over een

bepaalde parameter (gem,…) toetsen. Op basis van de gegevens die je verzameld hebt.

Ondersteunen de gegevens die we verzameld hebben uit onze steekproef de

hypothese die we gesteld hebben.

o Hebben we voldoende evidentie om te geloven dat de uitspraak juist

is

o Of zeggen de gegevens dat we evidentie hebben om te geloven dat

die hypothese niet correct is.

Voorbeeld: captopril

We gebruiken het zelfde voorbeeld als bij C.I. we willen dus achterhalen of de behandeling

al dan niet een effect heeft op de diastolische bloeddruk.

X= BDvoor - BDna

We berekenen het gemiddelde �̅� (=9,27)

We kijken naar het histogram om te zien hoe de gegevens verdeeld zijn , we willen

hier later ook de CLT toepassen.

Het verschil is dat we gaan werken met een hypothese. We gaan ons concentreren op het

vinden van evidentie of de behandeling een effect heeft op de BD.

In het geval dat de behandeling geef effect zou hebben, gaat het gemiddelde

µ van X = 0

(want als uw 2 gemiddelden niet veranderd, dan ga je 2 dezelfde

waarden van elkaar aftrekken)

Dus als we kunnen aantonen dat er evidentie is dat µ ≠ 0 kunnen we

concluderen dat er wel een effect gaat zijn.

Wat we ons nu afragen is in andere woorden of µ al dan niet gelijk is aan 0.

In onze steekproef hebben we een schatting gemaakt van µ

µ̂ = �̅� = 9,27

└> Het gemeten verschil suggereert dat er een effect is.

Omdat we µ nooit exact kunnen weten, kunnen we ook niet gaan zeggen dat alles wat niet

0 is direct betekend dat er geen effect is.

We weten wel dat onze schatting µ̂ een goede benadering is voor µ. Dus als µ=0

zou zijn dan gaat µ̂ dicht in de buurt liggen van 0.

We gaan hier eerst veronderstellen dat er geen effect is (µ=0). Daarna gaan we in de

steekproef kijken wat µ̂ (�̅�)is.

Als je hier een groot effect waarneemt ga je besluiten dat onze eerste hypothese

(µ=0) niet juist is en zullen we die hypothese dan ook verwerpen.

We kunnen dan wel besluiten dan µ≠0 (er is geen effect).

Page 43: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

41

B.P.

Nul en alternatieve hypothese

Wat we juist hebben besproken omschrijft een hypothese, meer bepaald de nul hypothese.

De nul hypothese stelt dat µ=0

└> de 2 gemiddelden zijn gelijk aan elkaar geen effect

De alternatieve hypothese stelt dat µ≠0

└> de 2 gemiddelden zijn niet gelijk aan elkaar wel een effect

We vertrekken vanuit het geloof dan H0 correct is tot het tegendeel bewezen is (dat we

voldoende evidentie hebben dat H0 fout is.

We zijn nog altijd geïnteresseerd

om een uitspraak te maken over µ.

Niet zo zeer het schatten van µ

maar we gaan proberen een

uitspraak te testen.

Deze uitspraak is: µ=0 (H0) of

µ≠0 (HA).

Het bepalen of we H0 of HA gaan

aanvaarden doen we op basis van

de steekproef.

P-waarde en significantie niveau

We trachten dus te achterhalen of we H0 al dan niet gaan verwerpen. Het verwerpen van

H0 als µ te veel verschilt van 0.

De vraag hier is dus wanneer kan je zeggen dat µ te veel verschilt van 0?

Antwoord:

Als het resultaat onwaarschijnlijk is te gebeuren door puur toeval als we er

van uit gaan dat µ=0.

Dus wat we zien kan geen toeval zijn.

Als het resultaat niet is wat we verwachten te zien als µ=0.

Dan kunnen we H0 verwerpen

Wat verwachten we dan te zien als µ=0? Hiervoor kunnen we beroep doen op CLT.

└> want deze omschrijft welke waardes voor �̅� we kunnen verwachten te zien als

s we een experiment opnieuw en opnieuw zouden doen.

Als we een steekproef nemen met een n die groot genoeg is bekomen we

Page 44: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

42

B.P.

In deze setting van de H0 stellen we echter dat µ=0. Dat geeft dan dus het volgende weer:

Als onze uitspraak juist is (dat H0 correct is) gaan we deze verdeling zien in onze �̅�.

└> deze verdeling is wat we verwachten te zien als H0 juist is.

In het geval dat wanneer we in een random steekproef een �̅� bekomen die te extreem is

volgens deze verdeling. Dan gaan we moeten overwegen dat H0 (µ=0) niet juist zal zijn.

Dan zullen we HA (µ≠0) aanvaarden.

Hoever moet �̅� van 0 verwijderd zijn om die waarde als extreem te bezien? Dat

kunnen we bepalen door de kans (probabiliteit), op het observeren van onze �̅� in

de verdeling �̅�, te berekenen.

Het berekenen van een probabiliteit is het zelfde als voordien.

Als µ=0, wat is dan de kans op het observeren van �̅� die minder dan 1 unit

van 0 verwijderd is?

Dit wilt dus zeggen dat als µ=0 er 35% kans is dat we een �̅� gaan vinden

binnen 1 unit van 0. In andere woorden is er dus 65% kans dat we een �̅�

gaan vinden die meer afwijkt dan 1 unit van 0.

Het observeren van een �̅�=1 kan dus niet echt bezien worden als veel evidentie tegen H0

(µ=0).

Dit kunnen we dus ook weer berekenen voor verschillende units. In ons voorbeeld zagen

we een �̅�= 9,27. Als we dit uitrekenen komen we op een probabiliteit van 0,1% (0,001).

Deze probabiliteit wordt ook p-waarde genoemd.

Dit suggereert dus dat wat we zien zeer onwaarschijnlijk lijkt voor te komen

als µ=0 (zou maa 1 keer op de 1000 keer voorkomen).

Wanneer gaan we nu beslissen om H0 te verwerpen? Als het in onze ogen te

onwaarschijnlijk lijkt dat H0 correct is.

𝜎2 = 𝑠2 = 74,21

𝑛 = 15

Kleine p-waarde: geeft aan dat de geobserveerde waarde heel

extreem is. Dus dat H0 onwaarschijnlijk lijkt.

Grote p-waarde: impliceert dat de geobserveerde waarde

perfect in lijn staat met wat we kunnen verwachten als H0 juist is.

Page 45: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

43

B.P.

Omdat dit vrij abstract is wordt er een standaard waarde vastgelegd die we gebruiken in

de literatuur.

Deze waarden noemen we het significantie niveau en word genoteerd als α.

└> de waarde van α bepaal je zelf, meest frequent is een α=0,05.

Dus van het moment dat wat we waarnemen minder waarschijnlijk is dan α, pas dan ga je

H0 verwerpen.

Een α van 1% (0,01) wilt dus zeggen dat je H0 pas gaat verwerpen als wat je gezien hebt

in je experiment minder dan 1% kans heeft om te gebeuren door puur toeval.

Als je een p-waarde < α bekomt, dan spreek je van een significant effect. Het effect

dat we hebben geobserveerd is voldoende groot om een ook effect te hebben in de

populatie.

Omdat je de α zelf mag bepalen, moet je dus van in het begin duidelijk specifiëren welke

α je gaat gebruiken om significantie aan te duiden. Als je gewoon zou zeggen dat er een

significant effect is, zegt dit nog niets. Want als je een α van 0,05 gebruikt ga je pas later

een significant resultaat bekomen dan wanneer je een α va 0,1 gebuikt.

Borderline significantie

Je gaat je strikt houden aan de α die je

voorop gesteld hebt. Als je in een

experiment een p-waarde bekomt van

0,06 bij een α=0,05 is dit niet

significant!!

Alles groter dan α is niet significant!

Mogelijke fouten in het maken van een beslissing

In statistiek gaan we nooit een uitspraak maken met 100% zekerheid. Er is altijd ruimte

voor fouten. Zelfs als we gebruik maken van een significantie niveau α=0,01. Er is hier

dan nog steeds mogelijk dat wat jij gemeten hebt juist die 1% is. In dit geval ga je H0

verwerpen terwijl die wel correct is.

Het omgekeerde kan uiteraard ook als je een grote p-waarde bekomt ga je besluiten H0 te

aanvaarden (µ=0). Het kan echter zijn dat µ heel dicht bij 0 ligt maar toch niet 0 is en dat

je het nooit gemerkt hebt. En dan ga je ook verkeerde conclusies maken.

Wat je ook besluit, er is altijd de mogelijkheid dat je een foute beslissing maakt

Later zullen we gaan kijken hoe groot de kans is dat je een foute beslissing

maakt.

p-waarde < α H0 verwerpen

p-waarde ≥ α H0 aanvaarden

Een α= 0,05 impliceert dat er 1/20 kans

bestaat dat we een extreme waarde voor �̅�

observeren die zelfs bij H0 correct zou zijn.

Dus dat we 1/20 een fout gaan maken

in het verwerpen van H0

Statistiek kan nooit iets bewijzen!!!

Page 46: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

44

B.P.

Het enige wat je kan zeggen is dat er grote evidentie is dat er een effect is.

De reden hiertoe is omdat we uitspraken maken over een ∞ grote populatie op basis van

een eindig grote steekproef.

Hypothese testen VS betrouwbaarheidsinterval

Als we het voorbeeld van de captopril data er nog eens bij nemen. Hier hebben we zowel

een C.I. als een p-waarde op berekend.

95% C.I. : [4,91;13,63]

P-waarde: 0,001 (0,1%)

Uit de C.I. kunnen we halen dat de reële waarde (gemiddeld effect van de behandeling)

zeer waarschijnlijk te vinden is tussen 4,91 en 13,61. Hier ga je ook kunnen besluiten dat

de reële waarde niet 0 zal zijn (H0 verwerpen).

Bij de p-waarde met α=0,05 hebben we besloten dat H0 niet correct is dus dat µ≠0. (want

enkel in 0,1% van de gevallen zullen we waarnemen dat µ=0)

Beide technieken geven elkaar dus gelijk. Bij het C.I. krijgen we wel meer informatie.

Alle waardes die tussen het C.I. liggen zijn waardes van H0 die we zouden

accepteren moesten we ze meten in een experiment.

Met C.I. kan je dus ook een hypothese gaan toetsen.

Als we H0 zouden verwerpen wilt dit ook zeggen dat, in het geval dat µ=0, de 0 niet in het

C.I. gaat liggen.

De twee technieken zijn altijd complementair aan elkaar, zolang je de juiste intervallen

samen bekijkt!

Page 47: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

45

B.P.

Voorbeeld: BMI

Net zoals bij de C.I. kunnen we een hypothese opstellen over alle Ө van de verdeling X.

Veronderstel dat we 10 jaar geleden een experiment gedaan hebben over de BMI

bij mannen met als resultaat dat 40% van de mannen een BMI had >25.

We kunnen nu gaan testen of er momenteel (10 jaar later) al dan niet meer mannen zijn

met een BMI>25. De H0 die we dan zouden opstellen is de volgende.

H0 𝜃 ≤ 40% VS HA 𝜃>40%

H0 : het percentage mannen met een BMI≤40

HA: het percentage mannen met ene BMI >40

We berekenen een p-waarde;

p-waarde= <0,001

We verwerpen de H0 en weten nu dat het percentage mannen groter is

dan 40% (α=0,05).

Dit is een eenzijdige test omdat we zeggen dat het ofwel < of > is dan de setpoint waarde.

Het voorbeeld van de captoprildata is een tweezijdige test.

H0: µ=0 VS HA: µ≠0

Je bepaald hier enkel dat µ al dan niet 0 is (het ken groter of kleiner zijn)

Bij een eenzijdige test

H0 𝜃 ≤ set point VS HA 𝜃>set point

Hier ga je bepalen of 𝜃 al dan niet groter of kleiner is dan de set point waarde.

Deel 5: enkele frequent gebruikte testen

In de vorige hoofdstukken hebben we altijd het voorbeeld van captopril data

gebruikt, waar we 1 groep mensen 2 keer hebben gemeten (voor en na

behandeling).

De zelfde principes kunnen we toepassen in andere contexten (andere soort

studies).

Deze contexten zullen we, de meest voorkomende, hier gaan bekijken.

95% C.I. is de verzameling van alle H0’s die we zouden accepteren in een

statistische test met een α=0,05.

Page 48: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

46

B.P.

Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data

Hier gaan we 2 groepen met elkaar gaan vergelijken en we gaan zien of er een

verschil is tussen die twee groepen / een verschil tussen de gemiddelden.

In dit hoofdstuk kijken we specifiek naar ongepaarde data.

De 2 groepen die we onderzoeken hebben niets met elkaar te maken

Voorbeeld: gewichtstoename bij ratten.

Hier zijn dus 2 groepen gemaakt, 1 groep kreeg een

dieet hoog in proteïnen en groep 2 kreeg een dieet

laag in proteïnen. (de 2 groepen staan los van

elkaar dus we hebben ongepaarde data).

We gaan kijken of we een verschil kunnen

detecteren in gewichtstoename tussen de twee

verschillende groepen.

Hiervoor gebruiken we de zelfde methodologie als

voordien, wat wilt zeggen dat we ook hier straks

gebruik willen maken van de CLT. Onze steekproef is niet heel groot en we gaan dan ook

voor de zekerheid eerst eens naar de histogrammen kijken. We zien dat de gegevens niet

heel scheef verdeeld zijn en in zekere zin symmetrisch. We kunnen dus de CLT gaan

toepassen.

De gegevens zijn wel niet perfect symmetrisch maar zeker niet heel

scheef. Dit is goed genoeg om te CLT te laten toepassen.

Uit de beschrijvende statistiek kunnen we zien dat er wel een gemiddeld gewichtsverschil

is van 19 gram.

We zijn nu geïnteresseerd om te weten hoe waarschijnlijk het is dat we zo een verschil

(19g) kunnen waarnemen als de gewichtstoename helemaal niets zou te maken hebben

met het proteïnegehalte in het dieet.

Voor ons onderzoek gaan we er vanuit dat we 2 ∞ grote populaties hebben waarvan 1

populatie een dieet heeft hoog in proteïnegehalte en een andere populatie een dieet heeft

laag in proteïne gehalte.

└> uit deze hypothetische populaties hebben we uit elk 1 steekproef genomen.

Steekproef 1: n1 = 12

�̅�1 = 120

Steekproef 2: n2 = 7

�̅�2 = 101

Page 49: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

47

B.P.

Zoals eerder gezegd zitten we hier met ongepaarde data want de 2 groepen hebben niets

met elkaar te maken.

Er is geen relatie tussen de observaties uit de 1e populatie en de observaties uit de

2e populatie.

Betrouwbaarheidsinterval voor het verschil tussen 2 gemiddelden.

Ook hier kunnen we een C.I. gaan berekenen. We zijn niet geïnteresseerd in µ1 of µ2 maar

in het verschil tussen die twee. µ1-µ2

Hierop gaan we onze C.I. dan ook op samen stellen.

µ1 en µ2 kunnen we niet kennen maar we kunnen wel een

schatting maken met behulp van �̅�1 en �̅�2

We schatten µ1-µ2 door �̅�1 - �̅�2 = 19

Als we een C.I. gaan samen stellen met deze data voor een 95% betrouwbaarheidslevel

dan bekomen we een interval van: [-2,19;40,19].

We kunnen met grote zekerheid zeggen dat het reële verschil tussen dit interval

ligt.

Dit C.I. laat zien dat onze schatting niet heel precies is, dit kan verklaard worden doordat

de steekproef veel te klein is.

Ook kunnen we niet uitsluiten dat het verschil niet 0 gaat zijn (wat erop zou wijzen dat er

geen verschil is tussen de twee gemiddelden.

└> dit laat ook al zien dat, wanneer we de p-waarde gaan berekenen, deze een niet

significant niveau gaat aantonen.

De ongepaarde t-test

We gaan willen testen of de twee populaties al dan niet een zelfde gemiddelde hebben.

Hiervoor gaan we ook 2 hypotheses voor samenstellen.

H0 : µ1=µ2 VS HA : µ1≠µ2

Vanaf het moment dat we te veel verschil waarnemen tussen de twee gemiddelden, gaan

we H0 verwerpen.

└> als �̅�1 te veel verschilt van �̅�2 .

Dit brengt ons dan terug bij de vraag: wanneer gaat dat verschil te groot zijn?

Wanneer het geobserveerde verschil (�̅�1 - �̅�2 ) te onwaarschijnlijk lijkt

om te gebeuren door puur toeval.

(dat wat we zien geen geluk kan zijn)

De 95% slaat op het geen wat we zullen zien als we

het experiment meerdere keren zouden herhalen met

andere steekproeven. In 95% van de gevallen zullen

we een C.I. bekomen die de reële waarde bevat.

Page 50: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

48

B.P.

Om dat te bepalen gaan we de probabiliteit bepalen van het observeren van een

gemiddelde tussen de 2 groepen van minstens 19g, als µ1=µ2.

De kans (p-waarde) die we voor deze gegevens berekend hebben is p-waarde = 0,0757.

Dit wilt dus zeggen dat, zelfs al zou er geen verschil zijn tussen de twee

groepen, dan nog zouden we in 7,57% van de gevallen een verschil

kunnen waarnemen van minstens 19g in een gelijkaardig experiment door

puur toeval.

Om te bepalen of deze kans (p-waarde) klein genoeg is om te kunnen zeggen dat de

gemiddelden toch van elkaar verschillen (en H0 fout is). Of dat de p-waarde groot genoeg

is om te besluiten dat er geen verschil is. Dit doen we door de p-waarde te staven aan een

α van 0,05.

De geobserveerde p-waarde is 0,0757 en is dus > α 0,05. We gaan dus besluiten dat voor

dit onderzoek er te weinig evidentie is om ervan uit te gaan dat de 2 gemiddelden van

elkaar verschillen.

We gaan H0 verwerpen een HA aanvaarden.

Het is belangrijk dat je duidelijk spreekt over een significantie. Zekerheid over onze

uitspraak kunnen we nooit hebben.

└> we kunnen niet gewoon zeggen dat het over een verschil gaat omdat we over

statistiek bezig zijn.

We hebben hier gesproken over een ongepaarde t-test, de p-waarden werden berekend

op de t-verdeling (niet op de normaal verdeling).

Assumpties

Er zijn enkele voorwaarden waaraan je moet voldoen om een t-test te mogen uitvoeren.

Om een resultaat te hebben dat representatief is.

Om te beginnen zijn zowel C.I. als de p–waarde berekening gebaseerd op

de sampling distributie �̅� − �̅�. Welke de verdeling geven voor respectievelijk

�̅�1 en �̅�2 . deze sampling distributie is gebaseerd op die van 𝑋 ̅𝑒𝑛 �̅�.

o In het geval dat je een grote steekproef neemt, zullen deze

verdelingen altijd normaal verdeeld zijn. (CLT)

o Als ze klein zijn, zoals in het voorbeeld, kunnen we daar niet zomaar

vanuit gaan. Hier gaan we eerst nog eens kijken daar de

histogrammen om te besluiten of de gegevens al dan niet

symmetrisch verdeeld zijn. In beide populaties. Als ze voldoende

symmetrie bevatten kunnen we CLT ook nog toepassen.

Een 2e assumptie bij de ongepaarde t-test is dat er impliciet vanuit wordt

gegaan dat de varianties, uit beide populaties, gelijk zijn.

Er is geen significant verschil in de gewichtstoename

tussen ratten met een dieet hoog in proteïnegehalte

en een dieet laag in proteïnegehalte.

Page 51: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

49

B.P.

o Ook hier is het zo als de steekproef voldoende groot is dat deze

sowieso gelijk zullen zijn.

o Bij kleine steekproeven zullen we dit moeten gaan bepalen.

We kunnen de varianties gaan controleren met behulp van een hypothese test.

H0: σ²1 = σ²2 VS HA: σ²1 ≠ σ²2

De meeste software pakketten zullen deze hypothese automatisch testen

p-waarde < α H0 verwerpen

p-waarde ≥ α H0 aanvaarden

wanneer de p-waarde < α dan ga je de t-test niet mogen gebruiken.

Ook hier geeft de statistiek een oplossing voor. Het berekend namelijk ook een

p-waarde ‘by seperated variances’.

In dit voorbeeld maakt dit nu niet veel uit want we hebben ook bepaald dat de varianties

gelijk zijn. De gecorrigeerde test gaat hier dus ook ongeveer gelijk zijn aan de normale.

Voorbeeld: overlevingstijden bij kankerpatiënten

Wat we hier gaan proberen te achterhalen is of de gemiddelde overlevingstijden tussen

maag- en dramkanker al dan niet dezelfde zijn.

H0 : µ1=µ2 VS HA : µ1≠µ2

H0 : de gemiddelde overlevingstijd bij maagkanker is het zelfde als de gemiddelde

overlevingstijd bij colon kanker.

HA : de gemiddelden zijn niet gelijk.

Voor dat we nu verder gaan moeten we eerst nog eens denken aan de assumpties!

o Varianties: deze moeten gelijk zijn in beide populaties. Na berekening

bekomen we een p-waarde > 0,05. Ze zijn dus gelijk.

o Normaal verdeling: we weten ondertussen al dat wanneer je steekproef

voldoende groot is dat deze assumpties sowieso voldaan zijn (CLT).

Hier hebben we echter een kleine steekproef. Dus we gaan de verdelingen

eerst moeten controleren.

Page 52: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

50

B.P.

zoals we zien zijn deze gegevens

niet normaal verdeeld.

Dit zou dus een probleem

kunnen stellen als we de CLT

willen toepassen. Wat we nu wel

nog kunnen proberen is de

gegevens te transformeren om ze symmetrisch te maken. Er zijn verschillende soorten

transformaties. Voor deze gegevens gaan we een log transformatie toepassen.

De gegevens zijn na transformatie beter verdeeld, ze zijn niet

perfect symmetrisch verdeeld maar dat is niet nodig (wel zo

symetrisch mogelijk).

Met deze gegevens kunnen we dan wel een ongepaarde t-test

gaan doen.

Je gaat hier dus kijken naar de logaritmes van

overlevingstijden tussen 2 groepen.

Nu moeten we ook wel nog opnieuw de varianties controleren op

deze, getransformeerde, gegevens.

Deze zijn nog steeds gelijk.

Alles ziet er nu goed uit dus we kunnen de p-waarde van deze t-test gaan

gebruiken.

We bekomen een p-waarde van 0,067.

Deze p-waarde is groter dan onze α (0,05). We gaan de H0 vaanvaarden, de gemiddelden

zijn gelijk.

In principe zou je nu je conclusie moeten schrijven als:

Er is geen signifiant verschil in de log overlevingstijden

Dit word echter nooit gedaan, er zal gewoon geformuleerd worden dat er geen significant

verschil is in overlevingstijden.

De log is enkel belangrijk bij de berekeningen, voor de interpretatie geeft dit geen

probleem.

Let wel!! Bij deze gegevens (log getransformeerd) ga je in de beschrijvende statistiek beter

werken met geometrisch gemiddelde en standaard deviatie.

Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data

Ook hier gaan we 2 groepen met willen vergelijken en we gaan zien of er al dan niet een

verschil is in proporties tussen de 2 groepen. Meer bepaald geen we kijken naar 2 groepen

die niets met elkaar te maken hebben (ongepaarde data)

Page 53: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

51

B.P.

Voorbeeld: ziekteverzuim

Wat we hier gaan willen

onderzoeken is of dat ziekteverzuim

gerelateerd is aan het geslacht.

Hiervoor hebben we de percentages

berekend van ziekteverzuim bij

zowel mannen als vrouwen.

Mannen: 37,2%

Vrouwen: 42,9%

De geobserveerde waardes kunnen echter ook door puur toeval zijn gemeten. We hebben

hier ook maar een steekproef en we willen een uitspraak proberen te maken over de

populatie.

Daarom is het hier interessant om eens te gaan kijken (berekenen) hoe waarschijnlijk het

is dat deze waarden kunnen geobserveerd worden door puur toeval. (een kans berekenen).

We gaan dus weer 2 hypothetische populaties hebben (populatie mannen en populatie

vrouwen in een bedrijf). Uit elke populatie hebben we een steekproef

genomen.

𝜋1 en 𝜋2 representeren de proporties in de populaties met

ziekteverzuim

Omdat we 𝜋1 en 𝜋2 nooit kunnen weten gaan we deze schatten op basis van de

gegevens die we in de steekproef halen. Dan bekomen we een �̂�1 = 37,2% en voor

�̂�2 = 42,9%.

Er is geen relatie tussen de twee groepen dus we zitten met ongepaarde data.

De chi-kwadraat test

Dit is de test die we gaan gebruiken om onze hypotheses te staven.

Er worden dus weer twee hypotheses geformuleerd H0 en HA

H0: 𝜋1 = 𝜋2 VS HA: 𝜋1 ≠ 𝜋2

H0: de proportie mannen met ziekteverzuim is gelijk aan de proportie vrouwen met

ziekteverzuim

HA: er is wel een verschil in proportie, er is een relatie tussen geslacht en ziekteverzuim.

Als er veel verschil is tussen de twee proporties, zullen we H0 verwerpen, dus als �̂�1 - �̂�2

te groot is.

Om te bepalen wanneer deze waarde te groot is gaan we een p-waarde berekenen.

└> als het onwaarschijnlijk lijkt dat de geobserveerde waarde voorkomt door puur

toeval gaan we H0 verwerpen.

Deze waardes suggereren dat er meer

ziekteverzuim is bij vrouwen dan bij vrouwen.

Mannen: n = 156

Vrouwen: n = 429

Page 54: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

52

B.P.

De p-waarde laat ons zien wat de kan is op het observeren van een verschil dan minstens

gelijk is aan 0,057 (0,429-0,372) in een gelijkaardig experiment als 𝜋1 = 𝜋2

p-waarde= 0,215

dus zelfs al zouden de 2 proporties gelijk zijn aan elkaar, dan zouden we nog in 21,5% van

de toekomstige gelijkaardige experimenten een verschil observeren van minstens 0,057.

Ook hier gaan we gebruik maken van een significantie niveau om een uitspraak te kunnen

maken over de gegevens. We gebruiken een significantie niveau van α =0,05.

De p-waarde die we geobserveerd hebben is groter dan α, we zullen H0 aanvaarden.

Er is geen significant verschil in ziekteverzuim tussen mannen en vrouwen.

Deze test noemt de chi-kwadraat test omdat de p-waarde berekend word op de chi-

kwadraat verdeling.

Assumpties

Zoals bij elke test die we gaan zien, zijn er ook enkele assumpties waaraan de steekproef

moet voldoen om de chi² test te mogen doen.

We willen terug gebruik maken van de CLT. Dat brengt ons terug op de normaal verdeling

van de gegevens. Het berekenen berust op een sampling distributie van ∏̂1 − ∏̂2. Deze

omschrijft welke waardes �̂�1 - �̂�2 je kan verwachten als je een experiment meerdere keren

herhaalt.

Merk op dat ∏1 en ∏2 de sampling distributies zijn van respectievelijk �̅�1 𝑒𝑛 �̅�2 van

de binaire variabele ziekteverzuim.

De CLT zegt ons dat in grote steekproeven de gegevens normaal verdeeld zullen zijn en

dat er dus geen probleem is om chi² te gebruiken. Echter bij kleine steekproeven zitten we

met een probleem.

Bij het vergelijken van gemiddelden (t-test) gingen we dan kijken of de gegevens

symmetrisch verdeeld zijn. Dit is hier niet mogelijk omdat we zitten met binaire gegevens.

Bij kleine steekproeven gaan we chi² nooit mogen toepassen.

Statistiek geeft ons voor dit probleem ook terug een oplossing. Er is een andere techniek

die je kan toepassen in het geval dat je steekproef te klein zou zijn.

Fisher exact test.

Zoals de naam al laat blijken is dit een exacte test

en gaat geen benadering maken zoals de CLT doet.

In het voorbeeld hier zitten we met een

zeer kleine steekproef. De CLT stelt dat

we chi² niet kunnen toepassen

We moeten Fisher toepassen

Beide steekproeven moeten

voldoende groot zijn!! Als er

1 niet groot genoeg is moet je

ook fisher toepassen.

Page 55: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

53

B.P.

na het berekenen van de p-waarde bekomen

we het volgende resultaat. Hier hebben we

nu zowel chi² als Fisher laten berekenen om

een voorbeeld te geven van hoe belangrijk

het is dat je de juiste test kiest.

Chi² : p-waarde: p=0,288

Fisher: p-waarde: p=0,396

Beide waarden zijn in dit geval niet significant maar je ziet wel dat er een duidelijk verschil

is tussen de twee. In bepaalde situaties gaat dit dus wel een verschil kunnen geven tussen

significant of niet.

De p-waarde van fisher is de correcte waarden dus als je kan kiezen zou je altijd deze

nemen. Echter kan niet elk software pakket de berekening van Fisher aan op grote

steekproeven. daarom wordt er algemeen gesteld dat:

Rijen VS kolommen

Bij het vergelijken van 2 proporties kunnen we

de gegevens weergeven in een 2X2 tabel.

In de rijen krijgen we de 2 groepen te zien

De kolommen geven de antwoorden

weer.

A= aantal vrouwen zonder ziekteverzuim

B= aantal vrouwen met ziekteverzuim

C= aantal mannen zonder ziekteverzuim

D= aantal mannen met ziekteverzuim

De hypothese die we hadden gesteld was om te vergelijken wat de prevalentie is van

ziekteverzuim tussen mannen en vrouwen.

Wat wij dan gedaan hebben is het % vrouwen met ziekteverzuim vergeleken met het %

mannen met ziekteverzuim (de rijen met elkaar vergeleken).

𝐵

𝐴 + 𝐵=

𝐷

𝐷 + 𝐶

Als we bij een 2X2 tabel de kolommen gaan vergelijken komen we echter op een zelfde

conclusie.

𝐶

𝐶 + 𝐴=

𝐷

𝐷 + 𝐵

Wat je hier dan gaat analyseren is het % mannen met ziekteverzuim met het % mannen

zonder ziekteverzuim.

Mathematisch maakt het niet uit wat we gebruiken, rijen of kolommen.

Grote steekproef: chi² test

Kleine steekproef: Fisher exact test

Page 56: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

54

B.P.

rijen en kolommen kunnen dus omgewisseld worden. Het belang hiervan kan interessant

zijn bij het analyseren van een case-control studie.

Case-control studie

In dit onderzoek hebben we een aantal cases (patiënten met BMHK) en een aantal controls

(mensen zonder BMHK). Aan elke vrouw werd gevraagd wat de leeftijd was van de eerste

zwangerschap.

De vraag waar wij in geïnteresseerd zijn is of er

een relatie is tussen kanker en de leeftijd van de

eerste zwangerschap.

Ideaal zouden we nu ook de proportie

vrouwen met BMHK met zwangerschap

voor 25 willen vergelijken met de

proportie vrouwen met BMHK met zwangerschap na 25

Hier zitten we echter met een probleem!! We hebben namelijk zelf gekozen wat

het aantal cases en het aantal controls is. Dit kan nooit een goede representatie

zijn van de populatie (de steekproef is niet meer random!). Als we hier

percentages gaan berekenen zou dat eigenlijk een percentage zijn dat we zelf

hebben samengesteld.

We hebben juist wel gezien dat we rijen en kolommen kunnen omdraaien.

Wat we dus wel kunnen bepalen is het % vrouwen met BMHK met een eerste zwangerschap

voor de leeftijd van 25 en het % vrouwen zonder BMHK met 1e zwangerschap voor de

leeftijd van 25.

Dit zal geen antwoord formuleren op de vraag die wij ons stellen

Maar!! Zoals we eerder hebben gezien kunnen we rijen en kolommen omwisselen

voor een zelfde resultaat.

Als we kunnen aantonen dat deze proporties niet gelijk zijn dan kunnen we ook afleiden

dat de omgekeerde proporties niet gelijk zijn.

Dus als we kunnen aantonen dat het % vrouwen met BMHK met een eerste

zwangerschap voor de leeftijd van 25 gelijk (of niet gelijk) is aan het % vrouwen

zonder BMHK met een eerste zwangerschap voor de leeftijd van 25.

Dan kunnen we ook aannemen dat het omgekeerde ook juist is.

Dus dat het % vrouwen met BMHK gelijk is bij de vrouwen met een eerste

zwangerschap voor en na 25 jaar.

Page 57: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

55

B.P.

Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data

Voorbeeld: captopril

In dit onderzoek werden 15 patiënten behandeld tegen hoge bloeddruk (BD). We gaan de

diastolische BD meten bij deze patiënten voor en na de behandeling met captopril.

We gaan dus 1 groep volgen over tijd en 2 metingen doen per patiënt (voor en na

de behandeling).

Net zoals bij de ongepaarde t-test gaan we 2 populaties met elkaar gaan vergelijken. Bij

gepaarde gegevens gaan de 2 populaties beschreven worden op 1 steekproef.

Populatie 1: patiënten zonder behandeling (voor)

Populatie 2: patiënten met behandeling (na)

Voor onze vraagstelling zijn we geïnteresseerd in het verschil in gemiddelde BD: µ1-µ2.

Het grote verschil met ongepaarde data is dat hier elke observatie van de eerste steekproef

gekoppeld is aan een observatie in de tweede groep (1 persoon word 2 keer gemeten).

De gegevens zijn dus gepaard

Voor te testen: ga je rijen en kolommen mogen omwisselen

Voor te beschrijven: hier ga je moeten oppassen welke

percentages je gaat rapporteren want niet alle percentages zijn

zinvol of kan je zomaar rapporteren.

Hang af van het design van je studie

Page 58: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

56

B.P.

Aan de numerieke waarden kan je niet afleiden of de gegevens gepaard of ongepaard zijn.

Je moet weten hoe de gegevens verzameld zijn.

Het zou hier bijvoorbeeld ook even goed kunnen dat we begonnen zijn met 30

proefpersonen en die dan opgesplitst hebben in 2 groepen (2 keer 15 personen).

Waarvan 15 personen een behandeling kregen en de andere 15 geen behandeling

kregen.

Dit is wel belangrijk om te weten voor de berekeningen!

Omdat we met gepaarde gegevens zitten kunnen we netto het effect berekenen van de

behandeling op patiënt niveau.

We kunnen dus een variabele bepalen die het verschil weergeeft (dit kan omdat de

gegevens toch gekoppeld zijn).

𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎

De geobserveerde waarden x1 voor X kunnen we berekenen uit de BD waardes

geobserveerd uit de steekproef. Deze gegevens kunnen we dan ook terug visualiseren aan

de hand van een histogram. Net zoals voorheen

kunnen we zien dat de gegevens iets of wat

symmetrisch zijn. Ook al zitten we met een

kleine steekproef, we kunnen CLT later

toepassen.

µ is het populatie gemiddelden voor de variabele

X. de waarden µ kunnen we niet meten maar wel

schatten. Deze schatting kunnen bij gepaarde

gegevens gemaakt worden op het verschil tussen

de patiënt obseervaties voor en na behandeling

in plaats van de originele BD waardes te

gebruiken.

Betrouwbaarheidsinterval

In hoofdstuk 12 hebben we dit al behandeld voor deze

gegevens.

We bekomen een 99%C.I. = [3,02;15,52]

Gepaarde t-test

De hypothese die we dillen testen is:

H0: µ1 = µ2 VS HA: µ1 ≠ µ2

Dit hebben we reeds berekend in hoofdstuk 13. We

kwamen hier op een p-waarde van 0,001. Wat een

significant resultaat oplevert op het 1%

significantieniveau.

Er is een significant verschil waargenomen tussen de BD voor en de BD na

behandeling.

Page 59: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

57

B.P.

Hier hebben we een p-waarde berekend met een gepaarde t-test omdat de observaties

gelinkt zijn aan elkaar.

Wat als we deze observaties nu berekend hadden met een ongepaarde t-test? (wat je dus

niet doet!!!)

Gepaarde VS ongepaarde t-test

als we nu de resultaten zouden gaan vergelijken wanneer we op gepaarde gegevens

(captoprildata) zowel een gepaarde als een ongepaarde t-test zouden doen.

gepaarde t-test: p-waarde= 0,0009

ongepaarde t-test: p-waarde= 0,0369

beide gegevens hebben in dit geval een significant resultaat geproduceerd maar je ziet wel

dat er een heel groot verschil tussen de twee zit. Het kiezen van de verkeerde test kan dus

in sommige gevallen wel een verkeerd resultaat opleveren.

15 x 2 metingen ≠ 30 x 1 meting

(ongepaard) (gepaard)

Voorbeeld

Het is nu wel duidelijk dat het belangrijk is om te weten of de gegevens gepaard of

ongepaard zijn.

In de praktijk kan je dit enkel achterhalen door de opstelling van het onderzoek te

weten en hoe de gegevens verzameld zijn.

Vb.:

Als we geïnteresseerd zijn in het testen van een verschil in BMI tussen mannen en vrouwen.

We hebben 100 mannen en 100 vrouwen gemeten, gewogen en de BMI berekend.

Voor deze gegevens zou je een ongepaarde t-test toepassen. (2 groepen die

niets met elkaar te maken hebben)

Nu, stel dat deze 100 mannen en 100 vrouwen genomen zijn uit 100 getrouwde koppels.

Dit veranderd heel de kijk op het soort gegevens dat we hebben want elk

koppel is uniek gelinkt.

De gegevens die we verzameld hebben zijn niet

gelinkt aan elkaar.

We hebben 2 groepen gemaakt waarvan 1 een

behandeling krijgt en de andere niet.

De gegevens die we verzameld hebben zijn wel gelinkt.

We hebben 1 groep 2 keer gemeten. 1 keer voor de

behandeling. Dan hebben we alle personen een behandeling

gegeven en daarna hebben we iedereen nog eens gemeten.

Page 60: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

58

B.P.

Je kan je hier wel afvragen in welke maten dit belangrijk is.

o Wel, als ze samen wonen en leven, dan hebben ze allerlei

gemeenschappelijke eigenschappen (levensstijl, eetgedrag,…). En dit kan

wel belangrijk zijn bij het bestuderen van de BMI.

Je mag dus niet negeren als er een link is tussen de gegevens!!! Dit moet in rekening

gebracht worden bij de statistiek.

Assumpties

De berekening van C.I. en p-waarde is afhankelijk van de normaliteit van de verdeling �̅�.

- Grote steekproef geen probleem (CLT) we mogende test doen

- Kleine steekproef probleem (CLT) hier moeten we eerst terug

gaan controleren of onze gegevens symmetrisch verdeeld zijn.

Omdat we hier geïnteresseerd zijn in het verschil in BD voor en na de behandeling, gaan

we niet kijken naar de verdeling van de originele waardes. We gaan naar de gegevens

kijken uit de verdeling 𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎.

Scheefheid in de originele data maakt niet uit, zolang de gegevens van de

verdeling X maar symmetrisch zijn (dat is ook de verdeling waar we een

uitspraak over willen maken.

De n van onze steekproef is niet het totaal aantal metingen

maar het aantal gekoppelde gegevens (n=15)

In het geval dat we in X een scheefheid waarnemen, is het

niet zinvol om de gegevens van xi te gaan transformeren. Wat

we dan wel kunnen doen is het transformeren van de originele

data op zo een manier dat de gegevens van X symmetrisch

verdeeld zullen zijn.

Voor de gegevens xi kunnen we geen log berekenen omdat dit een verschil is tussen 2

waardes. Deze waarden kunnen positief of negatief zijn. Een log van negatieve gegevens

gaat niet).

Om hier te zeggen om een log +… dan krijg je geen overzichtelijk resultaat meer.

Je weet niet meer juist wat je dan meet.

Page 61: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

59

B.P.

Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data

Voorbeeld: kinderen met verkoudheid

In dit onderzoek zijn 1319 kinderen onderzocht geweest. Er werd gekeken naar de

prevalentie van een zware verkoudheid op de leeftijd van 12 en 14 jaar. Dus de 1319

kinderen werden op 12 jaar onderzocht en dan 2 jaar later werden de zelfde kinderen nog

eens onderzocht. Er werd aan hun gevraagd of ze in de laatste 12 maanden een ernstige

verkoudheid gehad hadden. Dit leverde de volgende data op.

Wat we nu juist willen weten is of het voorkomen

van een zware verkoudheid even frequent is op de

2 leeftijden?

In andere woorden willen we weten of

een zware verkoudheid al dan niet meer

(of minder) voorkomt op 14 jarige leeftijd.

Uit deze date kunnen we al enkele percentages berekenen.

Het voorkomen van verkoudheid op 12 jaar: 356

1319= 27%

Het voorkomen van verkoudheid op 14 jaar: 468

1319= 35%

Deze percentages suggereren dat op 14 jarige leeftijd er meer verkoudheden voorkomen

dan op 12 jaar. Er is dus een verschil in proportie.

Ook hier zou het interessant zijn om te achterhalen wat de kans is da we dit observeren

door puur toeval.

Als het onwaarschijnlijk lijkt dat het toeval is dan geeft dit evidentie dat er een

verschil is in het voorkomen en de leeftijd.

De 1319 kinderen zijn op 2 leeftijden gemeten. De data die we hier hebben verzameld is

dus gepaard.

Het berekenen van deze kans doen we met behulp van de Mc Nemar test.

Mc Nemar test

We gaan een uitspraak proberen te maken over de totale populatie. We gaan dus willen te

weten komen of 𝜋1 al dan niet gelijk is aan 𝜋2.

𝜋1 en 𝜋2 representeren respectievelijk de percentages van kinderen met een zware

verkoudheid op de leeftijd van 12 en 14 jaar.

De hypotheses die we gaan stellen zijn de volgende:

H0: 𝜋1 = 𝜋2 VS HA: 𝜋1 ≠ 𝜋2

H0 : het percentage 12 jarige kinderen met een zware verkoudheid verschilt niet met het

percentage 14 jarige kinderen met een zware verkoudheid.

De percentages (proporties) zijn gelijk

HA : er is wel een verschil tussen de leeftijden.

Page 62: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

60

B.P.

Een belangrijk in zicht hier is dat een verandering over leeftijd in het percentage kinderen

met een zware verkoudheid enkel kan voorkomen als er kinderen veranderen van status.

Dus als ze gaan van:

Van zware verkoudheid op 12 jaar naar geen zware verkoudheid op 14 jaar.

Van geen zware verkoudheid op 12 jaar naar zware verkoudheid op 14 jaar.

A= zowel op 12 als op14 jaar zware verkoudheid

D= zowel op 12 als op 14 jaar geen zware verkoudheid.

Als deze twee groepen met elkaar vergelijken zou nutteloos zijn

B= op 12 jaar verkoudheid en op 14 jaar geen verkoudheid

C= op 12 geen verkoudheid en op 14 jaar wel een zware verkoudheid.

Hier gaan we eventueel veranderingen in kunnen waarnemen

We gaan dus controleren of er meer kinderen veranderen van ja naar nee of van nee naar

ja. Als er voldoende kinderen in 1 richting veranderen, hebben we evidentie dat er een

verschil is in het voorkomen van een zware verkoudheid tussen de leeftijd 12 en 14.

We gaan dus kijken of er al dan niet meer kinderen veranderen van de ene naar de andere

groep (om H0 te kunnen verwerpen).

Als er evenveel kinderen van ja naar nee zouden gaan als dat er kinderen

ven nee naar ja zouden gaan dan gaan we er van uit dat H0 correct is.

We gaan H0 verwerpen wanneer [256 – 144] (=C-B) te groot is.

Vanaf wanneer kunnen we stellen dat het geobserveerde verschil te groot is? Als het

geobserveerde verschil [256 – 144] heel onwaarschijnlijk lijkt te gebeuren door puur

toeval.

Daarvoor gaan we de kans berekenen (p-waarde) om in een gelijkaardig experiment een

verschil waar te nemen van minstens [256 – 144] = 112. Zelfs al zou er geen verschil zijn

in de totale populatie.

In ons voorbeeld bekomen we een p-waarde van 0,0001

Wanneer we de gegevens berekend hebben door een programma krijgen we 2 p-waarden?

- Een p-waarde voor A/D

- Een p-waarde voor C/D

We zijn enkel geïnteresseerd in de p-waarde van C/D. Enkel deze kan een verschil

aantonen, dit hebben we ook bestudeerd.

Deze p-waard gaan we terug toetsen aan een significantieniveau α (0,05). We zien duidelijk

dat de p-waarde kleiner is dan 0,05 H0 verwerpen

A B

C D

Page 63: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

61

B.P.

We kunnen dus concluderen dat de kans op het krijgen van een zware verkoudheid op de

leeftijd van 12 jaar niet het zelfde is als de kans op het krijgen van een verkoudheid op 14

jaar.

Er is een significant verschil tussen het voorkomen van een zware

verkoudheid tussen de leeftijden 12 en 14 jaar.

Assumpties

Ook hier gaan we de CLT willen toepassen. Bij grote steekproeven is er dan weer geen

probleem. Bij kleine steekproeven is er wel een probleem. Er is namelijk geen alternatieve

test die we kunnen toepassen zoals bij de chi² (Fisher). Hier moet je er maar voor zorgen

dat je steekproef groot genoeg is.

Opmerkingen

We hebben het al eerder aangehaald. Het enige waar we in geïnteresseerd zijn is of er

meer veranderingen zijn in 1 richting dan in de andere.

Dus meer van nee ja of van ja nee

In onze 2X2 tabel zijn dit gegevens uit B en C. naar A en B gaan we niet kijken en hebben

ook geen invloed op de resultaten. Als deze waardes ineens veel groter zouden worden,

dan gaan we nog altijd een zelfde p-waarde bekomen (zie figuur).

Dit brengt dus een nieuwe

kijk op het begrip ‘grote van

de steekproef’. De steekproef

is eigenlijk enkel die waardes

die een invloed kunnen

uitoefenen op het resultaat

(personen in B en C).

Mc Nemar VS Chi²

Bij de t-test hadden we maar 1 keuze van test om te doen.

Gepaarde data = gepaarde t-test

Ongepaarde data = ongepaarde t-test

Bij chi² (Fisher exact) en Mc nemar is het niet zo rechtlijnig. We kunnen bij gepaarde data

al deze 3 testen toepassen. Het is wel zo dat wanneer we chi² of fisher exact doen, we een

andere hypothese gaan testen dan wanneer we Mc Nemar gebruiken.

Om dit te verduidelijken nemen we het volgende voorbeeld:

Stemgedrag voor en na een tv debat.

Het is duidelijk dat de data gepaard is want

we gaan het stemgedrag van de zelfde groep

analyseren voor en na het debat. Toch kunnen

we hier zowel een chi² als een Mc nemar test

op toepassen.

Page 64: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

62

B.P.

Chi²: testen wat de relatie is tussen het stemgedrag voor en het stemgedrag

na het debat.

Mcnemar: testen of de proportie reagan stemmers al dan niet veranderd

voor en na het debat.

Mc Nemar

Is de proportie stemmers voor en na het debat het zelfde als na het debat?

B= van reagan naar carter

C= van carter naar reagan

Het geobserveerde verschil in proportie is de volgende:

34

75= 45,3% 𝑒𝑛

40

75= 53,3%

Deze gegevens suggereren dat er een verschil is in proportie stemmers voor reagan

tussen: voor en na het debat.

We gaan ook terug testen wat de kans is dat dit voorkomt door puur toeval en bekomen

een p-waarde van 0,2635. Het geobserveerde verschil zou in 26% van de gevallen kunnen

voorkomen door puur toeval. Als we dit staven aan het significantieniveau α (0,05) kunnen

we stellen om H0 te aanvaarden.

Het debat heeft geen significante verandering gebracht in het stemgedrag.

Chi²

Is de proportie Reagan stemmers het zelfde voor als na het debat?

We gaan dus willen aantonen of er al dan niet een verschil is in stemgedrag

voor en na het debat.

Om dat te gaan controleren gaan we de proportie reagan stemmers na het debat

vergelijken in 2 aparte groepen

- Groep 1: mensen die voor het debat ook al op Reagan stemden

- Groep 2: mensen die voor het debat nog op Carter stemden.

We observeren de volgende proporties:

27

34= 79,4% 𝑒𝑛

13

41= 31,7%

Het geobserveerde verschil kan door toeval bekomen zijn dus we gaan de kans berekenen.

We bekomen een p-waarde van 0,00004. Wat we gezien hebben is dus zeer

onwaarschijnlijk te gebeuren door puur toeval, als er geen relatie zou zijn tussen het

stemgedrag voor en na het debat.

Er is een significante relatie tussen het stemgedrag voor en na het debat.

A B

C D

We observeren 2 verschillende, onafhankelijke groepen met

elkaar. We zitten dus wel degelijk met ongepaarde data

Page 65: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

63

B.P.

Algemeen besluit

Mc Nemar: gaan we proberen aan te tonen dat het % Reagan stemmers veranderd na

het debat.

Kijken of het debat er voor zal zorgen dat er een verschil gaat zijn in

uitkomst.

Chi²: we willen gaan aantonen of er al dan niet een verschil zal zijn in stemgedrag voor

en na het debat.

Gaan mensen anders stemmen?

Er is geen relatie tussen significantie van de chi² en de significantie van Mc Nemar.

Het is dus niet zo dat wanneer chi² significant resultaat geeft, dat Mc nemar ook

een significant resultaat geeft (je meet ook iets totaal anders).

Chi²: vergelijken van 2 kolommen (of 2 rijen)

Mc nemar: vergelijken van 1e kolom met 1e rij

Deel 6: verdere onderwerpen over statistische conclusie

Hoofdstuk 18: fouten in statistiek: basis concepten

Introductie

We nemen het voorbeeld van de ratten waarvan 1 groep een dieet had laag in proteïnen

en de andere groep een dieet had hoog in proteïnen. We waren hier geïnteresseerd of er

een verschil is tussen de 2 groepen in gewichtstoename.

Page 66: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

64

B.P.

We hebben een gemiddeld gewichtsverschil geobserveerd van 19 gram tussen de twee

groepen. Na het uitvoeren van een ongepaarde t-test bekwamen we een p-waarde =

0,0757. Wat wilt zeggen dat wij gaan besluiten dat er geen significant verschil is tussen

de twee groepen (op het 5% significantieniveau).

We hebben altijd al gezegd dat het niet wilt zeggen dat wanneer wij een niet significant

resultaat bekomen, dat er dan ook helemaal geen effect is. Het kan namelijk zijn dat het

effect zo klein is dat we het niet gezien hebben. Misschien klopt de H0 toch niet en is er

wel een verschil tussen de twee groepen maar is zo danig klein dat we het niet gezien

hebben.

Het enige wat wij besloten hebben met ons experiment is dat, als er in de populatie

geen verschil zou zijn in gewicht, dan is het perfect mogelijk dat je zo iets

observeert als wij gezien hebben in ons experiment.

Het omgekeerde kan ook. Stel dat we een effect hebben waargenomen, p-waarde 0,001.

Dan zouden we stellen dat er wel een significant verschil is tussen de twee groepen. Dit

resultaat, hoe klein de p-waarde ook mag zijn, geeft nog steeds geen absolute zekerheid

dat wat we gezien hebben ook effectief zo zal zijn in de populatie.

Een p-waarde geeft enkel weer dat wanneer er geen effect zou zijn in de populatie, wat de

kans dan zou zijn dat we dit observeren door puur toeval. Dus bij een p-waarden van 0,001

is er maar 1 kans op 1000 dat wat we geobserveerd hebben door puur toeval kan gebeuren,

als de 2 groepen gelijk zijn.

Er is dus wel nog steeds die 1 kans op duizend dat juist ons experiment die observaties

geeft. Dus dat door toevalligheid van ons experiment een heel extreem resultaat hebben

gemeten waardoor we de indruk krijgen dat er een effect is terwijl er helemaal geen effect

is.

We kunnen dus in 2 richtingen fouten maken.

Ofwel zeggen we dat het significant is, en zeggen we dat er een effect is terwijl er

in realiteit er geen effect is.

Ofwel zeggen we dat het niet significant is, en we besluiten dat er geen effect is

terwijl er in de realiteit wel een effect is.

We kunnen fouten niet uitsluiten. De uitspraken die we maken zijn nooit met 100%

zekerheid, dat is ook niet mogelijk. In dit hoofdstuk gaan we zien hoe vaak we zo een

fouten maken.

2 types van fouten

We hebben het al aangehaald, er zijn 2 soorten fouten die we kunnen maken op onze

hypothese.

Page 67: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

65

B.P.

type 1 fout = we verwerpen H0 in ons

experiment terwijl in realiteit H0

correct is.

Type 2 fout = we aanvaarden in ons

experiment H0 terwijl in realiteit H0 fout

is.

Type 1 fout

Het onterecht verwerpen van H0.

Wat is nu de kans dat we een type 1 fout maken?

In andere woorden stelt dit hoe vaak zal het gebeuren dat we onterecht gaan zeggen dat

H0 fout is.

De beslissing of we H0 verwerpen of aanvaarden wordt genomen door het toetsen van de

p-waarde aan het significantie niveau α.

Dus als H0 correct, dan zullen we toch een significant resultaat zien in 5% (α = 0,05) van

de gevallen. Dus in 5% van de gevallen zullen we H0 onterecht verwerpen.

Het maken van type 1 fouten is dus gelijk aan de α die we gebruiken.

Type 2 fout

Het onterecht aanvaarden van H0

Hoe vaak het voorkomt dat we een type 2 fout maken is iets moeilijker te bepalen dat bij

een type 1 fout. Er zijn namelijk verschillende aspecten die hier een invloed op uitoefenen.

We noteren een type 2 fout als β.

de power van een statistische test is 1-β, dit is de

kans op het correct verwerpen van H0.

We willen er dus voorzorgen dat β zo klein

mogelijk is en 1-β zo groot mogelijk is.

Power

Waarvan hangt de power van een test af?

Om een uitspraak over een experiment te maken, gaan we proberen er voor te zorgen dat:

- De kans op het maken van een type 1 fout zo klein mogelijk is

Dit kunnen we zelf bepalen door de α te verkleinen.

- De power van ons experiment, om afwijkingen van H0 te

detecteren, voldoende groot is.

Om dit te doen is het iets gecompliceerder. We gaan dit

illustreren in de context van het vergelijken van 2 groepen.

Page 68: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

66

B.P.

Laat ons veronderstellen dat µ1 en µ2 het gewicht illustreert van 2 populaties ratten, waar

we het verschil van willen in kaart brengen. De hypothese die we stellen is :

H0: µ1 = µ2 VS HA: µ1 ≠ µ2

De power is de kans op correct de H0 te verwerpen

We kunnen het verschil tussen µ1 en µ2 noteren als ∆. (µ1-µ2 = ∆)

Onze ongepaarde t-test verondersteld dat de gegevens

normaal verdeeld zijn in beide populaties en dat varianties

gelijk zijn.

De power is afhankelijk van enkele parameters.

1) α

hoe kleiner α, hoe lager de power zal zijn.

Bij het verkleinen van α, gaan we strenger zijn we zullen H0 minder vaak gaan verwerpen.

Dat wil dus ook zeggen dat we H0 vaker zullen aanvaarden. Dus ook vaker wanneer we ze

eigenlijk niet mogen aanvaarden.

2) ∆

Hoe kleiner ∆, hoe kleiner de power.

Hoe kleiner het effectieve verschil in de populaties, hoe moeilijker het zal worden om dat

verschil te gaan meten.

3) σ²

hoe kleiner σ², hoe groter de power.

Als de σ² kleiner is, dan ga je gemakkelijker onderscheid kunnen maken tussen de twee

groepen.

Page 69: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

67

B.P.

4) steekproef grootte

hoe groter de steekproef, hoe sterker de power

als je een grotere steekproef neemt, heb je automatisch meer observaties. Dus ook meer

informatie waardoor je met meer precisie een conclusie gaat kunnen maken.

Samenvatting

Power is afhankelijk van:

- Significantie niveau : α

- Het echte effect in de populatie : ∆

- De variantie in de populatie : σ²

- De steekproef grootte: n

Het enige wat we van deze lijst kunnen aanpassen is de steekproef grootte. We kunnen

ook bepalen hoe groot je steekproef zal moeten zijn voor voldoende power aan je

experiment te geven.= sample size calculations.

Sample size calculations

We hebben juist besproken dat wanneer we de power willen opkrikken, we dit enkel kunnen

doen door de steekproef te vergroten. We willen zeker zijn dat we voldoende power

hebben!

Hoe groot de steekproef gaat moeten zijn kunnen we berekenen op voorhand.

In het vorige deel hebben we besproken dat de power afhankelijk is van 4 verschillende

parameters. als we willen weten wat de steekproef grootte gaat moeten zijn voor een

bepaalde power te halen , moeten we de 3 andere parameters ook kennen.

1) α

deze kunnen we zelf kiezen. Als we ze groter maken gaat de power ook omhoog maar dan

stijgt wel de kans op het maken van een type 1 fout.

Algemeen behouden we de α = 0,05

2) σ²

dit is een waarde die we niet kunnen weten want is eigen aan de populatie die we willen

onderzoeken. We kunnen deze ook nog niet schatten aan de hand van een steekproef

omdat we die nog niet genomen hebben. We hebben 2 mogelijkheden:

- we gaan in de literatuur kijken wat de σ² is in gelijkaardige

experimenten in relevante literatuur!

- We doen een pilot studie

Het is ook beter om een overschatting te maken dan een onderschatting.

3) ∆

Ook dit is een waarde die we niet kennen, het is ook een waarde die we observeren in de

populatie. wat we hier kunnen doen is het bepalen wat de kleinste, klinisch relevante ∆ is.

Als we dan in onze steekproef een waarde uitkomen die kleiner is dan de gekozen

∆ maakt dat niet uit want dat is toch niet meer klinisch relevant.

Elk verschil dat we zullen waarnemen in ons experiment dat groter is zal ons meer

power opleveren.

Page 70: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

68

B.P.

De klinisch relevantie hangt af van wat we onderzoeken.

Als we dit allemaal bepaald hebben, dan kunnen we de steekproef grootte bepalen.

Voorbeeld: ratten

We hebben hier een verschil waargenomen van 19g met een p-waarde =0,0757 niet

significant.

Nu we kunnen ook nadat het experiment is gedaan de power berekenen.

Post- hoc power berekening

Waarom we dit nog zouden doen is omdat we ons ook kunnen afvragen waarom is een

verschil van 19g hier niet significant? Misschien was de power niet groot genoeg en hebben

we te maken met een type 2 fout.

We gaan dus de nodige parameters uit de steekproef halen

α= 0,05

σ= 21

∆= 19

# observaties 12 en 7

De power die we detecteren voor een ∆ = 19 43,45%

Dus voor deze grootte van steekproef , is enkel 43,45% kans dat we een ∆ zouden meten

van 19 gram. Dit is niet veel, we willen proberen om een power te halen van 95%.

Dus als we er over eens zijn dat een ∆ van 19 een klinisch relevant verschil

is, dan kunnen we besluiten dat onze steekproef te klein was.

Want een power van 43% wilt ook zeggen dat je in 57% van de gevallen zo een verschil

niet gaat detecteren.

Nu kunnen we ook berekenen wat de power zal zijn

bij andere ∆’s.

Dan zien we dat bij een ∆ van 40 gram we een power

zouden hebben van 96%

Dit zou willen zeggen dat voor deze opstelling

van experiment we een verschil zouden

moeten observeren van minstens 40g om voldoende power te hebben in ons

resultaat.

Er zou hier dan maar 4% kans zijn dat we het niet zouden meten. De kans op type

2 fout is dus zeer klein (4%).

Bij een ∆ van 0g komen we op een power van 5% uit. Dit moet altijd zo zijn omdat we

berekenen hier wat de kans gaat zijn dat we H0 gaan verwerpen als H0 correct is.

We bespreken dus eigenlijk wat de kans is op het maken van een type 1 fout

(α = 0,05)

Page 71: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

69

B.P.

Nu, dit waren post-hoc onderzoeken maar in de praktijk gaan we op voorhand bepalen hoe

groot onze steekproef gaat moeten zijn om een bepaalde power te halen.

Stel dat we dit deden voor dit onderzoek en we

hebben de volgende parameters bepaald:

α= 0,05

σ= 21

∆= 19

Power 95%

We geven dit allemaal in het programma en we krijgen dan een grafiek waarop we kunnen

afleiden hoe groot de steekproef zou moeten zijn voor een bepaalde power.

We zien hier dat voor een power van 95% zouden we een steekproef grootte moeten

hebben van 30. Dit zijn dus 30 ratten in elke groep (60 ratten in totaal).

Voorbeeld: ziekteverzuim

We nemen terug het onderzoek van ziekteverzuim, de data werd verzameld op 585

werknemers.

Er werd een verschil geobserveerd van 5,7% met een p-waarde = 0,215. Het verschil is

dus niet significant.

Niet significant wilt niet automatisch zeggen dat de studie te klein is of dat de power te

klein was.

We kunnen we gaan kijken of de power al dan niet te klein was.

Als het ∆ effectief 5% zou zijn bekomen we een power van 19% voor dit experiment. We

kunnen dus concluderen dat de power te klein is.

Als we ervanuit gaan dan de ∆

5% klinisch relevant is, dan

kunnen we wel berekenen hoe

groot de steekproef zou

moeten zijn geweest om

voldoende power te hebben.

voor ene power van 95%

zouden we 2 groepen moeten

hebben van elk 2500 personen

(5000 in totaal).

Dit is gigantisch veel en zeker

als we dat dan gaan

vergelijken met het vorig

voorbeeld. Daar hadden we

meer een n nodig van 30 (60

in totaal).

Page 72: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

70

B.P.

Dit verschil is te verklaren omdat we hier proporties aan het vergelijken zijn en in het vorig

voorbeeld hadden we continue data. Continue data is veel nauwkeuriger dan percentages

(want dit zijn dichotome data).

Opmerking

Deze berekeningen kunnen we bij alle testen doen, gepaard of ongepaard en alle

onderzoeken die we nog gaan zien.

Hoofdstuk 19: fouten in de statistiek: praktische implicaties

Multiple testing

Bij het uitvoeren van een experiment bestaat er altijd dat kans (α) op het maken van een

type 1 fout. Dus bij een α= 0,05 gaan we in 5% van de gevallen H0 onterecht verwerpen.

Dit impliceert dat wanneer je in je steekproef meerdere testen gaat doen, je in 5% van de

gevallen een significant verschil zal observeren door puur toeval.

Multiple testing slaat dus op het feit dat als je maar genoeg blijft testen zal je uiteindelijk

wel iets vinden met een significant resultaat. Dit resultaat is dan waarschijnlijk een type 1

fout.

Vb.1: een klasslokaal experiment

Als je in de aula een onderverdeling gaat maken tussen links en rechts, er vanuit gaande

dat iedereen random is gaan zitten bij het binnen komen.

In beide groepen zullen we een aantal zaken gaan testen en vergelijken tussen de twee.

- Gewicht

- Lengte

- Links of rechtshandig

- Geslacht

- Favoriete leesboek

- …

Bij minstens 5 van deze uitkomsten zal je een significant resultaat bekomen op het 5%

significantie niveau enkel en alleen door puur toeval.

Als je dit gaat rapporteren, ben je fout bezig want je weet dat je waarschijnlijk met een

type 1 fout zit.

Hoe meer je test, hoe hoger de kans dat

iets gedetecteerd word door puur toeval

Page 73: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

71

B.P.

Vb.2: testen van vele relaties

Als je het aantal p-waardes gaat tellen, zie je dat

ze 18 testen hebben gedaan op hun steekproef.

Enkel 2 resultaten waren significant. Hier is het

duidelijk dat het om multiple testing gaat.

Vb.3: subgroep analyses

We hebben hier een onderzoek waar we een

nieuwe behandeling willen vergelijken met de

huidige behandeling.

Bij het vergelijken van de twee groepen vonden

we geen significant resultaat.

We hadden uiteraard gehoopt op een significant

resultaat.

We gaan nu proberen enkele subgroepen te

maken en die dan met elkaar te vergelijken.

- Enkel mannen

- Enkel vrouwen

- Enkel oudere mannen

- Enkel piraten met houten been en

ooglapje

- …

We blijven subgroepen maken tot we een significant resultaat vinden. Uiteindelijk werden

er 63 testten uitgevoerd en enkel 5 significante resultaten werden gevonden. Dit is duidelijk

multiple testing. De 5 significante resultaten zijn hoogst waarschijnlijk type 1 fouten.

Het is nu niet altijd zo dat, wanneer je meerder zaken test dat je multiple testing gaat

hebben.

Stel dat we hier nu 59 significante resultaten hadden gevonden. Het kan niet zijn

dat dit allemaal type1 fouten zijn. Er zullen er wel tussen zitten want we zitten nog

steeds met een α 0,05.

Het probleem is hier echter wel dat we niet weten welke resultaten een type 1 fout

zijn en welke niet.

Page 74: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

72

B.P.

Multiple testing wordt pas echt een probleem als we veel zaken gaan testen en er maar

een paar significant zijn. En dat we ons dan zouden focussen op die enkele resultaten.

Want dit zijn waarschijnlijk type 1 fouten.

Vb.3: zoeken naar het meest significante resultaat

We hebben hier een krantenartikel waarin gesteld word dat het wetenschappelijk is

bewezen dat mensen die vroeger dan 7.21 am opstaan een statistisch hoger stress level

hebben gedurende de dag dan mensen die later dan 7.21 am opstaan.

Het probleem hier is dat het zeer onwaarschijnlijk lijkt dat ze bij het opstellen van dit

experiment gezegd hebben dat ze opzoek gaan naar mensen die al dan niet meer stress

hebben als ze vroeger opstaan dan 7.21 am. Dit uur is gewoon te specifiek!

Wat ze hier waarschijnlijk gedaan hebben is een steekproef genomen en van iedereen het

stressniveau gemeten en dan bevraagd hebben hoe laat ze ‘s morgens opstaan. En dan

zijn ze beginnen analyseren

Is er een verschil als ze opstaan voor:

Uur van opstaan (am) Significant resultaat?

6.01 Nee

6.02 Nee

6.03 Nee

6.04 Nee

… Nee

7.09 Nee

7.20 Nee

7.21 ja

Ze zijn dus blijven zoeken tot er een bepaald uur was dat een significant resultaat

opleverde. Dit is uiteraard fout. Het gaat hier over multiple testing en het zal hier

waarschijnlijk gaan om een type 1 fout.

Conclusie

- Significante resultaten bij multiple testing zijn vaak over geïnterpreteerd

- Als het totaal uitgevoerde testen is meegedeeld weet de lezer dat de resultaten

aandachtig moeten geïnterpreteerd worden.

het probleem is echter dat wanneer ze het aantal testen niet meedelen en

enkel de significante resultaten. Dan weten we niet dat er multiple testing is

gebeurt.

- De resultaten bij multiple testing zijn niet reproduceerbaar. want het zijn type 1

fouten.

Bonferroni correctie

Er is nu wel een mogelijkheid om te corrigeren voor multiple testing. Een van deze

methodes die we daarvoor kunnen gebruiken is de bonferroni correctie.

Veronderstel dat we 2 testen hebben uitgevoerd op het 5% significantieniveau.

Als je 1 test doet heb je 5% kans om een type 1 fout te maken.

Page 75: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

73

B.P.

Als je 2 testen doen, wat is de kans dan op het maken van minstens één type 1 fout?

(Dus dat je ofwel in de eerste test of in de tweede test of in beide testen)

o Mathematisch kan je bewijzen dat deze kans nooit groter zal zijn dan

2*0,05= 0,10 (10%)

o De kans kan iets kleiner zijn maar zeker niet groter.

In het algemeen kan je het volgende stellen:

Als ik ‘k’ testen uitvoer, allemaal op α 5%, dan zal de kans op het maken van

minstens 1 type 1 fout nooit groter zijn dan

K*0,05

Dus als je wilt zorgen dat je bij al uw testen onder het 5% niveau blijft, dan ga je α moeten

verlagen zodat je in totaal onder de 5% blijft.

Dus: als je 2 testen doet, ga je 10% kans hebben op een type 1 fout.

o Als je er nu voor wilt zorgen dat je onder de 5% blijft ga je 𝛼

2 =

0,05

2 = 0,025.

o Voor de 2 testen samen blijf je onder de 5%. Voor de testen afzonderlijk ga

je strenger worden.

Algemeen zal je α gaan delen door het aantal testen ‘k’ om onder het significantieniveau

te blijven.

α/k

dit werkt het zelfde wanneer je C.I. gebruikt

Strikt genomen is de bonferroni correctie een over correctie. Je gaat namelijk zeggen dat

het maken van een fout zeker niet groter zal zijn dan α(0,05). Maar het kan ook iets kleiner

zijn.

Het probleem is ook dat je wel de ‘k’ moet weten om een bonferroni correctie te kunnen

doen als lezer. Als auteurs dit niet vermelden kan je dit niet doen.

Als je in een artikel wel kunt zien dat er multiple testing heeft plaats gevonden maar zonder

bonferroni correctie toe te passen. Maar als je dan in de resultaten gaat kijken en je ziet

dat ze enkel vermeld hebben dan er een p-waarde werd gevonden <0,002. Dan kan je nog

steeds niet achterhalen of de gegevens nog significant zijn na bonferroni correctie.

Page 76: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

74

B.P.

Je moet ook redelijk zijn in het toepassen van de bonferroni correctie. (voorbeeld dat je

de correctie zou moeten doorvoeren op alle testen in uw leven).

Als je nu 2 of 3 uitkomstmaten hebt waarin je echt geïnteresseerd bent. Dus een paar

resultaten die echt belangrijk zijn. En je wilt vermijden dat op die 2 (of 3,4,…) testen een

type 1 fout gaat maken, dan ga je een bonferroni correctie toepassen.

Denk er ook aan dat wanneer je α gaat verlagen dat de kans op het maken van een type

2 fout zal toenemen. Je wilt dus niet te ver gaan in het maken van de correctie.

Testen van baseline verschillen

We hebben gezien dat wanneer we causale verbanden willen aantonen met ons

experiment. Dan moeten we randomiseren in 2 of meer groepen. Toch zou het nog kunnen

dat door puur toeval er toch kleine verschillen gaan opduiken (een groep iets ouder dan

de andere,…) we gaan dan dikwijls zien in de literatuur dat men die 2 groepen gaat

vergelijken voor enkele baseline karakteristieken. Karakteristieken waarvan men weet dat

ze toch wel belangrijk zijn voor het resultaat (voorbeeld de leeftijd).

Kijken of de gemiddelde leeftijd in beide groepen gelijk zijn

Dat het % mannen gelijk is aan het % vrouwen

Dat zijn baseline verschillen, gaan testen na gerandomiseerd te hebben.

Vb.: we hebben een steekproef die we random gaan indelen in 2 groepen om zo 2

behandelingen te kunnen testen tegen hypertensie.

- We zijn geïnteresseerd in veranderingen in veranderingen in diastolische BD

We weten dat de leeftijd een belangrijke factor is die sterk gerelateerd is aan de BD. Het

is dus belangrijk dat beide groepen de zelfde leeftijdsverdeling hebben.

Om hiervoor een uitspraak te doen worden hypotheses gesteld

H0: µ𝐴 = µ𝐵 VS HA: µ𝐴 ≠ µ𝐵

H0: de gemiddelde uit de 1e gerandomiseerde steekproef is gelijk aan de gemiddelde

leeftijd uit de 2e gerandomiseerde steekproef.

Als je deze stelling bekijkt zie je eigenlijk dat dit helemaal geen zin heeft om te berekenen.

We zitten namelijk met een gerandomiseerde steeproef (uit de populatie van interesse) en

hebben 2 random groepen gemaakt.

Page 77: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

75

B.P.

Met een hypothese test is onze bedoeling om een uitspraak te kunnen maken over de

populatie, niet over de steekproef. En als we toch een random steekproef hebben dan

weten we op voorhand dat de leeftijden gelijk gaan zijn aan elkaar. Het kan zijn dat er

verschillen optreden maar dat is dan door puur toeval.

Wat wel een alternatief zou zijn is dat je een C.I. berekend. Niet om de hypothese te testen

maar gewoon om aan te geven dat er een verschil tussen de groepen kan zitten maar dat

dit verschil zo klein is dat je op het einde niet kan verklaren waarom de groepen zouden

verschillen op het einde.

Stel bijvoorbeeld een 95% C.I. van de leeftijd [0,1;0,15]. Je zegt hier mee dat het niet

significant is (want de 0 zit er niet in) maar je weet dat het toeval is omdat je met een

steekproef zit. Maar dat verschil is zo klein dat je niet kunt gaan verklaren waarom er een

verschil zou zijn op het einde van je onderzoek.

Voorbeelden zie slides

Equivalentie test

Als je wilt aantonen dat 2 groepen niet van elkaar verschillen ga je een equivalentietest

uitvoeren.

Stel dat je 2 groepen met elkaar wilt vergelijken (A en B) en je gaat hiervoor een t-test

doen. met de volgende hypotheses:

H0: µ𝐴 = µ𝐵 VS HA: µ𝐴 ≠ µ𝐵

In het geval dat je een niet significant resultaat krijgt (p-waarde >α) ga je H0 aanvaarden.

We zeggen dan dat er onvoldoende evidentie is om aan te tonen dat de twee groepen

verschillend zijn.

Wat je vaak ziet is dat ze hier gaan zeggen dat de 2 groepen gelijk zijn aan elkaar. Dit is

echter niet correct. De klassieke t-test is gemaakt om verschillen te detecteren.

Wat we met een klassieke t-test gaan doen is een H0 opstellenen en dan in onze

data gaan kijken of er voldoende evidentie is tegen die H0. En we gaan die H0 pas

verwerpen als er zoveel bewijs is tegen die H0.

Dus als je gaat zeggen dat je een klassieke t-test gaat gebruiken om aan te tonen dat 2

groepen gelijk zijn, dan hoop ge eigenlijk om geen evidentie te vinden tegen die H0.

Als je wilt kan je elke test zo gaan bewijzen, zolang je er maar voor zorgt dat je steekproef

klein genoeg is zodat het maken ven een type 2 fout groot wordt. Dit kan uiteraard niet

de correcte werkwijze zijn.

Niet significantie op een 2- steekproef test zou nooit mogen geïnterpreteerd worden

als gelijkheid (equivalentie)

Het is absoluut niet nuttig om na randomisatie de groepen te gaan

vergelijken voor enkele baseline karakteristieken.

Zelfs niet als je een significantie bekomt van 0,0001. Je weet dat dit

toeval is

Page 78: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

76

B.P.

Er zijn echter wel situaties waarin je wilt aantonen dat er wel degelijk geen verschil is

tussen uw 2 groepen.

Vb.: als je een nieuwe behandeling hebt en je wilt aantonen dat deze minder

nevenwerkingen heeft dan de huidige behandeling maar dat het wel nog een

gelijkaardig effect geeft

In dit geval kan je een equivalentie test uitvoeren.

Wat je hier gaat doen is de H0 en HA omwisselen. Zo moet je in de H0 gaan stellen dat er

wel een effect is en in HA dat er geen effect is.

Dus als je nu deze H0 gaat kunnen verwerpen, dan betekend het dat je in uw dataset

voldoende evidentie hebt om H0 te verwerpen en HA te aanvaarden. En aangezien HA hier

stelt dat de groepen gelijk zouden zijn heb je dus voldoende bewijs tegen de stelling dat

ze gelijk zouden zijn.

Praktisch ziet dit er als volgt uit:

H0 : [µA - µB] > ∆ VS HA : [µA - µB] ≤ ∆

Je gaat op voorhand een ∆ moeten specifiëren (dit is niet de zelfde ∆ als in het vorig

hoofdstuk). Deze ∆ is wat jij gebruikt om gelijkheid te definiëren.

HA : elk verschil tussen de twee groepen dan kleiner is dan ∆ is voor u voldoende evidentie

dat ze gelijk zijn. Als ze niet meer dat ∆ verschillen zijn ze klinisch relevant.

Als je bijvoorbeeld zegt dat van het moment dat het verschil niet groter zal zijn dan

1 eenheid, dan zijn ze gelijk.

Alles kleiner dan 1 eenheid = 0

Dit is eigenlijk niet zo moeilijk om te testen. We gaan dit doen op basis van een C.I. van

µA - µB. dan ga je controleren of dat interval al dan niet tussen -∆ en ∆ valt. Als het er

volledig in ligt, heb je bewijs om H0 te verwerpen en HA te aanvaarden.

Page 79: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

77

B.P.

Het is hier ook duidelijk dat de keuze van ∆ zeer belangrijk gaat zijn.

Als je ∆ te groot kiest, ga je resultaten krijgen die sneller gelijk zijn maar die dat

eigenlijk niet zijn

Als je ∆ te klein kiest, dan ga je misschien te streng zijn

De ∆ moet voorafgaand van het onderzoek bepaald worden, de ∆ definieer je zelf.

└> niet nadien je ∆ bepalen, anders pleeg je fraude.

Voorbeeld 1

In dit voorbeeld willen ze aantonen dat een nieuwe behandeling van ziekte van crohn

gelijkaardig is aan die van de huidige behandeling.

In het artikel schrijven ze dat de nieuwe techniek “as safe and effective” is dan de oude

methode.

Als we de gegevens er bij nemen dan zien we

dat ze een ziekte vrije periode weergeven van

beide technieken:

Oud = 80%

Nieuw = 62%

Ze hebben hier een t-test gedaan en gezien

dat er geen significant verschil is waar te

nemen.

Dat hebben ze dat in hun artikel opgenomen

als dat de 2 technieken gelijk zijn aan elkaar.

Dit resultaat is om te beginnen al een

verkeerde interpretatie van de t-test en we

zien ook dat de grootte van de steekproef veel

te klein is en dus ook te weinig power bevat

om een correcte t-test uit te voeren.

Er is geen equivalentie tussen de 2 groepen.

Voorbeeld 2

Dit is wel een correct voorbeeld

Ze gaan hier dus ook 2 behandelingen met elkaar willen vergelijken om te kijken of ze

equivalent zijn.

Ze hebben een cross-overstudie gedaan (alle patiënten krijgen zowel behandeling A als B).

de randomisatie gebeurt op vlak van wie welke behandeling eerst krijgt.

Na analyse van de gegevens bekwamen ze niet symmetrische gegevens dus hebben

ze een transformatie gedaan.

Equivalentie werd gedefinieerd als ∆= 0,22

[-∆ ; ∆] = [-0,22 ; 0,22] op log schaal

Als je de gegevens terug transformeert kom je op een interval

[0,80 ; 1,25]

Page 80: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

78

B.P.

alle onderzoeken vallen

binnen het interval.

We kunnen H0 verwerpen

en besluiten dat we

voldoende evidentie

hebben om er van uit te

gaan dat de groepen gelijk zijn aan elkaar.

Significantie VS relevantie

Het is belangrijk om te begrijpen dat statistisch significant niets te maken heeft met de

relevantie van het resultaat. Dit wordt duidelijk als we 2 voorbeelden bespreken.

Bij beide situaties bekomen we een zeer significant resultaat, p-waarde= 0,001.

Echter als we naar de C.I. gaan kijken zien we dat het effect bij A veel groter is dan het

effect bij B.

Wat we hier moeten onthouden is dat de C.I. veel meer info geeft dan de p-

waarde

o C.I. vertelt ook iets over de significantie (al dan niet bevatten van 0)

o C.I. laat zien hoe groot het effect is

Hoofstuk 20: eenzijdig vs tweezijdig testen

Tweezijdige test

Als we bijvoorbeeld de data bekijken van captopril. We hebben hier een verschil

geobserveerd van µ̂ = 9,27.

We hebben dan een hypothese opgesteld

H0: µ = 0 VS HA: µ ≠ 0

H0 : er is geen verschil tussen de twee groepen.

HA : er is wel een verschil tussen de 2 groepen.

We bekwamen een significant resultaat, p-waarde < 0,05.

Het enige wat we hier nu kunnen besluiten is dan µ ≠ 0. Het kan dus zijn dat er een verschil

groter of kleiner is dan 0 maar dat kunnen we dus niet zeggen.

Dit reflecteerd zich ook in de berekening van de p-waarde want:

A B

Page 81: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

79

B.P.

De p-waarde is de kans dat we een gemiddelde waarnemen minstens even ver van

0 verwijdend dan 9,27, als µ=0.

De p-waarde is dus de kans op het observeren van een gemiddeld verschil

dat groter is dan 9,27 of kleiner is dan -9,27, als µ=0.

de CLT zegt ons dat de verdeling normaal

(symmetrisch) verdeeld is dus de kans dat je een

waarde kleiner dan -9,27 of groter dan 9,27

bekomt is even groot. De kans die je aan één kant

zou bekomen is p/2.

Eenzijdige test

Stel als we een hypothese hebben

H0: µ ≤ 0 VS HA: µ > 0

We gaan hier dus aan één kant testen, als het geobserveerde verschil kleiner is dan 0, bied

dit geen evidentie tegen H0.

Als de waarde groter is dan 0, dan hebben we evidentie µ groter is dan 0. Dit heeft ook

zijn effect op de berekening van de p-waarde.

Bij een eenzijdige test zegt de p-waarde wat de kans is op het observeren van een

gemiddelde dat minstens even groot is als 9,27, als µ=0.

Als je dan de verdeling terug gaat bekijken,

dan zien we dat de p-waarde anders zal

berekend worden. Je gaat hier kijken wat de

kans is dat je een waarde bekomt boven de

9,27.

Het is dus duidelijk dat de p-waarde bij een

enkel zijige test slechts de helft is als bij de

tweezijdige test. Je gaat bij een eenzijdige dus

rapper een significant resultaat bekomen dan

bij een tweezijdige test.

Het kan dus zijn dat wanneer je bij een enkelzijdige test een significant resultaat bekomt,

dat deze niet meer significant is bij een tweezijdige test.

o 2-zijdig: je bekomt een p-waarde van 0,06 niet significant

o 1-zijdig: hier is de p-waarde van 0,03 wel significant

Significantie zal dus sneller bekomen worden bij een 1-zijdige test dan bij een 2-zijdige

test. Er zijn dus onderzoekers die er alles aan proberen te doen om 1-zijdig te testen.

Ze gaan dus op zoek naar argumenten om het gebruik van een enkelzijdige

test goed te praten.

Het gebruik van een enkelzijdige test is echter zelden gegrond.

- Wanneer je weet dat een effect enkel in 1 richting kan plaatsvinden.

- Als enkel een effect in 1 richting wetenschappelijk interessant is.

Page 82: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

80

B.P.

- De beslissing voor het maken van een 1-zijdige test moet gemaakt worden bij het

opstellen van het experiment . niet wanneer je alle gegevens hebt fraude!!

In de meeste gevallen ga je niet weten wanneer ze bepaald hebben welke

test ze gaan doen

Er zijn instellingen (tijdschriften) die niet meer toestaan dat er enkelzijdig getest word. Of

als ze enkelzijdig willen testen dat ze een α moeten gebruiken van 0,025 in plaats van

0,05.

Voorbeeld: captopril

In het verleden hebben we met deze gegevens getest of het effect al dan niet significant

verschillend is van 0.

Stel dat we enkel geïnteresseerd zijn als we kunnen aantonen dat het gemiddeld effect

groter is dan 5.

Hypotheses:

H0: µ ≤ 5 VS HA: µ > 5

Enkel verschillen die groter zijn dan 5 geven voldoende evidentie om H0 te verwerpen.

p-waarde geeft hier de kans op het observeren van een gemiddeld verschil dat

minstens 9,25 is als µ=5.

Als H0 correct blijkt te zijn, kunnen we enkel concluderen dat µ≤5 maar niet meer. Dit

betekend dat we de CLT niet kunnen toepassen want daarvoor moeten we weten wat µ nu

eigenlijk is. In dit geval pakken we de grens waarde.

Grenswaarde:

Omdat, als we een significant resultaat bekomen, wilt dit zeggen dat we evidentie hebben

dat het verschil > dan 5. Dus ook alles < 5. Daarom is het hier voldoende om µ te zetten

op de grenswaarde (in ons voorbeeld: 5).

We vinden een p-waarde van 0,038. Dit is < α (0,05) significant resultaat.

We kunnen dus concluderen dat het gemiddelde effect van captopril significant groter is

dan 5 mmHg.

We krijgen een verschillende waarde omdat we nu enkelzijdig testen en omdat we

testen voor een verschil van 5 i.p.v. 0

Hoofdstuk 21: beschrijven van associaties

Tot nu toe hebben we enkel getracht om te kijken in welke mate een geobserveerde relatie

tussen 2 variabelen kan voorkomen door puur toeval.

In HA schrijf je altijd wat je wilt te

weten komen.

Page 83: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

81

B.P.

- Je hebt dus met je hypothese testen aangetoond dat er een verband is, want er is

een significant resultaat. Dus er is een significant verschil maar je weet nu nog niet

hoeveel verschil er nu eigenlijk is.

Met de volgende methodes gaan we dat proberen te kwantificeren.

Ongepaarde t-test:

Je gaat een relatie proberen aan te tonen tussen een continue respons (vb.

gewichtsverlies) en een dichotome variabele (vb. hoog of laag proteïnegehalte).

Chi² test:

Je gaat de relatie proberen aan te tonen tussen een dichotome respons (vb. ziekteverzuim

ja of nee) en een dichotome variabele (geslacht man of vrouw).

De p-waarde geeft een indicatie van de grootte van de relatie. Een hoge significantie (lage

p-waarde) betekend niet noodzakelijk dat er een klinisch effect is (zie eerder). In andere

woorden de associatie tussen variabelen is niet noodzakelijk heel sterk.

Pearson correlatie.

Om dit te verklaren nemen we het voorbeeld van de operatiedata erbij. Hier gingen we op

zoek naar een relatie tussen:

- de tijd nodig om na operatie naar een normale BD waarde te geraken

- de log dosis van GM dat toegediend werd tijdens de operatie

- gemiddelde BD tijdens de operatie (als het GM wordt toegediend)

bij 53 patiënten met 3 types van operatie.

Als we de associatie van de gegevens tussen hersteltijd en toegediende log (dosis) GM

willen analyseren krijgen we volgende scatter plot.

Voor elke patiënt hebben we 2 metingen

o log (dose) xi

o hersteltijd yi

door deze samen te brengen in een scatterplot

kunnen we dit visualiseren.

Als we naar een correlatie willen kijken, doen we dit op de gemiddelde relatie. Niet op

patiënt niveau.

Een eerste zicht op de scatter plot zegt ons dat er geen sterke correlatie zal zijn. Je kan

met deze gegevens niet zeggen dat wanneer je de dosis kent, je ook weet wat de herstel

tijd gaat zijn.

Page 84: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

82

B.P.

Toch gaan we een relatie kwantificeren met behulp van een pearson correlatie test.

= een kwantitatieve meting voor de sterkte van een associatie tussen variabele X en Y

Waar �̅� en �̅� de steekproef gemiddelden zijn van de geobserveerde x-waarden en y-

waarden.

de figuur links geeft een inzicht in de formule

Je scatter plot wordt ingedeeld in 4 delen op basis van

�̅� en �̅�

Dan wordt er gekeken hoe elk punt zich bevindt ten

opzichte van deze gemiddelden.

o Dus als je een punt pakt rechtsboven, deze zijn

groter dan het �̅� en �̅�. Dit levert dus 2 keer een

positieve waarde (+,+)

o Linksonder geeft dan 2 negatieve waarden

(-,-)

o De waardes linksboven of rechtsonder geven zowel een + als een -.

Als er meer waarden in de ++ en -- delen zitten, zal er dus een positieve trend zijn.

Als er meer waarden in de +- en -+ delen zitten dan zal er een negatieve trend zijn.

Als overal evenveel waarden zijn, dan levert dit geen lineaire

trend op

De noemer is er enkel om ervoor te zorgen dat er uiteindelijk

een waarde wordt bekomen tussen -1 en 1.

rechts zie je de mogelijke uitkomsten:

-1 ≤ r ≤ 1

r > 0 positieve trend

r < 0 negatieve trend

r = 1 allemaal op 1 lijn (positieve trend)

r = -1 allemaal op 1 lijn (negatieve trend)

r = 0 geen lineaire trend

Vermenigvuldiging van deze

gegevens zal leiden tot positieve

waardes in de teller

Vermenigvuldiging van deze

gegevens zal leiden tot negatieve

waardes in de teller

Page 85: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

83

B.P.

wanneer r = 0 betekend dit enkel dat er evenveel waardes zijn te vinden in de 4 delen.

Het kan wel nog zijn dat je en kwadratische functie bekomt. Daarom is het belangrijk om

ook naar je scatterplot te kijken. In dit geval is er dus geen lineaire trend maar er is wel

degelijk en correlatie tussen de gegevens.

De associatie / correlatie die we gaan meten representeert enkel wat we zien in onze

steekproef.

Ook hier telt dat onze steekproef als schatting dient voor onze populatie.

In onze hypotheses gaan we onderzoeken of ρ (correlatie in de populatie) al dan

niet gelijk is aan 0.

𝜌 = 0 → 𝑔𝑒𝑒𝑛 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑒 𝜌 ≠ 0 → 𝑙𝑖𝑛𝑒𝑎𝑖𝑟𝑒 𝑡𝑟𝑒𝑛𝑑

H0: 𝜌 = 0 VS HA: 𝜌 ≠ 0

De test gaat hier ook vanuit dat X en Y normaal verdeeld zijn. We willen de CLT toepassen.

Als de gegevens niet symmetrisch zijn transformatie!!

Nu kunnen we de C.I. en p-waardes bepalen voor ρ.

Correlatie matrix

Geeft een overzicht van alle correlaties die er zijn tussen de parameters die je ingeeft.

Een sterke correlatie bevinden we pas bij een correlatie van 70% - 80%.

Page 86: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

84

B.P.

Relatief risico

We nemen hier de data set over ziekteverzuim er nog eens bij.

We observeerden het volgende:

Mannen: 34,71% met ziekteverzuim

Vrouwen: 43,49% met ziekteverzuim

Met de chi² test vonden we een significant verschil

tussen de 2 groepen met een p-waarde = 0,007.

Met behulp van het relatief risico (RR) kunnen we berekenen hoeveel meer ziekteverzuim

er bij de vrouwen is in vergelijking met de mannen.

𝑅𝑅 = % 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑣𝑟𝑜𝑢𝑤𝑒𝑛

% 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑑𝑒 𝑚𝑎𝑛𝑛𝑒𝑛

= 117

269⁄

3781089⁄

= 1,26

Wat zegt dit nu juist?

Ziekteverzuim komt bij de vrouwen 1,26 keer meer voor dan bij de mannen.

Anders verwoord kunnen we zeggen dat ziekteverzuim 26% meer voorkomt bij

vrouwen dan bij mannen.

Dit RR geeft het RR weer in de steekproef. We kunnen dit ook gaan gebruiken als een

schatting voor de populatie.

Een RR = 1 verondersteld dat er geen relatie is tussen ziekteverzuim en het geslacht

Een chi² of Fisher exact test juist het zelfde.

Deze p-waarde laat ons dus de significantie zien van deze stelling. We kunnen ook een C.I.

opstellen, als 1 niet in het interval zit, hebben we een significant resultaat.

ODD’s ratio

We nemen terug de data over BMHK en de leeftijd van eerste zwangerschap.

We vonden hier een significante relatie tussen de leeftijd

van eerste zwangerschap en het voorkomen van BMHK.

P-waarde = 0,002.

Aangezien het RR van 1 verondersteld

dat er geen verschil is tussen de 2.

0,5

0,5= 1

𝜋1

𝜋2= 1 is het zelfde als zeggen dat 𝜋1 = 𝜋2

Page 87: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

85

B.P.

Als we hier het RR op zouden berekenen dan zouden we het volgen demoeten doen:

% 𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 ≤ 25

%𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑛 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 > 25

!! echter!! Zoals we eerder hebben aangetoond zitten we hier met een case-control studie.

wat dus wilt zeggen dat we zelf hebben gekozen hoeveel cases en hoeveel controls we

gingen gebruiken.

We hebben hier dus geen goede representatie van de populatie

De uitkomst hier (bij RR) zou dan afhankelijk zijn van het aantal controls dat we

gebruiken.

We kunnen dus geen RR berekenen

als we met een case-control studie

zitten.

Het alternatief dat we kunnen

gebruiken is het ODD’s ratio.

Het ODD’s ratio beschrijft de ratio

odds van kanker in de groep met eerste zwangerschap voor de leeftijd van 25 over de odds

van kanker in de groep met eerste zwangerschap na de leeftijd van 25

𝑂𝐷𝐷′𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 ≤ 25

𝑂𝐷𝐷′𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 > 25

Om het ODD’s ratio te kunnen berekenen moeten we dus eerst de ODD’s bepalen

Odd’s ≤25 meet het risico op kanker in de groep ≤ 25. Als er veel kanker gevallen zijn zal

je hier een grote uitkomst krijgen en visa versa.

Odd’s >25 meet het risico ok kanker in de >25 groep. Veel kanker gevallen zorgt voor een

grote uitkomst en visa versa.

Nu we de ODD’s hebben, kunnen we het ODD’s ratio (OR) bepalen.

Page 88: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

86

B.P.

Er is dus 3,37 meer odd’s op het krijgen van kanker als je eerste zwangerschap is geweest

voor de leeftijd van 25.

Een belangrijk aspect is dat bij het berekenen van de ODD’s het niet meer uit maakt

hoeveel cases of controls je hebt gekozen.

De ODD’s die we berekend hebben kunnen we ook terug gebruiken als een schatting voor

de totale populatie. Hier geld de zelfde als bij het RR.

Een OR van1 zou betekenen dat er geen verschil gaat zijn tussen de groepen.

Dat is het zelfde als Chi² en Fisher berekenen dus deze p-waardes reflecteert

zich ook hier op.

Nu kan ook een C.I. bepaald worden, als 1 niet in het interval zit, hebben we een significant

resultaat. H0 kan verworpen worden.

Deze testen worden gedaan voor dat je chi² of fisher gedaan hebt.

Hoofdstuk 22: non parametrische testen

De meeste testen in de statistiek berusten op een normaalverdeling van je populatie.

hiervoor moesten altijd enkele assumpties voldaan zijn.

- Normaliteit

- Gelijke varianties

Dit zijn dus enkele parameters die moeten voldaan zijn. Als de gegevens niet normaal

verdeeld zijn dan ga je ze proberen te transformeren zodat je een symmetrische verdeling

krijgt.

Getransformeerde gegevens zijn moeilijker te interpreteren en

het is niet altijd mogelijk om gegevens te transformeren

(multimodaal)

In deze gevallen gaan we gebruik maken van non-parametrische

testen.

Page 89: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

87

B.P.

Het principe van rangorde

We nemen de dataset van kanker en overlevingstijden. Meer bepaald de gegevens van

maagkanker en colonkanker. Deze gaan we eens bestuderen in een histogram. Hier zijn 2

histogrammen over elkaar gevisualiseerd.

We willen dus weten of die overlevingstijden al dan

niet ongeveer het zelfde zijn.

Als we naar de histogrammen kijken, zien we in het

blauwe histogram (maag) dat de meeste gegevens

laag zitten en dat het dan heel snel omlaag gaat.

In de rode curve (colon) zien we dat het iets langer

hoog blijft en dan heb je een paar uitschieters.

Omdat we hier met een scheve verdeling zitten

hebben we de gegevens getransformeerd vooraleer

we de test hebben kunnen uitvoeren.

Als we nu stellen dat de gegevens niet gelijk zijn, wilt dit eigenlijk zeggen dat de rode

gegevens meer aan de rechterkant liggen dan de blauwe curve. Dat is anders verwoord

om te zeggen dat we zitten met 2 verschillende groepen. De ene groep is verschoven ten

opzichte van de andere curve.

En dat is eigenlijk wat we gaan proberen te meten.(dat de ene groep meer naar

rechts ligt dan de andere.

We kunnen dat doen door eens te kijken naar de rangorde van de gegevens.

Als je observaties gaat ordenen van klein naar groot. Dan zou je moeten

zien dat de rode gegevens meer aan de rechterkant liggen dan de blauwe.

En op dat principe gaan ze zich baseren bij non-parametrische statistiek.

Wilcoxon test (Mann-Whitney U test)

Dit is de niet parametrische versie van de ongepaarde t-test.

We gebruiken deze test als we 2 populaties gaan willen vergelijken. Zonder rekening te

moeten houden met de verdeling van de gegevens. Ze mogen normaal verdeeld zijn maar

het maakt hier niet uit.

H0: beide verdelingen vallen samen

-> 1 verdeling

HA: de verdelingen liggen van elkaar

weg.

HA verondersteld dat 1 verdeling verplaatst is ten opzichte van de andere.

In principe is dit de zelfde redenering als bij de ongepaarde t-test.

Als µ1=µ2, dan gaan de verdelingen ook overlappen

We gaan dus kijken of 1 verdeling meer verplaatst is (naar links of rechts) 2-zijdig testen

Page 90: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

88

B.P.

Om te beginnen gaan we alle observaties, van onze 2 groepen verzamelen.

Deze gegevens gaan we allemaal rangschikken van klein naar groot (de 2 groepen door

elkaar)

Nu gaan we de geobserveerde waardes vervangen door hun rangorde. Met behoud van de

oorspronkelijke populatie.

Nu gaan we 1 van de groepen kiezen (A of B) en alle waardes (rangordes) die daar bij

horen optellen.

Als WA extreem groot gaat zijn, betekend dit dat er meer waardes aan de rechter kant

zaten in vergelijking met groep B.

We gaan H0 dus verwerpen wanneer WA te groot of te klein is.

Om te bepalen wat te groot is en wat te klein is gaan we berekenen wat de kans is dat de

geobserveerde waarde van WA zeer onwaarschijnlijk is te gebeuren door puur toeval.

We berekenen de probabiliteit op het observeren van een gelijkaardig experiment met

gelijkaardige waardes voor WA (als de 2 groepen gelijk zouden zijn).

We bekomen een p-waarde = 0,2857.

Er is dus 28,6% kans dat we dergelijk resultaat, dat de 2 groepen zo fel van elkaar zijn

verschoven, hebben gemeten door puur toeval. Staven aan de α (0,05)

We aanvaarde H0 de groepen zijn gelijk.

Als we nu gekozen hadden om de waardes van groep B te berekenen, dan kwamen we op

een zelfde conclusie uit.

Page 91: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

89

B.P.

Spearman correlatie

Ook hier ga je in geval dat transformatie niet mogelijk of gewenst is een non parametrische

test gebruiken. Meer bepaald de Spearman correlatie.

Net zoals de Wlicoxon test ga je hier de gegevens vervangen door de rangorde.

Elke waarde xi ga je vervangen door zijn rangorde en het zelfde voor yi. grafisch geeft dat

het volgende weer.

Op deze gegevens ga je een Pearson correlatie calculatie doen als een meting tussen de

rangwaarden.

In bovenstaand voorbeeld zien we dat bij spearman een perfecte lineaire relatie is van 1.

Echter is dat bij de pearson niet het geval.

Dit impliceert dat je met Spearman niet het zelfde zult gaan meten als met

Pearson.

Daar waar we bij Pearson gaan zoeken achter een lineair verband,

zal er bij spearman gezocht worden naar monotone relaties.

Monotone relatie: als xi stijgt, stijgt de waarde yi het zelfde.

Pearson : lineaire verbanden

Spearman: monotone verbanden

Page 92: Biostatistiek: uitgeschreven · Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij

90

B.P.

Opmerkingen

Voor de meest ‘simpele’ statistische testen bestaan er non parametrische varianten.

Non parametrische testen zijn niet gebaseerd op assumpties voor de verdeling van

data

Transformeren dan de data heeft geen invloed op de non parametrische analyse

Ze zijn niet beïnvloedbaar door outliers (door de rangordes)

Als je kan kiezen tussen een parametrische en een non parametrische (als alle assumpties

voldaan zijn). Ga je toch kiezen voor een parametrische test

Parametrische testen hebben een grotere power dan non parametrische

testen

Gemiddelde + standaarddeviatie parametrische test

Mediaan + IQR non parametrische test