Help! Statistiek!

30
Help! Statistiek! Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 januari : Poisson regressie 18 februari : Graven naar causaliteit 18 maart : Betrouwbaarheidsintervallen Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide DG Epidemiologie Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

description

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Help! Statistiek!. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 januari : Poisson regressie 18 februari: Graven naar causaliteit - PowerPoint PPT Presentation

Transcript of Help! Statistiek!

Page 1: Help! Statistiek!

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

21 januari : Poisson regressie18 februari : Graven naar causaliteit18 maart : Betrouwbaarheidsintervallen

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide

DG Epidemiologie

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Page 2: Help! Statistiek!

Overzicht

- Welke soort onderzoeksvragen- Introductie van voorbeeld

- Waarom geen gewone lineaire regressie?- Wat is het Poisson regressiemodel

- De Poisson verdeling- Specificatie van het regressiemodel- Interpretatie van parameters

- Schatten en toetsen- Model fit- Hoe in SPSS- Referenties

Page 3: Help! Statistiek!

Onderzoeksvragen

Mogelijke vragen:1. Zijn er in Nederland economische determinanten

die het aantal kinderen voorspellen?2. Welke variabelen voorspellen het aantal blessures

in een bepaald sport seizoen?3. Welke variabelen bepalen het aantal nieuwe

tumorgevallen in een bepaald gebied in een jaar?

Algemeen:Men is geïnteresseerd in relatie tussen Y: aantal events (afhankelijke variabele); niet

negatieve gehele getallen!!!!X1 tm Xk : k continue en/of categoriale variabelen

Page 4: Help! Statistiek!

Onderzoeksvragen

Regressie modellen

Altijd relatie tussen afhankelijke variabele Yen onafhankelijke variabelen- Lineaire regressie: Y is continu- Logistische regressie: Y is dichotoom- Poisson regressie: Y is een aantal

niet negatief gehele getallen

Schat gemiddelde van Y als functie van predictoren

Page 5: Help! Statistiek!

data

Gegevens (gemanipuleerde data van Michel Brink): 50 topsporters in leeftijd 15-19 jaar Afhankelijke variabele: aantal blessures in een seizoen

Achtergrond variabelen:Geslacht: 23 vrouwen (“0”), 27 mannen (“1”)Vetpercentage: gemiddeld 8; sd = 2; range 4-13

Onderzoeksvraag: Wordt het aantal blessures bepaald door geslacht en vetpercentage?

Page 6: Help! Statistiek!

data

Page 7: Help! Statistiek!

Poisson verdeling

Bij niet vaak voorkomende gebeurtenissen is dePoisson verdeling geschikt vanwege 1. geen negatieve getallen2. Positief verwachte waarde (gemiddelde)

e -µ µy

Pr(Y= y) = -------------, voor µ > 0

y!

Gemiddelde (verwachting) = µ Speciale eigenschap:

gemiddeld aantal, µ = variantie van aantal = var(Y)

Page 8: Help! Statistiek!

Poisson verdeling

Simulatie van100 waarnemingenUit Poisson verdelingmet verschillendeverwachtingen mu

Page 9: Help! Statistiek!

Poisson verdeling

Poisson verdeling: Gerelateerd aan binomiale verdeling bin(n,p)Voor n heel groot, en p heel klein: Verwachting = np, variantie np(1-p) np

Wanneer voldoet de Poissonverdeling?1. De kans op het optreden van tenminste één

gebeurtenis in een zeker tijdsinterval is proportioneel aan de lengte van dat tijdsinterval

2. De kans op meer dan 1 gebeurtenis in een heel klein tijdsinterval is verwaarloosbaar klein

3. De aantallen gebeurtenissen in verschillende tijdsintervallen zijn onderling onafhankelijk

Page 10: Help! Statistiek!

Poisson regressie model

Onze data over blessures: steekproef 50 personen

Het aantal blessures voor persoon i, Yi heeft een

Poisson verdeling met parameter µi

Notatie: Yi ~ Poisson(µi) ,

Let op µi = verwachting (gemiddelde) = var(Yi) > 0

Page 11: Help! Statistiek!

Poisson regressie model

Regressiemodel: Schat gemiddelde als functie van predictoren

Lineaire model: µi = β0 + β1*geslachti + β2*vetpercentagei

Probleem: negatieve schattingen zijn mogelijk

Mogelijke oplossing:Schat log µi als functie van predictoren: Dus,

Log(µi)= β0 + β1*geslachti + β2*vetpercentagei

Page 12: Help! Statistiek!

Vergelijking logistisch model

Modelleren van gemiddelde in logistisch model:

Een proportie dat ligt tussen 0 en 1

Vandaar: log( /1- ) = β0 + β1*x1 + β2*x2

Zowel logistische regressie als Poisson regressie behoren

tot de klasse van generalized linear models

Gebruik van verschillende linkfunctiesLogistisch model: log( /1- ) Poisson model: log(µi)

Page 13: Help! Statistiek!

Poisson regressie model

Poisson regressiemodel:

Yi ~ Poisson(µi), waarbij

µi = exp(β0 + β1*geslachti + β2*vetpercentagei)

Dus,

Yi ~ Poisson(exp(β0 + β1*geslachti + β2*vetpercentagei))

Interpretatie??

Page 14: Help! Statistiek!

Poisson regressie model: voorbeeld

Onze data van 50 sporters met de vraag :Zijn geslacht en vetpercentage van invloed op

aantalblessures?

Resultaten van Poisson analyse in R (maximum likelihood)predictor Coefficient (se)

Intercept

Geslacht (man=1)

Vetpercentage

- 0.17 (0.38)

0.42 (0.18)

0.11 (0.04)

Page 15: Help! Statistiek!

Poisson regressie model: voorbeeld

Resultaten van Poisson analyse in R:

µ = exp(β0 + β1*geslacht + β2*vetpercentage)

µdak = exp(-17 + 0.42*man + 0.11*vet) = exp(-0.17) * exp(0.42*man) *

exp(0.11*vet) = 0.84 * 1.52man * 1.12vet

Vrouw: 0.84 * 1.12vet

Man: 0.84 * 1.52* 1.12vet

predictor Coefficient (se)

Intercept

Geslacht

Vet

- 0.17 (0.38)

0.42 (0.18)

0.11 (0.04)

Page 16: Help! Statistiek!

Poisson regressie modelscatterplot + schattingen

Page 17: Help! Statistiek!

Poisson regressie modelIn de niet gemanipuleerde data: Elke sporter heeft een verschillende follow-up periode

Oplossing voor dat probleem:ti = lengte follow-up voor persoon i:

Schat log (µi/ti) als functie van predictoren.

log(µi/ti)= β0 + β1*geslachti + β2*vetpercentagei

log(µi) – log(ti)= β0 + β1*geslachti + β2*vetpercentagei

log(µi) = log(ti) + β0 + β1*geslachti + β2*vetpercentagei

log(ti) = offset gemiddelde proportioneel met follow-up

Verdubbeling van follow-up betekent verdubbeling van aantal

(mits andere predictoren zelfde blijven)

Page 18: Help! Statistiek!

Poisson regressie modeltoetsen

predictor Coefficient se wald pvalue

Intercept

Geslacht

Vet

- 0.17 0.38 -0.45 0.66

0.42 0.18 2.35 0.02

0.11 0.04 2.62 0.01

Wald test voor elke predictor

De interactieterm was niet significant: p-value 0.08

Page 19: Help! Statistiek!

Poisson regressie modeltoetsen

Likelihood ratio test: gebaseerd op likelihood

Vergelijken van geneste modellen:

Verschil ~ 2 verdeeld

modellen -2*loglikelihood verschil

(vrijheidsgraden)

nulmodel (intercept)

nul +geslacht

Nul +geslacht+vet

Nul+geslacht+vet+interactie

80.6 (49)

74.9 (48) 5.7 (1)

68.2 (47) 6.7 (1)

65.2 3 (1)

Page 20: Help! Statistiek!

Poisson regressie modelgoodness of fit

Goodness of fit: Voorspelde waarden (ydak) vergelijken met geobserveerde waarnemingen (y):

(yi – ydaki) ei = residu(gestandaardiseerd)i = --------------- , (ydaki)

Onder Poisson model:

Gemiddeld 0 en variantie 1:

Page 21: Help! Statistiek!

Poisson regressie modelmodelfit

Page 22: Help! Statistiek!

Overdispersion

Bij Poisson verdeling: Gemiddelde = variantie!

In veel gevallen:variantie > gemiddelde (bijvoorbeeld bij veel

nullen)

Dit heet overdispersion:• Kan je checken en toetsen• gestandaardiseerd residu is basis voor toetsing

Bij overdispersion: in R: met optie quasipoisson werken

Page 23: Help! Statistiek!

R-syntax

model1 = glm(formula = n_blessures ~ geslacht + vet, family =poisson)summary(model1)

model2 = glm(formula = n_blessures ~ geslacht + vet, family =

quasipoisson)summary(model3)

In onze data: geen overdispersion.

Page 24: Help! Statistiek!

Poisson regressie modelin SPSS

Page 25: Help! Statistiek!

Poisson regressie modelSPSS

Page 26: Help! Statistiek!

Poisson regressie modelSPSS

Page 27: Help! Statistiek!

Poisson regressie modelSPSS

Page 28: Help! Statistiek!

Poisson regressie modelSPSS

Page 29: Help! Statistiek!

Referenties

• Matthews D.E. & Farewell V.T. Using and Understanding Medical Statistics

(hoofdstuk 12)

• Gelman A. & Hill J. Data analysis Using Regression and multilevel/hierarchical Models (hoofdstuk 6)

• Mc Cullagh P. & Nelder J.A.Generalized linear models (hoofdstuk 6)

Page 30: Help! Statistiek!

Volgende keer

18 februari: Graven naar causaliteit

Zaal: 16