Help! Statistiek!

Post on 05-Jan-2016

41 views 0 download

description

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Help! Statistiek!. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 januari : Poisson regressie 18 februari: Graven naar causaliteit - PowerPoint PPT Presentation

Transcript of Help! Statistiek!

Help! Statistiek!

Doel: Informeren over statistiek in klinisch onderzoek.

Tijd: Derde woensdag in de maand, 12-13 uur

21 januari : Poisson regressie18 februari : Graven naar causaliteit18 maart : Betrouwbaarheidsintervallen

Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide

DG Epidemiologie

Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.

Overzicht

- Welke soort onderzoeksvragen- Introductie van voorbeeld

- Waarom geen gewone lineaire regressie?- Wat is het Poisson regressiemodel

- De Poisson verdeling- Specificatie van het regressiemodel- Interpretatie van parameters

- Schatten en toetsen- Model fit- Hoe in SPSS- Referenties

Onderzoeksvragen

Mogelijke vragen:1. Zijn er in Nederland economische determinanten

die het aantal kinderen voorspellen?2. Welke variabelen voorspellen het aantal blessures

in een bepaald sport seizoen?3. Welke variabelen bepalen het aantal nieuwe

tumorgevallen in een bepaald gebied in een jaar?

Algemeen:Men is geïnteresseerd in relatie tussen Y: aantal events (afhankelijke variabele); niet

negatieve gehele getallen!!!!X1 tm Xk : k continue en/of categoriale variabelen

Onderzoeksvragen

Regressie modellen

Altijd relatie tussen afhankelijke variabele Yen onafhankelijke variabelen- Lineaire regressie: Y is continu- Logistische regressie: Y is dichotoom- Poisson regressie: Y is een aantal

niet negatief gehele getallen

Schat gemiddelde van Y als functie van predictoren

data

Gegevens (gemanipuleerde data van Michel Brink): 50 topsporters in leeftijd 15-19 jaar Afhankelijke variabele: aantal blessures in een seizoen

Achtergrond variabelen:Geslacht: 23 vrouwen (“0”), 27 mannen (“1”)Vetpercentage: gemiddeld 8; sd = 2; range 4-13

Onderzoeksvraag: Wordt het aantal blessures bepaald door geslacht en vetpercentage?

data

Poisson verdeling

Bij niet vaak voorkomende gebeurtenissen is dePoisson verdeling geschikt vanwege 1. geen negatieve getallen2. Positief verwachte waarde (gemiddelde)

e -µ µy

Pr(Y= y) = -------------, voor µ > 0

y!

Gemiddelde (verwachting) = µ Speciale eigenschap:

gemiddeld aantal, µ = variantie van aantal = var(Y)

Poisson verdeling

Simulatie van100 waarnemingenUit Poisson verdelingmet verschillendeverwachtingen mu

Poisson verdeling

Poisson verdeling: Gerelateerd aan binomiale verdeling bin(n,p)Voor n heel groot, en p heel klein: Verwachting = np, variantie np(1-p) np

Wanneer voldoet de Poissonverdeling?1. De kans op het optreden van tenminste één

gebeurtenis in een zeker tijdsinterval is proportioneel aan de lengte van dat tijdsinterval

2. De kans op meer dan 1 gebeurtenis in een heel klein tijdsinterval is verwaarloosbaar klein

3. De aantallen gebeurtenissen in verschillende tijdsintervallen zijn onderling onafhankelijk

Poisson regressie model

Onze data over blessures: steekproef 50 personen

Het aantal blessures voor persoon i, Yi heeft een

Poisson verdeling met parameter µi

Notatie: Yi ~ Poisson(µi) ,

Let op µi = verwachting (gemiddelde) = var(Yi) > 0

Poisson regressie model

Regressiemodel: Schat gemiddelde als functie van predictoren

Lineaire model: µi = β0 + β1*geslachti + β2*vetpercentagei

Probleem: negatieve schattingen zijn mogelijk

Mogelijke oplossing:Schat log µi als functie van predictoren: Dus,

Log(µi)= β0 + β1*geslachti + β2*vetpercentagei

Vergelijking logistisch model

Modelleren van gemiddelde in logistisch model:

Een proportie dat ligt tussen 0 en 1

Vandaar: log( /1- ) = β0 + β1*x1 + β2*x2

Zowel logistische regressie als Poisson regressie behoren

tot de klasse van generalized linear models

Gebruik van verschillende linkfunctiesLogistisch model: log( /1- ) Poisson model: log(µi)

Poisson regressie model

Poisson regressiemodel:

Yi ~ Poisson(µi), waarbij

µi = exp(β0 + β1*geslachti + β2*vetpercentagei)

Dus,

Yi ~ Poisson(exp(β0 + β1*geslachti + β2*vetpercentagei))

Interpretatie??

Poisson regressie model: voorbeeld

Onze data van 50 sporters met de vraag :Zijn geslacht en vetpercentage van invloed op

aantalblessures?

Resultaten van Poisson analyse in R (maximum likelihood)predictor Coefficient (se)

Intercept

Geslacht (man=1)

Vetpercentage

- 0.17 (0.38)

0.42 (0.18)

0.11 (0.04)

Poisson regressie model: voorbeeld

Resultaten van Poisson analyse in R:

µ = exp(β0 + β1*geslacht + β2*vetpercentage)

µdak = exp(-17 + 0.42*man + 0.11*vet) = exp(-0.17) * exp(0.42*man) *

exp(0.11*vet) = 0.84 * 1.52man * 1.12vet

Vrouw: 0.84 * 1.12vet

Man: 0.84 * 1.52* 1.12vet

predictor Coefficient (se)

Intercept

Geslacht

Vet

- 0.17 (0.38)

0.42 (0.18)

0.11 (0.04)

Poisson regressie modelscatterplot + schattingen

Poisson regressie modelIn de niet gemanipuleerde data: Elke sporter heeft een verschillende follow-up periode

Oplossing voor dat probleem:ti = lengte follow-up voor persoon i:

Schat log (µi/ti) als functie van predictoren.

log(µi/ti)= β0 + β1*geslachti + β2*vetpercentagei

log(µi) – log(ti)= β0 + β1*geslachti + β2*vetpercentagei

log(µi) = log(ti) + β0 + β1*geslachti + β2*vetpercentagei

log(ti) = offset gemiddelde proportioneel met follow-up

Verdubbeling van follow-up betekent verdubbeling van aantal

(mits andere predictoren zelfde blijven)

Poisson regressie modeltoetsen

predictor Coefficient se wald pvalue

Intercept

Geslacht

Vet

- 0.17 0.38 -0.45 0.66

0.42 0.18 2.35 0.02

0.11 0.04 2.62 0.01

Wald test voor elke predictor

De interactieterm was niet significant: p-value 0.08

Poisson regressie modeltoetsen

Likelihood ratio test: gebaseerd op likelihood

Vergelijken van geneste modellen:

Verschil ~ 2 verdeeld

modellen -2*loglikelihood verschil

(vrijheidsgraden)

nulmodel (intercept)

nul +geslacht

Nul +geslacht+vet

Nul+geslacht+vet+interactie

80.6 (49)

74.9 (48) 5.7 (1)

68.2 (47) 6.7 (1)

65.2 3 (1)

Poisson regressie modelgoodness of fit

Goodness of fit: Voorspelde waarden (ydak) vergelijken met geobserveerde waarnemingen (y):

(yi – ydaki) ei = residu(gestandaardiseerd)i = --------------- , (ydaki)

Onder Poisson model:

Gemiddeld 0 en variantie 1:

Poisson regressie modelmodelfit

Overdispersion

Bij Poisson verdeling: Gemiddelde = variantie!

In veel gevallen:variantie > gemiddelde (bijvoorbeeld bij veel

nullen)

Dit heet overdispersion:• Kan je checken en toetsen• gestandaardiseerd residu is basis voor toetsing

Bij overdispersion: in R: met optie quasipoisson werken

R-syntax

model1 = glm(formula = n_blessures ~ geslacht + vet, family =poisson)summary(model1)

model2 = glm(formula = n_blessures ~ geslacht + vet, family =

quasipoisson)summary(model3)

In onze data: geen overdispersion.

Poisson regressie modelin SPSS

Poisson regressie modelSPSS

Poisson regressie modelSPSS

Poisson regressie modelSPSS

Poisson regressie modelSPSS

Referenties

• Matthews D.E. & Farewell V.T. Using and Understanding Medical Statistics

(hoofdstuk 12)

• Gelman A. & Hill J. Data analysis Using Regression and multilevel/hierarchical Models (hoofdstuk 6)

• Mc Cullagh P. & Nelder J.A.Generalized linear models (hoofdstuk 6)

Volgende keer

18 februari: Graven naar causaliteit

Zaal: 16