Help! Statistiek!
description
Transcript of Help! Statistiek!
Help! Statistiek!
Doel: Informeren over statistiek in klinisch onderzoek.
Tijd: Derde woensdag in de maand, 12-13 uur
21 januari : Poisson regressie18 februari : Graven naar causaliteit18 maart : Betrouwbaarheidsintervallen
Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post, Sacha la Bastide
DG Epidemiologie
Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk.
Overzicht
- Welke soort onderzoeksvragen- Introductie van voorbeeld
- Waarom geen gewone lineaire regressie?- Wat is het Poisson regressiemodel
- De Poisson verdeling- Specificatie van het regressiemodel- Interpretatie van parameters
- Schatten en toetsen- Model fit- Hoe in SPSS- Referenties
Onderzoeksvragen
Mogelijke vragen:1. Zijn er in Nederland economische determinanten
die het aantal kinderen voorspellen?2. Welke variabelen voorspellen het aantal blessures
in een bepaald sport seizoen?3. Welke variabelen bepalen het aantal nieuwe
tumorgevallen in een bepaald gebied in een jaar?
Algemeen:Men is geïnteresseerd in relatie tussen Y: aantal events (afhankelijke variabele); niet
negatieve gehele getallen!!!!X1 tm Xk : k continue en/of categoriale variabelen
Onderzoeksvragen
Regressie modellen
Altijd relatie tussen afhankelijke variabele Yen onafhankelijke variabelen- Lineaire regressie: Y is continu- Logistische regressie: Y is dichotoom- Poisson regressie: Y is een aantal
niet negatief gehele getallen
Schat gemiddelde van Y als functie van predictoren
data
Gegevens (gemanipuleerde data van Michel Brink): 50 topsporters in leeftijd 15-19 jaar Afhankelijke variabele: aantal blessures in een seizoen
Achtergrond variabelen:Geslacht: 23 vrouwen (“0”), 27 mannen (“1”)Vetpercentage: gemiddeld 8; sd = 2; range 4-13
Onderzoeksvraag: Wordt het aantal blessures bepaald door geslacht en vetpercentage?
data
Poisson verdeling
Bij niet vaak voorkomende gebeurtenissen is dePoisson verdeling geschikt vanwege 1. geen negatieve getallen2. Positief verwachte waarde (gemiddelde)
e -µ µy
Pr(Y= y) = -------------, voor µ > 0
y!
Gemiddelde (verwachting) = µ Speciale eigenschap:
gemiddeld aantal, µ = variantie van aantal = var(Y)
Poisson verdeling
Simulatie van100 waarnemingenUit Poisson verdelingmet verschillendeverwachtingen mu
Poisson verdeling
Poisson verdeling: Gerelateerd aan binomiale verdeling bin(n,p)Voor n heel groot, en p heel klein: Verwachting = np, variantie np(1-p) np
Wanneer voldoet de Poissonverdeling?1. De kans op het optreden van tenminste één
gebeurtenis in een zeker tijdsinterval is proportioneel aan de lengte van dat tijdsinterval
2. De kans op meer dan 1 gebeurtenis in een heel klein tijdsinterval is verwaarloosbaar klein
3. De aantallen gebeurtenissen in verschillende tijdsintervallen zijn onderling onafhankelijk
Poisson regressie model
Onze data over blessures: steekproef 50 personen
Het aantal blessures voor persoon i, Yi heeft een
Poisson verdeling met parameter µi
Notatie: Yi ~ Poisson(µi) ,
Let op µi = verwachting (gemiddelde) = var(Yi) > 0
Poisson regressie model
Regressiemodel: Schat gemiddelde als functie van predictoren
Lineaire model: µi = β0 + β1*geslachti + β2*vetpercentagei
Probleem: negatieve schattingen zijn mogelijk
Mogelijke oplossing:Schat log µi als functie van predictoren: Dus,
Log(µi)= β0 + β1*geslachti + β2*vetpercentagei
Vergelijking logistisch model
Modelleren van gemiddelde in logistisch model:
Een proportie dat ligt tussen 0 en 1
Vandaar: log( /1- ) = β0 + β1*x1 + β2*x2
Zowel logistische regressie als Poisson regressie behoren
tot de klasse van generalized linear models
Gebruik van verschillende linkfunctiesLogistisch model: log( /1- ) Poisson model: log(µi)
Poisson regressie model
Poisson regressiemodel:
Yi ~ Poisson(µi), waarbij
µi = exp(β0 + β1*geslachti + β2*vetpercentagei)
Dus,
Yi ~ Poisson(exp(β0 + β1*geslachti + β2*vetpercentagei))
Interpretatie??
Poisson regressie model: voorbeeld
Onze data van 50 sporters met de vraag :Zijn geslacht en vetpercentage van invloed op
aantalblessures?
Resultaten van Poisson analyse in R (maximum likelihood)predictor Coefficient (se)
Intercept
Geslacht (man=1)
Vetpercentage
- 0.17 (0.38)
0.42 (0.18)
0.11 (0.04)
Poisson regressie model: voorbeeld
Resultaten van Poisson analyse in R:
µ = exp(β0 + β1*geslacht + β2*vetpercentage)
µdak = exp(-17 + 0.42*man + 0.11*vet) = exp(-0.17) * exp(0.42*man) *
exp(0.11*vet) = 0.84 * 1.52man * 1.12vet
Vrouw: 0.84 * 1.12vet
Man: 0.84 * 1.52* 1.12vet
predictor Coefficient (se)
Intercept
Geslacht
Vet
- 0.17 (0.38)
0.42 (0.18)
0.11 (0.04)
Poisson regressie modelscatterplot + schattingen
Poisson regressie modelIn de niet gemanipuleerde data: Elke sporter heeft een verschillende follow-up periode
Oplossing voor dat probleem:ti = lengte follow-up voor persoon i:
Schat log (µi/ti) als functie van predictoren.
log(µi/ti)= β0 + β1*geslachti + β2*vetpercentagei
log(µi) – log(ti)= β0 + β1*geslachti + β2*vetpercentagei
log(µi) = log(ti) + β0 + β1*geslachti + β2*vetpercentagei
log(ti) = offset gemiddelde proportioneel met follow-up
Verdubbeling van follow-up betekent verdubbeling van aantal
(mits andere predictoren zelfde blijven)
Poisson regressie modeltoetsen
predictor Coefficient se wald pvalue
Intercept
Geslacht
Vet
- 0.17 0.38 -0.45 0.66
0.42 0.18 2.35 0.02
0.11 0.04 2.62 0.01
Wald test voor elke predictor
De interactieterm was niet significant: p-value 0.08
Poisson regressie modeltoetsen
Likelihood ratio test: gebaseerd op likelihood
Vergelijken van geneste modellen:
Verschil ~ 2 verdeeld
modellen -2*loglikelihood verschil
(vrijheidsgraden)
nulmodel (intercept)
nul +geslacht
Nul +geslacht+vet
Nul+geslacht+vet+interactie
80.6 (49)
74.9 (48) 5.7 (1)
68.2 (47) 6.7 (1)
65.2 3 (1)
Poisson regressie modelgoodness of fit
Goodness of fit: Voorspelde waarden (ydak) vergelijken met geobserveerde waarnemingen (y):
(yi – ydaki) ei = residu(gestandaardiseerd)i = --------------- , (ydaki)
Onder Poisson model:
Gemiddeld 0 en variantie 1:
Poisson regressie modelmodelfit
Overdispersion
Bij Poisson verdeling: Gemiddelde = variantie!
In veel gevallen:variantie > gemiddelde (bijvoorbeeld bij veel
nullen)
Dit heet overdispersion:• Kan je checken en toetsen• gestandaardiseerd residu is basis voor toetsing
Bij overdispersion: in R: met optie quasipoisson werken
R-syntax
model1 = glm(formula = n_blessures ~ geslacht + vet, family =poisson)summary(model1)
model2 = glm(formula = n_blessures ~ geslacht + vet, family =
quasipoisson)summary(model3)
In onze data: geen overdispersion.
Poisson regressie modelin SPSS
Poisson regressie modelSPSS
Poisson regressie modelSPSS
Poisson regressie modelSPSS
Poisson regressie modelSPSS
Referenties
• Matthews D.E. & Farewell V.T. Using and Understanding Medical Statistics
(hoofdstuk 12)
• Gelman A. & Hill J. Data analysis Using Regression and multilevel/hierarchical Models (hoofdstuk 6)
• Mc Cullagh P. & Nelder J.A.Generalized linear models (hoofdstuk 6)
Volgende keer
18 februari: Graven naar causaliteit
Zaal: 16