Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van...

27
Update statistiek Practicum SPSS Inlezen van een gegevensbestand Codeboek Bewerken van gegevens Beschrijvende statistiek Multiple lineaire regressie Multiple logistische regressie Multiple Cox regressie

Transcript of Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van...

Page 1: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Update statistiek Practicum SPSS

Inlezen van een gegevensbestand Codeboek Bewerken van gegevens Beschrijvende statistiek Multiple lineaire regressie Multiple logistische regressie Multiple Cox regressie

Page 2: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening 1: Determinanten van laag geboortegewicht

Laag geboortegewicht is een gezondheidsindicator die artsen reeds jaren zorgen baart. Dit wordt verklaard door het feit dat kindersterfte en geboorteafwijkingen bij kinderen met een laag geboortegewicht zeer frequent voorkomen. Het gedrag van de vrouw tijdens de zwangerschap (met inbegrip van voeding, roken, het krijgen van prenatale zorg) kan in sterke mate de kansen op een voldragen zwangerschap verhogen en bijgevolg ook de kans op het bevallen van een kind met een normaal geboortegewicht. De kenmerken die in deze analyse werden bestudeerd, worden in de obstetrische literatuur vernoemd als geassocieerd met laag geboortegewicht. Het doel van de studie was na te gaan of in het obstetrisch centrum waar de gegevens werden verzameld deze kenmerken belangrijk waren.

Page 3: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening 1: Determinanten van laag geboortegewicht

– Wat zou een onderzoeksobject kunnen zijn?

– Welk model ?

– Hoe operationaliseer je de variabelen op basis van de kenmerken?

– Hoe werk je de statistische analyse uit?

Page 4: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening 1: Determinanten van laag geboortegewicht

– Geboortegewicht is een functie van….

– Wat is de uitkomst (afhankelijke variabele)?» Geboortegewicht (in gram)» Geboortegewicht (laag versus normaal)

– Lineaire model (voorwaarden?)

– Logistisch model

Page 5: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening 1: Determinanten van laag geboortegewicht

Kenmerk afkorting

Codes, ‘long label’, info…

Identificatiecode ID

Rangorde kind BIRTH 1 = eerste; 2 = tweede

Rookgedrag tijdens zwangerschap SMOKE 1 = ja; 0 = neen

Ras Race 1 = blank; 2 = zwart, 3 = ander

Leeftijd moeder AGE in jaren

Lichaamsgewicht bij laatste menses LWT in pond

Geboortegewicht BWT in gram

Laag geboortegwicht LOW 0= gebgew >= 2500 gr; 1= gebgew < 2500 gr

Voorgesch. premature arbeid PTL 0 = neen; 1 = één; enz.

Voorgesch. Hoge bloeddruk HT 1 = ja; 0 = neen

Aantal doktersbezoeken tijdens 1ste tremester

FTV 0 = geen; 1 = één; enz.

Page 6: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Inlezen van een gegevensbestand

» Open het bestand ‘laaggebgewicht.xls’ (Blackboard) in SPSS File -> open -> data Vergeet niet: ‘read variable names from the first row of data’

» Maak een codeboek aan

Page 7: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Bewerken van gegevens

» Hercodeer de variabele ‘BWT’ in een nieuwe variabele voor het laag geboortegewicht, maar nu zo, dat de grenswaarde ligt op 2300 gram Transform -> Recode -> Into different variables -> Kies input variabele en benoem een output variabele Klik op old and new values en maak die aan Change OK

» Hercodeer ‘RACE’ zo, dat je terug ‘blank’, ‘zwart’ en ‘ander’ als labels voor de verschillende categorieën krijgt.

Page 8: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Beschrijvende statistiek

» Bekijk de verdeling van geboortegewicht Analyse -> descriptive statistics -> explore…

» Kan je normaliteit weerhouden In de totale groep kinderen In homogene subgroepen

» Veronderstel dat geboortegewicht scheef verdeeld is… Transformeer geboortegewicht naar ln(geboortegewicht)

– Transform -> compute…

Page 9: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Beschrijvende statistiek

» Bekijk een eventuele associatie tussen: Roken en ras Roken en rangnummer kind …

Analyse -> descriptive statistics -> crosstabs -> …

Page 10: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Correlaties Figuren

Page 11: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Correlaties kwantificeren de mate waarin twee kwantitatieve variabelen X1 en X2 met mekaar overeenkomen. Als hoge waarden voor X1 gepaard gaan met hoge waarden voor X2 is er een positieve correlatie. Als hoge waarden voor X1

daarentegen gepaard gaan met lage waarden voor X2 is er een negatieve correlatie.

Voorbeeld (bicycle.sav):In een dwarsdoorsnede onderzoek in twaalf buurten in California wordt een onderzoek uitgevoerd waarbij het percentage fietshelm gebruikers bij kinderen vergeleken wordt met het percentage kinderen dat geniet van een prijsreductie op de schoolmaaltijden.

Page 12: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

BUURT % reduced-fee lunch % wearing bicycle helmets

Fair Oaks 50,00 22,10Strandwood 11,00 35,90Walnut Acres 2,00 57,90Discov. Bay 19,00 22,20Belshaw 26,00 42,40Kennedy 73,00 5,80Cassel 81,00 3,60Miner 51,00 21,40Sedgewick 11,00 55,20Sakamoto 2,00 33,30Toyon 19,00 32,40Lietz 25,00 38,40

Page 13: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Zou je hier kiezen voor een analyse die het percentage ‘dragen van een fietshelm’ voorspelt aan de hand van het percentage ‘prijsvermindering op de schoolmaaltijd’?

Wat zou de onderzoeksvraag kunnen zijn?

De meest eenvoudige manier om de resultaten van dit onderzoek voor te stellen zodat het verband tussen beide duidelijk wordt is het uitzetten van de resultaten op een assenkruis.

Page 14: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Stap 1.

Open het bestand in SPSS en maak via ‘graphs’ een spreidingsdiagram (‘Scatterplot’).

Voorzie de figuur van een titel en zorg er voor dat de buurten identificeerbaar zijn. Zorg er ook voor dat de aanduidingen in X- en Y-as duidelijk zijn en probeer hiervoor één en ander uit (grootte en type letter,…)

Hoe is de socio-economische status gecorreleerd met het dragen van een fietshelm?

Page 15: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Page 16: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

De onderzoekers wilden te weten komen of al dan niet het dragen van een fietshelm gerelateerd is aan socio-economische status. Socio-economische status wordt indirect gemeten aan de hand van het percentage kinderen dat maaltijden op school krijgt aan verminderde prijs (proxy).

Dit soort onderzoek wordt beschreven als ‘ecologisch onderzoek’ en lijdt aan wat men noemt de ‘ecologische valkuil’ ‘ecological fallacy’.

Wat zou dit betekenen (zoek op via internet)?

Page 17: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

Bij het statistisch verwerken van gegevens is reductie een belangrijke activiteit.De correlatiecoëfficiënt (r) kwantificeert de relatie tussen X1 en X2 op een dimensieloze wijze. Als alle punten op een stijgende rechte vallen is r = 1; als alle punten op een dalende lijn vallen is r = -1. Er zijn géén vaste afspraken omtrent wat nu een sterke correlatie is en wat een zwakke (geen correlatie betekent dat r = 0).

Stap 2.

Bereken de correlatiecoëfficiënt via SPSS

Analyze > Correlate > Bivariate

Cave: welke te gebruiken?

Page 18: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Correlaties

De correlatiecoëfficiënt r = -0.849.

We zullen later zien dat r² het percentage is waarin de variantie van de ene variabele verklaard wordt door de andere. Hier is r² = 0,72 wat suggereert dat 72% van de variabiliteit van het dragen van de helm verklaard zou worden door socio-economische status.

Page 19: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Statistische software pakketten zijn in staat de correlaties te berekenen voor meerder variabele paren en rapporteren hun bevindingen vaak onder de vorm van een correlatie matrix. Correlatie matrices geven de correlatie coëfficiënten voor alle gepaarde (kwantitatieve) variabelen.

In een studie uitgevoerd door Fraumeni et al (1968) werd in 43 staten en in het district Columbia het aantal verkochte sigaretten per capita berekend. Deze werden uitgezet tegen de sterftecijfers voor verschillende vormen van kanker (fraumeni1968.sav).

Page 20: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Gebruik SPSS om de correlatie coëfficiënten voor elk paar variabelen te berekenen. Presenteer de resultaten in een matrix. Interpreteer de bekomen correlatie coëfficiënten en de bijhorende p-waarden. In welke mate zijn de verschillende kankers geassocieerd met roken?

Variabele            Beschrijving CIG aantal verkochte sigaretten per capitaBLAD blaaskanker sterfte per 100,000LUNG longkanker sterfte per 100,000KID nierkanker sterfte per 100,000LEUK leukemie sterfte per 100,000

Geef de verschillende correlaties ook grafisch (in een matrix) weer…Kies één correlatie uit en geef die grafisch weer, waarbij je een ‘best passende rechte’ door de punten tekent (via SPSS).

Page 21: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Inferentiële statistiek (ruwe tabelanalyse, ruwe vergelijking van gemiddelden)

» Bekijk een eventuele associatie tussen: Roken en laag geboortegewicht Roken en geboortegewicht … Analyse -> descriptive statistics -> crosstabs -> … Analyse -> compare means -> independent samples t-test

Verschil met vorige analyse?

Inferentiële statistiek

Page 22: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening: De ‘Evans’ studie (facultatief)

The Evans County Heart Study was initiated to compare the epidemiology of coronary heart disease (CHD) of black and white residents of a southeastern United States community. The study was prompted by a clinical observation that CHD appeared to be less frequent in black than white patients, despite a much higher prevalence and greater severity of hypertension in blacks. A total community-based, closed cohort study was initiated with a prevalence survey in 1960-1962. The 20-year follow-up experience of the Evans County cohort confirmed the importance of the major risk factors of serum cholesterol, smoking and blood pressure for middle age and older, black and white men and women for CHD, cardiovascular disease (CVD) and all-cause mortality. Black men were less likely to die of CHD than white men, and this relative protectiveness increased upon adjusting for risk factors and also increased with age. The relative protectiveness of black men for CHD mortality was also reflected in lower black than white CVD and all-cause mortality in men 65 years of age and older.

Tabel analyse

Page 23: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening: De ‘Evans’ studie (facultatief)

– Cfr. Zelfstudieopdracht tabelanalyse, Medische Statistiek I

– Is het catecholamineniveau een prognostische indicator voor het krijgen van een coronaire hartziekte?

– Bestand:

» CAT, EKG, LFTDSGRP (dichotoom), CHD

Tabelanalyse

Page 24: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Model analyse

» Geef aan wat het lineair verband is tussen het geboortegewicht en: Leeftijd en gewicht bij de laatste maandstonden De rangorde van het kind Het al dan niet roken tijdens de zwangerschap Het ras

Analyse -> regression -> linear ->…

Page 25: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Model analyse

» Geef aan wat het logistisch verband is tussen het geboortegewicht en: Leeftijd en gewicht bij de laatste maandstonden De rangorde van het kind Het al dan niet roken tijdens de zwangerschap Het ras

» Kijk na of de effecten afhankelijk zijn van de rookgewoonten

Analyse -> regression -> binary logistic ->…

Page 26: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening: De ‘Evans’ studie (facultatief)

– Cfr. Zelfstudieopdracht tabelanalyse, Medische Statistiek I

– Is het catecholamineniveau een prognostische indicator voor het krijgen van een coronaire hartziekte?

– Twee bestanden:

» CAT, EKG, LFTDSGRP (dichotoom), CHD

» CAT, SMOK, AGE (‘continu’), CATxSMOK, CHD

Logistische regressie

Page 27: Update statistiek Practicum SPSS l Inlezen van een gegevensbestand l Codeboek l Bewerken van gegevens l Beschrijvende statistiek l Multiple lineaire regressie.

Oefening: De ‘Freireich studie’

– Cfr. Zelfstudieopdracht

– Pas het finale model opnieuw toe met een variabele voor geslacht die als volgt werd geoperationaliseerd: Vrouw = 1 Man = 0

» Bespreek

Cox regressie