Download - Beschrijvende statistiek

Transcript
Page 1: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding Beschrijving van een verdeling mbv tabellen en figuren Kengetallen Het beschrijven van verbanden tussen twee variabelen

Page 2: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding

beschrijvende vs inferentiele statistiek

kwalitatieve variabelennominale variabelen

ras, geslacht, bloedgroep,...ordinale variabelen

behandelingsresultaat, SES, opleidingsniveau,…categorisch: polytoom vs. dichotoom

numerieke variabelennumeriek discrete variabelen

aantal kinderen in gezin, …numeriek continue variabelen

lichaamslengte, bloeddruk, lichaamstemperatuur,… ratioschaal vs intervalschaal

Page 3: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding: data-set: astma-studie

VARIABLE SPECIFICATIONS: No Name Format MD Code Lon g Label 1 Q5 3.0 -1 WAKKER KORTADEMIG 12M 2 Q13 3.0 -1 OOIT ASTMA GEHAD 3 AREA2 6.0 -1 REGIO (0=ZUID, 1=CENTRUM) 4 LEEFTIJD 8.2 -1 5 LFTDSGRP 9.0 -1 5-jaarsgroepen vanaf 20 6 GESLACHT 8.0 -1 0 = vrouw, 1 = man 7 ANAMNESE 9.0 -1 0 = negatief, 1 = pos.astma, 2 = atopie 8 ATOPIE 8.0 -1 9 ROKEN 6.0 -1 ROOKGEDRAG (NOOIT, EX-, <20, VANAF 20) 10 JOBBLOOT 9.0 -1 OOIT JOB DAMPEN,GASSEN,STOF,ROOK 11 CENSOR 7.0 -1 12 T1 5.0 -1 13 CENSOR2 7.0 -1 14 T2 5.0 -1 15 SAMPLE 6.0 -1

SPSS

Statistica

Excel

Page 4: Beschrijvende statistiek

Beschrijvende statistiek

data file: 2.STA [ 1121 cases with 15 variables ] 1 2 3 4 5 6 7 8 9 10 Q 5 Q13 AREA2 LEEFTIJD LFTD SG RP G ES LA CH T A NA MNESE A TO PIE ROK EN JOBBLOO T

1 0 0 1 24,43 1 1 0 0 0 0 2 0 0 1 23,10 1 1 2 1 0 0 3 0 0 1 34,34 3 1 0 0 0 0 4 0 0 1 33,51 3 0 0 0 0 0 5 0 0 1 39,76 4 1 0 0 1 0 6 0 0 1 28,08 2 0 1 1 0 0 7 1 0 1 44,72 5 0 2 1 1 0 8 0 0 1 29,05 2 1 2 1 0 0 9 0 0 1 43,84 5 1 2 1 0 1 10 0 0 1 38,37 4 1 0 0 3 1 11 12 13 14 15 C EN SO R T1 CENSO R2 T2 SA MPLE

1 1 25 1 20 2 2 1 23 1 20 2 3 1 34 1 20 2 4 1 33 1 20 2 5 1 40 1 20 2 6 1 28 1 20 2 7 1 45 1 20 2 8 1 29 1 20 2 9 1 44 1 20 2 10 1 39 1 20 2

data file: 2.STA [ 1121 cases with 15 variables ]

SPSS

Statistica

Page 5: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

kwalitatieve variabelenfrequentieverdeling

STAT. ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. %

Category Count Count of Valid of Valid Cases of All

G_1:0 513 513 48,30508 48,3051 45,76271 45,7627 G_2:1 166 679 15,63089 63,9360 14,80821 60,5709

G_3:2 383 1062 36,06403 100,0000 34,16592 94,7368 Missing 59 1121 5,55556 5,26316 100,0000

SPSS

Statistica

Page 6: Beschrijvende statistiek

Beschrijvende statistiek

kwalitatieve variabelenstaafdiagram

ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie

Category

No

of

ob

s

0

50

100

150

200

250

300

350

400

450

500

550

600

G_1:0 G_2:1 G_3:2

Beschrijving van een verdeling m.b.v. tabellen en figuren

SPSS

Statistica

Page 7: Beschrijvende statistiek

Beschrijvende statistiek

numerieke continue variabelenfrequentieverdeling

STAT. LEEFTIJD (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. % Category Count Count of Valid of Valid Cases of All 15,000 < x <= 20,000 0 0 0,00000 0,0000 0,00000 0,0000 20,000 < x <= 25,000 165 165 14,71900 14,7190 14,71900 14,7190 25,000 < x <= 30,000 273 438 24,35326 39,0723 24,35326 39,0723 30,000 < x <= 35,000 226 664 20,16057 59,2328 20,16057 59,2328 35,000 < x <= 40,000 208 872 18,55486 77,7877 18,55486 77,7877 40,000 < x <= 45,000 225 1097 20,07136 97,8591 20,07136 97,8591 45,000 < x <= 50,000 24 1121 2,14095 100,0000 2,14095 100,0000 Missing 0 1121 0,00000 0,00000 100,0000

STAT. LEEFTIJD (2.sta) BASIC

Beschrijving van een verdeling m.b.v. tabellen en figuren

SPSS

Statistica

Page 8: Beschrijvende statistiek

Beschrijvende statistiek

Histogram (2.STA 15v*1121c)

LEEFTIJD

No

of

ob

s

0

22

44

66

88

110

132

154

176

198

220

242

264

286

308

330

<= 20 (20;25] (25;30] (30;35] (35;40] (40;45] > 45

Beschrijving van een verdeling m.b.v. tabellen en figuren

numerieke continue variabelenhistogram

SPSS

Statistica

Page 9: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

numerieke continue variabelenfrequentiepolygoon

LEEFTIJD

Upper Boundaries (x <= boundary)

No

of

ob

s

0

50

100

150

200

250

300

350

400

15 20 25 30 35 40 45 50

SPSS

Statistica

Page 10: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

ExpectedNormal

OPP

Shapiro-Wilk W=,95957, p<,2674

Upper Boundaries (x <= boundary)

No

of

ob

s

0

1

2

3

4

5

80 100 120 140 160 180 200 220 240 260 280 300

numerieke continue variabelenhistogram

Statistica

Page 11: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

ExpectedNormal

OPP

Shapiro-Wilk W=,95957, p<,2674

Upper Boundaries (x <= boundary)

No

of

ob

s

0

1

2

3

4

5

80 100 120 140 160 180 200 220 240 260 280 300

numerieke continue variabelenfrequentiepolygoon

Statistica

Page 12: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kwalitatieve variabelen: meestal niet nodig. evt. een modale categorie

Numerieke (kwantitatieve) variabelen: karakterisering van de verdeling a.h.v.:kengetallen voor centraal niveau en voor spreiding.

Kengetallen voor het centrale niveaurekenkundig gemiddeldemediaan of 50e percentielandere percentielen

STAT. Descriptive Statistics (2.sta) BASIC STATS

Lower Upper Variable Valid N Mean Median Minimum Maximum Quartile Quartile LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492

STAT. Descriptive Statistics (2.sta) BASIC

SPSS

Statistica

Page 13: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Mediaan of gemiddelde ?

meestal gemiddelde

nadeel: gevoeliger voor uitschieters dan mediaan

mediaan ook bruikbaar voor ordinale variabelen

symmetrische verdeling: gemiddelde = mediaan

niet symmetrische verdeling: voorkeur voor mediaan

Page 14: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding

SpreidingsbreedtePercentielafstanden (interkwartielafstand)StandaardafwijkingVariatiecoëfficiënt

STAT. Descriptive Statistics (2.sta)

BASIC STATS

Lower Upper Quartile

Variable Valid N Mean Median Minimum Maximum Quartile Quartile Range Std.Dev.

LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492 11,80561 6,972011

STAT. Descriptive Statistics (2.sta)

BASIC

SPSS

Statistica

Page 15: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding: Box-whisker plot

Spreidingsbreedte, interpercentiel afstand

Max = 45,83778Min = 20,50445

75% = 39,2149225% = 27,40931

Median value:Med = 32,63039

Box & Whisker Plot

18

24

30

36

42

48

LEEFTIJD

SPSS

Statistica

Page 16: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding: Box-whisker plot

Standaardafwijking

±1.96*StDev

±1.00*Std. Dev.Std. Dev. = 6,972012

Mean = 33,05961

Box & Whisker Plot

16

22

28

34

40

46

52

LEEFTIJD

SPSS

Statistica

Page 17: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee kwalitatieve variabelen: de kruistabel

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS ROKEN ROKEN ROKEN ROKEN Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 G_3:2 G_4:3 Totals G_1:0 199* 91* 97* 103* 490 G_1:1 282* 150* 109* 90* 631 Totals 481 241 206 193 1121

STAT. 2-Way Summary Table: Observed Frequencies (2.sta)

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS Q5 Q5 Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 Totals G_1:0 468* 20* 488 G_1:1 588* 42* 630 Totals 1056 62 1118

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10

SPSS

Statistica

Page 18: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Eén kwalitatieve en één continue variabele: Box-whisker plot

Min-Max

25%-75%

Median value

Box & Whisker Plot: LEEFTIJD

GESLACHT

LE

EF

TIJ

D

18

24

30

36

42

48

0 1SPSS

Statistica

Page 19: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Eén kwalitatieve en één continue variabele

Histogram: LEEFTIJD

No

of

ob

s

GESLACHT: 0

0

32

64

96

128

160

192

15 20 25 30 35 40 45 50

GESLACHT: 1

15 20 25 30 35 40 45 50

SPSS

Statistica

Page 20: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)

Scatterplot (Bekpb97.STA 8v*117c)

PB

HG

B

0123456789

1011121314151617181920

2 6 10 14 18 22 26 30 34

SPSS

Statistica

Page 21: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)Scatterplot (SARC.STA 21v*99c)

DIAM

DN

AIN

D

0,2

0,8

1,4

2,0

2,6

3,2

5 6 7 8 9 10

SPSS

Statistica

Page 22: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)

Leeftijd in jaren

T T

T

0

4

8

12

16

20

24

28

20 30 40 50 60 70 80 90

Statistica

Page 23: Beschrijvende statistiek

Kans op de gebeurtenis (ziekte, genezing, sterfte,…) in ‘de’ populatie– Wat betekent deze uitspraak?– Wat is kans?– Wat is ‘de’ populatie

Voorbeeld 1:– werp 100 maal een muntstuk op en noteer (cumulatief) het aantal malen kruis. Zet de fractie kruis uit tegen het aantal herhaalde worpen.

– Empirische wet van de grote getallen.

Kans en enkele basiseigenschappen

Page 24: Beschrijvende statistiek

NDEWORPKRUISMUNCUMKRUISCUMFRKR1 0 0 02 0 0 03 1 1 0,3333334 1 2 0,55 0 2 0,46 1 3 0,57 1 4 0,5714298 1 5 0,6259 0 5 0,555556

10 0 5 0,511 1 6 0,54545512 1 7 0,58333313 1 8 0,61538514 1 9 0,64285715 1 10 0,66666716 0 10 0,62517 1 11 0,64705918 0 11 0,61111119 1 12 0,63157920 0 12 0,621 1 13 0,61904822 0 13 0,59090923 0 13 0,56521724 0 13 0,54166725 1 14 0,5626 1 15 0,57692327 0 15 0,55555628 1 16 0,57142929 1 17 0,58620730 0 17 0,566667

Page 25: Beschrijvende statistiek

Empirische wet van de grote getallen

Kans en enkele basiseigenschappen

Aantal worpen

Fra

ctie

kru

is

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 20 40 60 80 100

Page 26: Beschrijvende statistiek

Kans op de gebeurtenis (ziekte, genezing, sterfte,…)

Voorbeeld:– werp 100 maal een dobbelsteen en noteer (cumulatief) het aantal malen een. Zet de fractie een uit tegen het aantal herhaalde worpen.

– Empirische wet van de grote getallen.

Kans en enkele basiseigenschappen

Page 27: Beschrijvende statistiek

Empirische wet van de grote getallen

Kans en enkele basiseigenschappen

Aantal worpen

Fra

ctie

een

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 20 40 60 80 100