Beschrijvende statistiek

27
Beschrijvende statistiek Inleiding Beschrijving van een verdeling mbv tabellen en figuren Kengetallen Het beschrijven van verbanden tussen twee variabelen

description

Beschrijvende statistiek. Inleiding Beschrijving van een verdeling mbv tabellen en figuren Kengetallen Het beschrijven van verbanden tussen twee variabelen. Beschrijvende statistiek. Inleiding. beschrijvende vs inferentiele statistiek kwalitatieve variabelen nominale variabelen - PowerPoint PPT Presentation

Transcript of Beschrijvende statistiek

Page 1: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding Beschrijving van een verdeling mbv tabellen en figuren Kengetallen Het beschrijven van verbanden tussen twee variabelen

Page 2: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding

beschrijvende vs inferentiele statistiek

kwalitatieve variabelennominale variabelen

ras, geslacht, bloedgroep,...ordinale variabelen

behandelingsresultaat, SES, opleidingsniveau,…categorisch: polytoom vs. dichotoom

numerieke variabelennumeriek discrete variabelen

aantal kinderen in gezin, …numeriek continue variabelen

lichaamslengte, bloeddruk, lichaamstemperatuur,… ratioschaal vs intervalschaal

Page 3: Beschrijvende statistiek

Beschrijvende statistiek

Inleiding: data-set: astma-studie

VARIABLE SPECIFICATIONS: No Name Format MD Code Lon g Label 1 Q5 3.0 -1 WAKKER KORTADEMIG 12M 2 Q13 3.0 -1 OOIT ASTMA GEHAD 3 AREA2 6.0 -1 REGIO (0=ZUID, 1=CENTRUM) 4 LEEFTIJD 8.2 -1 5 LFTDSGRP 9.0 -1 5-jaarsgroepen vanaf 20 6 GESLACHT 8.0 -1 0 = vrouw, 1 = man 7 ANAMNESE 9.0 -1 0 = negatief, 1 = pos.astma, 2 = atopie 8 ATOPIE 8.0 -1 9 ROKEN 6.0 -1 ROOKGEDRAG (NOOIT, EX-, <20, VANAF 20) 10 JOBBLOOT 9.0 -1 OOIT JOB DAMPEN,GASSEN,STOF,ROOK 11 CENSOR 7.0 -1 12 T1 5.0 -1 13 CENSOR2 7.0 -1 14 T2 5.0 -1 15 SAMPLE 6.0 -1

SPSS

Statistica

Excel

Page 4: Beschrijvende statistiek

Beschrijvende statistiek

data file: 2.STA [ 1121 cases with 15 variables ] 1 2 3 4 5 6 7 8 9 10 Q 5 Q13 AREA2 LEEFTIJD LFTD SG RP G ES LA CH T A NA MNESE A TO PIE ROK EN JOBBLOO T

1 0 0 1 24,43 1 1 0 0 0 0 2 0 0 1 23,10 1 1 2 1 0 0 3 0 0 1 34,34 3 1 0 0 0 0 4 0 0 1 33,51 3 0 0 0 0 0 5 0 0 1 39,76 4 1 0 0 1 0 6 0 0 1 28,08 2 0 1 1 0 0 7 1 0 1 44,72 5 0 2 1 1 0 8 0 0 1 29,05 2 1 2 1 0 0 9 0 0 1 43,84 5 1 2 1 0 1 10 0 0 1 38,37 4 1 0 0 3 1 11 12 13 14 15 C EN SO R T1 CENSO R2 T2 SA MPLE

1 1 25 1 20 2 2 1 23 1 20 2 3 1 34 1 20 2 4 1 33 1 20 2 5 1 40 1 20 2 6 1 28 1 20 2 7 1 45 1 20 2 8 1 29 1 20 2 9 1 44 1 20 2 10 1 39 1 20 2

data file: 2.STA [ 1121 cases with 15 variables ]

SPSS

Statistica

Page 5: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

kwalitatieve variabelenfrequentieverdeling

STAT. ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. %

Category Count Count of Valid of Valid Cases of All

G_1:0 513 513 48,30508 48,3051 45,76271 45,7627 G_2:1 166 679 15,63089 63,9360 14,80821 60,5709

G_3:2 383 1062 36,06403 100,0000 34,16592 94,7368 Missing 59 1121 5,55556 5,26316 100,0000

SPSS

Statistica

Page 6: Beschrijvende statistiek

Beschrijvende statistiek

kwalitatieve variabelenstaafdiagram

ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie

Category

No

of

ob

s

0

50

100

150

200

250

300

350

400

450

500

550

600

G_1:0 G_2:1 G_3:2

Beschrijving van een verdeling m.b.v. tabellen en figuren

SPSS

Statistica

Page 7: Beschrijvende statistiek

Beschrijvende statistiek

numerieke continue variabelenfrequentieverdeling

STAT. LEEFTIJD (2.sta) BASIC STATS Cumul. Percent Cumul % % of all Cumul. % Category Count Count of Valid of Valid Cases of All 15,000 < x <= 20,000 0 0 0,00000 0,0000 0,00000 0,0000 20,000 < x <= 25,000 165 165 14,71900 14,7190 14,71900 14,7190 25,000 < x <= 30,000 273 438 24,35326 39,0723 24,35326 39,0723 30,000 < x <= 35,000 226 664 20,16057 59,2328 20,16057 59,2328 35,000 < x <= 40,000 208 872 18,55486 77,7877 18,55486 77,7877 40,000 < x <= 45,000 225 1097 20,07136 97,8591 20,07136 97,8591 45,000 < x <= 50,000 24 1121 2,14095 100,0000 2,14095 100,0000 Missing 0 1121 0,00000 0,00000 100,0000

STAT. LEEFTIJD (2.sta) BASIC

Beschrijving van een verdeling m.b.v. tabellen en figuren

SPSS

Statistica

Page 8: Beschrijvende statistiek

Beschrijvende statistiek

Histogram (2.STA 15v*1121c)

LEEFTIJD

No

of

ob

s

0

22

44

66

88

110

132

154

176

198

220

242

264

286

308

330

<= 20 (20;25] (25;30] (30;35] (35;40] (40;45] > 45

Beschrijving van een verdeling m.b.v. tabellen en figuren

numerieke continue variabelenhistogram

SPSS

Statistica

Page 9: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

numerieke continue variabelenfrequentiepolygoon

LEEFTIJD

Upper Boundaries (x <= boundary)

No

of

ob

s

0

50

100

150

200

250

300

350

400

15 20 25 30 35 40 45 50

SPSS

Statistica

Page 10: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

ExpectedNormal

OPP

Shapiro-Wilk W=,95957, p<,2674

Upper Boundaries (x <= boundary)

No

of

ob

s

0

1

2

3

4

5

80 100 120 140 160 180 200 220 240 260 280 300

numerieke continue variabelenhistogram

Statistica

Page 11: Beschrijvende statistiek

Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren

ExpectedNormal

OPP

Shapiro-Wilk W=,95957, p<,2674

Upper Boundaries (x <= boundary)

No

of

ob

s

0

1

2

3

4

5

80 100 120 140 160 180 200 220 240 260 280 300

numerieke continue variabelenfrequentiepolygoon

Statistica

Page 12: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kwalitatieve variabelen: meestal niet nodig. evt. een modale categorie

Numerieke (kwantitatieve) variabelen: karakterisering van de verdeling a.h.v.:kengetallen voor centraal niveau en voor spreiding.

Kengetallen voor het centrale niveaurekenkundig gemiddeldemediaan of 50e percentielandere percentielen

STAT. Descriptive Statistics (2.sta) BASIC STATS

Lower Upper Variable Valid N Mean Median Minimum Maximum Quartile Quartile LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492

STAT. Descriptive Statistics (2.sta) BASIC

SPSS

Statistica

Page 13: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Mediaan of gemiddelde ?

meestal gemiddelde

nadeel: gevoeliger voor uitschieters dan mediaan

mediaan ook bruikbaar voor ordinale variabelen

symmetrische verdeling: gemiddelde = mediaan

niet symmetrische verdeling: voorkeur voor mediaan

Page 14: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding

SpreidingsbreedtePercentielafstanden (interkwartielafstand)StandaardafwijkingVariatiecoëfficiënt

STAT. Descriptive Statistics (2.sta)

BASIC STATS

Lower Upper Quartile

Variable Valid N Mean Median Minimum Maximum Quartile Quartile Range Std.Dev.

LEEFTIJD 1121 33,05964 32,63039 20,50445 45,83778 27,40931 39,21492 11,80561 6,972011

STAT. Descriptive Statistics (2.sta)

BASIC

SPSS

Statistica

Page 15: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding: Box-whisker plot

Spreidingsbreedte, interpercentiel afstand

Max = 45,83778Min = 20,50445

75% = 39,2149225% = 27,40931

Median value:Med = 32,63039

Box & Whisker Plot

18

24

30

36

42

48

LEEFTIJD

SPSS

Statistica

Page 16: Beschrijvende statistiek

Beschrijvende statistiek

Kengetallen

Kengetallen voor spreiding: Box-whisker plot

Standaardafwijking

±1.96*StDev

±1.00*Std. Dev.Std. Dev. = 6,972012

Mean = 33,05961

Box & Whisker Plot

16

22

28

34

40

46

52

LEEFTIJD

SPSS

Statistica

Page 17: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee kwalitatieve variabelen: de kruistabel

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS ROKEN ROKEN ROKEN ROKEN Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 G_3:2 G_4:3 Totals G_1:0 199* 91* 97* 103* 490 G_1:1 282* 150* 109* 90* 631 Totals 481 241 206 193 1121

STAT. 2-Way Summary Table: Observed Frequencies (2.sta)

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10 STATS Q5 Q5 Row GESLACHT: 0 = vrouw, 1 = man G_1:0 G_2:1 Totals G_1:0 468* 20* 488 G_1:1 588* 42* 630 Totals 1056 62 1118

STAT. 2-Way Summary Table: Observed Frequencies (2.sta) BASIC Marked cells have counts > 10

SPSS

Statistica

Page 18: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Eén kwalitatieve en één continue variabele: Box-whisker plot

Min-Max

25%-75%

Median value

Box & Whisker Plot: LEEFTIJD

GESLACHT

LE

EF

TIJ

D

18

24

30

36

42

48

0 1SPSS

Statistica

Page 19: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Eén kwalitatieve en één continue variabele

Histogram: LEEFTIJD

No

of

ob

s

GESLACHT: 0

0

32

64

96

128

160

192

15 20 25 30 35 40 45 50

GESLACHT: 1

15 20 25 30 35 40 45 50

SPSS

Statistica

Page 20: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)

Scatterplot (Bekpb97.STA 8v*117c)

PB

HG

B

0123456789

1011121314151617181920

2 6 10 14 18 22 26 30 34

SPSS

Statistica

Page 21: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)Scatterplot (SARC.STA 21v*99c)

DIAM

DN

AIN

D

0,2

0,8

1,4

2,0

2,6

3,2

5 6 7 8 9 10

SPSS

Statistica

Page 22: Beschrijvende statistiek

Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen

Twee continue variabelen: spreidingsdiagram (scatter plot)

Leeftijd in jaren

T T

T

0

4

8

12

16

20

24

28

20 30 40 50 60 70 80 90

Statistica

Page 23: Beschrijvende statistiek

Kans op de gebeurtenis (ziekte, genezing, sterfte,…) in ‘de’ populatie– Wat betekent deze uitspraak?– Wat is kans?– Wat is ‘de’ populatie

Voorbeeld 1:– werp 100 maal een muntstuk op en noteer (cumulatief) het aantal malen kruis. Zet de fractie kruis uit tegen het aantal herhaalde worpen.

– Empirische wet van de grote getallen.

Kans en enkele basiseigenschappen

Page 24: Beschrijvende statistiek

NDEWORPKRUISMUNCUMKRUISCUMFRKR1 0 0 02 0 0 03 1 1 0,3333334 1 2 0,55 0 2 0,46 1 3 0,57 1 4 0,5714298 1 5 0,6259 0 5 0,555556

10 0 5 0,511 1 6 0,54545512 1 7 0,58333313 1 8 0,61538514 1 9 0,64285715 1 10 0,66666716 0 10 0,62517 1 11 0,64705918 0 11 0,61111119 1 12 0,63157920 0 12 0,621 1 13 0,61904822 0 13 0,59090923 0 13 0,56521724 0 13 0,54166725 1 14 0,5626 1 15 0,57692327 0 15 0,55555628 1 16 0,57142929 1 17 0,58620730 0 17 0,566667

Page 25: Beschrijvende statistiek

Empirische wet van de grote getallen

Kans en enkele basiseigenschappen

Aantal worpen

Fra

ctie

kru

is

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 20 40 60 80 100

Page 26: Beschrijvende statistiek

Kans op de gebeurtenis (ziekte, genezing, sterfte,…)

Voorbeeld:– werp 100 maal een dobbelsteen en noteer (cumulatief) het aantal malen een. Zet de fractie een uit tegen het aantal herhaalde worpen.

– Empirische wet van de grote getallen.

Kans en enkele basiseigenschappen

Page 27: Beschrijvende statistiek

Empirische wet van de grote getallen

Kans en enkele basiseigenschappen

Aantal worpen

Fra

ctie

een

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 20 40 60 80 100