Hoofdstuk 3 Maatstaven voor ligging en spreiding

52
Hoofdstuk 3 Maatstaven voor ligging en spreiding 3.1. Centrummaten – Gemiddelden 3.2. Kwantielen 3.3. De spreidingsmaten

description

Hoofdstuk 3 Maatstaven voor ligging en spreiding. 3.1. Centrummaten – Gemiddelden 3.2. Kwantielen 3.3. De spreidingsmaten. Centrummaten. het rekenkundig gemiddelde de mediaan de modus bij niet-gegroepeerde waarnemingen bij gegroepeerde waarnemingen of frequentieverdelingen. - PowerPoint PPT Presentation

Transcript of Hoofdstuk 3 Maatstaven voor ligging en spreiding

Page 1: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Hoofdstuk 3Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten

Page 2: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Centrummaten

het rekenkundig gemiddelde de mediaan de modus

bij niet-gegroepeerde waarnemingen bij gegroepeerde waarnemingen of

frequentieverdelingen

Page 3: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Eigenschappen van kengetallen voor frequentieverdelingen

a. eenduidig gedefinieerd zijn (ondubbelzinnig)b. alle waarnemingen spelen een rol bij de

bepaling van het kengetalc. de interpretatie moet eenvoudig en inzichtelijk

zijnd. de kengetallen moeten niet al te gevoelig zijn

voor steekproeftoevalligheden, maar een grote steekproefstabiliteit bezitten

e. met de kengetallen moeten algebraïsche bewerkingen mogelijk zijn

Page 4: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het rekenkundig gemiddelde

Wat?Het rekenkundig gemiddelde van een reeks waarnemingsresutaten is gelijk aan de som van alle resultaten gedeeld door het aantal waarnemingen (dit is de steekproef- of popultieomvang)

Symbool:

Formule: n

XX

N

ii

1

X

Page 5: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het rekenkundig gemiddelde: eigenschappen (1)

1. Vermindert men alle waarnemingen met een zelfde getal, dan wordt ook het rekenkundig gemiddelde verminderd met dat getal men mag op de meetschaal een nieuwe oorsprong invoeren

2. Vermenigvuldigt men alle resultaten met een zelfde getal, dan wordt ook het rekenkundig gemiddelde met dit getal vermenigvuldigd (idem delen) men mag alle resultaten vereenvoudigen

Page 6: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het rekenkundig gemiddelde: eigenschappen (2)

3. De som van de afwijking van alle waarnemingsresultaten ten opzichte van hun rekenkundig gemiddelde is nul

Opm. : het rekenkundig gemiddelde wordt in de statistiek altijd berekend op één rang meer dan de waarnemingsresultaten.

0 XX

Page 7: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het gewogen rekenkundig gemiddelde (1)

Wat?Als niet aan alle waarnemingen een zelfde belang mag gehecht worden, vermenigvuldigt men elke waarde met een wegingsfactor en bepaalt men pas dan het rekenkundig gemiddelde

Page 8: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het gewogen rekenkundig gemiddelde (2)

Voorbeeld: examenuitslagen student D.V.

Rekenkundig gemiddelde:

Gewogen rek.gemiddelde:

Vakken Resultaat op 10 studiepunten

Economie 5 6

Statistiek 7 3

Recht 9 4

0,73

975

X

7,6

436

493765

xxx

Xg

Page 9: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Het rekenkundig gemiddelde van gegroepeerde gegevens

Formule:

De klassemiddens worden representatief voor elke klasse: alle frequenties worden vermenigvuldigd met de overeenkomende klassemiddens

n

mfX ii

Page 10: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Centrummaten

het rekenkundig gemiddelde de mediaan de modus

bij niet-gegroepeerde waarnemingen bij gegroepeerde waarnemingen of

frequentieverdelingen

Page 11: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De mediaan (1)

Wat?De mediaan van een reeks waarnemings-resultaten is de middelste van de naar grootte gerangschikte resultaten.De mediaan verdeelt een reeks resultaten in twee gelijke groepen:

aantal waarden < Me = aantal waarden > Me

Symbool: MeSynoniem: midscore

Page 12: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De mediaan (2)

bij oneven aantal waarnemingen:Me = middelste van naar grootte gerangschikte

bij even aantal waarnemingen:Me = rek. gemiddelde van middelste twee

Bij gegroepeerde frequentieverdelingen: Me = tweede kwartiel (Q2) mediaanklasse: zie cumulatief frequentiehistogram

Page 13: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De modus

Wat?De modus van een reeks waarnemingsresultaten is de waarneming die het meest voorkomt (= de uitslag met de hoogste frequentie)

Symbool: Mo

Opmerkingen: hebben alle resultaten in een reeks dezelfde frequentie, dan

is er geen modus de modus is de enige centrummaat ook te gebruiken voor

kwalitatieve kenmerken unimodale, bimodale, multimodale verdelingen

Page 14: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De modus bij gegroepeerde waarnemingen (1)

de modale klasse is de klasse met de hoogste frequentie

nauwkeuriger:

f = frequentie modale klassefl = frequentie (lagere) voorgaande klasse

fh= frequentie (hogere) volgende klasse

b = benedengrens modale klassei = klasse-interval

iffff

ffbMo

hl

l

Page 15: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De modus bij gegroepeerde waarnemingen (2)

Grafische bepaling van de modus bij frequentieverdelingen:

0

5

10

15

20

25

30

frequentie

Mo

modale klasse

Page 16: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Eigenschappen van kengetallen voor frequentieverdelingen

a. eenduidig gedefinieerd zijn (ondubbelzinnig)b. alle waarnemingen spelen een rol bij de

bepaling van het kengetalc. de interpretatie moet eenvoudig en inzichtelijk

zijnd. de kengetallen moeten niet al te gevoelig zijn

voor steekproeftoevalligheden, maar een grote steekproefstabiliteit bezitten

e. met de kengetallen moeten algebraïsche bewerkingen mogelijk zijn

Page 17: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze van de centrummaten (1)

+ -Rekenkundiggemiddelde

voldoet in alle opzichten als centrummaateign: a,b,c,d,e

gevoelig voor uitbijters

Mediaan ongevoelig voor uitbijters

eign: a,b,c

kleine steekproef-stabiliteitalgebraïsch weinig mogelijkheden

Modus snel te bepalen

eign: a,c

nagenoeg geen positieve eigen-schappen

Page 18: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze van de centrummaten (2)

De keuze hangt af van: het meetniveau de scheefheid van de verdeling extreme waarden

Page 19: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van het meetniveau

ratio interval ordinaal nominaal

Rek.gemidd. Mediaan Modus

Page 20: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze van de centrummaten (3)

De keuze hangt af van: het meetniveau de scheefheid mogelijke extreme waarden

Page 21: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van de scheefheid (1a)

Symmetrische verdelingen normale verdelingenb.v. IQ-scores, de meeste natuurlijke verschijnselen

0

10

20

30

40

50

60

f

MoMeX

Page 22: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van de scheefheid (1b)

Bimodale symmetrische verdelingen

0

5

10

15

20

25

30

f

Mo1 Mo2

MeX

21 MoMeXMo

Page 23: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van de scheefheid (2)

Scheef naar links (negatief scheef)b.v. lichaamsgewicht mannelijke 40-plussers in België

0

20

40

60

80

100

120

frequentie

Mo

Mo Me X

staart

Page 24: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van de scheefheid (3)

Scheef naar rechts (positief scheef)b.v. belastbaar inkomen Belgische bevolking in €

MoMeX

0

10

20

30

40

50

60

70

f

Mo

staart

Page 25: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze van de centrummaten (4)

De keuze hangt af van: het meetniveau de scheefheid mogelijke extreme waarden

Page 26: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Keuze centrummaat in functie van mogelijke extreme waarden

Extreme waarden (= uitbijters):beïnvloeden het gemiddelde de mediaan is hier beter geschikt dan het rekenkundig gemiddelde

Voorbeeld:

1 2 2 3 4 5 5 7 9 118

= 15,6 Me= 4,5X

Page 27: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Hoofdstuk 3Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten

Page 28: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Kwantielen

Wat?Kwantielen verdelen een frequentieverdeling in een aantal gelijke stukken (= stukken met gelijke frequentie)

Doel?Kwantielen dienen om een uitkomst te situeren ten opzichte van andere uitkomsten

Page 29: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Kwantielen (2)

Soorten kwantielen: Kwartielen: Q1, Q2 , Q3

verdelen de frequentieverdeling in 4 gelijke intervallen, elk met 25% van de uitkomsten

Decielen: D1, D2 , … , D9

verdelen de frequentieverdeling in 10 gelijke intervallen, elk met 10% van de uitkomsten

Percentielen: P01, P02 , … , P99

verdelen de frequentieverdeling in 100 gelijke intervallen, elk met 1% van de uitkomsten

Page 30: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Kwantielen (3)

5052 PDMeQ

257513 PPQQIKA

De interkwartielafstand (IKA) geeft de range aan van de middelste helft van de resultaten.De IKA is ongevoelig voor uitbijters.

Page 31: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Percentiel percentiele rang

percentiel (P)

b.v. P57 = 173,5 cm57% van de resultaten zijn kleiner of gelijk aan 173,5 cm

percentiele rang (p)

b.v. p168cm = 48,3%een lengte van 168cm komt overeen met de 48,3% kleinste resultaten

resultaatFrel k .

resultaatFrel k .

Page 32: Hoofdstuk 3 Maatstaven voor ligging en spreiding

5-getallen-résumé

Een frequentieverdeling kan omschreven worden met 5 kengetallen:

max31min ,,,, XQMeQX

Page 33: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Boxplot (boxdiagram)

Een boxplot is de grafische voorstelling van het 5-getallen-résumé: de randen van de box: Q1 (bodem)

Q3 (deksel) het tussenschot in de box: Me twee « bakkebaarden »:

van de box tot aan Xmin en Xmax

Doel:een snelle vergelijking van verschillende frequentieverdelingen

Page 34: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Boxplot (5-getallen-résumé)

Xmax

Q3

Me

Q1

Xmin

Page 35: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Vergelijking boxplots

Page 36: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Grafische bepaling van kwantielen

0

20

40

60

80

100

120

meetschaal

rel.F

percentiel:P27 = 133

percentiele rang:P528 = 96%

133 528

27

96

Page 37: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Hoofdstuk 3Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten

Page 38: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Spreiding, dispersie, variatie

3 invalshoeken: de verschillen tussen de uitkomsten

onderling de range op de meetschaal, waarbinnen

een bepaald percentage van het totaal aantal waarnemingen ligt

de verschillen tussen de uitkomsten en de centrummaten

Page 39: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De variatiebreedte of de range (1)

Wat?het verschil tussen de uiterste resultaten

Voordelen: zeer snel en eenvoudig te bepalen

Nadeel: maximaal beïnvloed door uitbijters

min maxX X R

Page 40: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De variatiebreedte of de range (2)

Bij gegroepeerde gegevens is de range:

LH bBR 1

LH mmR 2

iRR 21

0

Page 41: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De interkwartielafsand (IKA)

Beter dan de range:

Voordeel:totaal ongevoelig voor uitbijters!

Ook: IDA = interdecielafstand (D9 – D1)

257513 PPQQIKA

Page 42: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Spreiding, dispersie, variatie

3 invalshoeken: de verschillen tussen de uitkomsten

onderling de range op de meetschaal, waarbinnen

een bepaald percentage van het totaal aantal waarnemingen ligt

de verschillen tussen de uitkomsten en de centrummaten

Page 43: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Spreiding

Algemeen: de afstand tussen een centrummaat C en de waarnemingsresultaten Xi

Spreiding:

waarin

n

CXq

i

MoMeXC ,,nq ,...,2,1

Page 44: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De gemiddelde absolute afwijking

Wat?het gemiddeld verschil tussen elke uitslag en het rekenkundig gemiddelde van alle uitslagen

Symbool:

Formule:

XXfn ii 1

voor gegroepeerde gegevens: Xi mi

im

Page 45: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De variantie en de standaardafwijking

Wat?de variantie van een reeks uitslagen geeft aan in hoeverre deze afwijken van het gemiddelde

Symbool:

Formule: n

XXS i

2

2

2Smi

Page 46: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De standaardafwijking (1)

Variantie: wordt uitgedrukt in de tweede macht van de meeteenheid

de standaardafwijking is de vierkantswortel uit de variantie

de standaardafwijking is de belangrijkste spreidingsmaat in de statistiek

Page 47: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De standaardafwijking (2)

Formule:

of

n

XXSS i

2

2

22

Xn

XS i

voor gegroepeerde gegevens: Xi fi .mi

fi . mi²

Page 48: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De standaardafwijking (3)De standaardafwijking is de meest

gebruikte spreidingsmaat: normale verdelingen worden gekarakteriseerd

door het rekenkundig gemiddelde en de standaardafwijking

in een Gauss-curve is de afstand van de buigpunten tot de symmetrieas steeds gelijk aan de standaardafwijking

in een normale verdeling ligt steeds een zelfde percentage van de waarnemingen tussen het gemiddelde vermeerderd/verminderd met 1, 2 of 3 keer de standaardafwijking

Page 49: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Normale verdelingen (1)

SXN ;

b.v. N(63;12,7)

16%

Page 50: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Normale verdelingen (2)

vlakke normale verdeling

spitse normale verdeling

Page 51: Hoofdstuk 3 Maatstaven voor ligging en spreiding

Normale verdelingen (3)

156 164 172 180 188 196 204 cm NL

150 157 164 171 178 185 192 cm B

Page 52: Hoofdstuk 3 Maatstaven voor ligging en spreiding

De variatiecoëfficiënt

Wat?Een relatieve spreidingsmaat, onafhankelijk van de meeteenheid, om de spreiding van verschillende steekproeven te vergelijken

Symbool:

Formule:

De standaardafwijking wordt uitgedrukt in verhouding tot het rekenkundig gemiddelde

V

X

SV