SPSS-cursus inleiding statistiek

75
september 1999 SPSS-cursus Statistiek 1 SPSS-cursus inleiding statistiek

description

SPSS-cursus inleiding statistiek. SPSS-cursus inleiding statistiek. Statistiek. Waarschijnlijkheidsrekening Statistiek. Waarschijnlijkheidsrekening. uit het bekende kansen op uitkomsten berekenen kans op munt kans op 3* munt bij 10 worpen bekende: de werkelijkheid: populatie of universum - PowerPoint PPT Presentation

Transcript of SPSS-cursus inleiding statistiek

Page 1: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 1

SPSS-cursus

inleiding statistiek

Page 2: SPSS-cursus inleiding statistiek

2SPSS-cursus Statistiekseptember 1999

SPSS-cursus

inleiding statistiek

Page 3: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 3

Statistiek

• Waarschijnlijkheidsrekening

• Statistiek

Page 4: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 4

Waarschijnlijkheidsrekening

• uit het bekende kansen op uitkomsten berekenen– kans op munt– kans op 3* munt bij 10 worpen

• bekende:– de werkelijkheid: populatie of universum– een hypothese (veronderstelling over

werkelijkheid)

Page 5: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 5

Populatie

• Eindige populatie– alle nederlandse vrouwen – alle studenten Geneeskunde in Groningen

• Oneindige populatie– alle mogelijke worpen met een munt

Page 6: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 6

Populatie

• (verdeling) is bekend– hoeveel nederlandse vrouwen en hun kenmerken

• bijv. leeftijdsverdeling

– hoeveel studenten Geneeskunde en hun kenmerken

• bijv. verhouding vrouw/ man

– mits munt eerlijk: evenveel kans op kruis of munt

Page 7: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 7

Steekproef

• een willekeurige trekking uit de populatie (aselect)

• 100 nederlandse vrouwen

• 20 studenten Geneeskunde

• 10 worpen met een munt

Page 8: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 8

Waarschijnlijkheidsrekening

• kans dat 12 (van de 100) vrouwen ouder 60 zijn

• kans dat er minstens 15 (van 20) vrouwelijke studenten zijn

• kans op minstens 8 (van 10) keer munt

Page 9: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 9

Statistiekbeschrijvende/ inferentiële statistiek (schatten

en toetsen)

• beschrijvende statistiekwat vind je in de steekproef?: tellen (aantallen, gemiddelden, grafieken, ...)– aantal vrouwen– gemiddelde leeftijd– staafdiagram kruis/ munt bij 10 worpen– scatterplot leeftijd/ waardering

Page 10: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 10

Statistiek• inferentiële statistiek (schatten en toetsen)

op grond van uitkomsten in de steekproef parameters in de populatie schatten en conclusies trekken– 12% van nederlandse vrouwen is ouder dan 60– er studeren in Groningen meer vrouwen

Geneeskunde dan mannen– de munt is eerlijk

Page 11: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 11

Statistiek

Schatten

uit uitkomsten van een steekproef schatting maken van de werkelijkheid (populatie)

Page 12: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 12

Statistiek• gevonden 12 vrouwen ouder dan 60, hoeveel

vrouwen zullen in de populatie ouder 60 zijn? (puntschatting: P(v>60) =0,12)

• gevonden 15 vrouwelijke studenten, wat is verhouding man/ vrouw in de populatie? (P(v)=0,75)

• gevonden 8 keer munt, kans op munt ? (P(munt)=0.80)

Page 13: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 13

Statistiek

• bij ander steekproef (toevallig bepaald!)andere uitkomst:20 van de 100 ouder dan 60 P(v>60)=0,2010 vrouwelijke studenten P(v)=0,50 4 keer munt P(munt)=0,40

Page 14: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 14

Statistiek

• Puntschatting met onzekerheid (standaarddeviatie (SD), spreiding,interval)

• P(v>60) =0,12 SD=0,03

• P(v)=0,75 SD=0,10

• P(munt)=0,8 SD=0,13

Page 15: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 15

Schatting

Conclusie

“Ik denk dat de fractie vrouwen > 60 jaar in de populatie 0,12 is (puntschatting), maar deze fractie ‘kan best’ (met 95% waarschijnlijkheid) liggen tussen 0,06 en 0,18 (puntschatting 2* SD)”

Page 16: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 16

Toetsen van hypothesen

• Hypothese: veronderstelling over werkelijkheid (populatie)– munt is eerlijk P(munt) = P(kruis)– minder mannelijke dan vrouwelijke studenten

Geneeskunde

Page 17: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 17

Stel hypothese• Stel Nulhypothese (H0) op

– P(munt) = P(kruis) = 0,5– P(vrouw) = P(man) =0,5– P(vrouw>60)= 0,2

• Stel Alternatieve hypothese vast (Ha)(situatie als H0 niet waar is)

– P(munt) > 0,5– P(vrouw) 0,5– P(vrouw>60) > 0,2

Page 18: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 18

Bepaal kansverdeling onder H0

• waarschijnlijkheidsrekening bij steekproefgrootte:– P(0 * munt), P(1 * munt), …, P(10 * munt)

als P(munt) = 0,5– P(0 * vrouw), P(1 * vrouw), … , P(20 * vrouw)

als P(vrouw) = 0,5

Page 19: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 19

Trek steekproef

• Trek een aselecte steekproef uit de populatie

• Doe de waarnemingen (tellen, meten, …)

Page 20: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 20

Bepaal kans op gevonden uitkomst

• Dit heet Overschrijdingskans

• Gevonden 8 keer munt

• P( 8 * munt) = 0,055 berekening?

• Let op: 8, 9, 10 * alle bij Ha (P(munt)>0,5)

• Zou dit kunnen als H0 waar is?

• Ja, de kans is 0,055 !

Page 21: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 21

Wat vind je van de uitkomst?

• Acht je uitkomst ‘redelijk’ als H0 waar is?

• Of past uitkomst beter bij Ha?

Page 22: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 22

Fout I en fout IIwerkelijkheid

H0 Ha

uitkomst H0

Ha

OK Fout II

Fout I OK

Page 23: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 23

Significantieniveau• Geef vooraf aan welke kans je redelijk vindt

dit is een keus van de onderzoeker!

– 0,05 gebruikelijke significantieniveau

– 0,01 kleinere kans om H0 ten onrechte te

verwerpen,

grotere om hem ten onrechte niet te verwerpen

Page 24: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 24

Verwerpen van H0

• als P(uitkomst) < significantieniveau:

verwerp H0, neem Ha aan

• anders: neem H0 aan

Page 25: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 25

Conclusie

• P(gevonden # vrouw) = 0,03

• bij H0: P(vrouw)=0,5

• Significantieniveau is 0,05

• Resultaat is significant

• Er zijn niet evenveel vrouwen als mannen

Page 26: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 26

1-zijdig / 2-zijdig toetsen

• Ho is ’is gelijk aan’

• Ha kan zijn:

– is ongelijk aan 2-zijdig

– is groter dan (of kleiner dan) 1-zijdig

Page 27: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 27

1-zijdig / 2-zijdig toetsen

• 1-zijdig als je tevoren een verwachting hebt

over het alternatief als H0 wordt verworpen

Bijvoorbeeld het toedienen van een medicatie

om de bloeddruk te verlagen.

Het is slechts interessant als dit tot verlaging

leidt (mits er iets verandert).

Hiervoor moet je een ‘theorie’ hebben.

Page 28: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 28

1-zijdig / 2-zijdig toetsen

• 2-zijdig als de richting bij verwerpen van H0

niet is te voorspellen.

Bijvoorbeeld of vrouwen beter op een

trainingsprogramma reageren dan mannen.

Page 29: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 29

1-zijdig / 2-zijdig toetsen

Gem.

Overschr.Overschr

SD

Page 30: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 30

1-zijdig / 2-zijdig toetsen• De verdeling van een toetsingsgrootheid, bijv. het

verschil in gemiddelde leeftijd

• Bij 2-zijdig moet je kijken of de waarde van de

toetsingsgrootheid valt in het linker of rechter

staartje, samen een kans van 0,05 (als dat

significantieniveau is)

Bij een normale verdeling zijn de grenzen

> 1,96 en < -1,96

Page 31: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 31

1-zijdig / 2-zijdig toetsen

• Bij 1-zijdig kijk je in 1 staartje (bijv.

rechts); het gebied omvat dat aan die ene

kant een kans 0,05

Bij een normale verdeling is de grens >

1,645

Page 32: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 32

Keus methode

• kansverdeling variabelen

• meetniveau variabelen

• verschil of verband

• steekproef opzet

Page 33: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 33

Kansverdeling• De kansverdeling beschrijft de kansen op

uitkomsten

• De totale kans, alle uitkomsten samen, = 1

• Je hebt continue en discrete

kansverdelingen

Page 34: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 34

Kansverdeling• Discreet

– slechts bepaalde uitkomsten mogelijk

– man of vrouw

– blauwe, bruine, grijze, groene ogen

– aantal mensen

– elke uitkomst heeft bepaalde kans, andere uitkomsten

onmogelijk, kans = 0

Page 35: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 35

Kansverdeling• Continu

– alle uikomsten zijn mogelijk

– de getallenrechte, van - oneindig tot + oneindig

– snelheid

– afstand

– tijd

Page 36: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 36

Kansen continu

• Bij continue verdeling kans op uitkomst in

interval

– Kans uitkomst < a = 0,05

– Kans op uitkomst > b = 0,20

– Kans op uitkomst tussen a en b = 0,75

Page 37: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 37

Normale verdeling

Gem.

Overschr.Overschr

SD

Page 38: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 38

Kansverdeling• Bijv. (continue) Normale verdeling

(oppervlak = 1)• Hoe hoger, hoe groter kans, kans bij gemiddelde

groot, staart klein• De ‘vorm’ is bepaald

• Plaats en breedte wordt bepaald door Parameters

gemiddelde en SD *

Page 39: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 39

Kansverdeling* Populatie:

griekse letters, steekproef ‘gewone’ letters

Gemiddelde resp. m

SD resp. s

Corr. Coëff. resp. R

Er zijn ook verdelingen die niet door parameters worden bepaald: parametervrij (non parametric)

Page 40: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 40

Meetniveau

• Nominaal

– discrete uitkomsten zonder volgorde

– man, vrouw

– oogkleur

– typologie ziekten

Page 41: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 41

Meetniveau

• Ordinaal

– discrete uitkomsten met volgorde

– verschil uitkomsten onbepaald: slecht/ matig

versus matig/ voldoende

– slecht/ matig/ voldoende/ goed

– leeftijdsklassen: <20, 20-40, >40

Page 42: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 42

Meetniveau• Interval

– representatie van continue verdeling

– verschil uitkomsten bepaald: 5-4 = 6-5

– tijd in seconden

– afstand in mm

– score op IQ-test

Page 43: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 43

Meetniveau

• Ratio

– als interval

– met absoluut nulpunt

– temperatuur Celsius Interval

– afstand in meters Ratio

Page 44: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 44

Centrale tendentie

• Interval (Ratio) gemiddelde

• Ordinaal mediaan

(middelste waarde, 50%)

• Nominaal - (PM: frequenties, modus)

Page 45: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 45

Spreiding

• Interval (ratio) standaarddeviatie (SD)

• Ordinaal interkwartielenrange

(25% - 75%)

• Nominaal - (PM: frequenties, modus)

Page 46: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 46

Toetsen op verschil

• 2 onafhankelijke steekproeven

• interval niveau

• Normale verdeling

• Student t-toets

Page 47: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 47

Normale verdeling

gem 2.

SD

gem 1.

SD

Page 48: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 48

Student t-toets onafh. steekpr.

• zijn gemiddelden gelijk (H0) ?

• twee varianten:

– varianties gelijk (equal)

– varianties ongelijk (unequal)

Page 49: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 49

Toetsen op verschil

• 2 onafhankelijke steekproeven

• interval niveau, geen Normale verdeling

• of ordinaal niveau

Page 50: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 50

Mann-Whitney U-toets

• zijn medianen gelijk (H0) ?

• gemiddelde rangnummers

• U statistic

• standaardnormale benadering U

Page 51: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 51

Gepaarde waarnemingen• aan een individu zijn 2 waarnemingen

• bijv. test voor en na training

• is er verschil?

• per individu voor en na vergelijken,

verschil per individu

• ‘middelen’ over de steekproef

Page 52: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 52

Toetsing

• Ho: geen verschil

• Ha: 1 of 2-zijdige verandering

• interval: Student t-toets match

• ordinaal: Wilcoxon symm. toets

Page 53: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 53

Samenhang variabelen

(relatie, verband, correlatie)

• H0: geen samenhang

• Ha: wel samenhang

positief: groot met groot

negatief: groot met klein

Page 54: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 54

Samenhang interval

leeftijd

waardeer * * *

* * * *

* * * * * * **

* ** * ** * *

* * *

* *

positieve

samenhang

Page 55: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 55

Samenhang interval

leeftijd

waardeer * * * *

* * * * *

* * * * * * * **

* * ** * ** * * *

* * * * *

* * *

geen

samenhang

Page 56: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 56

Samenhang• Bij geen samenhang: correlatie = 0

• Perfect positief = + 1

• Perfect negatief = - 1

• Significantie bepalen, H0: = 0

• R ook ‘sterktemaat’

Page 57: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 57

Samenhang

• interval - interval Pearson (‘product-moment’)

• interval - ordinaal Spearman * (rangorde)

• ordinaal - ordinaal Spearman *• nominaal - nominaal Chi2

* of Kendall tau

Page 58: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 58

Samenhang

• als variabele verschillend niveauis laagste bepalend

Page 59: SPSS-cursus inleiding statistiek

59SPSS-cursus Statistiekseptember 1999

Start SPSS

Page 60: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 60

Chi2

GESLACHT by OPLEID

OPLEID

Row 1 2 3 TotalGESLACHT 1 18 8 1 27

66,7 29,6 3,7 58,7

2 7 9 3 19

36,8 47,4 15,8 41,3

Column 25 17 4 46

Total 54,3 37,0 8,7 100,0

Page 61: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 61

Chi2

Chi-Square Value DF Sign.

Pearson 4,64810 2 ,09788

Likelihood Ratio 4,71664 2 ,09458

Mantel-Haenszel test for 4,54068 1 ,03310

linear association

Minimum Expected Frequency - 1,652

Cells with Expected Frequency <5- 2 OF 6(33,3%)

Number of Missing Observations: 0

Page 62: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 62

Chi2

• Ho: geen relatie geslacht - opleid

• dan verdeling opleid man = vrouw= totaal= 54,3 - 37,0 - 8,7 (verwachting)

• vergelijk gevonden verdelingen

66,7 - 29,6 - 3,7 resp.

36,8 - 47,4 - 15,8

hiermee

Page 63: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 63

Chi2

• (grote) verschillen leiden tot verwerpen H0

• Maat: Pearson Sign. 0.09788

• NS op niveau 0,05

• ‘Eis’ omdat uitkomsten (aantallen) discreet en Chi2 continu, is voor goede benadering nodig: max. 20% cellen verwachting <5

Page 64: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 64

Chi2

• In dit geval 33,3 % cellen te klein.

• Dan codes samenvoegen, bijv. opleid laag / midden+hoog

Page 65: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 65

aantal successen N=10, p=0,5

109876543210

ka

ns

,5

,4

,3

,2

,1

0,0

Staafdiagram: aantallen van categorieën

hoogte = aantal

Kans aantal munt, N=10

Histogram: aantallen in klassen

oppervlakte = aantal

Leeftijdsverdeling

LEEFTIJD

80,070,060,050,040,030,020,0

20

10

0

Std. Dev = 12,01

Mean = 36,7

N = 49,00

Page 66: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 66

LEEFTIJD

70605040302010

WA

AR

DE

ER

10

9

8

7

6

5

4

3

2

Scatterplot leeftijd - waardering

Page 67: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 67

Binomiale verdeling

Uitkomst is Succes (vrouw > 60) of niet

Binomiale verdeling

N pogingen N = 100

X Successen X = 12

Succeskans p = X/N = 0,12

SD = (p*(1-p)/N) ½ = (0,12*0,88/100) ½

= 0,0325

Page 68: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 68

Kans op x successen

Uitkomst is Succes of niet

Binomiale verdeling

Succeskans = p

N pogingen

Kans dat x van N succes zijn

Page 69: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 69

Binomiale verdelingN=10, p=0,5

x kans

0 ,0009751 ,0097502 ,0439003 ,1170004 ,2047505 ,2457006 ,2047507 ,1170008 ,0439009 ,00975010 ,000975

Kansverdeling

H0

Ha

Page 70: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 70

aantal successen N=10, p=0,5

109876543210

ka

ns

,5

,4

,3

,2

,1

0,0

< H0 >< Ha >

Kansverdeling

Page 71: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 71

Formule

P(x=X; p; N) = pX (1-p)N-X

p=0.5

N=10

X=8

N

X

Page 72: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 72

Berekening

= = = 45

0.5 8 = 0.0039

0.5 2 = 0.25

45 * 0.0039 * 0.25 = 0.0439

10

8

10

2

10*9

2* 1

Page 73: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 73

Berekening

= = = 10

0.5 9 = 0.00195

0.5 2 = 0.5

10 * 0.00195 * 0.5 = 0.00975

10

9

10

1

10

1

Page 74: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 74

Berekening

= = 1

0.5 10 = 0.000975

0.5 0 = 1

1 * 0.000975 * 1 = 0.000975

10

10

10

0

Page 75: SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 75

Berekening

0.0439 8 *

0.00975 9 *

0.000975 10 *

+

0.00546