SPSS-cursus inleiding statistiek

Post on 21-Jan-2016

73 views 0 download

description

SPSS-cursus inleiding statistiek. SPSS-cursus inleiding statistiek. Statistiek. Waarschijnlijkheidsrekening Statistiek. Waarschijnlijkheidsrekening. uit het bekende kansen op uitkomsten berekenen kans op munt kans op 3* munt bij 10 worpen bekende: de werkelijkheid: populatie of universum - PowerPoint PPT Presentation

Transcript of SPSS-cursus inleiding statistiek

september 1999 SPSS-cursus Statistiek 1

SPSS-cursus

inleiding statistiek

2SPSS-cursus Statistiekseptember 1999

SPSS-cursus

inleiding statistiek

september 1999 SPSS-cursus Statistiek 3

Statistiek

• Waarschijnlijkheidsrekening

• Statistiek

september 1999 SPSS-cursus Statistiek 4

Waarschijnlijkheidsrekening

• uit het bekende kansen op uitkomsten berekenen– kans op munt– kans op 3* munt bij 10 worpen

• bekende:– de werkelijkheid: populatie of universum– een hypothese (veronderstelling over

werkelijkheid)

september 1999 SPSS-cursus Statistiek 5

Populatie

• Eindige populatie– alle nederlandse vrouwen – alle studenten Geneeskunde in Groningen

• Oneindige populatie– alle mogelijke worpen met een munt

september 1999 SPSS-cursus Statistiek 6

Populatie

• (verdeling) is bekend– hoeveel nederlandse vrouwen en hun kenmerken

• bijv. leeftijdsverdeling

– hoeveel studenten Geneeskunde en hun kenmerken

• bijv. verhouding vrouw/ man

– mits munt eerlijk: evenveel kans op kruis of munt

september 1999 SPSS-cursus Statistiek 7

Steekproef

• een willekeurige trekking uit de populatie (aselect)

• 100 nederlandse vrouwen

• 20 studenten Geneeskunde

• 10 worpen met een munt

september 1999 SPSS-cursus Statistiek 8

Waarschijnlijkheidsrekening

• kans dat 12 (van de 100) vrouwen ouder 60 zijn

• kans dat er minstens 15 (van 20) vrouwelijke studenten zijn

• kans op minstens 8 (van 10) keer munt

september 1999 SPSS-cursus Statistiek 9

Statistiekbeschrijvende/ inferentiële statistiek (schatten

en toetsen)

• beschrijvende statistiekwat vind je in de steekproef?: tellen (aantallen, gemiddelden, grafieken, ...)– aantal vrouwen– gemiddelde leeftijd– staafdiagram kruis/ munt bij 10 worpen– scatterplot leeftijd/ waardering

september 1999 SPSS-cursus Statistiek 10

Statistiek• inferentiële statistiek (schatten en toetsen)

op grond van uitkomsten in de steekproef parameters in de populatie schatten en conclusies trekken– 12% van nederlandse vrouwen is ouder dan 60– er studeren in Groningen meer vrouwen

Geneeskunde dan mannen– de munt is eerlijk

september 1999 SPSS-cursus Statistiek 11

Statistiek

Schatten

uit uitkomsten van een steekproef schatting maken van de werkelijkheid (populatie)

september 1999 SPSS-cursus Statistiek 12

Statistiek• gevonden 12 vrouwen ouder dan 60, hoeveel

vrouwen zullen in de populatie ouder 60 zijn? (puntschatting: P(v>60) =0,12)

• gevonden 15 vrouwelijke studenten, wat is verhouding man/ vrouw in de populatie? (P(v)=0,75)

• gevonden 8 keer munt, kans op munt ? (P(munt)=0.80)

september 1999 SPSS-cursus Statistiek 13

Statistiek

• bij ander steekproef (toevallig bepaald!)andere uitkomst:20 van de 100 ouder dan 60 P(v>60)=0,2010 vrouwelijke studenten P(v)=0,50 4 keer munt P(munt)=0,40

september 1999 SPSS-cursus Statistiek 14

Statistiek

• Puntschatting met onzekerheid (standaarddeviatie (SD), spreiding,interval)

• P(v>60) =0,12 SD=0,03

• P(v)=0,75 SD=0,10

• P(munt)=0,8 SD=0,13

september 1999 SPSS-cursus Statistiek 15

Schatting

Conclusie

“Ik denk dat de fractie vrouwen > 60 jaar in de populatie 0,12 is (puntschatting), maar deze fractie ‘kan best’ (met 95% waarschijnlijkheid) liggen tussen 0,06 en 0,18 (puntschatting 2* SD)”

september 1999 SPSS-cursus Statistiek 16

Toetsen van hypothesen

• Hypothese: veronderstelling over werkelijkheid (populatie)– munt is eerlijk P(munt) = P(kruis)– minder mannelijke dan vrouwelijke studenten

Geneeskunde

september 1999 SPSS-cursus Statistiek 17

Stel hypothese• Stel Nulhypothese (H0) op

– P(munt) = P(kruis) = 0,5– P(vrouw) = P(man) =0,5– P(vrouw>60)= 0,2

• Stel Alternatieve hypothese vast (Ha)(situatie als H0 niet waar is)

– P(munt) > 0,5– P(vrouw) 0,5– P(vrouw>60) > 0,2

september 1999 SPSS-cursus Statistiek 18

Bepaal kansverdeling onder H0

• waarschijnlijkheidsrekening bij steekproefgrootte:– P(0 * munt), P(1 * munt), …, P(10 * munt)

als P(munt) = 0,5– P(0 * vrouw), P(1 * vrouw), … , P(20 * vrouw)

als P(vrouw) = 0,5

september 1999 SPSS-cursus Statistiek 19

Trek steekproef

• Trek een aselecte steekproef uit de populatie

• Doe de waarnemingen (tellen, meten, …)

september 1999 SPSS-cursus Statistiek 20

Bepaal kans op gevonden uitkomst

• Dit heet Overschrijdingskans

• Gevonden 8 keer munt

• P( 8 * munt) = 0,055 berekening?

• Let op: 8, 9, 10 * alle bij Ha (P(munt)>0,5)

• Zou dit kunnen als H0 waar is?

• Ja, de kans is 0,055 !

september 1999 SPSS-cursus Statistiek 21

Wat vind je van de uitkomst?

• Acht je uitkomst ‘redelijk’ als H0 waar is?

• Of past uitkomst beter bij Ha?

september 1999 SPSS-cursus Statistiek 22

Fout I en fout IIwerkelijkheid

H0 Ha

uitkomst H0

Ha

OK Fout II

Fout I OK

september 1999 SPSS-cursus Statistiek 23

Significantieniveau• Geef vooraf aan welke kans je redelijk vindt

dit is een keus van de onderzoeker!

– 0,05 gebruikelijke significantieniveau

– 0,01 kleinere kans om H0 ten onrechte te

verwerpen,

grotere om hem ten onrechte niet te verwerpen

september 1999 SPSS-cursus Statistiek 24

Verwerpen van H0

• als P(uitkomst) < significantieniveau:

verwerp H0, neem Ha aan

• anders: neem H0 aan

september 1999 SPSS-cursus Statistiek 25

Conclusie

• P(gevonden # vrouw) = 0,03

• bij H0: P(vrouw)=0,5

• Significantieniveau is 0,05

• Resultaat is significant

• Er zijn niet evenveel vrouwen als mannen

september 1999 SPSS-cursus Statistiek 26

1-zijdig / 2-zijdig toetsen

• Ho is ’is gelijk aan’

• Ha kan zijn:

– is ongelijk aan 2-zijdig

– is groter dan (of kleiner dan) 1-zijdig

september 1999 SPSS-cursus Statistiek 27

1-zijdig / 2-zijdig toetsen

• 1-zijdig als je tevoren een verwachting hebt

over het alternatief als H0 wordt verworpen

Bijvoorbeeld het toedienen van een medicatie

om de bloeddruk te verlagen.

Het is slechts interessant als dit tot verlaging

leidt (mits er iets verandert).

Hiervoor moet je een ‘theorie’ hebben.

september 1999 SPSS-cursus Statistiek 28

1-zijdig / 2-zijdig toetsen

• 2-zijdig als de richting bij verwerpen van H0

niet is te voorspellen.

Bijvoorbeeld of vrouwen beter op een

trainingsprogramma reageren dan mannen.

september 1999 SPSS-cursus Statistiek 29

1-zijdig / 2-zijdig toetsen

Gem.

Overschr.Overschr

SD

september 1999 SPSS-cursus Statistiek 30

1-zijdig / 2-zijdig toetsen• De verdeling van een toetsingsgrootheid, bijv. het

verschil in gemiddelde leeftijd

• Bij 2-zijdig moet je kijken of de waarde van de

toetsingsgrootheid valt in het linker of rechter

staartje, samen een kans van 0,05 (als dat

significantieniveau is)

Bij een normale verdeling zijn de grenzen

> 1,96 en < -1,96

september 1999 SPSS-cursus Statistiek 31

1-zijdig / 2-zijdig toetsen

• Bij 1-zijdig kijk je in 1 staartje (bijv.

rechts); het gebied omvat dat aan die ene

kant een kans 0,05

Bij een normale verdeling is de grens >

1,645

september 1999 SPSS-cursus Statistiek 32

Keus methode

• kansverdeling variabelen

• meetniveau variabelen

• verschil of verband

• steekproef opzet

september 1999 SPSS-cursus Statistiek 33

Kansverdeling• De kansverdeling beschrijft de kansen op

uitkomsten

• De totale kans, alle uitkomsten samen, = 1

• Je hebt continue en discrete

kansverdelingen

september 1999 SPSS-cursus Statistiek 34

Kansverdeling• Discreet

– slechts bepaalde uitkomsten mogelijk

– man of vrouw

– blauwe, bruine, grijze, groene ogen

– aantal mensen

– elke uitkomst heeft bepaalde kans, andere uitkomsten

onmogelijk, kans = 0

september 1999 SPSS-cursus Statistiek 35

Kansverdeling• Continu

– alle uikomsten zijn mogelijk

– de getallenrechte, van - oneindig tot + oneindig

– snelheid

– afstand

– tijd

september 1999 SPSS-cursus Statistiek 36

Kansen continu

• Bij continue verdeling kans op uitkomst in

interval

– Kans uitkomst < a = 0,05

– Kans op uitkomst > b = 0,20

– Kans op uitkomst tussen a en b = 0,75

september 1999 SPSS-cursus Statistiek 37

Normale verdeling

Gem.

Overschr.Overschr

SD

september 1999 SPSS-cursus Statistiek 38

Kansverdeling• Bijv. (continue) Normale verdeling

(oppervlak = 1)• Hoe hoger, hoe groter kans, kans bij gemiddelde

groot, staart klein• De ‘vorm’ is bepaald

• Plaats en breedte wordt bepaald door Parameters

gemiddelde en SD *

september 1999 SPSS-cursus Statistiek 39

Kansverdeling* Populatie:

griekse letters, steekproef ‘gewone’ letters

Gemiddelde resp. m

SD resp. s

Corr. Coëff. resp. R

Er zijn ook verdelingen die niet door parameters worden bepaald: parametervrij (non parametric)

september 1999 SPSS-cursus Statistiek 40

Meetniveau

• Nominaal

– discrete uitkomsten zonder volgorde

– man, vrouw

– oogkleur

– typologie ziekten

september 1999 SPSS-cursus Statistiek 41

Meetniveau

• Ordinaal

– discrete uitkomsten met volgorde

– verschil uitkomsten onbepaald: slecht/ matig

versus matig/ voldoende

– slecht/ matig/ voldoende/ goed

– leeftijdsklassen: <20, 20-40, >40

september 1999 SPSS-cursus Statistiek 42

Meetniveau• Interval

– representatie van continue verdeling

– verschil uitkomsten bepaald: 5-4 = 6-5

– tijd in seconden

– afstand in mm

– score op IQ-test

september 1999 SPSS-cursus Statistiek 43

Meetniveau

• Ratio

– als interval

– met absoluut nulpunt

– temperatuur Celsius Interval

– afstand in meters Ratio

september 1999 SPSS-cursus Statistiek 44

Centrale tendentie

• Interval (Ratio) gemiddelde

• Ordinaal mediaan

(middelste waarde, 50%)

• Nominaal - (PM: frequenties, modus)

september 1999 SPSS-cursus Statistiek 45

Spreiding

• Interval (ratio) standaarddeviatie (SD)

• Ordinaal interkwartielenrange

(25% - 75%)

• Nominaal - (PM: frequenties, modus)

september 1999 SPSS-cursus Statistiek 46

Toetsen op verschil

• 2 onafhankelijke steekproeven

• interval niveau

• Normale verdeling

• Student t-toets

september 1999 SPSS-cursus Statistiek 47

Normale verdeling

gem 2.

SD

gem 1.

SD

september 1999 SPSS-cursus Statistiek 48

Student t-toets onafh. steekpr.

• zijn gemiddelden gelijk (H0) ?

• twee varianten:

– varianties gelijk (equal)

– varianties ongelijk (unequal)

september 1999 SPSS-cursus Statistiek 49

Toetsen op verschil

• 2 onafhankelijke steekproeven

• interval niveau, geen Normale verdeling

• of ordinaal niveau

september 1999 SPSS-cursus Statistiek 50

Mann-Whitney U-toets

• zijn medianen gelijk (H0) ?

• gemiddelde rangnummers

• U statistic

• standaardnormale benadering U

september 1999 SPSS-cursus Statistiek 51

Gepaarde waarnemingen• aan een individu zijn 2 waarnemingen

• bijv. test voor en na training

• is er verschil?

• per individu voor en na vergelijken,

verschil per individu

• ‘middelen’ over de steekproef

september 1999 SPSS-cursus Statistiek 52

Toetsing

• Ho: geen verschil

• Ha: 1 of 2-zijdige verandering

• interval: Student t-toets match

• ordinaal: Wilcoxon symm. toets

september 1999 SPSS-cursus Statistiek 53

Samenhang variabelen

(relatie, verband, correlatie)

• H0: geen samenhang

• Ha: wel samenhang

positief: groot met groot

negatief: groot met klein

september 1999 SPSS-cursus Statistiek 54

Samenhang interval

leeftijd

waardeer * * *

* * * *

* * * * * * **

* ** * ** * *

* * *

* *

positieve

samenhang

september 1999 SPSS-cursus Statistiek 55

Samenhang interval

leeftijd

waardeer * * * *

* * * * *

* * * * * * * **

* * ** * ** * * *

* * * * *

* * *

geen

samenhang

september 1999 SPSS-cursus Statistiek 56

Samenhang• Bij geen samenhang: correlatie = 0

• Perfect positief = + 1

• Perfect negatief = - 1

• Significantie bepalen, H0: = 0

• R ook ‘sterktemaat’

september 1999 SPSS-cursus Statistiek 57

Samenhang

• interval - interval Pearson (‘product-moment’)

• interval - ordinaal Spearman * (rangorde)

• ordinaal - ordinaal Spearman *• nominaal - nominaal Chi2

* of Kendall tau

september 1999 SPSS-cursus Statistiek 58

Samenhang

• als variabele verschillend niveauis laagste bepalend

59SPSS-cursus Statistiekseptember 1999

Start SPSS

september 1999 SPSS-cursus Statistiek 60

Chi2

GESLACHT by OPLEID

OPLEID

Row 1 2 3 TotalGESLACHT 1 18 8 1 27

66,7 29,6 3,7 58,7

2 7 9 3 19

36,8 47,4 15,8 41,3

Column 25 17 4 46

Total 54,3 37,0 8,7 100,0

september 1999 SPSS-cursus Statistiek 61

Chi2

Chi-Square Value DF Sign.

Pearson 4,64810 2 ,09788

Likelihood Ratio 4,71664 2 ,09458

Mantel-Haenszel test for 4,54068 1 ,03310

linear association

Minimum Expected Frequency - 1,652

Cells with Expected Frequency <5- 2 OF 6(33,3%)

Number of Missing Observations: 0

september 1999 SPSS-cursus Statistiek 62

Chi2

• Ho: geen relatie geslacht - opleid

• dan verdeling opleid man = vrouw= totaal= 54,3 - 37,0 - 8,7 (verwachting)

• vergelijk gevonden verdelingen

66,7 - 29,6 - 3,7 resp.

36,8 - 47,4 - 15,8

hiermee

september 1999 SPSS-cursus Statistiek 63

Chi2

• (grote) verschillen leiden tot verwerpen H0

• Maat: Pearson Sign. 0.09788

• NS op niveau 0,05

• ‘Eis’ omdat uitkomsten (aantallen) discreet en Chi2 continu, is voor goede benadering nodig: max. 20% cellen verwachting <5

september 1999 SPSS-cursus Statistiek 64

Chi2

• In dit geval 33,3 % cellen te klein.

• Dan codes samenvoegen, bijv. opleid laag / midden+hoog

september 1999 SPSS-cursus Statistiek 65

aantal successen N=10, p=0,5

109876543210

ka

ns

,5

,4

,3

,2

,1

0,0

Staafdiagram: aantallen van categorieën

hoogte = aantal

Kans aantal munt, N=10

Histogram: aantallen in klassen

oppervlakte = aantal

Leeftijdsverdeling

LEEFTIJD

80,070,060,050,040,030,020,0

20

10

0

Std. Dev = 12,01

Mean = 36,7

N = 49,00

september 1999 SPSS-cursus Statistiek 66

LEEFTIJD

70605040302010

WA

AR

DE

ER

10

9

8

7

6

5

4

3

2

Scatterplot leeftijd - waardering

september 1999 SPSS-cursus Statistiek 67

Binomiale verdeling

Uitkomst is Succes (vrouw > 60) of niet

Binomiale verdeling

N pogingen N = 100

X Successen X = 12

Succeskans p = X/N = 0,12

SD = (p*(1-p)/N) ½ = (0,12*0,88/100) ½

= 0,0325

september 1999 SPSS-cursus Statistiek 68

Kans op x successen

Uitkomst is Succes of niet

Binomiale verdeling

Succeskans = p

N pogingen

Kans dat x van N succes zijn

september 1999 SPSS-cursus Statistiek 69

Binomiale verdelingN=10, p=0,5

x kans

0 ,0009751 ,0097502 ,0439003 ,1170004 ,2047505 ,2457006 ,2047507 ,1170008 ,0439009 ,00975010 ,000975

Kansverdeling

H0

Ha

september 1999 SPSS-cursus Statistiek 70

aantal successen N=10, p=0,5

109876543210

ka

ns

,5

,4

,3

,2

,1

0,0

< H0 >< Ha >

Kansverdeling

september 1999 SPSS-cursus Statistiek 71

Formule

P(x=X; p; N) = pX (1-p)N-X

p=0.5

N=10

X=8

N

X

september 1999 SPSS-cursus Statistiek 72

Berekening

= = = 45

0.5 8 = 0.0039

0.5 2 = 0.25

45 * 0.0039 * 0.25 = 0.0439

10

8

10

2

10*9

2* 1

september 1999 SPSS-cursus Statistiek 73

Berekening

= = = 10

0.5 9 = 0.00195

0.5 2 = 0.5

10 * 0.00195 * 0.5 = 0.00975

10

9

10

1

10

1

september 1999 SPSS-cursus Statistiek 74

Berekening

= = 1

0.5 10 = 0.000975

0.5 0 = 1

1 * 0.000975 * 1 = 0.000975

10

10

10

0

september 1999 SPSS-cursus Statistiek 75

Berekening

0.0439 8 *

0.00975 9 *

0.000975 10 *

+

0.00546