Methodologie & Statistiek I

55
1 Methodologie & Statistiek I Toetsen van twee gemiddelden 6. 1

description

Methodologie & Statistiek I. Toetsen van twee gemiddelden. 6.1. U kunt deze presentatie ook op uw eigen PC afspelen!. Gebruikmaken van internet: http://www.stateduc.unimaas.nl. Education Health sciences Presentations of lectures. “op dit moment ……. beschikbaar Opening --- - PowerPoint PPT Presentation

Transcript of Methodologie & Statistiek I

Page 1: Methodologie & Statistiek  I

1

Methodologie &

Statistiek I

Toetsen van twee gemiddelden

6.1

Page 2: Methodologie & Statistiek  I

2

U kunt deze presentatie ook op uw eigen PC afspelen!

Gebruikmaken van internet:http://www.stateduc.unimaas.nl

EducationHealth sciences

Presentations of lectures

“op dit moment ……. beschikbaarOpening---Hoofdstuk 5 (Principes van …)---Powerpointviewer downloaden”

Page 3: Methodologie & Statistiek  I

3

Deze diapresentatie werd vervaardigd door Tjaart Imbos & Michel Janssen van de Capaciteitsgroep Methodologie en Statistiek.

De presentatie mag alleen worden gecopieerd voor eigen gebruik door studenten en medewerkers van de Universiteit Limburg in Maastricht.

Met eventuele op- en aanmerkingen kunt u terecht bij:

Universiteit MaastrichtCapaciteitsgroep M&STjaart ImbosPostbus 6166200 MD Maastricht [email protected]

Page 4: Methodologie & Statistiek  I

4

Methodologie &

Statistiek I

Toetsen van twee gemiddelden

6.1

27 februari 2002

Page 5: Methodologie & Statistiek  I

5

Toetsen van één gemiddelde

Kijken of de steekproef met dat bepaalde gemiddelde redelijkerwijs afkomstigkan zijn uit een populatie met een waarvanin de hypothesen werd uitgegaan.

De vraag was te beantwoorden omdat deverdeling van x-gemiddelden uit deveronderstelde populatie (H0) bekend is. bekend: z-toets niet bekend: t-toets

Page 6: Methodologie & Statistiek  I

6

Hoe extreem is de gevonden steekproefwaardebinnen de verdeling van de toetsingsgrootheid

Page 7: Methodologie & Statistiek  I

7

Toetsen van twee gemiddelden

Toetsen van gemiddelden van twee steekproeven

Page 8: Methodologie & Statistiek  I

8

Er worden twee situaties onderscheiden

1. afhankelijke of gepaarde steekproeven2. onafhankelijke of niet gepaarde steekproeven

Keuze wordt bepaald doorde opzet van het onderzoek

voorbeeld……..

Page 9: Methodologie & Statistiek  I

9

afhankelijke of gepaarde steekproeven

Onderzoek naar het rendement van twee soortenbenzines. Men wil een aantal auto’s op de ene soort en een aantal auto’s op de andere soort laten rijden en de afstand (mijlen) meten die wordt gereden op 1 gallon van de betreffende benzine.

Page 10: Methodologie & Statistiek  I

10

afhankelijke of gepaarde steekproeven

Onderzoek naar het rendement van twee soortenbenzines. Men wil een aantal auto’s op de ene soort en een aantal auto’s op de andere soort laten rijden en de afstand (mijlen) meten die wordt gereden op 1 gallon van de betreffende benzine.

Men realiseert zich op tijd dat het rendement vande auto’s mede afhankelijk is van merk/model en zelfs binnen merk/model kan variëren

oplossing ???

Page 11: Methodologie & Statistiek  I

11

afhankelijke of gepaarde steekproeven

oplossing: Laat tien verschillende auto’s achtereenvolgens op de tweesoorten benzine rijden en ga na of er per auto verschil is in de gereden afstand.

Aan elk element in de steekproef worden twee metingen verricht

Model wordt gebruikt in situaties waar sprake is van een voor- en nameting

Page 12: Methodologie & Statistiek  I

12

Aantal mijlen dat 10 auto’s afleggen op 1 gallon

soort benzineAuto A B1 25.7 24.92 20.0 18.83 28.4 27.74 13.7 13.05 18.8 17.86 12.5 11.37 28.4 27.88 8.1 8.29 23.1 23.110 10.4 9.9

afstand in mijlen,gereden op 1 gallonvan de betreffendebenzine

Page 13: Methodologie & Statistiek  I

13

Aantal mijlen dat 10 auto’s afleggen op 1 gallon

soort benzineAuto A B1 25.7 24.92 20.0 18.83 28.4 27.74 13.7 13.05 18.8 17.86 12.5 11.37 28.4 27.88 8.1 8.29 23.1 23.110 10.4 9.9

Redenering:

Als er geen verschil zouzijn tussen de twee soorten benzines, zou het verschil in gereden mijlen ongeveer gelijk moeten zijn aan 0.

H0: het verschil = 0HA: het verschil > 0

Page 14: Methodologie & Statistiek  I

14

Aantal mijlen dat 10 auto’s afleggen op 1 gallon

soort benzineAuto A B1 25.7 24.92 20.0 18.83 28.4 27.74 13.7 13.05 18.8 17.86 12.5 11.37 28.4 27.88 8.1 8.29 23.1 23.110 10.4 9.9

verschil AB 0.8 1.2 0.7 0.7 1.0 1.2 0.6 0.1 0.0 0.5

Page 15: Methodologie & Statistiek  I

15

Het twee-steekproevenprobleem is daarmeeteruggebracht tot een probleem met een steekproef:

Kan de steekproef (van verschillen)redelijkerwijs afkomstig zijn uit een populatie met = 0 en onbekende

Page 16: Methodologie & Statistiek  I

16

De gemiddelden van alle steekproeven (n=10) uit de populatie met = 0 zijn normaal verdeeldmet verwachtingswaarde=0 en variantie= 2/n

Omdat 2 niet bekend is, wordt des2 van de steekproef als schatter gebruikt.

De beste schatter van de variantie van de verdeling van steekproefgemiddeldenis dan s2/n.

Page 17: Methodologie & Statistiek  I

17

DE TOETS: maak gebruik van het kritieke gebied

1. Formuleer de nul-hypothese2. Stel onbetrouwbaarheid () vast3. Kies de toetsingsgrootheid4. Bepaal de verdeling van de

toetsingsgrootheid5. Bepaal kritieke gebied6. Bereken toetsingsgrootheid t*7. Trek conclusie:

t* ligt in kritieke gebied: H0 verwerpent* ligt niet in kritieke gebied: H0 niet verwerpen

Page 18: Methodologie & Statistiek  I

18

1. Formuleer de H0

2. Stel onbetrouwbaarheid () vast

3. Kies de toetsingsgrootheid

4. Bepaal de verdeling van de

toetsingsgrootheid

5. Bepaal kritieke gebied

6. Bereken

toetsingsgrootheid t*

7. Trek conclusie:

t* in kritieke gebied:

H0 verwerpen

t* niet in kritieke gebied:

H0 niet verwerpen

1. Verwachtingswaarde

verschillen = 0

HA: benzine A levert meer mijlen/gallon

2. Kies is gelijk aan 0.05 (=eenzijdig)

3. Toetsingsgrootheid: d 0

s / nd

4. t* heeft een t-verdeling met 9 vrijheidsgraden

5. t(9,0.95)= 1.833

Kritieke gebied: alle waarden rechts van 1.833

6. t*0 .6 6 0

0 .4 4 3 / 1 04 .7 1

Page 19: Methodologie & Statistiek  I

19

1. Formuleer de H0

2. Stel onbetrouwbaarheid () vast

3. Kies de toetsingsgrootheid

4. Bepaal de verdeling van de

toetsingsgrootheid

5. Bepaal kritieke gebied

6. Bereken

toetsingsgrootheid t*

7. Trek conclusie:

t* in kritieke gebied:

H0 verwerpen

t* niet in kritieke gebied:

H0 niet verwerpen

1. Verwachtingswaarde

verschillen = 0

HA: benzine A levert meer mijlen/gallon

2. Kies is gelijk aan 0.05 (=eenzijdig)

3. Toetsingsgrootheid: d 0

s / nd

4. t* heeft een t-verdeling met 9 vrijheidsgraden

5. t(9,0.95)= 1.833

Kritieke gebied: alle waarden rechts van 1.833

6. t*0 .6 6 0

0 .4 4 3 / 1 04 .7 1

Page 20: Methodologie & Statistiek  I

20

Er werden twee situaties onderscheiden

1. afhankelijke of gepaarde steekproeven2. onafhankelijke of niet gepaarde steekproeven

Keuze wordt bepaald doorde opzet van het onderzoek

voorbeeld……..

Page 21: Methodologie & Statistiek  I

21

onafhankelijke of niet gepaarde steekproeven

Men doet onderzoek naar salarisverschillen tussen enerzijds docenten aan openbare scholen en anderzijds docenten aan privé-scholen.Men neemt een steekproef van de docenten aan de ene schoolsoort en een steekproef van dedocenten aan de andere schoolsoort.

De elementen in de ene steekproef hebben niets van doen met de elementen uit de andere steekproef.

Page 22: Methodologie & Statistiek  I

22

Men doet onderzoek naar salarisverschillen tussen enerzijds docenten aan openbare scholen en anderzijds docenten aan privé-scholen.Men neemt een steekproef van de docenten aan de ene schoolsoort en een steekproef van dedocenten aan de andere schoolsoort.

De elementen in de ene steekproef hebben niets van doen met de elementen uit de andere steekproef.

Er is sprake van twee populaties, met uit elk daarvan een steekproef.

Page 23: Methodologie & Statistiek  I

23

steekproef-2 uit populatie-2: n= 35

x $ 3 3 3 3 5 .2 01 steekproef-1 uit populatie-1: n= 30

x $ 3 5 5 5 8 .9 72

Is het verschil ($ 2223.77)toevallig of niet

Page 24: Methodologie & Statistiek  I

24

Om die vraag te kunnen beantwoordenmoet je kennis hebben van het gedragvan het verschil tussen twee gemiddelden

Net als , is ook een random-variabele

x x - x1 2

Page 25: Methodologie & Statistiek  I

25

Trek uit populatie-1 met 1 en 1

‘alle’ mogelijke steekproeven van n1 stuksen bepaal de gemiddelden

Wat valt er te zeggen over de verdelingvan de steekproefgemiddelden?

Page 26: Methodologie & Statistiek  I

26

Trek uit populatie-1 met 1 en 1

‘alle’ mogelijke steekproeven van n1 stuksen bepaal de gemiddelden

Wat valt er te zeggen over de verdelingvan de steekproefgemiddelden?

De steekproefgemiddelden zijn, bijbenadering, normaal verdeeld metverwachtingswaarde = 1 envariantie =

1/n1

Page 27: Methodologie & Statistiek  I

27

Trek uit populatie-2 met 2 en 2

‘alle’ mogelijke steekproeven van n2 stuksen bepaal de gemiddelden

Wat valt er te zeggen over de verdelingvan de steekproefgemiddelden?

Page 28: Methodologie & Statistiek  I

28

Trek uit populatie-2 met 2 en 2

‘alle’ mogelijke steekproeven van n2 stuksen bepaal de gemiddelden

Wat valt er te zeggen over de verdelingvan de steekproefgemiddelden?

De steekproefgemiddelden zijn, bijbenadering, normaal verdeeld metverwachtingswaarde = 2 envariantie =

2/n2

Page 29: Methodologie & Statistiek  I

29

Geprojecteerd op het voorbeeld:

Het gemiddelde van de steekproef met salarissen van leraren aan openbare scholen is een exemplaar uit de verdeling van de gemiddelden van alle steekproeven metleraarsalarissen aan openbare scholen.

Het gemiddelde van de steekproef met salarissen van leraren aan prive scholen is een exemplaar uit de verdeling van de gemiddelden van alle steekproeven metleraarsalarissen aan prive scholen.

Page 30: Methodologie & Statistiek  I

30

x $ 3 3 3 3 5 .2 0 (n w as 3 0 )11

x $ 3 5 5 5 8 .9 7 (n w as 3 5 )2 2

Het verschil ($ 2223.77) is een exemplaaruit de verdeling van alle verschillen

Zijn exemplaren uit twee verdelingen van x-gemiddelden

( )x - x1 2

Als meer bekend is omtrent de verdelingvan die verschillen is ook aan te gevenhoe waarschijnlijk een bepaald verschil is.

Page 31: Methodologie & Statistiek  I

31

Het verschil van twee verdelingen

Verdeling A: normale verdeling metverwachtingswaarde: A

variantie: 2A

Verdeling B: normale verdeling metverwachtingswaarde: B

variantie: 2B

Verdeling A-B: normale verdeling metverwachtingswaarde: A- B

variantie: 2A+ 2

B

Page 32: Methodologie & Statistiek  I

32

2 5 8

1 4 7

0 3 6

3 6 9

1

2

3

A

B

gemiddelde Agemiddelde Bgemiddelde (A-B)

variantie Avariantie Bvariantie (A-B)

Page 33: Methodologie & Statistiek  I

33

Deze theorie toegepast op het voorbeeld

(v ersch il) (A ) - (B )

( x ) - ( x1 2 )

Vaak stelt men in de H0 dat

( x ) = ( x1 2 )

Page 34: Methodologie & Statistiek  I

34

2 2 2(v ersch il) = (A ) + (B )

Deze theorie toegepast op het voorbeeld

= ( x ) + ( x )21

22

=

n+

n

21

1

22

2

Page 35: Methodologie & Statistiek  I

35

steekproef-2 uit populatie-2: n= 35

x $ 3 3 3 3 5 .2 01 steekproef-1 uit populatie-1: n= 30

x $ 3 5 5 5 8 .9 72

Het voorbeeld van de leraren-salarissen

Ga er van uit dat:1= $ 12925 en 2= $ 14850

Page 36: Methodologie & Statistiek  I

36

DE TOETS: maak gebruik van het kritieke gebied

1. Formuleer de nul-hypothese2. Stel onbetrouwbaarheid () vast3. Kies de toetsingsgrootheid4. Bepaal de verdeling van de

toetsingsgrootheid5. Bepaal kritieke gebied6. Bereken toetsingsgrootheid t*7. Trek conclusie:

t* ligt in kritieke gebied: H0 verwerpent* ligt niet in kritieke gebied: H0 niet verwerpen

stap voor stap……………..

Page 37: Methodologie & Statistiek  I

37

1. Formuleer de Nulhypothese

1 = 2 dus1 – 2= 0

2. Stel onbetrouwbaarheid () vast

1 2

Formuleer de alternatieve hypothese

Onbetrouwbaarheid = 5%

Page 38: Methodologie & Statistiek  I

38

3. Kies de toetsingsgrootheid

x x1 24. Verdeling toetsingsgrootheid

z

x x

n n

* 1 2

1

22

2

( )

1 2

12

Page 39: Methodologie & Statistiek  I

39

5. Bepaal kritieke gebied(in termen van z)

tweezijdige toets= 5%

2.5% 2.5%

-1.96 1.96

Page 40: Methodologie & Statistiek  I

40

6. Bereken toetsingsgrootheid

z

3 01 4 8 5 0

3 5

*2

3 3 3 3 5 2 0 3 5 5 5 8 9 7 0

1 2 9 2 52

. . ( )

2 2 2 3 7 7

3 4 4 5 1 70 6 4 5 5

..

.

Page 41: Methodologie & Statistiek  I

41

De zojuist beschreven situatie, waarbijde varianties van beide populatiesbekend zijn, zal in de praktijk niet zo vaak voorkomen.

Als de populatie-varianties niet bekend zijnvormen de steekproefvarianties de best beschikbare schatters van de populatie-parameters.

Page 42: Methodologie & Statistiek  I

42

Daarbij kunnen twee situaties worden onderscheiden:

1. De onbekende populatie-varianties zijn (ongeveer) gelijk aan elkaar.

2. De onbekende populaties-variantieszijn niet gelijk aan elkaar.

Wanneer op basis van de beschikbaresteekproeven moet worden gekozentussen de twee mogelijkheden, staat een toets ter beschikking: F-toets

Page 43: Methodologie & Statistiek  I

43

1. De onbekende populatie-varianties zijn (ongeveer) gelijk aan elkaar.

Het voorbeeld van de leraren-salarissenwordt gebruikt.

x 3 3 3 3 5 .2 0 s 1 3 1 2 9 .0 9 n1 1 1 3 0

x 3 5 5 5 8 .9 7 s 1 4 9 4 0 .8 8 n2 2 2 3 5

Omdat de populatie-varianties gelijk zijn aan elkaar zijn zowel s1 als s2 schattersvan die populatie-variantie.

Page 44: Methodologie & Statistiek  I

44

De gecombineerde schatter van de variantie(Eng. pooled variance) wordt als volgtberekend.

s(n 1 )s (n 1 )s

(n n 2 )p2 1 1

22 2

2

1 2

s p2

2 9 1 3 1 2 9 0 9 3 4 1 4 9 4 0 8 86 3

2 2. .

s 1 9 9 8 1 9 5 8 0 .3 s 1 4 1 3 5 .7 6p2

p

Page 45: Methodologie & Statistiek  I

45

x x

n n

1 2

1

22

2

( )

1 2

12

Bij bekende varianties was de toetsingsgrootheid

deze was normaal verdeeld

1 en 2 worden vervangen door sp.

De toetsingsgrootheid

x x

s

n

s

n

1 2

p2

1

p2

2

( ) 1 2

deze is t-verdeeldmet n1+n2-2vrijheidsgraden

zie formule 6.7

Page 46: Methodologie & Statistiek  I

46

x x

s

n

s

n

1 2

p2

1

p2

2

( ) .

.

1 2 2 0 0 3 7 7 0

1 4 1 3 5 7 61

3 01

3 5

Toegepast op het salarissen-voorbeeld:

0 63.

Het tabellenboek geeft geen informatie omtrenteen t-verdeling met 63 vrijheidgraden:gebruik de z-verdeling:

Conclusie bij =5% tweezijdig?

Page 47: Methodologie & Statistiek  I

47

Als niet mag worden verondersteld dat1 gelijk is aan 2 (omdat bijvoorbeeld de F-toets die veronderstelling verwerpt)wordt de zaak aanzienlijk moeilijker.

Er zijn diverse oplossingen. Een daarvanwordt in het boek besproken (par. 6.5)

Voor het bepalen van het aantal vrijheidsgraden:zie formule 6.13

Page 48: Methodologie & Statistiek  I

48

Ook als er sprake is van tweeonafhankelijke steekproevenkan op basis van een BETROUWBAARHEIDSINTERVAL worden berekend.

( x x )1 2

Uitgangspunt voorbeeld met bekende varianties.

Page 49: Methodologie & Statistiek  I

49

z

x x

n n

* 1 2

1

22

2

( )

1 2

12

De toetsingsgrootheid was:

Het (100-) betrouwbaarheidsinterval:

( x x ) z ( / 2 )n n1 2

12

1

22

2

Page 50: Methodologie & Statistiek  I

50

Samenvatting toetsen voorgemiddelden van twee steekproeven

1. Twee gepaarde steekproevenherleiden tot een-steekproefprobleem

2. Twee onafhankelijke steekproevena. populatie-varianties bekendb. populatie-varianties onbekend, maar gelijkc. populatie-varianties onbekend en ongelijk

Page 51: Methodologie & Statistiek  I

51

F-toets voor het vergelijken van 2 varianties

H : 0 12 2

2

H : A 12 2

2

De toetsingsgrootheid iss

s o f

s

s12

22

22

12

De grootste variantie komt in de teller!

Page 52: Methodologie & Statistiek  I

52

Onder H0 is het quotient van de variantiesF-verdeeld

Met df(teller) n-1 die hoort bij steekproefmet de grootste variantie

Met df(noemer) n-1 die hoort bij steekproef met de kleinste variantie

voorbeeld…………..

Page 53: Methodologie & Statistiek  I

53

Steekproef-1: s2= 17 en n=5

Steekproef-2: s2= 48 en n=8

Onder H0 is F-verdeeld met (7 en 4) df4 81 7

Uit de F-tabel (7,4)blijkt dat de berekende waarde (= 2.8235)tussen het 75ste (=2.079) en 90ste (=3.979)percentiel ligt.

Op grond van deze waarden wordt H0 dus NIET verworpen!

SPSS: CDF.F(2.8235,7,4) 0.83369

Page 54: Methodologie & Statistiek  I

54

Page 55: Methodologie & Statistiek  I

55