Statistiek II

37
Hoofdstuk 4: Toetsen voor één populatie Vanhoomissen & Valkeneers, hoofdstuk 4 STATISTIEK II

description

Statistiek II. Hoofdstuk 4: Toetsen voor één populatie Vanhoomissen & Valkeneers, hoofdstuk 4. Previously on Statistiek II. - PowerPoint PPT Presentation

Transcript of Statistiek II

Page 1: Statistiek II

Hoofdstuk 4: Toetsen voor één populatie

Vanhoomissen & Valkeneers, hoofdstuk 4

STATISTIEK II

Page 2: Statistiek II

2

• In wetenschappelijk onderzoek vertrekken we vanuit een onderzoeksvraag waaruit wordt afgeleid wat de populatie is en wat de onderzoekseenheden zijn. Om die vraag te beantwoorden verzamelen we data in de vorm van steekproeven omdat de hele populatie vaak moeilijk te onderzoeken is. Die steekproeven worden volgens bepaalde regels getrokken.

• Om via de verzamelde data de onderzoeksvraag te beantwoorden hebben we kansberekeningen nodig: kansen stellen ons in staat om te beslissen of een observatie heel uitzonderlijk is of eerder heel gewoon.

• Om kansen te berekenen maken we gebruik van kansverdelingen: theoretische verdelingen van mogelijke waarden en bijhorende kansen van een variabele. In de psychologie wordt de normale verdeling vaak gebruikt, aangezien veel kenmerken van mensen als normaal verdeeld in de populatie worden beschouwd.

• Omdat voor elk kenmerk een normale verdeling met een ander gemiddelde en standaarddeviatie geldt, is het onmogelijk om voor elke verdeling de exacte kansen te kennen. Daarom herleiden we die normale verdeling naar een standaardnormale verdeling door z-scores te berekenen. Daarna kunnen we de kansen van de z-scores aflezen uit een tabel.

• Bij hypothesetoetsing gebruiken we de steekproevenverdeling van het gemiddelde als kansverdeling. Ook hier zetten we waarden (gemiddelden!) om naar z-scores. We kunnen dan beslissen of ons geobserveerde gemiddelde uitzonderlijk is of niet. Als het uitzonderlijk is – volgens de verdeling die bij H0 hoort – dan verwerpen we H0.

PREVIOUSLY ON STATISTIEK II

Hoofdstuk 4: Toetsen voor 1 populatie

Page 3: Statistiek II

• We zijn nooit helemaal zeker van de juistheid van onze conclusie na hypothesetoetsing: fouten zijn mogelijk, en belangrijk is dat we weten hoe groot de kans is op een fout.

• Bij hypothesetoetsing kan je overschrijdingskansen gebruiken, maar net zo goed kan je de kritieke waarden berekenen die bij de overschrijdingskansen horen.

• Hypotheses kunnen éénzijdig of tweezijdig getoetst worden. Eénzijdig toetsen geeft meer kans op significante resultaten, maar mag enkel toegepast worden als er een duidelijk verantwoorde richting in de hypothese zit.

PREVIOUSLY ON STATISTIEK II

3Hoofdstuk 4: Toetsen voor 1 populatie

Page 4: Statistiek II

Toetsen voor één populatie

Z-toets, T-toets, X²-toets

VANDAAG

Page 5: Statistiek II

5

1. ToetsingssituatieBij welk soort onderzoeksvragen gebruik je deze toets?2. VoorwaardenWanneer mag je deze toets wel/niet gebruiken?3. HypothesenHoe zien H0 en H1 eruit wanneer je deze toets gebruikt?4. ToetsingsgrootheidWelke grootheid bereken je en wat is de kansverdeling van die

grootheid?5. BeslissingsregelsWanneer verwerp je H0: via overschrijdingskansen of kritieke waarden?6. EffectgrootteHoe belangrijk is het gevonden effect?7. RapporterenHoe vermeld je op een juiste manier de resultaten?

STRAMIEN TOETSEN

Hoofdstuk 4: Toetsen voor 1 populatie

Page 6: Statistiek II

6

1. Toetsingssituatie

Heeft het gemiddelde van de populatie waaruit de steekproef afkomstig is een bepaalde waarde of niet?

Vb. Is de gemiddelde IQ score van de populatie van mensen die een training gevolgd hebben meer dan 100?

2. Voorwaarden

σ is bekend en populatie is normaal verdeeld (ook bij kleine N)

σ is niet bekend en/of populatie is niet normaal verdeeld, maar N ≥ 100

Uitleg: als σ niet bekend is maar N ≥ 100 dan mag je s gebruiken

als populatie niet normaal verdeeld is maar N ≥ 100 dan mag je aannemen dat steekproevenverdeling normaal verdeeld is

Z-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 7: Statistiek II

1 2 3 4 5 6 7 8 σ bekend? Ja Ja Ja Nee Nee Ja Nee Nee populatie normaal verdeeld?

Ja Ja Nee ja Nee Nee Ja Nee

n ≥ 100 < 100 ≥ 100 ≥ 100 ≥ 100 < 100 < 100 < 100 Z (σ) Z (σ) Z (σ) Z (s) Z (s) Geen Z Geen Z Geen Z

Z-TOETS VOOR HET GEMIDDELDE

7Hoofdstuk 4: Toetsen voor 1 populatie

Page 8: Statistiek II

8

3. Hypothesen

Linkseenzijdig H0: µ ≥ µ0H1: µ < µ0

Rechtseenzijdig H0: µ ≤ µ0H1: µ > µ0

TweezijdigH0: µ = µ0H1: µ ≠ µ0

µ0 = veronderstelde waarde voor populatiegemiddelde µ

Z-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 9: Statistiek II

4. Toetsingsgrootheid

te vervangen door s indien σ niet gekend is en N ≥ 100

Kansverdeling: Standaardnormale verdeling

Z-TOETS VOOR HET GEMIDDELDE

9

NX

N

XXz

xx

Hoofdstuk 4: Toetsen voor 1 populatie

Page 10: Statistiek II

5. Beslissingsregels

2 mogelijkheden:

a. overschrijdingskansen

b. kritieke waarden

a. H0 verwerpen indien:

Pl (z x) ≤ α? >> linkseenzijdig

Pr (z x) ≤ α? >> rechtseenzijdig

Pd (z x) = 2*Pl (z x) ≤ α? (als X < μ) >> tweezijdig

2*Pr (z x) ≤ α? (als X > μ)

Z-TOETS VOOR HET GEMIDDELDE

10Hoofdstuk 4: Toetsen voor 1 populatie

Page 11: Statistiek II

b. H0 verwerpen indien:

z x ≤ -1.64 >> linkseenzijdig

z x ≥ 1.64 >> rechtseenzijdig

z x ≤ -1.96 (als X < μ) >> tweezijdig

≥ 1.96 (als X > μ)

Telkens bij α = .05 ! Bij een andere α veranderen ook de kritieke waarden!!

Z-TOETS VOOR HET GEMIDDELDE

11Hoofdstuk 4: Toetsen voor 1 populatie

Page 12: Statistiek II

1. Toetsingssituatie

Heeft het gemiddelde van de populatie waaruit de steekproef afkomstig is een bepaalde waarde of niet?

2. Voorwaarden• σ is niet bekend en populatie is normaal verdeeld en N < 100• N > 30 en populatie is niet normaal verdeeld

T-TOETS VOOR HET GEMIDDELDE

12

1 2 3 4 5 6 7 8 σ bekend? Ja Ja Ja Nee Nee Ja Nee Nee populatie N verdeeld? Ja Ja Nee ja Nee Nee Ja Nee n ≥ 100 < 100 ≥ 100 ≥ 100 ≥ 100 < 100 < 100 < 100 Z (σ) Z (σ) Z (σ) Z (s) Z (s) -Geen Z

-Wel t als 30<n<100 -Geen t als n < 30

-Geen Z -Wel t

-Geen Z -Wel t als 30<n<100 -Geen t als n < 30

Hoofdstuk 4: Toetsen voor 1 populatie

Page 13: Statistiek II

13

3. Hypothesen

Linkseenzijdig H0: µ ≥ µ0H1: µ < µ0

Rechtseenzijdig H0: µ ≤ µ0H1: µ > µ0

TweezijdigH0: µ = µ0H1: µ ≠ µ0

µ0 = veronderstelde waarde voor populatiegemiddelde µ

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 14: Statistiek II

4. Toetsingsgrootheid

cfr. Z-toets maar s ipv σ

Kansverdeling: Student t-verdeling

Vrijheidsgraden: df = N-1

T-TOETS VOOR HET GEMIDDELDE

14

Ns

X

N

sX

tx00

Hoofdstuk 4: Toetsen voor 1 populatie

Page 15: Statistiek II

Student t-verdeling

Lijkt sterk op de normale verdeling

- Symmetrisch

- Gemiddelde = 0

- Bij oneindig grote steekproef identiek

Verschillen:

- Iets platter, dikkere staarten

- Bepaald door grootte steekproef

-> Meerdere t-verdelingen: parameter df

T-TOETS VOOR HET GEMIDDELDE

15

William Gosset, zichtbaar tevreden met het ontdekken van de t-verdeling

Hoofdstuk 4: Toetsen voor 1 populatie

Page 16: Statistiek II

16

Wat zijn vrijheidsgraden?

vrijheidsgraden = df = degrees of freedom= het aantal observaties waarvan de waarden arbitrair kunnen worden bepaald

In deze t-toets: df = N-1

Vb. gemiddelde van 5 getallen is 10 -> hoeveel getallen mag ik dan vrij kiezen?

Als ik 4 getallen arbitrair kies (bv. 5,11,3,8) dan ligt het 5e getal namelijk vast (nl. 23) opdat er een gemiddelde van 10 zou zijn

Dus we hebben 5-1 of 4 vrijheidsgraden

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 17: Statistiek II

17

Vrijheidsgraden in de t-toets:

Bij een t-toets gebruiken we s als schatter voor σs = een afwijkingsscore:

We weten dat het gemiddelde van afwijkingsscores altijd 0 is.

Dus: als we met n (vb. 5) afwijkingsscores werken en het gemiddelde ligt vast nl. 0, dan kunnen we N-1 (vb. 4) afwijkingsscores vrij kiezen.

Als de steekproefgrootte N is, dan is de t-verdeling voor het gemiddelde

gebaseerd op N-1 vrijheidsgraden

T-TOETS VOOR HET GEMIDDELDE

1

)²(²

N

XXs i

1

)²(

N

XXs

i

Hoofdstuk 4: Toetsen voor 1 populatie

Page 18: Statistiek II

5. Beslissingsregels

a. overschrijdingskansen - H0 verwerpen indien:

Pl (t x) ≤ α? >> linkseenzijdig

Pr (t x) ≤ α? >> rechtseenzijdig

Pd (t x) = 2*Pl (t x) ≤ α? (als X < μ) >> tweezijdig

2*Pr (t x) ≤ α? (als X > μ)

T-TOETS VOOR HET GEMIDDELDE

18Hoofdstuk 4: Toetsen voor 1 populatie

Page 19: Statistiek II

19

Rechtseenzijdig toetsenH0: µ ≤ 100 x = 102.93 sx = 12.36 n = 29H1: µ > 100 t x = 102.93 – 100 √29 = 1.28

12.36

df = 28P r = 0.11t x = 1.28

-> is P r (t x) ≤ α?ja: verwerp H0 neen: verwerp H0 niet

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 20: Statistiek II

Probleem met overschrijdingskansen: Er zijn net zoveel t-verdelingen als er vrijheidsgraden zijn. Dan zouden er oneindig veel tabellen met overschrijdingskansen beschikbaar moeten zijn.

-> toetsen met kritieke waarden

T-TOETS VOOR HET GEMIDDELDE

20Hoofdstuk 4: Toetsen voor 1 populatie

Page 21: Statistiek II

21

b. Toetsen met kritieke waarden

-> t waarde opzoeken die hoort bij significantieniveau α

-> Tabel kritieke waarden van de t-verdeling in bijlage 1

Rechtseenzijdig toetsen

bij α = 0.05 en df = 28 -> rechter kritieke waarde = 1.701

df = 28

P r = 0.05

t = 1.701

-> t x ≥ 1.701 ?

ja: verwerp H0

neen: verwerp H0 niet

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 22: Statistiek II

Onderzoekshypothese: vaders van grote gezinnen vinden van zichzelf dat ze geen gemiddelde intelligentie hebben. In de populatie is schatting van IQ normaal verdeeld met µ = 100. De onderzoeker laat 29 vaders in grote gezinnen hun IQ schatten.

Resultaat in deze steekproef: X = 102.93 en s = 12.36

1. Hoe zien H0 en H1 eruit?

H0: µ = 100

H1: µ ≠ 100

2. Welke toetsingsgrootheid?

σ is onbekend, populatie is normaal verdeeld, N < 100 -> t-toets

T-TOETS VOOR HET GEMIDDELDE

22Hoofdstuk 4: Toetsen voor 1 populatie

Page 23: Statistiek II

3. t score berekenen

4. Kritieke t waarde opzoeken in tabel

-> df = 29-1 = 28 en α = 0.05 en 2-zijdig

-> 2.048

T-TOETS VOOR HET GEMIDDELDE

23

28.12936.12

10093.102

N

s

µXt

xx

Hoofdstuk 4: Toetsen voor 1 populatie

Page 24: Statistiek II

24

5. t score vergelijken met kritieke t score

1.28 < 2.048 dus H0 niet verwerpen

-2.048 2.048

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 25: Statistiek II

25

• Opmerking: SPSS gaat ervan uit dat σ niet gekend is en voert steeds een t-toets uit (dus ook in situaties waar een Z-toets toegelaten is)

• Maar: de overschrijdingskansen bij een t-toets zijn groter dan bij een z-toets (zie ook dikkere staarten in t-verdeling in vergelijking met z-verdeling)

• Gevolg: H0 zal minder snel verworpen worden bij een t-toets in vergelijking met een z-toets:1-β (P om H0 terecht te verwerpen - onderscheidingsvermogen) neemt af

• We krijgen dus minder snel een significant resultaat bij een t-toets in vergelijking met een z-toets. Daarom eventueel manuele Z-toets gebruiken als aan de voorwaarden is voldaan.

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 26: Statistiek II

26

• Demo SPSS: metalfans en haarlengte

• Hebben metalfans langere haren dan de gemiddelde volwassene?

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 27: Statistiek II

27

6. Effectgrootte

7. Rapporteren

Om na te gaan of metalfans langere haren hebben dan de algemene bevolking werd een one sample t-test uitgevoerd. Gemiddeld hadden de metalfans uit de steekproef langere haren (M = 9.83, SD = 2.62) dan de referentiewaarde 8.9 uit de populatie, t(59) = 2.739, p = .008, r = .34.

T-TOETS VOOR HET GEMIDDELDE

Hoofdstuk 4: Toetsen voor 1 populatie

Page 28: Statistiek II

Wat als niet voldaan is aan voorwaarden voor parametrisch toetsen bij bestuderen van 1 populatie?

• variabele niet normaal verdeeld in populatie?• steekproef < 30 ?• geen intervalvariabele?

χ²-toets voor frequenties

Χ²-TOETS VOOR FREQUENTIES

28Hoofdstuk 4: Toetsen voor 1 populatie

Page 29: Statistiek II

1. Toetsingssituatie Stemmen de geobserveerde frequenties in de steekproef overeen met

de verwachte frequenties op basis van normen of eerder onderzoek? Vb. Stemmen de frequenties leerlingen die lezen op niveau AVI-2, AVI-

3, AVI-4 en AVI-5 in het tweede leerjaar van een bepaalde school overeen met de frequenties van deze leesniveaus in de algemene bevolking?

2. Voorwaarden• de categorieën waarvan de frequenties bestudeerd worden moeten

elkaar uitsluiten. • 20% of minder van de categorieën heeft een verwachte frequentie

kleiner dan 5;• geen enkele categorie heeft een verwachte frequentie van minder

dan 1;• ordinale variabelen worden beschouwd als nominale variabelen.

Χ²-TOETS VOOR FREQUENTIES

29Hoofdstuk 4: Toetsen voor 1 populatie

Page 30: Statistiek II

3. Hypothesen

Enkel tweezijdig!

H0: π1 = π2 = … = πk

H1: niet H0

Of

H0: π1 = πA ; π2 = πB ; … ; πk = πK

H1: niet H0

Χ²-TOETS VOOR FREQUENTIES

30Hoofdstuk 4: Toetsen voor 1 populatie

Page 31: Statistiek II

4. Toetsingsgrootheid

met df = k – 1

fo = geobserveerde frequenties

fe = verwachte frequenties

k = aantal categorieën

Χ²-TOETS VOOR FREQUENTIES

31Hoofdstuk 4: Toetsen voor 1 populatie

Page 32: Statistiek II

5. Beslissingsregels

a. overschrijdingskansen

maar χ²-verdeling afhankelijk van df, dus teveel mogelijkheden om te tabelleren, daarom:

b. kritieke waarden

Χ²-TOETS VOOR FREQUENTIES

32Hoofdstuk 4: Toetsen voor 1 populatie

Page 33: Statistiek II

6. Effectgrootte (phi)

(interpreteerbaar zoals r)

7. Rapporteren

Verwachte en geobserveerde proportie, X², df, p-waarde.

Χ²-TOETS VOOR FREQUENTIES

33Hoofdstuk 4: Toetsen voor 1 populatie

Page 34: Statistiek II

Klas 2e leerjaar: 9 van 26 leerlingen lezen op niveau AVI-5. Ongewoon veel? Meer dan verwacht?

Verwachte frequentie = 23% of 6/26

Geobserveerde frequentie = 35% of 9/26

Verschil groot genoeg om van significantie te spreken?

Hypotheses: H0: πminder dan AVI-5 = 20 ; πAVI-5 of meer = 6 en H1: niet H0

Χ²-TOETS VOOR FREQUENTIES

34Hoofdstuk 4: Toetsen voor 1 populatie

Page 35: Statistiek II

Hypotheses:

H0: πminder dan AVI-5 = 20 ; πAVI-5 of meer = 6 en H1: niet H0

Toetsingsgrootheid:

Beslissen:

Is 1.95 groter dan kritieke waarde? tabel kritieke X²-waarden

kritieke waarde bij α = .05 en df = 1 is gelijk aan 3.84.

Aangezien 1.95 < 3.84 wordt H0 niet verworpen.

Χ²-TOETS VOOR FREQUENTIES

35Hoofdstuk 4: Toetsen voor 1 populatie

Page 36: Statistiek II

36

• Demo SPSS: voorkeur vrijetijdsactiviteit bij senioren.

• Een gemoedelijke Duitse gemeente wil in het kader van de budgettering voor recreatie weten of de senioren in de gemeente een uitgesproken voorkeur hebben voor een bepaalde vrijetijdsactiviteit. Een steekproef van senioren wordt gevraagd een keuze te maken tussen wandelen, fietsen of rotsklimmen.

Χ²-TOETS VOOR FREQUENTIES

Hoofdstuk 4: Toetsen voor 1 populatie

Page 37: Statistiek II

interval/ordinaal

nominaal

1

nominaal

> 1

1

one sample t-test /z-test1

2

> 2

interval/ordinaal

onafh.

onafh.

onafh.

afh.

afh.

independent t-test / z-test

dependent t-test

one way ANOVA

repeated measures ANOVA

Pearson correlation

nominaal

interval

gemengd

afh.

gemengd

n-way ANOVA

repeated measures ANOVA

mixed design ANOVA

multiple regression

Pearson chi-square

multiple regression

nominaal/ ordinaal

onafh.

type AV? aantal OV? type OV? hoeveel populaties?

categorieën afhankelijk?

parametrisch non-parametrisch

Rank-sum

Signed-ranks

Kruskal-Wallis

Friedman’s ANOVA

Spearman correlation

niet in dit boek chi-square goodness of fit

1

≥ 2

chi-square goodness of fitonafh.