Correlatietoetsen

19
1 Correlatietoetsen Toetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen. Vb. afhankelijkheid tussen ‘succeskans ope-ratie’ en ‘chirurg’. Toetsen op correlatie tussen ordinale variabelen: toets mbv steekproefcorrelatieco-efficiënt of Spearman correlatietoets. Vb.1 Verband tussen leeftijd (niet stochas-tisch!) en bloeddruk. Vb.2 Verband tussen levensduur van familieleden (gem. kinderen vs gem. ouders)

description

Correlatietoetsen. Toetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen. Vb. afhankelijkheid tussen ‘succeskans ope-ratie’ en ‘chirurg’. - PowerPoint PPT Presentation

Transcript of Correlatietoetsen

Page 1: Correlatietoetsen

1

CorrelatietoetsenToetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen.

Vb. afhankelijkheid tussen ‘succeskans ope-ratie’ en ‘chirurg’.

Toetsen op correlatie tussen ordinale variabelen: toets mbv steekproefcorrelatieco-efficiënt of Spearman correlatietoets.

Vb.1 Verband tussen leeftijd (niet stochas-tisch!) en bloeddruk.

Vb.2 Verband tussen levensduur van familieleden (gem. kinderen vs gem. ouders)

Page 2: Correlatietoetsen

2

Lineaire correlatieTwee stochasten: X en Y (bijv. lengte en gewicht).

Aanname: Y en X zijn bivariaat normaal verdeeld met correlatiecoëfficiënt

H0: = 0 vs. H1: 0.

De steekproefcorrelatiecoëfficiënt is een schatter voor (zie week 4):

Deze vormt de basis van de toetsingsgroot-heid (Stat. Comp., pag. 29):

n

i

n

iii

i

n

ii

YX YYXX

YYXX

SS

voCR

1 1

22

1

22

)()(

)()(ˆ

221

2

R

nRTn

Page 3: Correlatietoetsen

3

Lineaire correlatieVerwerp H0 als de realisatie van

genaamd tn-2, groter is dan t/2,n-2 of kleiner dan - t/2,n-2.

De toets kan ook gebruikt worden als een van de variabelen niet stochastisch is (bijv. ‘tijd’).

Dan aanname: Y = ax + b + , met : een normaal verdeelde fout. Lineair model.

Hypotheses: H0: a = 0 en H1: a 0.

De steekproefcorrelatiecoëfficiënt R wordt dan berekend met dezelfde formule en de tgh is ook hetzelfde.

,1

222

R

nRTn

Page 4: Correlatietoetsen

4

RangcorrelatieWat als verband nirt-lineair is? Of geen normaliteit?

We willen in meer algemene zin kunnen toetsen op correlatie.

Ook nu biedt een verdelingsvrije toets een uitweg: de Spearman rangcorrelatie toets.

Vb. Verband tussen sterkte en microscopi-sche eigenschap van materiaal: # verontrei-nigingen per mm3. # ver. Sterkte

10 1.1680523 0.7823128 3.29981645 3.8572760 2.821685

100 3.460358167 2.936533234 3.133143278 3.669625456 4.45353529 3.250867

Page 5: Correlatietoetsen

5

Rangcorrelatie

Verband in ieder geval niet lineair.

Stap 1: toekennen van rangen per variabele.# ver. Sterkte Rang_X Rang_Y

10 1.16805 1 223 0.78231 2 128 3.299816 3 745 3.85727 4 1060 2.821685 5 3

100 3.460358 6 8167 2.936533 7 4234 3.133143 8 5278 3.669625 9 9456 4.45353 10 11529 3.250867 11 6710 7.277576 12 12

0

1

2

3

4

5

0 100 200 300 400 500

# verontreinigingen

Ste

rkte

Page 6: Correlatietoetsen

6

RangcorrelatieStap 2: som van kwadraten van verschil tussen rangen:

Stap 3: bereken de Spearman correlatie-coëfficiënt:

Hier rS = 0.66.

Stap 4: Vergelijk rS met kritieke waarde uit tabel 10.22 Stat. Compendium.

# ver. Sterkte Rang_X Rang_Y (verschil) 2̂10 1.16805 1 2 123 0.78231 2 1 128 3.299816 3 7 1645 3.85727 4 10 3660 2.821685 5 3 4

100 3.460358 6 8 4167 2.936533 7 4 9234 3.133143 8 5 9278 3.669625 9 9 0456 4.45353 10 11 1529 3.250867 11 6 16710 7.277576 12 12 0

Sum = 97

12

1iidD

nn

DrS

3

61

Page 7: Correlatietoetsen

7

RangcorrelatieHier rS = 0.66.

Stap 4: Vergelijk rS met kritieke waarde uit tabel 10.22 Stat. Compendium.

Hier toetsen we tweezijdig bij = 0.05. Rechterkritieke waarde is gelijk aan 0.56. Linkerkritieke waarde is gelijk aan –0.56.

rS = 0.66 > 0.56 dus H0: ‘geen rangcorrelatie’ verwerpen.

Er geldt: -1 rS 1. Dus, rS ook een schatter van de correlatiecoëfficiënt.

Kritieke waarden alleen in tabel voor n 15. Voor grotere steekproeven:

bij benadering tn –2 verdeeld is.

21

2

S

S

r

nr

Page 8: Correlatietoetsen

8

Samenvatting BiostatistiekWeek 1 t/m 4: Kansrekening

Week 5 t/m 9: Statistiek

Nadruk op begrip, niet op het kennen van formules. In principe zullen alle formules, behalve de zeer basale, gegeven worden of in het Stat. Comp. staan.

Belangrijkste van alles: wanneer heb ik wat nodig en hoe werkt het?

Page 9: Correlatietoetsen

9

Week 1• Begrippen als gebeurtenis, uitkomsten-ruimte, stochast, kans

• Basis kansrekening: rekenen met doorsnede (‘A B’) en vereniging (‘A B’, en/of)

• Disjunct (‘mutually exclusive’) en onafhankelijk

• ‘1-’ regel mbv complement.

• Totale kansregel

• Voorwaardelijke kans

• Stelling van Bayes

Page 10: Correlatietoetsen

10

Week 2• Discrete stochasten

• Begrippen: kansdichtheidsfunctie f, cumualtieve verdelingsfunctie, F, verwach-ting en variantie

• Kansverdelingen: Poisson, Bernoulli, Binomiaal, Uniform

• Wat betekenen deze verdelingen en wanneer gebruik je ze?

• Combineren stof week 1 en 2.

Page 11: Correlatietoetsen

11

Week 3•Continue kansverdelingen

• Rekenen met varianties en verwachtings-waarden

•Verschillende verdelingen ihb Normale Verdeling

• Belang van normale verdeling: centrale limiet stelling

• Normaal als benadering voor binomiaal en Poisson

• Exponentiële verdeling en verband met de Poisson verdeling

Page 12: Correlatietoetsen

12

Week 4• Simultane kansdichtheden

• Marginale kansdichtheid

• Wat betekent onafhankelijkheid?

• Associatie tussen kwantitatieve variabelen (covariantie, correlatie)

• Bivariaat normaal

• Plotjes van data: normal probability plot, Box-and-Whisker plot, Histogram

• Schatters, eigenschappen: (on)zuiverheid, variantie van een schatter.

•Verschillende schatters

Page 13: Correlatietoetsen

13

Week 5• Betrouwbaarheidsintervallen: wat betekenen ze?

• Eenzijdige betrouwbaarheidsgrens: wat betekenen het?

• Geldt altijd voor een populatieparameter zoals ,, p.

• Wanneer gebruik je welk interval?

• Wat gebeurt er met de breedte van het b.i. als

afneemt?

–steekproefomvang n toeneemt?

Page 14: Correlatietoetsen

14

Week 6• Eenzijdige betrouwbaarheidsgrens berekenen mbv formule tweezijdige.

• Steekproefgroottebepaling om nauwkeurig-heid (breedte b.i.) te garanderen

• Toetsen: stappenplan.

• Wanneer welke toets?

• Hypothese opstellen: eenzijdig / tweezijdig

• Wat betekent verwerpen / niet-verwerpen H0

• Connectie b.i.-en toetsen

Page 15: Correlatietoetsen

15

Week 7• Interpretatie computeroutput kan getentamineerd worden. Begrijp p-waarden. Van tweezijdig naar eenzijdig.

• Type I fout: en type II fout . Onderscheidingsvermogen: 1- . Power-curves: Statgraphics uitvoer.

• Steekproefgroottebepaling: OC-curves. Variantie bekend of niet? Specificatie is vaak: 1- moet gelijk zijn aan 0.9 (o.i.d.), curves werken juist met langs de Y-as, dus zoek op bij 0.10.

• Formules voor ‘d’ (OC-curves) hoef je niet te kennen.

•Aanpassingstoets: parameter schatten, verwachte frequenties berekenen, < 3: klas-ses samenvoegen, vrijheidsgraden

Page 16: Correlatietoetsen

16

Week 8• Afhankelijkheidstabellen: verband tussen twee variabelen waarvan er minimaal één nominaal (dwz geen logische ordening) is.

• Belangrijkste: begrijp hoe je verwachte frequenties kunt berekenen uit de rij- en kolomtotalen.

• Verdelingsvrije toetsen: Wilcoxon rangsom toets (ongepaarde data) en Wilcoxon rangtekentoets (gepaard of één steekproef)

• Rangsom: som van rangen kleinste steekproef

• Rangtekentoets: som van rangen behorend bij positieve (verschil)waarnemingen

•Tabellen geven tweezijdige kritieke waarden

Page 17: Correlatietoetsen

17

Week 9• Toetsen op correlatie tussen ordinale variabelen

• Lineair verband en normale verdelingen: toets mbv steekproefcorrelatiecoëfficiënt

• Normale verdeling kan niet worden aangenomen of lineair verband is niet te verwachten (maar verband is wel monotoon): Spearman rangcorrelatie toets.

•Controle: maak een plaatje waarbij je de variabelen tegen elkaar uitzet. Hieraan kun je vaak al redelijk zien of een lineair verband redelijk is of niet.

Page 18: Correlatietoetsen

18

Tentamentips• Maak veel opgaven. Extra opgaven en oude tentamenopgaven zijn van het juiste niveau.

• Maak de opgaven mbv het Stat. Comp. Laat het boek links liggen.

• Grijp niet te snel naar de uitwerkingen

• Zorg ervoor dat je ook de tabellen uit het Stat. Comp. goed begrijpt.

• Structureer je aanpak. Geef duidelijk aan welke stochast behoort bij de omschrijving in de opgave.

Bijv. X = lengte, Y = gemiddelde hartslag, T = t-toetsingsgrootheid. De waarde van zo’n stochast geef je weer met een kleine letter.

Page 19: Correlatietoetsen

19

Tentamentips• Formuleer kort en bondig. Geen lange verhalen.

• Rekenmachine: schrijf op welke formule je hebt gebruikt. Zo kun je bij verkeerd ‘invoeren’ toch punten krijgen.

• Geef geen dubbele antwoorden op het tentamen.

• Zeer belangrijk: controleer je eigen ant-woord! Kans altijd tussen 0 en 1, variantie/sd moet altijd positief zijn, etc. Schrijf het er evt. bij wanneer je beseft dat je antwoord niet (kan) kloppen, bijv. door rekenfout.