Correlatietoetsen
description
Transcript of Correlatietoetsen
1
CorrelatietoetsenToetsen op afhankelijkheid tussen variabelen waarvan minimaal een van de twee niet ordinaal is: afhankelijkheidstabellen.
Vb. afhankelijkheid tussen ‘succeskans ope-ratie’ en ‘chirurg’.
Toetsen op correlatie tussen ordinale variabelen: toets mbv steekproefcorrelatieco-efficiënt of Spearman correlatietoets.
Vb.1 Verband tussen leeftijd (niet stochas-tisch!) en bloeddruk.
Vb.2 Verband tussen levensduur van familieleden (gem. kinderen vs gem. ouders)
2
Lineaire correlatieTwee stochasten: X en Y (bijv. lengte en gewicht).
Aanname: Y en X zijn bivariaat normaal verdeeld met correlatiecoëfficiënt
H0: = 0 vs. H1: 0.
De steekproefcorrelatiecoëfficiënt is een schatter voor (zie week 4):
Deze vormt de basis van de toetsingsgroot-heid (Stat. Comp., pag. 29):
n
i
n
iii
i
n
ii
YX YYXX
YYXX
SS
voCR
1 1
22
1
22
)()(
)()(ˆ
221
2
R
nRTn
3
Lineaire correlatieVerwerp H0 als de realisatie van
genaamd tn-2, groter is dan t/2,n-2 of kleiner dan - t/2,n-2.
De toets kan ook gebruikt worden als een van de variabelen niet stochastisch is (bijv. ‘tijd’).
Dan aanname: Y = ax + b + , met : een normaal verdeelde fout. Lineair model.
Hypotheses: H0: a = 0 en H1: a 0.
De steekproefcorrelatiecoëfficiënt R wordt dan berekend met dezelfde formule en de tgh is ook hetzelfde.
,1
222
R
nRTn
4
RangcorrelatieWat als verband nirt-lineair is? Of geen normaliteit?
We willen in meer algemene zin kunnen toetsen op correlatie.
Ook nu biedt een verdelingsvrije toets een uitweg: de Spearman rangcorrelatie toets.
Vb. Verband tussen sterkte en microscopi-sche eigenschap van materiaal: # verontrei-nigingen per mm3. # ver. Sterkte
10 1.1680523 0.7823128 3.29981645 3.8572760 2.821685
100 3.460358167 2.936533234 3.133143278 3.669625456 4.45353529 3.250867
5
Rangcorrelatie
Verband in ieder geval niet lineair.
Stap 1: toekennen van rangen per variabele.# ver. Sterkte Rang_X Rang_Y
10 1.16805 1 223 0.78231 2 128 3.299816 3 745 3.85727 4 1060 2.821685 5 3
100 3.460358 6 8167 2.936533 7 4234 3.133143 8 5278 3.669625 9 9456 4.45353 10 11529 3.250867 11 6710 7.277576 12 12
0
1
2
3
4
5
0 100 200 300 400 500
# verontreinigingen
Ste
rkte
6
RangcorrelatieStap 2: som van kwadraten van verschil tussen rangen:
Stap 3: bereken de Spearman correlatie-coëfficiënt:
Hier rS = 0.66.
Stap 4: Vergelijk rS met kritieke waarde uit tabel 10.22 Stat. Compendium.
# ver. Sterkte Rang_X Rang_Y (verschil) 2̂10 1.16805 1 2 123 0.78231 2 1 128 3.299816 3 7 1645 3.85727 4 10 3660 2.821685 5 3 4
100 3.460358 6 8 4167 2.936533 7 4 9234 3.133143 8 5 9278 3.669625 9 9 0456 4.45353 10 11 1529 3.250867 11 6 16710 7.277576 12 12 0
Sum = 97
12
1iidD
nn
DrS
3
61
7
RangcorrelatieHier rS = 0.66.
Stap 4: Vergelijk rS met kritieke waarde uit tabel 10.22 Stat. Compendium.
Hier toetsen we tweezijdig bij = 0.05. Rechterkritieke waarde is gelijk aan 0.56. Linkerkritieke waarde is gelijk aan –0.56.
rS = 0.66 > 0.56 dus H0: ‘geen rangcorrelatie’ verwerpen.
Er geldt: -1 rS 1. Dus, rS ook een schatter van de correlatiecoëfficiënt.
Kritieke waarden alleen in tabel voor n 15. Voor grotere steekproeven:
bij benadering tn –2 verdeeld is.
21
2
S
S
r
nr
8
Samenvatting BiostatistiekWeek 1 t/m 4: Kansrekening
Week 5 t/m 9: Statistiek
Nadruk op begrip, niet op het kennen van formules. In principe zullen alle formules, behalve de zeer basale, gegeven worden of in het Stat. Comp. staan.
Belangrijkste van alles: wanneer heb ik wat nodig en hoe werkt het?
9
Week 1• Begrippen als gebeurtenis, uitkomsten-ruimte, stochast, kans
• Basis kansrekening: rekenen met doorsnede (‘A B’) en vereniging (‘A B’, en/of)
• Disjunct (‘mutually exclusive’) en onafhankelijk
• ‘1-’ regel mbv complement.
• Totale kansregel
• Voorwaardelijke kans
• Stelling van Bayes
10
Week 2• Discrete stochasten
• Begrippen: kansdichtheidsfunctie f, cumualtieve verdelingsfunctie, F, verwach-ting en variantie
• Kansverdelingen: Poisson, Bernoulli, Binomiaal, Uniform
• Wat betekenen deze verdelingen en wanneer gebruik je ze?
• Combineren stof week 1 en 2.
11
Week 3•Continue kansverdelingen
• Rekenen met varianties en verwachtings-waarden
•Verschillende verdelingen ihb Normale Verdeling
• Belang van normale verdeling: centrale limiet stelling
• Normaal als benadering voor binomiaal en Poisson
• Exponentiële verdeling en verband met de Poisson verdeling
12
Week 4• Simultane kansdichtheden
• Marginale kansdichtheid
• Wat betekent onafhankelijkheid?
• Associatie tussen kwantitatieve variabelen (covariantie, correlatie)
• Bivariaat normaal
• Plotjes van data: normal probability plot, Box-and-Whisker plot, Histogram
• Schatters, eigenschappen: (on)zuiverheid, variantie van een schatter.
•Verschillende schatters
13
Week 5• Betrouwbaarheidsintervallen: wat betekenen ze?
• Eenzijdige betrouwbaarheidsgrens: wat betekenen het?
• Geldt altijd voor een populatieparameter zoals ,, p.
• Wanneer gebruik je welk interval?
• Wat gebeurt er met de breedte van het b.i. als
afneemt?
–steekproefomvang n toeneemt?
14
Week 6• Eenzijdige betrouwbaarheidsgrens berekenen mbv formule tweezijdige.
• Steekproefgroottebepaling om nauwkeurig-heid (breedte b.i.) te garanderen
• Toetsen: stappenplan.
• Wanneer welke toets?
• Hypothese opstellen: eenzijdig / tweezijdig
• Wat betekent verwerpen / niet-verwerpen H0
• Connectie b.i.-en toetsen
15
Week 7• Interpretatie computeroutput kan getentamineerd worden. Begrijp p-waarden. Van tweezijdig naar eenzijdig.
• Type I fout: en type II fout . Onderscheidingsvermogen: 1- . Power-curves: Statgraphics uitvoer.
• Steekproefgroottebepaling: OC-curves. Variantie bekend of niet? Specificatie is vaak: 1- moet gelijk zijn aan 0.9 (o.i.d.), curves werken juist met langs de Y-as, dus zoek op bij 0.10.
• Formules voor ‘d’ (OC-curves) hoef je niet te kennen.
•Aanpassingstoets: parameter schatten, verwachte frequenties berekenen, < 3: klas-ses samenvoegen, vrijheidsgraden
16
Week 8• Afhankelijkheidstabellen: verband tussen twee variabelen waarvan er minimaal één nominaal (dwz geen logische ordening) is.
• Belangrijkste: begrijp hoe je verwachte frequenties kunt berekenen uit de rij- en kolomtotalen.
• Verdelingsvrije toetsen: Wilcoxon rangsom toets (ongepaarde data) en Wilcoxon rangtekentoets (gepaard of één steekproef)
• Rangsom: som van rangen kleinste steekproef
• Rangtekentoets: som van rangen behorend bij positieve (verschil)waarnemingen
•Tabellen geven tweezijdige kritieke waarden
17
Week 9• Toetsen op correlatie tussen ordinale variabelen
• Lineair verband en normale verdelingen: toets mbv steekproefcorrelatiecoëfficiënt
• Normale verdeling kan niet worden aangenomen of lineair verband is niet te verwachten (maar verband is wel monotoon): Spearman rangcorrelatie toets.
•Controle: maak een plaatje waarbij je de variabelen tegen elkaar uitzet. Hieraan kun je vaak al redelijk zien of een lineair verband redelijk is of niet.
18
Tentamentips• Maak veel opgaven. Extra opgaven en oude tentamenopgaven zijn van het juiste niveau.
• Maak de opgaven mbv het Stat. Comp. Laat het boek links liggen.
• Grijp niet te snel naar de uitwerkingen
• Zorg ervoor dat je ook de tabellen uit het Stat. Comp. goed begrijpt.
• Structureer je aanpak. Geef duidelijk aan welke stochast behoort bij de omschrijving in de opgave.
Bijv. X = lengte, Y = gemiddelde hartslag, T = t-toetsingsgrootheid. De waarde van zo’n stochast geef je weer met een kleine letter.
19
Tentamentips• Formuleer kort en bondig. Geen lange verhalen.
• Rekenmachine: schrijf op welke formule je hebt gebruikt. Zo kun je bij verkeerd ‘invoeren’ toch punten krijgen.
• Geef geen dubbele antwoorden op het tentamen.
• Zeer belangrijk: controleer je eigen ant-woord! Kans altijd tussen 0 en 1, variantie/sd moet altijd positief zijn, etc. Schrijf het er evt. bij wanneer je beseft dat je antwoord niet (kan) kloppen, bijv. door rekenfout.