Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele...
Transcript of Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele...
SamenvattingStatistiekII(2017)–EllaMattan
1
Inhoudsopgave
Hoofdstuk1:beschrijvendestatistiek 51.1 Prolegomena 5
1.1.1 Statistiek,psychometrie&methodologie 51.1.2 Variabelen 51.1.3 Meetniveaus 51.1.4 Zinvolheid 6
1.2 Ordeningstechnieken 71.3 Grafischevoorstellingen 71.4 Reductietechnieken 7
1.4.1 Centrummaten 71.4.2 Spreidingsmaten 81.4.3 Associatiematen 9
Hoofdstuk2:kansrekenen 112.1 Toevalsvariabelenenkansverdelingen 11
2.1.1 Bewerkingenmetgebeurtenissen 112.1.2 Toevalsvariabele 112.1.3 Kansen 112.1.4 Kansverdeling 122.1.5 Dichtheidsfunctieofdensiteitsfunctie 122.1.6 Bivariatekansverdelingen 122.1.7 Bivariatedichtheidsfunctie 132.1.8 Afhankelijketoevalsvariabelen 132.1.9 Reductietechnieken 142.1.10 Associatietechnieken 142.1.11 Enkelenuttigestellingen 14
2.2 Bijzonderekansverdelingen 152.2.1 Debinomialeverdeling 152.2.2 Denormaleverdeling 162.2.3 Decentralelimietstelling 162.2.4 Dec2-verdeling 162.2.5 DeStudentverdelingoft-verdeling 172.2.6 DeF-verdeling 17
2.3 Desteekproevenverdeling 182.4 Desteekproevenverdelingvansteekproefgemiddelde𝑋 182.5 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑁𝑋2 182.6 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑋2 19
Hoofdstuk3:puntschatting 203.1 Eigenschappenvaneengoedeschatter 203.2 Enkeleschatters 20
Hoofdstuk4:intervalschatting–betrouwbaarheidsintervallen 224.1 Betrouwbaarheidsintervalvoor𝜇𝑋 22
4.1.1 DeverdelingvanXisnormaal 22
SamenvattingStatistiekII(2017)–EllaMattan
2
4.1.2 DeverdelingvanXisnietnormaalofonbekend 234.2 Betrouwbaarheidsintervalvoorhetverschiltussendeverwachtingenintweepopulaties 234.3 Betrouwbaarheidsintervalvoordevariantie𝜎𝑋2 234.4 Anderebetrouwbaarheidsintervallen 24
Hoofdstuk5:destatistischetoetsen 255.1 ZijndestudentenvandeFPPWslimmer? 255.2 Tobeornottobe 255.3 Detoetsingsprocedure 25
5.3.1 Theoretischehypothese 255.3.2 Statistischehypotheseofalternatievehypothese𝐻𝑎 255.3.3 Nulhypothese𝐻0 255.3.4 ToetsingsgrootheidG 265.3.5 Betrouwbaarheid1 − 𝛼enkritiekewaarde(n) 265.3.6 Beslissing 27
5.4 Derelatietussenintervalschattingentoetsing 275.5 Deoverschrijdingskansofp-waarde 275.6 Dekeuzevantoetsingsgrootheid 28
5.6.1 Hettoetsenvaneenhypothesebetreffende𝜇 285.6.2 Hettoetsenvaneenhypothesebetreffende2verwachtingen 285.6.3 Hettoetsenvaneenhypothesebetreffendetweevarianties 29
5.7 Hettoetsenvaneenhypothesebetreffendeeenproportie 305.8 Hettoetsenvandenormaliteit 315.9 Designificantie 315.10 Defouten 315.11 EIGENOVERZICHT 32
Hoofdstuk6:depowerofonderscheidingsvermogen 336.1 Depowerbijhettoetsenvaneenhypothesebetreffendeeenproportie 336.2 Depowerbijhettoetsenvaneenhypothesebetreffendeeenverwachting 346.3 Depowerbijhettoetsenvaneenhypothesebetreffendetweeverwachtingen–afhankelijkesteekproeven 346.4 Depowerbijhettoetsenvaneenhypothesebetreffendetweeverwachtingen–onafhankelijkesteekproeven 346.5 Algemeen 34
Hoofdstuk7:enkelvoudigelineaireregressie 367.1 Inleiding 367.2 Hetlineairmodel–kansrekenen 36
7.2.1 Assumpties 377.2.2 Devoorwaardelijkeverwachting𝐸(𝑌𝑖½𝑋𝑖 = 𝑥𝑖) 387.2.3 DevoorwaardelijkevariantieV(Yi½Xi = xi) 397.2.4 Decorrelatiecoëfficiënt 397.2.5 Afsluiter 39
7.3 Puntschatting(vandeparameters) 397.3.1 Puntschattingvan𝛽1 397.3.2 Puntschattingvan𝛽𝑂 407.3.3 Depredicties 407.3.4 Puntschattingvan𝜎𝜀2 41
SamenvattingStatistiekII(2017)–EllaMattan
3
7.3.5 Puntschattingvan𝜌𝑋𝑌 417.4 Intervalschatting 41
7.4.1 Betrouwbaarheidsintervalvoor𝛽1 417.4.2 Betrouwbaarheidsintervalvoor𝛽0 41
7.5 Toetsing 427.5.1 Toetsenvanhetlineairmodelviadet-verdeling 427.5.2 ToetsenvanhetlineairmodelviadeF-verdeling 43
7.6 Dedeterminatiecoëfficiënt𝑅2 447.7 DeRfunctie‘summary’ 457.8 Depowervandetoetsvan𝐻0: 𝛽1 = 0 467.9 DevaliditeitvandeGauss-Markovassumpties 467.10 Opmerkingm.b.t.softwarepaketten 487.11 Meervoudigelineaireregressie:sneakpreview 48
Hoofdstuk8:variantie-analyseofANOVA 498.1 Inleiding 498.2 Heteffectenmodel 49
8.2.1 Assumpties 508.2.2 Devoorwaardelijkeverwachting𝐸(𝑌𝑖𝑘)𝑜𝑓𝜇𝑖 518.2.3 Devoorwaardelijkevariantie 518.2.4 Identificeerbaarheid 518.2.5 Afsluiter 53
8.3 Puntschatting 538.3.1 Sigma-restrictie 538.3.2 GLM-restrictie 538.3.3 Depredicties 548.3.4 Puntschattingvan𝜎𝜀2 54
8.4 Toetsing 548.4.1 Hetnulmodel 558.4.2 Selectie 55
8.5 Devariantiedecompositie 568.6 DeRfunctie‘aov’ 588.7 Depowervanvariantie-analyse 588.8 DevaliditeitvandeGauss-Markovassumpties 598.9 Nogeenvoorbeeld 598.10 Posthocmeervoudigevergelijkingen 59
8.10.1 Correctievandekansopeenfoutvandeeerstesoort 598.10.2 Correctievandeschattervandevariantie 608.10.3 Voorbeeld 61
8.11 Enkelvoudigevariantie-analysealseenlineairmodel 618.11.1 Effect-coderingenSigma-restrictie 618.11.2 Dummy-coderingenGLM-restrictie 638.11.3 Simpeler 64
8.12 BalancedenunbalancedANOVA 64
Hoofdstuk9:categorischedata-analyse 659.1 Eénpopulatieenééncategorischevariabele 65
9.1.1 Inleidendvoorbeeld 65
SamenvattingStatistiekII(2017)–EllaMattan
4
9.1.2 Samenvatting:Pearson’schi-squaredtoets 659.1.3 Isdedobbelsteenzuiver? 679.1.4 DeRfunctie‘chisq.test’ 679.1.5 Deinvloedvandemaanophetaantalgeboortes 679.1.6 DepowervandePearsonchi-kwadraattoets 67
9.2 Meerderepopulatiesenééncategorischevariabele 689.2.1 Samenvatting 689.2.2 DeRfunctie‘chisq.test’ 699.2.3 Toepassing:invloedvanhetrasophetvonnis 709.2.4 Depower 70
9.3 Afhankelijkheidvantweecategorischevariabelen 709.4 Opmerkingbetreffendedemeetniveaus 70
Ondersteuningssessiesvanhetmonitoraat 70
SamenvattingStatistiekII(2017)–EllaMattan
5
Hoofdstuk1:beschrijvendestatistiek
1.1 Prolegomena
1.1.1 Statistiek,psychometrie&methodologie
Onderzoek-algemeen • Doelonderzoek:antwoordvindenoponderzoeksvragen• Hoe?Dataverzamelenineensteekproef
o Steekproefmoetrepresentatiefzijnvoordepopulatie• Verlooponderzoek:vormingonderzoeksvraagàmethodologieà
psychometrieàstatistiek
Methodologie(taak) • Bepalen hoe de steekproef samengesteld wordt & welk soortonderzoeksdesignhetbesteis
Psychometrie(taak) • Bepalenhoedevariabelenhetbestkunnengemetenworden
Statistiek(taak)
• Adhv verschillende technieken de data analyseren, om op diemaniereenantwoordtekunnengevenopdeonderzoeksvragen
• Soorteno Beschrijvende statistiek: de gegevens van de steekproef
beschrijven,ordenen,presenteren&samenvatteno Inductievestatistiek:deobservatiesvansteekproefniveau
veralgemenennaarpopulatieniveau
1.1.2 Variabelen
Definitie Eenvariabele:eeneigenschapdiebijdeelementenvandepopulatieofdesteekproefvarieert
Numeriek/nietnumeriek • Datisdekeuzevandeonderzoek• Bv.Eigenbeslissingofjegeslachtweergeeftals‘man/vrouw’(niet
numeriek)ofals‘0/1’(numeriek)
Continu/discreet • Continu: tussen elke 2 willekeurige waarden ligt een derdewaarde(oneindigaantalwaarden)
• Discreet:geenoneindigaantalwaarden• Soortvariabeleheefteffectopdemogelijkeanalysetechnieken
o Zelfde analysetechnieken voor discrete variabelenmetenormveelmogelijkhedenalscontinuevariabelen
§ Theoretischgezienmagditeigenlijkniet§ Maarindepraktijkwelerghandig
Notatie • Variabele:hoofdletter• Specifiekewaarneming:kleineletter
1.1.3 Meetniveaus
Vanminstgesofisticeerdnaarmeestgesofisticeerd
Nominaal • Objectenkunnennietgeordendworden
SamenvattingStatistiekII(2017)–EllaMattan
6
• Nochdiscreetnochcontinuo Omtewetenofhetdiscreetisofcontinu,zoujemoetenkijkenof
ertussen2willekeurigevariabeleneenderdevariabeleligt.Maarditkanniet,wantdeobjectenkunnennietgeordendworden
• Bv.Haarkleur,geslacht..
Ordinaal • Jekandeobjectenordenen• Jekangeenmeeteenheiddefiniëren:hetgaatpuuromderangordedus• Discreetofcontinu• Bv. Uitslag van eenwedstrijd,mate van instemmingmet een uitspraak
(Likertschaal)
Interval • Meeteenheid• Geennulpunt• Continu
Ratio • Meeteenheid• Absoluutnulpunt• Continu• Bv.Leeftijd,lengte,gewicht…
Absoluut • Metendoorgewoonhetaantalobjectentetelen• Vastemeeteenheid• Absoluutnulpunt• Discreet• Bv.Gezinsgrootte,klasgrootte,aantalinwoners
Extra opmerkingbijinterval&ratio
• Statistischetechniekenbijinterval&ratiozijndezelfdeo In de praktijk worden interval & ratio samen vaak continue
variabelengenoemdo Theoretischeigenlijkfout,omdatordinalevariabelenookcontinu
kunnenzijn• Nominaal & ordinaal worden samen vaak categorische variabelen
genoemd
1.1.4 Zinvolheid
Zinvolheid • Eenuitspraak is zinvolalsdewaarheidswaardeonafhankelijk isvandemeetschaaldiejegebruikt
• Alsdebeweringcorrectismeteenbepaaldeschaal,blijftdiecorrectalsjeeenandereschaalgebruikt.Alszefoutisindeeneschaal,blijftzefoutineenandereschaal.
• Bv.DegemiddeldeleeftijdvangroepAisgroterdandievangroepB.Dezebeweringkloptalswedeleeftijd in jaaruitdrukken.Diebeweringkloptnogsteedsals jehetuitdrukt inmaandenofeeuwenof seconden.Dusdezeuitspraakiszinvol.
Zinloze beweringenvermijden!
• Voorzichtigzijnmethetmanipulerenvanscores!• Nominaal&ordinaal
o Jemagnietoptellen,vermenigvuldigen,delen..o Geengemiddeldes,varianties,covarianties..
• Intervalo Jemagoptellen&aftrekken
SamenvattingStatistiekII(2017)–EllaMattan
7
o Delen&vermenigvuldigenisriskanto Logaritmesvanscoreszijnverbodeno Jemagwelafwijkingen(Bv.𝑥C − 𝑥)delenenvermenigvuldigen
• Ratioo Bijnageenrestricties
• Absoluuto Geenrestricties
1.2 Ordeningstechnieken
DeR-codevaneenfrequentieverdeling,relatievefrequentieverdelingenbivariatefrequentieverdeling.ZiedocumentR-code.
1.3 Grafischevoorstellingen
Cirkeldiagramofpiechart • Nominaal• R-code:pie(x=c(vectormetdeproporties),labels=c(vectormet
denamenvandecategorieën)
Lijndiagramofstaafdiagramofbarchart
• Discreet• R-code:barplot(waardenvariabele,corresponderende
frequenties)• Rechthoekenrakenelkaarniet
Histogram • Continu• R-code:Hist()• Rbepaaltautomatischzelfdeklassegrenzen
o Alsjedattochzelfwiltdoen:tussenhaakjestoevoegenaanR-code‘breaks=aantalbreaks’
o AlsRtochnietakkoordismetjevoorstel,doethettochzijneigenzin
• Rechthoekenrakenelkaarwel
Spreidingsdiagramofscatterplot
• Voorbivariatefrequentieverdelingenvancontinuevariabelen• R-code: ‘plot(x=descoresvoorhorizontaleas ,y=descores
voorverticaleas)
1.4 Reductietechnieken
1.4.1 Centrummaten
Hetrekenkundiggemiddelde𝑥
Formule𝑥 =
1𝑛
𝑥C
E
CFG
R-code Mean()
SamenvattingStatistiekII(2017)–EllaMattan
8
Eigenschappen • Gevoeligaanoutliers(eerstcheckenofdezeerzijndus)• Nietvoornominaalofordinaal• Welvoorinterval&ratio&absoluut
Mediaan𝑚𝑑J
Eigenschappen • Minstensordinaal• Symbool𝑚𝑑J• Scoresordenenvankleinnaargroot,danhetmiddelstegetalnemen
o Dusdehelftvandescoresisgroterendehelftiskleinerdandemediaan
• Nietgevoeligaanoutliers
Modus
• Descoremetdehoogstefrequentie• Nietgevoeligaanoutliers
1.4.2 Spreidingsmaten
Devariantie𝑠𝑛LM en𝑠LM
Formules𝑠𝑛LM =
1𝑛 𝑥C − 𝑥 M
E
CFG
𝑠LM =1
𝑛 − 1 𝑥C − 𝑥 ME
CFG
Sumofsquaresformule
𝑠𝑛LM =NNOEmet𝑆𝑆L = 𝑥C − 𝑥 ME
CFG
𝑠LM =𝑆𝑆L𝑛 − 1
Eigenschappen • Altijdpositiefof0(wantiseensomvankwadraten)• Moeilijk te interpreteren: jekomtweleengetaluit,maaronmogelijk te
zeggenofditnugrootofkleinis• Gevoeligaanoutliers• Interval,ratioenabsoluutmeetniveau
Destandaarddeviatiesn
Formule 𝑠𝑛 = 𝑠𝑛M 𝑠 = 𝑠MEigenschappen Zelfdealsbijvariantie
Variatiebreedte
• Deafwijkingtussendegrootsteendekleinstescore
SamenvattingStatistiekII(2017)–EllaMattan
9
• Eigenschappeno Interval,ratio&absoluuto Gevoeligaanoutliers
InterkwartielafstandQ
Formule 𝑄 = 𝑃RS − 𝑃MS
Uitlegbijformule:
• P25=percentiel25ofeerstekwartiel,descorewaarvoor25%vandewaarnemingenkleinerzijn
• P75=percentiel75ofderdekwartiel,descorewaarvoor75%vandewaarnemingenkleinerzijn
Eigenschappen • Eensoortgecorrigeerdevariatiebreedte:devariatiebreedtenadatwedeextremescoreshebbenweggelaten
Spreidingsmaatd
Formule𝑑 =
GTUVWX
GTYZ
𝑓[\:frequentievandemodus𝑝:aantalwaarden
Eigenschappen • Ideaalvoornominalevariabelen• Altijdtussen0en1
o 0=allewaardenzijnidentiek,minimalespreidingo 1=elkemogelijkewaardeofklasseheeftdezelfdespreiding,
maximalespreiding
1.4.3 Associatiematen
Decovariantie𝑐𝑜𝑣L`
Formule𝑐𝑜𝑣L` =
1𝑛
(𝑥C − 𝑥)(𝑦C − 𝑦)E
CFG
Eigenschappen • Hettekenvandewaardeno Positievewaarde:stijgendlineairverbando Negatievewaarde:dalendlineairverbando Waarde0:geenlineairverband
• Moeilijkteinterpreteren(wantafhankelijkvandemeeteenheden)• Gevoeligaanoutliers• Interval,ratio,absoluut
SamenvattingStatistiekII(2017)–EllaMattan
10
Correlatiecoëfficiënt𝑟L`
Formule 𝑟L` =𝑐𝑜𝑣L`
𝑠𝑛L ∗ 𝑠𝑛`
Eigenschappen • Vaakbeterdancovariantieomhetlineairverbandtussen2variabelentemeten
• Gestandaardiseerd:tussen-1en1• Gevoeligaanoutliers• Interval,ratio,absoluut
Decorrelatiecoëfficiënt𝜏vanKendall
Formule𝜏L` =
𝑎𝑎𝑛𝑡𝑎𝑙𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛 − 𝑎𝑎𝑛𝑡𝑎𝑙𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛𝑛 𝑛 − 1 /2
Concordant&discordant
• Concordant:positieverico,stijgendelijn• Discordant:negatieverico,dalendelijn
DeregressielijnY
Formule 𝑌 = 𝑏j + 𝑏G ∗ 𝑋
𝑏j = 𝑦C − 𝑏G𝑥C
𝑏G = 𝑟L` ∗𝑠𝑛`𝑠𝑛L
Eigenschappen • Als er een lineair verband is tussen 2 variabelen, kunnen we dezegrafisch representerenviaeen rechte.Het functievoorschrift vandierechteisderegressielijn
• 𝑏j:hetinterceptvanderechte,hetsnijpunttussenderechteendey-as
• 𝑏G:deregressiecoëfficiënt,dericovanvroeger• Wewillen𝑏jen𝑏G zodanigkiezendatonze (theoretische) rechtezo
goed mogelijk past bij de puntenwolk (onze waarnemingen uit depraktijk).
o Manieromdittecontroleren,ofheteffectiefzogoedmogelijkpast:kleinstekwadratenmethode
Kleinstekwadratenmethode
• Formule: 𝑦C − 𝑏j − 𝑏G𝑥C MECFG
o Dezeuitkomstmoetzokleinmogelijkzijn• Logicaerachter:
o Deafwijkingvanderechtetovdepuntenwolk:hetresidu:𝑦C −(𝑏j + 𝑏G𝑥C)
o Weberekenendesomvandegekwadrateerderesiduen
SamenvattingStatistiekII(2017)–EllaMattan
11
Hoofdstuk2:kansrekenen
2.1 Toevalsvariabelenenkansverdelingen
Eentoevalsproces EenproceswaarbijdeuitkomstonvoorspelbaarisBv.Hettrekkenvaneensteekproefuiteenpopulatiebv.HetmetenvanIQ(jekannietvoorspellenhoeveeldezezalzijn)
Eengebeurtenis Eenverzamelingvanmogelijkeuitkomstenvoordattoevalsproces
DezekeregebeurtenisE Deverzamelingvanallemogelijkeuitkomsten.Hetiseengebeurtenisdiezichaltijdvoordoet.
2.1.1 Bewerkingenmetgebeurtenissen
Deunievangebeurtenissen • DeverzamelingvanalleelementendieinAofinBofinbeideliggen
• 𝐴 ∪ 𝐵 = uitkomstenaIa ∈ Aofa ∈ B • " ∪ "=“of“
Dedoorsnedevangebeurtenissen
• DeverzamelingvanalleelementendieinAeninBliggen• 𝐴 ∩ 𝐵 = uitkomstenaIa ∈ Aena ∈ B • ∩=“en“
DecomplementairegebeurtenisA*
• A*isdecomplementairegebeurtenisvanAalsA*zichalleenmaarvoordoetalsAzichnietvoordoet
• Logischerwijs is de complementaire gebeurtenis van decomplementaire gebeurtenis dan weer de oorspronkelijkegebeurtenis
2.1.2 Toevalsvariabele
Toevalsvariabele ofkansveranderlijke
Eenvariabelewaarvandewaardeineentoevalsprocesonvoorspelbaaris
Realisatie Dewaardevaneentoevalsvariabelenoemtmeneenrealisatie
Bv.Eensteekproefvan3personenvoordevariabeleIQ:115,98en107.Die3getallenzijndrierealisatiesvandetoevalsvariabeleIQ
2.1.3 Kansen
Hetbegrip‘kans’ • Dekansvaneengebeurtenis=derelatievefrequentiesvandezegebeurtenisalswehettoevalsproceseindelooszoudenherhalen
• 𝑃 𝐴 = limE→�
��E (met𝑓�defrequentievanA,n=∞)
• Hetiseenrelatievefrequentie:duseengetaltussen0en1
Dekansvandeunievan2gebeurtenissen
P(A∪B)=P(A)+P(B)−P(A∩B)
Afhankelijkheid • Afhankelijk:alsderealisatievandeenedekansvandeandere
SamenvattingStatistiekII(2017)–EllaMattan
12
beïnvloedt• Onafhankelijk:derealisatievandeenebeïnvloedtnietdekans
vandeandere• Voorbeelden,ziesyllabusp.39
Dekansvandedoorsnedevan2gebeurtenissen
• Alsdegebeurtenissenonafhankelijkzijn:P(A∩B)=P(A)*P(B)• Alszeafhankelijkzijn,geldtdezevergelijkingniet
2.1.4 Kansverdeling
Watishet? Eentabelmet2kolommenofrijen.àKolom1:dewaardenàKolom2:dekansenvoordiewaarden
Eigenschappen • Voordiscretetoevalsvariabelen(nietcontinu)• Notatie:P(X=𝑥C)• Zelfde grafische voorstellingen als bij rel.frequentieverdelingen
kunnengebruiktworden(staafdiagram,cirkeldiagram..)
2.1.5 Dichtheidsfunctieofdensiteitsfunctie
Watishet? • Eencurve• Viadeoppervlakteonderdecurvekanjekansenberekenen
o De kans P(a < X ≤ b) = de oppervlakte onder de curvetussenaenb
• Techniekomditteberekenen:integraleno Moetenwenietzelfkunnen,Rkandatberekenenvoorons
Logicaerachter • Alsjeeenkanswiltberekenen:P(X=x)o Doordecontinuïteitisdezekans0o P(X=x)=0vooralleXenallex.
• Oplossingomtochkansentekunnenberekenen:dichtheidsfunctie
Symbool • f(wordtindezecursusgebruikt)• somswordt‘p’ookgebruikt
Eigenschappen • Voorcontinuetoevalsvariabelen• Totaleoppervlakteonderdecurveis1
Overzicht • Algemeen:kansberekeneno Discretevariabelen:kansverdelingeno Continuevariabelen:dichtheidsfuncties
• Indegewonetaalnoemtmenhetalle2‘verdeling’
2.1.6 Bivariatekansverdelingen
Wat? • Eigenlijkgewooneenspecialebivariaterelatievefrequentieverdeling(metn→ ∞)
• Ookeentabel
SamenvattingStatistiekII(2017)–EllaMattan
13
Eigenschappen • Voordiscretevariabelen• Desomvanallekansenis1• AantalmogelijkewaardenvanXenYhoeftnietidentiektezijn
o HetaantalmogelijkewaardenvanX:po HetaantalmogelijkwaardenvanY:q
Marginalekansen • Viaeenbivariatekansverdelingberekenenwatdekansenzijnvooréénvariabele
2.1.7 Bivariatedichtheidsfunctie
• Voorcontinuevariabeleno Dezekunnendoordiecontinuïteitnietineentabelwordenweergegeven
• Voorbeeld:
2.1.8 Afhankelijketoevalsvariabelen
Lijktopafhankelijkegebeurtenissen,watweeerderalhebbengezien(toenopniveauvansteekproef,nuopniveauvanpopulatie)
Discretevariabelen Twee discrete toevalsvariabelen X en Y zijn onafhankelijk als degebeurtenissen“𝑋 = 𝑥C”en“𝑌 = 𝑦�”onafhankelijkzijn,voorallemogelijkecombinatiesvanienj
Indepraktijk:𝑃 𝑋 = 𝑥C𝑒𝑛𝑌 = 𝑦� = 𝑃 𝑋 = 𝑥C ∗ 𝑃 𝑌 = 𝑦� :geldtditvoorallemogelijkecombinatiesvanienj?
Continuevariabelen TweecontinuetoevalsvariabelenXenYzijnonafhankelijkalsdegebeurtenissen“X ≤ x”en“Y ≤ yonafhankelijkzijn,voorallemogelijkecombinatiesvanxeny.
Indepraktijk:checkenoffXY x, y = f x ∗ f(y)kloptvoorallemogelijkecombinatiesvanxenyàSupermoeilijk,doordatereenoneindigaantalcombinatieszijn
SamenvattingStatistiekII(2017)–EllaMattan
14
2.1.9 Reductietechnieken
Discretetoevalsvariabelen
Deverwachtingofpopulatiegemiddelde 𝐸 𝑋 = 𝜇 = 𝑃 𝑋 = 𝑥C 𝑥C
�
CFG
Depopulatievariantie𝑉 𝑋 = 𝜎M = 𝑃(𝑋 = 𝑥C)
�
CFG
𝑥C − 𝐸 𝑋M
Destandaarddeviatie 𝜎L = 𝑉 𝑋
Continuetoevalsvariabelen
Formuleszijnmetintegralen:moetenwenietkunnengebruiken.
2.1.10 Associatietechnieken
Discretetoevalsvariabelen
Covariantie𝐶𝑂𝑉 𝑋, 𝑌 = 𝑃 𝑋 = 𝑥C ∩ 𝑌 = 𝑦� 𝑥C − 𝐸 𝑋 𝑦� − 𝐸 𝑌
�
�FG
�
CFG
Correlatiecoëfficiënt𝜌L` =
𝐶𝑂𝑉 𝑋, 𝑌𝜎L𝜎`
Continuetoevalsvariabelen
Formuleszijnmetintegralen:moetenwenietkunnengebruiken.
2.1.11 Enkelenuttigestellingen
Dekansenvancomplementairegebeurtenissen P(A) + P(A∗) = P(A ∪ A∗) = 1
Deverwachtingvaneenconstantemaaleenvariabele
Gegeven:𝑍 = 𝑎 ∗ 𝑋,metaeenconstante.
E Z = a ∗ E(X)
Deverwachtingvaneensom Gegeven:Z=X+Y
E(Z)=E(X)+E(Y).
Deverwachtingvaneenverschil Gegeven:Z=X-Y
E(Z)=E(X)-E(Y)
Deverwachtingvaneenproduct Gegeven:Z=X*Y,XenYzijnonafhankelijk
SamenvattingStatistiekII(2017)–EllaMattan
15
E(Z)=E(X)E(Y).
Devariantievaneensom Gegeven:Z=X+Y
V(Z)=V(X)+V(Y)+2*COV(X,Y)
Devariantievaneenverschil Gegeven:Z=X-Y
V(Z)=V(X)+V(Y)-2*COV(X,Y)
Correlatieenafhankelijkheid • Onafhankelijkevariabeleno Covariantiealtijd0o Correlatiecoëfficiëntdusook
• !!Nietpersedatwanneercorrelatiecoëfficiënt0is,datzeonafhankelijkzijn!!
o Sowiesogeenlineairesamenhango Kanookzijndatereenniet-lineaire
samenhangis
2.2 Bijzonderekansverdelingen
2.2.1 Debinomialeverdeling
Formule 𝑃 𝑋~𝐵 𝑛, 𝜋 = 𝑘 =𝑛!
𝑘! 𝑛 − 𝑘 !∗ 𝜋� ∗ (1 − 𝜋)(ET�)
𝜋=dekansdatdegebeurteniszichvoordoet,deproportien=desteekproefgrootte,hetaantalkeerdathettoevalsprocesherhaaldwordtk=de(bekomen)proportieofaantalkeerdatdegebeurteniszichvoordoet,waarvoorwedekanswillenberekenen
Eigenschappen • Discretevariabele• Verwachting:E B n, π = n ∗ π• Variantie:V B n, π = n ∗ p ∗ (1 − π)
Betekenisvan!informule
• Staatvoor‘faculteit’• Afrollendnaar1
o Vermenigvuldigen,telkens1aftrekkenvanhetvorigegetaltotaan1(1noginbegrepen)
o Bv.5!=5*4*3*2*1
Opgelet!! • Binomialeverdelingwerktalleenmetdiscretevariabelen• Niet-gehelegetallenzijnnietechtmogelijk
o Alsjedezeuitkomtindeoefening,benjewaarschijnlijkfoutbezig.o Bv.Gooienmeteendobbelsteen,jekanmoeilijk2,3of5,4gooien…
SamenvattingStatistiekII(2017)–EllaMattan
16
Opmerking bijoefeningen
Het beste is om de nulhypothese etc. uit te drukken in proporties: concretegetallen.Wantdezemoetjedaarnanotereninjeformulevoorkansberekening.
2.2.2 Denormaleverdeling
Notatie 𝑋~𝑁(𝜇, 𝜎M)
Eigenschappen • Verwachtingμ• Variantie𝜎M• Continuevariabele
Dichtheidsfunctie
• Symmetrischekromme• Hethoogstepuntligtterhoogtevandeverwachtingswaarde
Standaardnormaleverdeling
Metgemiddelde0envariantie1
2.2.3 Decentralelimietstelling
Stelling SteldatX1,...,Xn,nonafhankelijketoevalsvariabelenzijn,metdezelfdeverdeling,metverwachtingμXenvariantie𝝈𝟐
danwordtdeverdelingvandetoevalsvariabele𝐗𝟏 ... 𝐗𝐧𝐧
naarmatengroterwordt,steedsbeterbenaderddoordenormaleverdelingmetverwachtingμXenvariantie𝝈𝟐/n
Dus.. Hoe groter n, hoe meer het steekproefgemiddelde gaat lijken op een normaleverdeling
Wanneer isngroot?
Alsngroterofgelijkaan30is,isdefunctienormaalverdeeldTENZIJdeverdelingvanXzeerscheefverdeeldis
2.2.4 Dec2-verdeling
Deverdeling Gegeven:X1,...,𝑋£ zijnonafhankelijkestandaardnormalevariabelen
Dec2-verdelingisdeverdelingvandevariabele:Y = XGM + XMM+. . . +X
£M
àDeverdelingvandesomvanlgekwadrateerdestandaard-normalevariabelen
SamenvattingStatistiekII(2017)–EllaMattan
17
Eigenschappen • l=hetaantalvrijheidsgradeno Hetaantalwordtaangegevenindenaamvandeverdeling,onderde
‘2’vankwadraat• E(Y)=l• V(Y):2*l• Geensymmetrischekromme
2.2.5 DeStudentverdelingoft-verdeling
Deverdeling Gegeven:X~N(0,1)enY~χ¥Mzijntweeonafhankelijketoevalsvariabelen
De𝑡£-verdeling:𝑇 =L`/£
Eigenschappen • l=hetaantalvrijheidsgraden• E(T)=0• Symmetrischedichtheidsfunctie
o Lijktopdievaneennormaleverdelingo Alslnaaroneindiggaat,ishetbijnaidentiekeennormaleverdeling
2.2.6 DeF-verdeling
Deverdeling Gegeven:2onafhankelijkechi-kwadraatverdelingen
De𝐹£Y,£¨-verdeling:𝐹 =L/£G`/£M
Eigenschappen
• Geensymmetrischeverdeling• WordtooksomsdeFisher-Snedecorverdelinggenoemd
SamenvattingStatistiekII(2017)–EllaMattan
18
2.3 Desteekproevenverdeling
Totnutoehebbenwealgezienophetniveauvaneenspecifiekesteekproefeneenpopulatie.Nugaanwezienopeenaspecifiekesteekproef
Gemiddelde
Variantie1
of
Variantie2
of
Steekproefgroothedenofstatistieken
• Nieuwetoevalsvariabelen,dieeencombinatiezijnvaneensetoorspronkelijketoevalsvariabelen
• Dezehebbenookzelfeenkansenverdeling:dezewordtsteekproevenverdelinggenoemd
2.4 Desteekproevenverdelingvansteekproefgemiddelde𝑋
VerwachtingvanX E(X)=E(X)=μX
à altijddezelfdealsdievanX:
VariantievanX V(X)=©(L)E
VerdelingvanX • Alsweallemaallukraketrekkingenhebbenuiteenpopulatiemeteennormaleverdeling,danzalXooknormaalverdeeldzijn
• Alsweallemaallukraketrekkingenhebbenuiteenpopulatiemetongekendeverdeling,maarn>30endeverdelingisniettescheef,danzalXooknormaalverdeeldzijn
2.5 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑁LM
Verwachtingvan𝑆𝑁𝑋2 𝐸 𝑆𝑁LM =
𝑛 − 1𝑛
∗ 𝑉 𝑋
𝐸 𝑆𝑁LM issowiesokleinerdandevariantievanX,maarhoegrotern,hoekleinerhetverschil
Verdelingvan𝑺𝑵𝑿𝟐 • Als we lukrake trekkingen hebben uit een populatie met een
normaleverdeling,dangeldt:E∗N®O
¨
¯O¨ = 𝑆𝑆𝑋
𝜎𝑋2~𝜒ETGM
o GeldtNIETals n> 30, de verdelingmoetechtnormaalverdeeldzijn!
SamenvattingStatistiekII(2017)–EllaMattan
19
2.6 Desteekproevenverdelingvandesteekproefvariantie𝑆LM
Verwachtingvan𝑆𝑋2 𝐸 𝑆LM = 𝑉(𝑋)
Verdelingvan𝑺𝑿𝟐 • Als we lukrake trekkingen hebben uit een populatie met een
normaleverdeling,dangeldt:(ETG)∗NO
¨
¯O¨ = 𝑆𝑆𝑋
𝜎𝑋2~𝜒ETGM
o GeldtNIETalsn> 30, de verdelingmoetechtnormaalverdeeldzijn!
SamenvattingStatistiekII(2017)–EllaMattan
20
Hoofdstuk3:puntschatting
Wat? HetschattenvandeonbekendeparametersàWekennenvaakdeverdelingvandepopulatieniet,dusmoetenweschattenopbasisvandesteekproef
Parameter𝜽 • eenpopulatieparameteriseenheelalgemeenwoordvoorietswatietszegtoverdetoestandvanuwpopulatiezelf.Bijvoorbeeld:hetgemiddelde,devariantie..
• Omdezeteschattengebruikenweeensteekproefgrootheidofstatistiek
SchatterQ • Ditisdesteekproefgrootheid,heeftduseensteekproevenverdeling.• Ditiseentoevalsvariabele:algemeen,veranderlijk
o telkensalsweeensteekproeftrekken,wetenwenietwatdewaardevandeschatterzalzijn
• Destandaarddeviatievandeschatter:destandaardfouto Hoegroterditgetal,hoegroterdefout
Schatting𝜽 • Dewaardevandeschatterineenbepaaldesteekproef• GEENtoevalsvariabele:van1specifiekesteekproef,vastewaarde• Weduidendeschatteraanmethet‘hoedje’bovenhetsymbool
3.1 Eigenschappenvaneengoedeschatter
‘Goed’? Betekent‘nietteverschillendvandeteschattenparameter𝜃’àZuiver&efficiënt
Zuiverofunbiased
• Deverwachtingvandeschatterisgelijkaandeteschattenparameter:𝐸 𝑄 = 𝜃
• Datgeeftaandatdepopulatieparameternietsystematischtegrootoftekleinwordtgeschat
Efficiënt Devariantievandeschatterwordtkleinernaarmatedesteekproefgroterwordt.Wantdanwordtdeschatternauwkeuriger.
à𝑉 𝜃 ↓ 𝑎𝑙𝑠𝑛 ↑
DUSconcretetoepassing:omdekansopeengoedeschattenteverhogen,vergrootjedesteekproef.
Methodenomteschatten
• Maximumlikelihood(grootsteaannemelijkheid)&leastsquares(kleinstekwadraten)
o Geenvanbeidemethodenisperfecto Maximumlikelihoodbrengtaltijdefficiënteschatters,maarniet
altijdzuivere• Dezemethodengaanweindecursusnietgebruiken
3.2 Enkeleschatters
Deverwachtingschatten
𝜇L = 𝑥 Zuiverenefficiënt
SamenvattingStatistiekII(2017)–EllaMattan
21
DUS:wiljepopulatiegemiddeldeschatten,gebruiksteekproefgemiddelde
Devariantieschatten • 𝑆LMiseengoedeschattervoordepopulatievariantieo 𝜎LF𝑆LM =
GETG
∗ 𝑋C − 𝑋ECFG = NNO
ETG
• 𝑆𝑁LMisGEENgoedeschattervoordepopulatievariantie(wantsystematischeonderschatting)
Deproportie𝝅schatten:𝝅
• Schattervoordeproportieindepopulatie:deovereenkomendeproportieindesteekproef
o Proportieindesteekproef:po P=detoevalsvariabele,devariabeledievoorelke
steekproefgelijkisaandeproportievanelementenmetdebewusteeigenschap
§ Pisdeschattervan𝝅• Overzicht
o 𝜋=parametero P=schattero p=schatting
Decovariantieschatten • 𝐶𝑂𝑉L` =G
ETG∗ 𝑥¶ − 𝑥E
¶FG 𝑦C − 𝑦 • Inconcreteoefening:rekeninghoudenmetwatjeexactzoekt
(schattingpopulatie-covariantieofsteekproef-covariantie)enmetdeverschillenindeformules!
o Steekproefcovariantieismet1/no Schattingvanpopulatie-covariantieiszoalsjezietmet1/n-
1
Decorrelatiecoëfficiëntschatten
• Schatter:deovereenkomendecorrelatiecoëfficiëntindesteekproef
OVERZICHT • 3overeenkomstigo Verwachtingo Proportieo Correlatiecoëfficiënt
• Waarweeencorrectiemoetentoepasseno Variantieo Covariantie
SamenvattingStatistiekII(2017)–EllaMattan
22
Hoofdstuk4:intervalschatting–betrouwbaarheidsintervallen
• Algemeen:BI=betrouwbaarheidsinterval• Puntschattingisbijnaaltijdfout,daaromgaanwevakerBI’sgebruikenwantdezezijnvaakeen
stukbeter• BI’szeggenietsoverinhoeveel%vandegevallendeparameterzicheffectiefinhetinterval
bevindteninhoeveel%niet.Zegtniksoverdebetrouwbaarheidvandeschattingzelf!!
4.1 Betrouwbaarheidsintervalvoor𝜇L
• 𝜇𝑋isdewaardediewenietkennenenwillenschatten.• Weveronderstellendat𝜎Lonbekendis
o Isbijnaaltijdzoindepraktijk
4.1.1 DeverdelingvanXisnormaal
Steekproefgrootheid-formule
𝑇 = LT·ONO/ E
met𝑇~𝑡ETG
Dekritiekewaarde𝒕𝒏T𝟏;𝜶 Dewaardevande𝑡ETG-variabelezodatdeoppervlakterechtsgelijkisaan𝛼
Dekritiekewaarde𝒕𝒏T𝟏;𝜶/𝟐
Kansenberekenen P(𝑋 − 𝑡ETG;¼¨
∗ NOE< 𝜇L < 𝑋 + 𝑡ETG;¼¨
∗ NOE) = 1 − 𝛼
Betrouwbaarheidsinterval𝑥 − 𝑡ETG;½M
∗𝑆L𝑛, 𝑥 + 𝑡ETG;½M
∗𝑆L𝑛
EXTRA:hetintervalmanipulerenzonderde𝜶tewijzigen
Komtvoorinoefensessie1
• Intervalbredermakeno 𝑡ETG;½/Mvergroteno 𝑆Lvergroteno nverkleinen
• Intervalsmallermakeno 𝑡ETG;½/Mverkleineno 𝑆Lverkleinen
SamenvattingStatistiekII(2017)–EllaMattan
23
o nvergroten
Nauwkeurigheid=debreedtevanhetinterval𝛼=betrouwbaarheid=dekansdathetbuitenhetintervalligt
4.1.2 DeverdelingvanXisnietnormaalofonbekend
Als n > 30 en X niet tescheefverdeeldis
DanvolgthetderegelsalsofXnormaalverdeeldis
4.2 Betrouwbaarheidsinterval voor het verschil tussen de verwachtingen intweepopulaties
Puntschatting 𝑥G − 𝑥M
Stappenplan • Ditiseentechniekmetdehypothesedatdevariantiesvanbeidepopulatiesonbekendmaarwelidentiekzijn
• Jehebt2schattersvandevarianties:voorelkepopulatie1.• We combineren beide schatters, om één betere schatter uit te
komen:deschatter𝑆�\\£¾¿M o Noemenwedepooledvariantie
o Formule:𝑆�\\£¾¿M = 𝑛1−1 ∗𝑆12+ 𝑛2−1 ∗𝑆2
2
𝑛1+𝑛2−2
o Dit is een zuivere schatter voor de gemeenschappelijkevariantie
Betrouwbaarheidsinterval𝑥G − 𝑥M ∓ 𝑡EG EMTM;½M
∗ 𝑠�\\£¾¿ ∗1𝑛G+1𝑛M
Voorwaarden • DevariabeleX isnormaal verdeeld inbeidepopulaties,ofbeidesteekproevenzijngrootgenoeg(groterdan30)
• Beidevariantieszijngelijk
4.3 Betrouwbaarheidsintervalvoordevariantie𝜎LM
Voorwaarden • Xisnormaalverdeeld,eengrotesteekproefhelptniet
Steekproefgrootheid • 𝐾 = 𝑛 − 1 ∗ 𝑆𝑋2
𝜎𝑋2 =
𝑆𝑆𝑋𝜎𝑋2 met𝐾~𝜒ETGM
Dekritiekewaarde𝒌𝒏T𝟏;𝜶/𝟐
Kansenberekenen P(𝑘ETG;𝟏T𝜶/M < 𝐾 < 𝑘ETG;𝜶/M) = 1 − 𝛼
SamenvattingStatistiekII(2017)–EllaMattan
24
!!! NIET 2x dezelfde getallen, want we werken niet met eensymmetrischefunctie!!!
Betrouwbaarheidsinterval 𝑛 − 1 ∗ 𝑆LM
𝑘ETG;½/M ,𝑛 − 1 ∗ 𝑆LM
𝑘ETG;GT½/M
!!! NIET 2x dezelfde getallen, want we werken niet met eensymmetrischefunctie!!!
4.4 Anderebetrouwbaarheidsintervallen
Wordenlaterindecursusgezien
SamenvattingStatistiekII(2017)–EllaMattan
25
Hoofdstuk5:destatistischetoetsen
5.1 ZijndestudentenvandeFPPWslimmer?
Voorbeeldbijtheorie,lezeninsyllabusp.85
5.2 Tobeornottobe
• Bijhetcontrolerenvanjehypotheseishetaltijdjaofnee:jehypothesekloptofkloptniet.o Ergmoeilijkomdezesoortvragentebeantwoorden,altijdrisicoopfouteconclusieo Wegaaninductievestatistiekgebruikenomteberekenenhoegrootdekansisdatonze
bekomenscorehetgevalvantoeval is(endusookhoegrootdekans isdatonzescoreeffectiefklopt)
§ !!Inductievestatistiekzegtonsnietwathetcorrectealternatiefis!!
5.3 Detoetsingsprocedure
6stappeninhettoetsenvanjehypothese
5.3.1 Theoretischehypothese
Dezeisinwoordenuitgedrukt.
5.3.2 Statistischehypotheseofalternatievehypothese𝐻Ã
Wat? JevertaaltdetheoretischehypotheseindetaalvandekansrekeningàDezevertalingisnietaltijdevident!
Tweezijdigetoets … ≠ …
Eenzijdigetoets … > … of … < …
Algemeen Altijdonderdevormvan≠, > of <
OPGELET àAltijdoppopulatieniveau,nietopsteekproefniveau!Bv.Wordtaltijdbeschrevenintermenvanµ,nietintermenvan𝑋
5.3.3 Nulhypothese𝐻j
Wat? • Hettweedealternatief,strijdigmetdealternatievehypotheseàAls𝐻0juistis,moet𝐻Ãfoutzijn
• Nooitindevormvan≠, > of <• Altijdindevormvan=
OPGELET àAltijdoppopulatieniveau,nietopsteekproefniveau!Bv.Wordtaltijdbeschrevenintermenvanµ,nietintermenvan𝑋
SamenvattingStatistiekII(2017)–EllaMattan
26
5.3.4 ToetsingsgrootheidG
Wat? • Dezeisafhankelijkvandehypotheseno Onder de nulhypothese mag de toetsingsgrootheid geen
onbekende parameter bevatten& de steekproevenverdelingmoetgekendzijn
• Wegaandebekomentoetsingsgrootheiddanlatervergelijkenmetdekritiekewaarden,omconclusiestetrekkenoveronzehypothesen
Formule 𝐺 = LT·N/ E
Eigenschappen:Gisstudent-verdeeld
Dewaardendiejehierbijmoetinvullen,zijndegenenzoalsbeschrevenindenulhypothese,
nietdealternatievehypothese
5.3.5 Betrouwbaarheid1 − 𝛼enkritiekewaarde(n)
Betrouwbaarheid • Dekansomdealternatievehypotheseteverwerpen• Wordtvaaktussende90%ende99%gekozen• Dewetenschappelijkenorm:95%• Ditis1 − 𝛼
𝜶 • Deonbetrouwbaarheidsdrempelofhetsignificantieniveau
Eenzijdigetoets • Hetkritischgebiedislangs1kant,niet2• Hogewaardenbiedenevidentietegendenulhypothese
o Dekritiekewaardenzijnaandebovenkantvandefunctieo 𝑃 𝑥G ≤ 𝐺 = 𝛼
o • Lagewaardenbiedenevidentietegendenulhypothese
o Dekritiekewaardenzijnaandeonderkantvandefunctieo 𝑃 𝐺 ≤ 𝑥G = 𝛼
o • Opmerking:xGistelkensdekritiekewaarde:𝑡ETG;½
Tweezijdigetoets • 2kritiekewaardennodig,dekritischegebiedenliggenlangs2kanten• 𝑃 𝑥G ≤ 𝐺 ≤ 𝑥M = 1 − 𝛼
o 𝑥Gen𝑥Mzijndekritiekewaarden
SamenvattingStatistiekII(2017)–EllaMattan
27
• o Indefiguur:𝑡ETG;½/M=𝑥G=dekritiekewaarde
5.3.6 Beslissing
• WeberekenenG• Weberekenendekritischewaarde(n)• JemoetkijkenofGzichinhetacceptatiegebiedofhetkritischegebiedbevindt
o Als G overeenkomt met de kritische waarde, bevindt dit zich nog steeds in hetacceptatiegebied
o HetacceptatiegebiedlooptTOTENMETdekritischewaarde(n)
5.4 Derelatietussenintervalschattingentoetsing
Betrouwbaarheidsintervallen • Bekomenwaardeligtbinneninterval:nulhypotheseaanvaarden• Bekomenwaardeligtbuiteninterval:nulhypotheseverwerpen
BIentoetsenzijnequivalent • Beiden brengen ons tot zelfde conclusies, ze zijn altijd evengoed
o Dus niet alleen voor de toetsen met een onbekendevariantie!
5.5 Deoverschrijdingskansofp-waarde
Wat? • DekansdatderealisatievanGoverschredenwordto Dekansdatdetoetsingsgrootheidgelijkaanzijnrealisatieg
isofnogextremer§ ‘Nogextremer’:groterofkleiner,afhankelijkvande
hogeoflagewaardendievanbelangzijn• De kans dat we een steekproef trekken die onze alternatieve
hypotheseevensterkofnogsterkerondersteuntdanonzesteekproef
Formule𝑃
𝑋 − 𝜇𝑆/ 𝑛
≥ 𝑜𝑓 ≤ 𝑥 − 𝜇𝑆/ 𝑛
≥ 𝑜𝑓 ≤hangtafvanhetfeitofhoge oflagewaardenvanbelangzijn
Hoetoepassen? • Jevergelijktjep-waardemetjesignificantieniveau𝛼
SamenvattingStatistiekII(2017)–EllaMattan
28
• alsdeoverschrijdingskanskleinerisdanhetsignificantieniveau,danverwerpjedenulhypothese
• !!!ALTIJDteberekenenonderdenulhypothese,gaataltijdover𝐻\!!!
OPGELET! BijR-code:alshetgaatomeentweezijdigetoets,moetjezekerzijndatjebeide kanten van de a meehebt! Altijd visueel voorstellen wat jeberekent!
àeventueeldekansdiejeberekent*2doen,zodatjebeidekantenvandegrafiekmeehebt.Opgelet:danmoetjewela/2invoegen,ennieta!
Concreet:stappenplanoefeningen
• Derealisatievandetoetsingsgrootheidvergelijkenmetzijnverdeling
• P(waardevanG<of>verdelingvanG)• DezekansaflezenuitdegegevensvandeopgaveofberekeneninR
5.6 Dekeuzevantoetsingsgrootheid
5.6.1 Hettoetsenvaneenhypothesebetreffende𝜇
Algemeen Jewiltoetsenofdeverwachtingvaneentoevalsvariabeleverschillendisvaneen bepaalde waarde (vaak de verwachting van dezelfde variabele in eenanderepopulatie)
𝝈isbekend • Dez-toetsvooréénsteekproefo Toetsingsgrootheid=𝑋
§ Zijnverdelingiseenstandaardnormaleverdeling• Voorwaarden
o Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijnofeengrotesteekproef
• Komtbijnanooitvoorinpraktijk
𝝈isonbekend • T-toetsvooréénsteekproef
• Toetsingsgrootheid:𝐺 = LT·N/ E
o Verdeling:Student-verdelingmetn-1vrijheidsgraden• Voorwaarden
o Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijnofeengrotesteekproef
5.6.2 Hettoetsenvaneenhypothesebetreffende2verwachtingen
Algemeneopmerking Menkangebruikmakenvanovereenkomende/afhankelijkesteekproevenofonafhankelijkesteekproeven.Houhierrekeningmee!
Onafhankelijkesteekproeven
𝜎Gen𝜎Mzijnbekend • Z-toetsvoortweesteekproeven
• Formuletoetsingsgrootheid:LYTL¨
ÈY¨
XY Ȩ
¨
X¨
~𝑁(0, 𝜎12
𝑛1+
𝜎22
𝑛2)
SamenvattingStatistiekII(2017)–EllaMattan
29
• Voorwaardeno Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn in beide populaties of beide
steekproevenmoetengrootzijn• Wordtinpraktijkbijnanooitgebruikt
𝜎Gen𝜎Mzijngelijkmaaronbekend
• T-toetsvoortweeonafhankelijkesteekproeven• Formuletoetsingsgrootheid:
𝑋G − 𝑋M
(𝑛G − 1)𝑆GM + (𝑛M − 1)𝑆MM𝑛G + 𝑛M − 2
1𝑛G+ 1𝑛M
= 𝑋G − 𝑋M
𝑠É\\£¾¿1𝑛G+ 1𝑛M
~𝑡EY E¨TM
• Voorwaardeno Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn in beide populaties of beide
steekproevenmoetengrootzijn
Geen hypothese over𝜎Gen𝜎M
• DeWelcht-toetsvoortweeonafhankelijkesteekproeven• Formuletoetsingsgrootheid:
LYTL¨
ÊY¨
XY ʨ
¨
X¨
~𝑡𝑙met𝑙 =
𝑆12
𝑛1+𝑆2
2
𝑛2
¨
𝑆14
𝑛12(𝑛1−1)
+ 𝑆24
𝑛22(𝑛2−1)
• Voorwaardeno Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijninbeidepopulatiesofbeide
steekproevenmoetengrootzijn• Opmerking
o ‘Geenhypotheseover𝜎Gen𝜎M’gaatoverdegroottevandesigma’s,ofzeevengrootzijn.Nietoverdewaardenzelf!
o Welcht-toetsgaatdusoveralswenikswetenoverdegroottevan𝜎Gen𝜎Mtenopzichtevanelkaar
Afhankelijkesteekproeven
DevariabeleD • Webrengende2steekproevensamenonder1variabele• Dishetverschiltussendescoresvande2steekproeven,ofhetverschil
tussendescoresvoorennademanipulatievanhetexperiment• Dstaatvoor‘difference’
Hoetoepassen? • Wepassendestandaardt-toetsvooréénsteekproeftoeo Onzenulhypothesehierbijis“𝜇Ì = 0“
§ Want dit betekent dat de verschillen tussen beidesteekproeven in het geheel 0 zijn, en dat er dus geenverschillenzijntussendesteekproeven
5.6.3 Hettoetsenvaneenhypothesebetreffendetweevarianties
Watdoenweprecies? Kijkenofdevariantiesvaneenbepaaldevariabeleintweeverschillendepopulatiesidentiekzijn
SamenvattingStatistiekII(2017)–EllaMattan
30
Nulhypothese 𝜎G=𝜎M
Alternatievehypothese Meestal𝜎G ≠ 𝜎M,maarkanook𝜎G < 𝜎Mof𝜎G > 𝜎M
Toetsingsgrootheid • Logicaerachtero Alswe2steekproeventrekkenuiteenzelfdepopulatie,isde
kansvrijgrootdatdeschattingenvanbeidevariantiesevengrootzullenzijn
§ NY¨
N¨¨=1
§ Denulhypotheseis𝜎G=𝜎M§ Bij toeval kanditookafwijken,maar is zeldenhet
geval§ De verhouding zal altijd positief zijn, want de
variantieszijnpositiefo Dichtheidsfunctie:
§ Geennegatievewaarden§ Nietsymmetrisch
§ § DezevolgteenF-verdeling
• Concretetoepassingen
o Formulesteekproefgrootheid:𝐹 = NY¨
N¨¨~𝐹EYTG,E¨TG
§ Als de verhoudingNY¨
N¨¨ ongeveer gelijk aan 1 is:
nulhypotheseaanvaarden
§ Als de verhoudingNY¨
N¨¨ niet gelijk aan 1 is:
nulhypotheseverwerpen• Detoetsingsgrootheid:devariatieverhoudingofF-verhouding• Detoetszelf:deF-toets• Derealisatieofwaardevandesteekproefgrootheid:𝒇∗• Voorwaarden
o Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn, een grote steekproef helpt
NIET
5.7 Hettoetsenvaneenhypothesebetreffendeeenproportie
Watdoenweprecies? Wewillentoetsenofeenproportieineenpopulatieverschillendisvaneenbepaaldewaarde(vaakeenproportieineenanderepopulatie)
Opmerking Indezecursuszienweenkeldeeenzijdigetoets
Toepassing • Deoverschrijdingskansberekenenvaneenbinomialeverdelingo De gegevens van de binomiale verdeling halen uit de
omschrijvingvanhetprobleem/dehypotheseo Watweprecieswillenoverschrijden:jeeerderebevinding,
vandesteekproefdiejenetgenomenhebt
SamenvattingStatistiekII(2017)–EllaMattan
31
5.8 Hettoetsenvandenormaliteit
Waaromzoudenweditwillentoetsen?
OmdatvoorveeltoetsproceduresheteenvereisteisdatXnormaalverdeeldisofdatdesteekproefgrootgenoegis.
Hoeconcreetuitvoeren? • 2methodeno Kolmogorov-Smirnovnormaliteitstoetso Shapiro-Wilknormaliteitstoets.
• Dezecursus:alleenuitleghoejedeShapir-WilktoetsinRuitvoert
Opmerking • Veel onderzoekers zeggen dat ze nagaan of hun data normaalverdeeldzijn:kloptniet!
• Datakannietnormaalverdeeldzijno Een toevalsvariabele kan normaal verdeeld zijn, een
geobserveerdevariabeleniet
5.9 Designificantie
Dagelijksetaal Ietsinsignificantalshetrelevantofwaardevolis
Statistischetaal • Betekentalleendateenverschilnietnulis• Zegtniksoverofdatverschilgrootofverwaarloosbaaris
5.10 Defouten
Symbool Term Uitleg Dus?
a TypeIfoutoffoutvandeeerstesoort
Nulhypotheseisjuistmaarweverwerpen
Onterechtverwerpen
1-a Debetrouwbaarheid Nulhypotheseisjuistenweaanvaarden
Terechtaanvaarden
𝛽 TypeIIfoutoffoutvandetweedesoort
Nulhypotheseisfoutmaarweaanvaarden
Onterechtaanvaarden
1–𝛽 Depower Nulhypotheseisfoutenweverwerpen
Terechtverwerpen
Verbandtussen𝛼en𝛽 • Hoekleiner𝛼,hoegroter𝛽(enomgekeerd)• Alsnstijgt,dandaalt𝛽
SamenvattingStatistiekII(2017)–EllaMattan
32
5.11 EIGENOVERZICHT
WAT? • 𝐻Ã=statistischevertalingvandehypothese(≠, > of <)• 𝐻j=tegenpoolvan𝐻Ã
DOEL • Wewillenbewijzendat𝐻jfoutis:de𝐻jverwerpen.Wantdatbetekentdatdealternatievehypothesejuistis,endaarmeeookonzehypothese.
𝑯𝟎VERWERPEN • Toetsingsgrootheid:Gligtinkritischgebiedo Als hoge waarden belangrijk zijn: G is groter/gelijk aan kritieke
waardeo Als lage waarden belangrijk zijn: G is kleiner/gelijk aan kritieke
waardeo Welkewaardenbelangrijkzijnkanjezienaanhoe𝐻Ãgeformuleerd
is• Betrouwbaarheidsinterval:scoreligtbuiteninterval• Overschrijdingskans:p-waardeiskleinerdanje𝛼
o Betekentdatereenminiemekansisdatonzeresultatentoevalligzijnendatzedusjuistzijn
𝑯𝟎AANVAARDEN • Toetsingsgrootheid:Gligtbuitenkritischgebiedo Alshogewaardenbelangrijkzijn:Giskleinerdankritiekewaardeo Alslagewaardenbelangrijkzijn:Gisgroterdankritiekewaardeo Welkewaardenbelangrijkzijnkanjezienaanhoe𝐻Ãgeformuleerd
is• Betrouwbaarheidsinterval:scoreligtbinneninterval• Overschrijdingskans:p-waardeisgroterdanje𝛼
TIP Altijddefiguurvisueeluittekenen,dankanjeveelbetervattenwatjeprecieswiltberekenen
SamenvattingStatistiekII(2017)–EllaMattan
33
Hoofdstuk6:depowerofonderscheidingsvermogen
HERNEMINGVORIGHOOFDSTUK
• 2soortenfoutenbijhetuitvoerenvanstatistischetoetso Foutvandeeerstesoort
§ Nulhypotheseonterechtverwerpen§ Dekansopdezefout:𝛼
• Dezebeslisjezelfvooraleerjedetoetsuitvoerto Foutvandetweedesoort
§ Alternatievehypotheseonterechtverwerpen§ Dekansopdezefout:𝛽§ Dekansomdezefoutniettemaken:1 − 𝛽
• Hetonderscheidingsvermogenofdepower• Dekansomdenulhypotheseterechtteverwerpen• Dithoofdstukgaanweonderanderezienhoewedezekanskunnen
berekenen
6.1 Depowerbijhettoetsenvaneenhypothesebetreffendeeenproportie
Grafischevoorstelling
• Degearceerdeblauwestaven:𝜶,dekansophetfoutiefverwerpen
vandenulhypothese• Desomvandegearceerderozestaven:depower
o Dezewillenwezogrootmogelijk!
Eigenschappen • Depowerstijgtnaarmatedesignificantiestijgt• Depowerstijgtnaarmatedesteekproefgroterwordt
Illustratieeigenschappen
• 2figuren,metelkeenverschillendkleur:stellenelkeenbinomiale
verdelingvoor,metelkeenanderep(=proportie)o Derozefiguurheefteengroteresignificantieensteekproef
SamenvattingStatistiekII(2017)–EllaMattan
34
• Blauw=nulhypotheseterechtaanvaarden=1-a• Gearceerdblauw=nulhypotheseonterechtverwerpen=a• Roze=nulhypotheseonterechtaanvaarden=b• Gearceerdroze=nulhpotheseterechtverwerpen=1-b=power
o Desomvandeoppervlaktevandezebalkenwillenwezogrootmogelijk
R-code powerBinom(…)
Algemeneopmerkingenbijsteekproefgrootte
• Altijdnaarbovenafronden!Eenhalvepersoonteltniet!Handigbijbv.hetberekenenvandeminimalesteekproefgrootte
• Jesteekproefgroottengaataltijdomhetaantalmensendataanhet onderzoek deelneemt en dus antwoordt op deonderzoeksvragen
o Inoefensessies:alsje200mensenaanspreekt,maarslechts130reageren,danisn=130.
6.2 Depowerbijhettoetsenvaneenhypothesebetreffendeeenverwachting
Stappenplan • Jebegintmetjeoriginelenulhypotheseenalternatievehypothese• Wegaanookeenspecifiekealternatievehypotheseopstellen:diedande
waardeaangeeftwaarvanwijdenkendatditdekritischewaardeis(omeenvoldoenderelevantverschiltezijnmetdenulhypothese)
• DanberekenenviaR-code:power.t.test
6.3 De power bij het toetsen van een hypothese betreffende tweeverwachtingen–afhankelijkesteekproeven
Stappenplan • Ookweereenspecifiekealternatievehypotheseopstellen,waarvanhetverschilmetdenulhypotheserelevantis
• BerekenenviaR-code:power.t.test
6.4 De power bij het toetsen van een hypothese betreffende tweeverwachtingen–onafhankelijkesteekproeven
ViaRberekenen
6.5 Algemeen
• Bijhetberekenenvandepowervertrekjevaneenspecifiekealternatievehypotheseo Nietzoalsbijdenormalealternatievehypothese:geen¹,<of>o Jegebruikthetteken‘=‘
§ Waarom?Omdatjebijhetberekenenvandepoweraankansberekeningdoet,endanhebjeeenexactgetalnodig.
o Jegeeftdandewaardeaanwaarvanjedenktdatditdekritischewaardeis§ Moeteenvoldoendesignificantverschilzijnmetdenulhypothese!
SamenvattingStatistiekII(2017)–EllaMattan
35
§ Nulhypotheseenspecifiekealternatievehypothesezijndusaltijdverschillend:alszegelijkzijn,toetsjeeigenlijkniks
o Stel dat je specifieke alternatieve hypothese bestaat uit meerdere proporties, dusmeerderegetallen:danzetjedezeallemaaltesamenin1vectorenwerkjeopdiemanierverdermethetgeheel.
§ Ditisvantoepassingbijbv.DeR-codeES.w1• Algemeenideevandepower
o Correctverwerpenvandenulhypotheseo Correctaanvaardenalternatievehypotheseo Moestjedetoetsgebruikenindezelfdecontext(zelfdesteekproefgrootte,significantie…)
met veel steekproeven, dan zal je wat de alternatieve hypothese beweert effectiefopmerkeninjedata.Inhoeveel%vandegevallenjeditzalopmerken,hangtafvanhoegroot(in%)depoweris.
• Eenpowervanminderdan.50isnietinteressant,paszodradepowerhogerisdan.80wordthetinteressant.
• Voorveeltoetsenkanjepowerberekenen,maarnietvoorallemaal• Factorendiepowerbeïnvloeden
o no Effectgrootte:hetverschiltussendealternatieveendenulhypothese
§ Algemeneformule(zelfopgezochtopinternet,staatnietinsyllabus.Gewoonterillustratievoormezelfwatdeterminhoudt)
• ·¨T·Y¯Y
• Hoegroterhetverschiltussenbeideµ’s,hoegroterdeeffectgrootte• Hoekleinerdestandaarddeviatie,hoegroterdeeffectgrootte
§ Hetisaangeradenomdepowerteberekenenbijmeerdereeffectgroottesentevergelijken
o a• Powerverhogen:𝛼verhogenofgroteresteekproef
o Nadeelgroteresteekproef:meerkostenentijdnodigo Nadeelgrotere𝛼:groterrisicoomfoutenvandeeerstesoorttemakeno Voor-ennadelentegenelkaarafwegen!
• Vooreent-toetsmoetjeovereenschattingvandestandaarddeviatiebeschikken• Mogelijkhedenmetberekeningen
o Powerberekenenopbasisvangekozensteekproefgrootteo Minimalesteekproefgrootteberekeneninfunctievangewenstepower
• Verschiltussenpowerenp-waardeo P-waardeisonderdenulhypotheseo Powerisonderdealternatievehypotheseo Opmerking:bijhettoetsenkijkenwedanwelweernaardenulhypothese
SamenvattingStatistiekII(2017)–EllaMattan
36
Hoofdstuk7:enkelvoudigelineaireregressie
7.1 Inleiding
• Voorbeeld:ziesyllabusp.137• Uiteenzettingalgemeenprobleemvandeinductievestatistiek
o Je kan via spreidingsdiagram, correlatiecoëfficiënt en regressielijn wel weten welksoortverbanderisindesteekproef
o Maarisditverbandooktegeneraliserennaardepopulatie?Neen!§ Wekunnenonzeberekeningenvanspreidingsdiagram,correlatiecoëfficiënt
enregressielijnopsteekproefniveauNIETveralgemenennaarpopulatieniveau!
§ HierdientH7voor!o Wehebbeneenprobabilistischmodelvansamenhangnodig!
• DeR-code:lm(formula=data$variabele~data$variabele)o Defunctieberekentveelmeerdanerindeoutputwordtweergegeven!
§ Omde restvandegegevensop tevragen:andereR-codesgebruikenzoals‘fitted()’of‘residuals()
§ Belangrijkdat jedeuitkomstvan jeeersteR-codeeennaamgeeft (viaeenvector)
• AnderskanjediegegevensnietopvragenbijdeverdereR-codeso OPGELET!KANSOPVERWARRING!
§ IndeR-codeschrijvenwealtijdvanYopX• Vandeafhankelijkevariabeleopdeonafhankelijkevariabele• YwordtdusaltijdeerstgeschrevenindeR-code
§ Maarindecursusnoterenwestatistischomgekeerd(Xeerstschrijven)• Dithoofdstuk–logica
o Eerstdebasisvanhetlineairmodeluitleggeno Dangaanwedevorigehoofdstukkentoepassenophetlineairmodel
§ Puntschattingdoen,intervallenberekenen,toetsen…o Nieuweleerstof
7.2 Hetlineairmodel–kansrekenen
Vertrekpunt • Wehebben2variabelenXenYo WewillenYverklarendoorXo Xisdeonafhankelijkevariabele,Ydeafhankelijkevariabeleo XiseenpredictorvanYo 3uitdrukkingenvoorhetzelfde
• WevermoedendatereenlineairverbandistussenXenY:zezijngecorreleerd.Hoegaanweditnuformeelnoteren?
HoewehetNIETkunnenschrijvenenwaarom
• Wekunnennietnoterenzoalsinbeschrijvendestatistiek:𝑌 = 𝛽j +𝛽G𝑋
• Logicaerachter
SamenvattingStatistiekII(2017)–EllaMattan
37
o Moesten we het wel noteren zoals in beschrijvendestatistiek, dan zou een bepaalde waarde van X altijdsamengaanmeteenwaardevanY
§ Terwijl de samenhang tussen variabele niet zosimpel&systematischis!Teeenvoudigmodel!
o Mogelijks ook een heel aantal factoren/variabelen dieinspelenopY,maardiewehiernietmeten
§ Variabelendievariërentussenproefpersonen,overdetijd&inverschillendecontexten
§ Wenoemendithettoevalofderuis:ditmoetenweookinrekeningbrengen!
Nieuwevariabele𝜺 • 𝑌 = 𝛽j + 𝛽G𝑋 + 𝜀• Hettoeval,deruis• Heteffectvanmeetfouten:deerrorofdefout• Iseentoevalsvariabele
Algemeneopmerking:Griekseletters
Wegebruikengeengewonelettersmeer(𝑏j,𝑏G)maarGriekse(𝛽j,𝛽G)
REDEN: omdat we nu een populatie beschrijven en niet meer eensteekproef
Hetenkelvoudiglineairmodel
• 𝑌C = 𝛽j + 𝛽G𝑥C + 𝜀C • Met dit model zal niet elke waarde van X leiden tot een unieke
waardevanYo Omdatdewaardevan𝜺kanvariëren
• “Enkelvoudig“:omdatermaar1predictoriso Meervoudiglineairmodel:meerderepredictoren
§ Bv.𝑌C = 𝛽j + 𝛽G𝑥C + 𝛽M𝑥MC + 𝛽Ñ𝑥ÑC + 𝜀C § Zullenwe in deze cursus niet bespreken, daarom
gaan we voortaan spreken van ‘lineair model’(waarmeewedushetenkelvoudigebedoelen)
• “Lineair”:deparameterskomennietvoorineenniet-lineairevorm• DezevergelijkingkanookgebruiktwordenalsXgeen
toevalsvariabeleiso AlswezelfdewaardenvanXbepalenenditdusnietaan
hettoevaloverlateno Bv.Dokterdiezelfbepaaltwelkedosisdepatiëntvaneen
medicijnkrijgt.Dedosisstaatnogsteedsinlineairverbandmetdematevanwerkingvanhetmedicijn.
7.2.1 Assumpties
Lineairmodelbevatenormveelparameters
• Parametersperlineairmodelo Elke fout 𝜺𝒊 heeft zijn eigen gemiddelde en variantie: 2
parametersperindividuo Elkefout𝜺𝒊kancorrelerenmet𝜺𝒋:n(n-1)/2parameterso De2parameters𝛽jen𝛽G
• Totaalaantalparameters:2+2n+n(n-1)/2o Superveel!o Echteencomplexmodel:onbruikbaaromdathetmoeilijke
berekeningenzijnenhetgeenpredictievewaardeheeft
SamenvattingStatistiekII(2017)–EllaMattan
38
• Ommodeltevereenvoudigen&werkbaardertemaken,eenaantalassumptiestoevoegen:deGauss-Markovassumpties
Gauss-Markovassumpties 1. 𝐸 𝜀C = 𝑂vooralleia. Deverwachtingvandefouthangtnietafvanhetindividu
2. 𝑉 𝜀C = 𝑉 𝜀� voorallei,j.a. Devariantievandefouthangtnietafvanhetindividu
(=homoscedasticiteitsassumptie).b. Dezeconstantevariantiewordtaangeduiddoor𝜎ÔM
3. 𝐶𝑂𝑉 𝜀C, 𝜀C = 0voorallei,j.a. Defoutbijindividuiisnietgecorreleerddefoutbijindividu
j(geenseriëlecorrelatie)
Resultaat:eenpakminderparameters!
7.2.2 Devoorwaardelijkeverwachting𝐸(𝑌C½𝑋C = 𝑥C)
Watishet? • Wedefiniërendeverwachting&berekenendezebijeendeelverzamelingvandepopulatie
• DeverwachtingvandevariabeleYondervoorwaardedatX=x
Notatie • 𝐸(𝑌½𝑋 = 𝑥)• 𝐸(𝑌C½𝑥C)
Formulevoorpredicties 𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C
Anderevormen • Onderdehypothesedathetlineairmodelgeldt:o 𝐸(𝑌C½𝑋C = 𝑥C) = 𝐸(𝛽j + 𝛽G𝑥C + 𝜀C)o Brengtonsuiteindelijktot:𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C
§ Wanthetgemiddeldevandefoutis0,zoalsvermeldindeassumpties
§ Opmerking:dezevergelijkingisnudeterministisch,erzijngeentoevalsvariabelenmeer.Wefocussennietmeeropéénrealisatievan𝑌C,maaropdeverwachtingvanallerealisatiesvan𝑌C.Danspeelthettoevalgeenrolmeer.
• Viadezeformulekanjepredictiesdoen(jehebtdegegevensvanvroeger/nu,jevoorspelthoehetlaterzalzijn)
• Devoorwaardelijkeverwachtingenvanallewaardenvan𝑥C zijnsamenzelfookeenlineairefunctie
• 𝑌C − 𝛽Õ − 𝛽G𝑥C = 𝜀C o Eenanderemanieromdefouttebekijkeno Defoutishetequivalentvanderesidueninde
beschrijvendestatistiek§ Herhaling:eenresiduisdeafwijkingtusseneen
puntenderegressielijn,deafstandhiertussen:𝒚𝒊 − 𝒚×(=yi−(b0+b1xi))
• Devariantievandefoutisdevariantievandepopulatieresiduen:𝑉(𝑌C − 𝛽Õ − 𝛽G𝑥C) = 𝑉(𝜀C)
Eigenschappen • Devoorwaardelijkeverwachting𝑌C iseenlineairefunctievan𝑥C
SamenvattingStatistiekII(2017)–EllaMattan
39
o Hetequivalentvanderegressielijnindebeschrijvendestatistiek
• Alswedezeformuleherhaaldelijktoepassenompredictiestemaken,danzullendepredictiesgemiddeldgenomencorrectzijn
7.2.3 DevoorwaardelijkevariantieV(YؽXØ = xØ)
Watishet? DevariantievanYondervoorwaardedatXgelijkisaaneenbepaaldewaardex
Notatie 𝑉(𝑌½𝑋 = 𝑥)
Formule 𝑉(𝑌C½𝑋C = 𝑥C) = 𝜎ÔM
àDitisonafhankelijkvan𝑥C:dewaardevanxheeftgeeninvloedopdevoorwaardelijkevariantie
Uitlegbijformule
• Oorspronkelijk:𝑉(𝑌C½𝑋C = 𝑥C) = 𝑉(𝛽j + 𝛽G𝑥C + 𝜀C)o Jemoetrekeninghoudenmetdestellingoverdesomvanvariantieso Als je dit verder uitwerkt, kom je uit aan de bekomen formule:
𝑉(𝑌C½𝑋C = 𝑥C) = 𝜎ÔM
7.2.4 Decorrelatiecoëfficiënt
Watisdelink,hetverband?
Zowellineairmodelalscorrelatiecoëfficiëntgaanoverlineairesamenhang
Formule 𝛽G = 𝜌L` ∗𝜎`𝜎L
7.2.5 Afsluiter
• Wehebbenlineairmodelgeanalyseerdvanuiteenkansrekenen-perspectief• Heeftbetrekkingtottoevalsvariabeleninpopulaties• 3parameters:𝛽G,𝛽Õen𝜎ÔM
o Dezezijnbijnaaltijdonbekend
7.3 Puntschatting(vandeparameters)
• Vragendiebeantwoordwordenbijditonderdeelo Alsweervanuitgaandathetlineairmodelgeldt…
§ …Watzijndewaardenvan𝛽G,𝛽Õen𝜎ÔM?§ …Hoevindenwe𝜌L`?§ …Hoekunnenwedieparametersschattenopbasisvaneensteekproef?
7.3.1 Puntschattingvan𝛽1
Deschatter 𝛽G = 𝐵G 𝑏G=dewaardeuitdesteekproefàZuiverenefficiënt
Devariantievan𝐵G Formule:𝑉(𝐵G) =¯Ù¨
NNO= ¯Ù¨
(ETG)ÚO¨
SamenvattingStatistiekII(2017)–EllaMattan
40
Overdezevariantie Wewillendatdiezokleinmogelijkis!àHoegaanweditbeïnvloeden?
• 𝜎ÔMmoetzokleinmogelijkzijno 𝜀representeerthettoeval:alleswatwenietcontrolereno Wewillenineenexperimentelesettingzoveelmogelijk
variabelenconstanthouden• nmoetzogrootmogelijkzijn• 𝑠LMmoetzogrootmogelijkzijn
o DooreenbrederangevanXwaardentekiezen
7.3.2 Puntschattingvan𝛽𝑂
Deschatter 𝛽j = 𝐵j 𝑏juitdesteekproefàZuiverenefficiënt
Devariantievan𝐵j Formule:𝑉(𝐵j) = 𝜎ÔMGE+ J¨
(ETG)ÚO¨ = 𝜎ÔM
GE+ J¨
NNO
Overdezevariantie Wewillendatdiezokleinmogelijkis!àHoegaanweditbeïnvloeden?
• 𝜎ÔMmoetzokleinmogelijkzijno 𝜀representeerthettoeval:alleswatwenietcontrolereno Wewillenineenexperimentelesettingzoveelmogelijk
variabelenconstanthouden• nmoetzogrootmogelijkzijn• 𝑠LMmoetzogrootmogelijkzijn
o DooreenbrederangevanXwaardentekiezen
7.3.3 Depredicties
Predictievanlineairmodel
• Formule::𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C o Wekennendewaardenvanonzeparametersniet,duswe
schattenzeviadeschatters𝐵Gen𝐵jo Wekunnenineenspecifiekesteekproefderealisaties𝑏Gen
𝑏jberekenenvoorhunovereenkomendeschatter
Deschattervandepredictie𝒀×
• Opniveauvandeschatters:𝑌¶ = 𝐵Õ − 𝐵G𝑥C • Opniveauvandespecifiekesteekproef:𝑦¶ = 𝑏Õ − 𝑏G𝑥C
Variantievandeschatter𝒀×
𝑉(𝑌𝑖) = 𝜎ÔM1𝑛+(𝑥C − 𝑥)M
(𝑛 − 1)𝑠LM= 𝜎ÔM
1𝑛+(𝑥C − 𝑥)M
𝑆𝑆L
Algemeen • Hoedichter𝑥C bijhetgemiddelde𝑥is,hoekleinerdevariantie,hoebeterdepredictie
SamenvattingStatistiekII(2017)–EllaMattan
41
7.3.4 Puntschattingvan𝜎ÔM
Deschatter
𝜎𝜀2 =
Deschatting
Sumofsquaredresiduals
• Symbool:𝑆𝑆ܾڕ Staatvoor 𝑌C − 𝑌C
M
• Dus𝜎ÔM =NNÝÞßETM
7.3.5 Puntschattingvan𝜌L`
Schatter 𝜌L` = 𝑅L`(metalsrealisatie𝑟L`)
7.4 Intervalschatting
Extra veronderstelling (bovenopGauss-Markovassumpties)
Foutenzijnnormaalverdeeld.
Watgaanwedoen? Betrouwbaarheidsintervallenberekenenomdeverschillende
parameterstekunneninschatten
7.4.1 Betrouwbaarheidsintervalvoor𝛽1
Betrouwbaarheidsinterval
OF
Tip Devariantievan𝐵Gmoetzokleinmogelijkzijn,danisjeintervalklein.
7.4.2 Betrouwbaarheidsintervalvoor𝛽0
Betrouwbaarheidsinterval
OF
SamenvattingStatistiekII(2017)–EllaMattan
42
Tip Devariantievan𝐵Gmoetzokleinmogelijkzijn,danisjeintervalklein.
7.5 Toetsing
Veronderstellingen • DeGauss-Markovassumpties• Defoutenzijnnormaalverdeeld
Denulhypothese 𝐻j: 𝜌L` = 0
𝐻j: 𝛽G = 0
à Beiden zijn equivalent, doorhet verband tussen𝜌L` en𝛽G (zieformule)àDehypothese𝐻j: 𝛽Õ = 0 isnietvaakrelevant,dusbekijkenwehier niet.àWegaanalleenverdermet𝑯𝟎: 𝝆𝑿𝒀 = 𝟎
7.5.1 Toetsenvanhetlineairmodelviadet-verdeling
Toetsingsgrootheid
volgenseent-verdelingmetn-2vrijheidsgraden
Voorwaarden • Yo Continuo Intervalofratio
• Xo Dichotoomo Intervalofratio
• Defoutenzijnnormaalverdeeld
Stappenplan&R-code • Eerstnagaanofde foutennormaal verdeeld zijn: Shapiro-Wilktoets,toegepastopderesiduen
o R-code:shapiro.test(residuals(data))o Kijkennaarp-waardeomtebeslissenovernulhypothese
(nulhypothese=zezijnnormaalverdeeld)• Schattingenvan𝛽jen𝛽Gopvragen
o R-code:coef(data)§ Deoutput:hetlinkergetalis𝛽j,hetrechtergetal
is𝛽G• Derealisatievandetoetsingsgrootheidberekenen
o Deschattingvan𝛽Gkanjegebruikeninjeformuleo Rekening houden met de verdeling en het aantal
vrijheidsgraden• Dep-waardevoorderealisatievandetoetsingsgrootheidonder
denulhypotheseopvrageno Opgelet: tweezijdige alternatieve hypothese, dusmaal
2!o R-code:2*pt(…)
SamenvattingStatistiekII(2017)–EllaMattan
43
o Als deze kleiner is dan het significantieniveau:nulhypothese verwerpen, wat betekent dat er eenlineairverbandisindepopulatie
7.5.2 ToetsenvanhetlineairmodelviadeF-verdeling
Ditiseentweedetechniek,volledigequivalentaandeeerste
Hetnulmodel • Wegaan2modellenkiezen:hetlineairmodelenhetnulmodel• Nulmodel:hetlineairmodel,maarmetdebeperking𝜷𝟏 = 𝟎
o 𝑌C = 𝛽j + 𝜀C o Eenlineairmodelzonderpredictoro Predicties:𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽jo Defout:𝑌C − 𝛽Õ = 𝜀C
§ Het verschil tussen de werkelijke waarde en depredictie
o Schatter:𝑌¶ = 𝐵Õ = 𝑌o Aldezeformuleszijnafteleidenuitdeformulesvanhetlineair
model
Selectie • Lineairmodel(met1predictor)isflexibelerdanhetnulmodelo Degegevensfittenbetero Deregressielijnkomtbeterovereenmetdepuntenwolko Desomvandegekwadrateerderesiduenvanhetlineairmodel
iskleinerdandievanhetnulmodel§ Maarisditverschilgrootgenoegomtebeslissendatdit
niettoevalligis?Omtebeslissendathetlineairmodelmet1predictorgeldigis?
• Wegaanhetverschil“𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚGanalyseren
Formule (𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚG)𝑆𝑆ܾÚG/(𝑛 − 2)
~𝐹G,ETM
𝑑𝑓j=aantalvrijheidsgradennulmodel=n-1𝑑𝑓G=aantalvrijheidsgradenlineairmodel=n-2
DezeverhoudingisdanF-verdeeld,met𝑑𝑓j − 𝑑𝑓Gvrijheidsgradenindenoemeren𝑑𝑓Gvrijheidsgradenindeteller
Indepraktijk–stappenplan
• 𝑆𝑆ܾÚÕen𝑆𝑆ܾÚGberekenen(gewoonviaformule)• Verhoudingberekenen(formule:ziehierboven)• De kans berekenen dat F toevallig groter is dan de realisatie van de
verhoudinginonzesteekproefo Éénzijdigep-waardeberekenen
§ OmdatalleenhogewaardenvandeF-verhoudingleidennaareenverwerpingvandenulhypothese
§ R-code: pf (q= de verhouding, df1=1 (staatbeschreven in de formule hierboven) , df2=n-2,lower.tail=FALSE)
o Als deze kans kleiner dan 5% is, dan verwerpen we denulhypothese
SamenvattingStatistiekII(2017)–EllaMattan
44
7.6 Dedeterminatiecoëfficiënt𝑅M
Logica erachter – debeginformule
• Tweedelenindezeformule(aangeduidviarodecirkels)
o Tweedeterm§ 𝑺𝑺𝑹𝒆𝒔:sumofsquaredresiduals§ Hebben we al eerder gezien in de cursus, niet
nieuw§ Desomvandegekwadrateerderesiduen,vande
fouten§ Wat het lineair model met één predictor niet
verklaart§ Eigen woorden: voor de gegevens de afwijken
vanhetmodel,deresiduen,defouten.Dedingendiedoorhettoevalzijnbepaald.
o Eersteterm§ 𝑺𝑺𝑴𝒐𝒅:sumofsquarespredictedbijthemodel§ Desomvandegekwadrateerdeafwijkingendie
verklaard of voorspeldworden door het lineairmodelmetéénpredictor
§ Wat het lineair model met één predictor welverklaart
§ Eigenwoorden:voordegegevensdieeffectiefbijhetmodelhoren,dieinlijnliggenmethetmodel
• Dus:𝑆𝑆` = 𝑆𝑆è\é = 𝑆𝑆ê\¿ + 𝑆𝑆ܾÚo Eigen woorden: 𝑆𝑆è\é staat voor het totaal. Zowel de
gegevensdiekloppenmethetmodelalsdegegevensdieafwijken.
DevariantievanYineenspecifiekesteekproef
Determinatiecoëfficiënt𝑅M–formule
𝑅M–notatie • Altijdhoofdletter:zowelvoordesteekproefgrootheidalsde
realisatieineenspecifiekesteekproef• Erisgeenspecifieksymboolvoordepopulatieparameter
𝑅M–eigenschappen • 𝑅Mgeeftaanhoeveel%vandevariantievandeafhankelijkevariabelewordtverklaarddoordeonafhankelijkevariabele.
• Altijdtussen0en1o Altijdpositiefofnul:omdat𝑆𝑆ê\¿ en𝑆𝑆ܾÚsommenvan
kwadratenzijno Altijdkleinerofgelijkaan1:omdat𝑆𝑆ê\¿ ≤ 𝑆𝑆è\é
SamenvattingStatistiekII(2017)–EllaMattan
45
𝑅M–enkelegevallen
𝑅M–linkmetcorrelatie • Opgelet:enkelbijhetlineairmodelmetéénpredictor
• Dedeterminatiecoëfficiënt𝑅M=𝑟M:hetkwadraatvandecorrelatiecoëfficiëntr
• 𝑅Menrbevattendusexactdezelfdeinformatieo Alleengeeft𝑅Monsgeeninfooverhettekenvanhet
verband(stijgendofdalend)
Deaangepastedeterminatie-coëfficiënt
• 𝑅Misgebaseerdopeensteekproef,metnobservaties• Nuwillenwedepopulatie-𝑅Mschatten
o Formule:𝑅M = 1 − 1 − 𝑅M ∗ 𝑛−1𝑛−𝑝−1
§ P=hetaantalpredictoreno Formulevoormodelmetéénpredictor:𝑅M = 1 −
1 − 𝑅M ∗ 𝑛−1𝑛−2• Aangepastedeterminatiecoëfficiëntisaltijdkleinerofgelijkaan𝑅M
7.7 DeRfunctie‘summary’
Watdoethet? Geeftalleinfovanhetlineairmodelin1keervrij
R-code summary(lm(formula=vector1~vector2))
Output • Eersteregelo Infooverderesidueno Gemiddeldewordtnietgetoond
§ Wantgemiddeldevanresiduenisaltijd0o Mediaan:beetjekleinerdan0
§ Groterverschiltoontaandatverdelingnietsymmetrischisendatdeverdelingvandefoutmisschiennietnormaalis
o Eersteenderdekwartiel§ Bijnasymmetrisch§ Sterkere assymetrie toont aan dat verdeling niet
symmetrischisendatdeverdelingvandefoutmisschiennietnormaalis
o Minenmax§ Bijnasymmetrisch
SamenvattingStatistiekII(2017)–EllaMattan
46
§ Sterkere assymetrie toont aan dat verdeling nietsymmetrischisendatdeverdelingvandefoutmisschiennietnormaalis
• Tweederegelo Derijen(horizontaal)
§ Eersterij:infoover𝛽j§ Tweederij:infoover𝛽G
o Dekolommen(verticaal)§ Estimate: de schatting van de corresponderende
parameter§ Std.Error: de standaardfout of standaarddeviatie van de
corresponderendeschatter§ T.value: dewaarde van de t-verdeelde statistiek diewe
gebruikenomdecorresponderendehypothesetetoetsen§ Pr(>ItI):decorresponderendep-waarde
• Derderegelo Residualstandarderror:𝜎ÔMo MultipleR-squared:𝑅Mo AdjustedR-squared:aangepaste𝑅Mo P-value:p-waardevoorhetvolledigemodelo F-statistic:hetresultaatvandemodelselectie;derealisatie𝑓∗van
de F-toetsingsgrootheid met vermelding van het aantalvrijheidsgraden
7.8 Depowervandetoetsvan𝐻j: 𝛽G = 0
R-code pwr.r.test(n=…,r=…,sig.level=…)
OpmerkingbijR-code&concreetgebruik
• Jehebtdecorrelatiecoëfficiëntnodigvoorjehypothese.• Indeoefeningkrijgjedewaardevan𝛽G,diejewensttekunnen
detecterenalsditzichvoordoet.o Viadezewaardevan𝛽Gberekenjedandeschattingvande
correlatieo Gebruikhierbijdeformule𝛽G = 𝜌L` ∗
¯ë¯O
§ Jekent𝜎Len𝜎`vaakniet,dusdezemoetjeschattenopbasisvandesteekproef
7.9 DevaliditeitvandeGauss-Markovassumpties
• Heel wat verschillendemethoden hiervoor, wij zien alleen een zeer eenvoudige intuïtievetechniek:devisueleanalysevanhetspreidingsdiagramomdehomoscedasticiteitsassumptienategaan
Homoscedasticiteits-
assumptie
Devariantievandefout𝑽 𝜺𝒊 isonafhankelijkvan𝒙𝒊.Hetisgelijkaaneenconstante𝝈𝜺𝟐.Gevolg:devoorwaardelijkevariantieisconstant,onafhankelijkvan𝒙𝒊.
Visueleanalysevanhetspreidingsdiagram
Wegaansnedeninhetspreidingsdiagrambekijken.
SamenvattingStatistiekII(2017)–EllaMattan
47
VOORBEELD1
• 3sneden,omkaderddooreenrechthoek.Elkesnedestaatvoor
1x-waarde• Depunten(parallelaandeverticaleas)zijnongeveerbijelke
snedeevenveelgespreido Degeobserveerdevoorwaardelijkevariantieszijndus
ongeveeridentiekaanelkaaro Dedrievoorwaardelijkepopulatie-variantieszijn
waarschijnlijkookidentiekaanelkaar
VOORBEELD2
• Hierzijndepuntenpersnedenietevenveelverspreid• Devoorwaardelijkepopulatie-variantieszijnduswaarschijnlijk
nietallemaalidentiek• Gevolg:wemogenhetlineairmodelnietgebruikenomhet
verbandtussendevariabelenteanalysereno Ditprobleemkomtvaakvooralsdeafhankelijke
variabelevanratiomeetniveauis
SamenvattingStatistiekII(2017)–EllaMattan
48
7.10 Opmerkingm.b.t.softwarepaketten
• De waarden van de regressiecoëfficiënten zijn sterk afhankelijk van de schaal waarop devariabelenXenYgemetenworden
• Omregressiecoëfficiëntenonderlingtekunnenvergelijken:dedatastandaardiseren(zodatderegressiecoëfficiëntenookgestandaardiseerdzijn)
o FormuleomXtestandaardiseren:JîTJÚ
o DitdanookopYtoepassen
7.11 Meervoudigelineaireregressie:sneakpreview
Voorbeeldsituatie • Jehebt3variabelenwaarbijjehetverbandwiltweten• Mogelijkheid: 2 aparte enkelvoudige lineaire regressies uitvoeren
(AVenOV1,AVenOV2)o Nadelenbijdezewerkwijze
§ Jevoert2toetsenuit,elketoetsheefteenkansaopeenfoutvandeeerstesoort.Detotalekansopeenfoutvandeeerstesoortisnugroterdana
§ Hetzijn2afzonderlijkeverbanden:jeweetniksoverhetglobaleverbandtussendedrievariabelen
§ Inelketoetsgebruikjemaareendeelvandedata,jegebruiktopgeenenkelmomentallebeschikbaregegevens.
• Tweedemogelijkheid:meervoudiglineairmodelgebruiken
Meervoudiglineairmodel
• EenmodelwaardeAVdoormeerderepredictorenvoorspeldwordt• 𝑌C = 𝛽j + 𝛽G𝑥C + 𝛽M𝑥MC + 𝛽Ñ𝑥ÑC + ⋯+𝜀C • Ditmodelismoeilijkertetoetsen
o Deuitkomstisnietmeerbinair,hetisnietmeervan‘hetmodelgeldtofniet’
o Erzijnmeerderemogelijkeuitkomsten§ Hetmodelgeldtmet2predictoren§ Hetmodelgeldtmetdeeerstepredictor§ Hetmodelgeldtmetdetweedepredictor§ Hetmodelgeldthelemaalniet
o Ergcomplex,daarombekijkenwehetnietindezecursus
Stappenplan&R-code • Ookdefunctie‘lm()’gebruikeno Voorde~:deafhankelijkevariabeleo Nade~:delijstvanallepredictoren
§ Tussendepredictoren:+§ Devolgordevandepredictorenisvangeenbelang
• Functie‘summary()’gebruikeno Volledigeoutputistecomplexvoorons,kennenweniet
allemaalo Kijkennaaralgemenep-waarde(staathelemaalonderaan
output)enopbasishiervanbesluitenovernulhypothese
Algemeneopmerkingbijwoord‘predictor’
• Ditstaatvoor‘voorspellendevariabele’endusonafhankelijkevariabele
SamenvattingStatistiekII(2017)–EllaMattan
49
Hoofdstuk8:variantie-analyseofANOVA
8.1 Inleiding
Illustrerendeoefening Ziesyllabusp.169
ANOVA? Staatvoor‘analysisofvariance’àvariantie-analysedus
Een eerste introductie:voor welk probleemstaanwe?
• Wehebbenverschillendesteekproeven,meerdan2.• Wewillenwetenofergemiddeldgezienverschillenzijn tussende
steekproeven.o Wekijkennaardevariantiesvandegemiddeldenbijmeer
dan2steekproeven• We hebben een statistische toets nodig die de verschillende
verwachtingenonderlingvergelijkt
Overzichtpopulatie–soorttoets
• Verwachtingenbij2populaties:t-toets• Verwachtingenbijmeerdan2populaties:variantie-analyse
R-codes • Omhetgemiddeldevanallegroepentehebben:mean()• Om het gemiddelde van elke groep apart te krijgen:
aggregate(formula=AV~OV,FUN=mean)o HetargumentFUN:
§ Afkortingvan‘functie’§ Daarmee zeggen we aan R wat het exact moet
berekenen§ Je kan evengoed opdragen om de variantie of de
mediaan ofzo te berekenen (FUN=variance,FUN=median…)
• Gegevensvisueelanalyseren:viaboxploto Dan krijg je visueel overzicht over de mediaan en de
variantie
Voorwaarden • OV:categorisch• AV:ratioofinterval
8.2 Heteffectenmodel
Linkmetlineaireregressie(H7)
• Gemeenschappelijko Zelfdelogicaerachter:wewillendeafhankelijkevariabelen
verklarendoordeonafhankelijkevariabelen• Verschillend
o Bijeffectenmodel:deonafhankelijkevariabeleiscategorisch!
§ Bij lineaire regressiewasdit vanminstens intervalniveau
Enkeletermen • Afhankelijkevariabele:derespons• Onafhankelijkevariabele:defactor
o Defactorheefteenaantalniveaus:
SamenvattingStatistiekII(2017)–EllaMattan
50
§ Hetaantalgroepenofpopulatiesdieweonderlingwillenvergelijken
§ SymboolI(hoofdletteri)
Heteffectenmodel • Er isaltijdeengemeenschappelijkeverwachtingµ:ditoverkoepeltalleniveaus
• Elk niveau van de factor heeft een effect op de afhankelijketoevalsvariabeleY
• Alswede2bovenstaandepuntjes ineenstatistischmodelgieten,dankrijgenwe:𝑌C� = 𝜇 + 𝛼C
o DeafhankelijkevariabeleYvoorhetindividuk,onderniveaui
o 𝛼C =deafwijkingdiecorrespondeertmetgroep i,hoeveelgroepiverschiltvanhetalgemeengemiddelde
• Ditmodelisfout:kloptnietmetdewerkelijkheid!o Voor elk individu in groep i voorspelt het model exact
dezelfdewaarde:𝜇 + 𝛼C o Alsofergeenonderlingeverschillenzijntussendeledenvan
groepio De individuen binnen 1 groep hebben uiteraard iets
gemeenschappelijks, maar er zijn nog steeds allerleispecifieke kenmerken per persoon, die ook een effecthebbenopY!
o We moeten dus rekening houden met het toeval: defouttermeinbrengen
• Heteffectenmodelvoorenkelvoudigevariantie-analysemetéénfactormetIniveaus:
o 𝑌C� =toevalsvariabeleYbijindividukonderniveauivande
factoro 𝜇isdegemeenschappelijkeverwachting(eenconstante)o 𝛼C isheteffectvanniveauivandefactor(eenconstante)o eC� isdefoutterm(toevalsvariabele)bijindividukonder
niveaui(ofingroepi)
8.2.1 Assumpties
Gauss-Markovassumpties
Dit model heeft enorm veel parameters (zoals de enkelvoudigeregressie),wegaandezereducerendoordeGauss-Markovassumptiesaantenemen:
4. 𝐸 𝜀C� = 𝑂vooralleia. Deverwachtingvandefouthangtnietafvanhetindividu
5. 𝑉 𝜀C� = 𝑉 𝜀�£ voorallei,j,k,l.a. Devariantie vande fouthangtniet af vanhet individu (=
homoscedasticiteit).b. Dezeconstantevariantiewordtaangeduiddoor𝜎ÔM
6. 𝐶𝑂𝑉 𝜀C�, 𝜀C� = 0voorallei,j,k,l.a. Defoutbijindividuiisnietgecorreleerddefoutbijindividu
j(geenseriëlecorrelatie)
Resultaat:eenpakminderparameters!
SamenvattingStatistiekII(2017)–EllaMattan
51
8.2.2 Devoorwaardelijkeverwachting𝐸(𝑌C�)𝑜𝑓𝜇C
Voorwaardelijkeverwachting
𝐸(𝑌C�Iindividukingroepi) = 𝐸(𝑌C�) = 𝐸(𝜇 + 𝑎C + 𝜀C�)
Formule 𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C
Opmerkingbijformule • Dezevergelijkingisnudeterministischo Wewerkenmetgetallen,geentoevalsvariabeleno We focussen niet meer op één realisatie maar op de
verwachtingvanallerealisatiesvan𝑌C� • Dezevergelijkingkunnenwegebruikenompredictiestemaken
o Hetverschiltussen𝑌C� endepredictievan𝑌C�:deerrorterm𝜀C�
§ § Hetzelfdealsdefoutenofpopulatie-residuenbijhet
lineairmodel
8.2.3 Devoorwaardelijkevariantie
Formules 𝑉 𝑌C� = 𝑉 𝜇 + 𝑎C + 𝑉 𝜀C� + 2𝐶𝑂𝑉(𝜇 + 𝛼C, 𝜀C)
𝑉 𝑌C� = 𝜎ÔM
Overgang van formule 1naarformule2–logica
• 𝑉 𝜀C� = 𝜎ÔM• 𝑉 𝜇 + 𝑎C = 0,wantditiseengetal• 2𝐶𝑂𝑉 𝜇 + 𝛼C, 𝜀C = 0wantookditiseengetal
Eigenschappen formule𝑉 𝑌C� = 𝜎ÔM
• Onafhankelijkvanienk• Devariantie van 𝑌C� is dusdezelfde in elke groep, ook al zijnde
verwachtingennietidentiek
8.2.4 Identificeerbaarheid
Verschillendeeffectenmodellen
SamenvattingStatistiekII(2017)–EllaMattan
52
Overdezemodellen
• Deafstandentussendeµ(hetalgemeengemiddeldeoverallegroepen)ende𝛼G, 𝛼M𝑜𝑓𝛼Ñzijnvoorelkmodelevengroot
• Daardoor zijn de 3 voorwaardelijke verwachtingenof predicties voor elkmodelookhetzelfde
o Dit is logisch als je kijkt naar de formule voor devoorwaardelijkeverwachting:𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C
• Defoutenzijnookhetzelfdepermodelo Kanjebegrijpenalsjekijktnaardeformulevandefout:
àDeafstandentussendeµende𝛼G, 𝛼M𝑜𝑓𝛼Ñzijnvoorelkmodelevengroot,dushetgeenwatoverblijftzonderdeµen𝛼C isookevengroot
• DUS…o Alle3demodellenleidentotdezelfdepredictieso De modellen zijn empirisch onmogelijk van elkaar te
onderscheiden:zezijnequivalentvanuitempirischperspectiefo Dit is zo voor alle modellen waarvoor geldt dat 𝜇ðð = 𝜇 +
𝑡𝑒𝑛𝛼Cðð = 𝛼C − 𝑡𝑣𝑜𝑜𝑟𝑖 = 1, … , 𝐼.§ Er zijn dus oneindig veel equivalente modellen:
probleem!!§ Heteffectenmodelisnietidentificeerbaar
• Om dit probleem op te lossen: gebruik maken van restricties voor deparameters
Restrictie1:Sigma-restrictie
• Algemeen:deµkrijgjeenjemoetdewaardenvan𝛼C kiezeninfunctievanµvolgensdevolgendevoorwaarde
o Werkenvolgensdeformule𝜇C = 𝜇 + 𝑎C o 𝑎C iswatjenogbij𝜇C moettoevoegenofaftrekkenomtot𝜇te
komen• Devoorwaarde:desomvanalle𝛼C is0
o o Sommige𝛼C’szijnpositief,anderenegatief,zodatdesom0is.
• Illsutratiehiervan:model1
Restrictie2:GLM-restrictie
• Algemeen:deµkrijgjeenjemoetdewaardenvan𝛼C kiezeninfunctievanµvolgensdevolgendevoorwaarde
o Werkenvolgensdeformule𝜇C = 𝜇 + 𝑎C o 𝑎C iswatjenogbij𝜇C moettoevoegenofaftrekkenomtot𝜇te
komen• Devoorwaarde:éénvande𝛼C’s=0
o Logicaerachter§ Jeneemtdewaarde𝜇C vanééngroepals
referentiepunt:ditisdanje𝜇.Hierbijisde𝛼C dan0,wantjemoetniksmeerbijrekenenomtotdieµtekomen.
§ Voordeandere𝛼C’sbepaaljedezedusinfunctievandereferentie-µ
• Jebekijktpergroephoeveelernogbijdespecifieke𝜇C voordiegroepmoetbijgerekend
SamenvattingStatistiekII(2017)–EllaMattan
53
ofafgetrokkenwordenomtotdealgemeneµtekomen.Hoeveelerdanmoetbijgerekendofafgetrokkenisje𝛼C
• Illustratiehiervan:model2
8.2.5 Afsluiter
• Wehebbeneffectenmodelgeanalyseerdvanuiteenkansrekenen-perspectief• Heeftbetrekkingtottoevalsvariabeleninpopulaties• I+2parameters:
o Iparameters:𝛼G, … , 𝛼ò o 2parameters:µen𝜎ÔM
• Doorderestrictie(SigmaofGLM)iséénvandeparametersafhankelijkvandeandereno WehoevendusslechtsI+1parametersteschatteno De(I+2)-deparameterwordtautomatischbepaalddoorderestrictie
8.3 Puntschatting
Devragendieweons stellen in ditonderdeel
AlsweaannemendatheteffectenmodelgeldttussenXenY…
…watzijndanwewaardenvanonzeparameters?
…Hoekunnenwedeparametersschattenopbasisvaneensteekproef?
Hetantwoordhierophangtafvandesoortrestrictiediewegebruikthebben!
8.3.1 Sigma-restrictie
Schattervan𝜇
àgemiddeldevanIsteekproefgemiddeldenàZuiverenefficiënt
Schattervana
àAfwijkingtussenhetcorresponderendesteekproefgemiddeldeen𝜇
8.3.2 GLM-restrictie
Schattervan𝜇 𝜇 = 𝑦òàHetsteekproefgemiddeldevangroepI
Schattervana
àAfwijkingtussenhetcorresponderendesteekproefgemiddeldeen𝜇
SamenvattingStatistiekII(2017)–EllaMattan
54
8.3.3 Depredicties
Predicties van heteffectenmodel
𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C
• Indepraktijkkennenwe𝜇en𝑎C niet• Wegebruikendeschattingen𝜇en𝑎¶
Formule voor deschatting van depredicties van heteffectenmodel
𝐸(𝑌¶�) = 𝜇¶ = 𝑦C = 𝜇 + 𝑎¶ = 𝑦C
àOokdeschattingvaneenpredictiewordtgewooneenpredictiegenoemd
àDeschattingenvandepredictieszijndezelfdevoordeSigma-restrictieendeGLM-restricties
àOpmerking:𝑦C isdeschattingvan𝐸(𝑌C�)ennietvan𝑦C,nietverwarren!
8.3.4 Puntschattingvan𝜎𝜀2
Schattervan𝝈𝜺𝟐
àZuiverenefficiënt
Schattingvan𝝈𝜺𝟐
OF
8.4 Toetsing
Assumpties Wegaanuitvan……Gauss-Markovassumpties…hetideedatdefoutennormaalverdeeldzijn:𝜀C�~𝑁(𝑂, 𝜎ÔM)
Nulhypothese 2manierenomdezeteformuleren.Beidezijnequivalent.
1. 𝐻j ∶ 𝛼G = ⋯ = 𝛼ò = 02. 𝐻j ∶ 𝜇G = ⋯ = 𝜇ò
àAllegemiddeldenzijnhetzelfde,erisgeeneffect
Alternatievehypothese
Horendebijdecorresponderendenulhypothese:
1. 𝐻Ã:minstenséénvande𝑎C’sisnietnul2. 𝐻Ã:minstenséénvande𝜇C’sverschiltvandeanderen
Techniekomdehypothesentetoetsen
Techniekleuntopdemodelselectie-aanpak,zoalsbijdelineaireregressie
SamenvattingStatistiekII(2017)–EllaMattan
55
8.4.1 Hetnulmodel
Kiezentussen2modellen..
• Wemoetenkiezentussenheteffectenmodelenhetnulmodel
Hetnulmodel • Beperkteversievanheteffectenmodel• 𝛼G = ⋯ = 𝛼ò = 0• Nulmodel:𝑌C� = 𝜇 + 𝜀C�
𝝁 schatten volgensnulmodel
• ViahetgemiddeldevanallewaarnemingenvanY
Predictiesmaken
à De predictie is onafhankelijk van de groep en van het individuà Logica erachter: hetmodel veronderstelt dat alle individuen getrokkenwordenuitéénpopulatie
Defout
Schattingvanpredicties
Residuen
Somvandegekwadrateerderesiduen Concreetindeoefeningen
• Alszevragenofalternatieveennulhypotheseoptestellen:bijditsoortoefeningenwiljewetenofereenverbandistussendevariabelen.
• Logicaerachter:o Kijknaarhetfunctievoorschriftvanjemodel&denknawat
eranderszalzijninjevoorschriftalsereenverbandtussendevariabelenisversusalsergeenverbandis.
o JewaardevanB1zalveranderen!§ Alsergeenverbandis:B1=0.Ditkomtovereenmet
hetnulmodelenditisonzenulhypothese§ Als er wel een verband is: B1 ≠ 0. Dit is onze
alternatievehypothese.
8.4.2 Selectie
Selectie • Effectenmodelmet1factorisflexibelerdanhetnulmodelo Degegevensfittenbeter
SamenvattingStatistiekII(2017)–EllaMattan
56
o Deregressielijnkomtbeterovereenmetdepuntenwolko Desomvandegekwadrateerderesiduenvanhetlineairmodel
iskleinerdandievanhetnulmodel§ Maarisditverschilgrootgenoegomtebeslissendatdit
niettoevalligis?Omtebeslissendathetlineairmodelmet1predictorgeldigis?
• Wegaanhetverschil𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚGanalyseren• Opmerking:degekwadrateerdesomvanderesiduenisafhankelijkvan
demeeteenheidendesteekproefgrootteenvanhetaantalparametersvandemodellen.
o Puur de getallen alleen zeggen vrij weinig, we kunnen hetverschilnietrechtstreeksinterpreteren!
o Omdeinvloedenteneutraliseren:zieformule
Formule (𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚG)/(𝐼 − 1)𝑆𝑆ܾÚG/(𝑛 − 𝐼)
~𝐹òTG,ETò
𝑑𝑓j=aantalvrijheidsgradennulmodel=n-1𝑑𝑓G=aantalvrijheidsgradeneffectenmodelmet1factor=n-I
DezeverhoudingisdanF-verdeeld,met𝑑𝑓j − 𝑑𝑓Gvrijheidsgradenindenoemeren𝑑𝑓Gvrijheidsgradenindeteller
Stappenplan • DekansberekenendatFtoevallig(onderdenulhypothese)groterisdanderealisatief*
o P-waardevandeF-verdelingberekeneno Als deze kans kleiner dan 5% is: dan verwerpen we
nulhypotheseo Eenzijdigep-waardeberekenen!Alleenhogewaardenvan
de F-verhouding zorgen voor een verwerping van denulhypothese!
8.5 Devariantiedecompositie
(decompositie=ontleden,wegaandevariantieinstukkenontleden)
De sum of squares:𝑺𝑺𝒀of𝑺𝑺𝑻𝒐𝒕
• Origineleformule:
• Dezeformulekunnenweopsplitsenin2delen
o Tweedeterm
§ § Bijlineaireregressie(H7):𝐒𝐒𝐑𝐞𝐬,sumofsquared
residuals§ Bijvariantie-analyse:𝐒𝐒𝐛𝐢𝐧𝐧𝐞𝐧§ Ditslaatophetgedeeltevandebevindingenwat
heteffectenmodelmetéénfactornietverklaart• Devariantieofspreidingbinnendegroep:
ditverklaarthetmodelnieto Eersteterm
SamenvattingStatistiekII(2017)–EllaMattan
57
§ § Bijlineaireregressie:SSýþÿ,sumofsquares
predictedbythemodel§ Bijvariantie-analyse:SS!"##$%§ Ditslaatophetgedeeltevandebevindingenwat
heteffectenmodelmetéénfactorwelverklaart• Devariantievandegemiddeldentussen
degroepen:ditverklaarthetmodelwel• 𝑆𝑆`bestaatdusuit2delen:hetdeeldathetmodelwelverklaart&het
deelwathetmodelnietverklaart.o 𝑆𝑆`staatdusinvoorallebevindingen:daaromwordthet
ookwel𝑆𝑆è\égenoemd
Eenoverzicht:SS&$#/SS'Ø%%$%enSSýþÿ/SS!"##$%
• SS&$#(lineaireregressie)=SS'Ø%%$%(variantie-analyse)=wathetmodelnietverklaart
• SSýþÿ(lineaireregressie)=SS!"##$%(variantie-analyse)=wathetmodelwelverklaart
• IllustratiebetekenisSS'Ø%%$%enSS!"##$%
o § Bijdezeafbeeldingisdespreidingbinnendegroep
heelgroot:elkeapartecurveisheelwijd,SS'Ø%%$%isgroot
§ Bijdezeafbeeldingisdespreidingtussendegroepenlaag:zeliggendichtbijelkaar,datkanjezienomdatelkegroepvooreengrootdeeloverlaptmeteenanderegroep.SS!"##$%isklein.
o § Bijdezeafbeeldingisdespreidingbinnenelkegroep
klein:elkeapartecurveissmal,neemtnietveelplaatsin.SS'Ø%%$%isklein
§ Bijdezeafbeeldingisdespreidingtussendegroepenhoog:zeoverlappenonderlingbijnaniet.SS!"##$%isgroot.
o Opmerkingbijafbeeldingen:degemiddeldenvandegroepenzijnhetzelfde,dusdatzegtduidelijkniksoverdespreiding!
VariantievanY:𝒔𝒅𝒀𝟐
àDeverklaardevariantie+deonverklaardevariantie
SamenvattingStatistiekII(2017)–EllaMattan
58
àOPMERKING:dezelfdenotatie(hoofdletter!)enformulewordtgebruiktvoorsteekproefgrootheidenvoorrealisatieinspecifiekesteekproef!àOPMERKING:geencorresponderendsymboolvoordepopulatieparameter
𝑅M
Demeanofsquares:𝐌𝐒𝐭𝐮𝐬𝐬𝐞𝐧en𝐌𝐒𝐛𝐢𝐧𝐧𝐞𝐧
• Degemiddeldekwadraten:eenkwadratensomgedeelddoorhetcorresponderendeaantalvrijheidsgraden
• MS!"##$% =,,-.//01òTG
• MS'Ø%%$% =ý,231101
ETò
F-verhouding SS!"##$%/(𝐼 − 1)𝑆𝑆ÉCEE¾E/(𝑛 − 1)
=𝑀𝑆é5ÚÚ¾E𝑀𝑆ÉCEE¾E
~𝐹òTG,ETò
• Wevergelijkendevariantietussendegroepenmetdevariantiebinnendegroep.
• Alsdezeverhouding≤1is,danaanvaardenwedenulhypothese
8.6 DeRfunctie‘aov’
Wat? OmalleberekeningenoverANOVAinéénkeeruittevoeren
Aov=analysisofvariance
R-code aov(formula=AV~OV)
UitlegbijR-code • Argument formula = om te zeggen welke variabelen je wiltanalyseren
• Outputo Deg.Offreedom:devrijheidsgradeno SumSq=Sumofsquares:dedecompositievande
somvankwadrateno MeanSq=meanofsquareso Estimated effects may be unbalanced: deze regel
mogenwenegeren,houdenwegeenrekeningmee
8.7 Depowervanvariantie-analyse
Deeffectgrootte
R-code Pwr.anova.test ( k=aantal groepen , n=aantal individuen in elke groep,
f=effectgrootte,sig.level=a)
àOPMERKINGbijn:alshetaantalindividueninelkegroepnietgelijkis,berekenenwehetgemiddeldevandegroepen&gebruikenweditvoordeR-code
SamenvattingStatistiekII(2017)–EllaMattan
59
8.8 DevaliditeitvandeGauss-Markovassumpties
Wat? JemoetcheckenofdeGauss-Markovassumptiesvantoepassingzijn,wantheeljehoofdstukisdaaropgebaseerd!Alsdeassumptiesnietvantoepassingzijn,danmagjeniksvanhethoofdstukdoen.
Variantiesvanallegroepenmoetenidentiekzijn:homoscedasticiteitsassumptienagaan
• Voor2varianties:hebbenwealeentoetsvoorgezien• Voormeerdan2varianties:deLevenetoetsofdeBartlett
toetso Zienwenietindecursus
• Hoeziejeditineengrafiek?o Ineenspreidingsdiagram:despreidingvande
bolletjesispergroepongeveergelijko Debolletjeszijndeindividuelebevindingen
Normaliteitvandefoutennagaan
• Shapiro-Wilktoets(endanp-waardeberekenen)
8.9 Nogeenvoorbeeld
Ziesyllabusp.185
8.10 Posthocmeervoudigevergelijkingen
Variantie-analyse JekrijgtinfooverofjegemiddeldenidentiekzijnofnietàJewilookwetenwaardeverschillenliggen(inwelkegroep),maarditkrijgjehierniet!
Berekenenwaardeverschillenliggentussengemiddelden
• Viagewonet-toetseno Jemoetalleverwachtingenpaarsgewijsvergelijkeno Datzijndan𝐼 ∗ (𝐼 − 1)/2t-toetseno Probleem:bijelketoetsiser5%kansdatjeeenfoutvande
eerstesoortmaakt.Pertoetsdiejeuitvoert,wordtdefoutopminstenséénfoutgroter!
• Dus:wemoetendet-toetsaanpassen
8.10.1 Correctievandekansopeenfoutvandeeerstesoort
Kansopeenfoutvandeeerstesoortberekenen
• BerekenenviadekansopGEENfoutvandeeerstesoorto Hetproductvanallekansenvandeeerstesoortvoorelke
t-toets§ Dusalsje3t-toetsengebruikt:(1-avoortoets1)*
(1-avoortoets2)*(1-avoortoets3)
o • Dekansopeenfout=100%-dekansopgeenfout• Hoemeergroepen,hoegroterdekansopeefoutvandeeerstesoort
SamenvattingStatistiekII(2017)–EllaMattan
60
o Bijveelgroepengaanwebijnazekerfoutenmaken!o Nietgoed!!Correctienodig!
Correctievoordekansopeenfoutvandeeerstesoort:Bonferronicorrectie
• Watdoenwe?o Wegaandewaardevana(dekansopeenfoutvande
eerstesoort)corrigerenvoorelket-toets:wemakendezekleiner!
o Onzeuiteindelijkekansopeenfoutvandeeerstesoort(voorallet-toetsensamen)zaldanookkleinerzijn
• Formule
o o a=dekansopeenfoutvandeeerstesoortbijéént-toetso a’=dekansopeenfoutvandeeerstesoortbijdegehele
reekspaarsgewijzevergelijkingen(bijhettotaaldus)§ Ditisdusdekansopminstens1foutieve
verwerping• Concreet
o Wekiezenonzekansopeenfoutvandeeerstesoortvoordegehelereekspaarsgewijzevergelijkingenzelf.Webepalenzelfhoegrootdezemagzijn.
o Vandaaruitvullenwedeformuleinenberekenenwehoegrootdekansopeenfoutvandeeerstesoortdanmaarmagzijnvooréént-toets
8.10.2 Correctievandeschattervandevariantie
Gewoneschatter • Toetsingsgrootheidvoorklassieket-toets:
o Indezeformule:deschattervande
gemeenschappelijkevariantievanY1enY2is:
Aangepasteschatter,vooralsermeerdan2groepenzijn
• Voorwaardeomvariantie-analysetegebruiken:allevariantiesmoetenidentiekzijn
o Wemoetenduseenschattergebruikendiegebaseerdisopallegegevens,nietalleenopdegegevensvan2groepen
• Schatter:𝑀𝑆ÉCEE¾E
• Toetsingsgrootheid: o EenStudent-verdelingmet𝒏𝟏 + 𝒏𝟐 − 𝟐
vrijheidsgraden• Toetsingsgrootheidingevalvan2groepen
SamenvattingStatistiekII(2017)–EllaMattan
61
o o Indezesituatiezijnklassiekeenaangepastet-toets
equivalent
8.10.3 Voorbeeld
Ziesyllabusp.188
8.11 Enkelvoudigevariantie-analysealseenlineairmodel
Waarovergaatvariantie-analyse?
Wegaanhetverbandtusseneenonafhankelijkecategorischevariabeleeneenafhankelijkevariabelevanratio-ofintervalniveauanalyseren
Watwillenwehierdoen? • Eeneffectenmodelomzettennaareenlineairmodel• Detruc:hulpveranderlijkengebruikenomdefactorente
hercodereno 2manierenomdittedoen
§ Effect-coderingvoorSigma-restrictie§ Dummy-coderingvoorGLM-restrictie
8.11.1 Effect-coderingenSigma-restrictie
Algemeen • WebeginnenbijeeneffectenmodelmetSigma-restrictiemet1factorenIniveaus
• DezetransformerenwenaareenlineairmodelmetI–1predictoreno Niveausàhulpveranderlijkenàpredictoreno Evenveelhulpveranderlijkenalspredictoren:I–1
§ Dehulpveranderlijkenzijndiscreet!• !!Andersdanbijdummy-codering!!
• Hetcodereno Alshetgaatomgroepi,dangaatdewaardevoorelkepredictor
(hulpvariabele)gelijkzijnaan0,behalve𝑿𝒊 = 𝟏o Als het gaat om groep I: de score voor elke predictor
(hulpvariabele)=-1§ Ditisdelaatstegroep
• Modeltoetsenviameervoudigelineaireregressieo R-code:lm()
§ Eigenlijk gek dat we deze code gebruiken, want hetstaatvoor ‘lineairmodel’, terwijlwevariantie-analysegebruiken! R weet dat we met een categorischevariabelewerken.
• Heteffectenmodelàhetgeschatte lineairemodelàheteffectenmodel(Hebaltijdeerstheteffectenmodelgenoteerd)
o 𝜇àIntercepto 𝛼C àRegressiecoëfficiënten
§ 𝛼ò = − 𝛼CòTGCTG
• p-waardevandeF-toets=p-waardevandevariantie-analyse
Concreet • Kijkennaarhetaantalgroepenbinnenjemodel
SamenvattingStatistiekII(2017)–EllaMattan
62
• Aantaldiscretehulpveranderlijkenbepalen:I–1o Dehulpveranderlijkenoemje𝑋G, 𝑋M, 𝑋Ñ, …
• Alshetindividu𝑙behoorttoteenbepaaldegroep,watzijndewaardenvandehulpveranderlijkendan?
o o Opmerking:inditvoorbeeldzijner4groepeninhetmodel.
• Effectenmodelomzettennaarlineairmodelo In het effectenmodel: het individu wordt aangegeven via
symbool𝑌C� (deresponsvariabelebijindividukvangroepi)o Lineair model: we gaan ander subscript gebruiken voor het
aangevenvanhetindividu§ Subscript 𝑙: het volgnummer van een individu binnen
eenvolledigesteekproefo Nieuweformuleringvanheteffectenmodel:formuleringvande
lineaireregressie§ Hier: voor een model met oorspronkelijk 4 groepen.
Wordtduseenlineairmodelmet3predictoren.
§ § Ditisvolledigequivalentaanheteffectenmodel!
OutputR-code • Voorbeeldvooreeneffectenmodelmet4groepen,enduseenlineairmodelmet3predictoren
• Eersterijcoëfficiënteno Het intercept van het geschatte lineaire model = 𝜇 van het
effectenmodelmetSigma-restrictie• Tweederijcoëfficiënten
o Deregressiecoëfficiënt𝛽GGvanX1uitdeformule=𝛼Gvanheteffectenmodel
• Derderijcoëfficiënteno Deregressiecoëfficiënt𝛽GMvanX2uitdeformule=𝛼Mvanhet
effectenmodel• Vierderijcoëfficiënten
o Deregressiecoëfficiënt𝛽GÑvanX3uitdeformule=𝛼Ñvanheteffectenmodel
• Voorjelaatstegroep,waarjegeenpredictorvoorhebt:o Inditvoorbeeldgaathetover𝛼6o Via de Sigma-restrictie berekenen: de laatste coëfficiënt = de
anderecoëfficiëntenaftrekken§ Inditvoorbeeld:𝛼6 = −𝛼G − 𝛼M−𝛼Ñ
o De laatste predictie = andere coëfficiënten aftrekken vanintercept
• …(telkensdezelfdelogicauitvoerenpercoëfficiënt)• Laatsteregel:p-waardevanjeF-toets
o Ditisdep-waardevoorjevolledigemodelo Als deze kleiner is dan jea (meestal 5%), dan verwerp je de
nulhypothese
SamenvattingStatistiekII(2017)–EllaMattan
63
8.11.2 Dummy-coderingenGLM-restrictie
Algemeen • Webeginnenbij een effectenmodelmetGLM-restrictiemet 1 factor en Iniveaus
• DezetransformerenwenaareenlineairmodelmetI–1predictoreno Niveausàhulpveranderlijkenàpredictoreno Evenveelhulpveranderlijkenalspredictoren:I–1
§ Dehulpveranderlijkenzijnbinair!• !!Andersdanbijeffect-codering!!
• Hetcodereno Alshetgaatomgroepi,dangaatdewaardevoorelkepredictor
(hulpvariabele)gelijkzijnaan0,behalve𝑋C = 1o Als het gaat om groep I: de score voor elke predictor
(hulpvariabele)=0§ Ditisdelaatstegroep
• Modeltoetsenviameervoudigelineaireregressieo R-code:lm()
§ R gaat automatisch de eerste groep als referentiekiezen,tenzijjeexplicietandersvermeldt
• Het geschatte lineaire model à het effectenmodel (Heb altijd eerst hetgeschattemodelgenoteerd)
o 𝜇àIntercepto 𝛼C àRegressiecoëfficiënten
§ 𝛼ò = − 𝛼CòTGCTG
p-waardevandeF-toets=p-waardevandevariantie-analyse
Concreet • Kijkennaarhetaantalgroepenbinnenjemodel• Aantaldichotomehulpveranderlijkenbepalen:I–1
o Dehulpveranderlijkenoemje𝑋G, 𝑋M, 𝑋Ñ, …• Alshetindividu𝑙behoorttoteenbepaaldegroep,watzijndewaardenvan
dehulpveranderlijkendan?
o o Opmerking:inditvoorbeeldzijner4groepeninhetmodel.
• Effectenmodelomzettennaarlineairmodelo In het effectenmodel: het individu wordt aangegeven via
symbool𝑌C� (deresponsvariabelebijindividukvangroepi)o Lineair model: we gaan ander subscript gebruiken voor het
aangevenvanhetindividu§ Subscript 𝑙: het volgnummer van een individu binnen
eenvolledigesteekproefo Nieuweformuleringvanheteffectenmodel:formuleringvande
lineaireregressie§ Hier: voor een model met oorspronkelijk 4 groepen.
Wordtduseenlineairmodelmet3predictoren.
§ • Ditisvolledigequivalentaanheteffectenmodel!
SamenvattingStatistiekII(2017)–EllaMattan
64
OutputR-code • Voorbeeldvooreeneffectenmodelmet4groepen,enduseenlineairmodelmet3predictoren
• Eersterijcoëfficiënteno Het intercept van het geschatte lineaire model = 𝜇 van het
effectenmodelmetGLM-restrictie• Tweederijcoëfficiënten
o Deregressiecoëfficiënt𝛽GGvanX1uitdeformule=𝛼Gvanheteffectenmodel
• Derderijcoëfficiënteno Deregressiecoëfficiënt𝛽GMvanX2uitdeformule=𝛼Mvanhet
effectenmodel• Vierderijcoëfficiënten
o Deregressiecoëfficiënt𝛽GÑvanX3uitdeformule=𝛼Ñvanheteffectenmodel
• …(telkensdezelfdelogicauitvoerenpercoëfficiënt)• Voorjelaatstegroep,waarjegeenpredictorvoorhebt:
o Inditvoorbeeldgaathetover𝛼6o Je𝛼ò is0,vanwegederestrictie
• Laatsteregel:p-waardevanjeF-toetso Ditisdep-waardevoorjevolledigemodelo Als deze kleiner is dan jea (meestal 5%), dan verwerp je de
nulhypothese
8.11.3 Simpeler
R-code • Commando:lm(formula=AV~OV)• Rgaatautomatischdehulpveranderlijkendefiniëren
o UitgaandevandeGLM-restrictie(alsjeditanderswilt,zaljehetdushandmatigmoetenberekenen)
o Heteersteniveauisdereferentieo Dummy-coderingdus,meteersteniveaualsreferentie.
8.12 BalancedenunbalancedANOVA
BalancedANOVA Eendesignwaarbijhetaantalindividuenidentiekisinelkegroep
(Opdatmomentkunnenweinprincipeeeneenvoudigeretechniektoepassenvooralonzeberekeningen:debalancedANOVA.Maarweziendezenietindecursus,omdatdezequasinooitvoorkomt.Ookalplanjeallemaalidentiekesteekproefgroottestehebben,doordropoutetc.luktditbijnanooit.WwijhebbendealgemeneANOVAgeziendievoorbeidesituatiesopgaat)
UnbalancedANOVA EendesignwaarbijhetaantalindividuenNIETidentiekisinelkegroep
SamenvattingStatistiekII(2017)–EllaMattan
65
Hoofdstuk9:categorischedata-analyse
• Categorischevariabelen:nominaalofordinaal,metweinigverschillendeniveauso ‘Weinigverschillendeniveaus’:minderdan10,meestalminderdan7of8
§ Ditiseerdereenvuistregeldaneenvasteregelo Nominaal:waardenzijnnietgeordendo Ordinaal:waardenzijngeordendo Dewaardenvandevariabelendoenerniet toe,het isnaarde frequentiesdatwe
kijken!§ Absolutefrequentiesofrelatievefrequenties(proporties)
o Heelwat techniekendiewe totnu toehebbengezien (toetsenenzo) zijnnietvantoepassingopdezevariabelen
§ Geen enkele van toepassing, behalve de toets voor 1 proportie of debinomialetoetsvoordichotomevariabelenmet2niveaus
• Deze kunnen we dus gebruiken voor 2 niveaus, voor meer dan 2niveausnietmeer!Dangaanweeenanderetoetsmoetenzoeken
• Bijdithoofdstuk:zeergoedkijkennaarhetmeetniveauvandevariabelen!o Verderkijkendanjeneus:sommigevariabelen(zoalslengteofgewicht)zijnnormaal
gezienaltijdvanminstensintervalniveau,maareigenlijkhangthetmeetniveauafvanhoemendevariabelegeoperationaliseerdheeft
§ Bv.Lengte:kanjeookuitwerkenintermenvan‘klein,middelmatigofgroot’:dit isniet interval,maarordinaal!Wanthet zijn subjectieve categorieënenzeerwaarschijnlijkisdebreedtevanelkecategorieooknietgelijk,dusabsoluutgeenintervalniveau.
9.1 Eénpopulatieenééncategorischevariabele
9.1.1 Inleidendvoorbeeld
Voorbeeldoefening:ziep.199
9.1.2 Samenvatting:Pearson’schi-squaredtoets
Watwillenwedoen? Wewillencontrolerenofdeproportiesindepcategorieënindepopulatiegelijkzijnaan𝜋G, … , 𝜋�(detheoretischeproporties)
Toetsingsgrootheid
Formule:
• Ditiseen𝜒M-verdelingmetalsaantalvrijheidsgraden:hetaantalmogelijkealternatieven-1
• Als er verschillen zijn tussen de geobserveerde en theoretischefrequenties, kan je via deze toetsingsgrootheid nagaan of dit heteffectvantoevalisofniet!
o Alsheteeneffectvantoevalis,danisditnietrelevantvoorde nulhypothese. Als het geen toeval is, dan is het welrelevantvoordenulhypothese!
SamenvattingStatistiekII(2017)–EllaMattan
66
• Opmerkingbijsymboolsteekproefgrootheido Ditisgewoonhetsymboolo GEEN variabele die we kwadrateren ofzo!à verwarrende
notatie,oplettenhiervoor• Logicaformule
o 𝑓C =degeobserveerdefrequentieso 𝑛𝜋C =detheoretischefrequentieso Bovenstedeelbreuk:gekwadrateerdeafwijkingeno Vierkantswortel:omhetkwadraattevereffenen(wantwe
kunnennietzomaarkwadrateren)o Onderstedeelbreuk:standaardisereno Sigma:optellen
• Na de berekening van de toetsingsgrootheid willen we besluitentrekkenoveronzenulhypothese
o Viakritiekewaarde𝑘�TG½ § Alsdewaardevandetoetsingsgrootheidgroterisdan
de kritieke waarde, dan verwerpen we denulhypothese
o Viaeenzijdigep-waarde§ 𝑃(𝑘�TGM ≥ 𝑋M)§ Alsdep-waardekleinerdan5%is,danverwerpenwe
denulhypothese
Voorwaardenvoortoetsingsgrootheid
• Alsweminderdan5categorieënhebbeno Geenenkeletheoretischefrequentiemagkleinerdan5zijno Alleendanwerktdezebenadering/techniekgoed.Alserniet
aandezevoorwaardeisvoldaan,magjedechi-squaredtoetsnietgebruiken!
• Alswemeerdan5categorieënhebbeno De theoretische frequentie mag kleiner zijn dan 5 bij
maximum20%vandecategorieën
Stappenplan 1. Dekansenberekenenzoalsdehypothesevandeonderzoekerdezebeschrijft,eenvectorhiervooraanmaken
2. Theoretischefrequentiesberekenena. Telkens𝑛 ∗ 𝜋C
3. Afwijkingen tussen de geobserveerde en theoretische frequentiesberekenen
a. Geobserveerdefrequenties–theoretischefrequenties4. Wewillendeafwijkingsamenvattenin1getal,opbasiswaarvanwe
danzullenbeslissenoverdenulhypothesea. Deafwijkingenkwadrateren
i. Zodatallegetallenpositiefzijnb. Standaardiseren
i. Omdatdegetallenandersafhankelijkzijnvandemeeteenheidendusmoeilijkonderlingtevergelijken.Doorhetstandaardiserenisditprobleemnietmeer.
ii. Elkegekwadrateerdeafwijkingdelendoordeovereenkomendetheoretischefrequentie
c. Allegestandaardiseerdegekwadrateerdeafwijkingenoptellen
SamenvattingStatistiekII(2017)–EllaMattan
67
d. Detotaalformule,alle3destappenin1keer:
i. Ditiseen𝝌𝟐-verdelingmetalsaantal
vrijheidsgraden:hetaantalmogelijkealternatieven-1
ii. Ditisonzetoetsingsgrootheidiii. Hoegroterditgetal,hoegroterdeafwijkingen
gemiddeldgezien5. P-waardeberekenenvoordetoetsingsgrootheid(rekeninghouden
metdeverdelingenaantalvrijheidsgraden)a. R-code:pchisq(q=…,df=…,lower.tail=FALSE)
• “lower.tail=FALSE“:omdatalleendegrotewaardenvanbelangzijn.Dekleineafwijkingenzijnvangeenbelangvoordenulhypothese
9.1.3 Isdedobbelsteenzuiver?
Illustrerendeoefening,ziep.202
9.1.4 DeRfunctie‘chisq.test’
R-code Chisq.test(x=…,p=…)
Uitlegbijcode • Hetargument‘x’:eentabelmetdegeobserveerdefrequenties• Hetargument‘p’:eenvectormetdetheoretischeproporties
Stappenplan • Eersteenvectoraanmakenmetdetheoretischeproporties• DandeR-functiegebruiken
9.1.5 Deinvloedvandemaanophetaantalgeboortes
Illustrerendeoefening Ziep.204
Opmerkingenbijoefening
• Alsjeeenaantalcategorieëningeeft,danweetRdevolgordehiernietvan.
o Bv.Inwelkevolgordedefasenvandemaankomen.o Alsjedaneentabelopvraagt,gaatRdecategorieën
automatischalfabetischordenen• Oplettendatjezekerverderkijktdanalleendeabsolutefrequenties!
o Hetkanzijndatdeenegroepveelmeervoorkomtdandeandere,gewoonomdatdezehierveelmeerkansopheeft(bv.Eengroteregroep:alserdubbelzoveelmensenzitteningroep1daningroep2,daniserookdubbelzoveelkansvoorgroep1.)
9.1.6 DepowervandePearsonchi-kwadraattoets
Watwillenwedoen? DepowerberekenenvandePearsonchi-kwadraattoets
àDitgaanwedoenviahetberekenenvandeeffectgrootte
SamenvattingStatistiekII(2017)–EllaMattan
68
Formule voor deeffectgrootte
• 2vectoren
o 𝜋j=deproportiesdieovereenkomenmetdenulhypotheseo 𝜋G = de proporties de overeenkomen met de specifieke
alternatievehypothese• Overdeformule
o Dezelijktopdeformulevan𝑋M,maarnuuitgedruktintermenvankanseninplaatsvanproporties
R-codeeffectgrootte ES.w1(P0=…,P1=…)
àP0=𝜋jàP1=𝜋G
Stappenplan • Effectgrootteberekenen• Powerberekenen
o R-code: pwr.chisq.test (w= effectgrootte , N=… , df=… ,sig.level=…)
9.2 Meerderepopulatiesenééncategorischevariabele
Frequentieverdeling • R-code:Table(variabele1,variabele2)• Symboolvoorfrequenties:𝒇𝒊,𝒋
o i=hetnummervanderij(horizontaal)o j=hetnummervandekolom(verticaal)
Relatievefrequentietabel • R-code:prop.table(x=devariabelen,margin=1)o Hetargument‘margin=1’voegjeeraantoeals jewilt
datdeproportiestelkensvoor1rijwordenberekendennietvoordegeheletabel
§ Dusdesomvandeproportiesperrijis1• Symboolvoordeproporties:𝑝�¥C (=deproportievankolomjin
riji)
9.2.1 Samenvatting
Watwillenwedoen? Wewillencontrolerenopdeproportiesindepcategorieënidentiekzijnindekpopulaties
àDegeobserveerdeproprties:𝑝G¥�, … , 𝑝�¥� alsdezenietidentiekzijn,danwillenwenagaanofdithetresultaatvantoevalisofniet
Homogeniteitstoets DezetoetsiseenandereversievandePearsonchikwadraat-toets.
Wegaannaofdekpopulatieshomogeenzijn.
Stappenplan 1. Detheoretischeproporties𝜋. 𝑗schattenonderdenulhypothese(voorelkeproportiej)
a. 𝜋. 𝑗 = �î,9:î;YE
SamenvattingStatistiekII(2017)–EllaMattan
69
i. Totaal aantal proefpersonen in die categoriegedeelddoordetotalesteekproefgrootte
ii. “𝜋. 𝑗“:hetpuntjetussende2lettersbetekentdatallerijensamenwordengeteld
1. Voordieenekolomwordtelkewaardeineenrijvoordiekolomsamengeteld.
iii. 𝑓C,� =deabsolutefrequentiesvoorienjb. Aan de hand van deze proporties kunnenwe dan het
verwachte aantal individuen in elke categorie en elkesteekproefberekenen,onderdenulhypothese
2. Derealisatievandetoetsingsgrootheidberekenen
a. b. Dit is een 𝝌𝟐-verdeelde toevalsvariabelemet aantal
vrijheidsgraden:(i–1)*(j–1)c. 1getalvoor3stappen:afwijkingentussende
geobserveerdeentheoretischefrequentieskwadrateren,standaardiserenenoptellen
d. Datgetalisdaneensamenvattingvandeafwijkingen.e. Hoe groter dit getal, hoe groter de afwijkingen
gemiddeldgezienzijnf. Ditgetalgebruikenweomeenbeslissingtemakenover
denulhypothese3. Beslissenoverdenulhypothese
a. Viakritiekewaardei. Kritiekewaarde=𝑘 �TG �TG ;½ ii. Als de realisatie van de toetsingsgrootheid
groterisdandekritiekewaarde,danmoetenwedenulhypotheseverwerpen
b. Viaeenzijdigep-waarde
i. ii. R-code:pchisq(…)iii. Alsdep-waardekleinerisdan5%,danmoeten
wedenulhypotheseverwerpen
Voorwaardenvoordezetoets
• Alshetproductk*pkleinerdan5iso Geenenkele theoretischeproportiemag kleinerdan5
zijn• Alshetproductk*pgroterdan5is
o Dan mogen er maximum 20% van de theoretischeproportieskleinerdan5zijn
9.2.2 DeRfunctie‘chisq.test’
• Omalleberekeningeninéénkeertedoen• Zelfdealsbijdetoetsmet1populatie
o Watandersis:§ Wegebruikenhetargumentpniet,wantRgaatzelfdekansenschattenop
basisvandefrequentiesvandeverschillendesteekproeven
SamenvattingStatistiekII(2017)–EllaMattan
70
9.2.3 Toepassing:invloedvanhetrasophetvonnis
Illustrerendeoefening:ziep.211
9.2.4 Depower
R-code Pwr.chisq.test(…)
àNetzoalsbij9.1.6
9.3 Afhankelijkheidvantweecategorischevariabelen
Niettekennen.
9.4 Opmerkingbetreffendedemeetniveaus
• Alletechniekendieweindithoofdstukhebbengezienzijnenkelgebaseerdopdefrequenties,nooitopdewaardenvandevariabele&nooitopdevolgorde.
o Wekunnendezetechniekengebruikenmetvariabelenvanallemeetniveaus§ Ookinterval,ratio&absoluut!
• Alsweinterval-variabelenhebben,tochbeteromanderetechniekentegebruikeno Bv.ANOVA,t-toets,lineaireregressieo Dezetechniekenhebbeneenhogeronderscheidingsvermogen
Ondersteuningssessiesvanhetmonitoraat
Zeervisueelduidelijkeschema’s!!Enookenkeleextraoefeningen
• H1–H5:sessie1• H6–H7:sessie2• H8–H9:sessie3