Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele...

70
Samenvatting Statistiek II (2017) – Ella Mattan 1 Inhoudsopgave Hoofdstuk 1: beschrijvende statistiek 5 1.1 Prolegomena 5 1.1.1 Statistiek, psychometrie & methodologie 5 1.1.2 Variabelen 5 1.1.3 Meetniveaus 5 1.1.4 Zinvolheid 6 1.2 Ordeningstechnieken 7 1.3 Grafische voorstellingen 7 1.4 Reductietechnieken 7 1.4.1 Centrummaten 7 1.4.2 Spreidingsmaten 8 1.4.3 Associatiematen 9 Hoofdstuk 2: kansrekenen 11 2.1 Toevalsvariabelen en kansverdelingen 11 2.1.1 Bewerkingen met gebeurtenissen 11 2.1.2 Toevalsvariabele 11 2.1.3 Kansen 11 2.1.4 Kansverdeling 12 2.1.5 Dichtheidsfunctie of densiteitsfunctie 12 2.1.6 Bivariate kansverdelingen 12 2.1.7 Bivariate dichtheidsfunctie 13 2.1.8 Afhankelijke toevalsvariabelen 13 2.1.9 Reductietechnieken 14 2.1.10 Associatietechnieken 14 2.1.11 Enkele nuttige stellingen 14 2.2 Bijzondere kansverdelingen 15 2.2.1 De binomiale verdeling 15 2.2.2 De normale verdeling 16 2.2.3 De centrale limietstelling 16 2.2.4 De c2-verdeling 16 2.2.5 De Student verdeling of t-verdeling 17 2.2.6 De F-verdeling 17 2.3 De steekproevenverdeling 18 2.4 De steekproevenverdeling van steekproefgemiddelde 18 2.5 De steekproevenverdeling van de steekproefvariantie 2 18 2.6 De steekproevenverdeling van de steekproefvariantie 2 19 Hoofdstuk 3: puntschatting 20 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 Hoofdstuk 4: intervalschatting – betrouwbaarheidsintervallen 22 4.1 Betrouwbaarheidsinterval voor 22 4.1.1 De verdeling van X is normaal 22

Transcript of Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele...

Page 1: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

1

Inhoudsopgave

Hoofdstuk1:beschrijvendestatistiek 51.1 Prolegomena 5

1.1.1 Statistiek,psychometrie&methodologie 51.1.2 Variabelen 51.1.3 Meetniveaus 51.1.4 Zinvolheid 6

1.2 Ordeningstechnieken 71.3 Grafischevoorstellingen 71.4 Reductietechnieken 7

1.4.1 Centrummaten 71.4.2 Spreidingsmaten 81.4.3 Associatiematen 9

Hoofdstuk2:kansrekenen 112.1 Toevalsvariabelenenkansverdelingen 11

2.1.1 Bewerkingenmetgebeurtenissen 112.1.2 Toevalsvariabele 112.1.3 Kansen 112.1.4 Kansverdeling 122.1.5 Dichtheidsfunctieofdensiteitsfunctie 122.1.6 Bivariatekansverdelingen 122.1.7 Bivariatedichtheidsfunctie 132.1.8 Afhankelijketoevalsvariabelen 132.1.9 Reductietechnieken 142.1.10 Associatietechnieken 142.1.11 Enkelenuttigestellingen 14

2.2 Bijzonderekansverdelingen 152.2.1 Debinomialeverdeling 152.2.2 Denormaleverdeling 162.2.3 Decentralelimietstelling 162.2.4 Dec2-verdeling 162.2.5 DeStudentverdelingoft-verdeling 172.2.6 DeF-verdeling 17

2.3 Desteekproevenverdeling 182.4 Desteekproevenverdelingvansteekproefgemiddelde𝑋 182.5 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑁𝑋2 182.6 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑋2 19

Hoofdstuk3:puntschatting 203.1 Eigenschappenvaneengoedeschatter 203.2 Enkeleschatters 20

Hoofdstuk4:intervalschatting–betrouwbaarheidsintervallen 224.1 Betrouwbaarheidsintervalvoor𝜇𝑋 22

4.1.1 DeverdelingvanXisnormaal 22

Page 2: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

2

4.1.2 DeverdelingvanXisnietnormaalofonbekend 234.2 Betrouwbaarheidsintervalvoorhetverschiltussendeverwachtingenintweepopulaties 234.3 Betrouwbaarheidsintervalvoordevariantie𝜎𝑋2 234.4 Anderebetrouwbaarheidsintervallen 24

Hoofdstuk5:destatistischetoetsen 255.1 ZijndestudentenvandeFPPWslimmer? 255.2 Tobeornottobe 255.3 Detoetsingsprocedure 25

5.3.1 Theoretischehypothese 255.3.2 Statistischehypotheseofalternatievehypothese𝐻𝑎 255.3.3 Nulhypothese𝐻0 255.3.4 ToetsingsgrootheidG 265.3.5 Betrouwbaarheid1 − 𝛼enkritiekewaarde(n) 265.3.6 Beslissing 27

5.4 Derelatietussenintervalschattingentoetsing 275.5 Deoverschrijdingskansofp-waarde 275.6 Dekeuzevantoetsingsgrootheid 28

5.6.1 Hettoetsenvaneenhypothesebetreffende𝜇 285.6.2 Hettoetsenvaneenhypothesebetreffende2verwachtingen 285.6.3 Hettoetsenvaneenhypothesebetreffendetweevarianties 29

5.7 Hettoetsenvaneenhypothesebetreffendeeenproportie 305.8 Hettoetsenvandenormaliteit 315.9 Designificantie 315.10 Defouten 315.11 EIGENOVERZICHT 32

Hoofdstuk6:depowerofonderscheidingsvermogen 336.1 Depowerbijhettoetsenvaneenhypothesebetreffendeeenproportie 336.2 Depowerbijhettoetsenvaneenhypothesebetreffendeeenverwachting 346.3 Depowerbijhettoetsenvaneenhypothesebetreffendetweeverwachtingen–afhankelijkesteekproeven 346.4 Depowerbijhettoetsenvaneenhypothesebetreffendetweeverwachtingen–onafhankelijkesteekproeven 346.5 Algemeen 34

Hoofdstuk7:enkelvoudigelineaireregressie 367.1 Inleiding 367.2 Hetlineairmodel–kansrekenen 36

7.2.1 Assumpties 377.2.2 Devoorwaardelijkeverwachting𝐸(𝑌𝑖½𝑋𝑖 = 𝑥𝑖) 387.2.3 DevoorwaardelijkevariantieV(Yi½Xi = xi) 397.2.4 Decorrelatiecoëfficiënt 397.2.5 Afsluiter 39

7.3 Puntschatting(vandeparameters) 397.3.1 Puntschattingvan𝛽1 397.3.2 Puntschattingvan𝛽𝑂 407.3.3 Depredicties 407.3.4 Puntschattingvan𝜎𝜀2 41

Page 3: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

3

7.3.5 Puntschattingvan𝜌𝑋𝑌 417.4 Intervalschatting 41

7.4.1 Betrouwbaarheidsintervalvoor𝛽1 417.4.2 Betrouwbaarheidsintervalvoor𝛽0 41

7.5 Toetsing 427.5.1 Toetsenvanhetlineairmodelviadet-verdeling 427.5.2 ToetsenvanhetlineairmodelviadeF-verdeling 43

7.6 Dedeterminatiecoëfficiënt𝑅2 447.7 DeRfunctie‘summary’ 457.8 Depowervandetoetsvan𝐻0: 𝛽1 = 0 467.9 DevaliditeitvandeGauss-Markovassumpties 467.10 Opmerkingm.b.t.softwarepaketten 487.11 Meervoudigelineaireregressie:sneakpreview 48

Hoofdstuk8:variantie-analyseofANOVA 498.1 Inleiding 498.2 Heteffectenmodel 49

8.2.1 Assumpties 508.2.2 Devoorwaardelijkeverwachting𝐸(𝑌𝑖𝑘)𝑜𝑓𝜇𝑖 518.2.3 Devoorwaardelijkevariantie 518.2.4 Identificeerbaarheid 518.2.5 Afsluiter 53

8.3 Puntschatting 538.3.1 Sigma-restrictie 538.3.2 GLM-restrictie 538.3.3 Depredicties 548.3.4 Puntschattingvan𝜎𝜀2 54

8.4 Toetsing 548.4.1 Hetnulmodel 558.4.2 Selectie 55

8.5 Devariantiedecompositie 568.6 DeRfunctie‘aov’ 588.7 Depowervanvariantie-analyse 588.8 DevaliditeitvandeGauss-Markovassumpties 598.9 Nogeenvoorbeeld 598.10 Posthocmeervoudigevergelijkingen 59

8.10.1 Correctievandekansopeenfoutvandeeerstesoort 598.10.2 Correctievandeschattervandevariantie 608.10.3 Voorbeeld 61

8.11 Enkelvoudigevariantie-analysealseenlineairmodel 618.11.1 Effect-coderingenSigma-restrictie 618.11.2 Dummy-coderingenGLM-restrictie 638.11.3 Simpeler 64

8.12 BalancedenunbalancedANOVA 64

Hoofdstuk9:categorischedata-analyse 659.1 Eénpopulatieenééncategorischevariabele 65

9.1.1 Inleidendvoorbeeld 65

Page 4: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

4

9.1.2 Samenvatting:Pearson’schi-squaredtoets 659.1.3 Isdedobbelsteenzuiver? 679.1.4 DeRfunctie‘chisq.test’ 679.1.5 Deinvloedvandemaanophetaantalgeboortes 679.1.6 DepowervandePearsonchi-kwadraattoets 67

9.2 Meerderepopulatiesenééncategorischevariabele 689.2.1 Samenvatting 689.2.2 DeRfunctie‘chisq.test’ 699.2.3 Toepassing:invloedvanhetrasophetvonnis 709.2.4 Depower 70

9.3 Afhankelijkheidvantweecategorischevariabelen 709.4 Opmerkingbetreffendedemeetniveaus 70

Ondersteuningssessiesvanhetmonitoraat 70

Page 5: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

5

Hoofdstuk1:beschrijvendestatistiek

1.1 Prolegomena

1.1.1 Statistiek,psychometrie&methodologie

Onderzoek-algemeen • Doelonderzoek:antwoordvindenoponderzoeksvragen• Hoe?Dataverzamelenineensteekproef

o Steekproefmoetrepresentatiefzijnvoordepopulatie• Verlooponderzoek:vormingonderzoeksvraagàmethodologieà

psychometrieàstatistiek

Methodologie(taak) • Bepalen hoe de steekproef samengesteld wordt & welk soortonderzoeksdesignhetbesteis

Psychometrie(taak) • Bepalenhoedevariabelenhetbestkunnengemetenworden

Statistiek(taak)

• Adhv verschillende technieken de data analyseren, om op diemaniereenantwoordtekunnengevenopdeonderzoeksvragen

• Soorteno Beschrijvende statistiek: de gegevens van de steekproef

beschrijven,ordenen,presenteren&samenvatteno Inductievestatistiek:deobservatiesvansteekproefniveau

veralgemenennaarpopulatieniveau

1.1.2 Variabelen

Definitie Eenvariabele:eeneigenschapdiebijdeelementenvandepopulatieofdesteekproefvarieert

Numeriek/nietnumeriek • Datisdekeuzevandeonderzoek• Bv.Eigenbeslissingofjegeslachtweergeeftals‘man/vrouw’(niet

numeriek)ofals‘0/1’(numeriek)

Continu/discreet • Continu: tussen elke 2 willekeurige waarden ligt een derdewaarde(oneindigaantalwaarden)

• Discreet:geenoneindigaantalwaarden• Soortvariabeleheefteffectopdemogelijkeanalysetechnieken

o Zelfde analysetechnieken voor discrete variabelenmetenormveelmogelijkhedenalscontinuevariabelen

§ Theoretischgezienmagditeigenlijkniet§ Maarindepraktijkwelerghandig

Notatie • Variabele:hoofdletter• Specifiekewaarneming:kleineletter

1.1.3 Meetniveaus

Vanminstgesofisticeerdnaarmeestgesofisticeerd

Nominaal • Objectenkunnennietgeordendworden

Page 6: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

6

• Nochdiscreetnochcontinuo Omtewetenofhetdiscreetisofcontinu,zoujemoetenkijkenof

ertussen2willekeurigevariabeleneenderdevariabeleligt.Maarditkanniet,wantdeobjectenkunnennietgeordendworden

• Bv.Haarkleur,geslacht..

Ordinaal • Jekandeobjectenordenen• Jekangeenmeeteenheiddefiniëren:hetgaatpuuromderangordedus• Discreetofcontinu• Bv. Uitslag van eenwedstrijd,mate van instemmingmet een uitspraak

(Likertschaal)

Interval • Meeteenheid• Geennulpunt• Continu

Ratio • Meeteenheid• Absoluutnulpunt• Continu• Bv.Leeftijd,lengte,gewicht…

Absoluut • Metendoorgewoonhetaantalobjectentetelen• Vastemeeteenheid• Absoluutnulpunt• Discreet• Bv.Gezinsgrootte,klasgrootte,aantalinwoners

Extra opmerkingbijinterval&ratio

• Statistischetechniekenbijinterval&ratiozijndezelfdeo In de praktijk worden interval & ratio samen vaak continue

variabelengenoemdo Theoretischeigenlijkfout,omdatordinalevariabelenookcontinu

kunnenzijn• Nominaal & ordinaal worden samen vaak categorische variabelen

genoemd

1.1.4 Zinvolheid

Zinvolheid • Eenuitspraak is zinvolalsdewaarheidswaardeonafhankelijk isvandemeetschaaldiejegebruikt

• Alsdebeweringcorrectismeteenbepaaldeschaal,blijftdiecorrectalsjeeenandereschaalgebruikt.Alszefoutisindeeneschaal,blijftzefoutineenandereschaal.

• Bv.DegemiddeldeleeftijdvangroepAisgroterdandievangroepB.Dezebeweringkloptalswedeleeftijd in jaaruitdrukken.Diebeweringkloptnogsteedsals jehetuitdrukt inmaandenofeeuwenof seconden.Dusdezeuitspraakiszinvol.

Zinloze beweringenvermijden!

• Voorzichtigzijnmethetmanipulerenvanscores!• Nominaal&ordinaal

o Jemagnietoptellen,vermenigvuldigen,delen..o Geengemiddeldes,varianties,covarianties..

• Intervalo Jemagoptellen&aftrekken

Page 7: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

7

o Delen&vermenigvuldigenisriskanto Logaritmesvanscoreszijnverbodeno Jemagwelafwijkingen(Bv.𝑥C − 𝑥)delenenvermenigvuldigen

• Ratioo Bijnageenrestricties

• Absoluuto Geenrestricties

1.2 Ordeningstechnieken

DeR-codevaneenfrequentieverdeling,relatievefrequentieverdelingenbivariatefrequentieverdeling.ZiedocumentR-code.

1.3 Grafischevoorstellingen

Cirkeldiagramofpiechart • Nominaal• R-code:pie(x=c(vectormetdeproporties),labels=c(vectormet

denamenvandecategorieën)

Lijndiagramofstaafdiagramofbarchart

• Discreet• R-code:barplot(waardenvariabele,corresponderende

frequenties)• Rechthoekenrakenelkaarniet

Histogram • Continu• R-code:Hist()• Rbepaaltautomatischzelfdeklassegrenzen

o Alsjedattochzelfwiltdoen:tussenhaakjestoevoegenaanR-code‘breaks=aantalbreaks’

o AlsRtochnietakkoordismetjevoorstel,doethettochzijneigenzin

• Rechthoekenrakenelkaarwel

Spreidingsdiagramofscatterplot

• Voorbivariatefrequentieverdelingenvancontinuevariabelen• R-code: ‘plot(x=descoresvoorhorizontaleas ,y=descores

voorverticaleas)

1.4 Reductietechnieken

1.4.1 Centrummaten

Hetrekenkundiggemiddelde𝑥

Formule𝑥 =

1𝑛

𝑥C

E

CFG

R-code Mean()

Page 8: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

8

Eigenschappen • Gevoeligaanoutliers(eerstcheckenofdezeerzijndus)• Nietvoornominaalofordinaal• Welvoorinterval&ratio&absoluut

Mediaan𝑚𝑑J

Eigenschappen • Minstensordinaal• Symbool𝑚𝑑J• Scoresordenenvankleinnaargroot,danhetmiddelstegetalnemen

o Dusdehelftvandescoresisgroterendehelftiskleinerdandemediaan

• Nietgevoeligaanoutliers

Modus

• Descoremetdehoogstefrequentie• Nietgevoeligaanoutliers

1.4.2 Spreidingsmaten

Devariantie𝑠𝑛LM en𝑠LM

Formules𝑠𝑛LM =

1𝑛 𝑥C − 𝑥 M

E

CFG

𝑠LM =1

𝑛 − 1 𝑥C − 𝑥 ME

CFG

Sumofsquaresformule

𝑠𝑛LM =NNOEmet𝑆𝑆L = 𝑥C − 𝑥 ME

CFG

𝑠LM =𝑆𝑆L𝑛 − 1

Eigenschappen • Altijdpositiefof0(wantiseensomvankwadraten)• Moeilijk te interpreteren: jekomtweleengetaluit,maaronmogelijk te

zeggenofditnugrootofkleinis• Gevoeligaanoutliers• Interval,ratioenabsoluutmeetniveau

Destandaarddeviatiesn

Formule 𝑠𝑛 = 𝑠𝑛M 𝑠 = 𝑠MEigenschappen Zelfdealsbijvariantie

Variatiebreedte

• Deafwijkingtussendegrootsteendekleinstescore

Page 9: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

9

• Eigenschappeno Interval,ratio&absoluuto Gevoeligaanoutliers

InterkwartielafstandQ

Formule 𝑄 = 𝑃RS − 𝑃MS

Uitlegbijformule:

• P25=percentiel25ofeerstekwartiel,descorewaarvoor25%vandewaarnemingenkleinerzijn

• P75=percentiel75ofderdekwartiel,descorewaarvoor75%vandewaarnemingenkleinerzijn

Eigenschappen • Eensoortgecorrigeerdevariatiebreedte:devariatiebreedtenadatwedeextremescoreshebbenweggelaten

Spreidingsmaatd

Formule𝑑 =

GTUVWX

GTYZ

𝑓[\:frequentievandemodus𝑝:aantalwaarden

Eigenschappen • Ideaalvoornominalevariabelen• Altijdtussen0en1

o 0=allewaardenzijnidentiek,minimalespreidingo 1=elkemogelijkewaardeofklasseheeftdezelfdespreiding,

maximalespreiding

1.4.3 Associatiematen

Decovariantie𝑐𝑜𝑣L`

Formule𝑐𝑜𝑣L` =

1𝑛

(𝑥C − 𝑥)(𝑦C − 𝑦)E

CFG

Eigenschappen • Hettekenvandewaardeno Positievewaarde:stijgendlineairverbando Negatievewaarde:dalendlineairverbando Waarde0:geenlineairverband

• Moeilijkteinterpreteren(wantafhankelijkvandemeeteenheden)• Gevoeligaanoutliers• Interval,ratio,absoluut

Page 10: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

10

Correlatiecoëfficiënt𝑟L`

Formule 𝑟L` =𝑐𝑜𝑣L`

𝑠𝑛L ∗ 𝑠𝑛`

Eigenschappen • Vaakbeterdancovariantieomhetlineairverbandtussen2variabelentemeten

• Gestandaardiseerd:tussen-1en1• Gevoeligaanoutliers• Interval,ratio,absoluut

Decorrelatiecoëfficiënt𝜏vanKendall

Formule𝜏L` =

𝑎𝑎𝑛𝑡𝑎𝑙𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛 − 𝑎𝑎𝑛𝑡𝑎𝑙𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛𝑛 𝑛 − 1 /2

Concordant&discordant

• Concordant:positieverico,stijgendelijn• Discordant:negatieverico,dalendelijn

DeregressielijnY

Formule 𝑌 = 𝑏j + 𝑏G ∗ 𝑋

𝑏j = 𝑦C − 𝑏G𝑥C

𝑏G = 𝑟L` ∗𝑠𝑛`𝑠𝑛L

Eigenschappen • Als er een lineair verband is tussen 2 variabelen, kunnen we dezegrafisch representerenviaeen rechte.Het functievoorschrift vandierechteisderegressielijn

• 𝑏j:hetinterceptvanderechte,hetsnijpunttussenderechteendey-as

• 𝑏G:deregressiecoëfficiënt,dericovanvroeger• Wewillen𝑏jen𝑏G zodanigkiezendatonze (theoretische) rechtezo

goed mogelijk past bij de puntenwolk (onze waarnemingen uit depraktijk).

o Manieromdittecontroleren,ofheteffectiefzogoedmogelijkpast:kleinstekwadratenmethode

Kleinstekwadratenmethode

• Formule: 𝑦C − 𝑏j − 𝑏G𝑥C MECFG

o Dezeuitkomstmoetzokleinmogelijkzijn• Logicaerachter:

o Deafwijkingvanderechtetovdepuntenwolk:hetresidu:𝑦C −(𝑏j + 𝑏G𝑥C)

o Weberekenendesomvandegekwadrateerderesiduen

Page 11: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

11

Hoofdstuk2:kansrekenen

2.1 Toevalsvariabelenenkansverdelingen

Eentoevalsproces EenproceswaarbijdeuitkomstonvoorspelbaarisBv.Hettrekkenvaneensteekproefuiteenpopulatiebv.HetmetenvanIQ(jekannietvoorspellenhoeveeldezezalzijn)

Eengebeurtenis Eenverzamelingvanmogelijkeuitkomstenvoordattoevalsproces

DezekeregebeurtenisE Deverzamelingvanallemogelijkeuitkomsten.Hetiseengebeurtenisdiezichaltijdvoordoet.

2.1.1 Bewerkingenmetgebeurtenissen

Deunievangebeurtenissen • DeverzamelingvanalleelementendieinAofinBofinbeideliggen

• 𝐴 ∪ 𝐵 = uitkomstenaIa ∈ Aofa ∈ B • " ∪ "=“of“

Dedoorsnedevangebeurtenissen

• DeverzamelingvanalleelementendieinAeninBliggen• 𝐴 ∩ 𝐵 = uitkomstenaIa ∈ Aena ∈ B • ∩=“en“

DecomplementairegebeurtenisA*

• A*isdecomplementairegebeurtenisvanAalsA*zichalleenmaarvoordoetalsAzichnietvoordoet

• Logischerwijs is de complementaire gebeurtenis van decomplementaire gebeurtenis dan weer de oorspronkelijkegebeurtenis

2.1.2 Toevalsvariabele

Toevalsvariabele ofkansveranderlijke

Eenvariabelewaarvandewaardeineentoevalsprocesonvoorspelbaaris

Realisatie Dewaardevaneentoevalsvariabelenoemtmeneenrealisatie

Bv.Eensteekproefvan3personenvoordevariabeleIQ:115,98en107.Die3getallenzijndrierealisatiesvandetoevalsvariabeleIQ

2.1.3 Kansen

Hetbegrip‘kans’ • Dekansvaneengebeurtenis=derelatievefrequentiesvandezegebeurtenisalswehettoevalsproceseindelooszoudenherhalen

• 𝑃 𝐴 = limE→�

��E (met𝑓�defrequentievanA,n=∞)

• Hetiseenrelatievefrequentie:duseengetaltussen0en1

Dekansvandeunievan2gebeurtenissen

P(A∪B)=P(A)+P(B)−P(A∩B)

Afhankelijkheid • Afhankelijk:alsderealisatievandeenedekansvandeandere

Page 12: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

12

beïnvloedt• Onafhankelijk:derealisatievandeenebeïnvloedtnietdekans

vandeandere• Voorbeelden,ziesyllabusp.39

Dekansvandedoorsnedevan2gebeurtenissen

• Alsdegebeurtenissenonafhankelijkzijn:P(A∩B)=P(A)*P(B)• Alszeafhankelijkzijn,geldtdezevergelijkingniet

2.1.4 Kansverdeling

Watishet? Eentabelmet2kolommenofrijen.àKolom1:dewaardenàKolom2:dekansenvoordiewaarden

Eigenschappen • Voordiscretetoevalsvariabelen(nietcontinu)• Notatie:P(X=𝑥C)• Zelfde grafische voorstellingen als bij rel.frequentieverdelingen

kunnengebruiktworden(staafdiagram,cirkeldiagram..)

2.1.5 Dichtheidsfunctieofdensiteitsfunctie

Watishet? • Eencurve• Viadeoppervlakteonderdecurvekanjekansenberekenen

o De kans P(a < X ≤ b) = de oppervlakte onder de curvetussenaenb

• Techniekomditteberekenen:integraleno Moetenwenietzelfkunnen,Rkandatberekenenvoorons

Logicaerachter • Alsjeeenkanswiltberekenen:P(X=x)o Doordecontinuïteitisdezekans0o P(X=x)=0vooralleXenallex.

• Oplossingomtochkansentekunnenberekenen:dichtheidsfunctie

Symbool • f(wordtindezecursusgebruikt)• somswordt‘p’ookgebruikt

Eigenschappen • Voorcontinuetoevalsvariabelen• Totaleoppervlakteonderdecurveis1

Overzicht • Algemeen:kansberekeneno Discretevariabelen:kansverdelingeno Continuevariabelen:dichtheidsfuncties

• Indegewonetaalnoemtmenhetalle2‘verdeling’

2.1.6 Bivariatekansverdelingen

Wat? • Eigenlijkgewooneenspecialebivariaterelatievefrequentieverdeling(metn→ ∞)

• Ookeentabel

Page 13: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

13

Eigenschappen • Voordiscretevariabelen• Desomvanallekansenis1• AantalmogelijkewaardenvanXenYhoeftnietidentiektezijn

o HetaantalmogelijkewaardenvanX:po HetaantalmogelijkwaardenvanY:q

Marginalekansen • Viaeenbivariatekansverdelingberekenenwatdekansenzijnvooréénvariabele

2.1.7 Bivariatedichtheidsfunctie

• Voorcontinuevariabeleno Dezekunnendoordiecontinuïteitnietineentabelwordenweergegeven

• Voorbeeld:

2.1.8 Afhankelijketoevalsvariabelen

Lijktopafhankelijkegebeurtenissen,watweeerderalhebbengezien(toenopniveauvansteekproef,nuopniveauvanpopulatie)

Discretevariabelen Twee discrete toevalsvariabelen X en Y zijn onafhankelijk als degebeurtenissen“𝑋 = 𝑥C”en“𝑌 = 𝑦�”onafhankelijkzijn,voorallemogelijkecombinatiesvanienj

Indepraktijk:𝑃 𝑋 = 𝑥C𝑒𝑛𝑌 = 𝑦� = 𝑃 𝑋 = 𝑥C ∗ 𝑃 𝑌 = 𝑦� :geldtditvoorallemogelijkecombinatiesvanienj?

Continuevariabelen TweecontinuetoevalsvariabelenXenYzijnonafhankelijkalsdegebeurtenissen“X ≤ x”en“Y ≤ yonafhankelijkzijn,voorallemogelijkecombinatiesvanxeny.

Indepraktijk:checkenoffXY x, y = f x ∗ f(y)kloptvoorallemogelijkecombinatiesvanxenyàSupermoeilijk,doordatereenoneindigaantalcombinatieszijn

Page 14: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

14

2.1.9 Reductietechnieken

Discretetoevalsvariabelen

Deverwachtingofpopulatiegemiddelde 𝐸 𝑋 = 𝜇 = 𝑃 𝑋 = 𝑥C 𝑥C

CFG

Depopulatievariantie𝑉 𝑋 = 𝜎M = 𝑃(𝑋 = 𝑥C)

CFG

𝑥C − 𝐸 𝑋M

Destandaarddeviatie 𝜎L = 𝑉 𝑋

Continuetoevalsvariabelen

Formuleszijnmetintegralen:moetenwenietkunnengebruiken.

2.1.10 Associatietechnieken

Discretetoevalsvariabelen

Covariantie𝐶𝑂𝑉 𝑋, 𝑌 = 𝑃 𝑋 = 𝑥C ∩ 𝑌 = 𝑦� 𝑥C − 𝐸 𝑋 𝑦� − 𝐸 𝑌

�FG

CFG

Correlatiecoëfficiënt𝜌L` =

𝐶𝑂𝑉 𝑋, 𝑌𝜎L𝜎`

Continuetoevalsvariabelen

Formuleszijnmetintegralen:moetenwenietkunnengebruiken.

2.1.11 Enkelenuttigestellingen

Dekansenvancomplementairegebeurtenissen P(A) + P(A∗) = P(A ∪ A∗) = 1

Deverwachtingvaneenconstantemaaleenvariabele

Gegeven:𝑍 = 𝑎 ∗ 𝑋,metaeenconstante.

E Z = a ∗ E(X)

Deverwachtingvaneensom Gegeven:Z=X+Y

E(Z)=E(X)+E(Y).

Deverwachtingvaneenverschil Gegeven:Z=X-Y

E(Z)=E(X)-E(Y)

Deverwachtingvaneenproduct Gegeven:Z=X*Y,XenYzijnonafhankelijk

Page 15: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

15

E(Z)=E(X)E(Y).

Devariantievaneensom Gegeven:Z=X+Y

V(Z)=V(X)+V(Y)+2*COV(X,Y)

Devariantievaneenverschil Gegeven:Z=X-Y

V(Z)=V(X)+V(Y)-2*COV(X,Y)

Correlatieenafhankelijkheid • Onafhankelijkevariabeleno Covariantiealtijd0o Correlatiecoëfficiëntdusook

• !!Nietpersedatwanneercorrelatiecoëfficiënt0is,datzeonafhankelijkzijn!!

o Sowiesogeenlineairesamenhango Kanookzijndatereenniet-lineaire

samenhangis

2.2 Bijzonderekansverdelingen

2.2.1 Debinomialeverdeling

Formule 𝑃 𝑋~𝐵 𝑛, 𝜋 = 𝑘 =𝑛!

𝑘! 𝑛 − 𝑘 !∗ 𝜋� ∗ (1 − 𝜋)(ET�)

𝜋=dekansdatdegebeurteniszichvoordoet,deproportien=desteekproefgrootte,hetaantalkeerdathettoevalsprocesherhaaldwordtk=de(bekomen)proportieofaantalkeerdatdegebeurteniszichvoordoet,waarvoorwedekanswillenberekenen

Eigenschappen • Discretevariabele• Verwachting:E B n, π = n ∗ π• Variantie:V B n, π = n ∗ p ∗ (1 − π)

Betekenisvan!informule

• Staatvoor‘faculteit’• Afrollendnaar1

o Vermenigvuldigen,telkens1aftrekkenvanhetvorigegetaltotaan1(1noginbegrepen)

o Bv.5!=5*4*3*2*1

Opgelet!! • Binomialeverdelingwerktalleenmetdiscretevariabelen• Niet-gehelegetallenzijnnietechtmogelijk

o Alsjedezeuitkomtindeoefening,benjewaarschijnlijkfoutbezig.o Bv.Gooienmeteendobbelsteen,jekanmoeilijk2,3of5,4gooien…

Page 16: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

16

Opmerking bijoefeningen

Het beste is om de nulhypothese etc. uit te drukken in proporties: concretegetallen.Wantdezemoetjedaarnanotereninjeformulevoorkansberekening.

2.2.2 Denormaleverdeling

Notatie 𝑋~𝑁(𝜇, 𝜎M)

Eigenschappen • Verwachtingμ• Variantie𝜎M• Continuevariabele

Dichtheidsfunctie

• Symmetrischekromme• Hethoogstepuntligtterhoogtevandeverwachtingswaarde

Standaardnormaleverdeling

Metgemiddelde0envariantie1

2.2.3 Decentralelimietstelling

Stelling SteldatX1,...,Xn,nonafhankelijketoevalsvariabelenzijn,metdezelfdeverdeling,metverwachtingμXenvariantie𝝈𝟐

danwordtdeverdelingvandetoevalsvariabele𝐗𝟏 ... 𝐗𝐧𝐧

naarmatengroterwordt,steedsbeterbenaderddoordenormaleverdelingmetverwachtingμXenvariantie𝝈𝟐/n

Dus.. Hoe groter n, hoe meer het steekproefgemiddelde gaat lijken op een normaleverdeling

Wanneer isngroot?

Alsngroterofgelijkaan30is,isdefunctienormaalverdeeldTENZIJdeverdelingvanXzeerscheefverdeeldis

2.2.4 Dec2-verdeling

Deverdeling Gegeven:X1,...,𝑋£ zijnonafhankelijkestandaardnormalevariabelen

Dec2-verdelingisdeverdelingvandevariabele:Y = XGM + XMM+. . . +X

£M

àDeverdelingvandesomvanlgekwadrateerdestandaard-normalevariabelen

Page 17: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

17

Eigenschappen • l=hetaantalvrijheidsgradeno Hetaantalwordtaangegevenindenaamvandeverdeling,onderde

‘2’vankwadraat• E(Y)=l• V(Y):2*l• Geensymmetrischekromme

2.2.5 DeStudentverdelingoft-verdeling

Deverdeling Gegeven:X~N(0,1)enY~χ¥Mzijntweeonafhankelijketoevalsvariabelen

De𝑡£-verdeling:𝑇 =L`/£

Eigenschappen • l=hetaantalvrijheidsgraden• E(T)=0• Symmetrischedichtheidsfunctie

o Lijktopdievaneennormaleverdelingo Alslnaaroneindiggaat,ishetbijnaidentiekeennormaleverdeling

2.2.6 DeF-verdeling

Deverdeling Gegeven:2onafhankelijkechi-kwadraatverdelingen

De𝐹£Y,£¨-verdeling:𝐹 =L/£G`/£M

Eigenschappen

• Geensymmetrischeverdeling• WordtooksomsdeFisher-Snedecorverdelinggenoemd

Page 18: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

18

2.3 Desteekproevenverdeling

Totnutoehebbenwealgezienophetniveauvaneenspecifiekesteekproefeneenpopulatie.Nugaanwezienopeenaspecifiekesteekproef

Gemiddelde

Variantie1

of

Variantie2

of

Steekproefgroothedenofstatistieken

• Nieuwetoevalsvariabelen,dieeencombinatiezijnvaneensetoorspronkelijketoevalsvariabelen

• Dezehebbenookzelfeenkansenverdeling:dezewordtsteekproevenverdelinggenoemd

2.4 Desteekproevenverdelingvansteekproefgemiddelde𝑋

VerwachtingvanX E(X)=E(X)=μX

à altijddezelfdealsdievanX:

VariantievanX V(X)=©(L)E

VerdelingvanX • Alsweallemaallukraketrekkingenhebbenuiteenpopulatiemeteennormaleverdeling,danzalXooknormaalverdeeldzijn

• Alsweallemaallukraketrekkingenhebbenuiteenpopulatiemetongekendeverdeling,maarn>30endeverdelingisniettescheef,danzalXooknormaalverdeeldzijn

2.5 Desteekproevenverdelingvandesteekproefvariantie𝑆𝑁LM

Verwachtingvan𝑆𝑁𝑋2 𝐸 𝑆𝑁LM =

𝑛 − 1𝑛

∗ 𝑉 𝑋

𝐸 𝑆𝑁LM issowiesokleinerdandevariantievanX,maarhoegrotern,hoekleinerhetverschil

Verdelingvan𝑺𝑵𝑿𝟐 • Als we lukrake trekkingen hebben uit een populatie met een

normaleverdeling,dangeldt:E∗N®O

¨

¯O¨ = 𝑆𝑆𝑋

𝜎𝑋2~𝜒ETGM

o GeldtNIETals n> 30, de verdelingmoetechtnormaalverdeeldzijn!

Page 19: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

19

2.6 Desteekproevenverdelingvandesteekproefvariantie𝑆LM

Verwachtingvan𝑆𝑋2 𝐸 𝑆LM = 𝑉(𝑋)

Verdelingvan𝑺𝑿𝟐 • Als we lukrake trekkingen hebben uit een populatie met een

normaleverdeling,dangeldt:(ETG)∗NO

¨

¯O¨ = 𝑆𝑆𝑋

𝜎𝑋2~𝜒ETGM

o GeldtNIETalsn> 30, de verdelingmoetechtnormaalverdeeldzijn!

Page 20: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

20

Hoofdstuk3:puntschatting

Wat? HetschattenvandeonbekendeparametersàWekennenvaakdeverdelingvandepopulatieniet,dusmoetenweschattenopbasisvandesteekproef

Parameter𝜽 • eenpopulatieparameteriseenheelalgemeenwoordvoorietswatietszegtoverdetoestandvanuwpopulatiezelf.Bijvoorbeeld:hetgemiddelde,devariantie..

• Omdezeteschattengebruikenweeensteekproefgrootheidofstatistiek

SchatterQ • Ditisdesteekproefgrootheid,heeftduseensteekproevenverdeling.• Ditiseentoevalsvariabele:algemeen,veranderlijk

o telkensalsweeensteekproeftrekken,wetenwenietwatdewaardevandeschatterzalzijn

• Destandaarddeviatievandeschatter:destandaardfouto Hoegroterditgetal,hoegroterdefout

Schatting𝜽 • Dewaardevandeschatterineenbepaaldesteekproef• GEENtoevalsvariabele:van1specifiekesteekproef,vastewaarde• Weduidendeschatteraanmethet‘hoedje’bovenhetsymbool

3.1 Eigenschappenvaneengoedeschatter

‘Goed’? Betekent‘nietteverschillendvandeteschattenparameter𝜃’àZuiver&efficiënt

Zuiverofunbiased

• Deverwachtingvandeschatterisgelijkaandeteschattenparameter:𝐸 𝑄 = 𝜃

• Datgeeftaandatdepopulatieparameternietsystematischtegrootoftekleinwordtgeschat

Efficiënt Devariantievandeschatterwordtkleinernaarmatedesteekproefgroterwordt.Wantdanwordtdeschatternauwkeuriger.

à𝑉 𝜃 ↓ 𝑎𝑙𝑠𝑛 ↑

DUSconcretetoepassing:omdekansopeengoedeschattenteverhogen,vergrootjedesteekproef.

Methodenomteschatten

• Maximumlikelihood(grootsteaannemelijkheid)&leastsquares(kleinstekwadraten)

o Geenvanbeidemethodenisperfecto Maximumlikelihoodbrengtaltijdefficiënteschatters,maarniet

altijdzuivere• Dezemethodengaanweindecursusnietgebruiken

3.2 Enkeleschatters

Deverwachtingschatten

𝜇L = 𝑥 Zuiverenefficiënt

Page 21: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

21

DUS:wiljepopulatiegemiddeldeschatten,gebruiksteekproefgemiddelde

Devariantieschatten • 𝑆LMiseengoedeschattervoordepopulatievariantieo 𝜎LF𝑆LM =

GETG

∗ 𝑋C − 𝑋ECFG = NNO

ETG

• 𝑆𝑁LMisGEENgoedeschattervoordepopulatievariantie(wantsystematischeonderschatting)

Deproportie𝝅schatten:𝝅

• Schattervoordeproportieindepopulatie:deovereenkomendeproportieindesteekproef

o Proportieindesteekproef:po P=detoevalsvariabele,devariabeledievoorelke

steekproefgelijkisaandeproportievanelementenmetdebewusteeigenschap

§ Pisdeschattervan𝝅• Overzicht

o 𝜋=parametero P=schattero p=schatting

Decovariantieschatten • 𝐶𝑂𝑉L` =G

ETG∗ 𝑥¶ − 𝑥E

¶FG 𝑦C − 𝑦 • Inconcreteoefening:rekeninghoudenmetwatjeexactzoekt

(schattingpopulatie-covariantieofsteekproef-covariantie)enmetdeverschillenindeformules!

o Steekproefcovariantieismet1/no Schattingvanpopulatie-covariantieiszoalsjezietmet1/n-

1

Decorrelatiecoëfficiëntschatten

• Schatter:deovereenkomendecorrelatiecoëfficiëntindesteekproef

OVERZICHT • 3overeenkomstigo Verwachtingo Proportieo Correlatiecoëfficiënt

• Waarweeencorrectiemoetentoepasseno Variantieo Covariantie

Page 22: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

22

Hoofdstuk4:intervalschatting–betrouwbaarheidsintervallen

• Algemeen:BI=betrouwbaarheidsinterval• Puntschattingisbijnaaltijdfout,daaromgaanwevakerBI’sgebruikenwantdezezijnvaakeen

stukbeter• BI’szeggenietsoverinhoeveel%vandegevallendeparameterzicheffectiefinhetinterval

bevindteninhoeveel%niet.Zegtniksoverdebetrouwbaarheidvandeschattingzelf!!

4.1 Betrouwbaarheidsintervalvoor𝜇L

• 𝜇𝑋isdewaardediewenietkennenenwillenschatten.• Weveronderstellendat𝜎Lonbekendis

o Isbijnaaltijdzoindepraktijk

4.1.1 DeverdelingvanXisnormaal

Steekproefgrootheid-formule

𝑇 = LT·ONO/ E

met𝑇~𝑡ETG

Dekritiekewaarde𝒕𝒏T𝟏;𝜶 Dewaardevande𝑡ETG-variabelezodatdeoppervlakterechtsgelijkisaan𝛼

Dekritiekewaarde𝒕𝒏T𝟏;𝜶/𝟐

Kansenberekenen P(𝑋 − 𝑡ETG;¼¨

∗ NOE< 𝜇L < 𝑋 + 𝑡ETG;¼¨

∗ NOE) = 1 − 𝛼

Betrouwbaarheidsinterval𝑥 − 𝑡ETG;½M

∗𝑆L𝑛, 𝑥 + 𝑡ETG;½M

∗𝑆L𝑛

EXTRA:hetintervalmanipulerenzonderde𝜶tewijzigen

Komtvoorinoefensessie1

• Intervalbredermakeno 𝑡ETG;½/Mvergroteno 𝑆Lvergroteno nverkleinen

• Intervalsmallermakeno 𝑡ETG;½/Mverkleineno 𝑆Lverkleinen

Page 23: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

23

o nvergroten

Nauwkeurigheid=debreedtevanhetinterval𝛼=betrouwbaarheid=dekansdathetbuitenhetintervalligt

4.1.2 DeverdelingvanXisnietnormaalofonbekend

Als n > 30 en X niet tescheefverdeeldis

DanvolgthetderegelsalsofXnormaalverdeeldis

4.2 Betrouwbaarheidsinterval voor het verschil tussen de verwachtingen intweepopulaties

Puntschatting 𝑥G − 𝑥M

Stappenplan • Ditiseentechniekmetdehypothesedatdevariantiesvanbeidepopulatiesonbekendmaarwelidentiekzijn

• Jehebt2schattersvandevarianties:voorelkepopulatie1.• We combineren beide schatters, om één betere schatter uit te

komen:deschatter𝑆�\\£¾¿M o Noemenwedepooledvariantie

o Formule:𝑆�\\£¾¿M = 𝑛1−1 ∗𝑆12+ 𝑛2−1 ∗𝑆2

2

𝑛1+𝑛2−2

o Dit is een zuivere schatter voor de gemeenschappelijkevariantie

Betrouwbaarheidsinterval𝑥G − 𝑥M ∓ 𝑡EG EMTM;½M

∗ 𝑠�\\£¾¿ ∗1𝑛G+1𝑛M

Voorwaarden • DevariabeleX isnormaal verdeeld inbeidepopulaties,ofbeidesteekproevenzijngrootgenoeg(groterdan30)

• Beidevariantieszijngelijk

4.3 Betrouwbaarheidsintervalvoordevariantie𝜎LM

Voorwaarden • Xisnormaalverdeeld,eengrotesteekproefhelptniet

Steekproefgrootheid • 𝐾 = 𝑛 − 1 ∗ 𝑆𝑋2

𝜎𝑋2 =

𝑆𝑆𝑋𝜎𝑋2 met𝐾~𝜒ETGM

Dekritiekewaarde𝒌𝒏T𝟏;𝜶/𝟐

Kansenberekenen P(𝑘ETG;𝟏T𝜶/M < 𝐾 < 𝑘ETG;𝜶/M) = 1 − 𝛼

Page 24: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

24

!!! NIET 2x dezelfde getallen, want we werken niet met eensymmetrischefunctie!!!

Betrouwbaarheidsinterval 𝑛 − 1 ∗ 𝑆LM

𝑘ETG;½/M ,𝑛 − 1 ∗ 𝑆LM

𝑘ETG;GT½/M

!!! NIET 2x dezelfde getallen, want we werken niet met eensymmetrischefunctie!!!

4.4 Anderebetrouwbaarheidsintervallen

Wordenlaterindecursusgezien

Page 25: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

25

Hoofdstuk5:destatistischetoetsen

5.1 ZijndestudentenvandeFPPWslimmer?

Voorbeeldbijtheorie,lezeninsyllabusp.85

5.2 Tobeornottobe

• Bijhetcontrolerenvanjehypotheseishetaltijdjaofnee:jehypothesekloptofkloptniet.o Ergmoeilijkomdezesoortvragentebeantwoorden,altijdrisicoopfouteconclusieo Wegaaninductievestatistiekgebruikenomteberekenenhoegrootdekansisdatonze

bekomenscorehetgevalvantoeval is(endusookhoegrootdekans isdatonzescoreeffectiefklopt)

§ !!Inductievestatistiekzegtonsnietwathetcorrectealternatiefis!!

5.3 Detoetsingsprocedure

6stappeninhettoetsenvanjehypothese

5.3.1 Theoretischehypothese

Dezeisinwoordenuitgedrukt.

5.3.2 Statistischehypotheseofalternatievehypothese𝐻Ã

Wat? JevertaaltdetheoretischehypotheseindetaalvandekansrekeningàDezevertalingisnietaltijdevident!

Tweezijdigetoets … ≠ …

Eenzijdigetoets … > … of … < …

Algemeen Altijdonderdevormvan≠, > of <

OPGELET àAltijdoppopulatieniveau,nietopsteekproefniveau!Bv.Wordtaltijdbeschrevenintermenvanµ,nietintermenvan𝑋

5.3.3 Nulhypothese𝐻j

Wat? • Hettweedealternatief,strijdigmetdealternatievehypotheseàAls𝐻0juistis,moet𝐻Ãfoutzijn

• Nooitindevormvan≠, > of <• Altijdindevormvan=

OPGELET àAltijdoppopulatieniveau,nietopsteekproefniveau!Bv.Wordtaltijdbeschrevenintermenvanµ,nietintermenvan𝑋

Page 26: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

26

5.3.4 ToetsingsgrootheidG

Wat? • Dezeisafhankelijkvandehypotheseno Onder de nulhypothese mag de toetsingsgrootheid geen

onbekende parameter bevatten& de steekproevenverdelingmoetgekendzijn

• Wegaandebekomentoetsingsgrootheiddanlatervergelijkenmetdekritiekewaarden,omconclusiestetrekkenoveronzehypothesen

Formule 𝐺 = LT·N/ E

Eigenschappen:Gisstudent-verdeeld

Dewaardendiejehierbijmoetinvullen,zijndegenenzoalsbeschrevenindenulhypothese,

nietdealternatievehypothese

5.3.5 Betrouwbaarheid1 − 𝛼enkritiekewaarde(n)

Betrouwbaarheid • Dekansomdealternatievehypotheseteverwerpen• Wordtvaaktussende90%ende99%gekozen• Dewetenschappelijkenorm:95%• Ditis1 − 𝛼

𝜶 • Deonbetrouwbaarheidsdrempelofhetsignificantieniveau

Eenzijdigetoets • Hetkritischgebiedislangs1kant,niet2• Hogewaardenbiedenevidentietegendenulhypothese

o Dekritiekewaardenzijnaandebovenkantvandefunctieo 𝑃 𝑥G ≤ 𝐺 = 𝛼

o • Lagewaardenbiedenevidentietegendenulhypothese

o Dekritiekewaardenzijnaandeonderkantvandefunctieo 𝑃 𝐺 ≤ 𝑥G = 𝛼

o • Opmerking:xGistelkensdekritiekewaarde:𝑡ETG;½

Tweezijdigetoets • 2kritiekewaardennodig,dekritischegebiedenliggenlangs2kanten• 𝑃 𝑥G ≤ 𝐺 ≤ 𝑥M = 1 − 𝛼

o 𝑥Gen𝑥Mzijndekritiekewaarden

Page 27: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

27

• o Indefiguur:𝑡ETG;½/M=𝑥G=dekritiekewaarde

5.3.6 Beslissing

• WeberekenenG• Weberekenendekritischewaarde(n)• JemoetkijkenofGzichinhetacceptatiegebiedofhetkritischegebiedbevindt

o Als G overeenkomt met de kritische waarde, bevindt dit zich nog steeds in hetacceptatiegebied

o HetacceptatiegebiedlooptTOTENMETdekritischewaarde(n)

5.4 Derelatietussenintervalschattingentoetsing

Betrouwbaarheidsintervallen • Bekomenwaardeligtbinneninterval:nulhypotheseaanvaarden• Bekomenwaardeligtbuiteninterval:nulhypotheseverwerpen

BIentoetsenzijnequivalent • Beiden brengen ons tot zelfde conclusies, ze zijn altijd evengoed

o Dus niet alleen voor de toetsen met een onbekendevariantie!

5.5 Deoverschrijdingskansofp-waarde

Wat? • DekansdatderealisatievanGoverschredenwordto Dekansdatdetoetsingsgrootheidgelijkaanzijnrealisatieg

isofnogextremer§ ‘Nogextremer’:groterofkleiner,afhankelijkvande

hogeoflagewaardendievanbelangzijn• De kans dat we een steekproef trekken die onze alternatieve

hypotheseevensterkofnogsterkerondersteuntdanonzesteekproef

Formule𝑃

𝑋 − 𝜇𝑆/ 𝑛

≥ 𝑜𝑓 ≤ 𝑥 − 𝜇𝑆/ 𝑛

≥ 𝑜𝑓 ≤hangtafvanhetfeitofhoge oflagewaardenvanbelangzijn

Hoetoepassen? • Jevergelijktjep-waardemetjesignificantieniveau𝛼

Page 28: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

28

• alsdeoverschrijdingskanskleinerisdanhetsignificantieniveau,danverwerpjedenulhypothese

• !!!ALTIJDteberekenenonderdenulhypothese,gaataltijdover𝐻\!!!

OPGELET! BijR-code:alshetgaatomeentweezijdigetoets,moetjezekerzijndatjebeide kanten van de a meehebt! Altijd visueel voorstellen wat jeberekent!

àeventueeldekansdiejeberekent*2doen,zodatjebeidekantenvandegrafiekmeehebt.Opgelet:danmoetjewela/2invoegen,ennieta!

Concreet:stappenplanoefeningen

• Derealisatievandetoetsingsgrootheidvergelijkenmetzijnverdeling

• P(waardevanG<of>verdelingvanG)• DezekansaflezenuitdegegevensvandeopgaveofberekeneninR

5.6 Dekeuzevantoetsingsgrootheid

5.6.1 Hettoetsenvaneenhypothesebetreffende𝜇

Algemeen Jewiltoetsenofdeverwachtingvaneentoevalsvariabeleverschillendisvaneen bepaalde waarde (vaak de verwachting van dezelfde variabele in eenanderepopulatie)

𝝈isbekend • Dez-toetsvooréénsteekproefo Toetsingsgrootheid=𝑋

§ Zijnverdelingiseenstandaardnormaleverdeling• Voorwaarden

o Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijnofeengrotesteekproef

• Komtbijnanooitvoorinpraktijk

𝝈isonbekend • T-toetsvooréénsteekproef

• Toetsingsgrootheid:𝐺 = LT·N/ E

o Verdeling:Student-verdelingmetn-1vrijheidsgraden• Voorwaarden

o Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijnofeengrotesteekproef

5.6.2 Hettoetsenvaneenhypothesebetreffende2verwachtingen

Algemeneopmerking Menkangebruikmakenvanovereenkomende/afhankelijkesteekproevenofonafhankelijkesteekproeven.Houhierrekeningmee!

Onafhankelijkesteekproeven

𝜎Gen𝜎Mzijnbekend • Z-toetsvoortweesteekproeven

• Formuletoetsingsgrootheid:LYTL¨

ÈY¨

XY  È¨

¨

~𝑁(0, 𝜎12

𝑛1+

𝜎22

𝑛2)

Page 29: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

29

• Voorwaardeno Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn in beide populaties of beide

steekproevenmoetengrootzijn• Wordtinpraktijkbijnanooitgebruikt

𝜎Gen𝜎Mzijngelijkmaaronbekend

• T-toetsvoortweeonafhankelijkesteekproeven• Formuletoetsingsgrootheid:

𝑋G − 𝑋M

(𝑛G − 1)𝑆GM + (𝑛M − 1)𝑆MM𝑛G + 𝑛M − 2

1𝑛G+ 1𝑛M

= 𝑋G − 𝑋M

𝑠É\\£¾¿1𝑛G+ 1𝑛M

~𝑡EY E¨TM

• Voorwaardeno Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn in beide populaties of beide

steekproevenmoetengrootzijn

Geen hypothese over𝜎Gen𝜎M

• DeWelcht-toetsvoortweeonafhankelijkesteekproeven• Formuletoetsingsgrootheid:

LYTL¨

ÊY¨

XY Ê¨

¨

~𝑡𝑙met𝑙 =

𝑆12

𝑛1+𝑆2

2

𝑛2

¨

𝑆14

𝑛12(𝑛1−1)

+ 𝑆24

𝑛22(𝑛2−1)

• Voorwaardeno Interval,ratioofabsoluuto Xmoetnormaalverdeeldzijninbeidepopulatiesofbeide

steekproevenmoetengrootzijn• Opmerking

o ‘Geenhypotheseover𝜎Gen𝜎M’gaatoverdegroottevandesigma’s,ofzeevengrootzijn.Nietoverdewaardenzelf!

o Welcht-toetsgaatdusoveralswenikswetenoverdegroottevan𝜎Gen𝜎Mtenopzichtevanelkaar

Afhankelijkesteekproeven

DevariabeleD • Webrengende2steekproevensamenonder1variabele• Dishetverschiltussendescoresvande2steekproeven,ofhetverschil

tussendescoresvoorennademanipulatievanhetexperiment• Dstaatvoor‘difference’

Hoetoepassen? • Wepassendestandaardt-toetsvooréénsteekproeftoeo Onzenulhypothesehierbijis“𝜇Ì = 0“

§ Want dit betekent dat de verschillen tussen beidesteekproeven in het geheel 0 zijn, en dat er dus geenverschillenzijntussendesteekproeven

5.6.3 Hettoetsenvaneenhypothesebetreffendetweevarianties

Watdoenweprecies? Kijkenofdevariantiesvaneenbepaaldevariabeleintweeverschillendepopulatiesidentiekzijn

Page 30: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

30

Nulhypothese 𝜎G=𝜎M

Alternatievehypothese Meestal𝜎G ≠ 𝜎M,maarkanook𝜎G < 𝜎Mof𝜎G > 𝜎M

Toetsingsgrootheid • Logicaerachtero Alswe2steekproeventrekkenuiteenzelfdepopulatie,isde

kansvrijgrootdatdeschattingenvanbeidevariantiesevengrootzullenzijn

§ NY¨

N¨¨=1

§ Denulhypotheseis𝜎G=𝜎M§ Bij toeval kanditookafwijken,maar is zeldenhet

geval§ De verhouding zal altijd positief zijn, want de

variantieszijnpositiefo Dichtheidsfunctie:

§ Geennegatievewaarden§ Nietsymmetrisch

§ § DezevolgteenF-verdeling

• Concretetoepassingen

o Formulesteekproefgrootheid:𝐹 = NY¨

N¨¨~𝐹EYTG,E¨TG

§ Als de verhoudingNY¨

N¨¨ ongeveer gelijk aan 1 is:

nulhypotheseaanvaarden

§ Als de verhoudingNY¨

N¨¨ niet gelijk aan 1 is:

nulhypotheseverwerpen• Detoetsingsgrootheid:devariatieverhoudingofF-verhouding• Detoetszelf:deF-toets• Derealisatieofwaardevandesteekproefgrootheid:𝒇∗• Voorwaarden

o Interval,ratioofabsoluuto Xmoet normaal verdeeld zijn, een grote steekproef helpt

NIET

5.7 Hettoetsenvaneenhypothesebetreffendeeenproportie

Watdoenweprecies? Wewillentoetsenofeenproportieineenpopulatieverschillendisvaneenbepaaldewaarde(vaakeenproportieineenanderepopulatie)

Opmerking Indezecursuszienweenkeldeeenzijdigetoets

Toepassing • Deoverschrijdingskansberekenenvaneenbinomialeverdelingo De gegevens van de binomiale verdeling halen uit de

omschrijvingvanhetprobleem/dehypotheseo Watweprecieswillenoverschrijden:jeeerderebevinding,

vandesteekproefdiejenetgenomenhebt

Page 31: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

31

5.8 Hettoetsenvandenormaliteit

Waaromzoudenweditwillentoetsen?

OmdatvoorveeltoetsproceduresheteenvereisteisdatXnormaalverdeeldisofdatdesteekproefgrootgenoegis.

Hoeconcreetuitvoeren? • 2methodeno Kolmogorov-Smirnovnormaliteitstoetso Shapiro-Wilknormaliteitstoets.

• Dezecursus:alleenuitleghoejedeShapir-WilktoetsinRuitvoert

Opmerking • Veel onderzoekers zeggen dat ze nagaan of hun data normaalverdeeldzijn:kloptniet!

• Datakannietnormaalverdeeldzijno Een toevalsvariabele kan normaal verdeeld zijn, een

geobserveerdevariabeleniet

5.9 Designificantie

Dagelijksetaal Ietsinsignificantalshetrelevantofwaardevolis

Statistischetaal • Betekentalleendateenverschilnietnulis• Zegtniksoverofdatverschilgrootofverwaarloosbaaris

5.10 Defouten

Symbool Term Uitleg Dus?

a TypeIfoutoffoutvandeeerstesoort

Nulhypotheseisjuistmaarweverwerpen

Onterechtverwerpen

1-a Debetrouwbaarheid Nulhypotheseisjuistenweaanvaarden

Terechtaanvaarden

𝛽 TypeIIfoutoffoutvandetweedesoort

Nulhypotheseisfoutmaarweaanvaarden

Onterechtaanvaarden

1–𝛽 Depower Nulhypotheseisfoutenweverwerpen

Terechtverwerpen

Verbandtussen𝛼en𝛽 • Hoekleiner𝛼,hoegroter𝛽(enomgekeerd)• Alsnstijgt,dandaalt𝛽

Page 32: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

32

5.11 EIGENOVERZICHT

WAT? • 𝐻Ã=statistischevertalingvandehypothese(≠, > of <)• 𝐻j=tegenpoolvan𝐻Ã

DOEL • Wewillenbewijzendat𝐻jfoutis:de𝐻jverwerpen.Wantdatbetekentdatdealternatievehypothesejuistis,endaarmeeookonzehypothese.

𝑯𝟎VERWERPEN • Toetsingsgrootheid:Gligtinkritischgebiedo Als hoge waarden belangrijk zijn: G is groter/gelijk aan kritieke

waardeo Als lage waarden belangrijk zijn: G is kleiner/gelijk aan kritieke

waardeo Welkewaardenbelangrijkzijnkanjezienaanhoe𝐻Ãgeformuleerd

is• Betrouwbaarheidsinterval:scoreligtbuiteninterval• Overschrijdingskans:p-waardeiskleinerdanje𝛼

o Betekentdatereenminiemekansisdatonzeresultatentoevalligzijnendatzedusjuistzijn

𝑯𝟎AANVAARDEN • Toetsingsgrootheid:Gligtbuitenkritischgebiedo Alshogewaardenbelangrijkzijn:Giskleinerdankritiekewaardeo Alslagewaardenbelangrijkzijn:Gisgroterdankritiekewaardeo Welkewaardenbelangrijkzijnkanjezienaanhoe𝐻Ãgeformuleerd

is• Betrouwbaarheidsinterval:scoreligtbinneninterval• Overschrijdingskans:p-waardeisgroterdanje𝛼

TIP Altijddefiguurvisueeluittekenen,dankanjeveelbetervattenwatjeprecieswiltberekenen

Page 33: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

33

Hoofdstuk6:depowerofonderscheidingsvermogen

HERNEMINGVORIGHOOFDSTUK

• 2soortenfoutenbijhetuitvoerenvanstatistischetoetso Foutvandeeerstesoort

§ Nulhypotheseonterechtverwerpen§ Dekansopdezefout:𝛼

• Dezebeslisjezelfvooraleerjedetoetsuitvoerto Foutvandetweedesoort

§ Alternatievehypotheseonterechtverwerpen§ Dekansopdezefout:𝛽§ Dekansomdezefoutniettemaken:1 − 𝛽

• Hetonderscheidingsvermogenofdepower• Dekansomdenulhypotheseterechtteverwerpen• Dithoofdstukgaanweonderanderezienhoewedezekanskunnen

berekenen

6.1 Depowerbijhettoetsenvaneenhypothesebetreffendeeenproportie

Grafischevoorstelling

• Degearceerdeblauwestaven:𝜶,dekansophetfoutiefverwerpen

vandenulhypothese• Desomvandegearceerderozestaven:depower

o Dezewillenwezogrootmogelijk!

Eigenschappen • Depowerstijgtnaarmatedesignificantiestijgt• Depowerstijgtnaarmatedesteekproefgroterwordt

Illustratieeigenschappen

• 2figuren,metelkeenverschillendkleur:stellenelkeenbinomiale

verdelingvoor,metelkeenanderep(=proportie)o Derozefiguurheefteengroteresignificantieensteekproef

Page 34: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

34

• Blauw=nulhypotheseterechtaanvaarden=1-a• Gearceerdblauw=nulhypotheseonterechtverwerpen=a• Roze=nulhypotheseonterechtaanvaarden=b• Gearceerdroze=nulhpotheseterechtverwerpen=1-b=power

o Desomvandeoppervlaktevandezebalkenwillenwezogrootmogelijk

R-code powerBinom(…)

Algemeneopmerkingenbijsteekproefgrootte

• Altijdnaarbovenafronden!Eenhalvepersoonteltniet!Handigbijbv.hetberekenenvandeminimalesteekproefgrootte

• Jesteekproefgroottengaataltijdomhetaantalmensendataanhet onderzoek deelneemt en dus antwoordt op deonderzoeksvragen

o Inoefensessies:alsje200mensenaanspreekt,maarslechts130reageren,danisn=130.

6.2 Depowerbijhettoetsenvaneenhypothesebetreffendeeenverwachting

Stappenplan • Jebegintmetjeoriginelenulhypotheseenalternatievehypothese• Wegaanookeenspecifiekealternatievehypotheseopstellen:diedande

waardeaangeeftwaarvanwijdenkendatditdekritischewaardeis(omeenvoldoenderelevantverschiltezijnmetdenulhypothese)

• DanberekenenviaR-code:power.t.test

6.3 De power bij het toetsen van een hypothese betreffende tweeverwachtingen–afhankelijkesteekproeven

Stappenplan • Ookweereenspecifiekealternatievehypotheseopstellen,waarvanhetverschilmetdenulhypotheserelevantis

• BerekenenviaR-code:power.t.test

6.4 De power bij het toetsen van een hypothese betreffende tweeverwachtingen–onafhankelijkesteekproeven

ViaRberekenen

6.5 Algemeen

• Bijhetberekenenvandepowervertrekjevaneenspecifiekealternatievehypotheseo Nietzoalsbijdenormalealternatievehypothese:geen¹,<of>o Jegebruikthetteken‘=‘

§ Waarom?Omdatjebijhetberekenenvandepoweraankansberekeningdoet,endanhebjeeenexactgetalnodig.

o Jegeeftdandewaardeaanwaarvanjedenktdatditdekritischewaardeis§ Moeteenvoldoendesignificantverschilzijnmetdenulhypothese!

Page 35: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

35

§ Nulhypotheseenspecifiekealternatievehypothesezijndusaltijdverschillend:alszegelijkzijn,toetsjeeigenlijkniks

o Stel dat je specifieke alternatieve hypothese bestaat uit meerdere proporties, dusmeerderegetallen:danzetjedezeallemaaltesamenin1vectorenwerkjeopdiemanierverdermethetgeheel.

§ Ditisvantoepassingbijbv.DeR-codeES.w1• Algemeenideevandepower

o Correctverwerpenvandenulhypotheseo Correctaanvaardenalternatievehypotheseo Moestjedetoetsgebruikenindezelfdecontext(zelfdesteekproefgrootte,significantie…)

met veel steekproeven, dan zal je wat de alternatieve hypothese beweert effectiefopmerkeninjedata.Inhoeveel%vandegevallenjeditzalopmerken,hangtafvanhoegroot(in%)depoweris.

• Eenpowervanminderdan.50isnietinteressant,paszodradepowerhogerisdan.80wordthetinteressant.

• Voorveeltoetsenkanjepowerberekenen,maarnietvoorallemaal• Factorendiepowerbeïnvloeden

o no Effectgrootte:hetverschiltussendealternatieveendenulhypothese

§ Algemeneformule(zelfopgezochtopinternet,staatnietinsyllabus.Gewoonterillustratievoormezelfwatdeterminhoudt)

• ·¨T·Y¯Y

• Hoegroterhetverschiltussenbeideµ’s,hoegroterdeeffectgrootte• Hoekleinerdestandaarddeviatie,hoegroterdeeffectgrootte

§ Hetisaangeradenomdepowerteberekenenbijmeerdereeffectgroottesentevergelijken

o a• Powerverhogen:𝛼verhogenofgroteresteekproef

o Nadeelgroteresteekproef:meerkostenentijdnodigo Nadeelgrotere𝛼:groterrisicoomfoutenvandeeerstesoorttemakeno Voor-ennadelentegenelkaarafwegen!

• Vooreent-toetsmoetjeovereenschattingvandestandaarddeviatiebeschikken• Mogelijkhedenmetberekeningen

o Powerberekenenopbasisvangekozensteekproefgrootteo Minimalesteekproefgrootteberekeneninfunctievangewenstepower

• Verschiltussenpowerenp-waardeo P-waardeisonderdenulhypotheseo Powerisonderdealternatievehypotheseo Opmerking:bijhettoetsenkijkenwedanwelweernaardenulhypothese

Page 36: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

36

Hoofdstuk7:enkelvoudigelineaireregressie

7.1 Inleiding

• Voorbeeld:ziesyllabusp.137• Uiteenzettingalgemeenprobleemvandeinductievestatistiek

o Je kan via spreidingsdiagram, correlatiecoëfficiënt en regressielijn wel weten welksoortverbanderisindesteekproef

o Maarisditverbandooktegeneraliserennaardepopulatie?Neen!§ Wekunnenonzeberekeningenvanspreidingsdiagram,correlatiecoëfficiënt

enregressielijnopsteekproefniveauNIETveralgemenennaarpopulatieniveau!

§ HierdientH7voor!o Wehebbeneenprobabilistischmodelvansamenhangnodig!

• DeR-code:lm(formula=data$variabele~data$variabele)o Defunctieberekentveelmeerdanerindeoutputwordtweergegeven!

§ Omde restvandegegevensop tevragen:andereR-codesgebruikenzoals‘fitted()’of‘residuals()

§ Belangrijkdat jedeuitkomstvan jeeersteR-codeeennaamgeeft (viaeenvector)

• AnderskanjediegegevensnietopvragenbijdeverdereR-codeso OPGELET!KANSOPVERWARRING!

§ IndeR-codeschrijvenwealtijdvanYopX• Vandeafhankelijkevariabeleopdeonafhankelijkevariabele• YwordtdusaltijdeerstgeschrevenindeR-code

§ Maarindecursusnoterenwestatistischomgekeerd(Xeerstschrijven)• Dithoofdstuk–logica

o Eerstdebasisvanhetlineairmodeluitleggeno Dangaanwedevorigehoofdstukkentoepassenophetlineairmodel

§ Puntschattingdoen,intervallenberekenen,toetsen…o Nieuweleerstof

7.2 Hetlineairmodel–kansrekenen

Vertrekpunt • Wehebben2variabelenXenYo WewillenYverklarendoorXo Xisdeonafhankelijkevariabele,Ydeafhankelijkevariabeleo XiseenpredictorvanYo 3uitdrukkingenvoorhetzelfde

• WevermoedendatereenlineairverbandistussenXenY:zezijngecorreleerd.Hoegaanweditnuformeelnoteren?

HoewehetNIETkunnenschrijvenenwaarom

• Wekunnennietnoterenzoalsinbeschrijvendestatistiek:𝑌 = 𝛽j +𝛽G𝑋

• Logicaerachter

Page 37: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

37

o Moesten we het wel noteren zoals in beschrijvendestatistiek, dan zou een bepaalde waarde van X altijdsamengaanmeteenwaardevanY

§ Terwijl de samenhang tussen variabele niet zosimpel&systematischis!Teeenvoudigmodel!

o Mogelijks ook een heel aantal factoren/variabelen dieinspelenopY,maardiewehiernietmeten

§ Variabelendievariërentussenproefpersonen,overdetijd&inverschillendecontexten

§ Wenoemendithettoevalofderuis:ditmoetenweookinrekeningbrengen!

Nieuwevariabele𝜺 • 𝑌 = 𝛽j + 𝛽G𝑋 + 𝜀• Hettoeval,deruis• Heteffectvanmeetfouten:deerrorofdefout• Iseentoevalsvariabele

Algemeneopmerking:Griekseletters

Wegebruikengeengewonelettersmeer(𝑏j,𝑏G)maarGriekse(𝛽j,𝛽G)

REDEN: omdat we nu een populatie beschrijven en niet meer eensteekproef

Hetenkelvoudiglineairmodel

• 𝑌C = 𝛽j + 𝛽G𝑥C + 𝜀C • Met dit model zal niet elke waarde van X leiden tot een unieke

waardevanYo Omdatdewaardevan𝜺kanvariëren

• “Enkelvoudig“:omdatermaar1predictoriso Meervoudiglineairmodel:meerderepredictoren

§ Bv.𝑌C = 𝛽j + 𝛽G𝑥C + 𝛽M𝑥MC + 𝛽Ñ𝑥ÑC + 𝜀C § Zullenwe in deze cursus niet bespreken, daarom

gaan we voortaan spreken van ‘lineair model’(waarmeewedushetenkelvoudigebedoelen)

• “Lineair”:deparameterskomennietvoorineenniet-lineairevorm• DezevergelijkingkanookgebruiktwordenalsXgeen

toevalsvariabeleiso AlswezelfdewaardenvanXbepalenenditdusnietaan

hettoevaloverlateno Bv.Dokterdiezelfbepaaltwelkedosisdepatiëntvaneen

medicijnkrijgt.Dedosisstaatnogsteedsinlineairverbandmetdematevanwerkingvanhetmedicijn.

7.2.1 Assumpties

Lineairmodelbevatenormveelparameters

• Parametersperlineairmodelo Elke fout 𝜺𝒊 heeft zijn eigen gemiddelde en variantie: 2

parametersperindividuo Elkefout𝜺𝒊kancorrelerenmet𝜺𝒋:n(n-1)/2parameterso De2parameters𝛽jen𝛽G

• Totaalaantalparameters:2+2n+n(n-1)/2o Superveel!o Echteencomplexmodel:onbruikbaaromdathetmoeilijke

berekeningenzijnenhetgeenpredictievewaardeheeft

Page 38: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

38

• Ommodeltevereenvoudigen&werkbaardertemaken,eenaantalassumptiestoevoegen:deGauss-Markovassumpties

Gauss-Markovassumpties 1. 𝐸 𝜀C = 𝑂vooralleia. Deverwachtingvandefouthangtnietafvanhetindividu

2. 𝑉 𝜀C = 𝑉 𝜀� voorallei,j.a. Devariantievandefouthangtnietafvanhetindividu

(=homoscedasticiteitsassumptie).b. Dezeconstantevariantiewordtaangeduiddoor𝜎ÔM

3. 𝐶𝑂𝑉 𝜀C, 𝜀C = 0voorallei,j.a. Defoutbijindividuiisnietgecorreleerddefoutbijindividu

j(geenseriëlecorrelatie)

Resultaat:eenpakminderparameters!

7.2.2 Devoorwaardelijkeverwachting𝐸(𝑌C½𝑋C = 𝑥C)

Watishet? • Wedefiniërendeverwachting&berekenendezebijeendeelverzamelingvandepopulatie

• DeverwachtingvandevariabeleYondervoorwaardedatX=x

Notatie • 𝐸(𝑌½𝑋 = 𝑥)• 𝐸(𝑌C½𝑥C)

Formulevoorpredicties 𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C

Anderevormen • Onderdehypothesedathetlineairmodelgeldt:o 𝐸(𝑌C½𝑋C = 𝑥C) = 𝐸(𝛽j + 𝛽G𝑥C + 𝜀C)o Brengtonsuiteindelijktot:𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C

§ Wanthetgemiddeldevandefoutis0,zoalsvermeldindeassumpties

§ Opmerking:dezevergelijkingisnudeterministisch,erzijngeentoevalsvariabelenmeer.Wefocussennietmeeropéénrealisatievan𝑌C,maaropdeverwachtingvanallerealisatiesvan𝑌C.Danspeelthettoevalgeenrolmeer.

• Viadezeformulekanjepredictiesdoen(jehebtdegegevensvanvroeger/nu,jevoorspelthoehetlaterzalzijn)

• Devoorwaardelijkeverwachtingenvanallewaardenvan𝑥C zijnsamenzelfookeenlineairefunctie

• 𝑌C − 𝛽Õ − 𝛽G𝑥C = 𝜀C o Eenanderemanieromdefouttebekijkeno Defoutishetequivalentvanderesidueninde

beschrijvendestatistiek§ Herhaling:eenresiduisdeafwijkingtusseneen

puntenderegressielijn,deafstandhiertussen:𝒚𝒊 − 𝒚×(=yi−(b0+b1xi))

• Devariantievandefoutisdevariantievandepopulatieresiduen:𝑉(𝑌C − 𝛽Õ − 𝛽G𝑥C) = 𝑉(𝜀C)

Eigenschappen • Devoorwaardelijkeverwachting𝑌C iseenlineairefunctievan𝑥C

Page 39: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

39

o Hetequivalentvanderegressielijnindebeschrijvendestatistiek

• Alswedezeformuleherhaaldelijktoepassenompredictiestemaken,danzullendepredictiesgemiddeldgenomencorrectzijn

7.2.3 DevoorwaardelijkevariantieV(YؽXØ = xØ)

Watishet? DevariantievanYondervoorwaardedatXgelijkisaaneenbepaaldewaardex

Notatie 𝑉(𝑌½𝑋 = 𝑥)

Formule 𝑉(𝑌C½𝑋C = 𝑥C) = 𝜎ÔM

àDitisonafhankelijkvan𝑥C:dewaardevanxheeftgeeninvloedopdevoorwaardelijkevariantie

Uitlegbijformule

• Oorspronkelijk:𝑉(𝑌C½𝑋C = 𝑥C) = 𝑉(𝛽j + 𝛽G𝑥C + 𝜀C)o Jemoetrekeninghoudenmetdestellingoverdesomvanvariantieso Als je dit verder uitwerkt, kom je uit aan de bekomen formule:

𝑉(𝑌C½𝑋C = 𝑥C) = 𝜎ÔM

7.2.4 Decorrelatiecoëfficiënt

Watisdelink,hetverband?

Zowellineairmodelalscorrelatiecoëfficiëntgaanoverlineairesamenhang

Formule 𝛽G = 𝜌L` ∗𝜎`𝜎L

7.2.5 Afsluiter

• Wehebbenlineairmodelgeanalyseerdvanuiteenkansrekenen-perspectief• Heeftbetrekkingtottoevalsvariabeleninpopulaties• 3parameters:𝛽G,𝛽Õen𝜎ÔM

o Dezezijnbijnaaltijdonbekend

7.3 Puntschatting(vandeparameters)

• Vragendiebeantwoordwordenbijditonderdeelo Alsweervanuitgaandathetlineairmodelgeldt…

§ …Watzijndewaardenvan𝛽G,𝛽Õen𝜎ÔM?§ …Hoevindenwe𝜌L`?§ …Hoekunnenwedieparametersschattenopbasisvaneensteekproef?

7.3.1 Puntschattingvan𝛽1

Deschatter 𝛽G = 𝐵G 𝑏G=dewaardeuitdesteekproefàZuiverenefficiënt

Devariantievan𝐵G Formule:𝑉(𝐵G) =¯Ù¨

NNO= ¯Ù¨

(ETG)ÚO¨

Page 40: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

40

Overdezevariantie Wewillendatdiezokleinmogelijkis!àHoegaanweditbeïnvloeden?

• 𝜎ÔMmoetzokleinmogelijkzijno 𝜀representeerthettoeval:alleswatwenietcontrolereno Wewillenineenexperimentelesettingzoveelmogelijk

variabelenconstanthouden• nmoetzogrootmogelijkzijn• 𝑠LMmoetzogrootmogelijkzijn

o DooreenbrederangevanXwaardentekiezen

7.3.2 Puntschattingvan𝛽𝑂

Deschatter 𝛽j = 𝐵j 𝑏juitdesteekproefàZuiverenefficiënt

Devariantievan𝐵j Formule:𝑉(𝐵j) = 𝜎ÔMGE+ J¨

(ETG)ÚO¨ = 𝜎ÔM

GE+ J¨

NNO

Overdezevariantie Wewillendatdiezokleinmogelijkis!àHoegaanweditbeïnvloeden?

• 𝜎ÔMmoetzokleinmogelijkzijno 𝜀representeerthettoeval:alleswatwenietcontrolereno Wewillenineenexperimentelesettingzoveelmogelijk

variabelenconstanthouden• nmoetzogrootmogelijkzijn• 𝑠LMmoetzogrootmogelijkzijn

o DooreenbrederangevanXwaardentekiezen

7.3.3 Depredicties

Predictievanlineairmodel

• Formule::𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽j + 𝛽G𝑥C o Wekennendewaardenvanonzeparametersniet,duswe

schattenzeviadeschatters𝐵Gen𝐵jo Wekunnenineenspecifiekesteekproefderealisaties𝑏Gen

𝑏jberekenenvoorhunovereenkomendeschatter

Deschattervandepredictie𝒀×

• Opniveauvandeschatters:𝑌¶ = 𝐵Õ − 𝐵G𝑥C • Opniveauvandespecifiekesteekproef:𝑦¶ = 𝑏Õ − 𝑏G𝑥C

Variantievandeschatter𝒀×

𝑉(𝑌𝑖) = 𝜎ÔM1𝑛+(𝑥C − 𝑥)M

(𝑛 − 1)𝑠LM= 𝜎ÔM

1𝑛+(𝑥C − 𝑥)M

𝑆𝑆L

Algemeen • Hoedichter𝑥C bijhetgemiddelde𝑥is,hoekleinerdevariantie,hoebeterdepredictie

Page 41: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

41

7.3.4 Puntschattingvan𝜎ÔM

Deschatter

𝜎𝜀2 =

Deschatting

Sumofsquaredresiduals

• Symbool:𝑆𝑆ܾڕ Staatvoor 𝑌C − 𝑌C

M

• Dus𝜎ÔM =NNÝÞßETM

7.3.5 Puntschattingvan𝜌L`

Schatter 𝜌L` = 𝑅L`(metalsrealisatie𝑟L`)

7.4 Intervalschatting

Extra veronderstelling (bovenopGauss-Markovassumpties)

Foutenzijnnormaalverdeeld.

Watgaanwedoen? Betrouwbaarheidsintervallenberekenenomdeverschillende

parameterstekunneninschatten

7.4.1 Betrouwbaarheidsintervalvoor𝛽1

Betrouwbaarheidsinterval

OF

Tip Devariantievan𝐵Gmoetzokleinmogelijkzijn,danisjeintervalklein.

7.4.2 Betrouwbaarheidsintervalvoor𝛽0

Betrouwbaarheidsinterval

OF

Page 42: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

42

Tip Devariantievan𝐵Gmoetzokleinmogelijkzijn,danisjeintervalklein.

7.5 Toetsing

Veronderstellingen • DeGauss-Markovassumpties• Defoutenzijnnormaalverdeeld

Denulhypothese 𝐻j: 𝜌L` = 0

𝐻j: 𝛽G = 0

à Beiden zijn equivalent, doorhet verband tussen𝜌L` en𝛽G (zieformule)àDehypothese𝐻j: 𝛽Õ = 0 isnietvaakrelevant,dusbekijkenwehier niet.àWegaanalleenverdermet𝑯𝟎: 𝝆𝑿𝒀 = 𝟎

7.5.1 Toetsenvanhetlineairmodelviadet-verdeling

Toetsingsgrootheid

volgenseent-verdelingmetn-2vrijheidsgraden

Voorwaarden • Yo Continuo Intervalofratio

• Xo Dichotoomo Intervalofratio

• Defoutenzijnnormaalverdeeld

Stappenplan&R-code • Eerstnagaanofde foutennormaal verdeeld zijn: Shapiro-Wilktoets,toegepastopderesiduen

o R-code:shapiro.test(residuals(data))o Kijkennaarp-waardeomtebeslissenovernulhypothese

(nulhypothese=zezijnnormaalverdeeld)• Schattingenvan𝛽jen𝛽Gopvragen

o R-code:coef(data)§ Deoutput:hetlinkergetalis𝛽j,hetrechtergetal

is𝛽G• Derealisatievandetoetsingsgrootheidberekenen

o Deschattingvan𝛽Gkanjegebruikeninjeformuleo Rekening houden met de verdeling en het aantal

vrijheidsgraden• Dep-waardevoorderealisatievandetoetsingsgrootheidonder

denulhypotheseopvrageno Opgelet: tweezijdige alternatieve hypothese, dusmaal

2!o R-code:2*pt(…)

Page 43: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

43

o Als deze kleiner is dan het significantieniveau:nulhypothese verwerpen, wat betekent dat er eenlineairverbandisindepopulatie

7.5.2 ToetsenvanhetlineairmodelviadeF-verdeling

Ditiseentweedetechniek,volledigequivalentaandeeerste

Hetnulmodel • Wegaan2modellenkiezen:hetlineairmodelenhetnulmodel• Nulmodel:hetlineairmodel,maarmetdebeperking𝜷𝟏 = 𝟎

o 𝑌C = 𝛽j + 𝜀C o Eenlineairmodelzonderpredictoro Predicties:𝐸(𝑌C½𝑋C = 𝑥C) = 𝛽jo Defout:𝑌C − 𝛽Õ = 𝜀C

§ Het verschil tussen de werkelijke waarde en depredictie

o Schatter:𝑌¶ = 𝐵Õ = 𝑌o Aldezeformuleszijnafteleidenuitdeformulesvanhetlineair

model

Selectie • Lineairmodel(met1predictor)isflexibelerdanhetnulmodelo Degegevensfittenbetero Deregressielijnkomtbeterovereenmetdepuntenwolko Desomvandegekwadrateerderesiduenvanhetlineairmodel

iskleinerdandievanhetnulmodel§ Maarisditverschilgrootgenoegomtebeslissendatdit

niettoevalligis?Omtebeslissendathetlineairmodelmet1predictorgeldigis?

• Wegaanhetverschil“𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚGanalyseren

Formule (𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚG)𝑆𝑆ܾÚG/(𝑛 − 2)

~𝐹G,ETM

𝑑𝑓j=aantalvrijheidsgradennulmodel=n-1𝑑𝑓G=aantalvrijheidsgradenlineairmodel=n-2

DezeverhoudingisdanF-verdeeld,met𝑑𝑓j − 𝑑𝑓Gvrijheidsgradenindenoemeren𝑑𝑓Gvrijheidsgradenindeteller

Indepraktijk–stappenplan

• 𝑆𝑆ܾÚÕen𝑆𝑆ܾÚGberekenen(gewoonviaformule)• Verhoudingberekenen(formule:ziehierboven)• De kans berekenen dat F toevallig groter is dan de realisatie van de

verhoudinginonzesteekproefo Éénzijdigep-waardeberekenen

§ OmdatalleenhogewaardenvandeF-verhoudingleidennaareenverwerpingvandenulhypothese

§ R-code: pf (q= de verhouding, df1=1 (staatbeschreven in de formule hierboven) , df2=n-2,lower.tail=FALSE)

o Als deze kans kleiner dan 5% is, dan verwerpen we denulhypothese

Page 44: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

44

7.6 Dedeterminatiecoëfficiënt𝑅M

Logica erachter – debeginformule

• Tweedelenindezeformule(aangeduidviarodecirkels)

o Tweedeterm§ 𝑺𝑺𝑹𝒆𝒔:sumofsquaredresiduals§ Hebben we al eerder gezien in de cursus, niet

nieuw§ Desomvandegekwadrateerderesiduen,vande

fouten§ Wat het lineair model met één predictor niet

verklaart§ Eigen woorden: voor de gegevens de afwijken

vanhetmodel,deresiduen,defouten.Dedingendiedoorhettoevalzijnbepaald.

o Eersteterm§ 𝑺𝑺𝑴𝒐𝒅:sumofsquarespredictedbijthemodel§ Desomvandegekwadrateerdeafwijkingendie

verklaard of voorspeldworden door het lineairmodelmetéénpredictor

§ Wat het lineair model met één predictor welverklaart

§ Eigenwoorden:voordegegevensdieeffectiefbijhetmodelhoren,dieinlijnliggenmethetmodel

• Dus:𝑆𝑆` = 𝑆𝑆è\é = 𝑆𝑆ê\¿ + 𝑆𝑆ܾÚo Eigen woorden: 𝑆𝑆è\é staat voor het totaal. Zowel de

gegevensdiekloppenmethetmodelalsdegegevensdieafwijken.

DevariantievanYineenspecifiekesteekproef

Determinatiecoëfficiënt𝑅M–formule

𝑅M–notatie • Altijdhoofdletter:zowelvoordesteekproefgrootheidalsde

realisatieineenspecifiekesteekproef• Erisgeenspecifieksymboolvoordepopulatieparameter

𝑅M–eigenschappen • 𝑅Mgeeftaanhoeveel%vandevariantievandeafhankelijkevariabelewordtverklaarddoordeonafhankelijkevariabele.

• Altijdtussen0en1o Altijdpositiefofnul:omdat𝑆𝑆ê\¿ en𝑆𝑆ܾÚsommenvan

kwadratenzijno Altijdkleinerofgelijkaan1:omdat𝑆𝑆ê\¿ ≤ 𝑆𝑆è\é

Page 45: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

45

𝑅M–enkelegevallen

𝑅M–linkmetcorrelatie • Opgelet:enkelbijhetlineairmodelmetéénpredictor

• Dedeterminatiecoëfficiënt𝑅M=𝑟M:hetkwadraatvandecorrelatiecoëfficiëntr

• 𝑅Menrbevattendusexactdezelfdeinformatieo Alleengeeft𝑅Monsgeeninfooverhettekenvanhet

verband(stijgendofdalend)

Deaangepastedeterminatie-coëfficiënt

• 𝑅Misgebaseerdopeensteekproef,metnobservaties• Nuwillenwedepopulatie-𝑅Mschatten

o Formule:𝑅M = 1 − 1 − 𝑅M ∗ 𝑛−1𝑛−𝑝−1

§ P=hetaantalpredictoreno Formulevoormodelmetéénpredictor:𝑅M = 1 −

1 − 𝑅M ∗ 𝑛−1𝑛−2• Aangepastedeterminatiecoëfficiëntisaltijdkleinerofgelijkaan𝑅M

7.7 DeRfunctie‘summary’

Watdoethet? Geeftalleinfovanhetlineairmodelin1keervrij

R-code summary(lm(formula=vector1~vector2))

Output • Eersteregelo Infooverderesidueno Gemiddeldewordtnietgetoond

§ Wantgemiddeldevanresiduenisaltijd0o Mediaan:beetjekleinerdan0

§ Groterverschiltoontaandatverdelingnietsymmetrischisendatdeverdelingvandefoutmisschiennietnormaalis

o Eersteenderdekwartiel§ Bijnasymmetrisch§ Sterkere assymetrie toont aan dat verdeling niet

symmetrischisendatdeverdelingvandefoutmisschiennietnormaalis

o Minenmax§ Bijnasymmetrisch

Page 46: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

46

§ Sterkere assymetrie toont aan dat verdeling nietsymmetrischisendatdeverdelingvandefoutmisschiennietnormaalis

• Tweederegelo Derijen(horizontaal)

§ Eersterij:infoover𝛽j§ Tweederij:infoover𝛽G

o Dekolommen(verticaal)§ Estimate: de schatting van de corresponderende

parameter§ Std.Error: de standaardfout of standaarddeviatie van de

corresponderendeschatter§ T.value: dewaarde van de t-verdeelde statistiek diewe

gebruikenomdecorresponderendehypothesetetoetsen§ Pr(>ItI):decorresponderendep-waarde

• Derderegelo Residualstandarderror:𝜎ÔMo MultipleR-squared:𝑅Mo AdjustedR-squared:aangepaste𝑅Mo P-value:p-waardevoorhetvolledigemodelo F-statistic:hetresultaatvandemodelselectie;derealisatie𝑓∗van

de F-toetsingsgrootheid met vermelding van het aantalvrijheidsgraden

7.8 Depowervandetoetsvan𝐻j: 𝛽G = 0

R-code pwr.r.test(n=…,r=…,sig.level=…)

OpmerkingbijR-code&concreetgebruik

• Jehebtdecorrelatiecoëfficiëntnodigvoorjehypothese.• Indeoefeningkrijgjedewaardevan𝛽G,diejewensttekunnen

detecterenalsditzichvoordoet.o Viadezewaardevan𝛽Gberekenjedandeschattingvande

correlatieo Gebruikhierbijdeformule𝛽G = 𝜌L` ∗

¯ë¯O

§ Jekent𝜎Len𝜎`vaakniet,dusdezemoetjeschattenopbasisvandesteekproef

7.9 DevaliditeitvandeGauss-Markovassumpties

• Heel wat verschillendemethoden hiervoor, wij zien alleen een zeer eenvoudige intuïtievetechniek:devisueleanalysevanhetspreidingsdiagramomdehomoscedasticiteitsassumptienategaan

Homoscedasticiteits-

assumptie

Devariantievandefout𝑽 𝜺𝒊 isonafhankelijkvan𝒙𝒊.Hetisgelijkaaneenconstante𝝈𝜺𝟐.Gevolg:devoorwaardelijkevariantieisconstant,onafhankelijkvan𝒙𝒊.

Visueleanalysevanhetspreidingsdiagram

Wegaansnedeninhetspreidingsdiagrambekijken.

Page 47: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

47

VOORBEELD1

• 3sneden,omkaderddooreenrechthoek.Elkesnedestaatvoor

1x-waarde• Depunten(parallelaandeverticaleas)zijnongeveerbijelke

snedeevenveelgespreido Degeobserveerdevoorwaardelijkevariantieszijndus

ongeveeridentiekaanelkaaro Dedrievoorwaardelijkepopulatie-variantieszijn

waarschijnlijkookidentiekaanelkaar

VOORBEELD2

• Hierzijndepuntenpersnedenietevenveelverspreid• Devoorwaardelijkepopulatie-variantieszijnduswaarschijnlijk

nietallemaalidentiek• Gevolg:wemogenhetlineairmodelnietgebruikenomhet

verbandtussendevariabelenteanalysereno Ditprobleemkomtvaakvooralsdeafhankelijke

variabelevanratiomeetniveauis

Page 48: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

48

7.10 Opmerkingm.b.t.softwarepaketten

• De waarden van de regressiecoëfficiënten zijn sterk afhankelijk van de schaal waarop devariabelenXenYgemetenworden

• Omregressiecoëfficiëntenonderlingtekunnenvergelijken:dedatastandaardiseren(zodatderegressiecoëfficiëntenookgestandaardiseerdzijn)

o FormuleomXtestandaardiseren:JîTJÚ

o DitdanookopYtoepassen

7.11 Meervoudigelineaireregressie:sneakpreview

Voorbeeldsituatie • Jehebt3variabelenwaarbijjehetverbandwiltweten• Mogelijkheid: 2 aparte enkelvoudige lineaire regressies uitvoeren

(AVenOV1,AVenOV2)o Nadelenbijdezewerkwijze

§ Jevoert2toetsenuit,elketoetsheefteenkansaopeenfoutvandeeerstesoort.Detotalekansopeenfoutvandeeerstesoortisnugroterdana

§ Hetzijn2afzonderlijkeverbanden:jeweetniksoverhetglobaleverbandtussendedrievariabelen

§ Inelketoetsgebruikjemaareendeelvandedata,jegebruiktopgeenenkelmomentallebeschikbaregegevens.

• Tweedemogelijkheid:meervoudiglineairmodelgebruiken

Meervoudiglineairmodel

• EenmodelwaardeAVdoormeerderepredictorenvoorspeldwordt• 𝑌C = 𝛽j + 𝛽G𝑥C + 𝛽M𝑥MC + 𝛽Ñ𝑥ÑC + ⋯+𝜀C • Ditmodelismoeilijkertetoetsen

o Deuitkomstisnietmeerbinair,hetisnietmeervan‘hetmodelgeldtofniet’

o Erzijnmeerderemogelijkeuitkomsten§ Hetmodelgeldtmet2predictoren§ Hetmodelgeldtmetdeeerstepredictor§ Hetmodelgeldtmetdetweedepredictor§ Hetmodelgeldthelemaalniet

o Ergcomplex,daarombekijkenwehetnietindezecursus

Stappenplan&R-code • Ookdefunctie‘lm()’gebruikeno Voorde~:deafhankelijkevariabeleo Nade~:delijstvanallepredictoren

§ Tussendepredictoren:+§ Devolgordevandepredictorenisvangeenbelang

• Functie‘summary()’gebruikeno Volledigeoutputistecomplexvoorons,kennenweniet

allemaalo Kijkennaaralgemenep-waarde(staathelemaalonderaan

output)enopbasishiervanbesluitenovernulhypothese

Algemeneopmerkingbijwoord‘predictor’

• Ditstaatvoor‘voorspellendevariabele’endusonafhankelijkevariabele

Page 49: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

49

Hoofdstuk8:variantie-analyseofANOVA

8.1 Inleiding

Illustrerendeoefening Ziesyllabusp.169

ANOVA? Staatvoor‘analysisofvariance’àvariantie-analysedus

Een eerste introductie:voor welk probleemstaanwe?

• Wehebbenverschillendesteekproeven,meerdan2.• Wewillenwetenofergemiddeldgezienverschillenzijn tussende

steekproeven.o Wekijkennaardevariantiesvandegemiddeldenbijmeer

dan2steekproeven• We hebben een statistische toets nodig die de verschillende

verwachtingenonderlingvergelijkt

Overzichtpopulatie–soorttoets

• Verwachtingenbij2populaties:t-toets• Verwachtingenbijmeerdan2populaties:variantie-analyse

R-codes • Omhetgemiddeldevanallegroepentehebben:mean()• Om het gemiddelde van elke groep apart te krijgen:

aggregate(formula=AV~OV,FUN=mean)o HetargumentFUN:

§ Afkortingvan‘functie’§ Daarmee zeggen we aan R wat het exact moet

berekenen§ Je kan evengoed opdragen om de variantie of de

mediaan ofzo te berekenen (FUN=variance,FUN=median…)

• Gegevensvisueelanalyseren:viaboxploto Dan krijg je visueel overzicht over de mediaan en de

variantie

Voorwaarden • OV:categorisch• AV:ratioofinterval

8.2 Heteffectenmodel

Linkmetlineaireregressie(H7)

• Gemeenschappelijko Zelfdelogicaerachter:wewillendeafhankelijkevariabelen

verklarendoordeonafhankelijkevariabelen• Verschillend

o Bijeffectenmodel:deonafhankelijkevariabeleiscategorisch!

§ Bij lineaire regressiewasdit vanminstens intervalniveau

Enkeletermen • Afhankelijkevariabele:derespons• Onafhankelijkevariabele:defactor

o Defactorheefteenaantalniveaus:

Page 50: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

50

§ Hetaantalgroepenofpopulatiesdieweonderlingwillenvergelijken

§ SymboolI(hoofdletteri)

Heteffectenmodel • Er isaltijdeengemeenschappelijkeverwachtingµ:ditoverkoepeltalleniveaus

• Elk niveau van de factor heeft een effect op de afhankelijketoevalsvariabeleY

• Alswede2bovenstaandepuntjes ineenstatistischmodelgieten,dankrijgenwe:𝑌C� = 𝜇 + 𝛼C

o DeafhankelijkevariabeleYvoorhetindividuk,onderniveaui

o 𝛼C =deafwijkingdiecorrespondeertmetgroep i,hoeveelgroepiverschiltvanhetalgemeengemiddelde

• Ditmodelisfout:kloptnietmetdewerkelijkheid!o Voor elk individu in groep i voorspelt het model exact

dezelfdewaarde:𝜇 + 𝛼C o Alsofergeenonderlingeverschillenzijntussendeledenvan

groepio De individuen binnen 1 groep hebben uiteraard iets

gemeenschappelijks, maar er zijn nog steeds allerleispecifieke kenmerken per persoon, die ook een effecthebbenopY!

o We moeten dus rekening houden met het toeval: defouttermeinbrengen

• Heteffectenmodelvoorenkelvoudigevariantie-analysemetéénfactormetIniveaus:

o 𝑌C� =toevalsvariabeleYbijindividukonderniveauivande

factoro 𝜇isdegemeenschappelijkeverwachting(eenconstante)o 𝛼C isheteffectvanniveauivandefactor(eenconstante)o eC� isdefoutterm(toevalsvariabele)bijindividukonder

niveaui(ofingroepi)

8.2.1 Assumpties

Gauss-Markovassumpties

Dit model heeft enorm veel parameters (zoals de enkelvoudigeregressie),wegaandezereducerendoordeGauss-Markovassumptiesaantenemen:

4. 𝐸 𝜀C� = 𝑂vooralleia. Deverwachtingvandefouthangtnietafvanhetindividu

5. 𝑉 𝜀C� = 𝑉 𝜀�£ voorallei,j,k,l.a. Devariantie vande fouthangtniet af vanhet individu (=

homoscedasticiteit).b. Dezeconstantevariantiewordtaangeduiddoor𝜎ÔM

6. 𝐶𝑂𝑉 𝜀C�, 𝜀C� = 0voorallei,j,k,l.a. Defoutbijindividuiisnietgecorreleerddefoutbijindividu

j(geenseriëlecorrelatie)

Resultaat:eenpakminderparameters!

Page 51: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

51

8.2.2 Devoorwaardelijkeverwachting𝐸(𝑌C�)𝑜𝑓𝜇C

Voorwaardelijkeverwachting

𝐸(𝑌C�Iindividukingroepi) = 𝐸(𝑌C�) = 𝐸(𝜇 + 𝑎C + 𝜀C�)

Formule 𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C

Opmerkingbijformule • Dezevergelijkingisnudeterministischo Wewerkenmetgetallen,geentoevalsvariabeleno We focussen niet meer op één realisatie maar op de

verwachtingvanallerealisatiesvan𝑌C� • Dezevergelijkingkunnenwegebruikenompredictiestemaken

o Hetverschiltussen𝑌C� endepredictievan𝑌C�:deerrorterm𝜀C�

§ § Hetzelfdealsdefoutenofpopulatie-residuenbijhet

lineairmodel

8.2.3 Devoorwaardelijkevariantie

Formules 𝑉 𝑌C� = 𝑉 𝜇 + 𝑎C + 𝑉 𝜀C� + 2𝐶𝑂𝑉(𝜇 + 𝛼C, 𝜀C)

𝑉 𝑌C� = 𝜎ÔM

Overgang van formule 1naarformule2–logica

• 𝑉 𝜀C� = 𝜎ÔM• 𝑉 𝜇 + 𝑎C = 0,wantditiseengetal• 2𝐶𝑂𝑉 𝜇 + 𝛼C, 𝜀C = 0wantookditiseengetal

Eigenschappen formule𝑉 𝑌C� = 𝜎ÔM

• Onafhankelijkvanienk• Devariantie van 𝑌C� is dusdezelfde in elke groep, ook al zijnde

verwachtingennietidentiek

8.2.4 Identificeerbaarheid

Verschillendeeffectenmodellen

Page 52: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

52

Overdezemodellen

• Deafstandentussendeµ(hetalgemeengemiddeldeoverallegroepen)ende𝛼G, 𝛼M𝑜𝑓𝛼Ñzijnvoorelkmodelevengroot

• Daardoor zijn de 3 voorwaardelijke verwachtingenof predicties voor elkmodelookhetzelfde

o Dit is logisch als je kijkt naar de formule voor devoorwaardelijkeverwachting:𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C

• Defoutenzijnookhetzelfdepermodelo Kanjebegrijpenalsjekijktnaardeformulevandefout:

àDeafstandentussendeµende𝛼G, 𝛼M𝑜𝑓𝛼Ñzijnvoorelkmodelevengroot,dushetgeenwatoverblijftzonderdeµen𝛼C isookevengroot

• DUS…o Alle3demodellenleidentotdezelfdepredictieso De modellen zijn empirisch onmogelijk van elkaar te

onderscheiden:zezijnequivalentvanuitempirischperspectiefo Dit is zo voor alle modellen waarvoor geldt dat 𝜇ðð = 𝜇 +

𝑡𝑒𝑛𝛼Cðð = 𝛼C − 𝑡𝑣𝑜𝑜𝑟𝑖 = 1, … , 𝐼.§ Er zijn dus oneindig veel equivalente modellen:

probleem!!§ Heteffectenmodelisnietidentificeerbaar

• Om dit probleem op te lossen: gebruik maken van restricties voor deparameters

Restrictie1:Sigma-restrictie

• Algemeen:deµkrijgjeenjemoetdewaardenvan𝛼C kiezeninfunctievanµvolgensdevolgendevoorwaarde

o Werkenvolgensdeformule𝜇C = 𝜇 + 𝑎C o 𝑎C iswatjenogbij𝜇C moettoevoegenofaftrekkenomtot𝜇te

komen• Devoorwaarde:desomvanalle𝛼C is0

o o Sommige𝛼C’szijnpositief,anderenegatief,zodatdesom0is.

• Illsutratiehiervan:model1

Restrictie2:GLM-restrictie

• Algemeen:deµkrijgjeenjemoetdewaardenvan𝛼C kiezeninfunctievanµvolgensdevolgendevoorwaarde

o Werkenvolgensdeformule𝜇C = 𝜇 + 𝑎C o 𝑎C iswatjenogbij𝜇C moettoevoegenofaftrekkenomtot𝜇te

komen• Devoorwaarde:éénvande𝛼C’s=0

o Logicaerachter§ Jeneemtdewaarde𝜇C vanééngroepals

referentiepunt:ditisdanje𝜇.Hierbijisde𝛼C dan0,wantjemoetniksmeerbijrekenenomtotdieµtekomen.

§ Voordeandere𝛼C’sbepaaljedezedusinfunctievandereferentie-µ

• Jebekijktpergroephoeveelernogbijdespecifieke𝜇C voordiegroepmoetbijgerekend

Page 53: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

53

ofafgetrokkenwordenomtotdealgemeneµtekomen.Hoeveelerdanmoetbijgerekendofafgetrokkenisje𝛼C

• Illustratiehiervan:model2

8.2.5 Afsluiter

• Wehebbeneffectenmodelgeanalyseerdvanuiteenkansrekenen-perspectief• Heeftbetrekkingtottoevalsvariabeleninpopulaties• I+2parameters:

o Iparameters:𝛼G, … , 𝛼ò o 2parameters:µen𝜎ÔM

• Doorderestrictie(SigmaofGLM)iséénvandeparametersafhankelijkvandeandereno WehoevendusslechtsI+1parametersteschatteno De(I+2)-deparameterwordtautomatischbepaalddoorderestrictie

8.3 Puntschatting

Devragendieweons stellen in ditonderdeel

AlsweaannemendatheteffectenmodelgeldttussenXenY…

…watzijndanwewaardenvanonzeparameters?

…Hoekunnenwedeparametersschattenopbasisvaneensteekproef?

Hetantwoordhierophangtafvandesoortrestrictiediewegebruikthebben!

8.3.1 Sigma-restrictie

Schattervan𝜇

àgemiddeldevanIsteekproefgemiddeldenàZuiverenefficiënt

Schattervana

àAfwijkingtussenhetcorresponderendesteekproefgemiddeldeen𝜇

8.3.2 GLM-restrictie

Schattervan𝜇 𝜇 = 𝑦òàHetsteekproefgemiddeldevangroepI

Schattervana

àAfwijkingtussenhetcorresponderendesteekproefgemiddeldeen𝜇

Page 54: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

54

8.3.3 Depredicties

Predicties van heteffectenmodel

𝐸(𝑌C�) = 𝜇C = 𝜇 + 𝑎C

• Indepraktijkkennenwe𝜇en𝑎C niet• Wegebruikendeschattingen𝜇en𝑎¶

Formule voor deschatting van depredicties van heteffectenmodel

𝐸(𝑌¶�) = 𝜇¶ = 𝑦C = 𝜇 + 𝑎¶ = 𝑦C

àOokdeschattingvaneenpredictiewordtgewooneenpredictiegenoemd

àDeschattingenvandepredictieszijndezelfdevoordeSigma-restrictieendeGLM-restricties

àOpmerking:𝑦C isdeschattingvan𝐸(𝑌C�)ennietvan𝑦C,nietverwarren!

8.3.4 Puntschattingvan𝜎𝜀2

Schattervan𝝈𝜺𝟐

àZuiverenefficiënt

Schattingvan𝝈𝜺𝟐

OF

8.4 Toetsing

Assumpties Wegaanuitvan……Gauss-Markovassumpties…hetideedatdefoutennormaalverdeeldzijn:𝜀C�~𝑁(𝑂, 𝜎ÔM)

Nulhypothese 2manierenomdezeteformuleren.Beidezijnequivalent.

1. 𝐻j ∶ 𝛼G = ⋯ = 𝛼ò = 02. 𝐻j ∶ 𝜇G = ⋯ = 𝜇ò

àAllegemiddeldenzijnhetzelfde,erisgeeneffect

Alternatievehypothese

Horendebijdecorresponderendenulhypothese:

1. 𝐻Ã:minstenséénvande𝑎C’sisnietnul2. 𝐻Ã:minstenséénvande𝜇C’sverschiltvandeanderen

Techniekomdehypothesentetoetsen

Techniekleuntopdemodelselectie-aanpak,zoalsbijdelineaireregressie

Page 55: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

55

8.4.1 Hetnulmodel

Kiezentussen2modellen..

• Wemoetenkiezentussenheteffectenmodelenhetnulmodel

Hetnulmodel • Beperkteversievanheteffectenmodel• 𝛼G = ⋯ = 𝛼ò = 0• Nulmodel:𝑌C� = 𝜇 + 𝜀C�

𝝁 schatten volgensnulmodel

• ViahetgemiddeldevanallewaarnemingenvanY

Predictiesmaken

à De predictie is onafhankelijk van de groep en van het individuà Logica erachter: hetmodel veronderstelt dat alle individuen getrokkenwordenuitéénpopulatie

Defout

Schattingvanpredicties

Residuen

Somvandegekwadrateerderesiduen Concreetindeoefeningen

• Alszevragenofalternatieveennulhypotheseoptestellen:bijditsoortoefeningenwiljewetenofereenverbandistussendevariabelen.

• Logicaerachter:o Kijknaarhetfunctievoorschriftvanjemodel&denknawat

eranderszalzijninjevoorschriftalsereenverbandtussendevariabelenisversusalsergeenverbandis.

o JewaardevanB1zalveranderen!§ Alsergeenverbandis:B1=0.Ditkomtovereenmet

hetnulmodelenditisonzenulhypothese§ Als er wel een verband is: B1 ≠ 0. Dit is onze

alternatievehypothese.

8.4.2 Selectie

Selectie • Effectenmodelmet1factorisflexibelerdanhetnulmodelo Degegevensfittenbeter

Page 56: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

56

o Deregressielijnkomtbeterovereenmetdepuntenwolko Desomvandegekwadrateerderesiduenvanhetlineairmodel

iskleinerdandievanhetnulmodel§ Maarisditverschilgrootgenoegomtebeslissendatdit

niettoevalligis?Omtebeslissendathetlineairmodelmet1predictorgeldigis?

• Wegaanhetverschil𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚGanalyseren• Opmerking:degekwadrateerdesomvanderesiduenisafhankelijkvan

demeeteenheidendesteekproefgrootteenvanhetaantalparametersvandemodellen.

o Puur de getallen alleen zeggen vrij weinig, we kunnen hetverschilnietrechtstreeksinterpreteren!

o Omdeinvloedenteneutraliseren:zieformule

Formule (𝑆𝑆ܾÚÕ − 𝑆𝑆ܾÚG)/(𝐼 − 1)𝑆𝑆ܾÚG/(𝑛 − 𝐼)

~𝐹òTG,ETò

𝑑𝑓j=aantalvrijheidsgradennulmodel=n-1𝑑𝑓G=aantalvrijheidsgradeneffectenmodelmet1factor=n-I

DezeverhoudingisdanF-verdeeld,met𝑑𝑓j − 𝑑𝑓Gvrijheidsgradenindenoemeren𝑑𝑓Gvrijheidsgradenindeteller

Stappenplan • DekansberekenendatFtoevallig(onderdenulhypothese)groterisdanderealisatief*

o P-waardevandeF-verdelingberekeneno Als deze kans kleiner dan 5% is: dan verwerpen we

nulhypotheseo Eenzijdigep-waardeberekenen!Alleenhogewaardenvan

de F-verhouding zorgen voor een verwerping van denulhypothese!

8.5 Devariantiedecompositie

(decompositie=ontleden,wegaandevariantieinstukkenontleden)

De sum of squares:𝑺𝑺𝒀of𝑺𝑺𝑻𝒐𝒕

• Origineleformule:

• Dezeformulekunnenweopsplitsenin2delen

o Tweedeterm

§ § Bijlineaireregressie(H7):𝐒𝐒𝐑𝐞𝐬,sumofsquared

residuals§ Bijvariantie-analyse:𝐒𝐒𝐛𝐢𝐧𝐧𝐞𝐧§ Ditslaatophetgedeeltevandebevindingenwat

heteffectenmodelmetéénfactornietverklaart• Devariantieofspreidingbinnendegroep:

ditverklaarthetmodelnieto Eersteterm

Page 57: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

57

§ § Bijlineaireregressie:SSýþÿ,sumofsquares

predictedbythemodel§ Bijvariantie-analyse:SS!"##$%§ Ditslaatophetgedeeltevandebevindingenwat

heteffectenmodelmetéénfactorwelverklaart• Devariantievandegemiddeldentussen

degroepen:ditverklaarthetmodelwel• 𝑆𝑆`bestaatdusuit2delen:hetdeeldathetmodelwelverklaart&het

deelwathetmodelnietverklaart.o 𝑆𝑆`staatdusinvoorallebevindingen:daaromwordthet

ookwel𝑆𝑆è\égenoemd

Eenoverzicht:SS&$#/SS'Ø%%$%enSSýþÿ/SS!"##$%

• SS&$#(lineaireregressie)=SS'Ø%%$%(variantie-analyse)=wathetmodelnietverklaart

• SSýþÿ(lineaireregressie)=SS!"##$%(variantie-analyse)=wathetmodelwelverklaart

• IllustratiebetekenisSS'Ø%%$%enSS!"##$%

o § Bijdezeafbeeldingisdespreidingbinnendegroep

heelgroot:elkeapartecurveisheelwijd,SS'Ø%%$%isgroot

§ Bijdezeafbeeldingisdespreidingtussendegroepenlaag:zeliggendichtbijelkaar,datkanjezienomdatelkegroepvooreengrootdeeloverlaptmeteenanderegroep.SS!"##$%isklein.

o § Bijdezeafbeeldingisdespreidingbinnenelkegroep

klein:elkeapartecurveissmal,neemtnietveelplaatsin.SS'Ø%%$%isklein

§ Bijdezeafbeeldingisdespreidingtussendegroepenhoog:zeoverlappenonderlingbijnaniet.SS!"##$%isgroot.

o Opmerkingbijafbeeldingen:degemiddeldenvandegroepenzijnhetzelfde,dusdatzegtduidelijkniksoverdespreiding!

VariantievanY:𝒔𝒅𝒀𝟐

àDeverklaardevariantie+deonverklaardevariantie

Page 58: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

58

àOPMERKING:dezelfdenotatie(hoofdletter!)enformulewordtgebruiktvoorsteekproefgrootheidenvoorrealisatieinspecifiekesteekproef!àOPMERKING:geencorresponderendsymboolvoordepopulatieparameter

𝑅M

Demeanofsquares:𝐌𝐒𝐭𝐮𝐬𝐬𝐞𝐧en𝐌𝐒𝐛𝐢𝐧𝐧𝐞𝐧

• Degemiddeldekwadraten:eenkwadratensomgedeelddoorhetcorresponderendeaantalvrijheidsgraden

• MS!"##$% =,,-.//01òTG

• MS'Ø%%$% =ý,231101

ETò

F-verhouding SS!"##$%/(𝐼 − 1)𝑆𝑆ÉCEE¾E/(𝑛 − 1)

=𝑀𝑆é5ÚÚ¾E𝑀𝑆ÉCEE¾E

~𝐹òTG,ETò

• Wevergelijkendevariantietussendegroepenmetdevariantiebinnendegroep.

• Alsdezeverhouding≤1is,danaanvaardenwedenulhypothese

8.6 DeRfunctie‘aov’

Wat? OmalleberekeningenoverANOVAinéénkeeruittevoeren

Aov=analysisofvariance

R-code aov(formula=AV~OV)

UitlegbijR-code • Argument formula = om te zeggen welke variabelen je wiltanalyseren

• Outputo Deg.Offreedom:devrijheidsgradeno SumSq=Sumofsquares:dedecompositievande

somvankwadrateno MeanSq=meanofsquareso Estimated effects may be unbalanced: deze regel

mogenwenegeren,houdenwegeenrekeningmee

8.7 Depowervanvariantie-analyse

Deeffectgrootte

R-code Pwr.anova.test ( k=aantal groepen , n=aantal individuen in elke groep,

f=effectgrootte,sig.level=a)

àOPMERKINGbijn:alshetaantalindividueninelkegroepnietgelijkis,berekenenwehetgemiddeldevandegroepen&gebruikenweditvoordeR-code

Page 59: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

59

8.8 DevaliditeitvandeGauss-Markovassumpties

Wat? JemoetcheckenofdeGauss-Markovassumptiesvantoepassingzijn,wantheeljehoofdstukisdaaropgebaseerd!Alsdeassumptiesnietvantoepassingzijn,danmagjeniksvanhethoofdstukdoen.

Variantiesvanallegroepenmoetenidentiekzijn:homoscedasticiteitsassumptienagaan

• Voor2varianties:hebbenwealeentoetsvoorgezien• Voormeerdan2varianties:deLevenetoetsofdeBartlett

toetso Zienwenietindecursus

• Hoeziejeditineengrafiek?o Ineenspreidingsdiagram:despreidingvande

bolletjesispergroepongeveergelijko Debolletjeszijndeindividuelebevindingen

Normaliteitvandefoutennagaan

• Shapiro-Wilktoets(endanp-waardeberekenen)

8.9 Nogeenvoorbeeld

Ziesyllabusp.185

8.10 Posthocmeervoudigevergelijkingen

Variantie-analyse JekrijgtinfooverofjegemiddeldenidentiekzijnofnietàJewilookwetenwaardeverschillenliggen(inwelkegroep),maarditkrijgjehierniet!

Berekenenwaardeverschillenliggentussengemiddelden

• Viagewonet-toetseno Jemoetalleverwachtingenpaarsgewijsvergelijkeno Datzijndan𝐼 ∗ (𝐼 − 1)/2t-toetseno Probleem:bijelketoetsiser5%kansdatjeeenfoutvande

eerstesoortmaakt.Pertoetsdiejeuitvoert,wordtdefoutopminstenséénfoutgroter!

• Dus:wemoetendet-toetsaanpassen

8.10.1 Correctievandekansopeenfoutvandeeerstesoort

Kansopeenfoutvandeeerstesoortberekenen

• BerekenenviadekansopGEENfoutvandeeerstesoorto Hetproductvanallekansenvandeeerstesoortvoorelke

t-toets§ Dusalsje3t-toetsengebruikt:(1-avoortoets1)*

(1-avoortoets2)*(1-avoortoets3)

o • Dekansopeenfout=100%-dekansopgeenfout• Hoemeergroepen,hoegroterdekansopeefoutvandeeerstesoort

Page 60: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

60

o Bijveelgroepengaanwebijnazekerfoutenmaken!o Nietgoed!!Correctienodig!

Correctievoordekansopeenfoutvandeeerstesoort:Bonferronicorrectie

• Watdoenwe?o Wegaandewaardevana(dekansopeenfoutvande

eerstesoort)corrigerenvoorelket-toets:wemakendezekleiner!

o Onzeuiteindelijkekansopeenfoutvandeeerstesoort(voorallet-toetsensamen)zaldanookkleinerzijn

• Formule

o o a=dekansopeenfoutvandeeerstesoortbijéént-toetso a’=dekansopeenfoutvandeeerstesoortbijdegehele

reekspaarsgewijzevergelijkingen(bijhettotaaldus)§ Ditisdusdekansopminstens1foutieve

verwerping• Concreet

o Wekiezenonzekansopeenfoutvandeeerstesoortvoordegehelereekspaarsgewijzevergelijkingenzelf.Webepalenzelfhoegrootdezemagzijn.

o Vandaaruitvullenwedeformuleinenberekenenwehoegrootdekansopeenfoutvandeeerstesoortdanmaarmagzijnvooréént-toets

8.10.2 Correctievandeschattervandevariantie

Gewoneschatter • Toetsingsgrootheidvoorklassieket-toets:

o Indezeformule:deschattervande

gemeenschappelijkevariantievanY1enY2is:

Aangepasteschatter,vooralsermeerdan2groepenzijn

• Voorwaardeomvariantie-analysetegebruiken:allevariantiesmoetenidentiekzijn

o Wemoetenduseenschattergebruikendiegebaseerdisopallegegevens,nietalleenopdegegevensvan2groepen

• Schatter:𝑀𝑆ÉCEE¾E

• Toetsingsgrootheid: o EenStudent-verdelingmet𝒏𝟏 + 𝒏𝟐 − 𝟐

vrijheidsgraden• Toetsingsgrootheidingevalvan2groepen

Page 61: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

61

o o Indezesituatiezijnklassiekeenaangepastet-toets

equivalent

8.10.3 Voorbeeld

Ziesyllabusp.188

8.11 Enkelvoudigevariantie-analysealseenlineairmodel

Waarovergaatvariantie-analyse?

Wegaanhetverbandtusseneenonafhankelijkecategorischevariabeleeneenafhankelijkevariabelevanratio-ofintervalniveauanalyseren

Watwillenwehierdoen? • Eeneffectenmodelomzettennaareenlineairmodel• Detruc:hulpveranderlijkengebruikenomdefactorente

hercodereno 2manierenomdittedoen

§ Effect-coderingvoorSigma-restrictie§ Dummy-coderingvoorGLM-restrictie

8.11.1 Effect-coderingenSigma-restrictie

Algemeen • WebeginnenbijeeneffectenmodelmetSigma-restrictiemet1factorenIniveaus

• DezetransformerenwenaareenlineairmodelmetI–1predictoreno Niveausàhulpveranderlijkenàpredictoreno Evenveelhulpveranderlijkenalspredictoren:I–1

§ Dehulpveranderlijkenzijndiscreet!• !!Andersdanbijdummy-codering!!

• Hetcodereno Alshetgaatomgroepi,dangaatdewaardevoorelkepredictor

(hulpvariabele)gelijkzijnaan0,behalve𝑿𝒊 = 𝟏o Als het gaat om groep I: de score voor elke predictor

(hulpvariabele)=-1§ Ditisdelaatstegroep

• Modeltoetsenviameervoudigelineaireregressieo R-code:lm()

§ Eigenlijk gek dat we deze code gebruiken, want hetstaatvoor ‘lineairmodel’, terwijlwevariantie-analysegebruiken! R weet dat we met een categorischevariabelewerken.

• Heteffectenmodelàhetgeschatte lineairemodelàheteffectenmodel(Hebaltijdeerstheteffectenmodelgenoteerd)

o 𝜇àIntercepto 𝛼C àRegressiecoëfficiënten

§ 𝛼ò = − 𝛼CòTGCTG

• p-waardevandeF-toets=p-waardevandevariantie-analyse

Concreet • Kijkennaarhetaantalgroepenbinnenjemodel

Page 62: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

62

• Aantaldiscretehulpveranderlijkenbepalen:I–1o Dehulpveranderlijkenoemje𝑋G, 𝑋M, 𝑋Ñ, …

• Alshetindividu𝑙behoorttoteenbepaaldegroep,watzijndewaardenvandehulpveranderlijkendan?

o o Opmerking:inditvoorbeeldzijner4groepeninhetmodel.

• Effectenmodelomzettennaarlineairmodelo In het effectenmodel: het individu wordt aangegeven via

symbool𝑌C� (deresponsvariabelebijindividukvangroepi)o Lineair model: we gaan ander subscript gebruiken voor het

aangevenvanhetindividu§ Subscript 𝑙: het volgnummer van een individu binnen

eenvolledigesteekproefo Nieuweformuleringvanheteffectenmodel:formuleringvande

lineaireregressie§ Hier: voor een model met oorspronkelijk 4 groepen.

Wordtduseenlineairmodelmet3predictoren.

§ § Ditisvolledigequivalentaanheteffectenmodel!

OutputR-code • Voorbeeldvooreeneffectenmodelmet4groepen,enduseenlineairmodelmet3predictoren

• Eersterijcoëfficiënteno Het intercept van het geschatte lineaire model = 𝜇 van het

effectenmodelmetSigma-restrictie• Tweederijcoëfficiënten

o Deregressiecoëfficiënt𝛽GGvanX1uitdeformule=𝛼Gvanheteffectenmodel

• Derderijcoëfficiënteno Deregressiecoëfficiënt𝛽GMvanX2uitdeformule=𝛼Mvanhet

effectenmodel• Vierderijcoëfficiënten

o Deregressiecoëfficiënt𝛽GÑvanX3uitdeformule=𝛼Ñvanheteffectenmodel

• Voorjelaatstegroep,waarjegeenpredictorvoorhebt:o Inditvoorbeeldgaathetover𝛼6o Via de Sigma-restrictie berekenen: de laatste coëfficiënt = de

anderecoëfficiëntenaftrekken§ Inditvoorbeeld:𝛼6 = −𝛼G − 𝛼M−𝛼Ñ

o De laatste predictie = andere coëfficiënten aftrekken vanintercept

• …(telkensdezelfdelogicauitvoerenpercoëfficiënt)• Laatsteregel:p-waardevanjeF-toets

o Ditisdep-waardevoorjevolledigemodelo Als deze kleiner is dan jea (meestal 5%), dan verwerp je de

nulhypothese

Page 63: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

63

8.11.2 Dummy-coderingenGLM-restrictie

Algemeen • Webeginnenbij een effectenmodelmetGLM-restrictiemet 1 factor en Iniveaus

• DezetransformerenwenaareenlineairmodelmetI–1predictoreno Niveausàhulpveranderlijkenàpredictoreno Evenveelhulpveranderlijkenalspredictoren:I–1

§ Dehulpveranderlijkenzijnbinair!• !!Andersdanbijeffect-codering!!

• Hetcodereno Alshetgaatomgroepi,dangaatdewaardevoorelkepredictor

(hulpvariabele)gelijkzijnaan0,behalve𝑋C = 1o Als het gaat om groep I: de score voor elke predictor

(hulpvariabele)=0§ Ditisdelaatstegroep

• Modeltoetsenviameervoudigelineaireregressieo R-code:lm()

§ R gaat automatisch de eerste groep als referentiekiezen,tenzijjeexplicietandersvermeldt

• Het geschatte lineaire model à het effectenmodel (Heb altijd eerst hetgeschattemodelgenoteerd)

o 𝜇àIntercepto 𝛼C àRegressiecoëfficiënten

§ 𝛼ò = − 𝛼CòTGCTG

p-waardevandeF-toets=p-waardevandevariantie-analyse

Concreet • Kijkennaarhetaantalgroepenbinnenjemodel• Aantaldichotomehulpveranderlijkenbepalen:I–1

o Dehulpveranderlijkenoemje𝑋G, 𝑋M, 𝑋Ñ, …• Alshetindividu𝑙behoorttoteenbepaaldegroep,watzijndewaardenvan

dehulpveranderlijkendan?

o o Opmerking:inditvoorbeeldzijner4groepeninhetmodel.

• Effectenmodelomzettennaarlineairmodelo In het effectenmodel: het individu wordt aangegeven via

symbool𝑌C� (deresponsvariabelebijindividukvangroepi)o Lineair model: we gaan ander subscript gebruiken voor het

aangevenvanhetindividu§ Subscript 𝑙: het volgnummer van een individu binnen

eenvolledigesteekproefo Nieuweformuleringvanheteffectenmodel:formuleringvande

lineaireregressie§ Hier: voor een model met oorspronkelijk 4 groepen.

Wordtduseenlineairmodelmet3predictoren.

§ • Ditisvolledigequivalentaanheteffectenmodel!

Page 64: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

64

OutputR-code • Voorbeeldvooreeneffectenmodelmet4groepen,enduseenlineairmodelmet3predictoren

• Eersterijcoëfficiënteno Het intercept van het geschatte lineaire model = 𝜇 van het

effectenmodelmetGLM-restrictie• Tweederijcoëfficiënten

o Deregressiecoëfficiënt𝛽GGvanX1uitdeformule=𝛼Gvanheteffectenmodel

• Derderijcoëfficiënteno Deregressiecoëfficiënt𝛽GMvanX2uitdeformule=𝛼Mvanhet

effectenmodel• Vierderijcoëfficiënten

o Deregressiecoëfficiënt𝛽GÑvanX3uitdeformule=𝛼Ñvanheteffectenmodel

• …(telkensdezelfdelogicauitvoerenpercoëfficiënt)• Voorjelaatstegroep,waarjegeenpredictorvoorhebt:

o Inditvoorbeeldgaathetover𝛼6o Je𝛼ò is0,vanwegederestrictie

• Laatsteregel:p-waardevanjeF-toetso Ditisdep-waardevoorjevolledigemodelo Als deze kleiner is dan jea (meestal 5%), dan verwerp je de

nulhypothese

8.11.3 Simpeler

R-code • Commando:lm(formula=AV~OV)• Rgaatautomatischdehulpveranderlijkendefiniëren

o UitgaandevandeGLM-restrictie(alsjeditanderswilt,zaljehetdushandmatigmoetenberekenen)

o Heteersteniveauisdereferentieo Dummy-coderingdus,meteersteniveaualsreferentie.

8.12 BalancedenunbalancedANOVA

BalancedANOVA Eendesignwaarbijhetaantalindividuenidentiekisinelkegroep

(Opdatmomentkunnenweinprincipeeeneenvoudigeretechniektoepassenvooralonzeberekeningen:debalancedANOVA.Maarweziendezenietindecursus,omdatdezequasinooitvoorkomt.Ookalplanjeallemaalidentiekesteekproefgroottestehebben,doordropoutetc.luktditbijnanooit.WwijhebbendealgemeneANOVAgeziendievoorbeidesituatiesopgaat)

UnbalancedANOVA EendesignwaarbijhetaantalindividuenNIETidentiekisinelkegroep

Page 65: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

65

Hoofdstuk9:categorischedata-analyse

• Categorischevariabelen:nominaalofordinaal,metweinigverschillendeniveauso ‘Weinigverschillendeniveaus’:minderdan10,meestalminderdan7of8

§ Ditiseerdereenvuistregeldaneenvasteregelo Nominaal:waardenzijnnietgeordendo Ordinaal:waardenzijngeordendo Dewaardenvandevariabelendoenerniet toe,het isnaarde frequentiesdatwe

kijken!§ Absolutefrequentiesofrelatievefrequenties(proporties)

o Heelwat techniekendiewe totnu toehebbengezien (toetsenenzo) zijnnietvantoepassingopdezevariabelen

§ Geen enkele van toepassing, behalve de toets voor 1 proportie of debinomialetoetsvoordichotomevariabelenmet2niveaus

• Deze kunnen we dus gebruiken voor 2 niveaus, voor meer dan 2niveausnietmeer!Dangaanweeenanderetoetsmoetenzoeken

• Bijdithoofdstuk:zeergoedkijkennaarhetmeetniveauvandevariabelen!o Verderkijkendanjeneus:sommigevariabelen(zoalslengteofgewicht)zijnnormaal

gezienaltijdvanminstensintervalniveau,maareigenlijkhangthetmeetniveauafvanhoemendevariabelegeoperationaliseerdheeft

§ Bv.Lengte:kanjeookuitwerkenintermenvan‘klein,middelmatigofgroot’:dit isniet interval,maarordinaal!Wanthet zijn subjectieve categorieënenzeerwaarschijnlijkisdebreedtevanelkecategorieooknietgelijk,dusabsoluutgeenintervalniveau.

9.1 Eénpopulatieenééncategorischevariabele

9.1.1 Inleidendvoorbeeld

Voorbeeldoefening:ziep.199

9.1.2 Samenvatting:Pearson’schi-squaredtoets

Watwillenwedoen? Wewillencontrolerenofdeproportiesindepcategorieënindepopulatiegelijkzijnaan𝜋G, … , 𝜋�(detheoretischeproporties)

Toetsingsgrootheid

Formule:

• Ditiseen𝜒M-verdelingmetalsaantalvrijheidsgraden:hetaantalmogelijkealternatieven-1

• Als er verschillen zijn tussen de geobserveerde en theoretischefrequenties, kan je via deze toetsingsgrootheid nagaan of dit heteffectvantoevalisofniet!

o Alsheteeneffectvantoevalis,danisditnietrelevantvoorde nulhypothese. Als het geen toeval is, dan is het welrelevantvoordenulhypothese!

Page 66: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

66

• Opmerkingbijsymboolsteekproefgrootheido Ditisgewoonhetsymboolo GEEN variabele die we kwadrateren ofzo!à verwarrende

notatie,oplettenhiervoor• Logicaformule

o 𝑓C =degeobserveerdefrequentieso 𝑛𝜋C =detheoretischefrequentieso Bovenstedeelbreuk:gekwadrateerdeafwijkingeno Vierkantswortel:omhetkwadraattevereffenen(wantwe

kunnennietzomaarkwadrateren)o Onderstedeelbreuk:standaardisereno Sigma:optellen

• Na de berekening van de toetsingsgrootheid willen we besluitentrekkenoveronzenulhypothese

o Viakritiekewaarde𝑘�TG½ § Alsdewaardevandetoetsingsgrootheidgroterisdan

de kritieke waarde, dan verwerpen we denulhypothese

o Viaeenzijdigep-waarde§ 𝑃(𝑘�TGM ≥ 𝑋M)§ Alsdep-waardekleinerdan5%is,danverwerpenwe

denulhypothese

Voorwaardenvoortoetsingsgrootheid

• Alsweminderdan5categorieënhebbeno Geenenkeletheoretischefrequentiemagkleinerdan5zijno Alleendanwerktdezebenadering/techniekgoed.Alserniet

aandezevoorwaardeisvoldaan,magjedechi-squaredtoetsnietgebruiken!

• Alswemeerdan5categorieënhebbeno De theoretische frequentie mag kleiner zijn dan 5 bij

maximum20%vandecategorieën

Stappenplan 1. Dekansenberekenenzoalsdehypothesevandeonderzoekerdezebeschrijft,eenvectorhiervooraanmaken

2. Theoretischefrequentiesberekenena. Telkens𝑛 ∗ 𝜋C

3. Afwijkingen tussen de geobserveerde en theoretische frequentiesberekenen

a. Geobserveerdefrequenties–theoretischefrequenties4. Wewillendeafwijkingsamenvattenin1getal,opbasiswaarvanwe

danzullenbeslissenoverdenulhypothesea. Deafwijkingenkwadrateren

i. Zodatallegetallenpositiefzijnb. Standaardiseren

i. Omdatdegetallenandersafhankelijkzijnvandemeeteenheidendusmoeilijkonderlingtevergelijken.Doorhetstandaardiserenisditprobleemnietmeer.

ii. Elkegekwadrateerdeafwijkingdelendoordeovereenkomendetheoretischefrequentie

c. Allegestandaardiseerdegekwadrateerdeafwijkingenoptellen

Page 67: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

67

d. Detotaalformule,alle3destappenin1keer:

i. Ditiseen𝝌𝟐-verdelingmetalsaantal

vrijheidsgraden:hetaantalmogelijkealternatieven-1

ii. Ditisonzetoetsingsgrootheidiii. Hoegroterditgetal,hoegroterdeafwijkingen

gemiddeldgezien5. P-waardeberekenenvoordetoetsingsgrootheid(rekeninghouden

metdeverdelingenaantalvrijheidsgraden)a. R-code:pchisq(q=…,df=…,lower.tail=FALSE)

• “lower.tail=FALSE“:omdatalleendegrotewaardenvanbelangzijn.Dekleineafwijkingenzijnvangeenbelangvoordenulhypothese

9.1.3 Isdedobbelsteenzuiver?

Illustrerendeoefening,ziep.202

9.1.4 DeRfunctie‘chisq.test’

R-code Chisq.test(x=…,p=…)

Uitlegbijcode • Hetargument‘x’:eentabelmetdegeobserveerdefrequenties• Hetargument‘p’:eenvectormetdetheoretischeproporties

Stappenplan • Eersteenvectoraanmakenmetdetheoretischeproporties• DandeR-functiegebruiken

9.1.5 Deinvloedvandemaanophetaantalgeboortes

Illustrerendeoefening Ziep.204

Opmerkingenbijoefening

• Alsjeeenaantalcategorieëningeeft,danweetRdevolgordehiernietvan.

o Bv.Inwelkevolgordedefasenvandemaankomen.o Alsjedaneentabelopvraagt,gaatRdecategorieën

automatischalfabetischordenen• Oplettendatjezekerverderkijktdanalleendeabsolutefrequenties!

o Hetkanzijndatdeenegroepveelmeervoorkomtdandeandere,gewoonomdatdezehierveelmeerkansopheeft(bv.Eengroteregroep:alserdubbelzoveelmensenzitteningroep1daningroep2,daniserookdubbelzoveelkansvoorgroep1.)

9.1.6 DepowervandePearsonchi-kwadraattoets

Watwillenwedoen? DepowerberekenenvandePearsonchi-kwadraattoets

àDitgaanwedoenviahetberekenenvandeeffectgrootte

Page 68: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

68

Formule voor deeffectgrootte

• 2vectoren

o 𝜋j=deproportiesdieovereenkomenmetdenulhypotheseo 𝜋G = de proporties de overeenkomen met de specifieke

alternatievehypothese• Overdeformule

o Dezelijktopdeformulevan𝑋M,maarnuuitgedruktintermenvankanseninplaatsvanproporties

R-codeeffectgrootte ES.w1(P0=…,P1=…)

àP0=𝜋jàP1=𝜋G

Stappenplan • Effectgrootteberekenen• Powerberekenen

o R-code: pwr.chisq.test (w= effectgrootte , N=… , df=… ,sig.level=…)

9.2 Meerderepopulatiesenééncategorischevariabele

Frequentieverdeling • R-code:Table(variabele1,variabele2)• Symboolvoorfrequenties:𝒇𝒊,𝒋

o i=hetnummervanderij(horizontaal)o j=hetnummervandekolom(verticaal)

Relatievefrequentietabel • R-code:prop.table(x=devariabelen,margin=1)o Hetargument‘margin=1’voegjeeraantoeals jewilt

datdeproportiestelkensvoor1rijwordenberekendennietvoordegeheletabel

§ Dusdesomvandeproportiesperrijis1• Symboolvoordeproporties:𝑝�¥C (=deproportievankolomjin

riji)

9.2.1 Samenvatting

Watwillenwedoen? Wewillencontrolerenopdeproportiesindepcategorieënidentiekzijnindekpopulaties

àDegeobserveerdeproprties:𝑝G¥�, … , 𝑝�¥� alsdezenietidentiekzijn,danwillenwenagaanofdithetresultaatvantoevalisofniet

Homogeniteitstoets DezetoetsiseenandereversievandePearsonchikwadraat-toets.

Wegaannaofdekpopulatieshomogeenzijn.

Stappenplan 1. Detheoretischeproporties𝜋. 𝑗schattenonderdenulhypothese(voorelkeproportiej)

a. 𝜋. 𝑗 = �î,9:î;YE

Page 69: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

69

i. Totaal aantal proefpersonen in die categoriegedeelddoordetotalesteekproefgrootte

ii. “𝜋. 𝑗“:hetpuntjetussende2lettersbetekentdatallerijensamenwordengeteld

1. Voordieenekolomwordtelkewaardeineenrijvoordiekolomsamengeteld.

iii. 𝑓C,� =deabsolutefrequentiesvoorienjb. Aan de hand van deze proporties kunnenwe dan het

verwachte aantal individuen in elke categorie en elkesteekproefberekenen,onderdenulhypothese

2. Derealisatievandetoetsingsgrootheidberekenen

a. b. Dit is een 𝝌𝟐-verdeelde toevalsvariabelemet aantal

vrijheidsgraden:(i–1)*(j–1)c. 1getalvoor3stappen:afwijkingentussende

geobserveerdeentheoretischefrequentieskwadrateren,standaardiserenenoptellen

d. Datgetalisdaneensamenvattingvandeafwijkingen.e. Hoe groter dit getal, hoe groter de afwijkingen

gemiddeldgezienzijnf. Ditgetalgebruikenweomeenbeslissingtemakenover

denulhypothese3. Beslissenoverdenulhypothese

a. Viakritiekewaardei. Kritiekewaarde=𝑘 �TG �TG ;½ ii. Als de realisatie van de toetsingsgrootheid

groterisdandekritiekewaarde,danmoetenwedenulhypotheseverwerpen

b. Viaeenzijdigep-waarde

i. ii. R-code:pchisq(…)iii. Alsdep-waardekleinerisdan5%,danmoeten

wedenulhypotheseverwerpen

Voorwaardenvoordezetoets

• Alshetproductk*pkleinerdan5iso Geenenkele theoretischeproportiemag kleinerdan5

zijn• Alshetproductk*pgroterdan5is

o Dan mogen er maximum 20% van de theoretischeproportieskleinerdan5zijn

9.2.2 DeRfunctie‘chisq.test’

• Omalleberekeningeninéénkeertedoen• Zelfdealsbijdetoetsmet1populatie

o Watandersis:§ Wegebruikenhetargumentpniet,wantRgaatzelfdekansenschattenop

basisvandefrequentiesvandeverschillendesteekproeven

Page 70: Samenvatting Statistiek II - VPPK€¦ · 3.1 Eigenschappen van een goede schatter 20 3.2 Enkele schatters 20 ... 5.3.2 Statistische hypothese of alternatieve hypothese ’( 25 5.3.3

SamenvattingStatistiekII(2017)–EllaMattan

70

9.2.3 Toepassing:invloedvanhetrasophetvonnis

Illustrerendeoefening:ziep.211

9.2.4 Depower

R-code Pwr.chisq.test(…)

àNetzoalsbij9.1.6

9.3 Afhankelijkheidvantweecategorischevariabelen

Niettekennen.

9.4 Opmerkingbetreffendedemeetniveaus

• Alletechniekendieweindithoofdstukhebbengezienzijnenkelgebaseerdopdefrequenties,nooitopdewaardenvandevariabele&nooitopdevolgorde.

o Wekunnendezetechniekengebruikenmetvariabelenvanallemeetniveaus§ Ookinterval,ratio&absoluut!

• Alsweinterval-variabelenhebben,tochbeteromanderetechniekentegebruikeno Bv.ANOVA,t-toets,lineaireregressieo Dezetechniekenhebbeneenhogeronderscheidingsvermogen

Ondersteuningssessiesvanhetmonitoraat

Zeervisueelduidelijkeschema’s!!Enookenkeleextraoefeningen

• H1–H5:sessie1• H6–H7:sessie2• H8–H9:sessie3