Deel I : beschrijvende statistiek - VPPK...1. Bivariate frequentieverdeling WAT? Frequentietabel,...

31
HOOFDSTUK 1 TYPISCHE FOUTEN BIJ STATISTIEK ° Foute gegevens ° Fouten in berekening kans ° Foute interpretatie resultaten Statistiek : de wetenschap van het leren uit data & van het meten, controleren en communiceren van onzekerheid 1. Eigenschappen van variabelen 1.1 Verschillende schaalfamilies Nominaal - Namen à Geen hoeveelheid, gewoon identificatie - Waarden kunnen ook getallen zijn Variabele = geslacht, waarde = man of vrouw Variabele = nummer tram, waarde = 24, 21.. Variabele = land, waarde = België, Frankrijk.. Ordinaal - Geen hoeveelheid - Hiërarchie : ordening! à volgorde belangrijk, waarde zelf niet Variabele = uitslag wedstrijd, waarde = goud, zilver, brons Variabele = mate van instemming, waarde = volledig oneens, neutraal, volledig eens… Interval - Hiërarchie - Waarde zelf ook belangrijk - Geen absoluut nulpunt - Geen onderlinge verhoudingen - Recht evenredig : onderlinge verschillen blijven even groot Variabele = temperatuur, waarde = 10°C, 5°C à 10°C is niet het dubbele van 5°C (want in F is het niet zo op een grafiek) Recht evenredig: even groot verschil tss 10° en 20° & 50° en 60° 0° is geen absoluut nulpunt: 32°F Ratio - Absoluut nulpunt - Verhoudingen €10 is dubbel zoveel dan €5 Variabele = lengte in cm, geldbedrag in euro.. Dia 49 : vragen 1 = ratio , 2 = interval , 3 = nominaal , 4 = ratio , 5 = ordinaal & ratio , 6 = ordinaal 1.2 Discrete & continue variabelen Continue variabelen - Tussenwaarden à tussen elke 2 waarden ligt een 3 e à oneindig veel waarden Lengte in cm Temperatuur in °C Tijd in seconden Discrete variabelen Geen tussenwaarden à eindig aantal waarden Aantal kinderen, aantal volgers op Twitter, aantal GSMs die je al hebt Deel I : beschrijvende statistiek HOOFDSTUK 2 : VISUALISEREN VAN DATA Populatie Volledige verzameling van objecten of personen waarover men info wil Steekproef Deelverzameling van de populatie, die ook echt onderzocht wordt à moet representatief zijn : aselect! CIRKELDIAGRAM - Nominaal - Relatieve oppervlaktes cirkel = relatieve frequenties

Transcript of Deel I : beschrijvende statistiek - VPPK...1. Bivariate frequentieverdeling WAT? Frequentietabel,...

HOOFDSTUK1

TYPISCHEFOUTENBIJSTATISTIEK °Foutegegevens °Fouteninberekeningkans °Fouteinterpretatieresultaten

Statistiek:dewetenschapvanhetlerenuitdata&vanhetmeten,controlerenencommunicerenvanonzekerheid

1.Eigenschappenvanvariabelen

1.1Verschillendeschaalfamilies

Nominaal -Namen

àGeenhoeveelheid,gewoonidentificatie-Waardenkunnenookgetallenzijn

Variabele=geslacht,waarde=manofvrouwVariabele=nummertram,waarde=24,21..Variabele=land,waarde=België,Frankrijk..

Ordinaal -Geenhoeveelheid-Hiërarchie:ordening!àvolgordebelangrijk,waardezelfniet

Variabele=uitslagwedstrijd,waarde=goud,zilver,bronsVariabele=matevaninstemming,waarde=volledigoneens,neutraal,volledigeens…

Interval -Hiërarchie-Waardezelfookbelangrijk-Geenabsoluutnulpunt-Geenonderlingeverhoudingen-Rechtevenredig:onderlingeverschillenblijvenevengroot

Variabele=temperatuur,waarde=10°C,5°Cà10°Cisniethetdubbelevan5°C(wantinFishetnietzoopeengrafiek)Rechtevenredig:evengrootverschiltss10°en20°&50°en60°0°isgeenabsoluutnulpunt:32°F

Ratio -Absoluutnulpunt-Verhoudingen

€10isdubbelzoveeldan€5Variabele=lengteincm,geldbedragineuro..

Dia49:vragen 1=ratio,2=interval,3=nominaal,4=ratio,5=ordinaal&ratio,6=ordinaal

1.2Discrete&continuevariabelen

Continuevariabelen -Tussenwaardenàtussenelke2waardenligteen3eàoneindigveelwaarden

LengteincmTemperatuurin°CTijdinseconden

Discretevariabelen Geentussenwaardenàeindigaantalwaarden

Aantalkinderen,aantalvolgersopTwitter,aantalGSMsdiejealhebt

DeelI:beschrijvendestatistiekHOOFDSTUK2:VISUALISERENVANDATA

Populatie VolledigeverzamelingvanobjectenofpersonenwaarovermeninfowilSteekproef Deelverzamelingvandepopulatie,dieookechtonderzochtwordt

àmoetrepresentatiefzijn:aselect! CIRKELDIAGRAM -Nominaal

-Relatieveoppervlaktescirkel=relatievefrequenties

-Nadeel:geengoedoverzichtonderlingeverhoudingenSTAAFDIAGRAM -Nominaal&ordinaal

-Horiz:waardenvariabeleVertic:AFofRF-Rechthoekenlosvanelkaar,breedteenafstandevengroot-Voordeel:sneloverzichtonderlingeverhoudingen

HISTOGRAM -Interval&ratio-Voordeel:sneloverzichtonderlingeverhoudingen-Horiz:waardenvariabele-RechthoekentegenelkaaràBreedte=klassenbreedteàOppervlakte=RFàHoogte=RF/klassenbreedte-KlassenindelingàBeslistonderzoekerzelfàKlassenbreedtenietaltijdevengroot,dusrechthoekennietaltijdevenbreedàAlsklassentochevengrootzijn,kan....hoogterechthoek=AF..hoogterechthoek=RF..oppervlakterechthoek=RFàUitersteklassenheelkleineAF=samenvoegenàvuistregelaantalklassen: 𝑛-VerdelingàSymmetrischeverdelingàScheefnaarrechts:staartnaarrechtsàScheefnaarlinks:staartnaarlinks

1.Algemenebegrippen&notatie

ABSOLUTEFREQUENTIES(AF) Hetaantal(perwaarde)ABSOLUTEFREQUENTIEVERDELING

Tabelmetabsolutefrequenties

VARIABELE–NOTATIE- Meteenhoofdletter(vaakX)àWaardendievariabeleaanneemt:kleineletters,cijfersalssubscriptie

STEEKPROEFGROOTTE(N) RELATIEVEFREQUENTIES(RF) VERDELINGVEVARIABELE Hetgeheelvanmogelijkewaarden,samenmetdeabsoluteen/ofrelatieve

frequentiesKLASSEN–NOTATIE- 𝑎, 𝑏 GEGROEPEERDEFREQUENTIEVERDELING

tabel,2kolommen:klassen&overeenkomstigefrequenties

2.Cumulatievefrequentiecurve

2.1Ongegroepeerdedata

#INFO Meerdanbijgegroepeerdedata

(indeleninklassenleidttotinformatieverlies)CUMULATIEVEABSOLUTEFREQUENTIE

absolutefrequentiesoptellen-geeftdanhetaantalgegevensweerdiegelijkaanofkleinerdandebijhorendewaardezijn-grootstewaarde=steekproefgrootte(wantallesiskleinerofgelijkaan)

CUMULATIEVERELATIEVEFREQUENTIE

zelfdesysteemalsbijrel.abs.fr.

CUMULATIEVEFREQUENTIECURVE

Horizontaal:gegevensVerticaal:cumulatievefrequentiesTekenen-Allewaardenaanduiden-Onderlingtrapsgewijsverbinden-Laagstewaarde&hoogstewaarde:horizontalelijn!

2.2Gegroepeerdedata

#INFO Minderdanbijongegroepeerdedata

àJehebtinfoovereenklasse,nietovereenspecifiekewaarde!àNADEEL

CUMULATIEVEFREQUENTIE FrequentiesoptellenCUMULATIEVEFREQUENTIECURVE

Telkenshetklassenmiddengebruikenalspuntvooropdegrafiek

2.3Illustratiemethoden

Ziecursuspagina59–63

HOOFDSTUK3:SAMENVATTENVANDATA

(Centrummaten&spreidingsmaten,totaanvariantieenstandaarddeviatie:ziegeschrevensamenvatting)

2.4Deinterkwartielafstand

2.4.1Percentielen𝑝&

Vooreengeheelgetalktussen0en100,ishetk-depercentiel(symbool𝑝𝑘)hetgetal𝑝𝑘waarvoorgeldtdat:

𝐹(𝑃𝑘)𝑛

= 𝑘100

WATBETEKENTDIT? °Hetk-depercentielisdewaardewaarvank%vandeheleverzamelingkleinerofgelijkaandiewaardeis°Komtzowatovereenmetdecumulatieverelatievefrequentie

VOORBEELD? P10:tiendepercentiel:dewaardenvaneenvariabele,waarvoor10%vandewaardenhetzelfdeofkleinerzijn

SPECIAALPERCENTIEL mediaan=percentielP50

2.4.2Kwartielen

1EKWARTIEL2EKWARTIEL3EKWARTIEL

P25P50P75

à25%vanallewaardenàMediaan:50%vanallewaardenà75%vanallewaarden

INTERKWARTIELAFSTAND Q °3ekwartiel–1ekwartiel(𝑃01 − 𝑃31)°Interval&ratio

INTERKWARTIELINTERVAL 𝑃31, 𝑃01 °Overspant50%vanallewaarden°Ordinaal,interval&ratio

2.5Despreidingsmaatd

VARIABELEN Allemaal

VooralnominaalUITKOMST Uitkomstligttussen0en1,geeftopdiemanierspreidingweer

°0=geenspreiding°1=maximalespreiding

FORMULE𝑑 =

56789:

56;< KOMTINFORMULARIUM

p aantaluniekewaardendieeenvariabelekanaannemen𝑓>? frequentievandemodus(kaneenwaardeofeenklassezijn)n steekproefgrootteWATALS…..𝑓>?=n Geenspreiding,wantallewaardenzijngelijkaandemodus..𝑓>?=n/p d=1

2.6Gevoeligheidaanoutliers

HOEBEREKENJEOFEENSPREIDINGSMAATGEVOELIGISOFNIET?

1.Berekenspreidingsmaatmetallewaarden(inclusiefoutliers)2.Berekenspreidingsmaatzonderoutliers3.Alsereengrootverschilistussendezewaarden:despreidingsmaatisgevoeligaanoutliers!

GEVOELIGHEID? Variatiebreedte Ja Gemiddeldeabsoluteafwijking Ja Variantie Ja Standaarddeviatie Ja Interkwartielafstand Neen d Neen

3.Boxplot

DATAGROEPEREN? Hoeftniet

-Nietgebruikersafhankelijk-Verschilmethistogram!

VOORDEEL -Handigomoverzichttekrijgenoververdelingvandata(mediaan,interwartielafstand..)-Makkelijkwetenwatdeoutlierszijn

OUTLIERSVASTSTELLEN–REKENREGEL

Laagsteoutliers 𝑃31 − 1.5 ∗ 𝑄 Alleslagerdandezewaarde=outlierHoogsteoutliers 𝑃01 + 1.5 ∗ 𝑄 Alleshogerdandezewaarde=outlier

HOETEKENEN 1.Allewaardenopgrafiektekenen2.Outliersbepalen(viarekenregel)&aanduidenopgrafiek3.Horizontalelijnbijlaagste&hoogstewaardediegeenoutlieris4.Horizontalelijnvoor𝑃31en𝑃015.Lijnenvoorkwartielenmetelkaarverbinden,alseenrechthoek6.Allewaardenvangrafiekwissen,behalveoutliers7.Verticalestippellijntekenentussenoverblijvendehorizontalelijn&grensrechthoekàstippellijnennoemenwesnorharenofwhiskers8.MediaanaanduidenmethorizontalelijnILLUSTRATIE:ZIECURSUSP.100!

HOOFDSTUK4:SAMENHANGTUSSEN2VARIABELEN

Hoofdstuk2&3:éénvariabeleperkeerbekijkenàunivariatestatistiekHoofdstuk4:tweevariabelentezamenbekijkenàbivariatestatistiek

1.Bivariatefrequentieverdeling

WAT? Frequentietabel,maardanvoor2variabelen

(inplaatsvanvoor1)

VOORDEEL °Wekunnenvanuitdebivariatetabeldeunivariategegevensafleiden

-OPGELET!Hetwerktnietlangsdeanderekant!Vanuitunivariategegevenskunnenwegeenbivariategegevensafleiden-Marginaleverdeling=anderenaamvoorunivariateverdelingdiejekentviadebivariateverdeling

NADEEL °Conclusieskunnenanderszijnnaarmatededataandersgegroepeerdisàsubjectief-Oplossing:spreidingsdiagram&correlatiecoëfficiënten

2.Spreidingsdiagram

WAT? °Geeftsamenhangtussen2variabelenweer °Allewaardenalsbollenopgrafiek

SOORTEN? (Veelteextreemweergegeven,inrealiteitbijnanooitzo) °Positievesamenhang °Negatievesamenhang °Geensamenhang

3.Matenvansamenhang

3.1Decovariantie𝑐𝑜𝑣HI

NOTATIE 𝑐𝑜𝑣𝑋𝑌FORMULE

𝑐𝑜𝑣𝑋𝑌 = 1

𝑛 − 1∗ 𝑥M − 𝑥 ∗ (𝑦M − 𝑦)

O

MP5

MEETNIVEAU Beidevariabelen:interval,ratioSAMENHANG? Uitkomstpositief positievesamenhang

Uitkomstnegatief negatievesamenhangUitkomstong0 geensamenhang

NADEEL °groottevandecovariantiehangtafvansterktevansamenhang&meeteenheid-Jekannietechtzekerwetenofjesamenhangnuéchtgrootisofniet-oplossing:correlatiecoëfficiënt

3.2Decorrelatiecoëfficiënt𝑟HI

NOTATIE 𝑟𝑋𝑌FORMULE

𝑟𝑋𝑌 = 𝑐𝑜𝑣HI𝑠H ∗ 𝑠I

EIGENSCHAPPEN °Ligtaltijdtussen-1en1*1=perfectpositievesamenhang*-1=perfectnegatievesamenhang°Hetzelfdetekenalscovariantie°Enkeltegebruikenbijlineairesamenhang

VOORDEEL Beterdancovariantie,wantdeuitkomstisonafhankelijkvandemeeteenheidàHetisaltijdtussen-1en1

PROBLEMEN/VRAGENBIJOEFENINGEN

Alsergeenlineairesamenhangis,kanje𝑟𝑋𝑌nogaltijdberekenenzonderprobleem,alleenisdatgetaldannietbetrouwbaar

3.3Kendall’sTau𝜏

FORMULE

𝜏 = 2 ∗ (𝑎𝑎𝑛𝑡𝑎𝑙𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛 − 𝑎𝑎𝑛𝑡𝑎𝑙𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑝𝑎𝑟𝑒𝑛)

𝑛 ∗ (𝑛 − 1)

(Komtinformularium)CONCORDANTEPAREN

MathematischYZ6Y[\Z6\[

> 0Grafisch Positieverico àstijgendelijn

DISCORDANTEPAREN

MathematischYZ6Y[\Z6\[

< 0Grafisch Negatieverico àdalendelijn

FORMULE#PARENTOTAAL?

Omtewetenhoeveelmogelijkeparenerzijn(zowelconcordantalsdiscordant)𝑛 ∗ (𝑛 − 1)

2

WERKWIJZE °Spreidingsdiagramtekenen°Allemogelijkerechtentussen2puntentrekken°Aantalconcordanteendiscordanteparentellen°Formuletoepassen(formularium!)

EIGENSCHAPPEN °Altijdtussen-1en1MEETNIVEAU Ordinaal,interval,ratio

3.4Lineaireenniet-lineaireverbanden

LINEAIREFUNCTIE °Grafischkanjeeenrechtelijntekenen

°CORRELATIECOEFFICIENTgebruikenMONOTONEFUNCTIE °Bewaartdeorde:eenmaalstijgen/dalen,blijvenstijgen/dalen

àMaardusnietnoodzakelijkineenrechtelijn°KENDALL’S𝜏gebruiken

NIET-MONOTONEFUNCTIE

°Bewaartdeordeniet°correlatiecoëfficiëntenKendall’s𝜏allebeinietgoed

BELANGRIJKETIP Dataeerstvisualiseren,danpasweetjewelkespreidingsmaatgoedis

PROBLEMEN/VRAGENBIJOEFENINGEN

Zienaandegrafiekofheteenlineaireofmonotonesamenhangis:echtheelalgemeenkijken,niettegedetailleerd!

3.5Gevoeligheidaanoutliers

GEVOELIGAANOUTLIERS Covariantie

CorrelatiecoëfficiëntNIETGEVOELIGAANOUTLIERS Kendall’s𝜏

4.Deregressielijn

WAT? Regressielijnzorgtervoordatwede𝑟𝑋𝑌kunnenvisualiserenopeen

spreidingsdiagramàonzevroegere‘functie’dus

MEETNIVEAU Interval,ratioFORMULE(VOORDERECHTE)

𝑌 = 𝑏_ + 𝑏5 ∗ 𝑋𝑏5 regressiecoëfficiënt–hellingvanderechte(-derico)

𝑏5 = 𝑦𝑗−𝑦𝑖𝑥𝑗−𝑥𝑖

𝑏_ Snijpuntmetdeverticaleas-intercept 𝑏_ = 𝑦M − 𝑏5 ∗ 𝑥M!!!Deze2formulestegebruikenbijperfectesamenhang,andersde2hieronder!!!

KLEINSTEKWADRATENMETHODE

°Ergvaakisdesamenhangnietperfect:onmogelijkomeenregressielijntetekenendiedoorallepuntengaat°Wewillenuiteindelijkeenrechtedietochzogoedmogelijkdoordepuntengaat°Methodeomdittebereiken:kleinstekwadratenmethodeà (𝑦M − (𝑏_ +O

MP5 𝑏5 ∗ 𝑥M))²àLogicaerachter: *Jehebtjeregressielijn&jeeigenlijkepunten *Deafstandtussenelkpuntendelijnisjefout(wantjeziternaast) *Hetkwadraatvandezeafstandwiljezokleinmogelijk,opdiemanieris jefoutzokleinmogelijkàKwadraatvanhetbolletje(𝑦M)enderegressielijn((𝑏_ + 𝑏5 ∗ 𝑥M)àViadeze2formuleszijnje𝑏_en𝑏5hetmeestgeschiktvolgensdemethode *dezewaardenkanjedanintegrereninde1eformule *𝑏5 = 𝑟HI ∗

bcbd

*𝑏_ = 𝑦 − 𝑏5 ∗ 𝑥

5.Samenhangencausaliteit

SamenhangbetekentGEENcausaliteit!Erkaneenderdevariabelezijn,dienietbestudeerdis

DeelII:KansrekeningWAARGAATELKDEELOVER?DeelI steekproefDeelII populatie Wewillenaltijdietswetenoverdepopulatie,maardatisteveelomallemaalteDeelIII inductieproces onderzoeken.Daaromdoenweaansteekproeftrekking.Maaruiteindelijk willenwedezeresultatenveralgemenennaardegehelepopulatie.

HOOFDSTUK5:DEPOPULATIEENVERDELINGSFUNCTIES

VERDELINGSFUNCTIE Frequentieverdeling,maardanvooreenpopulatie(geensteekproef)

Frequentieverdeling–steekproefVerdelingsfunctie–populatieHoedezeeruitziethangtafvanhetsoortvariabele:discreetofcontinu

1.Verdelingsfunctiediscretevariabelen

DISCRETEVARIABELEN °kangeentussenwaardenaannemen

°EindigaantalwaardenàAantalmogelijkewaarden:pàOPGELET:hetisdevariabeledieeeneindigaantalwaardenheeft,nietdepopulatie(wantergvaakheeftpopulatiezodanigveelwaarden,dathetwiskundigmakkelijkerisomaantenemendateroneindigveelzijn

NOTATIEREL.FR.VANDEPOPULATIE 𝑃 𝑋 = 𝑥M = lim

O→i

𝑓M𝑛

°DekansdatdevariabeleXdewaarde𝑥Maanneemt°x[O=derelatievefrequentie

SOORTEN? °kansverdeling°Cumulatieveverdelingsfunctie

1.1 Kansverdeling

WAT? °relatievefrequentieverdelingvandepopulatie(geensteekproef)

°tabelmet2kolommen:dewaardenvan𝑥M&deovereenkomstigekansen

1.2Cumulatieveverdelingsfunctie/verdelingsfunctie𝐹𝑋 𝑥

WAT? °Cumulatieverelatievefrequentievandepopulatie(geensteekproef)

°GeeftdekansweerdateenwaardevanXkleinerofgelijkaanxisFORMULE? 𝐹H 𝑥 = 𝑃(𝑋 ≤ 𝑥)GRAFIEKOFTABEL? Kanbeidezijn!HetgaatgewoonomhetfeitdateraanelkeX-waardeeen

bijhorendeY-waardewordtgekoppeld,maaktnietuitopwelkemanierdatweergegevenwordtàOPGELET!Beidezijnalleenmogelijkbijdiscretevariabelen!Bijcontinuevariabeleniseentabelnietmogelijk,wanterzijnoneindigveelpunten

GRAFIEK Trapsgewijs

2.Verdelingsfunctiecontinuevariabelen

CONTINUEVARIABELEN °Kanoneindigveeltussenwaardenaannemen

°KanoneindigveelwaardenaannemenProbleem:doordateroneindigveelwaardenzijn,isdekansdat1specifiekewaardevoorkomtquasi0à𝑃 𝑋 = 𝑥M =0àWegaaneenanderemaniermoetenvindenomkansenteberekenen(zievolgendetitels)

2.1Cumulatieveverdelingsfunctie𝐹H(𝑥)

WAT? DekansdateenwaardevanXkleinerofgelijkaanxisFORMULE 𝐹H 𝑥 = 𝑃(𝑋 ≤ 𝑥)of𝐹H 𝑥 = 𝑃(𝑋 < 𝑥)

≤of<maaktnietuit,wantdekansisuiteindelijktoch0

GRAFIEK continu(niettrapsgewijs)

2.2Dedichtheidsfunctieofdekansdichtheid𝑓H(𝑥)

WAT? °Formeleuitleg:deafgeleidevandeverdelingsfunctie

°Duidelijkereuitleg:àHistogramtekenen,waarbijoppervlakterechthoekgelijkisaanrelatievefrequentieàErzijneenoneindigaantalwaarden,duswekunnenhistogramopstellenmetoneindigaantalklassenàHoemeerklassen,hoemeerhetlijktopdedichtheidsfunctie

FORMULE AFGELEIDENNIETZELFBEREKENEN,GEWOONOMWATTEKUNNENVATTENWAT

DICHTHEIDSFUNCTIEIS

𝑓H 𝑥 = limz→_

𝐹H 𝑥 + 𝑏 − 𝐹H(𝑥)𝑏

àDekansdatXvaltbinnenhetinterval 𝑥, 𝑥 + 𝑏 gedeelddoorbàb=debreedtevanhetinterval;gaatrichting0

KANSENBEREKENEN?

°Welkesoortkansen?àVandevorm𝑃 𝑥5 ≤ 𝑋 ≤ 𝑥3 °Viaintegralen(nietzelfuitvoeren,gewoonbegrijpen)àGrafisch:deoppervlaktetussende2grenswaardeniswatjezoektàAlgemeneformules(nietzelfkennenofgebruiken,gwnbegrijpen)𝑃 𝑥5 ≤ 𝑋 ≤ 𝑥3 = 𝑓H 𝑥 𝑑𝑥\{

\;

𝑃 𝑋 ≤ 𝑥 = 𝑓H 𝑥 𝑑𝑥\6i

𝑃 𝑋 > 𝑥 = 𝑓H 𝑥 𝑑𝑥|i\

EIGENSCHAPPEN °𝑃 𝑥5 ≤ 𝑋 ≤ 𝑥3 = 𝐹H 𝑥3 − 𝐹H(𝑥3)°Altijdpositief,nooitnegatievewaardenàfunctieisgebaseerdopeenkans,eenkanskannooitnegatiefzijn°Oppervlakteonderdichtheidsfunctie=1àKomtaltijdovereenmetdekans;devolledigekansis100%of1°𝑃 𝑋 > 𝑥 = 1 − 𝑃(𝑋 < 𝑥)

Voorbeeld:indelinkerfiguurziejedekansdatXtussen110en90ligt.DitisgelijkaandekansdatXonder110ligt(middelstefiguur),mindekansdeXonder90ligt(rechterfiguur)

3.Populatieparameters

3.1PopulatiegemiddeldeofverwachtingswaardeE(X),𝜇\of𝜇

Weetje:deEkomtvan‘expectation’,vandaarverwachtingswaarde

3.1.1.Discretevariabelen

FORMULE

𝐸 𝑋 = 𝑃 𝑋 = 𝑥M ∗ 𝑥M

MP5

WATISVERANDERD?

relatievefrequenties à kansen𝑃(𝑋 = 𝑥M)𝑥M� à 𝑥M

3.1.2.Continuevariabelen

Wekunnendevorigedefinitienietgebruiken,want𝑃 𝑋 = 𝑥M = 0DUSgaanwegebruikmakenvanintegralen(weeralnietzelfuitrekenen)

3.2PopulatievariantieV(X),𝜎H3of𝜎3

3.2.1.Discretevariabelen

FORMULE

𝑉 𝑋 = 𝑃 𝑋 = 𝑥M ∗ (𝑥M − 𝐸 𝑋 )²�

MP5

WATISVERANDERD? relatievesteekproeffrequenties à kansen𝑃(𝑋 = 𝑥M)Steekproefgemiddelde à E(X)𝑥M� à 𝑥M

STANDAARDDEVIATIE𝝈 𝜎 = 𝑉(𝑋)

3.2.2.Continuevariabelen

gebruikmakenvanintegralen:nietzelfkunnen,welbegrijpen

4.Bivariatekansverdelingen

- Tweevariabelensamenbekijken(intabel),daardankansenoveruitspreken- Vergelijkbaarmethoofdstuk4(alleenwasH4oversteekproefverdeling)

4.1Discretevariabelen

MARGINALEVERDELINGENAFLEIDEN

°Zelfdealsnormaal:deapartewaardenoptellen°𝑃 𝑋 = 𝑥M = 𝑃(𝑋 = 𝑥M𝑒𝑛𝑌 = 𝑦�)

��P5

àXwordtvastgehoudenbijdewaarde𝑥M(verandertdusniet),dangaanweallemogelijkey-waardenoptellendiepassenbijdiewaarde𝑥Màq=aantalmogelijkewaardenvany°𝑃 𝑌 = 𝑦� = 𝑃(𝑋 = 𝑥M𝑒𝑛𝑌 = 𝑦�)

�MP5

àYwordtvastgehoudenbijdewaarde𝑦� (verandertdusniet),dangaanweallemogelijkex-waardenoptellendiepassenbijdiewaarde𝑦�

STATISTISCHEONAFHANKELIJKHEID

°2discretevariabelenXenYzijnonafhankelijkalsdegelijkheid𝑃 𝑋 = 𝑥M𝑒𝑛𝑌 = 𝑦� = 𝑃 𝑋 = 𝑥M ∗ 𝑃(𝑌 = 𝑦�)geldtvoorallemogelijkecombinatiesvanienjàDekansdatzowelXalsYeenspecifiekewaardeaannemenmoetaltijdgelijkzijnaandekansdatXhaarspecifiekewaardeaanneemt,vermenigvuldigdmetdekansdatYzijnspecifiekewaardeaanneemtàAlsditinderdaadzois,zijndevariabelenonafhankelijk.Anderszijnzeafhankelijk.

COVARIANTIECOV(X,Y)𝐶𝑂𝑉 𝑋, 𝑌 = 𝑃 𝑋 = 𝑥M𝑒𝑛𝑌 = 𝑦� ∗ 𝑥M − 𝐸 𝑋 ∗ (𝑦� − 𝐸 𝑌 )

�P5

MP5

CORRELATIECOËFFICIËNT𝝆𝑿𝒀

𝜌HI =𝐶𝑂𝑉(𝑋, 𝑌)𝜎H ∗ 𝜎I

Illustratiestatistischeonafhankelijkheid:uitdetabelleesjeafdatP(X=4enY=10)=0.09119maar…P(X=4)xP(Y=10)=0.35461x0.35286=0.1251277Dezetweeuitkomstenzijnniethetzelfde,duszijnXenYnietonafhankelijk.

4.2Continuevariabelen

- Ergvaakkennisnodigvanintegralen:dezegebruikenwenietzelf,duscontinuevariabelenwordtmaarzeerbeknoptbesproken

- Lijktbehoorlijkhardopunivariatecontinuevariabeleno 𝑃 𝑋 = 𝑥M𝑒𝑛𝑌 = 𝑦� = 0

CUMULATIEVEBIVARIATEVERDELINGSFUNCTIE𝑭𝑿,𝒀(𝒙, 𝒚)

𝑭𝑿,𝒀 𝒙, 𝒚 = 𝑃(𝑋 ≤ 𝑥𝑒𝑛𝑌 ≤ 𝑦)

BIVARIATEDICHTHEIDSFUNCTIE𝒇𝑿,𝒀(𝒙, 𝒚)

°Deafgeleidevandecumulatievebivariateverdelingsfunctie

STATISTISCHEONAFHANKELIJKHEID

Continuevariabelenzijnonafhankelijkalsvoorallemogelijkewaardenvanxenygeldtdat:𝑃 𝑋 ≤ 𝑥𝑒𝑛𝑌 ≤ 𝑦 = 𝑃 𝑋 ≤ 𝑥 ∗ 𝑃(𝑌 ≤ 𝑦)

COVARIANTIECOV(X,Y) °Maaktgebruikvanintegralen:zullenwenooitzelfmoetenberekenen°𝐶𝑂𝑉 𝑋, 𝑌 = 𝑓H,I 𝑥, 𝑦 ∗ 𝑥 − 𝐸 𝑋 ∗ 𝑦 − 𝐸 𝑌 𝑑𝑥𝑑𝑦|i

6i|i6i

CORRELATIECOËFFICIËNT𝝆𝑿𝒀 𝝆𝑿𝒀 = 𝐶𝑂𝑉(𝑋, 𝑌)𝜎H ∗ 𝜎I

5.Nuttigestellingen

1. AlsXenYonafhankelijkzijndanCOV(X,Y)=0a. OPGELET:omgekeerdnietaltijdwaar!Nietaltijddatalsdecovariantienulis,datzeonafhankelijkzijn

i. Kanookbijvoorbeelddoorniet-lineairesamenhangkomenb. Alleenbijpopulatie,nietbijsteekproef

2. AlsY=X+adanE(Y)=E(X)+a

a. Hierbijisaeenconstantei. Hetgemiddeldevana=a

b. Bijpopulatieensteekproef3. AlsY=a*X

danE(Y)=a*E(X)a. Zelfdelogicaalsstelling2b. Bijpopulatieensteekproef

4. E(X+Y)=E(X)+E(Y)E(X-Y)=E(X)-E(Y)

a. Zowelbijonafhankelijkealsafhankelijkevariabelenb. Bijpopulatieensteekproef

5. AlsXenYonafhankelijkzijndanE(X*Y)=E(X)*E(Y)

a. Alleenpopulatie,nietsteekproef6. AlsY=X+a

danV(Y)=V(X)a. Hierbijisaeenconstante

7. AlsY=a*XdanV(Y)=a²*V(X)

a. Hierbijisaeenconstante8. V(X+Y)=V(X)+V(Y)+2*COV(X,Y)

a. AlsXenYonafhankelijkzijndanV(X+Y)=V(X)+V(Y)

i. Komtvoortuitstelling1en8b. Populatieensteekproef

9. V(X-Y)=V(X)+V(Y)–2*COV(X,Y)a. AlsXenYonafhankelijkzijn

danV(X-Y)=V(X)+V(Y)i. Komtvoortuitstelling1en9

b. Bijpopulatieensteekproef

6.Bijzondere(kans)verdelingen

6.1.Debinomialeverdeling

WAT? °GeeftdekansweeromksuccessentehalenbijNmogelijkheden

àBv.Eenmeerkeuze-examenmetNvragen,hoegrootisjekansomkcorrecteantwoordentehebben?

ILLUSTRATIENODIG? (Cursusp.164-166!!)°Situatie:meerkeuze-examen,elkevraagheeft4antwoordmogelijkheden,proefpersonenmoetenadrandomantwoordeninvullen°Steldatermaar1vraagis:25%vandeproefpersonenzullenAaangeduidhebben,25%BenzovoortàSteldatAhetjuisteantwoordis;kansopsucces=p=25%°Erkomteen2evraagbij:vandemensendieAgeantwoordhebbenbijvraag1,gaatweereenkwartAbijde2evraagantwoorden,eenkwartBenzovoortàAntwoordAisweerhetjuisteantwoord°Nuzijner3mogelijkhedenàPersoonheeftbeideantwoordenfout -Zowelopvraag1als2gekozenvoorantwoordB,CofD -9vande16groepen -P(X=0)=9/16àPersoonheeft1vande2antwoordenjuist -OFopvraag1antwoordAenopvraag2geenA OFopvraag1geenAenopvraag2welantwoordA -6vande16groepen -P(X=1)=6/16àPersoonheeftbeideantwoordenjuist -opbeidevragenantwoordA

-1vande16groepen -P(X=2)=1/16

FORMULE 𝑃 𝑋 = 𝑘 = �!&!∗ �6& !

∗ 𝑝& ∗ (1 − 𝑝)�6& (Formularium!)

°!=faculteit:vermenigvuldiging,afrollendtot1àN!=Nx(N-1)x(N-2)x(N-3)x…x2x1àBv.4!=4x3x2x1=24à0!=1°p=kansopsucces°k=aantalsuccessen°N=maximaalaantalsuccessen

NOTATIE&FORMULES

°Variabelemetbinomialeverdeling X~Binom(N,p)°Verwachtingswaarde E(X)=N*p°Variantie V(X)=N*p*(1-p)

VOORWAARDEN °Nisvast°dekansopsucces(p)blijftongewijzigd

VARIABELE? AltijdbijdiscretevariabelenPROBLEMEN/VRAGENBIJOEFENINGEN

-Erisgeentypischevormquagrafiek-kenNbepalen:°Nisvaakjesteekproefgrootte:hoevaakdetestgedaanwordt°kishoeveeljedaarvannodighebt

6.2.Denormaleverdeling HEELBELANGRIJKSTUK!!

NORMAALVERDEELDEVARIABELE

°Notatie: X~N(µ,σ²)°Dichtheidsfunctie,formule

DICHTHEIDSFUNCTIE °Formule

𝑓H 𝑥 = 5�∗ 3�

∗ 𝑒�(���)²{�² e≈2.71;𝜋 ≈3.14

°Symmetrisch°Hoogstepunt:terhoogtevanµ(opdex-as)–mediaan=gemiddelde!!°Hoegroterσ²,hoebrederenminderhoogdefunctie°Defunctiewordtnergens0°Volledigeoppervlakteisnogsteedsgelijkaan1

VARIABELE? Altijdbijcontinuevariabelen

6.2.1.Destandaardnormaleverdeling

- Denormaleverdelingmetµ=0enσ²=1o Symmetrischrond0(wantdatishetgemiddelde)

ENKELEEIGENSCHAPPEN..1)𝑷(𝑿 > 𝒙) = 𝑷(𝑿 ≤ −𝒙)

Voorbeeld:dekansdatXgroterisdan2(hetrechterrodedeel),isevengrootalsdekansdatXkleinerofgelijkaan-2is(hetlinkerrodedeel)

2)𝑷 𝑿 ≤ −𝒙 = 𝟏 − 𝑷(𝑿 ≤ 𝒙)

Voorbeeld:dekansdatXkleinerofgelijkaan-2is(rodedeellinkergrafiek),isgelijkaan1–dekansdatXkleinerofgelijkaan2is(hetwittedeelvanderechtergrafiek)

3)𝑷 𝑿 > 𝒙 = 𝟏 − 𝑷(𝑿 ≤ 𝒙)

Voorbeeld:dekansdatXgroterisdan2(grafiekrechts)isgelijkaan1–dekansdatXkleinerofgelijkaan2is(grafieklinks)

6.2.2.Kansenberekenen

- Eriseentabeldiegeldtvoordestandaardnormaleverdelingomkansenteberekeneno Zieformulariumo OPGELET!Geldtenkelvoordestandaardnormaleverdelingo HetisdecumulatieveverdelingsfunctievandestandaardnormalevariabeleX§ dekansendiejeuitkomtzijntelkensdekansendatdevariabelewaardenaanneemtdiekleinerofgelijkaanjespecifiekex-waardezijn:P(X≤x)

- Hoedetabelgebruiken?o JewildekansberekenendatXkleinerofgelijkaanxis:P(X≤x)o Jex-waardegajeaflezenindekolommenbovenaanenlinks

§ Linkerkant:deeerstetweecijfersvanx(tot1getalnadekomma)§ Bovenaan:hetlaatstecijfervanx(het2egetalnadekomma)

o Zoekhetkruispuntvandeze2kolommenindetabelzelfo Dewaardediejedaartreft,isdekansdatXkleinerofgelijkaanjex-waardeis

- Watalshetgeenstandaardnormaleverdelingis,maareennormaleverdelingvaneenanderevorm?o Danmoetjedevariabelestandaardisereno Eigenschap:alsXeenniet-standaardnormaleverdelingis,danheeftdevariabeleZweleen

standaardnormaleverdelingviadezeformule:𝑍 = H6��

o AlsX~N(µ,σ²),dangeldtdat:𝑃 𝑋 ≤ 𝑥 = 𝑃(𝑍 ≤ \6��)

§ DewaardediejeuitkomtnahetuitvoerenvandebewerkingH6��(diedusrechtsvan

hetongelijkheidstekenbijZstaat)isdex-waardediejewilzoekenindezijkantenvanjetabelinhetformularium

§ Vandaaruitishetweerhetzelfde:hetgetalindetabeldatovereenkomtmetdiex-waarde,isdekansdat𝑃 𝑋 ≤ 𝑥

o Illustratie:

§ 𝑃 𝑋 ≤ 3 = 𝑃 𝑍 ≤ �65 

= 𝑃(𝑍 ≤ 1)§ Jezoekt1danalsx-waardeopindetabel§ Debijhorendekansis0.8413§ 𝑃 𝑋 ≤ 3 = 0.8413

6.3.Deχ²-verdeling

WAT? °Jeneemtkaantalonafhankelijkestandaardnormalevariabelen°deχ²-verdelingisdesomvandiegekwadrateerdevariabelenàsomvankwadraten:altijdalleenmaarpositievewaarden

NOTATIE Y~𝜒&3FORMULES °Algemeneformule:

𝑌 = 𝑋53 + 𝑋33 + 𝑋�3 + ⋯+ 𝑋&3°Verwachtingswaarde: E(Y)=k°Variantie: V(Y)=2*k

K? k=hetaantalvrijheidsgradenàhoeveelerzijn,dus.VARIABELEN? AltijdbijcontinuevariabelenPROBLEMEN/VRAGENBIJOEFENINGEN

Erisgeentypischevormquagrafiek

6.3.1.Kansenberekenen

- Zietabelinformulariumo Werktwelwatandersdantabelvoornormaleverdeling!o Linkerkolom:hetaantalvrijheidswaardenkzoekeno Bovenstekolom:dewaardenvandeverdelingsfunctie𝐹I(𝑦)o Tabelzelf:dewaardenyvandevariabeleàdatgenewattussenhaakjesstaatals‘y’bij

‘𝐹I(𝑦)’

6.4.Det-verdeling

WAT? °Eriseenstandaardnormalevariabeleeneenvariabelevolgens

deχ²-verdeling.°Devariabelenzijnonderlingonafhankelijk.°De𝑡&-verdelingisdeverdelingvandevariabele 𝑇 = H

;¦∗I

NOTATIE T~𝑡&FORMULES °Verwachtingswaarde

E(T)=0°Variantie 𝑉 𝑇 = &

&63𝑣𝑜𝑜𝑟𝑘 > 2

VARIABELEN? Altijdbijcontinuevariabelen

PROBLEMEN/VRAGENBIJOEFENINGEN

Erisgeentypischevormquagrafiek

6.4.1.Kansenberekenen

- Zietabelinformulariumo Zelfdelogicaalsbijchi-kwadraatverdelingo Linkerkolom:hetaantalvrijheidswaardenkzoekeno Bovenstekolom:dewaardenvandeverdelingsfunctie𝐹§(𝑡)o Tabelzelf:dewaardenvandevariabeleàdatgenewattussenhaakjesstaatals‘t’bij‘𝐹§(𝑡)’

HOOFDSTUK6:DESTEEKPROEVENVERDELING

ALGEMEENWatbestuderenwe? Eigenschappenvanvariabelendiewebekomendooropwillekeurigewijze eensteekproeftetrekkenuitdepopulatieDus…? Wekijkenooknaareensteekproef,alleenishetéénvandeontelbaar mogelijkesteekproevenuitdepopulatie.Wewetennietexactwatde waardenzijn,hetiseenstukabstracterenalgemenerWatbelangrijk? Reproduceerbaarheid:alsjezelfdeexperimentzouuitvoerenmetandere steekproef,gelijkaardigeresultatenbekomenàProbleem Vaakmaartijd&geldomexperiment1xuittevoerenàOplossing statistischeformules

1.Steekproeftrekking

ASELECTESTEEKPROEFTREKKING °Uitdepopulatiewordenoprandomwijzenelementengeselecteerd

àDienelementenzijnonderlingafhankelijk(daargaanwetochvanuit)°Erzijnveelmeersoortensteekproeftrekkingen,wijbesprekenalleendeze°Allemethoden&formulesdiewezien,zijnvantoepassingopaselectesteekproef

NOTATIE Allesmeteenhoofdletterschrijven°Devariabele:hoofdletterX°Despecifiekewaarden:𝑋5, 𝑋3, 𝑋� …àBijéénexplicietesteekproef:𝑥5, 𝑥3, 𝑥� …

TOEVALSVARIABELE Eenvariabelediebekomenwordtdooroptoevalligewijzeeensteekproefuitdepopulatieteselecteren

KANSBEREKENING 𝑃(𝑋 = 𝑥M)kan2betekenissenhebben:°Derelatievefrequentieindepopulatie°KansberekeningàKansopgebeurtenis=rel.fr.vandegebeurtenisalsexperiment∞keerherhaaldwordtàInpraktijkisdatonmogelijk:wemoetenditproberentebenaderen *Hoevakerjeeenexperimentuitvoert,hoedichterbij∞,hoe dichterbijdeechtekans,hoebetrouwbaarder

àEenexperimentmeerderekerenherhalen=herhaaldesteekproeftrekking

2.Steekproevenverdelingvanhetgemiddelde

NOTATIE 𝑋 (vaneensteekproefinhetalgemeendus,nietvanspecifiekewaarden

in1steekproef)VARIABELE °Alsjeeenherhaaldesteekproeftrekkingdoet,danmerkjedatdewaarden

voor𝑋veranderenàLogisch,wantdewaardenvandesteekproefzijntelkensandersà𝑋verandert,dusisletterlijkvariabel

FORMULE𝑋 =

1𝑛∗ 𝑋M

O

MP5

STEEKPROEFGROOTHEIDOFEENSTATISTIEK

°Eenbewerkingtoegepastopdevariabelen𝑋5, … , 𝑋O°𝑋ishiereenvoorbeeldvan°Anderevoorbeelden:modus,variantie..

STEEKPROEVENVERDELING °Uiteindelijkwillenwetochwetenhoealleverschillendegemiddeldenvdsteekproevenvdpopulatiezichverhoudenonderelkaar!°Stappenplan:àOneindigaantalsteekproeventrekken&gemiddeldenberekenenàHistogramopstellenvanallesteekproefgemiddelden(isdaneenhistogrammetoneindigveelklassen)àWatkrijgenwe:dedichtheidsfunctievanhetgemiddeldeofdesteekproevenverdelingvanhetgemiddeldeOPGELET:verschilfrequentieverdeling–steekproevenverdeling°frequentieverdeling=verdelingvaneenvariabele°steekproevenverdeling=verdelingvaneensteekproefgrootheid

2.1Stellingen

𝑬 𝑿 = 𝝁𝑿 Deverwachtingswaardevanhetsteekproevengemiddelde𝑿=het

populatiegemiddeldevandevariabeleXàHetsteekproefgemiddeldeiseenzuivereschattervoorhetpopulatiegemiddelde!

𝑽 𝑿 =𝝈𝑿²

𝒏

Devariantievanhetsteekproevengemiddelde=populatievariantievandevariabele,gedeelddoordesteekproefgrootteàLogica:hoegroterdesteekproef,hoeminderdegemiddeldeszullenvariëren,hoedichterbijhetéchtesteekproevengemiddelde

𝑿~𝑵(𝝁𝑿,𝝈𝑿𝟐

𝒏)

ALS𝑋5, … , 𝑋Orandom,onafhankelijkennormaalverdeeldzijn

DANis𝑋ooknormaalverdeeld:𝑋~𝑁(𝝁𝑿,𝝈𝑿{

𝒏)

àLogica:alspopulatienormaalverdeeldis,dansteekproefgemiddeldeookàGaatopvoorelkegroottevann,maaralleenalshetnormaalverdeeldis

CENTRALELIMIETSTELLING

HetmaaktnietuithoedesteekproefverdeeldisALSdesteekproefgroottegrootgenoegis(vuistregel:> 30DANishetsteekproefgemiddelde(+/-)normaalverdeeldàWekunnendezedan,netalsgewonenormaleverdelingen,standaardiseren&opdiemanierkansenberekenen!àGaatopvoorelkesoortverdeling,maaralleenalsngrootgenoegis

2.2OPGELET!!!

Bijhetstandaardiserenvan𝑋:jemoetdewaardenvan𝑋gebruiken,nietvanX!!àHetgemiddeldeblijfthetzelfde(zieformule)àdestandaarddeviatieblijftNIEThetzelfde!!Jemoetdezeberekenenviadeformule!

ALGEMENEFORMULE:𝑍 = H6�d�d:

3.Steekproevenverdelingvandevariantie

ALGEMEEN °Ookeenvoorbeeldvaneensteekproefgrootheidofeenstatistiek

°OokeenvariabeleNOTATIE 𝑆𝐷H3𝑜𝑓𝑆H3FORMULES

𝑆𝐷H3 =1𝑛∗ 𝑋M − 𝑋

O

MP5

²

𝑆H3 =1

𝑛 − 1∗ (𝑋M − 𝑋)²

O

MP5

𝐸 𝑆𝐷H3 =𝑛 − 1𝑛

∗ 𝜎H3

𝐸 𝑆H3 = 𝜎H3

3.1Stelling

𝒏 − 𝟏 ∗ 𝑺𝑿𝟐

𝝈𝑿𝟐~𝝌𝒏6𝟏𝟐

ALS𝑋5, … , 𝑋Orandom,onafhankelijkennormaalverdeeldzijn

DANgeldtO65 ∗¶d

{

�d{ ~𝜒O653

HOOFDSTUK7:BETROUWBAARHEIDSINTERVALLENENSTATISTISCHETOETSENVOORHETPOPULATIEGEMIDDELDE

ALGEMEEN–Waargaathethoofdstukover?

- Wegaanproberenomopbasisvaneensteekproefeenuitspraakteformulerenoverdepopulatie.o Eerstmoetenwepopulatieparameterschattenopbasisvanresultatenuitsteekproefo DanBetrouwbaarheidsintervalopstellen&statistischetoetsgebruikeno Jekannooit100%zekerzijndatjeuitspraakoverdepopulatiecorrectis

- Hiergaanwedatenkeldoenbijhetpopulatiegemiddelde.(Bijanderepopulatieparameterskandatook,maardatisvoorlaterecursussen)

1.Schatters

NOTATIE -Eenpopulatieparameter:θ

àeenpopulatieparameteriseenheelalgemeenwoordvoorietswatietszegtoverde

toestandvanuwpopulatiezelf.Bijvoorbeeld:hetgemiddelde,devariantie..-Eenschattervaneenpopulatieparameter:𝜃

WATMAAKTEENGOEIESCHATTER?

-Zemoetzuiverzijn°Deverwachtingswaardevandeschatter=depopulatieparameter°E(𝜃)=θ°Datgeeftaandatdepopulatieparameternietsystematischtegrootoftekleinwordtgeschat-Devariantievandeschatterwordtkleinernaarmatedesteekproefgroottegroterwordt°𝑉 𝜃 ↓ 𝑎𝑙𝑠𝑛 ↑°Nauwkeuriger,wantmeerinfo

𝑽 𝜽 °Standaarddeviatievandeschatter°StandaardfoutvandeschatteràDeschattermetdekleinstestandaardfoutisdebeste:hetefficiëntste

SCHATTERVSSCHATTING?

Schatter:algemeen,veranderlijkSchatting:van1specifiekesteekproef,vastewaarde

1.1Hetgemiddelde

HOEGAANWEPOPULATIEGEMIDDELDESCHATTEN?

Eenlogischeoptie:hetsteekproefgemiddeldegebruiken

ISHETSTEEKPROEFGEMIDDELDEWELEENGOEDESCHATTER?

Voldoethetaande2voorwaardenvaneengoedeschatter?°Iszezuiver?à𝐸 𝑋 = 𝜇HàDatwaseenstellinguithetvorigehoofdstuk°Daaltdevariantiealsdesteekproefgroottestijgt?

àStellinguitvorighoofdstuk:𝑉 𝑋 = �d²

O

àAlsngroterwordt,is�d²

Okleiner,dusmindervariantie

CONCLUSIE Ja,hetsteekproefgemiddeldeiseengoedeschatter!àJewiltpopulatiegemiddeldeschatten:gebruiksteekproefgemiddelde

1.2Devariantie

HOEGAANWEPOPULATIEVARIANTIESCHATTEN?

Eenlogischeoptie:desteekproefvariantiegebruiken

PROBLEEM–WELKEFORMULEGEBRUIKEN?

Wehebbenvoordesteekproefvariantie2formules:𝑆H3en𝑆𝐷H3àStellinguitvorighoofdstuk:𝐸 𝑆H3 = 𝜎H3

CONCLUSIE 𝑆H3iseengoedeschattervoordepopulatievariantie𝑆𝐷H3isGEENgoedeschattervoordepopulatievariantie

2.Betrouwbaarheidsintervallen

- Desteekproevenverdelinglaatonstoebetrouwbaarheidsintervallenteconstrueren- Viaeenbetrouwbaarheidsintervalkunnenwemeteenbepaaldezekerheideenuitspraakdoenover

hetpopulatiegemiddelde- Erzijnverschillendewerkwijzen,afhangendevandeverdelingendekennisoverdepopulatievariantie

2.1Xnormaalverdeeldengekendepopulatievariantie

𝒛∝ °Dewaardevandestandaardnormaleverdeling,waarvoordeoppervlakteonder

decurverechtservangelijkisaanα°𝑃 𝑍 > 𝑧∝ =∝ 𝑚𝑒𝑡𝑍~𝑁(0,1)°OPGELET:alsjeindetabelwaardenwiltaflezen,gaathetaltijdover‘inclusiefallewaardenrechtservan’àjemoetgebruikmakenvan1 − 𝑃 𝑍 ≤ 𝑧∝ °Destandaardnormaleverdelingissymmetrischrond0:à𝑃(−𝑧∝/3 ≤ 𝑍 ≤ 𝑧∝/3) = 1−∝àof𝑃(−𝑧∝/3 ≤

H6��/ O

≤ 𝑧∝/3) = 1−∝ *Wegaanstandaardiseren,zodathetvantoepassingisopeen standaardnormaleverdeling(isvereist,ziebovenstezin)àWaaromα/2?

BETROUWBAARHEIDS-INTERVALBI

𝑃 𝑋 − 𝑧∝ 3 ∗ 𝜎 𝑛 ≤ 𝜇 ≤ 𝑋 + 𝑧∝ 3 ∗ 𝜎 𝑛 = 1−∝àLogicavandeformule: °Ziecursusp.211 °JehebtalleelementenvandeZ-scoreaanallekantenvande ongelijkheidstekenstoegevoegd,zodatjeuiteindelijkinhetmidden alleenµuitkomt,wantdatisuiteindelijkwatjezoektàUiteindelijkwiljedatjegetaldatvoorµstaattussendie2grenzenligtGrenzenvanhetbetrouwbaarheidsinterval: 𝑋 − 𝑧∝ 3 ∗ 𝜎 𝑛 , 𝑋 + 𝑧∝ 3 ∗ 𝜎 𝑛 àDezeformulegaikvooralgebruikenbijoefeningenDatisdanhet(1-∝)*100%betrouwbaarheidsintervalàBv.∝=0.05:het(1-0.05)*100%BI:het95%-BIàWatbetekenthet?Datis95%vandegevallenvandesteekproeftrekkingenhetreëlepopulatiegemiddeldeerzichookechtinbevindtHetsteekproefgemiddeldegaataltijdexactinhetmiddenvanhetBIliggen

INTERPRETATIE Watgebeurteralshetexperimentherhaaltopbasisvaneennieuwesteekproef?àσen𝑧∝ 3zijnvastewaardenàMaarnieuwesteekproef=nieuwegegevens=nieuwgemiddeldeResultaat:gezienhetgemiddeldevariabelis,zalhetbetrouwbaarheidsintervalookvariabelzijnàdegrenzenvanhetbetrouwbaarheidsintervalzullenverschillenpersteekproefàeen95%-betrouwbaarheidsintervalgarandeertdat95%vanaldievariabeleintervallenhetreëlepopulatiegemiddeldezullenbevattenalswehetexperimenteenoneindigaantalkeerzullenherhalen

EIGENSCHAPPEN Breedtevanhetinterval 𝑎, 𝑏 = 2 ∗ 𝑧∝ 3 ∗ 𝜎 𝑛àHoesmallerhetinterval,hoenauwkeurigeràHetkleinstebetrouwbaarheidsintervalmogelijk:α=0.01 °intervalisdan99%betrouwbaar

2.2Xnormaalverdeeldenongekendepopulatievariantie

Hetis𝑧∝/3wanthieris∝desomvande2wittegebieden,zowellinksalsrechts!Dusuwboven-ofonderwaardeapartmoetjedelendoor2

FORMULE °𝑃 𝑋 − 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 ≤ 𝜇 ≤ 𝑋 + 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 = 1−∝°Grenzenbetrouwbaarheidsinterval: 𝑋 − 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 , 𝑋 + 𝑡O65;∝ 3 ∗ 𝑆H 𝑛

LOGICAACHTERFORMULE

°Combinatievan2stellingen:

à O65 ∗¶d{

�d{ ~𝜒O653

àH6��/ O

~𝑁(0,1)°Eenχ²-verdelingeneenstandaardnormaleverdelingvormensameneent-verdeling°Hetisuiteindelijkeen𝑡O65-verdeling,omdathetindeeerstestellingookeen𝜒O653 -verdelingis

EIGENSCHAPPEN𝒕𝒏6𝟏-VERDELING

°Eengroterevariantiedaneenstandaardnormaleverdeling°𝑡O65;∝ 3-waardeisgroterdan𝑧∝ 3-waardeàOPGELET:ookhierisde𝑡O65;∝ 3-waardedewaardevoorallesrechtservan,nietlinks!Moetjeweerrekeningmeehoudenbijhetaflezenvandetabel°Hetbetrouwbaarheidsintervalisgroter,dusextravariabiliteitàLogisch,wantjehetdepopulatiestandaarddeviatiemoetenschatten,waardooreengroterekansopfouten°OPGELET:die‘n-1’betekentnietdatjevoorhetaflezenvandetabelereentjemoetbijtellenbijhetaantalvrijheidswaarden!‘n-1’=k!

2.3Xnietnormaalverdeeld&populatievariantienietgekend

GROTESTEEKPROEF °Centralelimietstellinggebruiken:𝑋isnormaalverdeeld

°Zelfdewerkwijzevorigetitel:àintervalBI: 𝑋 − 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 , 𝑋 + 𝑡O65;∝ 3 ∗ 𝑆H 𝑛

KLEINESTEEKPROEF Wordtniksovergezegd,moetenwenietkunnen..

2.4Algemeenoverzichtwerkwijzen

XNORMAALVERDEELD𝝈𝑿𝟐 GEKEND

Grenzenbetrouwbaarheidsinterval: 𝑋 − 𝑧∝ 3 ∗ 𝜎 𝑛 , 𝑋 + 𝑧∝ 3 ∗ 𝜎 𝑛

XNORMAALVERDEELD𝝈𝑿𝟐 ONGEKEND

GrenzenBI: 𝑋 − 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 , 𝑋 + 𝑡O65;∝ 3 ∗ 𝑆H 𝑛

XNIET-NORMAALVERDEELD𝝈𝑿𝟐 ONGEKEND

Grotesteekproef:centralelimietstellingGrenzenBI: 𝑋 − 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 , 𝑋 + 𝑡O65;∝ 3 ∗ 𝑆H 𝑛 (Kleinesteekproef:nietkunnen)

3.Statistischetoetsen

ALGEMENEVOORWAARDENVOORHETGEBRUIKVANSTATISTISCHETOETSEN

°Hetmoetover1grotesteekproefgaan°Devariabeleisnormaalverdeeld°𝜎H3isongekend

DE2HYPOTHESEN Erzijntelkens2stellingenivmdehypothese,1vande2isjuist:°Nulhypothese𝐻_à𝐻_:𝜇 = 𝜇_àWebewijzendathetreëlepopulatiegemiddeldegelijkisaanhetgeschattepopulatiegemiddeldeàInpraktijkishetergvaakdatwedezehypotheseproberenteverwerpen°Alternatievehypothese𝐻Äà𝐻Ä: 𝜇 ≠ 𝜇_àWebewijzendathetreëlepopulatiegemiddeldenietgelijkisaanhetgeschattepopulatiegemiddeldeàOokweldetweezijdigalternatievehypothesegenoemd:𝜇_kanuiteindelijklangsbeidekantenvanµliggen,erbovenoferonder

ENDAN? °Als𝑥ongeveergelijkisaan𝜇_,dangaanwe𝐻_aanvaarden&𝐻Äverwerpen°Als𝑥verafwijktvan𝜇_,dangaanwe𝐻_verwerpen&𝐻Äaanvaarden°MAARnuisdevraag:watis‘ongeveergelijkaan’en‘verafwijkenvan’??àGaanwebewijzenviaeenstatistischetoets:eentoetsingsgrootheidàWegaanproberenvoldoendebewijstevindenom𝐻_teverwerpen

3.1Toetsingsgrootheid

EXTRAVARIABELE WegaaneenextravariabeleGinvoeren:

𝐺 =𝑋 − 𝜇_𝑆H 𝑛

àAls𝐻_correctis,danvolgtGeen𝑡O65-verdeling

3.2Beslissingsregels

WAT? Regelsdiejemoetvolgenomtebeslissenofwe𝐻_gaanaanvaardenof

verwerpenHOEGELDENZE? Als𝐻_waaris,danligtGrond0

Als𝐻_nietwaaris,danligtGvervan0(zowelpositiefalsnegatiefkan)Werktooklangsdeanderekant:-Alsgrond0ligt,danis𝐻_waar-alsgvervan0ligt,danis𝐻_fout

BESLISSINGSINTERVAL&KRITISCHEWAARDEN

−𝑡O65;∝ 3 ≤ 𝑔 ≤ 𝑡O65;∝ 3

àAlsjeg-waarde(diejebekomtviaformule𝐺 = H6�ȶd O

)tussendeze2

waardenligt,danaanvaardenwe𝐻_Kritischewaarden:−𝑡O65;∝ 3en𝑡O65;∝ 3

7.3TypeIentypeIIfout

TYPEIFOUT °𝐻_verwerpen,maareigenlijkisdiejuist

°Dekanshiertoe:𝑃 𝑣𝑒𝑟𝑤𝑒𝑟𝑝𝐻_I𝜇 = 𝜇_ = 𝛼à𝐻_correctaanvaarden:𝑃 𝑎𝑎𝑛𝑣𝑎𝑎𝑟𝑑𝐻_I𝜇 = 𝜇_ = 1 − 𝛼

TYPEIIFOUT °𝐻_aanvaarden,maareigenlijkisdiefout°Dekanshiertoe::𝑃 𝑎𝑎𝑛𝑣𝑎𝑎𝑟𝑑𝐻_I𝜇 ≠ 𝜇_ = 𝛽à𝐻_correctverwerpen:𝑃 𝑣𝑒𝑟𝑤𝑒𝑟𝑝𝐻_I𝜇 ≠ 𝜇_ = 1 − 𝛽

ONDERLINGVERBAND

°αdaalt=βstijgt°nstijgt=βdaalt

3.4Beslissingsregelsopbasisvanhetbetrouwbaarheidsinterval

𝜇_ligtbinnenbetrouwbaarheidsinterval 𝐻_aanvaarden𝜇_ligtbuitenbetrouwbaarheidsinterval 𝐻_verwerpen

Extrainfo:rekenmachineJekanredelijkwatzakenookingevenindeGRMendaarnainfohieroveraflezen!!OPGELETIkdenknietdatweeengrafischerekenmachinemogengebruikenophetexamen!!

- Infoingeveninlijsteno 1-Var-Stat=inverbandmet1variabeleo 2-Var-Stat=inverbandmet2variabelen

§ ‘a’=𝑏5§ ‘b’=𝑏_§ Dezetweekanjegebruikenomhetfunctievoorschriftvanderegressielijnte

noteren- ‘𝑠H′=destandaarddeviatiedieindeformuledeeltdoor‘n–1’- ′𝜎H′=destandaarddeviatiedieindeformuledeeltdoor‘n’