VPPK — Vlaamse Psychologische en Pedagogische …€¦ · Web viewEen lineaire functie is een...

Overzicht Syllabus Statistiek ISchooljaar 2015-2016 Julia Saelman

Hoofdstuk 1Schalen

Nominaal (identificatie zonder hoeveelheid -> rugnummer, rekeningnummer) Ordinaal (Nominale schaal + volgorde -> Goud-zilver-brons, officiersgraad) Interval (Ordinale schaal + verschillen tussen waarden hebben een betekenis. Geen absoluut

nulpunt -> Temperatuur (0 °C betekent niet dat er geen temperatuur aanwezig is) Ratio (Interval schaal + absoluut nulpunt -> Lengte, geld, reactietijd)

Continue variabelen: Kunnen tussenwaarden aannemen -> Lengte (tussen 2 en 3 cm, ligt ook 2,3)Discrete variabelen: Geen tussenwaarden -> aantal kinderen (geen 2,4 kinderen mogelijk)

Hoofdstuk 2Aselecte steekproef: Op willekeurige wijzeAbsolute frequentie: Aantal keer dat de waarde in de steekproef voorkomtAbsolute frequentieverdeling: Een tabel van de absolute frequentieSteekproefgrootte (n): Aantal elementen in de steekproefRelatieve frequentie: Absolute frequentie gedeeld door de steekproefgrootteStaafdiagram:

Alle rechthoeken zijn even breed Afstand tussen de verschillende rechthoeken is hetzelfde Rechthoeken raken elkaar niet

Histogram: Staven raken elkaar Aantal klassen is ongeveer wortel van n

Gegroepeerde frequentieverdeling: Tabel met de klassen en de overeenkomstige frequentiesScheef naar rechts/staart naar rechts: Massa van histogram ligt linksScheef naar links/staart naar links: Massa van histogram ligt rechtsSymmetrisch: Massa van histogram is aan beiden kanten ongeveer gelijkCumulatieve absolute frequentie (F(x)): Het aantal elementen in de steekproef die kleiner dan of gelijk aan x zijn.Cumulatieve absolute frequentieverdeling: Tabel met de waarden van de variabele en de overeenkomstige cumulatieve absolute frequenties.Cumulatieve frequentiecurve (ongegroepeerd):

Stap 1: Alle waarden aanduiden door middel van punten Stap 2: Punten trapsgewijs verbinden Stap 3: Horizontale lijn bij 0 en bij n

Cumulatieve absolute frequentie van een klasse: Het aantal elementen in die klasse plus het aantal elementen in lagere klassen.Cumulatieve absolute gegroepeerde frequentieverdeling: Tabel met de klassen en de overeenkomstige cumulatieve absolute frequenties.Cumulatieve frequentiecurve (gegroepeerd):

Stap 1: Alle waarden aanduiden door middel van punten Stap 2: Punten met rechten verbinden Stap 3: Horizontale lijn bij 0 en bij n

Hoofdstuk 3Centrummaat/maat van centrale tendentie: Maat voor het centrum van een verdeling. Laat toe de waarden van een variabele samen te vatten in één getal.

Gemiddelde (x):o Kan berekend worden op basis van:

Een variabele


Een frequentieverdeling Gegroepeerde data

o Enkel zinnig voor interval- en ratiovariabeleno Gevoelig aan outlierso In R: Mean

o Formule: 1n∑i=1

n

x i

x iu: Unieke waarden van de variabele X in de steekproef (bij een frequentieverdeling)

f i: Absolute frequentie horende bij de waardex iu

Formule gemiddelde op basis van een frequentieverdeling formule: 1n∑i=1

p

f i xiu

Klassenmidden: a+b2

Formule gemiddelde van gegroepeerde data:1n∑i=1

p

f ia i+bi

2 Mediaan (md x): Niet meer dan de helft van de elementen in de steekproef heeft een waarde

kleiner danmd x en niet meer dan de helft van de elementen in desteekproef heeft een waarde groter dan md x.

o Enkel zinnig voor ordinale, interval- en ratiovariabeleno Indien mediaan is bekomen door rekenkundig gemiddelde, is ze enkel zinnig voor

interval- en ratiovariabelen.o Niet gevoelig aan outlierso In R: median

omd x=a+

( n2−c)(b−a)

d a: De ondergrens van de mediane klasse b: De bovengrens van de mediane klasse c: De cumulatieve absolute frequentie van de klasse net kleiner dan de

mediane klasse d: De absolute frequentie van de klasse net kleiner dan de mediane klasse d: De absolute frequentie van de mediane klasse (cumulatieve klasse van de

mediaan – de cumulatieve klasse net voor de mediaan) n: De steekproefgrootte

Modus (mo): De klasse of de waarde met de grootste frequentie.o Modi: Als er meerdere dergelijke klassen of waarden zijno Unimodaal: 1 moduso Bimodaal: twee modio Zinnig voor nominale, ordinale, interval- en ratiovariabelen.o Niet gevoelig aan outliers.o In R: via table kan je zien wie de grootste frequentie heeft

Outliers/uitschieters: Waarden die ver verwijderd zijn van de overige waarden van een variabele. Uit te rekenen door:

P25−1,5 ∙Q P75+1,5∙Q

Spreidingsmaten: Maat voor de spreiding van een verdeling.


Variatiebreedte (vx): o De grootste min de kleinste waarde voor ongegroepeerde datao De bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor

gegroepeerde datao Enkel zinnig voor interval- en ratiovariabelen.o In R: min en maxo Zeer gevoelig aan outliers.

Gemiddelde absolute afwijking(gax):o Indien er spreiding is zullen er waarden zijn die verschillen van het gemiddelde. Hoe

groter de spreiding, hoe groter de gemiddelde absolute afwijkig.o Enkel zinnig voor interval- of ratiovariabeleno Nadeel: Er worden absolute warden gebruikt. Kan worden verholpen door de

absolute waarden te vervangen door kwadraten (variantie)o In R: aado Gevoelig aan outliers.

o 1n∑i=1

n

¿ x i−x|

Variantie:o Enkel zinnig voor interval- of ratiovariabeleno In R: var (alleen s ²x).o Zee gevoelig aan outliers.o Twee verschillende formules:

sd ²x=1n∑i=1

n

(xi¿−x) ² ¿

s ²x=1

n−1∑i=1n

(xi¿−x) ² ¿

Standaarddeviatie:o Wortel van variantieo In R: sd (Alleen sx)o Gevoelig aan outliers.o Twee verschillende formules:

sdx=√sd ²x sx=√s ²x

Interkwartielafstand (Q): o Interkwartiel (Pk):

P25 = De waarde van een variabele waarvoor 25% van de waarden hetzelfde of kleiner zijn.

P50 = md x

Kan worden afgelezen van de cumulatieve relatieve frequentiecurve. Om het 30e percentiel te berekenen, trek je bij een waarde van 30 op de verticale as een horizontale lijn tot aan de curve, om vervolgens een verticale lijn te trekken naarde horizontale as. De waarde op de horizontale as ter hoogte van die lijn is het 30e percentiel.

In R: Quantile

F (Pk)n

= k100

o Q = P75−P25o Interkwartielinterval: [P25,P75]. Dit interval bevat 50% van alle waarden.


Enkel zinnig voor ordinale, interval- en ratiovariabelen.o Enkel zinnig voor interval- en ratiovariabelen.o In R: IQRo Niet gevoelig aan outliers.

Spreidingsmaat do Wordt vooral gebruikt met nominale variabelen.o De letter p stelt het aantal unieke waarden voor dat een variabele aan kan nemen

(Bij geslacht p=2, want of man of vrouw).o f mo: Frequentie van de modus (een waarde of een klasse)o Als f mo=n dan is er geen spreiding, alle waarden van de variabele zijn gelijk aan de

modus. Als er geen spreiding is, dan d = 0. Bij maximale spreiding ( f mo=np , want

modus kan nooit kleiner zijn dan dit) dan d = 1.o Te gebruiken voor nominale, ordinale, interval- en ratiovariabelen.o Niet gevoelig aan outliers.

o d = 1−

f mon

1−1p

Boxplot: Geeft een idee over de verdeling van de data en om outliers visueel vast te stellen. Stap 1: Verticale as tekenen Stap 2: Stippen zetten voor de waarde van de variabele van elke proefpersoon Stap 3: Outliers bepalen Stap 4: Outlier-stippen aangeven (rood kleuren) Stap 5: Horizontale lijn bij laagste stip die geen outlier is Stap 6: Horizontale lijn bij hoogste stip die geen outlier is Stap 7: Horizontale lijn ter hoogte van het eerste kwartiel Stap 8: Horizontale lijn ter hoogte van het derde kwartiel Stap 9: Horizontale lijnen van de kwartielen met elkaar verbinden, een rechthoek vormend Stap 10: Alle stippen behalve de outliers verwijderen Stap 11: Verticale stippellijn van de onderste horziontale lijn tot het eerste kwartiel Stap 12: Verticale stippellijn van het derde kwartiel tot de bovenste horizontale lijn Stap 13: Horizontale lijn in de rechthoek tekenen ter hoogte van de mediaan

Boxplot scheef naar rechts: Meeste outliers bevinden zich boven/linksBoxplot scheef naar links: Meeste outliers bevinden zich onder/rechtsSymmetrisch: Evenveel outliers aan beiden kanten

Hoofdstuk 4Univariate statistiek: één variabele per keer bekijken. Toegepast op afzonderlijke variabelen.Bivariate statistiek: twee variabelen per keer bekijken. Toegepast op gezamenlijke variabelen.Univariate absolute frequentieverdeling: Tabel die enkel informatie bevat over één variabele.Van de bivariate verdeling kan je de univariate verdeling afleiden.Marginale verdelingen: Univariate verdelingen op basis van bivariate verdelingen.Er zijn drie soorten samenhang:

Positieve samenhang (eventueel perfect) Negatieve samenhang (eventueel perfect) Geen samenhang


Puntenwolk: Een spreidingsdiagram waarin geen patroon te zien is, de punten zijn willekeurig verspreid.In R: dim() = het aantal rijen (=het aantal personen) en het aantal kolommen (=aantal variabelen)plot(): Een spreidingsdiagram, met de variabelen als argumenten, gescheiden door een komma.Standaarddeviatie van X wordt weergegeven door sx en standaarddeviatie van Y wordt weergegeven door sy .Met maten van samenhang kan je de samenhang kwantificeren. Er zijn 3 maten:

Covariantie

o covXY=1

n−1∑i=1n

(x i−x )( y i− y )

o Is enkel zinnig wanneer beide variabelen van tenminste intervalniveau zijn.o Er geldt dat:

cov XY > 0 bij een positieve samenhang. cov XY < 0 bij een negatieve samenhang. cov XY ≈ 0 indien er geen samenhang is.

Je kan een spreidingsdiagram opsplitsen in vier kwadranten op basis van de gemiddelden.

Positieve samenhang: Alle punten liggen linksonder en rechtsboven. Negatieve samenhang: Alle punten liggen linksboven en rechtsonder. Geen samenhang: Punten liggen in alle kwardranten.

o De covariantie is afhankelijk van de meeteenheid. Daarom kan je niet met alleen de covariantie besluiten of er een sterke samenhang is.

o Lineaire samenhang.o Gevoelig aan outliers.o In R: cov()

Correlatiecoëfficiënt

o r xy=cov XY

sx s y

o De correlatiecoëfficiënt ligt tussen de -1 en 1o Er geldt dat:

r xy=1 bij een perfecte positieve samenhang. r xy=−1 bij een perfecte negatieve samenhang. r xy ≈0 indien er geen samenhang is.

o Gevoelig aan outliers.o Lineaire samenhang.

Kendall’s τ o Wordt berekend door concordante en disconcordante paren te tellen.


Concordant: een paar (x i , y i) en (x j , y j) indien y j− y i

x j−x i¿

>0 ¿ . Dit is wanneer (

x i< x jén y i<y j) of wanneer (x i< x jén y i>y j).

Disconcordant: een paar (x i , y i) en (x j , y j) indien y j− y i

x j−x i¿

<0¿ . Dit is

wanneer (x i< x jén y i> y j) of wanneer (x i> x jén y i< y j).o Als er voor een paar x i=x j en y i= y j dan is het paar niet concordant en niet

disconcordant.o Kendall’s τ wordt gegeven door: τ =

2(aantal concardante paren−aantal discordant paren)n (n−1)

o Kendall’s τ ligt tussen de -1 en 1.o Is enkel zinnig als de variabelen minstens van het ordinale niveau zijn.o Kan ook visueel worden weergegeven door alle punten in het spreidingsdiagram

paarsgewijs te verbinden via rechten. De concordante paren zijn de rechten met een positieve richtingscoëfficient. De didconcordante paren zijn de rechten met een negatieve richtingscoëfficient.

o Niet gevoelig aan outliers.o Monotone (niet-lineaire) functies.o In R: cor() method = “kendall”.

Lineaire functies: Kan worden voorgeste;d door een rechte lijn.Monotone functie: Bewaart de orde. De functie moet ofwel stijgen ofwel dalen, maar niet beiden. Een lineaire functie is een monotone functie, maar er bestaan ook functies die monotoon zijn zonder lineair te zijn.De correlatiecoëfficient is enkel geschikt als de puntenwolk een lineaire trend vertoont, terwijl Kendall’s τ geschikt is voor de puntenwolken die een monotone trend vertonen.


In de onderste voorbeelden zou je op basis van de maten besluiten dat er een zwakke samenhang is (omdat de getallen klein zijn( terwijl er visueel een sterke niet-monotne samenhang is. Het is belangrijk om data eerst te visualiseren door middel van een spreidingsdiagram en dan pas te beslissen welke spreidingsmaat geschikt is.

Regressielijn: Het verband tussen Y en X beschreven door een rechte (Y=b0+b1 X ). Indien er een perfect lineair verband is, gaat er precies één rechte door alle punten.

Regressecoëfficiënt: Het getal b1. b1=y j− y i

x j−x i¿

¿ .

b0 kan worden gevonden door b0= y i−b1 x i.Als de samenhang niet perfect is is het onmogelijk een rechte te tekenen door alle punten. Als oplossing wordt er een rechte getelemd die het best door de puntenwolk gaat. Deze rechte kan


worden bekomen door de volgende uitdrukking: ∑i=1

n

¿¿ Dit heet de kleinste-kwadrantenmethode. De

oplossing wordt gegeven door:

b1=rXYSY

SX en b0= y−b1 x .

De vergelijking van de regressielijn maakt gebruik van gemiddelden en de correlatiecoëfficient en is bijgevolg enkel zinnig als beide variabelen van tenminste intervalniveau zijn. Je kan de regressielijn tekenen met behulp van de volgende stappen:

Neem twee willekeurige waarden voor X. Vul voor elk van deze waarden de formule van de regressielijn in. Teken deze punten op het spreidingsdiagram. Als we deze twee punten verbinden met een rechte bekomen we de regressielijn.

Indien er een stijgende lijn is, is er een stijgende trend. Indien de punten sterk verspreid liggen is er sprake van een zwakke samenhang.Indien er een samenhang is tussen twee variabelen wil dit niet noodzakelijk zeggen dat er een causaal verband is.

Hoofdstuk 5Een populatie kan zeer groot zijn, we beschouwen zo’n populatie als oneindig groot.Verdelingsfunctie van populatie (frequentieverdeling van steekproef): Aan de hand hiervan kan een populatie worden beschreven. De beschrijving van deze functie verschilt per type variabele:

Discrete variabelen (Kansverdeling): Nemen een eindig aantal waarden aan.p: het aantal waarden. De p verschillende waarden die de variabele X kan aannemen, duiden we aan als x1 , x2 ,…, x p.P (X=xi ) is de kans dat de variabele X de waarde x i aanneemt. Hangt nauw samen met de frequentieverdeling in de steekproef. Wordt gedefinieerd als:

P (X=xi )=limn→∞

f in

.

Het is de limiet van de relatieve frequentie in de steekproef wanneer de steekproef oneindig groot wordt. De kans P (X=xi ) kan worden geïnterpreteerd als de relatieve frequentie van x iin de populatie.De kansverdeling van een discreet variabele X: een tabel met twee kolommen waarbij de eerste kolom de waarden x i weergeeft en de tweede kolom de overeenkomstige kansen P (X=xi ).De cumulatieve verdelingsfunctie (FX (x )): de tegenhanger van de cumulatieve relatieve frequentie.

FX ( x )=P(X ≤ x) Deze kan worden bekomen door de kansen P (X=xi ) uit de kansverdeling waarvoorx i≤ x op te tellen

Continue variabele (Kansverdeling): Kan in theorie oneindig verschillende waarden aannemen.Dit impliceert dat de kans P (X=x ) = 0 voor elke waarde x. Om kansen te berekenen bij continue variabelen gebruiken we de dichtheidsfunctie. Voor een variabele X wordt de dichtheidsfunctie f X ( x ), ook wel de kansdichtheid genoemd, gegeven door de afgeleide van de verdelingsfunctie:

f X ( x )=limb→ 0

F x (x+b )−Fx (x)b

Het geeft de kans weer dat X binnen het interval [ x , x+b] gedeeld door b.b: Breedte van het interval, convergeert naar 0 (wordt kleiner en kleiner). f X ( x )heeft niet de


interpretatie van een kans, omdat b zeer klein is, kan f X ( x ) groter zijn dan 1, dus kan het geen kans zijn. De dichtheidsfunctie is een continue functie en wordt theoretisch bekomen door het histogram op te delen in oneindig veel kansen. Via de dichtheidsfunctie kunnen we kansen van de vorm P(xi≤ X ≤ x2) berekenen. Om deze kansen te bekomen moeten we de dichtheidsfunctie integreren. Integralen kunnen visueel worden voorgesteld door oppervlaktes. Algemeen kunnen we stellen dat:

P (x1≤ X ≤x2 )=∫x1

x2

f x ( x )dx

Deze kans is gelijk aan een oppervlakte. De kans dat een variabele X in het interval [ x1, x2 ] is gelijk aan de oppervlakte onder de dichtheidsfunctie f X ( x ) tussen x1 en x2 waarvan de integraal de bovengenoemde is. Kansen van de vorm P(X≤ x) en P(X> x) kunnen worden bekomen door:

P (X ≤x ) =∫∞

x

f x ( x )dx

P(X> x) =∫x

+∞

f x ( x )dx

Indien we beschikken over de verdelingsfunctie FX ( x ), is het echter eenvoudig om de kans te bekomen via de volgende eigenschap:

P (x1≤ X ≤x2 )=P (X ≤ x2)−P (X ≤x1 )=F x (x2 )−F x (x1)De cumulatieve frequentieverdelingsfunctie geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan x.

FX ( x )=P(X ≤ x)Opgelet: Bij continue variabelen maakt het niet uit of we < of ≤ gebruiken omdat P (X=x ).Een aantal interessante eigenschappen:

De dichtheidsfunctie is een positieve functie: f X ( x )≥0. Een functie die het negatieve ingaat kan om die reden nooit een dichtheidsfunctie zijn.

De volledige oppervlakte onder de dichtheidsfunctie is gelijk aan 1: ∫−∞

+∞

f x (x )dx=1

Er gelt dat: P (X>x )=1−P (X ≤x )

Het gemiddelde en de variantie zijn populatieparameters. Afhankelijk van het type variabele zijn er verschillende definities voor het populatiegemiddelde:Discrete variabelen (Populatiegemiddelde)Het gemiddelde (E(X)) van een discrete variabele X in een populatie wordt gegeven door:

E (X )=∑i=1

p

P(X=xi) xi

Het populatiegemiddelde wordt ook wel de verwachtingswaarde genoemd en wordt aangeduid door

E (X ), μxof μ. Het verschil met het steekproefgemiddelde is dat de relatieve frequenties f in

vervangen zijn door de kansen P (X=xi ). Deze kansen vormen de tegenhanger van de relatieve frequentie op populatieniveau. Verder is x i

u vervangen door x i.

Continue variabelen (Populatiegemiddelde)Voor continue variabelen is P (X=xi )=0. We moeten integreren om het populatiegemdidelde te definiëren. Het gemiddelde van een continue variabele X in een populatie wordt gegeven door:

E (X )=∫−∞

+∞

f x ( x )dx


Deze vergelijking lijkt op die van de discrete variabele, echter wordt de som vervangen door integraal

∫−∞

+∞

dx en de kansverdeling door de dichtheidsfunctie f X ( x ).

Afhankelijk van het type variabele zijn er verschillende definities voor de populatievariantie:Discrete variabelen (Populatievariantie)De variantie (V (X)) van een discrete variabele X wordt gegeven door:

V (X )=∑i=1

p

P (X=xi)(x i−E (X )) ²

en wordt aangeduid door V (X ) , σ ²x , σ ². De formule voor de populatievariantie lijkt sterk op die voor de steekproefvariantie als je die van de steekproefvariantie omschrijft (

sd ²x=1n∑i=1

n

(x i¿−x) ²=∑i=1

p f in

(x iu−x) ² ¿). Vervolgens als je

f in

vervangt door P(X=x i), x door

E (X ) en x iu door x i.

De standaarddeviatie van een variabele X in een populatie (σ x) wordt gegeven door:

σ x=√∑i=1p

P(X=¿ xi)(xi−E ( X )) ² ¿

Continue variabelen (Populatievariantie)De variantie van een continue variabele X in een populatie wordt gegeven door:

V (X )=∫−∞

+∞

f x (x )(x−E (X )) ²dx

Deze vergelijking lijkt op die van de discrete variabele, omdat de som wordt vervangen door een integraal en de kansverdeling door de dichtheidsfunctie. De standaarddeviatie wordt opnieuw bekomen door de vierkantswortel te nemen.

Bivariate kansverdelingen: Twee variabelen gezamenlijk bekeken op populatieniveau. Ook hier wordt een onderscheid gemaakt tussen discrete en continue variabelen.Discrete variabelen (Bivariate kansverdelingen)De kans dat X de waarde x i aanneemt en Y de waarde y i wordt beschreven als:

P(X=x ienY= y j).p: het aantal mogelijke waarden dat X kan aannemen.q: het aantal mogelijke waarden dat Y kan aannemen.De univariate verdeling van X wordt bekomen via:

P (X=xi )=∫j=1

q

P(X=x i enY= y j)

We nemen de som van de kansen waar X wordt vastgehouden bij de waarde x i en Y varieert over alle mogelijke waarden. We kunenn op gelijkaardige wijze de univariate kansverdeling van Y afleiden uit de bivariate kansverdeling via:

P (Y= y j )=∫i=1

p

P(X=x i enY= y j)

Statistische onafhankelijkheid: Een belangrijk begrip binnen bivariate kansverdelingen. Twee discrete variabelen X en Y zijn onafhankelijk als de volgende gelijkheid geldt voor alle mogelijke combinaties i en j.

P ¿ en Y= y j ¿=P(X=x i)P(Y= y j)Covariantie voor twee discrete variabelen X en Y in een populatie (COV(X,Y)), wordt gegeven door:


COV (X ,Y )=∑i=1

p

∑j=1

q

P (X=x i enY= y j) (x i−E (X )) ( y j−E (Y ))

Correlatiecoëffiënt wordt gegeven door

ρXY=COV (X ,Y )

σ X σY

Met σ X de standaarddeviatie van X en σ Y de standaarddeviatie van Y.

Continue variabelen (Bivariate kansverdelingen)Voor continue variabelen zijn de kansen P ¿ en Y= y j ¿=0. De cumulatieve bivariate verdelingsfunctie kan worden gedefiniëerd als:

FX ,Y ( x , y )=P(X ≤x enY ≤ y )De bivariate dichtheidsfunctie wordt bekomen door FX ,Y ( x , y ) af te leiden en wordt genoteerd als f X , Y ( x , y ). Twee continue variabelen X en Y zijn onafhankelijk als geldt dat: P (X ≤x enY ≤ y )=P (X ≤ x )P(Y ≤ y) voor alle mogelijke waarden x en y.Covariantie voor twee continue variabelen X en Y in een populatie wordt gegeven door:

COV (X ,Y )=∫−∞

+∞

∫−∞

+∞

f X ,Y ( X ,Y ) (x−E (X ) ) ( y−E (Y ) )dx d y

Correlatiecoëffiënt wordt gegeven door

ρXY=COV (X ,Y )

σ X σY

Met σ X de standaarddeviatie van X en σ Y de standaarddeviatie van Y.

Stellingen: Steekproefgemiddelde

2. Voor een variabele Y=X+a geldt dat E(Y)=E(X)+a, waarbij a een constante is (voorbeeld €100 opslag, gemiddelde wordt €100 hoger).

3. Voor een variabele Y=aX geldt dat E(Y)=aE(X) waarbij a een constante is. (voorbeeld inkomen uitgedrukt in euro en uitgedrukt in dollar)

4. Voor twee variabelen X en Y (die onafhankelijk of afhankelijk kunnen zijn) geldt dat: E(X+Y)=E(X)+E(Y) E(X-Y)=E(X)-E(Y)

(voorbeeld twee testen) Populatiegemiddelde

1. Als X en Y onafhankelijke variabelen zijn dan geldt dat COV (X ,Y )=0. Een covariantie van 0 impliceert echter niet dat de variabelen onafhankelijk zijn. Populatiecovariantie is een maat voor lineaire samenhang.

5. Voor twee onafhankelijke variabelen X en Y geldt dat E(XY)=E(X)E(Y). Variantie

6. Voor een variabele Y=X+a geldt dat V(Y)=V(X) waarbij a een constante is (voorbeeld €100 opslag, spreiding blijft gelijk)

7. Voor een variabele Y=aX geldt dat V(Y)=a²V(X) waarbij a een constante is (voorbeeld euro naar dollar, spreiding verandert i.v.m. omzetting. €100 opslag, is $113 opslag).

8. Voor twee variabelen X en Y geldt dat V(X+Y)=V(X)+V(Y)+2COV(X,Y). (eerst per persoon de scores optellen en dan de variantie (=V(X+Y)), eerst per test de variantie en samen met de covariantie tellen we dit op (=V(X)+V(Y)+2COV(X,Y)). De variantie van de som is gelijk aan de som van de varianties plus twee keer de covarianties. (voorbeeld twee verschillende testen. Als de covariantie positief is impliceert dit dat de variantie van de totale score groter is dan de som van de varianties van de afzonderlijke scores. Dit komt doordat personen die een hoge score behalen op de


eerste test vaak ook een hoge score behalen op de tweede. Hierdoor zal de totale score meer spreiding vertonen en is de variantie groter. Indien X en Y onafhankelijke variabelen zijn dan volgt uit stelling 1 en 8 dat V(X+Y) = V(X)+V(Y).

9. Voor twee variabelen X en Y geldt dat V(X-Y)=V(X)+V(Y)-2COV(X,Y). De variantie van het verschil is gelijk aan de som van de varianties min twee keer de covariantie. Als X en Y onafhankelijke variabelen zijn volgt uit stelling 1 en 9 dat V(X-Y) = V(X)+V(Y). De variantie van het verschil is gelijk aan de som van de varianties. De variantie van het verschil is dus niet gelijk aan het verschil van de varianties. De variantie is altijd groter dan of gelijk aan 0.

Binomale verdeling: Geeft de kansverdeling weer om k correcte antwoorden te hebben op een examen met N vragen. Omdat alle studenten op willekeurige wijze een antwoord moeten aanduiden en omdat er vier antwoordmogelijkheden zijn, zal elk antwoord worden gekozen door een kwart van de populatie. Stel dat N=2, opnieuw op volledig willekeurige wijze. Omdat N=2 kan de variabele X drie mogelijke waarden aannemen:

X=0 indien beide antwoorden foutief zijn. De kans P(X=0)=916 .

X=1 indien één antwoord correct is en één foutief is. De kans P(X=1)=616 .

X=2 indien beide antwoorden correct zijn. De kans P(X=2)=116 .

De binomale kansverdeling wordt gegeven door:

P (X=k )= N !k ! (N−k )!

pk (1−p)N−k

N!: N faculteit² *N! = N (N-1) (N-2) ... 2 1. 0!=1. Bijvoorbeeld: 4!=4 3 2 1=24.∙ ∙ ∙ ∙ ∙ ∙ ∙ ∙p: kans op succes.k: het aantal successen.N: maximaal aantal successen.x0=1 voor alle reële getallen.Binomiale variabele (X~Binom(N,p)): Een variabele die een binomiale verdeling heeft.Stel, een examen met 5 vragen met bij elke vraag 10 antwoordmogelijkheden, de kans op succes is gelijk aan p=0,10. De kans om bijvoorbeeld alle vragen foutief te beantwoorden is veel groter dan de kans om alle vragen correct te beantwoorden. Voor p=0,5 is de verdeling perfect om alle vragen correct te beantwoorden, terwijl voor p=0,1 de verdeling scheef naar links is, en voor p=0,9 de verdeling scheef naar rechts is.De verwachtingswaarde van een binomiale variabele X~Binom(N,p) wordt gegeven door:

E (X )=N p

en de variantie door: V (X )=N p(1−p)

De binomiale verdeling kan enkel gebruikt worden als N vast is en indien de kans op succes p ongewijzigd blijft. Voor het meerkeuze-examen ligt het aantal vragen op voorhand vast en blijft de kans p=0,25 omdat ze moeten gokken.In R:

Kansdichtheid P(X=k): dbinom(k, N, p) De cumulatieve verdelingsfunctie P(X≤k): pbinom (k, N, p)

Normaal verdeelde variabelen: De normale verdeling is een goede benadering voor verschillende verdelingen in de praktijk en anderzijds is ze zeer nuttig omwille van de centrale limietstelling. Een normaal verdeelde variabele is continu en de dichtheidsfunctie wordt gegeven door:


f x ( x )= 1σ √2 π

e−(x−μ)²2σ ²

Een variabele die normaal verdeeld is noteren we als X~N(µ,σ²). De dichtheidsfunctie hangt af van twee parameters,μ(=populatiegemiddelde) en σ ²(=populatievariantie), waarvoor geldt dat E (X )=μ en V (X )=σ ². De dichtheidsfunctie bereikt haar hoogste punt in het gemiddelde. Bij een grotere variantieσ ² (dus bij meer spreiding rond het gemiddelde) wordt de dichtheidsfunctie breder en minder hoog. De dichtheidsfunctie wordt echter nergens 0 omdat f x ( x )>0 voor alle waarden x. De dichtheidsfunctie wordt gebruikt om kansen van de vorm P(x1≤ X ≤ x2) te berekenen. Voor de normale verdeling moet de volgende integraal worden berekend:

P (x1≤ X ≤x2 )=∫x1

x2 1σ √2π

e−(x− μ)²2σ ² dx

Deze integraal is echter niet analytisch op te lossen. Omdat µ en σ² oneindig veel verschillende waarden kunnen aannemen hebben we oneindig veel tabellen nodig. Hert blijk echter dat een tabel voor µ=0 en σ²=1 voldoende is om de kansen te berekenen voor elke normale verdeling, dus ook als µ≠0 en/of σ²≠1).Standaardnormale verdeling: De normale verdeling met µ=0 en σ²=1. Algemeen geldt voor de standaardnormale verdeling dat P (X>x )=P(X≤−x). Dit is nuttig, omdat ze impliceert dat we een tabel meer beknopt kunnen schrijven door enkel de kansen P(X≤ x) te geven waarvoor x positief is.Er is een verband tussenP(X≤−x) en P(X≤ x), namelijk: P (X ≤−x )=1−P (X ≤x ), voor alle x.Stelling:

10. Als X een normale verdeling heeft met gemiddelde µ en variantie σ², dus X~N(µ, σ²),

dan heeft de variabele Z= X−µσ een standaardnormale verdeling, dus Z~N(0,1).

Deze stelling impliceert dat als X~N(µ, σ²) dan geldt dat:

P (X ≤x )=P( X−µσ

≤ x−µσ )=P(Z≤ x−µ

σ ), waarbij Z~N(0,1). Dit heet het

standaardiseren van X. Door gebruik te maken van deze formule kunnen we voor elke normaalverdeelde variabele X~N(µ, σ²) de kansen P (X ≤x ) berekenen.

In R: Voor een standaardnormale variabele X, kunnen we rechtstreeks de kansen P(X≤ x):

pnorm(x). Kansdichtheid f x ( x ): dnorm(x) Voor een variabele X~N(1,4) kunnen we de kans P(X≤3) in R ook direct berekenen: pnorm(3,

mean = 1, sd = sqrt(4)). Via mean=1 duiden we aan dat het gemiddelde van de normale verdeling µ=1 is en via sd=sqrt(4) duiden we aan dat de standaarddeviatie σ=√4=2 is. De standaarddeviatie moet worden ingegeven en de notatie N(1,4) staat voor een normale verdeling met gemiddelde µ=1 en variantie σ²=4. De kans P(X≤3) kan ook worden bekomen via de laatste formule:

o > z <- (3-1)/sqrt(4)o > pnorm(z)

X~N(0,1) lees je als X heeft normale verdeling met gemiddelde 0 en variantie 1, dus standaardnormale verdeling.

Laat X1 , X2 ,…, X konafhankelijke standaardnormale variabelen zijn (dus X1 N (0,1 ) , X2 N (0,1 ) ,…, X k N (0,1 ). De xk

2-verdeling (chikwadraat) is de verdeling van de variabele Y=X1

2+X22+…+X k

2. De X²-verdeling is bijgevolg de verdeling van de som van k gekwadrateerde standaardnormale variabelen.


k: het aantal vrijheidsgraden.E(Y)=kV(Y)=2kDit laat ons te intepreteren als het populatiegemiddelde. Voor de X k

2-verdeling is de variantie steeds gelijk aan twee maal het populatiegemiddelde. Een variabele Y die een X k

2-verdeling heeft, noteren we als Y~X k

2.In R:

De kansen P(Y ≤ y) voor een variabele Y~X k2: Pchisq(y, k)

Laat X~N(0,1) en Y~X k2 onafhankelijke variabelen zijn. De t k-verdeling is de verdeling van de variabele

T= X

√ 1k Y.

k: het aantal vrijheidsgraden.De dichtheidsfunctie van de t k-verdeling gelijkt op die van een normale verdeling, maar is niet volledig gelijk. Naarmate k toeneemt, gelijkt de t k-verdeling meer en meer op de dichtheid van een standaardnormale (als k naar oneindig convergeert valt ze exact samen met de standaardnormale).

Als T~t k dan geldt dat E(T)=0 en V(T)=k

k−2 , voor k>2.

In R: P(T≤t) bekomen voor een variabele T~t k: pt(t,k)

Hoofdstuk 6Reproduceerbaarheid van de onderzoeksresultaten: We verwachten gelijkaardige conclusies wanneer we het experiment opnieuw uitvoeren op basis van een nieuwe steekproef. Via de steekproevenverdeling kunnen we de reproduceerbaarheid inschatten zonder dat we het experiment opnieuw moeten uitvoeren.Aselecte steekproeftrekking: Op volledig willekeurige wijze worden n elementen geselecteerd uit de populatie. We veronderstellen dat deze n elementen onafhankelijk zijn van elkaar.De waarden van de variabelen voor één specifieke steekproef schrijven we met kleine letters. X i stelt de variabele X voor van object i in e steekproef zonder dat we deze steekproef effectief getrokken hebben, terwijl x i de waarde voorstelt van de variabele X bij object i voor een specifiek getrokken steekproef.P: Komt van probabilteit, dit komt omdat we een kansinterpretatie kunnen geven aan P(X=x i). Voordat we dit kunnen doen moet je eerst weten wat er wordt bedoeld met een kans.Frequentistische interpretatie van een kans: De kans op een gebeurtenis is dus gelijk aan de relatieve frequentie van de gebeurtenis indien we het experiment een oneindig aantal keer herhalen. In de praktijk kan dit niet een oneindig aantal keer, maar we kunnen dit wel benaderen. Als we een geldstuk een groot aantal keer opwerpen, zullen we in ongeveer 50% van de gevallen munt gegooid hebben. We schrijven de uitkomst van het opwerpen van een geldstuk symbolisch als Y. Dan

bekomen we: P (Y=munt )= limn→∞

f muntn

, waarbij f munt staat voor de absolute frequentie van ‘munt’

(het aantal keer dat we munt hebben bij n opwerpingen), zodat f muntn

de relatieve frequentie is.

Aangezien n naar oneindig gaat, geeft P(Y=munt) inderdaad de relatieve frequentie weer.Toevalsvariabele: Hiermee wordt een resultaat aangeduid van een toevallige trekking van een element uit de populatie.


Het steekproefgemiddelde is variabel: de waarde hangt af van de frequentieverdeling van de scores in de steekproef en verschillende steekproeven hebben verschillende frequentieverdelingen. Het steekproefgemiddelde is daarom een variabele. X stelt het steekproefgemiddelde voor van een steekproef in het algemeen. Zodra we een steekproef hebben getrokken en waarden x1, x2,…, xn van de variabele observeren, schrijven we het steekproefgemiddelde met een kleine letter x.Steekproefgrootheid/statistiek: Een bewerking toegepast op de variabelen X1 ,…, Xn. Het steekproefgemiddelde is een voorbeeld van een steekproefgrootheid.Steekproevenverdeling van het gemiddelde: De dichtheidsfunctie van het gemiddelde, ze geeft de verdeling weer in termen van een dichtheidsfunctie van het steekproefgemiddelde voor zeer veel steekproeven (theoretisch gezien oneindig). De steekproevenverdeling kan worden bekomen voor elke steekproefgrootheid. Let op: De frequentieverdeling geeft de verdeling van een variabele weer, terwijl de steekproevenverdeling de verdeling van een steekproefgrootheid weergeeft.Stelling:

11. De verwachtingswaarde van het steekproefgemiddelde X is gelijk aan het populatiegemiddelde van de variabele X: E (X )=µx. Voor één steekproef is het steekproefgemiddelde over het algemeen niet gelijk aan het populatiegemiddelde. Bij oneindig veel steekproeven garandeert stelling 11 dat het gemiddelde van deze steekproefgemiddelden exact gelijk zal zijn aan het populatiegemiddelde.

12. De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie van de

variabele gedeeld door de steekproefgrootte: V (X )=σ ²xn

. De variantie van het

steekproefgemiddelde is dus niet gelijk aan de populatievariantie van de variabele. De variantie van het steekproefgemiddelde zal altijd kleiner dan of gelijk zijn aan de populatievariantie van de variabele omdat n≥1. Naarmate we grotere steekproeven nemen om het gemiddelde te berekenen zal de variatie tussen de steekproefgemiddelden afnemen (de variantie wordt dus kleiner). Bij grotere steekproeven hebben we meer informatie over de populatie (omdat we meer elementen in de steekproef hebben) en zal het steekproefgemiddelde ‘dichter’ bij het populatiegemiddelde liggen en minder variëren. De variantie is dus kleiner.

13. Stel dat X1 ,…, Xnn onafhankelijke lukrake trekkingen zijn uit een populatie met een normale verdeling N (µx , σ

2x), dan zal X ook normaal verdeeld zijn:

X N (µx , σ2x /n). Dit geldt voor elke keuze van de steekproefgrootte n. Let op: De

normale verdeling gaat enkel op voor continue variabelen.14. Centrale limietstelling. Stel dat X1 ,…, Xnn onafhankelijke lukrake trekkingen zijn uit

een populatie met een gemiddelde µx en variantie σ 2x /n, dan wordt de verdeling van het steekproefgemiddelde X naarmate n groter wordt, steeds beter benaderd door de normale verdeling met gemiddelde µx en variantie σ 2x /n. Dus het steekproefgemiddelde is bij benadering altijd normaal verdeeld, zolang de steekproef maar groot genoeg is. Hoe groter de steekproef, hoe beter de verdeling van het steekproefgemiddelde zal lijken op een normaalverdeling.

Stelling 14 is veel breder toepasbaar dan stelling 13 omdat ze opgaat voor elke verdeling van X, niet noodzakelijk de normaalverdeling. Anderzijds gaat stelling 13 voor elke keuze van n, terwijl stelling 14 alleen maar opgaat voor een ‘grote’ n. Een vuistregel is dat wanneer n>30 de steekproef groot is.Het steekproefgemiddelde kan net als normaal verdeelde variabelen ook gestandaardiseerd worden:

P (X ≤x )=P(Z ≤x−µX

√ σ2xn ) , Z N (0,1). Indien X uit een normale verdeling komt geldt deze

eigenschap voor alle keuzes van n. Indien X niet uit een normale verdeling komt, geldt deze


eigenschap enkel maar voor grote n. Stelling 13 en 14 zijn samen met de voorgaande eigenschap van fundamenteel belang voor de statistiek omdat ze toelaten kansen te berekenen die weergeven wat er zou gebeuren indien we een experiment blijven herhalen.Voorbeeld: Een onderzoeker wenst te weten of het gemiddelde van de scores op deze 50 testen (x=¿5,92) ongewoon hoog of ongewoon laag is. Dit kan door de kans P (X ≤5,92 ) te berekenen. Indien deze kans zeer klein is weten we dat de gemiddelde score zeer laag is, indien deze kans zeer groot is weten we dat de gemiddelde score zeer groot is. Er zijn twee mogelijkheden om deze kans te berekenen:

De onderzoeker zal het experiment vele malen herhalen, en berekent vervolgens de proportie van gemiddelden dat kleiner dan of gelijk is aan 5,92.

De onderzoeker voert het experiment maar 1 keer uit en maakt gebruik van stelling 14 en eigenschap 6.2. We standaardiseren eerst het gemiddelde en vervolgens lezen we de kans af uit de tabel van de normaalverdeling. Deze kans is ook slecht een benadering omdat we beroep doen op de centrale limietstelling. Ze ligt echter dicht in de buurt van de kans bekomen door het experiment 1000 keer te herhalen. Deze aanpak laat ons toe een uitspraak te doen over wat er zou gebeuren indien we het experiment een oneindig aantal keer zouden herhalen, zonder dat we dit effectief moeten uitvoeren. Aanpak B heeft echter een nadeel, om de kans te kunnen berekenen moeten we µX en σ X invullen, terwijl deze populatieparameters voor vele studies typisch ongekend zijn. In het vervolg van de cursus zullen we methodes zien die deze tekortkoming omzeilen.

Steekproefvariantie: Een ander voorbeeld van een steekproefvariantie. Voor deze grootheid kunnen we ook de steekproevenverdeling bepalen. We gebruiken ook hier hoofdletters om te benadrukken dat de steekproefvariantie een variabele is: als we voor verschillende steekproeven de variantie berekenen, zal deze variëren. We gebruiken opnieuw twee formules voor de steekproefvariantie:

SD ²X=1n∑i=1

n

(X i−X ) ² en S ²X=1

n−1∑i=1n

(X i−X ) ². We kunnen voor deze steekrpoefgrootheden

kunnen we ook de verwachtingswaarde bepalen. Er geldt dat E (S2X )=n−1n

σ ²X

. De

verwachtingswaarde van de steekproefvariantie is SD ²X is dus niet gelijk aan de populatievariantie. Voor S2X is dit echter wel zo: E (S2X )=σ ²X. De verwachtingswaarde van de steekproefvariantie S2X is gelijk aan de populatievariantie. Als we zeer veel steekproeven trekken en telkens de steekproefvariantie berekenen via formule S2X, dan zal het gemiddelde van de varianties gelijk zijn aan de populatievariantie. Dit is een gunstige eigenschap en daarom zal men in de praktijk vaak de variantie bereken S2X in plaats van SD2

X .15. Stel dat X1 ,…, Xnn de onafhankelijke lukrake trekkingen zijn uit een populatie met

normale verdeling N (µX , σ2X ), dan geldt:

(n−1) S2Xσ2X

X ²n−1.

Hoofdstuk 7Een schatter voor populatieparameter θ, noteren we als θ̂, wat de steekproefgrootheid is. θ̂ is een goede schatter indien:

Ze zuiver is (de verwachtingswaarde van de schatter is gelijk aan de populatieparameter: E (θ̂ )=θ. De populatieparameter wordt niet systematisch te klein of te groot geschat.

De variantie van de schatter V (θ̂) wordt kleiner naarmate de steekproefgrootte toeneemt. Dus de schatter wordt nauwkeuriger wanneer de steekproef groter wordt.


Standaardfout: √V (θ̂), dit is de standaarddeviatie van de schatter. De schatter met de kleinste standaardfout is het efficiëntst.

Het steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde omdat aan beide voorwaarden van een goede schatter wordt voldoenSchatting: De waarde van de schatter op basis van één steekproef. X is de schatter en x is de schatting, die we bekomen op basis van één steekproef.De populatievariantie kan niet zuiver worden geschat door SD ²X, maar wel door S ²X omdat E (S2X )=σ ².Betrouwbaarheidsinterval: Stelt ons in staat om met een bepaalde zekerheid een uitspraak te doen over het populatiegemiddelde. Bij een schatting is het populatiegemiddeld altijd ongekend, omdat als ze wel gekend zou zijn er geen statistische methodes voor nodig zijn.

X-normaal verdeeld en gekende populatievariantiezα: De waarde van de standaardnormale verdeling, zodat de oppervlakte onder de curve rechts van de waarde gelijk is aan α. P(Z> zα)=α met Z ~ N(0,1).Voorbeeld: P(Z≤ z¿¿0,025)=1−0,025=0,975 ¿. In de tabel N(0,1) kan je vinden dat P(Z ≤ 1,64) = 0,9495 en P(Z ≤ 1,65)=0,9505. We pakken dan het gemiddelde tussen die twee waarden en komen

dan uit op z0,05=1,64+1,65

2=1,645.

P(−z α2

≤Z ≤ z α2 )=1−α . Deze formule is geldig voor elke standaardnormaal verdeelde variabele Z

en vormt de basis voor een betrouwbaarheidsinterval.

Voorbeeld: α=0,05. z 0,052

=¿ z0,025 = 1,96. De oppervlakte onder de kromme tussen de grenzen -1,96

en 1,96 is gelijk aan 1-α = 1-0,05=0,05. De kans dat een variabele een waarde aanneemt tussen -1,96 en 1,96 ligt is 95%.

Indien we het steekproefgemiddelde standaardiseren volgt dat: Z=X−µσ /√n

~N(0,1).

P(X−z¿¿α2

σ√n

≤µ≤ X+z α2

σ√n

)¿ = 1-α. Dit is een zeer belangrijke formule en wordt

geïnterpreteerd als de kans dat het populatiegemiddelde in het interval

[X−z¿¿α2

σ√n

, X+z α2

σ√n

]¿ valt is gelijk aan 1-α. Dit interval wordt het 100%

betrouwbaarheidsinterval (BI) genoemd.

Voorbeeld: α=0,05. zα = 1,96. Het BI wordt dan [X−1,96 σ√n

, X+1,96 σ√n

]. De kans dat µ in het

interval ligt is gelijk aan 95%. Er bestaat dus een kans dat onze conclusie fout is. Het steekproefgemiddelde ligt bij constructie van een BI altijd exact in het midden van het interval. Verschillende steekproeven zullen verschillende gemiddelden hebben, wat resulteert in verschillende betrouwbaarheidsintervallen. De grenzen zullen verschillen per steekproef. De breedte van een interval [a,b] is gelijk aan b-a. De breedte van een betrouwbaarheidsinterval is

X+z α2

σ√n

−X−z α2

σ√n

=2⋅ z α2

σ√n . De breedte hangt af van n, de waarde z α

2 en de

populatiestandaarddeviatie σ. De standaarddeviatie σ is een populatieparameter en kunnen we niet wijzigen. Een smaller betrouwbaarheidsinterval impliceert dat we een nauwkeurigere uitspraak kunnen doen over het populatiegemiddelde. Als n toeneemt, verkrijgen we meer informatie over de populatie wat zal resulteren in een nauwkeurigere uitspraak over het populatiegemiddelde. Als α


toeneemt zal de breedte van het interval afnemen. Als zα verder naar links opschuift, zal de oppervlakte rechts toenemen. Als α afneemt zal de breedte van het interval toenemen, omdat 1-α afneemt en daardoor zal de kans dat het interval het populatiegemiddelde bevat afnemen. Hoe smaller de intervallen, hoe kleiner de kans dat ze de populatieparameter zullen bevatten.

X normaal verdeeld en ongekende populatievariantieDe populatievariantie kan worden geschat door de steekproefvariantie S2X. Echter kunnen we σ niet zomaar vervangen door SX , omdat SX een variabele is terwijl σ een constante is. Door twee gekende eigenschappen te combineren kunnen we een nieuw betrouwbaarheidsinterval opstellen:

Als X normaal verdeeld is dan volgt uit stelling 15 dat (n−1 )S2X

σ2X ²n−1

Als X normaal verdeeld is dan volgt X−µσ /√n

N (0,1).

Door deze eigenschappen te combineren en te vereenvoudigen tonen we aan dat X−µS X/√n

t n−1. Dus

wanneer σ vervangen door SX dan wijzigt de standaardnormale verdeling naar een t n−1-verdeling. t n−1; α /2 geeft de waarde van de t n−1-verdeling zodat de oppervlakte rechts gelijk is aan α/2. Dus

P(T> tn−1 ; α2 )=

α2, T t n−1. We kunnen aantonen dat P(X−t

n−1; α2≤µ≤ X+t

n−1; α2), waardoor het

(1-α)100%-betrouwbaarheidsinterval gelijk is aan [X−tn−1 ; α2

S X

√n, X+t

n−1 ; α2

S X

√n]. Indien we de

steekproefstandaarddeviatie gebruiken in plaats van de populatiestandaarddeviatie, moeten we de t n−1-verdeling gebruiken. De dichtheidsfunctie van een standaardnormale verdeling en een t-verdeling lijken op elkaar, maar er zijn toch enkele verschillen:

Det n−1-verdeling heeft een grotere variantie dan de standaardnormale verdeling.

De t n−1; α2-waarde van een t n−1-verdeling is groter dan de zα /2-waarde van een

standaardnormale verdeling: t n−1; α2

>zα /2.

Deze eigenschappen impliceren dat het betrouwbaarheidsinterval in het geval van een ongekende populatievariantie en een normale X-verdeling breder is dan het betrouwbaarheidsinterval in het geval van een gekende populatievariantie en een normale X-verdeling. Dit komt doordat we de populatiestandaarddeviatie moeten schatten wat zal resulteren in extra variabiliteit. Echter, naarmate n groter wordt zal de t n−1-verdeling steedsd beter de standaardnormale verdeling benaderen.

X niet normaal verdeeld en ongekende populatievariantieAls X niet normaal is verdeeld kunnen we voor een grote steekproef beroep doen op de centrale

limietstelling. Deze garandeert dat het interval [X−tn−1 ; α2

S X

√n, X+t

n−1 ; α2

S X

√n] bij benadering een (1-

α) betrouwbaarheidsinterval is voor het populatiegemiddelde µ.

De t-toets is een statistische toets.Nulhypothese: H 0.Alternatieve hypothese: H a.Ofwel H 0 is correct, ofwel H a. H 0 :µ=µ0 en H a :µ≠µ0, waar µ0 een gegeven waarde is. De alternatieve hypothese.


De tweezijdig alternatieve hypothese: H a :µ≠µ0.De eenzijdige alternatieve hypotheses: H a :µ>µ0 en H a :µ<µ0. Bij een statistische toets proberen we H 0 te verwerpen. Het bewijs tegen H 0 zullen we samenvatten door middel van een toetsingsgrootheid.

Toetsingsgrootheid =X−µ0S X/√n

=G, welke een t n−1-verdeling volgt op voorwaarde dat H0 correct is. De

toetsingsgrootheid is een steekproefgrootheid. De waarde van G die we bekomen op basis van één steekproef noteren we als g. De volgende conclusies kunnen worden getrokken:

Als H 0 waar is, verwachten we dat G warden aan zal nemen rond 0. Als H 0 niet waar is, verwachten we dat G waarden zal aannemen die sterk verschillen van 0. Als g rond 0 ligt, aanvaarden we H0. Als g sterk verschilt van 0, verwerpen we H 0.

Wanneer verschilt g sterk van 0? Dit wordt beslist met de volgende beslissingsregels:

Als −tn−1; α

2

≤g≤ tn−1; α

2 aanvaarden we H 0.

Als g← tn−1; α

2 of g>t n−1 ; α

2 verwerpen we H 0.

Kritische waarden van de toets: De waarden −tn−1; α

2 en t n−1; α

2. Het

gebied tussen deze waarden heet het aanvaardingsgebied. Het gebied buiten deze waarden heet het kritisch gebied. Door middel van een statistische toets hebben we op basis van de steekproef een besluit geformuleerd over de populatie.

De kans om een type I fout te maken noteren we als P(verwerp H 0|µ=µ0. Dit is de kans om H 0 te verwerpen terwijl in werkelijkheid µ=µ0.Deze kans is gelijk aan α. Als µ=µ0 en we herhalen het experiment vele malen op basis van nieuwe steekproeven. De proportie van steekproeven waarvoor we H 0 verwerpen (en we een fout maken in dit geval) is gelijk aan α.Significantieniveau: α.Betrouwbaarheid: De kans dat we een correcte conclusie bekomen indien µ=µ0: P(aanvaard H 0∨¿µ=µ0) = 1-α. De kans op een type 1 fout is exact gelijk aan α als X uit een normale verdeling komt. Indien X niet uit een normale verdeling komt garandeert de centrale limietstelling dat de kans op een type I fout bij benadering gelijk is aan α, indien de steekproef groot is. Indien X niet uit een normale verdeling komt en de steekproef klein is, kan de kans op een type I fout sterk verschillen van α en zullen we de toets niet gebruiken.

De kans om een type II fout te maken noteren we als P(aanvaard H 0| µ≠µ0 = ß. Dit is de kans om H 0 te aanvaarden terwijl in werkelijkheid µ≠µ0. Deze hangt af van de volgende factoren:

Het significantieniveau α: ß stijgt als α daalt. De steekproefgrootte n: ß daalt als n stijgt.


Onderscheidingskans/power: De kans dat we een correcte conclusie formuleren terwijl in werkelijkheid µ=µ0. Deze is gelijk aan 1-ß.

De kans op een type I fout is gelijk aan α, vaak 5%. We zetten deze niet lager omdat de kans op een type I fout dan wel lager wordt, maar dit zal resulteren in een verhoogde kans op een type II fout. De kans op een type II fout kan men inschatten via een poweranalyse, en als deze te groot is kan men ervoor kiezen om een grotere steekproef te nemen.

Als µ0 in het betrouwbaarheidsinterval ligt, aanvaarden we H 0. Als µ0 niet in het betrouwbaarheidsinterval ligt, verwerpen we H 0.

Alsµ0 niet in het betrouwbaarheidsinterval ligt, dan zijn we 95% zeker dat µ≠µ0. Er is een 5% kans dat we foutief zeggen dat µ≠µ0, dus dat er een type I fout wordt gemaakt. In dat geval wordt H 0 verworpen op het 5% significantieniveau.In R:

t.test (mu= *getalµ0∗¿ df: vrijheidsgraden van de t n−1-verdeling. t: geeft toetsingsgrootheid g qt(): De oppervlakte links, dus de kansen van de vorm P(T≤t) lower.tail = FALSE: De oppervlakte rechts (in de vorm qt(0.025, 29, lower.tail = FALSE)).

De waarde t moet worden vergeleken met de kritische waarde t n−1; α2, welke staat voor de

oppervlakte rechts van α2 .

VPPK — Vlaamse Psychologische en Pedagogische …€¦ · Web viewEen lineaire functie is een...

Documents

Transcript of VPPK — Vlaamse Psychologische en Pedagogische …€¦ · Web viewEen lineaire functie is een...