Instructie Qsuite | Hoe kan ik een klantdossier aanmaken en toewijzen?
wiki.foso.be · Web viewexperiment uitvoeren en aan elke uitkomst een getal toewijzen...
Transcript of wiki.foso.be · Web viewexperiment uitvoeren en aan elke uitkomst een getal toewijzen...
Samenvatting statistiek: theorie
Hoofdstuk 1: doel van de statistiek
1.1 Inleiding
statistiek:
- data verzamelen adhv survey of experiment
- data analyseren
beschrijvende statistiek: ruwe, beschikbare data samenvattend weergeven
inferentiële/inductieve statistiek: voorspellen obv de data
bv. de data van een steekproef doortrekken naar de hele populatie
1.2 Verzamelen van gegevens
onderzoeksvragen: bij wie of wat verzamel je welke gegevens?
onderzoekseenheden: onderdelen van de realiteit waarop het onderzoek betrekking
heeft en waarbij de kenmerken worden gemeten
(personen, voorwerpen, gebeurtenissen, collectiviteiten)
populatie: verzameling van alle onderzoekselementen
definiëren van kenmerken van de eenheden en afbakening in tijd en ruimte
steekproef: deelverzameling van elementen uit de populatie
selectie: elk element een gelijke/berekenbare kans toevalsselectie
representativiteit
buiten enkele toevalsfouten gelijk aan de populatie
soms gegevens in datamatrix: een rij zijn alle waarden gemeten voor 1 eenheid
een kolom zijn alle waarden gemeten voor 1 kenmerk
dus x ij heeft i als rij en j als kolom
1.3 Classificatie van gegevens
meten van een kenmerk: resultaat = verschillende waarden
elementen variëren tov een kenmerk variabele
1
1.3.1 Kwalitatieve en kwantitatieve gegevens: verschillende meetniveaus
a) nominale meetniveau
laagste meetniveau
meten = classificeren van elementen in bepaalde categorie
uitkomstenverzameling is eindig en elk elementen past slechts in 1 categorie
A is ofwel gelijk ofwel niet gelijk aan B, dus niet in termen van ‘meer gelijk’ of ‘minder gelijk’
codes zijn willekeurig symbool
bv. regio meten, geslacht, nationaliteit
b) ordinaal meetniveau
= ordening
elementen kunnen geordend worden (lager – hoger, meer – minder)
codes obv ordening
verschillen tussen categorieën zijn geen bepaalde hoeveelheid
bv. opleidingsniveau, opinie peilen, beoordeling van kwaliteit
nominaal en ordinaal kwalitatief
c) metrisch of kwantitatief meetniveau
hoogste meetniveau
numerieke betekenis
codes hangen vast aan een betekenis, dus niet willekeurig
verschil tussen waarden zijn wel een bepaalde hoeveelheid
wiskundige bewerkingen mogelijk
soms waarden groeperen in categorieën
bv. inkomen, lengte
1.3.2 Discrete en continue gegevens
a) discrete gegevens
er is géén derde waarde tussen 2 opeenvolgende waarden
2
uitkomstenverzameling is eindig of aftelbaar oneindig
bv. aantal kinderen
b) continue gegevens
tussen 2 opeenvolgende waarden is er altijd een tussenliggende waarde
aantal elementen in uitkomstenverzameling is oneindig
bv. tijd
Algemeen:
1.4 Van steekproef naar populatie
gemiddelde van de steekproef is benadering van het gemiddelde van de populatie
dus het resultaat is onzeker, daarom veronderstelling maken (zie hypothesetesten)
andere steekproef: ander resultaat
3
Hoofdstuk 2: Beschrijvende statistiek
doel = op een overzichtelijke manier de steekproefgegevens synthetisch weergeven
2.1 Absolute en relatieve frequentie
centraal: hoeveel keer komt een uitkomst voor en hoe zijn de eenheden verdeeld over de
uitkomsten?
2.1.1 Staafdiagram voor een kwalitatieve variabele
x i = een meting
m j = een bepaalde uitkomstn j = absolute frequentie
voorbeeld: in een steekproef van 200 mensen zijn er 30 19-jarigen
n=200 m j = 19 n j=30
relatieve frequentie: f j , n=n jn
wanneer alle frequenties op dezelfde schaal worden uitgedrukt
in het voorbeeld: f j , n=30
200
wanneer de relatieve frequentie op een schaal van 1 wordt uitgedrukt: proportie
som van de proporties = 1
proportie x 100 = percentage
frequentietabel: frequenties van alle mogelijke uitkomsten
grafische voorstelling:
o staafdiagram
horizontale as met mogelijke uitkomsten
losse staven met als hoogte de absolute of relatieve frequentie
o taartdiagram
per uitkomst is er een segment in de taart: f j , n x 360
4
2.1.2 Histogram voor een kwantitatieve variabele
wanneer er groot aantal mogelijke uitkomsten zijn
daarom gegevens groeperen in aangrenzende klassen
klassenbreedte = Δ met bovengrens en ondergrens en met klassenmidden
nieuwe uitkomstenverzameling:
grafische voorstelling: histogram
itt. staafdiagram zijn de staven hier wel continu
basis van de balk = klassenbreedte
hoogte van de balk = absolute of relatieve frequentie
probleem: soms heeft een klasse geen frequentie en dus geen balk, we kunnen dan sommige
klassen samennemen oplossing: y-as herschalen
frequentiedichtheid:
voorbeeld:
in (a): we zien dat sommige klassen geen frequentie hebben
in (b): klassen zijn samengenomen maar y-as klopt niet
5
oplossing:
y-as klopt door frequentiedichtheid
nu is niet meer de hoogte van de balken, maar wel de oppervlakte de uitdrukking van de
relatieve frequentie
2.2 Vormen van verdelingen
1) symmetrische verdeling
kunnen spiegelen om het midden
(d): speciale vorm uniforme verdeling
2) normale verdeling
symmetrisch maar sowieso klokvormig patroon als n groot is en Δ klein
neemt langs beide kanten van de top af met stapjes (zie (a) hierboven)
2.2.1 Andere verdelingsvormen
scheve verdeling
links scheef: linkse staart (dus weinig waarden aan de linkerkant)
rechts scheef: rechtse staart
6
bimodale verdeling
twee toppen
uitschieters
metingen die te groot of te klein zijn en dus niet aansluiten bij de rest van de metingen
2.3 Cumulatieve frequenties en kwantielen
2.3.1 Cumulatieve verdelingsfrequentie
= F
= de cumulatieve relatieve frequentie van de uitkomsten kleiner dan of gelijk aan x
(weten waar ergens in de verdeling een onderzoekseenheid zit)
verdelingsfunctie in een waarde x is het relatief aantal metingen die niet groter zijn dan x,
dus kleiner of gelijk aan zijn
stijgt stapsgewijs in intervallen
2.3.2 Kwantielfunctie
= Q( p)
omgekeerde van verdelingsfunctie (we hebben x en we zoeken de proportie)
gegeven een bepaalde proportie:
het pde percentiel bepalen: de waarde waaronder p-procent van de eenheden valt
7
SPECIALE KWANTIELEN
Qn (0,25 ) is het eerste kwartiel
Qn(0,50) is het tweede kwartiel of de mediaan
Qn(0,75) is het derde kwartiel
2.4 Centrumkenmerken
maten die verwijzen naar het midden van een verdeling
2.4.1 Steekproefgemiddelde
notatie: x
- voor metrische kenmerken:
- voor discrete gegevens:
bij gegroepeerde gegevens vertegenwoordigen de klassenmiddens de klassen
gevoelig voor uitschieters
2.4.2 Mediaan
robuuster dan gemiddelde
mediaan = middelste eenheid wanneer eenheden geordend staan
enkel bij metrisch of ordinaal niveau
gemiddelde dicht bij mediaan: vrij symmetrische verdeling
gemiddelde > mediaan: rechts scheef want gemiddelde schuift op richting staart
gemiddelde < mediaan: links scheef
8
2.4.3 Getrimd gemiddelde
om impact van de uitschieters tegen te gaan: vast percentage van de kleinste en de
grootste gegevens weglaten
2.4.4 Modus
= de waarde met de hoogste frequentie
kan voor alle meetniveaus
2.5 Spreidingskenmerken
hoever liggen de waarden van het centrum?
2.5.1 Bereik
= afstand tussen kleinste en grootste waarneming
wel heel gevoelig voor uitschieters
2.5.2 Standaardafwijking en variantie
afstand tussen de meting en het gemiddelde bepalen en vervolgens het gemiddelde van die
afstanden bepalen
de gemiddelde afstand tot het gemiddelde
- standaardafwijking
- variantie
bij discrete of gegroepeerde gegevens:
9
gebruiken in betrouwbaarheidsintervallen (zie later):
68% van de gegevens
95% van de gegevens
z-score: het aantal standaarddeviaties dat een waarde afwijkt van het gemiddelde
als z is positief waarde ligt boven het gemiddelde
als z is negatief waarde ligt onder het gemiddelde
is dus omgezet [−1 ;1 ]
2.5.3 Interkwartielafstand of IQR
= middenste 50% van de eenheden
verhouding tussen s en IQR: IQR is vaak groter
bij een normale verdeling: IQR/s ~1,34 constant
2.5.4 Median Absolute Deviation (MAD)
= de mediaan van de afstand van elke observatie tot de mediaan
bij een symmetrische verdeling is IQR ~ 2 MAD
daardoor is bij een normale verdeling MAD/s ~ 0,67
minder gevoelig dan uitschieters dan de IQR
2.5.5 Extra: spreiding bij nominale variabelen
10
IKV (index kwalitatieve variatie)
IKV = gerealiseerd aantal verschillen
maximaalaantalmogelijke verschillen
minimale spreiding: alle observaties zijn gelijk
maximale spreiding: het maximaal mogelijk verschillen tussen de observaties
hoe dichter IKV bij 1 is, hoe meer spreiding, hoe dichter bij 0, hoe minder spreiding
Teller: aantal geobserveerde verschillen
eerst 20 (Antwerpen) x 40 (de rest)
dan 30 (Vlaams-Brabant) x 10 (de rest aka Limburg)
dus: 20 x (40) + 30 (10) = 1100
Noemer: maximaal mogelijke verschillen
met k = aantal categorieën
dus N = 3×22×( 60
3)
2
=3×202=3×400=1200
dus IKV = 11001200
=0,92
2.6 Boxplot (Mia loves the boxplot)
11
geeft overzicht van de belangrijkste grenspunten van een verdeling
info over:
- centrum: mediaan & soms gemiddelde
- spreiding: IQR
- scheefheid: ligging van de mediaan in de box
als mediaan in onderste helft ligt rechts scheef (+ wanneer bovenste whisker
langer is dan onderste)
als mediaan in bovenste helft ligt links scheef
- zwaarte van de staarten: veel of weinig uitschieters
z-scores gebruiken om uitschieters te zoeken
als meting een z-score buiten [ -3 ; 3 ] heeft ongewone meting bij normale verdeling
MAAR uitschieters laten gemiddelde opschuiven en standaardafwijking toenemen dus z-
scores verkleinen
daarom robuuster alternatief:
12
2.7 Transformaties
2.7.1 Lineaire transformaties
y = a + bX
met a is snijpunt met y-as en b is richtingscoëfficiënt
bv. omzetten van Celcius naar Fahrenheit
x i verschuiven over de afstand a en herschalen met factor b
effect op centrum- en spreidingsmaten:
- gemiddelde van x i wordt: a+b . x=g (x)
transformatie wordt uitgevoerd op oorspronkelijke gemiddelde
- mediaan wordt g(med)
middelste eenheid blijft dus middelste eenheid
- standaarddeviatie: onderlinge afstand neemt toe met de factor maar de verschuiving
heeft geen effect
- lineaire transformatie op z-score
dus z wordt 0 en s2 wordt 1
2.8 Verbanden tussen variabelen
er is samenhang tussen 2 variabelen wanneer een categorie van de ene variabele meer dan
toevallig optreedt met een bepaalde waarde van de andere variabele
2.8.1 Twee kwalitatieve variabelen
13
kruistabel opstellen van 2 nominale variabelen
een cel: combinatie van een categorie van de ene variabele met een categorie van de andere
variabele (met bepaalde celfrequentie)
marginale verdeling: categorieën van een kenmerk sommeren tot rijtotalen en kolomtotalen
in kruistabel: beter werken met relatieve frequenties
horizontaal berekenen (rijpercentage) verticaal vergelijken
verticaal berekenen (kolompercentage) horizontaal vergelijken
sterkte van de samenhang uitdrukken dmv verschil in rij- of kolompercentage
dus man binge: 50% en vrouw binge: 30%
20 procentpunten verschil tussen man en vrouw binge
14
2.8.2 Een kwantitatieve en een kwalitatieve variabele
zelfde techniek
MAAR moeilijk bij meerdere groepen
oplossing: boxplot om zo meerdere groepen in een variabele te vergelijken
2.8.3 Twee kwantitatieve variabelen
kwantitatieve variabelen opdelen in klassen
kruistabel: frequentie bepalen van elke combinatie van klassen
histogram in drie dimensies: bivariaat histogram
grondvlak zijn de cellen van in een kruistabel en de hoogte is de relatieve
frequentie
2.8.4 Covariantie en correlatiecoëfficiënt (Pearson)
puntenwolk of spreidingsdiagram
x-as is de waarde van de ene variabele, y-as is de waarde van de andere variabele
o richting van de samenhang
15
positief: hoge x, hoge y of lage x, lage y puntenwolk stijgt naar rechts
negatief: hoge x, lage y en omgekeerd puntenwolk daalt
o sterkte van de samenhang
zwak: geen patroon in puntenwolk
sterk: duidelijk lineair patroon
maten om richting en sterkte van de samenhang tussen kwantitatieve variabelen te meten:
covariantie en correlatie
4 segmenten in puntenwolk
2
1
3 4
positieve samenhang: meer observaties in 1ste en 3de kwadrant
negatieve samenhang: meer observaties in 2de en 4de kwadrant
adhv deviatiescore:
som van het product van de deviatiescores drukt het patroon van negatieve of positieve
samenhang uit
16
de steekproefcovariantie:
drukt uit in welke mate twee kwantitatieve kenmerken gezamenlijk variëren
eigenschappen van de steekproefcovariantie:
- symmetrische maat van samenhang: x y en y x
- covariantie van x met x is de variantie van x:
- teken van de covariantie: positief betekent positieve samenhang, negatief betekent
negatieve samenhang
- absolute waarden weinig informatief, daarom metingen eerst transformeren
oplossing voor interpretatieprobleem (dat we sterkte niet kunnen meten)
covariantie herschalen
Pearsons correlatiecoëfficiënt:
eigenschappen van correlatiecoëfficiënt:
- ligt in interval [ -1 ; 1 ]
- positieve waarden = positieve samenhang (idem bij negatief)
- hoe dichter bij -1 of bij 1, hoe sterker de lineaire samenhang
perfect lineair positief: r = 1, perfect lineair negatief: r = -1, geen lineaire
samenhang: r = 0
- symmetrische samenhang:
- correlatie tussen lineair getransformeerde variabelen = de oorspronkelijke variabele
dus die variëren in dezelfde mate
- stel r 0: er kan nog steeds samenhang zijn, maar dan niet lineair (bijvoorbeeld in u-
curve)
17
2.8.5 Spearman correlatiecoëfficiënt
robuuster alternatief op Pearson (want die werkt met gemiddeldes en met standaardafw)
metingen van X en Y vervangen door hun rangnummers
als volgt: beide variabelen ordenen en de kleinste meting krijgt rang 1
bij ordinale variabelen
eigenschappen Spearman correlatiecoëffeciënt:
- waarden liggen in [ -1 ; 1 ]
- impact van uitschieters is kleiner
- berekent de mate waarin twee variabelen een stijgende curve tonen wanneer ze
worden uitgezet in een puntenwolk (dus geen lineaire stijging)
- Als r dicht bij 1 of -1 ligt zal r s ook groot of klein zijn, het omgekeerde is echter niet noodzakelijk
2.9 Lineaire regressie
de rechte van een puntenwolk bepalen dus a en b
2.9.1 Kleinste kwadratenmethode
y = a +bx
met x = verklarende of onafhankelijke variabele
y = afhankelijke variabele
b = richtingscoëfficiënt
a = intercept (waarde van y als x = 0)
naarmate r afwijkt van 1 of -1 krijgen we meer spreiding rond de rechte
best passende rechte zoeken
residu: de afwijking van elk punt tot de rechte (verticaal verschil)
best passende rechte is rechte met kleinste residu’s
punten boven de recht: positief residu, punten onder de recht: negatief residu
rechte bepalen door kleinste kwadraten methode
18
rechte waarvoor de som van de gekwadrateerde residu’s geminimaliseerd is
uitwerking van die formule:
rechte:
geschatte waarde voor a en b:
OPM:
- als steekproefcovariantie = 0 b = 0 (want dat is de teller van b)
gevolg: horizontale rechte + voorspelde waarde is steeds y
- het punt (x , y ) ligt steeds op de rechte
- som én gemiddelde van de residu’s = 0
- variantie van de residu’s:
2.9.2 De determinatiecoëfficiënt
hoe goed past die best passende rechte?
determinatiecoëfficiënt: proportie van de variantie in y die wordt verklaard obv de
regressievergelijking
verschillen tussen geobserveerde yi en het gemiddelde van y opdelen in 2 onderdelen:
het verschil tussen de geschatte waarde van yi en het gemiddelde van y, en de
geobserveerde yi en de geschatte waarde van yi (= de fout)
19
wat betekent dat?
als x en y geen samenhang: y= y
als x en y wel samenhang: y= yi
totale kwadraatsom:
SST = SSM + SSE
totale kwadraatsom = kwadraatsom met mode van de rechte + kwadraatsom van de fout
als SSM groot is: punten liggen dicht bij regressierechte
de determinatiecoëfficiënt:
2.10 Lineaire combinaties
nieuwe variabele: V
lineaire combinatie van X en Y
gemiddelde: v=a+bx+c y
20
variantie: sv2=¿
Hoofdstuk 3: kansen en toevalsvariabelen
= inductieve statistiek: op basis van informatie uit de steekproef uitspraken doen over de
populatie
altijd met bepaalde onzekerheid
3.1 Kansen en kansregels
speciale vormen van gebeurtenissen:
- complementaire gebeurtenis: ene gebeurtenis behoort NIET tot andere gebeurtenis
AC is complement van gebeurtenis A
P(A) + P¿) = 1
voorbeeld:
vraag: kans op een steekproef in een jury van 12 personen zonder vrouwen?
antwoord: 12 mannen 212 = 4096
dus kans is 1
4096 = 0,00024
2de vraag: kans op jury met minstens 1 vrouw?
antwoord: P(minstens 1 vrouw) = 1 – P(geen vrouw) = 1−1
4096 = 0,99976
- disjuncte gebeurtenissen
twee gebeurtenissen A en B zijn disjuct als ze geen uitkomsten gemeenschappelijk hebben
21
bv. quiz: ofwel is antwoord correct ofwel incorrect
- doorsnede van gebeurtenissen
uitkomsten horen tot een gebeurtenis EN tot een andere gebeurtenis
(A B)= A en B
- unie van gebeurtenissen
uitkomsten horen tot een gebeurtenis OF een andere gebeurtenis
A B = A of B
P(A of B) = P(A) + P(B) – P(A en B) want anders wordt Unie 2 keer geteld
voorbeeld: gezin met 2 kinderen
steekproefruimte voor geslacht van kinderen: {(V,V);(V,M);(M,V);(M,M)}
22
A = eerste kind is een meisje
P{(V,V); (VM)} = 0.5
B = tweede kind is een meisje
P{(V,V); (M,V)} = 0.5
P(A B) = P{(V,V)} = 0.25
P(A B) = eerste of tweede kind is een meisje = minstens 1 meisje
P(A B)= P(A) +P(B) – P(A en B)= 0.5 + 0.5 - 0.25 = 0.75
3.2 Voorwaardelijke kansen
een kans kan veranderen wanneer relevantie informatie verandert
uitkomsten die conform een conditie zijn
3.2.1 Onafhankelijkheid van gebeurtenissen
onafhankelijk wanneer de kans op het voorkomen van A niet beïnvloed wordt door het
optreden van B en omgekeerd
Algemeen: P(A|B)
met
bij onafhankelijke gebeurtenissen:
dan blijft P(A|B) = P(A) want geen overlap
23
voorbeeld: kans dat minstens 2 leerlingen op dezelfde dag jarig zijn in klas van 25
P(minstens 2 leerlingen) = 1 – P(allemaal verschillend)
onafhankelijke kans want kans op elke dag blijft gelijk
stel: klas van 2 P(allemaal verschillend) = 364365
stel: klas van 3 P(allemaal verschillend) = P(student 1 en 2 verschillend) x P(student 3
verschillend | student 1 en 2 verschillend)
364365× 363
365
klas van 25 P(minstens 2 leerlingen) = 1 - (364365× 363
365×…× 341
365)= 1 – 0,43 = 0,57
OPM: disjuncte gebeurtenissen zijn ook afhankelijk want A en B hebben geen
gemeenschappelijke gebeurtenissen, waardoor A niet kan optreden wanneer B optreedt,
dus op dat vlak beïnvloeden ze elkaar wel
Regel van Bayes:
3.3 Toevalsvariabele
experiment uitvoeren en aan elke uitkomst een getal toewijzen
toevalsvariabele = X
= einde 1ste semester
24
Statistiek 2de semester
het beheersen van de onnauwkeurigheid van onderzoek
Hoofdstuk 3: kansen en toevalsvariabelen
3.3 Toevalsvariabelen
toevalsexperiment: resultaat op voorhand niet gekend
bv. muntstuk opgooien, politieke voorkeur peilen
toevalsvariabele: varieert van persoon tot persoon
notatie: X / Y / Z voor de variabele zelf; x / y / z voor de waarden van de variabele
P(X≤ x)
3.4 Dichtheidsfunctie
= de kans op elke uitkomst
1) dichtheid van discrete toevalsvariabelen
waarden zijn duidelijk gescheiden
dichtheidsfuntcie van discrete toevalsvariabelen:
f (m j )=P (X=m j ) voor j=1 ,2 ,…,k
de frequentie bepaalt veel: f j , n=n jnvoor uitkomst m j
hoe groter de steekproef, hoe dichter f j , n bij de echte kans ligt
OPM:
- som van alle dichtheden = 1
- alle kansen zijn positief
- uniforme dichtheid: elke uitkomst heeft dezelfde kans om te gebeuren
2) dichtheid van continue toevalsvariabelen
oneindig, continu aantal mogelijke waarden
de kans op een specifieke uitkomst = 0
daarom: gegevens in klassen brengen en histogram maken
dichtheidsfunctie f (x) van een continue toevalsvariabele X is gedefinieerd door een curve
25
de kans dat X waarden aanneemt in een bepaald interval wordt gegeven door de
oppervlakte onder de curve
som van alle uitkomsten = 1
de dichtheid om kans van continue toevalsvariabele X uit te rekenen integraal
(integralen geen leerstof voor ons)
bij continue toevalsvariabelen: P (X=x )=0en P ( X≤ x )=P(X< x)
verschillende vormen van een continue toevalsvariabele:
3.5 Verdelings- en kwantielfunctie
in een steekproef: verdelingsfunctie in een waarde x is het relatief aantal metingen die niet
groter zijn dan x
26
in een populatie: de kans dat een toevalsvariabele een waarde aanneemt die niet groter is
dan x
DISCRETE VARIABELE
verdelingsfuntcie:
als we de dichtheid kennen, kennen we ook de verdeling
kwantielfunctie: de kleinste x waarvoor F(x) groter dan of gelijk is aan p
bv. om te weten waar je loon ergens zit: bij de lage lonen, in het midden …
kwantielen zijn net omgekeerde dan verdelingsfunctie
CONTINUE VARIABELE
opnieuw: verdelingsfunctie is de kans dat een toevalsvariabele een waarde aanneemt die
kleiner of gelijk is aan een gegeven getal x
hier is dat dus integraal want continue variabele
3.6 Centrum- en spreidingskenmerken
in steekproef gemiddelde: xn en standaardafwijking: sn
in populatie gemiddelde: μ en standaardafwijking: σ
hoe groter de steekproef, hoe dichter het gemiddelde van de steekproef het gemiddelde van
de populatie zal benaderen
27
CENTRUM
verwachtingswaarde
in discrete variabele:
in continue variabele:
mediaan en kwantielen
zie eerste deel:
Qn (0,25 ) is het eerste kwartiel of het 25%-kwantiel
Qn(0,50) is het tweede kwartiel of de mediaan
Qn(0,75) is het derde kwartiel
modus
= de waarde waarvoor de dichtheid maximaal is hoogste frequentie
SPREIDINGSKENMERKEN
standaarddeviatie en variantie
= de maat voor de spreiding van de uitkomsten
28
de gemiddelde afwijking van de mogelijke uitkomsten van de variabele ten opzichte van
het gemiddelde
Variantie voor steekproef:
! voor discrete toevalsvariabele:
interkwartielafstand (IQR)
Q3 − Q1
3.7 Transformaties
3.7.2 Lineaire transformaties
zie eerste deel
met een toevalsvariabele:
specifiek geval: z-score is ook lineaire transformatie
gemiddelde = 0 en variantie = 1
29
3.8 Covariantie, correlatie en onafhankelijkheid van twee variabelen
maat voor de samenhang tussen 2 kwantitatieve toevalsvariabelen (X en Y)
steekproefcovariantie:
Pearson correlatiecoëfficiënt:
als X en Y onafhankelijk zijn: Cov (X ,Y )=0 en ρ (X ,Y )=0
3.9 Lineaire combinaties van toevalsvariabelen
V = a + bX + cY
met E(V) = a+b E(X )+c E(Y )
Var(X) = b2Var (X )+c2Var (Y )+2bc Cov(X ,Y )
30
Hoofdstuk 4: Univariate kansmodellen
= kansverdelingen voor één variabele
4.1 Bernoulli verdeling
twee mogelijke uitkomsten: 0 en 1
kans op succes: P (X=1 )=p
kans op misslukkig P (X=0 )=1−p=q
met E (X )=p
en Var (X )=p (1−p)
voorbeelden: kans dat je kruis gooit met een muntstuk, vraag juist beantwoorden in quiz
4.2 Binomiaalverdeling
= een aantal keer Bernoulli experiment doen
voorbeelden: hoeveel keer gooi je kruis in 20 keer gooien?
elk experiment n keer herhaald
twee mogelijke uitkomsten: succes (1) of mislukkig (0)
voorwaarden:
- de experimenten zijn onafhankelijk van elkaar kans op succes steeds even groot
- verdeeld volgens Bernoulli
Hoe groot is de kans op juist m successen bij n experimenten?
met:
= het aantal manieren om m objecten te kiezen uit een verzameling van n objecten wanneer
de volgorde er niet toe doet
OPM: 0! = 1 dus
31
bij binomiaalverdeling:
E (X )=np
Var (X )=np(1−p)
variantie is het grootst als p=0,5
symmetrisch als p=0,5
rechtsscheef als p<0,5
linksscheef als p>0,5
4.4 Normale verdeling
voorbeelden: kans dat een Vlaamse volwassen man kleiner is dan 185 cm, percentage van de
bevolking dat een IQ hoger dan 120 heeft, …
curve van een normale verdeling: symmetrisch, klokvorming
notatie:
met E (X )=μ
en Var (X )=σ2
Standaardnormale verdeling
= wanneer μ=0 en σ=1
32
standaardnormale verdeling is dus symmetrisch rond 0
dichtheid: ϕ ( z )= f Z(z )
verdelingsfunctie: FZ (z )=P (Z ≤z )
kansen en kwantielen in standaardnormale verdeling: benaderen adhv tabel
tabel voor P(Z≤ z) zie formularium
te onthouden:
P (Z ≤4 )=1 alles onder de curve ingenomen
P (Z ≤−z )=P(Z ≥ z )
P (Z ≥ z )=1−P(Z≤ z)
P (Z ≥−z )=P(Z ≤ z )
in standaardnormale verdeling:
33
kwantielen in standaardnormale verdeling:
QZ (0,5 )=0 want P (Z ≤0 )=0,5
QZ (0,75 )=tussen0,67 en0,68 want P (Z ≤0,67 )=0,749 en (Z≤0,68 )=0,752
QZ (0,25 )=−QZ (0,75 )=−0,67
QZ (0,95 )=z0,05 met z is overschrijdingskans
overschrijdingskans langs twee kanten 0,025
en QZ (0,05 )=−z0,05
algemeen: z∝
normale verdeling omzetten naar standaardnormale verdeling:
= handig want dan kan je kans gewoon aflezen uit tabel
standaardnormale verdeling omzetten naar normale verdeling:
kwantielen omzetten van een normale verdeling naar een standaardnormale verdeling:
34
Lineaire transormaties en combinaties
lineaire transformatie:
normale verdeling blijft na de transformatie nog steeds normaal verdeeld
lineaire combinatie:
35
Hoofdstuk 5: Schatters en hun verdeling
5.1 Steekproefgemiddelde als toevalsvariabele
voorbeeld: is de gemiddelde lengte van mannelijke studenten aan de KUL dezelfde als het
populatiegemiddelde 179 cm?
steekproef 100 mannen
toevalsvariabele X = lichaamslengte van mannelijke student aan KUL
verdeling ontdekken door boxplot en histogram vrij normaal verdeeld
dus we veronderstellen:
met μen σ onbekende parameter MAAR we kunnen ze wel schatten
via inferentiële statistiek: hypothese testen
het verschil tussen x en de vooropgestelde waarde 179 cm vergelijken
elke steekproef heeft ander steekproefgemiddelde en alle steekproefgemiddeldes zijn
uitkomsten van de toevalsvariabele ‘steekproefgemiddelde’:
zo wordt Xeen puntschatter en xeen puntschatting van het populatiegemiddelde`
5.2 Verdeling van het steekproefgemiddelde
verdeling als volgt:
E (X )=E(X 1) dus het gemiddelde van het gemiddelde is het gemiddelde
Var (X )=1nVar (X1)
36
steekproefgemiddelde is normaal verdeeld: X N (μ , σ2
n)
dus belangrijk dat steekproef groot genoeg is
5.3 Centrale limietstelling
bij variabele die niet normaal verdeeld is: het gemiddelde van niet normale verdeling
benadert het gemiddelde van een normale verdeling (als je voldoende n hebt)
CLS:
OPM: CLS bepaalt niet de verdeling van toevalsvariabele X, die wordt niet plots normaal
verdeeld, maar het gemiddelde wordt wel normaal verdeeld
zo kan P(X ϵ A) benaderend berekend worden, en hoe groter n, hoe beter de benadering
5.4. Normale benadering voor binomiaalkansen
er wordt slechts 1 steekproef gehouden dus binomiaal, kan dat dan doorgetrokken naar
de realiteit?
P= Xn waarbij X B(n , p)
met Xn is percentage van mensen in de steekproef met grootte n die succes hebben
p is het geobserveerde percentage een schatting van de mensen die succes hebben
P is toevalsvariabele van het steekproefgemiddelde
hieruit kunnen we besluiten dat:
de CLS toont aan dat (indien n voldoende groot) P benaderend normaal verdeeld is
met E ( P )=p
en Var ( P )= p(1− p)n
dus volgens CLS:
37
OPM: n is voldoende groot wanneer np≥5enn(1−p)≥5
dus:
Hoofdstuk 6: Univariate inferentie
elke steekproef zal een andere puntschatting opleveren onderhevig aan toeval
maar het is de beste gok voor de waarde van de onbekende parameter
een goede puntschatter:
1) onvertekend: de waarde van de puntschatter is de waarde van de parameter in de
populatie
2) een zo klein mogelijke standaardfout
nadeel van een puntschatting: geeft slechts 1 waarde & zegt niks over de nauwkeurigheid
daarom: interval van schattingen
levert ook een foutenmarge + waar de waarde van de parameter ergens ligt
Betrouwbaarheidsinterval
= interval dat de meest geloofwaardige waarden van de populatieparameter obv de
steekproef bevat
38
[ puntschatting−foutenmarge ; puntschatting+foutenmarge ]
met bepaalde betrouwbaarheidsniveau: de kans dat het interval de populatieparameter
bevat
betrouwbaarheidsniveau tussen 0 en 1
6.1 Betrouwbaarheidsinterval voor het gemiddelde van een normale variabele
foutenmarge berekenen bij normale variabele
steekproefgemiddelde X n is normaal verdeeld:
kunnen we ook schrijven als standaardnormaal
bij een standaardnormale verdeling ligt 95% van de mogelijke uitkomsten tussen -1,96 en
1,96:
dus: foutenmarge e=1,96×standaardfout σ√n (bij 95%-BI)
= de maat voor de vermoedelijke nauwkeurigheid van de schatter
6.1.1 Variantie bekend bij BI van normale variabele
bij σ bekend
bv. 95%-BI heeft dan als BI:
39
dat betekent dus dat er 95% kans is dat een willekeurige steekproef een
steekproefgemiddelde heeft waarvoor het 95%-betrouwbaarheidsinterval de onbekende
waarde van het populatiegemiddelde μ bevat
Algemeen betrouwbaarheidsniveau:
betrouwbaarheidsniveau 1−∝ z∝/2 als grenzen op de curve
betrouwbaarheidsinterval:
breedte van de BI hangt af van ∝ enσ enn
hoe n bepalen? door op voorhand een gewenste foutenmarge en betrouwbaarheidsniveau
vast te leggen:
6.1.2 Variantie niet bekend
σ niet bekend vervangen door schatting van s (de standaarddeviatue van de steekproef)
om zo een schatting van de standaardfout te bekomen:
en steekproefvariantie wordt dan S2
40
= student t-verdeling
t-verdeling is klokvormig en symmetrisch rond 0
met vrijheidsgraden r=n−1
als rgroot is, benadert de t-verdeling de standaardnormale verdeling
om een 1−∝ - BI op te stellen, hebben we t-waarden nodig (zoals vroeger de z-waarden):
waarbij T een toevalsvariebele is met een t-verdeling met r=n−1 vrijheidsgraden
die t-waarden: t n−1 ,∝/2
en daarvoor is er een t-tabel: zie formularium
zo wordt het betrouwbaarheidsinterval als volgt bepaald:
OPM:
- geen gebruik maken van de t-verdeling als er sterke uitschieters zijn
- de formule om het BI te berekenen: enkel als het normaal verdeeld is of als n groot
genoeg is (volgens CLS)
t-verdeling met n−1=2334 vrijheidsgraden r=∞
t 2334;0,025=1,96
dus komt overeen met standaardnormale verdeling
6.2 Testen omtrent het gemiddelde van een normale verdeling
= hypothesetesten
techniek om te kijken in welke mate de gegevens van een steekproef een hypothese over
haar populatie ondersteunen
41
6.2.1 Rechtseenzijdige test
voorbeeld:
globale gemiddelde julitemperatuur: 73,14 °F
stel μ = de gemiddelde julitemperatuur in de VS
is μ>73,14 of niet?
puntschatter uit steekproef xn=74,58 dat is dus groter dan de vooropgestelde waarde
mogen wie hieruit besluiten dat μ>73,14?
hypothetest!
stappen:
1) onderzoeksvraag
μ>73,14?
2) gegevens verzamelen
3) gegevens exploreren: geen uitschieters, gemiddelde berekenen xn=74,58
4) gegevens modelleren: toevalsvariabele X = de julitemperatuur in de VS
normaal verdeeld dus X N (μ , σ2
n) met μ het onbekende gemiddelde en σ de
onbekende standaarddeviatie
5) onderzoeksvraag herformuleren:
algemeen voor rechtseenzijdige test:
H 0 : μ≤ μ0 = nulhypothese
H 1: μ>μ0 = alternatieve hypothese
6) analyse via inferentiële statistiek:
H 1 pas vertrouwen als μ>73,14 heel duidelijk wordt aangetoond in de steekproef
bij twijfel: H1 niet aanvaarden
dus H 0 is waar tot H 1 voldoende is bewezen
kijken of het geobserveerde gemiddelde xn veel groter is dan de vooropgestelde waarde
73,14
42
steekproefverdeling van X n gebruiken
X n is normaal verdeeld dus X N (μ , σ2
n)
we veronderstellen dat H 0 waar is dus dat μ=73,14
Var (X )=σ2
n is onbekend dus schatten door s2
als μ=μ0=73,14 dan is:
= teststatistiek
waarde invullen: testwaarde
! indien de nulhypothese waar is, zou de testwaarde niet te veel mogen afwijken van 0
(want dat zijn xn en μ ongeveer gelijk aan elkaar)
als t veel groter is dan 0 alternatieve hypothese overwegen
in het voorbeeld:
het verschil tussen xn en μ bedraagt 2,34 standaardfouten
hoe meer die afwijken van elkaar dus hoe meer standaardfouten, hoe evidenter H1 wordt
MAAR hoe weten we of t=2,34 te groot is om H 0 nog te aanvaarden?
we berekenen de kans op de rechterstaart vanaf 2,34 via de P-waarde:
P (T>t )=P (T>2,34 )=0,0113=1% (kijken in tabel: ligt tussen 0,01 en 0,025)
dus van 100 steekproeven is er maar 1% waarbij t>2,34
43
indien de P-waarde heel klein is, aanvaarden we de alternatieve hypothese, want de
testwaarde ligt dan heel ver in de rechterstaart
waardoor het geobserveerde steekproefgemiddelde in deze steekproef véél groter is dan
μ0=73,14
wanneer is de P-waarde heel klein?
= als ze kleiner is dan het significantieniveau ∝
in dit geval: 0,0113<0,05 bij 95%-BI
conclusie: we verwerpen de nulhypothese
stappenplan rechtseenzijdige test:
1) veronderstellingen controleren
o is de steekproef willekeurig?
o zijn de steekproefgegevens normaal verdeeld?
o zijn er geen uitschieters?
o is de variabele kwantitatief?
2) hypotheses opstellen
nulhypothese: H 0
alternatieve hypothese: H 1
3) teststatistiek T bepalen en testwaarde t berekenen
toont aan hoever de puntschatter verwijderd is van de echte parameter, meestal
uitgedrukt in aantal standaardfouten
als t ver van 0 ligt, is dat een bewijs tegen de nulhypothese
4) P-waarde berekenen
drukt uit hoe ver in de staart van de steekproefverdeling de testwaarde ligt
44
definitie (!!!) op examen
hoe kleiner de P-waarde, hoe sterker het bewijs tegen de nulhypothese
P-waarde vergelijken met significantieniveau
! een grote P-waarde betekent dat het bewijs tégen de nulhypothese zwak is (en
betekent dus niet dat het bewijs voor de nulhypothese sterk is)
tip van Goele: if the P-waarde is low, H0 has to go
5) besluit formuleren
(nooit zeggen: we aanvaarden de nulhypothese altijd: we verwerpen ze niet)
6.2.3 Linkseenzijdige test
in linkseenzijdige test:
- kleine waarden voor T wijzen in de richting van de alternatieve hypothese
- P-waarde berekenen als P(T <t)
de rest blijft hetzelfde: testwaarde en P-waarde op dezelfde manier, oefening op dezelfde
manier uitwerken
6.2.4 Tweezijdige test
= wanneer de vraag wordt gesteld of er iets anders is tov een situatie of niet
teststatistiek blijft hetzelfde
45
zowel hele kleine als hele grote testwaarden zijn nu onwaarschijnlijk indien de
nulhypothese waar is
positieve t:
P (T>t )+P (T← t )dus=2P(T >t)
negatieve t:
P (T>−t )+P (T<t )dus=2P (T>−t )
Algemeen overzicht van alle hypothesetesten:
in tweezijdige test:
als μ0 als niet in het betrouwbaarheidsinterval van het significantieniveau valt, mag je
besluiten dat de gemiddelde score dus verschilt van de vooropgestelde waarde
statistische en praktische significantie
bij een grote steekproef: kleine afwijkingen van de nulhypothese ( met weinig praktische
betekenis) zijn statistisch significant
bij een kleine steekproef: ook grote afwijkingen van de nulhypothese (met een grote
praktische betekenis) zijn statistisch onbelangrijk
6.2.6 De variantie is bekend
teststatistiek nu dus met σ :
46
dus meteen standaardnormaal verdeeld
P-waarde:
en nulhypothese verwerpen als P-waarde ¿∝
6.2.5 Type I en type II fout
type I fout:
H 0 verwerpen, terwijl in werkelijkheid H 0 waar is
P ( type I fout )=∝ bv. 0,05 dus valt te berekenen!
type II fout:
H 0 niet verwerpen, terwijl in werkelijkheid H 0 fout is
hoe dichter μ0 en μ1 bij elkaar liggen, hoe groter de kans op een type II fout
hoe kleiner de standaardfout van X n, hoe kleiner de kans
fouten zijn gevolg van een willekeurige steekproef
de kracht of onderscheidingsvermogen:
de kans dat een hypothesetest de nulhypothese verwerpt indien de alternatieve hypothese
waar is
= 1−β
47
lage kracht als de echte waarde van de parameter dicht bij de waarde van de nulhypothese
ligt (moeilijk te onderscheiden dan)
hoge kracht als beide waarden ver van elkaar liggen (gemakkelijk te onderscheiden)
6.3 Inferentie omtrent een proportie
6.3.1 Betrouwbaarheidsinterval voor een proportie
als np≫5 en n(1−p)≫5 steekproefproportie van P is normaal verdeeld:
met standaardfout:
indien p onbekend is, gebruiken we p
het betrouwbaarheidsinterval wordt:
minimale steekproefgrootte berekenen?
6.3.2 Testen omtrent een proportie
als we steeproef hebben voor bepaalde n met bepaalde p
bijvoorbeeld: PVDA haalt 3,9% van de stemmen in een steekproef van n=983
48
kunnen we besluiten dat ze minder dan 5% zullen halen in de verkiezingen?
1) veronderstellingen controleren
o steekproef willekeurig
o 2 mogelijke uitkomsten
o np≫5 en n (1−p ) ≫5
X = aantal personen in de steekproef dat voor PVDA stemt
dan geldt: met p is onbekend
2) hypotheses
want we willen weten of minder dan 5% op de PVDA stemt
standaardfout:
met p=p0=0,5 want tot nu toe gaan we uit van H 0
algemeen:
3) teststatistiek
omdat np≫5 en n(1−p)≫5 teststatistiek is normaal verdeeld
in dit voorbeeld: z=−1,58
4) P-waarde
dan bepalen hoe ver z in de staart van de verdeling ligt
P-waarde: P (Z←1,58 )=0,057
49
0,057 is groter dan significantieniveau 0,05
H 0 dus NIET verwerpen
5) besluit
we kunnen dus niet besluiten dat de PVDA de kiesdrempel niet halt
als n niet groot genoeg is: andere methode
we gebruiken X=n P met X is binomiaal verdeeld
testwaarde is dan het aantal successen in de steekproef
overzicht voor de 3 soorten hypothese om de P-waarde te berekenen:
met p is wat je uit de steekproef haalt en p0 is wat er in H 0 staat dus niet hetzelfde!
6.4 Testen van de verdeling van een discrete variabele
kruistabel maken van de gegevens
dan tabel maken voor als H 0 waar is
verwachte frequentie = percentage onder H 0 x n
als absolute frequenties en verwachte frequenties niet veel afwijken van elkaar, gaan we H 0
niet verwerpen
MAAR hoe besluiten of ze veel afwijken van elkaar?
X2=(absolute frequentie−verwachte frequentie)verwachte frequentie
2
als H 0 waar is, verwachten we dus dat de som van de verschillen in frequenties niet veel
groter dan 0 is
50
maar wat is niet veel groter?
kansdichtheid berekenen
wanneer H 0waar is, is de bijbehorende toevalsvariabele verdeeld volgens χ2
chi-kwadraatverdeling: χ2
= rechtsscheve verdeling
de vorm hangt af van aantal vrijheidsgraden m
aantal vrijheidsgraden m = k – aantal geschatte parameters – 1
(met k is het aantal klassen)
dan kijken in chi-kwadraattabel om te kijken hoe ver in de staart de uitkomst ligt
P (X2> χ2 )met X2 χm2
besluiten of de P-waarde genoeg/niet genoeg in de staart ligt:
als P-waarde kleiner is dan significantieniveau: H 0 verwerpen!
algemeen: goodness-of-fit test
1) voorwaarden nagaan
o discreet & willekeurige steekproef
o absolute frequenties > 5
2) hypotheses opstellen
H 0: toevalsvariabele X heeft dichtheid f θ
H 1: toevalsvariabele X heeft dichtheid f θniet
3) teststatistiek
n j=absolute frequentie
nf θ (m j )=¿
ook noteren als:
51
4) P-waarde
P (X2> χ2 )met X2 χm2
5) als P-waarde groter is dan ∝, verwerpen we H 0
Hoofdstuk 7: Bivariate inferentie
2 variabelen
responsvariabele: variabele die men wil vergelijken tss verschillende groepen
= afhankelijke variabele
verklarende variabele: geeft aan tot welke groep een meting behoort
= onafhankelijke variabele
bv. stemgedrag tussen mannen en vrouwen vergelijken
met onafhankelijke/ongepaarde steekproeven: metingen in de ene groep zijn onafhankelijk
van degenen uit de andere groep
als er wel verband is tss metingen in beide groepen: gepaarde/afhankelijke steekproeven
in de ene groep zit een overeenkomstige waarneming in de andere groep
(voorbeeld: dia 8
responsvariabele = percentage
verklarende variabele = het jaar waarin ze werden ondervraagd
steekproef = onafhankelijk)
7.1 Twee kwalitatieve variabelen
7.1.1 Inferentie omtrent twee proporties
voorbeeld: arbeid verklaren adhv de regio
kruistabel:
52
verschil tussen p1 en p2: negatief 0,58 – 0,625
ene groep onafhankelijk van de andere
steekproefproporties bepalen:
via CLS: als n voldoende groot is in beide metingen, dan zijn P1 en P2 benaderend normaal
verdeeld
dus P1 - P2 is ook benaderend normaal verdeeld
dus ook:
MAAR wat zijn E en Var?
daaruit volgt:
betrouwbaarheidsinterval wordt dan:
Algemeen:
1) veronderstellingen nagaan
53
o willekeurige steekproef
o responsvariabele is kwalitaties
o steekproeven zijn onafhankelijk
o steekproef is groot genoeg (groter dan 5)
2) hypotheses opstellen:
3) teststatistiek
gepoolde steekproefproportie want beide groepen samengegooid:
standaardfout is dan:
sf =
teststatistiek:
4) P-waarde
P(Z< z)
verschillend voor elke hypothese:
5) besluit: 3 elementen
o P-waarde groter of kleiner dan ∝
o wat betekent dat voor nulhypothese: verwerpen of niet?
54
o antwoord op onderzoeksvraag
7.1.2 Onafhankelijkheid van twee variabelen testen
afhankelijkheid testen tussen twee kwalitatieve toevalsvariabelen met elk categorieën
iedere kolom in de tabel: responsvariabele
iedere rij in de tabel: verklarende variabele
als de twee variabelen onafhankelijk zijn, zijn de kansen op elke categorie gelijk
dus verschillen tussen de kansen berekenen via hypothesetest
gegevens in kruistabel zetten = geobserveerde absolute frequenties
het gemiddelde van de toevalsvariabele = verwachte waarde
kijken hoe sterk geobserveerde absolute frequenties verschillen van de verwachte
waarden
hoe verwachte waarde berekenen? (als variabelen onafhankelijk zijn)
met x = rijen en y = kolommen
kansen geschat door relatieve frequentie!
P ((X=mx )∩ (Y=m y ))=rijtotaaln
∗kolomtotaal
n
of dus eigenlijk gewoon:
verwachte waarde=rijtotaal∗kolomtotaaln
1) voorwaarden
o willekeurige steekproef
o groot genoeg
o twee kwalitatieve variabelen X en Y
2) hypotheses
55
3) teststatistiek
hoe groter dat getal is, hoe meer bewijs tegen de nulhypothese
met aantal vrijheidswaarden = v=(r−1)(k−1)
met r = aantal rijen en k = aantal kolommen
4) P-waarde
als H 0 waar is, is χ2 een laag getal
als H 0 waar is, is χ2 hoog
5) besluit
OPM: z in kwadraat is chi-kwadraat
beperkingen chi-kwadraat:
- als n te klein is
- observaties moeeten onafhankelijk zijn
- moet willekeurige steekproef
7.2 Een kwantitatieve en een kwalitatieve variabele
7.2.1 Gemiddelde van een variabele vergelijken voor 2 groepen
Algemeen:
2 variabelen: kwantitatieve Y en kwalitatieve X
daarvan het gemiddelde berekenen
populatiegemiddeldes met elkaar vergelijken: μ1−μ2
aan de hand van de steekproefgemiddeldes schatten: y1− y2
kruistabel maken & grafisch voorstellen via boxplot of histogram
56
kijken of:
- de spreiding gelijkaardig is in beide groepen
- geen uitschieters
- groot verschil in steekproefgemiddeldes
pas uitspraak doen door standaardfout van steekproefgemiddeldes te berekenen
steekproefverdeling van y1− y2 kennen
veronderstellingen:
- variabelen moeten onafhankelijk zijn
- Y moet uit een normale verdeling in elke groep komen
daardoor zijn ook steekproefgemiddeldes normaal verdeeld
en:
daardoor:
normale verdeling tussen de steekproefgemiddeldes wordt dus:
anders geschreven:
bij H 0 valt blauwe deel van teller weg want dan μ1−μ2=0
Algemeen:
57
1) veronderstellingen
o willekeurige steekproef
o Y is kwantitatief en verdeelbaar is 2 groepen volgens X
o Y is normaal verdeeld in elke groep
o variabelen zijn onafhankelijk
o geen uitschieters
BI:
2) hypotheses:
hypotheses: wat je wil aantonen moet in H1
3) teststatistiek
4) P-waarde
5) besluit
wat als de variabelen niet normaal verdeeld zijn?
bij meer dan 30 observaties benaderend normaal verdeeld
in praktijk: varianties niet bekend
2 situaties: varianties gelijk of niet gelijk
a. varianties gelijk
variantie schatten door beide steekproefvarianties
58
standaardfout schatten:
teststatistiek wordt:
b. varianties niet gelijk
andere methode
standaardfout:
dan teststatistiek:
met r: ofwel via SPSS ofwel
P-waarde:
7.2.2 De variantie van een variabele vergelijken voor twee groepen (les 13 mei)
als varianties gelijk zijn exacte benadering
varianties niet gelijk schatting
Algemeen:
1) veronderstellingen
59
normaal verdeeld
geen uitschieters bevatten
2) hypotheses
3) testwaarde
= F-verdeling
4) P-waarde
F-verdeling met vrijheidsgraden: n1−1 en n2−1
5) besluit
volgens Levene’s test in SPSS
ofwel handmatig: H 0 verwerpen als testwaarde f >4of f <14
varianties onbekend:
1) voorwaarden
normaal verdeeld en geen uitschieters
2) hypotheses
3) testwaarde
ofwel Levene’s test
ofwel H0 verwerpen als testwaarde f >4of f <14
als gelijkheid van de varianties niet verworpen kan worden: teststatistiek gebruiken
60
als gelijkheid van de varianties wel verworpen kan worden: volgende teststatistiek
4) P-waarde
met vrijheidsgraden
T t n1+n2−2 als de gelijkheid van de varianties niet verworpen wordt
T ≈ t r als de gelijkheid van de varianties wel verworpen wordt
5) besluit
over de gemiddelde obv de P-waarde
P−waarde<∝: nulhypothe over de gemiddeldes verwerpen
P−waarde>∝: nulhypothe over de gemiddeldes niet verwerpen
7.3 Twee kwantitatieve variabelen
7.3.1 Het verschil van twee variabelen vergelijken
gepaarde/afhankelijke steekproeven:
variabelen X en Y: voor elke steekproefelement is er een waarde voor X en een waarde
voor Y
verschil van beide metingen:
V=X−Y = verschilvariabele
daardoor: μv=μ1−μ2
Algemeen:
1) voorwaarden
o willekeurige steekrpoef
o twee kwantitatieve variabelen
61
o gepaarde observaties
o verschilvariabele moet normaal verdeeld zijn
o geen uitschieters in verschilvariabele
2) hypotheses
3) teststatistiek
4) P-waarde
met T t n−1
5) besluit
nulhypothese over het verschil tussen beide gemiddeldes verwerpen als
P−waarde<∝
betrouwbaarheidsinterval:
OVERZICHT: wat te doen bij vergelijking van twee gemiddeldes
62
Causaal en associatief verband
er kan significant verband zijn tussen twee groepen
als het verschil een rechtstreeks gevolg is van de keuze van de twee groepen
= causaal verband
als het verschil een gevolg is van een onderliggende variabele (die niet werd onderzocht)
= associatief verband
voorbeeld 1 (dia 99): causaal verband voorbeeld 2: associatief verband
63