wiki.foso.be · Web viewexperiment uitvoeren en aan elke uitkomst een getal toewijzen...

Samenvatting statistiek: theorie

Hoofdstuk 1: doel van de statistiek

1.1 Inleiding

statistiek:

- data verzamelen adhv survey of experiment

- data analyseren

beschrijvende statistiek: ruwe, beschikbare data samenvattend weergeven

inferentiële/inductieve statistiek: voorspellen obv de data

bv. de data van een steekproef doortrekken naar de hele populatie

1.2 Verzamelen van gegevens

onderzoeksvragen: bij wie of wat verzamel je welke gegevens?

onderzoekseenheden: onderdelen van de realiteit waarop het onderzoek betrekking

heeft en waarbij de kenmerken worden gemeten

(personen, voorwerpen, gebeurtenissen, collectiviteiten)

populatie: verzameling van alle onderzoekselementen

definiëren van kenmerken van de eenheden en afbakening in tijd en ruimte

steekproef: deelverzameling van elementen uit de populatie

selectie: elk element een gelijke/berekenbare kans toevalsselectie

representativiteit

buiten enkele toevalsfouten gelijk aan de populatie

soms gegevens in datamatrix: een rij zijn alle waarden gemeten voor 1 eenheid

een kolom zijn alle waarden gemeten voor 1 kenmerk

dus x ij heeft i als rij en j als kolom

1.3 Classificatie van gegevens

meten van een kenmerk: resultaat = verschillende waarden

elementen variëren tov een kenmerk variabele

1

1.3.1 Kwalitatieve en kwantitatieve gegevens: verschillende meetniveaus

a) nominale meetniveau

laagste meetniveau

meten = classificeren van elementen in bepaalde categorie

uitkomstenverzameling is eindig en elk elementen past slechts in 1 categorie

A is ofwel gelijk ofwel niet gelijk aan B, dus niet in termen van ‘meer gelijk’ of ‘minder gelijk’

codes zijn willekeurig symbool

bv. regio meten, geslacht, nationaliteit

b) ordinaal meetniveau

= ordening

elementen kunnen geordend worden (lager – hoger, meer – minder)

codes obv ordening

verschillen tussen categorieën zijn geen bepaalde hoeveelheid

bv. opleidingsniveau, opinie peilen, beoordeling van kwaliteit

nominaal en ordinaal kwalitatief

c) metrisch of kwantitatief meetniveau

hoogste meetniveau

numerieke betekenis

codes hangen vast aan een betekenis, dus niet willekeurig

verschil tussen waarden zijn wel een bepaalde hoeveelheid

wiskundige bewerkingen mogelijk

soms waarden groeperen in categorieën

bv. inkomen, lengte

1.3.2 Discrete en continue gegevens

a) discrete gegevens

er is géén derde waarde tussen 2 opeenvolgende waarden

2

uitkomstenverzameling is eindig of aftelbaar oneindig

bv. aantal kinderen

b) continue gegevens

tussen 2 opeenvolgende waarden is er altijd een tussenliggende waarde

aantal elementen in uitkomstenverzameling is oneindig

bv. tijd

Algemeen:

1.4 Van steekproef naar populatie

gemiddelde van de steekproef is benadering van het gemiddelde van de populatie

dus het resultaat is onzeker, daarom veronderstelling maken (zie hypothesetesten)

andere steekproef: ander resultaat

3

Hoofdstuk 2: Beschrijvende statistiek

doel = op een overzichtelijke manier de steekproefgegevens synthetisch weergeven

2.1 Absolute en relatieve frequentie

centraal: hoeveel keer komt een uitkomst voor en hoe zijn de eenheden verdeeld over de

uitkomsten?

2.1.1 Staafdiagram voor een kwalitatieve variabele

x i = een meting

m j = een bepaalde uitkomstn j = absolute frequentie

voorbeeld: in een steekproef van 200 mensen zijn er 30 19-jarigen

n=200 m j = 19 n j=30

relatieve frequentie: f j , n=n jn

wanneer alle frequenties op dezelfde schaal worden uitgedrukt

in het voorbeeld: f j , n=30

200

wanneer de relatieve frequentie op een schaal van 1 wordt uitgedrukt: proportie

som van de proporties = 1

proportie x 100 = percentage

frequentietabel: frequenties van alle mogelijke uitkomsten

grafische voorstelling:

o staafdiagram

horizontale as met mogelijke uitkomsten

losse staven met als hoogte de absolute of relatieve frequentie

o taartdiagram

per uitkomst is er een segment in de taart: f j , n x 360

4

2.1.2 Histogram voor een kwantitatieve variabele

wanneer er groot aantal mogelijke uitkomsten zijn

daarom gegevens groeperen in aangrenzende klassen

klassenbreedte = Δ met bovengrens en ondergrens en met klassenmidden

nieuwe uitkomstenverzameling:

grafische voorstelling: histogram

itt. staafdiagram zijn de staven hier wel continu

basis van de balk = klassenbreedte

hoogte van de balk = absolute of relatieve frequentie

probleem: soms heeft een klasse geen frequentie en dus geen balk, we kunnen dan sommige

klassen samennemen oplossing: y-as herschalen

frequentiedichtheid:

voorbeeld:

in (a): we zien dat sommige klassen geen frequentie hebben

in (b): klassen zijn samengenomen maar y-as klopt niet

5

oplossing:

y-as klopt door frequentiedichtheid

nu is niet meer de hoogte van de balken, maar wel de oppervlakte de uitdrukking van de

relatieve frequentie

2.2 Vormen van verdelingen

1) symmetrische verdeling

kunnen spiegelen om het midden

(d): speciale vorm uniforme verdeling

2) normale verdeling

symmetrisch maar sowieso klokvormig patroon als n groot is en Δ klein

neemt langs beide kanten van de top af met stapjes (zie (a) hierboven)

2.2.1 Andere verdelingsvormen

scheve verdeling

links scheef: linkse staart (dus weinig waarden aan de linkerkant)

rechts scheef: rechtse staart

6

bimodale verdeling

twee toppen

uitschieters

metingen die te groot of te klein zijn en dus niet aansluiten bij de rest van de metingen

2.3 Cumulatieve frequenties en kwantielen

2.3.1 Cumulatieve verdelingsfrequentie

= F

= de cumulatieve relatieve frequentie van de uitkomsten kleiner dan of gelijk aan x

(weten waar ergens in de verdeling een onderzoekseenheid zit)

verdelingsfunctie in een waarde x is het relatief aantal metingen die niet groter zijn dan x,

dus kleiner of gelijk aan zijn

stijgt stapsgewijs in intervallen

2.3.2 Kwantielfunctie

= Q( p)

omgekeerde van verdelingsfunctie (we hebben x en we zoeken de proportie)

gegeven een bepaalde proportie:

het pde percentiel bepalen: de waarde waaronder p-procent van de eenheden valt

7

SPECIALE KWANTIELEN

Qn (0,25 ) is het eerste kwartiel

Qn(0,50) is het tweede kwartiel of de mediaan

Qn(0,75) is het derde kwartiel

2.4 Centrumkenmerken

maten die verwijzen naar het midden van een verdeling

2.4.1 Steekproefgemiddelde

notatie: x

- voor metrische kenmerken:

- voor discrete gegevens:

bij gegroepeerde gegevens vertegenwoordigen de klassenmiddens de klassen

gevoelig voor uitschieters

2.4.2 Mediaan

robuuster dan gemiddelde

mediaan = middelste eenheid wanneer eenheden geordend staan

enkel bij metrisch of ordinaal niveau

gemiddelde dicht bij mediaan: vrij symmetrische verdeling

gemiddelde > mediaan: rechts scheef want gemiddelde schuift op richting staart

gemiddelde < mediaan: links scheef

8

2.4.3 Getrimd gemiddelde

om impact van de uitschieters tegen te gaan: vast percentage van de kleinste en de

grootste gegevens weglaten

2.4.4 Modus

= de waarde met de hoogste frequentie

kan voor alle meetniveaus

2.5 Spreidingskenmerken

hoever liggen de waarden van het centrum?

2.5.1 Bereik

= afstand tussen kleinste en grootste waarneming

wel heel gevoelig voor uitschieters

2.5.2 Standaardafwijking en variantie

afstand tussen de meting en het gemiddelde bepalen en vervolgens het gemiddelde van die

afstanden bepalen

de gemiddelde afstand tot het gemiddelde

- standaardafwijking

- variantie

bij discrete of gegroepeerde gegevens:

9

gebruiken in betrouwbaarheidsintervallen (zie later):

68% van de gegevens

95% van de gegevens

z-score: het aantal standaarddeviaties dat een waarde afwijkt van het gemiddelde

als z is positief waarde ligt boven het gemiddelde

als z is negatief waarde ligt onder het gemiddelde

is dus omgezet [−1 ;1 ]

2.5.3 Interkwartielafstand of IQR

= middenste 50% van de eenheden

verhouding tussen s en IQR: IQR is vaak groter

bij een normale verdeling: IQR/s ~1,34 constant

2.5.4 Median Absolute Deviation (MAD)

= de mediaan van de afstand van elke observatie tot de mediaan

bij een symmetrische verdeling is IQR ~ 2 MAD

daardoor is bij een normale verdeling MAD/s ~ 0,67

minder gevoelig dan uitschieters dan de IQR

2.5.5 Extra: spreiding bij nominale variabelen

10

IKV (index kwalitatieve variatie)

IKV = gerealiseerd aantal verschillen

maximaalaantalmogelijke verschillen

minimale spreiding: alle observaties zijn gelijk

maximale spreiding: het maximaal mogelijk verschillen tussen de observaties

hoe dichter IKV bij 1 is, hoe meer spreiding, hoe dichter bij 0, hoe minder spreiding

Teller: aantal geobserveerde verschillen

eerst 20 (Antwerpen) x 40 (de rest)

dan 30 (Vlaams-Brabant) x 10 (de rest aka Limburg)

dus: 20 x (40) + 30 (10) = 1100

Noemer: maximaal mogelijke verschillen

met k = aantal categorieën

dus N = 3×22×( 60

3)

2

=3×202=3×400=1200

dus IKV = 11001200

=0,92

2.6 Boxplot (Mia loves the boxplot)

11

geeft overzicht van de belangrijkste grenspunten van een verdeling

info over:

- centrum: mediaan & soms gemiddelde

- spreiding: IQR

- scheefheid: ligging van de mediaan in de box

als mediaan in onderste helft ligt rechts scheef (+ wanneer bovenste whisker

langer is dan onderste)

als mediaan in bovenste helft ligt links scheef

- zwaarte van de staarten: veel of weinig uitschieters

z-scores gebruiken om uitschieters te zoeken

als meting een z-score buiten [ -3 ; 3 ] heeft ongewone meting bij normale verdeling

MAAR uitschieters laten gemiddelde opschuiven en standaardafwijking toenemen dus z-

scores verkleinen

daarom robuuster alternatief:

12

2.7 Transformaties

2.7.1 Lineaire transformaties

y = a + bX

met a is snijpunt met y-as en b is richtingscoëfficiënt

bv. omzetten van Celcius naar Fahrenheit

x i verschuiven over de afstand a en herschalen met factor b

effect op centrum- en spreidingsmaten:

- gemiddelde van x i wordt: a+b . x=g (x)

transformatie wordt uitgevoerd op oorspronkelijke gemiddelde

- mediaan wordt g(med)

middelste eenheid blijft dus middelste eenheid

- standaarddeviatie: onderlinge afstand neemt toe met de factor maar de verschuiving

heeft geen effect

- lineaire transformatie op z-score

dus z wordt 0 en s2 wordt 1

2.8 Verbanden tussen variabelen

er is samenhang tussen 2 variabelen wanneer een categorie van de ene variabele meer dan

toevallig optreedt met een bepaalde waarde van de andere variabele

2.8.1 Twee kwalitatieve variabelen

13

kruistabel opstellen van 2 nominale variabelen

een cel: combinatie van een categorie van de ene variabele met een categorie van de andere

variabele (met bepaalde celfrequentie)

marginale verdeling: categorieën van een kenmerk sommeren tot rijtotalen en kolomtotalen

in kruistabel: beter werken met relatieve frequenties

horizontaal berekenen (rijpercentage) verticaal vergelijken

verticaal berekenen (kolompercentage) horizontaal vergelijken

sterkte van de samenhang uitdrukken dmv verschil in rij- of kolompercentage

dus man binge: 50% en vrouw binge: 30%

20 procentpunten verschil tussen man en vrouw binge

14

2.8.2 Een kwantitatieve en een kwalitatieve variabele

zelfde techniek

MAAR moeilijk bij meerdere groepen

oplossing: boxplot om zo meerdere groepen in een variabele te vergelijken

2.8.3 Twee kwantitatieve variabelen

kwantitatieve variabelen opdelen in klassen

kruistabel: frequentie bepalen van elke combinatie van klassen

histogram in drie dimensies: bivariaat histogram

grondvlak zijn de cellen van in een kruistabel en de hoogte is de relatieve

frequentie

2.8.4 Covariantie en correlatiecoëfficiënt (Pearson)

puntenwolk of spreidingsdiagram

x-as is de waarde van de ene variabele, y-as is de waarde van de andere variabele

o richting van de samenhang

15

positief: hoge x, hoge y of lage x, lage y puntenwolk stijgt naar rechts

negatief: hoge x, lage y en omgekeerd puntenwolk daalt

o sterkte van de samenhang

zwak: geen patroon in puntenwolk

sterk: duidelijk lineair patroon

maten om richting en sterkte van de samenhang tussen kwantitatieve variabelen te meten:

covariantie en correlatie

4 segmenten in puntenwolk

2

1

3 4

positieve samenhang: meer observaties in 1ste en 3de kwadrant

negatieve samenhang: meer observaties in 2de en 4de kwadrant

adhv deviatiescore:

som van het product van de deviatiescores drukt het patroon van negatieve of positieve

samenhang uit

16

de steekproefcovariantie:

drukt uit in welke mate twee kwantitatieve kenmerken gezamenlijk variëren

eigenschappen van de steekproefcovariantie:

- symmetrische maat van samenhang: x y en y x

- covariantie van x met x is de variantie van x:

- teken van de covariantie: positief betekent positieve samenhang, negatief betekent

negatieve samenhang

- absolute waarden weinig informatief, daarom metingen eerst transformeren

oplossing voor interpretatieprobleem (dat we sterkte niet kunnen meten)

covariantie herschalen

Pearsons correlatiecoëfficiënt:

eigenschappen van correlatiecoëfficiënt:

- ligt in interval [ -1 ; 1 ]

- positieve waarden = positieve samenhang (idem bij negatief)

- hoe dichter bij -1 of bij 1, hoe sterker de lineaire samenhang

perfect lineair positief: r = 1, perfect lineair negatief: r = -1, geen lineaire

samenhang: r = 0

- symmetrische samenhang:

- correlatie tussen lineair getransformeerde variabelen = de oorspronkelijke variabele

dus die variëren in dezelfde mate

- stel r 0: er kan nog steeds samenhang zijn, maar dan niet lineair (bijvoorbeeld in u-

curve)

17

2.8.5 Spearman correlatiecoëfficiënt

robuuster alternatief op Pearson (want die werkt met gemiddeldes en met standaardafw)

metingen van X en Y vervangen door hun rangnummers

als volgt: beide variabelen ordenen en de kleinste meting krijgt rang 1

bij ordinale variabelen

eigenschappen Spearman correlatiecoëffeciënt:

- waarden liggen in [ -1 ; 1 ]

- impact van uitschieters is kleiner

- berekent de mate waarin twee variabelen een stijgende curve tonen wanneer ze

worden uitgezet in een puntenwolk (dus geen lineaire stijging)

- Als r dicht bij 1 of -1 ligt zal r s ook groot of klein zijn, het omgekeerde is echter niet noodzakelijk

2.9 Lineaire regressie

de rechte van een puntenwolk bepalen dus a en b

2.9.1 Kleinste kwadratenmethode

y = a +bx

met x = verklarende of onafhankelijke variabele

y = afhankelijke variabele

b = richtingscoëfficiënt

a = intercept (waarde van y als x = 0)

naarmate r afwijkt van 1 of -1 krijgen we meer spreiding rond de rechte

best passende rechte zoeken

residu: de afwijking van elk punt tot de rechte (verticaal verschil)

best passende rechte is rechte met kleinste residu’s

punten boven de recht: positief residu, punten onder de recht: negatief residu

rechte bepalen door kleinste kwadraten methode

18

rechte waarvoor de som van de gekwadrateerde residu’s geminimaliseerd is

uitwerking van die formule:

rechte:

geschatte waarde voor a en b:

OPM:

- als steekproefcovariantie = 0 b = 0 (want dat is de teller van b)

gevolg: horizontale rechte + voorspelde waarde is steeds y

- het punt (x , y ) ligt steeds op de rechte

- som én gemiddelde van de residu’s = 0

- variantie van de residu’s:

2.9.2 De determinatiecoëfficiënt

hoe goed past die best passende rechte?

determinatiecoëfficiënt: proportie van de variantie in y die wordt verklaard obv de

regressievergelijking

verschillen tussen geobserveerde yi en het gemiddelde van y opdelen in 2 onderdelen:

het verschil tussen de geschatte waarde van yi en het gemiddelde van y, en de

geobserveerde yi en de geschatte waarde van yi (= de fout)

19

wat betekent dat?

als x en y geen samenhang: y= y

als x en y wel samenhang: y= yi

totale kwadraatsom:

SST = SSM + SSE

totale kwadraatsom = kwadraatsom met mode van de rechte + kwadraatsom van de fout

als SSM groot is: punten liggen dicht bij regressierechte

de determinatiecoëfficiënt:

2.10 Lineaire combinaties

nieuwe variabele: V

lineaire combinatie van X en Y

gemiddelde: v=a+bx+c y

20

variantie: sv2=¿

Hoofdstuk 3: kansen en toevalsvariabelen

= inductieve statistiek: op basis van informatie uit de steekproef uitspraken doen over de

populatie

altijd met bepaalde onzekerheid

3.1 Kansen en kansregels

speciale vormen van gebeurtenissen:

- complementaire gebeurtenis: ene gebeurtenis behoort NIET tot andere gebeurtenis

AC is complement van gebeurtenis A

P(A) + P¿) = 1

voorbeeld:

vraag: kans op een steekproef in een jury van 12 personen zonder vrouwen?

antwoord: 12 mannen 212 = 4096

dus kans is 1

4096 = 0,00024

2de vraag: kans op jury met minstens 1 vrouw?

antwoord: P(minstens 1 vrouw) = 1 – P(geen vrouw) = 1−1

4096 = 0,99976

- disjuncte gebeurtenissen

twee gebeurtenissen A en B zijn disjuct als ze geen uitkomsten gemeenschappelijk hebben

21

bv. quiz: ofwel is antwoord correct ofwel incorrect

- doorsnede van gebeurtenissen

uitkomsten horen tot een gebeurtenis EN tot een andere gebeurtenis

(A B)= A en B

- unie van gebeurtenissen

uitkomsten horen tot een gebeurtenis OF een andere gebeurtenis

A B = A of B

P(A of B) = P(A) + P(B) – P(A en B) want anders wordt Unie 2 keer geteld

voorbeeld: gezin met 2 kinderen

steekproefruimte voor geslacht van kinderen: {(V,V);(V,M);(M,V);(M,M)}

22

A = eerste kind is een meisje

P{(V,V); (VM)} = 0.5

B = tweede kind is een meisje

P{(V,V); (M,V)} = 0.5

P(A B) = P{(V,V)} = 0.25

P(A B) = eerste of tweede kind is een meisje = minstens 1 meisje

P(A B)= P(A) +P(B) – P(A en B)= 0.5 + 0.5 - 0.25 = 0.75

3.2 Voorwaardelijke kansen

een kans kan veranderen wanneer relevantie informatie verandert

uitkomsten die conform een conditie zijn

3.2.1 Onafhankelijkheid van gebeurtenissen

onafhankelijk wanneer de kans op het voorkomen van A niet beïnvloed wordt door het

optreden van B en omgekeerd

Algemeen: P(A|B)

met

bij onafhankelijke gebeurtenissen:

dan blijft P(A|B) = P(A) want geen overlap

23

voorbeeld: kans dat minstens 2 leerlingen op dezelfde dag jarig zijn in klas van 25

P(minstens 2 leerlingen) = 1 – P(allemaal verschillend)

onafhankelijke kans want kans op elke dag blijft gelijk

stel: klas van 2 P(allemaal verschillend) = 364365

stel: klas van 3 P(allemaal verschillend) = P(student 1 en 2 verschillend) x P(student 3

verschillend | student 1 en 2 verschillend)

364365× 363

365

klas van 25 P(minstens 2 leerlingen) = 1 - (364365× 363

365×…× 341

365)= 1 – 0,43 = 0,57

OPM: disjuncte gebeurtenissen zijn ook afhankelijk want A en B hebben geen

gemeenschappelijke gebeurtenissen, waardoor A niet kan optreden wanneer B optreedt,

dus op dat vlak beïnvloeden ze elkaar wel

Regel van Bayes:

3.3 Toevalsvariabele

experiment uitvoeren en aan elke uitkomst een getal toewijzen

toevalsvariabele = X

= einde 1ste semester

24

Statistiek 2de semester

het beheersen van de onnauwkeurigheid van onderzoek

Hoofdstuk 3: kansen en toevalsvariabelen

3.3 Toevalsvariabelen

toevalsexperiment: resultaat op voorhand niet gekend

bv. muntstuk opgooien, politieke voorkeur peilen

toevalsvariabele: varieert van persoon tot persoon

notatie: X / Y / Z voor de variabele zelf; x / y / z voor de waarden van de variabele

P(X≤ x)

3.4 Dichtheidsfunctie

= de kans op elke uitkomst

1) dichtheid van discrete toevalsvariabelen

waarden zijn duidelijk gescheiden

dichtheidsfuntcie van discrete toevalsvariabelen:

f (m j )=P (X=m j ) voor j=1 ,2 ,…,k

de frequentie bepaalt veel: f j , n=n jnvoor uitkomst m j

hoe groter de steekproef, hoe dichter f j , n bij de echte kans ligt

OPM:

- som van alle dichtheden = 1

- alle kansen zijn positief

- uniforme dichtheid: elke uitkomst heeft dezelfde kans om te gebeuren

2) dichtheid van continue toevalsvariabelen

oneindig, continu aantal mogelijke waarden

de kans op een specifieke uitkomst = 0

daarom: gegevens in klassen brengen en histogram maken

dichtheidsfunctie f (x) van een continue toevalsvariabele X is gedefinieerd door een curve

25

de kans dat X waarden aanneemt in een bepaald interval wordt gegeven door de

oppervlakte onder de curve

som van alle uitkomsten = 1

de dichtheid om kans van continue toevalsvariabele X uit te rekenen integraal

(integralen geen leerstof voor ons)

bij continue toevalsvariabelen: P (X=x )=0en P ( X≤ x )=P(X< x)

verschillende vormen van een continue toevalsvariabele:

3.5 Verdelings- en kwantielfunctie

in een steekproef: verdelingsfunctie in een waarde x is het relatief aantal metingen die niet

groter zijn dan x

26

in een populatie: de kans dat een toevalsvariabele een waarde aanneemt die niet groter is

dan x

DISCRETE VARIABELE

verdelingsfuntcie:

als we de dichtheid kennen, kennen we ook de verdeling

kwantielfunctie: de kleinste x waarvoor F(x) groter dan of gelijk is aan p

bv. om te weten waar je loon ergens zit: bij de lage lonen, in het midden …

kwantielen zijn net omgekeerde dan verdelingsfunctie

CONTINUE VARIABELE

opnieuw: verdelingsfunctie is de kans dat een toevalsvariabele een waarde aanneemt die

kleiner of gelijk is aan een gegeven getal x

hier is dat dus integraal want continue variabele

3.6 Centrum- en spreidingskenmerken

in steekproef gemiddelde: xn en standaardafwijking: sn

in populatie gemiddelde: μ en standaardafwijking: σ

hoe groter de steekproef, hoe dichter het gemiddelde van de steekproef het gemiddelde van

de populatie zal benaderen

27

CENTRUM

verwachtingswaarde

in discrete variabele:

in continue variabele:

mediaan en kwantielen

zie eerste deel:

Qn (0,25 ) is het eerste kwartiel of het 25%-kwantiel

Qn(0,50) is het tweede kwartiel of de mediaan

Qn(0,75) is het derde kwartiel

modus

= de waarde waarvoor de dichtheid maximaal is hoogste frequentie

SPREIDINGSKENMERKEN

standaarddeviatie en variantie

= de maat voor de spreiding van de uitkomsten

28

de gemiddelde afwijking van de mogelijke uitkomsten van de variabele ten opzichte van

het gemiddelde

Variantie voor steekproef:

! voor discrete toevalsvariabele:

interkwartielafstand (IQR)

Q3 − Q1

3.7 Transformaties

3.7.2 Lineaire transformaties

zie eerste deel

met een toevalsvariabele:

specifiek geval: z-score is ook lineaire transformatie

gemiddelde = 0 en variantie = 1

29

3.8 Covariantie, correlatie en onafhankelijkheid van twee variabelen

maat voor de samenhang tussen 2 kwantitatieve toevalsvariabelen (X en Y)

steekproefcovariantie:

Pearson correlatiecoëfficiënt:

als X en Y onafhankelijk zijn: Cov (X ,Y )=0 en ρ (X ,Y )=0

3.9 Lineaire combinaties van toevalsvariabelen

V = a + bX + cY

met E(V) = a+b E(X )+c E(Y )

Var(X) = b2Var (X )+c2Var (Y )+2bc Cov(X ,Y )

30

Hoofdstuk 4: Univariate kansmodellen

= kansverdelingen voor één variabele

4.1 Bernoulli verdeling

twee mogelijke uitkomsten: 0 en 1

kans op succes: P (X=1 )=p

kans op misslukkig P (X=0 )=1−p=q

met E (X )=p

en Var (X )=p (1−p)

voorbeelden: kans dat je kruis gooit met een muntstuk, vraag juist beantwoorden in quiz

4.2 Binomiaalverdeling

= een aantal keer Bernoulli experiment doen

voorbeelden: hoeveel keer gooi je kruis in 20 keer gooien?

elk experiment n keer herhaald

twee mogelijke uitkomsten: succes (1) of mislukkig (0)

voorwaarden:

- de experimenten zijn onafhankelijk van elkaar kans op succes steeds even groot

- verdeeld volgens Bernoulli

Hoe groot is de kans op juist m successen bij n experimenten?

met:

= het aantal manieren om m objecten te kiezen uit een verzameling van n objecten wanneer

de volgorde er niet toe doet

OPM: 0! = 1 dus

31

bij binomiaalverdeling:

E (X )=np

Var (X )=np(1−p)

variantie is het grootst als p=0,5

symmetrisch als p=0,5

rechtsscheef als p<0,5

linksscheef als p>0,5

4.4 Normale verdeling

voorbeelden: kans dat een Vlaamse volwassen man kleiner is dan 185 cm, percentage van de

bevolking dat een IQ hoger dan 120 heeft, …

curve van een normale verdeling: symmetrisch, klokvorming

notatie:

met E (X )=μ

en Var (X )=σ2

Standaardnormale verdeling

= wanneer μ=0 en σ=1

32

standaardnormale verdeling is dus symmetrisch rond 0

dichtheid: ϕ ( z )= f Z(z )

verdelingsfunctie: FZ (z )=P (Z ≤z )

kansen en kwantielen in standaardnormale verdeling: benaderen adhv tabel

tabel voor P(Z≤ z) zie formularium

te onthouden:

P (Z ≤4 )=1 alles onder de curve ingenomen

P (Z ≤−z )=P(Z ≥ z )

P (Z ≥ z )=1−P(Z≤ z)

P (Z ≥−z )=P(Z ≤ z )

in standaardnormale verdeling:

33

kwantielen in standaardnormale verdeling:

QZ (0,5 )=0 want P (Z ≤0 )=0,5

QZ (0,75 )=tussen0,67 en0,68 want P (Z ≤0,67 )=0,749 en (Z≤0,68 )=0,752

QZ (0,25 )=−QZ (0,75 )=−0,67

QZ (0,95 )=z0,05 met z is overschrijdingskans

overschrijdingskans langs twee kanten 0,025

en QZ (0,05 )=−z0,05

algemeen: z∝

normale verdeling omzetten naar standaardnormale verdeling:

= handig want dan kan je kans gewoon aflezen uit tabel

standaardnormale verdeling omzetten naar normale verdeling:

kwantielen omzetten van een normale verdeling naar een standaardnormale verdeling:

34

Lineaire transormaties en combinaties

lineaire transformatie:

normale verdeling blijft na de transformatie nog steeds normaal verdeeld

lineaire combinatie:

35

Hoofdstuk 5: Schatters en hun verdeling

5.1 Steekproefgemiddelde als toevalsvariabele

voorbeeld: is de gemiddelde lengte van mannelijke studenten aan de KUL dezelfde als het

populatiegemiddelde 179 cm?

steekproef 100 mannen

toevalsvariabele X = lichaamslengte van mannelijke student aan KUL

verdeling ontdekken door boxplot en histogram vrij normaal verdeeld

dus we veronderstellen:

met μen σ onbekende parameter MAAR we kunnen ze wel schatten

via inferentiële statistiek: hypothese testen

het verschil tussen x en de vooropgestelde waarde 179 cm vergelijken

elke steekproef heeft ander steekproefgemiddelde en alle steekproefgemiddeldes zijn

uitkomsten van de toevalsvariabele ‘steekproefgemiddelde’:

zo wordt Xeen puntschatter en xeen puntschatting van het populatiegemiddelde`

5.2 Verdeling van het steekproefgemiddelde

verdeling als volgt:

E (X )=E(X 1) dus het gemiddelde van het gemiddelde is het gemiddelde

Var (X )=1nVar (X1)

36

steekproefgemiddelde is normaal verdeeld: X N (μ , σ2

n)

dus belangrijk dat steekproef groot genoeg is

5.3 Centrale limietstelling

bij variabele die niet normaal verdeeld is: het gemiddelde van niet normale verdeling

benadert het gemiddelde van een normale verdeling (als je voldoende n hebt)

CLS:

OPM: CLS bepaalt niet de verdeling van toevalsvariabele X, die wordt niet plots normaal

verdeeld, maar het gemiddelde wordt wel normaal verdeeld

zo kan P(X ϵ A) benaderend berekend worden, en hoe groter n, hoe beter de benadering

5.4. Normale benadering voor binomiaalkansen

er wordt slechts 1 steekproef gehouden dus binomiaal, kan dat dan doorgetrokken naar

de realiteit?

P= Xn waarbij X B(n , p)

met Xn is percentage van mensen in de steekproef met grootte n die succes hebben

p is het geobserveerde percentage een schatting van de mensen die succes hebben

P is toevalsvariabele van het steekproefgemiddelde

hieruit kunnen we besluiten dat:

de CLS toont aan dat (indien n voldoende groot) P benaderend normaal verdeeld is

met E ( P )=p

en Var ( P )= p(1− p)n

dus volgens CLS:

37

OPM: n is voldoende groot wanneer np≥5enn(1−p)≥5

dus:

Hoofdstuk 6: Univariate inferentie

elke steekproef zal een andere puntschatting opleveren onderhevig aan toeval

maar het is de beste gok voor de waarde van de onbekende parameter

een goede puntschatter:

1) onvertekend: de waarde van de puntschatter is de waarde van de parameter in de

populatie

2) een zo klein mogelijke standaardfout

nadeel van een puntschatting: geeft slechts 1 waarde & zegt niks over de nauwkeurigheid

daarom: interval van schattingen

levert ook een foutenmarge + waar de waarde van de parameter ergens ligt

Betrouwbaarheidsinterval

= interval dat de meest geloofwaardige waarden van de populatieparameter obv de

steekproef bevat

38

[ puntschatting−foutenmarge ; puntschatting+foutenmarge ]

met bepaalde betrouwbaarheidsniveau: de kans dat het interval de populatieparameter

bevat

betrouwbaarheidsniveau tussen 0 en 1

6.1 Betrouwbaarheidsinterval voor het gemiddelde van een normale variabele

foutenmarge berekenen bij normale variabele

steekproefgemiddelde X n is normaal verdeeld:

kunnen we ook schrijven als standaardnormaal

bij een standaardnormale verdeling ligt 95% van de mogelijke uitkomsten tussen -1,96 en

1,96:

dus: foutenmarge e=1,96×standaardfout σ√n (bij 95%-BI)

= de maat voor de vermoedelijke nauwkeurigheid van de schatter

6.1.1 Variantie bekend bij BI van normale variabele

bij σ bekend

bv. 95%-BI heeft dan als BI:

39

dat betekent dus dat er 95% kans is dat een willekeurige steekproef een

steekproefgemiddelde heeft waarvoor het 95%-betrouwbaarheidsinterval de onbekende

waarde van het populatiegemiddelde μ bevat

Algemeen betrouwbaarheidsniveau:

betrouwbaarheidsniveau 1−∝ z∝/2 als grenzen op de curve

betrouwbaarheidsinterval:

breedte van de BI hangt af van ∝ enσ enn

hoe n bepalen? door op voorhand een gewenste foutenmarge en betrouwbaarheidsniveau

vast te leggen:

6.1.2 Variantie niet bekend

σ niet bekend vervangen door schatting van s (de standaarddeviatue van de steekproef)

om zo een schatting van de standaardfout te bekomen:

en steekproefvariantie wordt dan S2

40

= student t-verdeling

t-verdeling is klokvormig en symmetrisch rond 0

met vrijheidsgraden r=n−1

als rgroot is, benadert de t-verdeling de standaardnormale verdeling

om een 1−∝ - BI op te stellen, hebben we t-waarden nodig (zoals vroeger de z-waarden):

waarbij T een toevalsvariebele is met een t-verdeling met r=n−1 vrijheidsgraden

die t-waarden: t n−1 ,∝/2

en daarvoor is er een t-tabel: zie formularium

zo wordt het betrouwbaarheidsinterval als volgt bepaald:

OPM:

- geen gebruik maken van de t-verdeling als er sterke uitschieters zijn

- de formule om het BI te berekenen: enkel als het normaal verdeeld is of als n groot

genoeg is (volgens CLS)

t-verdeling met n−1=2334 vrijheidsgraden r=∞

t 2334;0,025=1,96

dus komt overeen met standaardnormale verdeling

6.2 Testen omtrent het gemiddelde van een normale verdeling

= hypothesetesten

techniek om te kijken in welke mate de gegevens van een steekproef een hypothese over

haar populatie ondersteunen

41

6.2.1 Rechtseenzijdige test

voorbeeld:

globale gemiddelde julitemperatuur: 73,14 °F

stel μ = de gemiddelde julitemperatuur in de VS

is μ>73,14 of niet?

puntschatter uit steekproef xn=74,58 dat is dus groter dan de vooropgestelde waarde

mogen wie hieruit besluiten dat μ>73,14?

hypothetest!

stappen:

1) onderzoeksvraag

μ>73,14?

2) gegevens verzamelen

3) gegevens exploreren: geen uitschieters, gemiddelde berekenen xn=74,58

4) gegevens modelleren: toevalsvariabele X = de julitemperatuur in de VS

normaal verdeeld dus X N (μ , σ2

n) met μ het onbekende gemiddelde en σ de

onbekende standaarddeviatie

5) onderzoeksvraag herformuleren:

algemeen voor rechtseenzijdige test:

H 0 : μ≤ μ0 = nulhypothese

H 1: μ>μ0 = alternatieve hypothese

6) analyse via inferentiële statistiek:

H 1 pas vertrouwen als μ>73,14 heel duidelijk wordt aangetoond in de steekproef

bij twijfel: H1 niet aanvaarden

dus H 0 is waar tot H 1 voldoende is bewezen

kijken of het geobserveerde gemiddelde xn veel groter is dan de vooropgestelde waarde

73,14

42

steekproefverdeling van X n gebruiken

X n is normaal verdeeld dus X N (μ , σ2

n)

we veronderstellen dat H 0 waar is dus dat μ=73,14

Var (X )=σ2

n is onbekend dus schatten door s2

als μ=μ0=73,14 dan is:

= teststatistiek

waarde invullen: testwaarde

! indien de nulhypothese waar is, zou de testwaarde niet te veel mogen afwijken van 0

(want dat zijn xn en μ ongeveer gelijk aan elkaar)

als t veel groter is dan 0 alternatieve hypothese overwegen

in het voorbeeld:

het verschil tussen xn en μ bedraagt 2,34 standaardfouten

hoe meer die afwijken van elkaar dus hoe meer standaardfouten, hoe evidenter H1 wordt

MAAR hoe weten we of t=2,34 te groot is om H 0 nog te aanvaarden?

we berekenen de kans op de rechterstaart vanaf 2,34 via de P-waarde:

P (T>t )=P (T>2,34 )=0,0113=1% (kijken in tabel: ligt tussen 0,01 en 0,025)

dus van 100 steekproeven is er maar 1% waarbij t>2,34

43

indien de P-waarde heel klein is, aanvaarden we de alternatieve hypothese, want de

testwaarde ligt dan heel ver in de rechterstaart

waardoor het geobserveerde steekproefgemiddelde in deze steekproef véél groter is dan

μ0=73,14

wanneer is de P-waarde heel klein?

= als ze kleiner is dan het significantieniveau ∝

in dit geval: 0,0113<0,05 bij 95%-BI

conclusie: we verwerpen de nulhypothese

stappenplan rechtseenzijdige test:

1) veronderstellingen controleren

o is de steekproef willekeurig?

o zijn de steekproefgegevens normaal verdeeld?

o zijn er geen uitschieters?

o is de variabele kwantitatief?

2) hypotheses opstellen

nulhypothese: H 0

alternatieve hypothese: H 1

3) teststatistiek T bepalen en testwaarde t berekenen

toont aan hoever de puntschatter verwijderd is van de echte parameter, meestal

uitgedrukt in aantal standaardfouten

als t ver van 0 ligt, is dat een bewijs tegen de nulhypothese

4) P-waarde berekenen

drukt uit hoe ver in de staart van de steekproefverdeling de testwaarde ligt

44

definitie (!!!) op examen

hoe kleiner de P-waarde, hoe sterker het bewijs tegen de nulhypothese

P-waarde vergelijken met significantieniveau

! een grote P-waarde betekent dat het bewijs tégen de nulhypothese zwak is (en

betekent dus niet dat het bewijs voor de nulhypothese sterk is)

tip van Goele: if the P-waarde is low, H0 has to go

5) besluit formuleren

(nooit zeggen: we aanvaarden de nulhypothese altijd: we verwerpen ze niet)

6.2.3 Linkseenzijdige test

in linkseenzijdige test:

- kleine waarden voor T wijzen in de richting van de alternatieve hypothese

- P-waarde berekenen als P(T <t)

de rest blijft hetzelfde: testwaarde en P-waarde op dezelfde manier, oefening op dezelfde

manier uitwerken

6.2.4 Tweezijdige test

= wanneer de vraag wordt gesteld of er iets anders is tov een situatie of niet

teststatistiek blijft hetzelfde

45

zowel hele kleine als hele grote testwaarden zijn nu onwaarschijnlijk indien de

nulhypothese waar is

positieve t:

P (T>t )+P (T← t )dus=2P(T >t)

negatieve t:

P (T>−t )+P (T<t )dus=2P (T>−t )

Algemeen overzicht van alle hypothesetesten:

in tweezijdige test:

als μ0 als niet in het betrouwbaarheidsinterval van het significantieniveau valt, mag je

besluiten dat de gemiddelde score dus verschilt van de vooropgestelde waarde

statistische en praktische significantie

bij een grote steekproef: kleine afwijkingen van de nulhypothese ( met weinig praktische

betekenis) zijn statistisch significant

bij een kleine steekproef: ook grote afwijkingen van de nulhypothese (met een grote

praktische betekenis) zijn statistisch onbelangrijk

6.2.6 De variantie is bekend

teststatistiek nu dus met σ :

46

dus meteen standaardnormaal verdeeld

P-waarde:

en nulhypothese verwerpen als P-waarde ¿∝

6.2.5 Type I en type II fout

type I fout:

H 0 verwerpen, terwijl in werkelijkheid H 0 waar is

P ( type I fout )=∝ bv. 0,05 dus valt te berekenen!

type II fout:

H 0 niet verwerpen, terwijl in werkelijkheid H 0 fout is

hoe dichter μ0 en μ1 bij elkaar liggen, hoe groter de kans op een type II fout

hoe kleiner de standaardfout van X n, hoe kleiner de kans

fouten zijn gevolg van een willekeurige steekproef

de kracht of onderscheidingsvermogen:

de kans dat een hypothesetest de nulhypothese verwerpt indien de alternatieve hypothese

waar is

= 1−β

47

lage kracht als de echte waarde van de parameter dicht bij de waarde van de nulhypothese

ligt (moeilijk te onderscheiden dan)

hoge kracht als beide waarden ver van elkaar liggen (gemakkelijk te onderscheiden)

6.3 Inferentie omtrent een proportie

6.3.1 Betrouwbaarheidsinterval voor een proportie

als np≫5 en n(1−p)≫5 steekproefproportie van P is normaal verdeeld:

met standaardfout:

indien p onbekend is, gebruiken we p

het betrouwbaarheidsinterval wordt:

minimale steekproefgrootte berekenen?

6.3.2 Testen omtrent een proportie

als we steeproef hebben voor bepaalde n met bepaalde p

bijvoorbeeld: PVDA haalt 3,9% van de stemmen in een steekproef van n=983

48

kunnen we besluiten dat ze minder dan 5% zullen halen in de verkiezingen?

1) veronderstellingen controleren

o steekproef willekeurig

o 2 mogelijke uitkomsten

o np≫5 en n (1−p ) ≫5

X = aantal personen in de steekproef dat voor PVDA stemt

dan geldt: met p is onbekend

2) hypotheses

want we willen weten of minder dan 5% op de PVDA stemt

standaardfout:

met p=p0=0,5 want tot nu toe gaan we uit van H 0

algemeen:

3) teststatistiek

omdat np≫5 en n(1−p)≫5 teststatistiek is normaal verdeeld

in dit voorbeeld: z=−1,58

4) P-waarde

dan bepalen hoe ver z in de staart van de verdeling ligt

P-waarde: P (Z←1,58 )=0,057

49

0,057 is groter dan significantieniveau 0,05

H 0 dus NIET verwerpen

5) besluit

we kunnen dus niet besluiten dat de PVDA de kiesdrempel niet halt

als n niet groot genoeg is: andere methode

we gebruiken X=n P met X is binomiaal verdeeld

testwaarde is dan het aantal successen in de steekproef

overzicht voor de 3 soorten hypothese om de P-waarde te berekenen:

met p is wat je uit de steekproef haalt en p0 is wat er in H 0 staat dus niet hetzelfde!

6.4 Testen van de verdeling van een discrete variabele

kruistabel maken van de gegevens

dan tabel maken voor als H 0 waar is

verwachte frequentie = percentage onder H 0 x n

als absolute frequenties en verwachte frequenties niet veel afwijken van elkaar, gaan we H 0

niet verwerpen

MAAR hoe besluiten of ze veel afwijken van elkaar?

X2=(absolute frequentie−verwachte frequentie)verwachte frequentie

2

als H 0 waar is, verwachten we dus dat de som van de verschillen in frequenties niet veel

groter dan 0 is

50

maar wat is niet veel groter?

kansdichtheid berekenen

wanneer H 0waar is, is de bijbehorende toevalsvariabele verdeeld volgens χ2

chi-kwadraatverdeling: χ2

= rechtsscheve verdeling

de vorm hangt af van aantal vrijheidsgraden m

aantal vrijheidsgraden m = k – aantal geschatte parameters – 1

(met k is het aantal klassen)

dan kijken in chi-kwadraattabel om te kijken hoe ver in de staart de uitkomst ligt

P (X2> χ2 )met X2 χm2

besluiten of de P-waarde genoeg/niet genoeg in de staart ligt:

als P-waarde kleiner is dan significantieniveau: H 0 verwerpen!

algemeen: goodness-of-fit test

1) voorwaarden nagaan

o discreet & willekeurige steekproef

o absolute frequenties > 5

2) hypotheses opstellen

H 0: toevalsvariabele X heeft dichtheid f θ

H 1: toevalsvariabele X heeft dichtheid f θniet

3) teststatistiek

n j=absolute frequentie

nf θ (m j )=¿

ook noteren als:

51

4) P-waarde

P (X2> χ2 )met X2 χm2

5) als P-waarde groter is dan ∝, verwerpen we H 0

Hoofdstuk 7: Bivariate inferentie

2 variabelen

responsvariabele: variabele die men wil vergelijken tss verschillende groepen

= afhankelijke variabele

verklarende variabele: geeft aan tot welke groep een meting behoort

= onafhankelijke variabele

bv. stemgedrag tussen mannen en vrouwen vergelijken

met onafhankelijke/ongepaarde steekproeven: metingen in de ene groep zijn onafhankelijk

van degenen uit de andere groep

als er wel verband is tss metingen in beide groepen: gepaarde/afhankelijke steekproeven

in de ene groep zit een overeenkomstige waarneming in de andere groep

(voorbeeld: dia 8

responsvariabele = percentage

verklarende variabele = het jaar waarin ze werden ondervraagd

steekproef = onafhankelijk)

7.1 Twee kwalitatieve variabelen

7.1.1 Inferentie omtrent twee proporties

voorbeeld: arbeid verklaren adhv de regio

kruistabel:

52

verschil tussen p1 en p2: negatief 0,58 – 0,625

ene groep onafhankelijk van de andere

steekproefproporties bepalen:

via CLS: als n voldoende groot is in beide metingen, dan zijn P1 en P2 benaderend normaal

verdeeld

dus P1 - P2 is ook benaderend normaal verdeeld

dus ook:

MAAR wat zijn E en Var?

daaruit volgt:

betrouwbaarheidsinterval wordt dan:

Algemeen:

1) veronderstellingen nagaan

53

o willekeurige steekproef

o responsvariabele is kwalitaties

o steekproeven zijn onafhankelijk

o steekproef is groot genoeg (groter dan 5)

2) hypotheses opstellen:

3) teststatistiek

gepoolde steekproefproportie want beide groepen samengegooid:

standaardfout is dan:

sf =

teststatistiek:

4) P-waarde

P(Z< z)

verschillend voor elke hypothese:

5) besluit: 3 elementen

o P-waarde groter of kleiner dan ∝

o wat betekent dat voor nulhypothese: verwerpen of niet?

54

o antwoord op onderzoeksvraag

7.1.2 Onafhankelijkheid van twee variabelen testen

afhankelijkheid testen tussen twee kwalitatieve toevalsvariabelen met elk categorieën

iedere kolom in de tabel: responsvariabele

iedere rij in de tabel: verklarende variabele

als de twee variabelen onafhankelijk zijn, zijn de kansen op elke categorie gelijk

dus verschillen tussen de kansen berekenen via hypothesetest

gegevens in kruistabel zetten = geobserveerde absolute frequenties

het gemiddelde van de toevalsvariabele = verwachte waarde

kijken hoe sterk geobserveerde absolute frequenties verschillen van de verwachte

waarden

hoe verwachte waarde berekenen? (als variabelen onafhankelijk zijn)

met x = rijen en y = kolommen

kansen geschat door relatieve frequentie!

P ((X=mx )∩ (Y=m y ))=rijtotaaln

∗kolomtotaal

n

of dus eigenlijk gewoon:

verwachte waarde=rijtotaal∗kolomtotaaln

1) voorwaarden


o groot genoeg

o twee kwalitatieve variabelen X en Y

2) hypotheses

55

3) teststatistiek

hoe groter dat getal is, hoe meer bewijs tegen de nulhypothese

met aantal vrijheidswaarden = v=(r−1)(k−1)

met r = aantal rijen en k = aantal kolommen

4) P-waarde

als H 0 waar is, is χ2 een laag getal

als H 0 waar is, is χ2 hoog

5) besluit

OPM: z in kwadraat is chi-kwadraat

beperkingen chi-kwadraat:

- als n te klein is

- observaties moeeten onafhankelijk zijn

- moet willekeurige steekproef

7.2 Een kwantitatieve en een kwalitatieve variabele

7.2.1 Gemiddelde van een variabele vergelijken voor 2 groepen

Algemeen:

2 variabelen: kwantitatieve Y en kwalitatieve X

daarvan het gemiddelde berekenen

populatiegemiddeldes met elkaar vergelijken: μ1−μ2

aan de hand van de steekproefgemiddeldes schatten: y1− y2

kruistabel maken & grafisch voorstellen via boxplot of histogram

56

kijken of:

- de spreiding gelijkaardig is in beide groepen

- geen uitschieters

- groot verschil in steekproefgemiddeldes

pas uitspraak doen door standaardfout van steekproefgemiddeldes te berekenen

steekproefverdeling van y1− y2 kennen

veronderstellingen:

- variabelen moeten onafhankelijk zijn

- Y moet uit een normale verdeling in elke groep komen

daardoor zijn ook steekproefgemiddeldes normaal verdeeld

en:

daardoor:

normale verdeling tussen de steekproefgemiddeldes wordt dus:

anders geschreven:

bij H 0 valt blauwe deel van teller weg want dan μ1−μ2=0

Algemeen:

57

1) veronderstellingen


o Y is kwantitatief en verdeelbaar is 2 groepen volgens X

o Y is normaal verdeeld in elke groep

o variabelen zijn onafhankelijk

o geen uitschieters

BI:

2) hypotheses:

hypotheses: wat je wil aantonen moet in H1

3) teststatistiek

4) P-waarde

5) besluit

wat als de variabelen niet normaal verdeeld zijn?

bij meer dan 30 observaties benaderend normaal verdeeld

in praktijk: varianties niet bekend

2 situaties: varianties gelijk of niet gelijk

a. varianties gelijk

variantie schatten door beide steekproefvarianties

58

standaardfout schatten:

teststatistiek wordt:

b. varianties niet gelijk

andere methode

standaardfout:

dan teststatistiek:

met r: ofwel via SPSS ofwel

P-waarde:

7.2.2 De variantie van een variabele vergelijken voor twee groepen (les 13 mei)

als varianties gelijk zijn exacte benadering

varianties niet gelijk schatting

Algemeen:

1) veronderstellingen

59

normaal verdeeld

geen uitschieters bevatten

2) hypotheses

3) testwaarde

= F-verdeling

4) P-waarde

F-verdeling met vrijheidsgraden: n1−1 en n2−1

5) besluit

volgens Levene’s test in SPSS

ofwel handmatig: H 0 verwerpen als testwaarde f >4of f <14

varianties onbekend:

1) voorwaarden

normaal verdeeld en geen uitschieters

2) hypotheses

3) testwaarde

ofwel Levene’s test

ofwel H0 verwerpen als testwaarde f >4of f <14

als gelijkheid van de varianties niet verworpen kan worden: teststatistiek gebruiken

60

als gelijkheid van de varianties wel verworpen kan worden: volgende teststatistiek

4) P-waarde

met vrijheidsgraden

T t n1+n2−2 als de gelijkheid van de varianties niet verworpen wordt

T ≈ t r als de gelijkheid van de varianties wel verworpen wordt

5) besluit

over de gemiddelde obv de P-waarde

P−waarde<∝: nulhypothe over de gemiddeldes verwerpen

P−waarde>∝: nulhypothe over de gemiddeldes niet verwerpen

7.3 Twee kwantitatieve variabelen

7.3.1 Het verschil van twee variabelen vergelijken

gepaarde/afhankelijke steekproeven:

variabelen X en Y: voor elke steekproefelement is er een waarde voor X en een waarde

voor Y

verschil van beide metingen:

V=X−Y = verschilvariabele

daardoor: μv=μ1−μ2

Algemeen:

1) voorwaarden

o willekeurige steekrpoef

o twee kwantitatieve variabelen

61

o gepaarde observaties

o verschilvariabele moet normaal verdeeld zijn

o geen uitschieters in verschilvariabele

2) hypotheses

3) teststatistiek

4) P-waarde

met T t n−1

5) besluit

nulhypothese over het verschil tussen beide gemiddeldes verwerpen als

P−waarde<∝

betrouwbaarheidsinterval:

OVERZICHT: wat te doen bij vergelijking van twee gemiddeldes

62

Causaal en associatief verband

er kan significant verband zijn tussen twee groepen

als het verschil een rechtstreeks gevolg is van de keuze van de twee groepen

= causaal verband

als het verschil een gevolg is van een onderliggende variabele (die niet werd onderzocht)

= associatief verband

voorbeeld 1 (dia 99): causaal verband voorbeeld 2: associatief verband

63

wiki.foso.be · Web viewexperiment uitvoeren en aan elke uitkomst een getal toewijzen...

Documents

Transcript of wiki.foso.be · Web viewexperiment uitvoeren en aan elke uitkomst een getal toewijzen...