Statistiek: inductieve statistiek
1. Conceptueel kader
Gegevens hebben altijd betrekking op een beperkt aantal objecten of experimentele eenheden. Vaak
wil men vanuit gegevens afleidingen maken over een veel groter aantal objecten of experimentele
eenheden.
Populatie: verzameling van alle objecten of experimentele eenheden waarover men uiteindelijk
uitspraken wil doen. De omvang van populatie = N
Soms is de volgorde van belang (bv tijd), soms niet (bv dobbelsteen worpen)
Een populatie kan zowel eindig (bv alle mensen) als oneindig (bv worpen dobbelsteen) zijn.
Het kan aftelbaar oneindig of niet aftelbaar oneindig zijn.
De redenen waarom je vanuit een beperkte groep objecten afleidingen wil maken over een
populatie:
Populatie te groot om in haar geheel te onderzoeken
Het verzamelen van gegevens over een object veroorzaakt de vernietiging van het object
De verzameling objecten waarop de gegevens betrekking hebben en van waaruit men inferenties wil
maken over de populatie wordt de steekproef genoemd.
Steekproef: is een geordende verzameling van elementen uit een populatie. Omvang = n
Aangezien het om een geordende steekproef gaat gebruiken we geordende haakjes.
Eenzelfde element in een steekproef kan verschillende keren voorkomen
De volgorde van de elementen is van belang (bv tijd), soms ook niet (bv dobbelsteen worp)
Er zijn ook ongeordende deelverzamelingen, dan gebruiken we wel accolades
Inductieve statistiek: vanuit gegevens over een steekproef op statistische gronden afleidingen m.b.t.
een bepaalde populatie.
Proces gegevensverzameling:
Stap 1: Uitvoering van een toevalsexperiment. Bv testen afnemen
Stap 2: Bepaling van de uitkomst. Bv alle gegevens wat je in het dossier steekt
Stap 3: Bepaling van de score op een toevalsvariabele.
Kansuitspraken: bv. Hoe groot is de kans dat als je goed scoort op test 1, je ook goed scoort op test 2
Stap 1: Uitvoering van een toevalsexperiment. volgens vaste regels wordt een procedure uitgevoerd, , een steekproef wordt getrokken waarop een aantal operaties worden toegepast.
Stap 2: Bepaling van de uitkomst.
Van alle informatie die het toevalsexperiment oplevert, wordt een beperkt deel, de uitkomst geregistreerd. Stap 3: Bepaling van de score op een toevalsvariabele.
Voor elke uitkomst kan men de numerieke waarde bepalen van de variabele(n) X waarin men
geïnteresseerd is
Toevalsexperiment en steekproeftrekking
Toevalsexperiment: een procedure die:
1) Volgens vaste regels wordt uitgevoerd (niet noodzakelijk experiment)
2) Gegevens oplevert die niet met zekerheid kunnen voorspeld worden vanuit de condities waaronder het experiment plaatsvindt
a. Deterministisch experiment: een experiment waarvan het resultaat op basis van omstandigheden van het experiment wel precies kan bepaald worden
3) In principe (onbeperkt) haalbaar is, dit moet enkel conceptueel (in theorie) mogelijk zijn
Een toevalsexperiment houdt typisch in dat een steekproef (van omvang n) wordt getrokken uit de
populatie, verschillende waarden van n corresponderen daarbij met verschillende
toevalsexperimenten.
Steekproeftrekking met en zonder teruglegging: na trekking van elk element van de steekproef
wordt dit wel/niet terug toegevoegd aan de populatie alvorens een volgend element wordt
getrokken. (Geen leereffecten, niet meer spontaan)
Gevolgen bij steekproeftrekking met teruglegging:
(1) kan eenzelfde element uit de populatie in eenzelfde steekproef meermaals voorkomen
(2) kan het dat n > N (ja)
(3) blijft de populatiesamenstelling constant tijdens de steekproeftrekking
In onderzoek is vaak steekproeftrekking zonder teruglegging vereist. Statistisch gezien is
steekproeftrekking met teruglegging soms wel interessant. Veel van deze statistische bewerkingen
kan je ook gebruiken bij steekproeven zonder teruglegging als de steekproefomvang (n) veel kleiner
is dan de populatieomvang (N). de samenstelling van de populatie verandert dan immers niet
noemenswaardig gedurende de steekproeftrekking.
De trekking van een steekproef met omvang n gebeurt op zuiver toevallig wijze (ZTW, dus met
teruglegging) als dit gebeurt met teruglegging en op een dusdanige manier dat elke geordende
deelverzameling van n elementen uit de populatie evenveel kans heeft om als steekproef getrokken
te worden.
Steekproeftrekking op ZTW in de praktijk vaak via toevalsgetallen
rekenmachine TI-30XS Multiview: functie randint onder RAND onder toets prb
Opmerkingen:
-computer of rekenmachine generereert pseudotoevalsgetallen
-belang van toevalszaadje (TI-30XS Multiview: geheugen- register RAND)
Opmerkingen:
representativiteit : steekproef gelijkt op populatie
ZTW garandeert dit niet
gestratificeerde steekproeftrekking: garantie tot bepaalde informatie-aspecten.
Strata = homogene deelpopulaties. Gestratificeerde steekproef= per stratum ZTW
in de psychologie vaak selecte steekproeven:
Blanke, jonge, westerse, psychologie studenten
maar kunnen we dan inferenties maken over de beoogde populatie?
o Het is niet uitgesloten. Steekproeftrekking op ZTW is voor zo iets immers wel een
voldoende maar geen noodzakelijke voorwaarde
o Het is afhankelijk van wat men bestudeert. Indien het gaat om populatiecorrelatie is
dit een optie.
o Of de deelpopulatie waaruit men een selecte steekproef trekt vergelijkbaar is met de
totale populatie is een theoretische aanname
Uitkomsten van de uitkomstenverzameling
Stap 2: Bepaling van de uitkomst.
Elke uitvoering van een TE leidt tot unieke reeks gegevens= resultaat van het TE
(bv tijd, locatie is anders)
Het gedeelte van gegevens dat informatief is= uitkomst van het TE
De verzameling van alle mogelijke uitkomsten van TE= uitkomstenverzameling of steekproefruimte
van het TE. Symbool = Ω.
(Bv thuis met twee anderen)
De uitkomstenverzameling heet discreet (eindig of aftelbaar oneindig) of continu (oneindig). Voor
eenzelfde TE kan men verschillende uitkomstenverzamelingen beschouwen. Individuele uitkomsten
kunnen zowel afzonderlijke elementen zijn als geordende of niet-geordende verzamelingen.
Elk TE impliceert het trekken van een steekproef van omvang n. verschillende waarden van n
corresponderen dan ook met verschillende TE en verschillende uitkomstenverzamelingen. Om dit
duidelijk te maken zet men soms de waarde van n bij het symbool Ω. Bv Ωn=2.
Als er iets veranderd aan n, veranderd zowel TE als Ω.
Toevalsvariabelen
Een toevalsvariabele X is een functie van de uitkomstenverzameling van een TE naar .
Ook hier hebben we discrete en continue toevalsvariabelen.
Gebeurtenis
Een gebeurtenis A is een deelverzameling van de uitkomstenverzameling Ω , A Ω.
Men zegt dat een gebeurtenis plaatsvindt als het TE dat men beschouwt leidt tot één van haar
uitkomsten. We nemen hier aan dat elke deelverzameling van Ω een gebeurtenis is, bij oneindige Ω
worden er soms beperkingen op gelegd. Enkele bijzondere gebeurtenissen:
- Ø : de lege gebeurtenis
- Ω : de zekere gebeurtenis (universele verzameling)
- {ω}: alle singletons of deelverzamelingen van Ω die slechts één uitkomst bevatten, deze
heten elementaire gebeurtenissen
- Gebeurtenissen die afgeleid zijn van toevalsvariabelen
Gebeurtenissen zijn verzamelingen en als zodanig kunnen die op verzamelingen gedefinieerd zijn ook
op gebeurtenissen worden uitgevoerd. Hierbij geldt ook dat als A B = Ø , de gebeurtenissen A en B
zijn disjunct of mutueel exclusief.
Kans op kansrekenen
HET BEGRIP KANS (PROBABILITEIT)
Gegeven een uitkomstenverzameling (Ω) en de verzameling van alle gebeurtenissen (G) .
Een kans (P) is een functie:
P: G [0,1] kans altijd tussen 0 en 1
G P(G)
Met P(Ω) = 1 = zekere gebeurtenis
Als G1 , …, Gm gebeurtenissen zijn met Gi Gi’ = Ø als i ≠ i’
dan P(G1 … Gm) = P(G1 ) + …P(Gm) ZONDER overlap
Indien de uitkomstenverzameling eindig is houvast om kansen te bepalen
P(G) =∑
Regel van Laplace: indien alle uitkomsten evenveel kans hebben om voor te komen
Als alle uitkomsten in een eindige uitkomstenverzamling (= Ω) even waarschijnlijk zijn dan geldt voor
elke gebeurtenis G Ω:
VOORWAARDELIJKE KANS (CONDITIONELE PROBABILITEIT)
De conditionele probabiliteit op A gegeven B, P(A|B), is gedefinieerd als:
| ( )
|
P(Ac|B) = 1 – P(A|B)
REGEL VAN BAYES
P(B|A) = P(A B) P(A B) = P(A|B) x P(B)
P(A)
P(A) = P(A B) + P(A Bc) P(A Bc) = P(A|Bc) x P(Bc) P(Bc) = 1 – P(B)
P(A) = P(A|B) P(B) + P(A|Bc) P(Bc)
| |
|
| |
STATISTISCHE ONAFHANKELIJKHEID VAN GEBEURTENISSEN
Als P(A) ≠ 0 ≠ P(B) dan zijn de volgende eigenschappen equivalent:
1) P(A|B) = P(A)
2) P(B|A) = P(B)
3) P(A B) = P(A) x P(B)
A en B zijn statistisch onafhankelijk.
Informatie over het plaatsvinden van gebeurtenis B verandert niets aan de kans op het
voorkomen van A (en omgekeerd)
A1, … , An heten muteel statistisch onafhankelijk als voor elke deelverzameling Ai1 , … Aim geldt dat:
P (Ai1 … Aim) = P(Ai1) x … x P(Aim)
Met verzamelingen A,B,C en D:
P(A C) = P(A) x P(C)
P(B C) = P(B) x P(C)
P(D B) = P(D) x P(B)
…
P(A C D) = P(A) x P(C) x P(D)
P(A B C D) = P(A) x P(B) x P(C) x P(D)
Paarsgewijze statistische onafhankelijkheid is geen voldoende voorwaarde voor mutuele statistische
onafhankelijkheid! Andersom kan het ook (niet paarsgewijs, wel mutueel).
BEREKENING VAN KANSEN
Indien elk van de uitkomsten evenveel kans heeft om voor te komen regel van Laplace.
Dit is echter niet altijd het geval. Je kan altijd de regels uit de combinatoriek en rekenregels voor
kansen op samengestelde gebeurtenissen gebruiken.
COMBINATORIEK
Regel (Vermeningvuldigingsstelling):
Als de uitkomst van een TE bestaat uit het gezamenlijk resultaat van het na mekaar uitvoeren van k
operaties, waarbij de eerste operatie N1 verschillende deelresultaten kan hebben, waarbij de tweede
operatie na het uitvoeren van de eerste N2 verschillende deelresultaten kan hebben, enz. dan geldt:
#Ω = N1 x N2 x … Nk
Regel (aantal permutaties)
Het aantal mogelijkheden om n objecten te ordenen is gelijk aan nx(n-1) x … x 1; n!
Belang van met teruglegging of zonder teruglegging
Regel (aantal combinaties)
Het aantal mogelijkheden om zonder teruglegging uit een verzameling met N verschillende
elementen een deelverzameling van n elementen te trekken (waarvan de volgorde niet belangrijk is)
is gelijk aan:
Opmerking: deze regel kan ook worden gelezen als ‘Een verzameling van N elementen die bestaat uit
n identieke elementen en N-n andere identieke elementen kan op verschillende manieren
worden geordend. Deze regel kan verder direct worden veralgemeen voor het geval van
verzamelingen die meer dan twee verschillende soorten identieke elementen bevatten. Zo kan een
verzameling van N elementen die bestaat uit n1, n2, en N-n1-n2 identieke elementen op
Verschillende manieren worden geordend
Rekenregels voor kansen op samengestelde gebeurtenissen
P(Gc) = 1 – P(G)
P(A B) = P(A) x P(B|A) (geld voor afhankelijkheid en onafhankelijkheid)
Indien A en B statistisch onafhankelijk zijn:
P(A B) = P(A) x P(B)
Deze regels volgen onmiddellijk uit de definities van conditionele probabiliteit en statistische
onafhankelijkheid van gebeurtenissen. Zij kunnen direct veralgemeend worden naar het geval van
meer dan twee gebeurtenissen. Bv:
P(A B C) = P(A) x P(B|A) x P(C| A B)
P( A B) = P(A) + P(B) – P(A B)
Of indien A en B disjunct zijn (lege doorsnede, niet onafhankelijkheid): P( A B) = P(A) + P(B)
Bewijs pagina 133
COMBINATORIEK GECOMBINEERD MET REKENREGELS VOOR SAMENGESTELDE GEBEURTENISSEN
Berekenen hoeveel mogelijke uitkomsten er zijn (gebruik complement indien nodig)
Indien het gaat om statistische onafhankelijkheid kan je de kans berekenen op één mogelijke
uitkomst
Vervolgens vermenigvuldig je deze twee
Voorbeeld: Uit een boek kaarten worden er op toeval negen verschillende kaarten getrokken. Wat is
de kans dat er precies drie harten en drie ruiten tussen zitten?
Antwoord: als uitkomsten (H,H,H,R,R,R,A,A,A) waarbij A staat voor ander. Er zijn
dergelijke
uitkomsten in gebeurtenis G. Dit lees je als 9! Mogelijke ordeningen van de 9 letters die uiteenvallen
in groepjes van 3! X 3! X 3! Ordeningen die een identieke uitkomst opleveren. Als we verder H1
noteren voor de eerste kaart is harten, H2 voor de tweede kaart is harten enz dan geldt:
P(H,H,H,R,R,R,A,A,A) = P(H1) x P(H2|H1) x x P(H3|H1 H2) x ….
=
x
x
= 0.00003441
Bovendien hebben alle
uitkomsten in G dezelfde kans, en dus geldt dat:
P(G) =
x 0.00003441 = 0.5781
Populatiekarakteristieken van toevalsvariabelen
Populatiekarakteristieken zijn in het algemeen theoretische karakteristieken, in tegenstelling tot
steekproefkarakteristieken die gebaseerd zijn op empirische gegevens. De theorie waarop de
populatiekarakteristieken zijn gebaseerd wordt in het algemeen een statistisch model genoemd.
Problematiek van parameterschatting: het statistisch model is vaak onvolledig; het is op een aantal
punten niet volledig ingevuld. Via steekproefgegevens maken we een goede schatting van niet-
ingevulde populatiekarakteristieken
Problematiek van hypothesetoetsing: na gaan of een gepostuleerd statisch model, of onderdelen
ervan, houdbaar zijn in het licht van beschikbare steekproefgegevens
Populatiekarakteristieken van 1 toevalsvariabelen
Frequentie vindt je enkel terug in beschrijvende statistiek, de rest heeft tegenhanger in inductieve
π geeft net zoals p voorkomen van waarde aan maar gaat in tegenstelling tot p over
veronderstellingen en niet over de steekproef.
DISCRETE TOEVALSVARIABELE
Een discrete toevalsvariabele X heeft per definitie een waardengebied dat eindig of aftelbaar
oneindig is. We gebruiken π om aan te geven dat het om een theoretische kans gaat die geldt voor
de populatie van alle mogelijke reeksen achterliggend aan het bestudeerde TE.
Voor elke waarde xj in het waardengebied kunnen we P( {ω| X(ω) = xj}). Deze noteren we verkort als
πx(xj) of als er slechts één toevalsvariabele in het spel is π(xj).
Indien eerlijk en onafhankelijk! P(KMK) = ½ x ½ x ½ = 1/8 π(0)=1/8 π(1)=3/8 π(2)=3/8 π(3)=1/8 indien oneerlijk (bv P(K)=0.70) P(KMK)= 0.7 x 0.3 x 0.7 = 0.147 π(2)=3 * 0.147 = 0.441 OF 3x θ x (1- θ) x θ
Bijvoorbeeld bij P( {ω| X(ω) = 2}) worden de waarden bedoeld waarbij men twee keer kruis gooit.
∑
∑
θ = parameter = onbekende waarde
Als X een discrete toevalsvariabele is met waardengebied {x1, x2, ….} dan is de kansmassafunctie π
(of πx) gedefinieerd als volgt:
π:
x π(x)
met π(x)= P( {ω| X(ω) = xj}).
Hieruit volgt dan:
X: 0 ≤ π(x) ≤ 1
Als x waardengebied van X dan π(x) = 0
∑ ( )
de getallen zijn niet gelijk maar daarom niet noodzakelijk foute
theorie. Indien getallen verder uiteenlopen en patroon: een veronderstelling fout?
We kunnen π opvatten als de populatietegenhanger van de proportiefunctie p die we definieerden
voor steekproeven. Enerzijds zijn de verschillen tussen de twee functies niet zo groot (en lijkt er op
eerste zicht geen systematiek in te zitten), anderzijds kunnen we niet verwachten dat elke steekproef
precies dezelfde resultaten zal opleveren als elke andere steekproef (en dus ook geen
proportiefunctie die samenvalt met de kansmassafunctie).
Vanuit discrepanties tussen corresponderende populatie en steekproefkarakteristieken kan men
informatie afleiden over de psychologische mechanismen die achter de gegevens schuilen.
Zoals we bij steekproeven cumulatieve proportiefunctie F hebben, hebben we bij populaties
cumulatieve verdedigingsfunctie φ. Voor een willekeurige waarde x van een toevalsvariabele X geeft
φ(x) daarbij de kans aan dat X een waarde ≤x aanneemt.
Als X een toevalsvariabele is dan is de cumulatieve verdelingsfunctie φ (of φx )gedefinieerd als volgt:
φ:
x φ(x)
met φ(x)= P( {ω| X(ω) ≤ x}).
Hieruit volgt dan:
eerste stap is altijd nul voor eindig aantal waarden
laatste stap is altijd 1 voor eindig aantal waarden
φ(x)= ∑ ( )
op basis van de cumulatieve verdelingsfunctie kunnen verdere populatiekwantielen xr* worden
gedefinieerd met , r [0,1]: losweg gesproken kan men xr* opvatten als die waarde van de
toevalsvariabele X waarvoor geldt dat de kans r is dat X die waarde aanneemt P(X ≤ xr*)=r
als r [0,1] dan is het r-de populatiekwantiel xr* van variabele X gedefinieerd als volgt:
Geval 1: Er is een x met Φ(x)=r xr*= gemiddelde van kleinste x-waarde met Φ(x)=r en kleinste x-
waarde met Φ(x)>r.
Geval 2: Er is géén x met Φ(x)=r xr* = kleinste x met Φ(x)>r.
bijzondere populatiekwantielen:
percentielen (Pc1* ... Pc99*)
decielen (D1* ... D9*)
kwartielen (Q1* ... Q3*)
Voorbeelden: (1) neuroticisme-test (2) angstniveau van 1 persoon op een moment
B CONTINUE TOEVALSVARIABELE
Het waardengebied heeft overaftelbaar ∞ veel waarden.
Indien je hier dezelfde methode toepast als bij discrete, zal de kans altijd 0 zijn.
daarom kijken we naar de kansen in een bepaald interval. Dit wil dus zeggen dat men kansen
P(a≤X(ω)≤b) beschouwt met: P(a≤X(ω)≤b) = P({ω | a≤X(ω)≤b } waarbij a en b twee vaste getallen zijn
met a < b. de specificatie van een statistisch model voor een continue toevalsvariabele houdt in dat
men een waarde postuleert voor alle P(a≤X≤b). Dit doet men via de dichtheidsfuntie ϕx ≥0.
ϕx :
x ϕx (x)
Waarbij de oppervlakte onder deze functie a en b de kans P(a≤X≤b) aangeeft: deze oppervlakte
duiden we aan met: ∫
. De waarden van ϕx zelf zijn geen kansen, het dan dan ook dat voor
sommige ϕx deze groter zijn dan 1. Je berekent de kans door de oppervlakte te berekenen.
De kans van de totale oppervlakte onder de functie is altijd 1, waar de functie naar de x-as gaat is de
kans nul. Dit komt omdat de oppervlakte onder de functie overeenkomt met de zekere gebeurtenis
Ω. Als x een negatief getal is kan de functie niet hoger gaan dan y=0.
Als X een continue toevalsvariabele is dan is de dichtheidsfunctie ϕx gedefinieerd als volgt:
ϕx :
x ϕx (x)
met ϕ ≥0 en als a < b : P(a ≤ X ≤ b) = ∫
Hieruit volgt dan:
de dichtheidsfunctie is dus een niet-negatieve functie
de waarden zijn geen kansen
=
∫
= 1
dergelijke oppervlaktes kan je berekenen door de figuur op te delen in kleine
balkjes. Deze benadering werkt natuurlijk steeds beter met steeds kleinere balkjes.
Een statistisch model voor een toevalsvariabele X specificeren houdt dus in dat men een plausibele
dichtheidsfunctie voor deze variabele postuleert.
Oppervlakte van figuren:
Rechthoek, parallellogram: basis * hoogte
Vierkant: zijde²
Driehoek: basis * hoogte
2
Trapezium: kleine basis + grote basis * hoogte
2
Ruit: kleine diagonaal * grote diagonaal
2
Cirkel: π * straal²
In de statistiek zal men vaak dichtheidsfuncties onvolledig specificeren. Bijvoorbeeld weet men de
vorm wel maar niet de specifieke plaats van de top:
De definitie van een cumulatieve verdelingsfunctie is dezelfde voor discrete en continue
toevalsvariabelen. Voor continue toevalsvariabelen geldt hierbij dat:
Φ(x) = P(X ≤ x ) = ∫
bij continue toevalsvariabelen gaat het niet om een trapfunctie zoals
bij discrete
1.2 Samenvattende maten:
Populatiemodus: elke waarde x waarvoor π(x) respectievelijk ϕ(x) maximaal
Populatiemediaan (Me*x) PC50* = D5* = Q2*
Populatiegemiddelde:
= verwachte waarde
= µx of E[X] = expected value
o Geval 1: X discreet en eindig waardengebied
∑
∑| | ( )
o Geval 2: X discreet, aftelbaar oneindig waardengebied
Dit wil zeggen dat als ∑ absoluut convergeert (benaderd), is het
populatiegemiddelde gelijk aan
∑
∑
o Geval 3: X continu
∫ ∫ | |
Dit heeft te maken met het feit dat we dan de functie in kleinere intervallen
(rechthoekjes) opdelen
Drie verschillende interpretaties van het populatiegemiddelde:
(1) als "steekproefgemiddelde" van een (meestal) ∞ grote steekproef ; de beoogde populatie
(2) als "verwachte winst/verlies" in een gokspel
(3) als "evenwichtspunt" van een balans (kantelpunt waarvoor de weegschaal in evenwicht is)
symmetrisch zie je aan top
Enkele belangrijke eigenschappen van het populatiegemiddelde:
[ ] Hier mag je E en niet door elkaar gebruiken,
E is de verwachting over alle steekproeven en is de verwachting voor populatie X
Als c ≠ µx dan E[(X - µx)²] < E [(X – c)²]
Dit volgt uit
E [( X-c)²] = E[(X - µx)²] + (µx - c)²
Hier mag je E eb wel door elkaar gebruiken
In het geval van discrete toevalsvariabelen:
[ ] ∑
[ ] ∑
1.3 Spreidingsmaten
Bereik: Max X – Min X (indien deze bestaan)
Interkwartielbereik: Q*3 – Q*
1
Populatievariantie : [
] met [ ] ∑
Populatie standaarddeviatie = √
Enkele belangrijke eigenschappen van
[ ]
of
Ongelijkheid van Tchebychev:
Als k > dan P(|X - µx| ≥k ≤ 1/k²
Als k’ > dan P(|X - µx| ≥k’ ≤ 1/k’
Transformatie van toevalsvariabelen
( ) ∑
( )
[ ] ∑
[ ] ∑
In het algemeen geldt dat als X een TV is met kansmassafunctie (of dichtheidsfunctie), dat als Y =
f(X):
- X decreet: [ ] ∑
- X continu: [ ] ∫
Bijzonder geval; lineaire transformatie (bewijs pagina 165):
Als Y = aX + b dan E[Y] = a E[X] + b
dan
-> E neemt niet alle eigenschappen van sommatie over (bewijs p165)
Ipv Z-transformatie nu ζ transformatie met
Er geldt dat
2.2 populatiekarakteristieken van twee TV
A TWEE DISCRETE TOEVALSVARIABELEN
Voor elke waarde (xj, yj’) in het waardengebied kunnen we de kans P ({ω | (X,Y) (ω) = (xj, yj’)})
Deze noteren we verder kortweg als πX,Y (xj, yj’)
Hieruit volgt dat:
- (x,y) : 0 ≤ πX,Y (x,y) ≤ 1
- Als (x,y) waardengebied van (X,Y) dan πX,Y (x,y) =0
- ∑ ( )
Je kan deze best voorstellen in een tabel met twee ingangen. De rijen van deze tabel corresponderen
dan met de x-waarden en de kolommen met de y-waarden. In de marges van de tabel zijn de kolom
en rijtotalen weergeven (= marginale kansmassafuncties). nDe marginale kansmassafuncties van een
bivariate toevalsvariabele (X,Y) zijjn dus gelijk aan de (univariate) kansmassafncties van X en Y.
We kunnen dit grafisch voorstellen in een driedimensionele histogram waarbij het volume van de
voorgestelde staven overeenkomt met de waarden van de kansmassafunctie.
Als (X,Y) een discrete toevalsvariabele is met waarden ( ) en met kansmassafunctie
( ), dan is voor elke xj in het waardengebied van X met
|
|
een conditionele kansmassafunctie.
analoog is ook voor elke yj’ in het waardengebied van Y met
|
|
een conditionele kansmassafunctie.
Dit kan je ook overzichtelijk in een tabel zetten. Hierbij is elke rij op een vermenigvuldigingsfactor na
gelijk aan de overeenkomstige rij uit de eerder gegeven tabel van de bivariate kansmassafunctie. Alle
rijtotalen zijn bovendien (op afrondingsfouten na) gelijk aan 1.
Als (X,Y) een discrete toevalsvariabele is met X-waarden xj en Y-waarden Yj’ dan zijn de volgende
eigenschappen equivalent:
j, j’ : ( ) ( ) ( )
j : |
j’ : |
Als deze eigenschappen gelden, dan zegt men dat toevalsvariabelen X en Y statistisch onafhankelijk
zijn. Voor te bewijzen denk er aan dat het ene slechts geldt als het andere geldt. Bewijs dat 2 uit 1
volgt, 3 uit 2 en 1 uit 3
Opmerkingen:
De laatste twee impliceren dat alle conditionele kansmassafuncties aan mekaar gelijk zijn.
Informatie over X geeft niet meer informatie over de (conditionele) verdeling van Y en
omgekeerd.
Het begrip statistisch onafhankelijke toevalsvariabelen sluit direct aan bij het begrip
statistisch onafhankelijke gebeurtenissen. Deze eigenschap impliceert overigens ook dat φX,Y
(x,y) = φx (x) maal φy (y), en dit voor alle X en Y waarden
B TWEE CONTINUE TOEVALSVARIABELEN
Dit kan voorgesteld worden in een dergelijke figuur:
kan meerdere toppen hebben
Waarbij het volume onder deze functie boven het oppervlakte van de rechthoek [a,b] x [c,d] de kans
P(a≤ X ≤ b en c ≤ Y ≤ d) aangeeft. Het volume onder ϕX,Y boven een bepaalde rechthoek noteren we
verder als (integralen voor aanduiding volume bergoppervlakte):
∫ ∫
∫ ∫
Als (X,Y) een continue toevalsvariabele is met bivariate dichtheidsfunctie ϕX,Y , dan impliceert ϕX,Y
dichtheidsfuncties ϕX en ϕY voor X en Y, welke we marginale dichtheidsfuncties noemen. Er geldt
dat:
∫
∫
Definitie:
Als (X,Y) een continue toevalsvariabele is met bivariate dichtheidsfunctie ϕX,Y , dan is voor elke yj’ met
( ) :
|
| |
Een conditionele dichtheidsfunctie. Andersom geldt dit voor elke xj met ( ) .
In de grafiek hierboven kunnen conditionele dichtheidsfuncties op ene vermenigvuldigingsfactor na
worden bekomen door het oppervlak van te doorsnijden met een vlak loodrecht op de X-as ter
hoogte van x. De vermenigvuldigingsfactor,
zorgt er eenvoudigweg voor dat de oppervlakte
onder | gelijk is aan 1.
Als (X,Y) een continue toevalsvariabele is met dichtheidsfunctie dan zijn de volgende
eigenschappen equivalent:
x, y :
x met : |
y met : |
Als deze eigenschappen gelden, dan zegt men dat X en Y statistisch onafhankelijk zijn.
2.2.2 samenvattende maten
Centrale tendensmaten
Conditioneel verwachte waarden of conditionele populatiegemiddelden:
= µY|X = xj of E [Y|X = xj]
o (X,Y) discreet: | ∑ |
∑ |
o (X,Y): continu: | ∫ |
∫ |
Spreidingsmaten
Conditionele populatievarianties:
= |
|
o (X,Y) discreet: | ∑
| |
∑ | |
(X,Y): continu: | ∫
| |
∫ | |
Voor de berekening van variantie gebruiken we vaak volgende eigenschap:
| [ | ] [ | ]
| [ | ] [ | ]
Populatiecovariantie
= [ ( )]
(X,Y) discreet: [ ( )]
∑
(X,Y): continu: [ ( )
∫∫( ) ( )
Nog enkele eigenschappen:
[ ]
[ ]
en
en Z-transformatie: geen meeteenheid
Populatiecorrelatie:
Enkele eigenschappen:
Met als gevolg:
a) ⇔ [ ]
b) ⇔ [ ]
Als X en Y statistisch onafhankelijk zijn dan :
Bewijs p188
Let op: de populatiecorrelatie kan nul zijn zonder dat er sprake is van statistische
onafhankelijkheid.
Somvariabelen
Meer algemeen geldt:
[ ∑ ] ∑ [ ]
∑
∑
∑
∑ ∑ ∑
2.3 Relatie tussen steekproef en populatiekarakteristieken van toevalsvariabelen
= brug tussen beschrijvende en inductieve statistiek
Psychologen willen uitspraken doen over populatiekarakteristieken van toevalsvariabelen die voor
haar of hem onbekend zijn. Hierbij hebben we twee opties:
Parameterschatting: de grootte van een onbekende parameter willen kunnen, met name µx
en pxy.
Hypothesetoetsing: weten of een veronderstelling of hypothese mbt parameters ( µx > µy)
wel degelijk klopt.
Methodes om parameterschatting te doen:
Beperkte steekproef trekken, zo verkrijgen we een schatting van het gezochte
populatiegemiddelde
= een statistiek = schatters
Probleem: vinden van goede statistieken
o Het gemiddelde van alle schattingen moeten zo dicht mogelijk bij het ware getal
liggen.
o Hierbij zijn X1, X2 en X3 niet identiek, maar hebben wel allemaal dezelfde
kansmassafunctie = identiek verdeeld
Idd = independent and identically distributed = identiek verdeeld + onafhankelijk
is de statistiek die vanuit elke steekproef een schatting van µx oplevert.
Verwachte waarde is hierbij op te vatten als de verwachte waarde van de verdeling van de
statistiek over alle mogelijke steekproeven heen.
In het algemeen noemt men de verdeling (kansmassafunctie of dichtheidsfunctie) van een
statistiek de steekproevenverdeling van die statistiek.
2 MANIEREN OM [ ] AAN TE TONEN
1) Manier 1
X1, X2 en X3 = idd
ϴ = πx1 (1) = πx2 (1) = πx3 (1)
0 1/3 2/3 1 Hieruit volgt dat:
[ ]
2) Manier 2
[ ] [
]
[ ] [ ] [ ]
Bovendien identiek verdeeld!
[ ] [ ] [ ]
[ ]
[ ]
= een zuivere schatter: een schatter die als verwachte waarde de te schatten parameter heeft
o We wensen ook dat de schattingen die we hebben gemiddeld genomen niet al te ver
afwijken van de ware parameterwaarde
o = we kunnen dus ook evalueren in termen van de verwachte kwadratische fout,
daarbij wordt de verwachte waarde opnieuw genomen over alle mogelijke
steekproeven.
o In het geval van [ ] = standaardfout
o
(zie pagina 201)
o Grotere steekproeven leveren preciezere schattingen
[( ) ]
familie schatters is consistent
Opmerkingen:
1) Deze voorgaande stellingen gelden zowel voor toepassingen bij kansspelen als psychologisch
relevante vraagstukken
2) We toonden in het geval van een 1-0 toevalsvariabele X aan dat een zuivere schatter is
van µx en dat [ ]
. Deze eigenschappen gleden echter voor alle soorten
toevalsvariabelen X (als X1, X2, … idd zijn).
Inductieve statistiek telt niet op over n observaties
3) Ook voor andere parameters dan populatiegemiddelden kan naar goede schatters gezocht
worden. Zo kan men bv populatiekwantielen (waaronder voor elke populatiekarakteristiek
zou men zich daarbij kunnen afvragen of de steekproeftegenhanger een goede schatter
oplevert). Zo zou men bv kunnen proberen te schatten met als statistiek de
steekproefvariantie. Deze noteren we als (zoals met een hoofdletter om aan te geven
dat we hem nu beschouwen als toevalsvariabele). is echter geen zuivere schatter van
,
het is een zuivere schatter van
. hiervoor geldt echter wel weer hoe groter de
steekproefomvang, hoe dichter het gemiddelde schot bij de roos zal liggen. We noemen
asymptotisch zuivere schatter van .
Wat is dan wel een zuivere schatter van :
welke elke steekproef van omvang n afbeeldt op:
∑
en dus ook enkele andere zuivere schatters :
∑
is slechts een asymptotisch zuivere schatter van
Zuivere schatter: [ ]
4) In het algemeen is een belangrijke uitdaging voor de inductieve statistiek het vinden van
goede statistieken. Met goed als betekenis:
a. Goede wiskundige eigenschappen (zuiverheid, consistentie)
b. Een goede psychologische interpreteerbaarheid en inhoudelijke relavantie
Top Related