Download - Statistiek: inductieve statistiek...Gebeurtenis Een gebeurtenis A is een deelverzameling van de uitkomstenverzameling Ω , A Ω. Men zegt dat een gebeurtenis plaatsvindt als het TE

Statistiek: inductieve statistiek

1. Conceptueel kader

Gegevens hebben altijd betrekking op een beperkt aantal objecten of experimentele eenheden. Vaak

wil men vanuit gegevens afleidingen maken over een veel groter aantal objecten of experimentele

eenheden.

Populatie: verzameling van alle objecten of experimentele eenheden waarover men uiteindelijk

uitspraken wil doen. De omvang van populatie = N

Soms is de volgorde van belang (bv tijd), soms niet (bv dobbelsteen worpen)

Een populatie kan zowel eindig (bv alle mensen) als oneindig (bv worpen dobbelsteen) zijn.

Het kan aftelbaar oneindig of niet aftelbaar oneindig zijn.

De redenen waarom je vanuit een beperkte groep objecten afleidingen wil maken over een

populatie:

Populatie te groot om in haar geheel te onderzoeken

Het verzamelen van gegevens over een object veroorzaakt de vernietiging van het object

De verzameling objecten waarop de gegevens betrekking hebben en van waaruit men inferenties wil

maken over de populatie wordt de steekproef genoemd.

Steekproef: is een geordende verzameling van elementen uit een populatie. Omvang = n

Aangezien het om een geordende steekproef gaat gebruiken we geordende haakjes.

Eenzelfde element in een steekproef kan verschillende keren voorkomen

De volgorde van de elementen is van belang (bv tijd), soms ook niet (bv dobbelsteen worp)

Er zijn ook ongeordende deelverzamelingen, dan gebruiken we wel accolades

Inductieve statistiek: vanuit gegevens over een steekproef op statistische gronden afleidingen m.b.t.

een bepaalde populatie.

Proces gegevensverzameling:

Stap 1: Uitvoering van een toevalsexperiment. Bv testen afnemen

Stap 2: Bepaling van de uitkomst. Bv alle gegevens wat je in het dossier steekt

Stap 3: Bepaling van de score op een toevalsvariabele.

Kansuitspraken: bv. Hoe groot is de kans dat als je goed scoort op test 1, je ook goed scoort op test 2

Stap 1: Uitvoering van een toevalsexperiment. volgens vaste regels wordt een procedure uitgevoerd, , een steekproef wordt getrokken waarop een aantal operaties worden toegepast.

Stap 2: Bepaling van de uitkomst.

Van alle informatie die het toevalsexperiment oplevert, wordt een beperkt deel, de uitkomst geregistreerd. Stap 3: Bepaling van de score op een toevalsvariabele.

Voor elke uitkomst kan men de numerieke waarde bepalen van de variabele(n) X waarin men

geïnteresseerd is

Toevalsexperiment en steekproeftrekking

Toevalsexperiment: een procedure die:

1) Volgens vaste regels wordt uitgevoerd (niet noodzakelijk experiment)

2) Gegevens oplevert die niet met zekerheid kunnen voorspeld worden vanuit de condities waaronder het experiment plaatsvindt

a. Deterministisch experiment: een experiment waarvan het resultaat op basis van omstandigheden van het experiment wel precies kan bepaald worden

3) In principe (onbeperkt) haalbaar is, dit moet enkel conceptueel (in theorie) mogelijk zijn

Een toevalsexperiment houdt typisch in dat een steekproef (van omvang n) wordt getrokken uit de

populatie, verschillende waarden van n corresponderen daarbij met verschillende

toevalsexperimenten.

Steekproeftrekking met en zonder teruglegging: na trekking van elk element van de steekproef

wordt dit wel/niet terug toegevoegd aan de populatie alvorens een volgend element wordt

getrokken. (Geen leereffecten, niet meer spontaan)

Gevolgen bij steekproeftrekking met teruglegging:

(1) kan eenzelfde element uit de populatie in eenzelfde steekproef meermaals voorkomen

(2) kan het dat n > N (ja)

(3) blijft de populatiesamenstelling constant tijdens de steekproeftrekking

In onderzoek is vaak steekproeftrekking zonder teruglegging vereist. Statistisch gezien is

steekproeftrekking met teruglegging soms wel interessant. Veel van deze statistische bewerkingen

kan je ook gebruiken bij steekproeven zonder teruglegging als de steekproefomvang (n) veel kleiner

is dan de populatieomvang (N). de samenstelling van de populatie verandert dan immers niet

noemenswaardig gedurende de steekproeftrekking.

De trekking van een steekproef met omvang n gebeurt op zuiver toevallig wijze (ZTW, dus met

teruglegging) als dit gebeurt met teruglegging en op een dusdanige manier dat elke geordende

deelverzameling van n elementen uit de populatie evenveel kans heeft om als steekproef getrokken

te worden.

Steekproeftrekking op ZTW in de praktijk vaak via toevalsgetallen

rekenmachine TI-30XS Multiview: functie randint onder RAND onder toets prb

Opmerkingen:

-computer of rekenmachine generereert pseudotoevalsgetallen

-belang van toevalszaadje (TI-30XS Multiview: geheugen- register RAND)

Opmerkingen:

representativiteit : steekproef gelijkt op populatie

ZTW garandeert dit niet

gestratificeerde steekproeftrekking: garantie tot bepaalde informatie-aspecten.

Strata = homogene deelpopulaties. Gestratificeerde steekproef= per stratum ZTW

in de psychologie vaak selecte steekproeven:

Blanke, jonge, westerse, psychologie studenten

maar kunnen we dan inferenties maken over de beoogde populatie?

o Het is niet uitgesloten. Steekproeftrekking op ZTW is voor zo iets immers wel een

voldoende maar geen noodzakelijke voorwaarde

o Het is afhankelijk van wat men bestudeert. Indien het gaat om populatiecorrelatie is

dit een optie.

o Of de deelpopulatie waaruit men een selecte steekproef trekt vergelijkbaar is met de

totale populatie is een theoretische aanname

Uitkomsten van de uitkomstenverzameling

Stap 2: Bepaling van de uitkomst.

Elke uitvoering van een TE leidt tot unieke reeks gegevens= resultaat van het TE

(bv tijd, locatie is anders)

Het gedeelte van gegevens dat informatief is= uitkomst van het TE

De verzameling van alle mogelijke uitkomsten van TE= uitkomstenverzameling of steekproefruimte

van het TE. Symbool = Ω.

(Bv thuis met twee anderen)

De uitkomstenverzameling heet discreet (eindig of aftelbaar oneindig) of continu (oneindig). Voor

eenzelfde TE kan men verschillende uitkomstenverzamelingen beschouwen. Individuele uitkomsten

kunnen zowel afzonderlijke elementen zijn als geordende of niet-geordende verzamelingen.

Elk TE impliceert het trekken van een steekproef van omvang n. verschillende waarden van n

corresponderen dan ook met verschillende TE en verschillende uitkomstenverzamelingen. Om dit

duidelijk te maken zet men soms de waarde van n bij het symbool Ω. Bv Ωn=2.

Als er iets veranderd aan n, veranderd zowel TE als Ω.

Toevalsvariabelen

Een toevalsvariabele X is een functie van de uitkomstenverzameling van een TE naar .

Ook hier hebben we discrete en continue toevalsvariabelen.

Gebeurtenis

Een gebeurtenis A is een deelverzameling van de uitkomstenverzameling Ω , A Ω.

Men zegt dat een gebeurtenis plaatsvindt als het TE dat men beschouwt leidt tot één van haar

uitkomsten. We nemen hier aan dat elke deelverzameling van Ω een gebeurtenis is, bij oneindige Ω

worden er soms beperkingen op gelegd. Enkele bijzondere gebeurtenissen:

- Ø : de lege gebeurtenis

- Ω : de zekere gebeurtenis (universele verzameling)

- {ω}: alle singletons of deelverzamelingen van Ω die slechts één uitkomst bevatten, deze

heten elementaire gebeurtenissen

- Gebeurtenissen die afgeleid zijn van toevalsvariabelen

Gebeurtenissen zijn verzamelingen en als zodanig kunnen die op verzamelingen gedefinieerd zijn ook

op gebeurtenissen worden uitgevoerd. Hierbij geldt ook dat als A B = Ø , de gebeurtenissen A en B

zijn disjunct of mutueel exclusief.

Kans op kansrekenen

HET BEGRIP KANS (PROBABILITEIT)

Gegeven een uitkomstenverzameling (Ω) en de verzameling van alle gebeurtenissen (G) .

Een kans (P) is een functie:

P: G [0,1] kans altijd tussen 0 en 1

G P(G)

Met P(Ω) = 1 = zekere gebeurtenis

Als G1 , …, Gm gebeurtenissen zijn met Gi Gi’ = Ø als i ≠ i’

dan P(G1 … Gm) = P(G1 ) + …P(Gm) ZONDER overlap

Indien de uitkomstenverzameling eindig is houvast om kansen te bepalen

P(G) =∑

Regel van Laplace: indien alle uitkomsten evenveel kans hebben om voor te komen

Als alle uitkomsten in een eindige uitkomstenverzamling (= Ω) even waarschijnlijk zijn dan geldt voor

elke gebeurtenis G Ω:

VOORWAARDELIJKE KANS (CONDITIONELE PROBABILITEIT)

De conditionele probabiliteit op A gegeven B, P(A|B), is gedefinieerd als:

| ( )

|

P(Ac|B) = 1 – P(A|B)

REGEL VAN BAYES

P(B|A) = P(A B) P(A B) = P(A|B) x P(B)

P(A)

P(A) = P(A B) + P(A Bc) P(A Bc) = P(A|Bc) x P(Bc) P(Bc) = 1 – P(B)

P(A) = P(A|B) P(B) + P(A|Bc) P(Bc)

| |

|

| |

STATISTISCHE ONAFHANKELIJKHEID VAN GEBEURTENISSEN

Als P(A) ≠ 0 ≠ P(B) dan zijn de volgende eigenschappen equivalent:

1) P(A|B) = P(A)

2) P(B|A) = P(B)

3) P(A B) = P(A) x P(B)

A en B zijn statistisch onafhankelijk.

Informatie over het plaatsvinden van gebeurtenis B verandert niets aan de kans op het

voorkomen van A (en omgekeerd)

A1, … , An heten muteel statistisch onafhankelijk als voor elke deelverzameling Ai1 , … Aim geldt dat:

P (Ai1 … Aim) = P(Ai1) x … x P(Aim)

Met verzamelingen A,B,C en D:

P(A C) = P(A) x P(C)

P(B C) = P(B) x P(C)

P(D B) = P(D) x P(B)

…

P(A C D) = P(A) x P(C) x P(D)

P(A B C D) = P(A) x P(B) x P(C) x P(D)

Paarsgewijze statistische onafhankelijkheid is geen voldoende voorwaarde voor mutuele statistische

onafhankelijkheid! Andersom kan het ook (niet paarsgewijs, wel mutueel).

BEREKENING VAN KANSEN

Indien elk van de uitkomsten evenveel kans heeft om voor te komen regel van Laplace.

Dit is echter niet altijd het geval. Je kan altijd de regels uit de combinatoriek en rekenregels voor

kansen op samengestelde gebeurtenissen gebruiken.

COMBINATORIEK

Regel (Vermeningvuldigingsstelling):

Als de uitkomst van een TE bestaat uit het gezamenlijk resultaat van het na mekaar uitvoeren van k

operaties, waarbij de eerste operatie N1 verschillende deelresultaten kan hebben, waarbij de tweede

operatie na het uitvoeren van de eerste N2 verschillende deelresultaten kan hebben, enz. dan geldt:

#Ω = N1 x N2 x … Nk

Regel (aantal permutaties)

Het aantal mogelijkheden om n objecten te ordenen is gelijk aan nx(n-1) x … x 1; n!

Belang van met teruglegging of zonder teruglegging

Regel (aantal combinaties)

Het aantal mogelijkheden om zonder teruglegging uit een verzameling met N verschillende

elementen een deelverzameling van n elementen te trekken (waarvan de volgorde niet belangrijk is)

is gelijk aan:

Opmerking: deze regel kan ook worden gelezen als ‘Een verzameling van N elementen die bestaat uit

n identieke elementen en N-n andere identieke elementen kan op verschillende manieren

worden geordend. Deze regel kan verder direct worden veralgemeen voor het geval van

verzamelingen die meer dan twee verschillende soorten identieke elementen bevatten. Zo kan een

verzameling van N elementen die bestaat uit n1, n2, en N-n1-n2 identieke elementen op

Verschillende manieren worden geordend

Rekenregels voor kansen op samengestelde gebeurtenissen

P(Gc) = 1 – P(G)

P(A B) = P(A) x P(B|A) (geld voor afhankelijkheid en onafhankelijkheid)

Indien A en B statistisch onafhankelijk zijn:

P(A B) = P(A) x P(B)

Deze regels volgen onmiddellijk uit de definities van conditionele probabiliteit en statistische

onafhankelijkheid van gebeurtenissen. Zij kunnen direct veralgemeend worden naar het geval van

meer dan twee gebeurtenissen. Bv:

P(A B C) = P(A) x P(B|A) x P(C| A B)

P( A B) = P(A) + P(B) – P(A B)

Of indien A en B disjunct zijn (lege doorsnede, niet onafhankelijkheid): P( A B) = P(A) + P(B)

Bewijs pagina 133

COMBINATORIEK GECOMBINEERD MET REKENREGELS VOOR SAMENGESTELDE GEBEURTENISSEN

Berekenen hoeveel mogelijke uitkomsten er zijn (gebruik complement indien nodig)

Indien het gaat om statistische onafhankelijkheid kan je de kans berekenen op één mogelijke

uitkomst

Vervolgens vermenigvuldig je deze twee

Voorbeeld: Uit een boek kaarten worden er op toeval negen verschillende kaarten getrokken. Wat is

de kans dat er precies drie harten en drie ruiten tussen zitten?

Antwoord: als uitkomsten (H,H,H,R,R,R,A,A,A) waarbij A staat voor ander. Er zijn

dergelijke

uitkomsten in gebeurtenis G. Dit lees je als 9! Mogelijke ordeningen van de 9 letters die uiteenvallen

in groepjes van 3! X 3! X 3! Ordeningen die een identieke uitkomst opleveren. Als we verder H1

noteren voor de eerste kaart is harten, H2 voor de tweede kaart is harten enz dan geldt:

P(H,H,H,R,R,R,A,A,A) = P(H1) x P(H2|H1) x x P(H3|H1 H2) x ….

=

x

x

= 0.00003441

Bovendien hebben alle

uitkomsten in G dezelfde kans, en dus geldt dat:

P(G) =

x 0.00003441 = 0.5781

Populatiekarakteristieken van toevalsvariabelen

Populatiekarakteristieken zijn in het algemeen theoretische karakteristieken, in tegenstelling tot

steekproefkarakteristieken die gebaseerd zijn op empirische gegevens. De theorie waarop de

populatiekarakteristieken zijn gebaseerd wordt in het algemeen een statistisch model genoemd.

Problematiek van parameterschatting: het statistisch model is vaak onvolledig; het is op een aantal

punten niet volledig ingevuld. Via steekproefgegevens maken we een goede schatting van niet-

ingevulde populatiekarakteristieken

Problematiek van hypothesetoetsing: na gaan of een gepostuleerd statisch model, of onderdelen

ervan, houdbaar zijn in het licht van beschikbare steekproefgegevens

Populatiekarakteristieken van 1 toevalsvariabelen

Frequentie vindt je enkel terug in beschrijvende statistiek, de rest heeft tegenhanger in inductieve

π geeft net zoals p voorkomen van waarde aan maar gaat in tegenstelling tot p over

veronderstellingen en niet over de steekproef.

DISCRETE TOEVALSVARIABELE

Een discrete toevalsvariabele X heeft per definitie een waardengebied dat eindig of aftelbaar

oneindig is. We gebruiken π om aan te geven dat het om een theoretische kans gaat die geldt voor

de populatie van alle mogelijke reeksen achterliggend aan het bestudeerde TE.

Voor elke waarde xj in het waardengebied kunnen we P( {ω| X(ω) = xj}). Deze noteren we verkort als

πx(xj) of als er slechts één toevalsvariabele in het spel is π(xj).

Indien eerlijk en onafhankelijk! P(KMK) = ½ x ½ x ½ = 1/8 π(0)=1/8 π(1)=3/8 π(2)=3/8 π(3)=1/8 indien oneerlijk (bv P(K)=0.70) P(KMK)= 0.7 x 0.3 x 0.7 = 0.147 π(2)=3 * 0.147 = 0.441 OF 3x θ x (1- θ) x θ

Bijvoorbeeld bij P( {ω| X(ω) = 2}) worden de waarden bedoeld waarbij men twee keer kruis gooit.

∑

∑

θ = parameter = onbekende waarde

Als X een discrete toevalsvariabele is met waardengebied {x1, x2, ….} dan is de kansmassafunctie π

(of πx) gedefinieerd als volgt:

π:

x π(x)

met π(x)= P( {ω| X(ω) = xj}).

Hieruit volgt dan:

X: 0 ≤ π(x) ≤ 1

Als x waardengebied van X dan π(x) = 0

∑ ( )

de getallen zijn niet gelijk maar daarom niet noodzakelijk foute

theorie. Indien getallen verder uiteenlopen en patroon: een veronderstelling fout?

We kunnen π opvatten als de populatietegenhanger van de proportiefunctie p die we definieerden

voor steekproeven. Enerzijds zijn de verschillen tussen de twee functies niet zo groot (en lijkt er op

eerste zicht geen systematiek in te zitten), anderzijds kunnen we niet verwachten dat elke steekproef

precies dezelfde resultaten zal opleveren als elke andere steekproef (en dus ook geen

proportiefunctie die samenvalt met de kansmassafunctie).

Vanuit discrepanties tussen corresponderende populatie en steekproefkarakteristieken kan men

informatie afleiden over de psychologische mechanismen die achter de gegevens schuilen.

Zoals we bij steekproeven cumulatieve proportiefunctie F hebben, hebben we bij populaties

cumulatieve verdedigingsfunctie φ. Voor een willekeurige waarde x van een toevalsvariabele X geeft

φ(x) daarbij de kans aan dat X een waarde ≤x aanneemt.

Als X een toevalsvariabele is dan is de cumulatieve verdelingsfunctie φ (of φx )gedefinieerd als volgt:

φ:

x φ(x)

met φ(x)= P( {ω| X(ω) ≤ x}).

Hieruit volgt dan:

eerste stap is altijd nul voor eindig aantal waarden

laatste stap is altijd 1 voor eindig aantal waarden

φ(x)= ∑ ( )

op basis van de cumulatieve verdelingsfunctie kunnen verdere populatiekwantielen xr* worden

gedefinieerd met , r [0,1]: losweg gesproken kan men xr* opvatten als die waarde van de

toevalsvariabele X waarvoor geldt dat de kans r is dat X die waarde aanneemt P(X ≤ xr*)=r

als r [0,1] dan is het r-de populatiekwantiel xr* van variabele X gedefinieerd als volgt:

Geval 1: Er is een x met Φ(x)=r xr*= gemiddelde van kleinste x-waarde met Φ(x)=r en kleinste x-

waarde met Φ(x)>r.

Geval 2: Er is géén x met Φ(x)=r xr* = kleinste x met Φ(x)>r.

bijzondere populatiekwantielen:

percentielen (Pc1* ... Pc99*)

decielen (D1* ... D9*)

kwartielen (Q1* ... Q3*)

Voorbeelden: (1) neuroticisme-test (2) angstniveau van 1 persoon op een moment

B CONTINUE TOEVALSVARIABELE

Het waardengebied heeft overaftelbaar ∞ veel waarden.

Indien je hier dezelfde methode toepast als bij discrete, zal de kans altijd 0 zijn.

daarom kijken we naar de kansen in een bepaald interval. Dit wil dus zeggen dat men kansen

P(a≤X(ω)≤b) beschouwt met: P(a≤X(ω)≤b) = P({ω | a≤X(ω)≤b } waarbij a en b twee vaste getallen zijn

met a < b. de specificatie van een statistisch model voor een continue toevalsvariabele houdt in dat

men een waarde postuleert voor alle P(a≤X≤b). Dit doet men via de dichtheidsfuntie ϕx ≥0.

ϕx :

x ϕx (x)

Waarbij de oppervlakte onder deze functie a en b de kans P(a≤X≤b) aangeeft: deze oppervlakte

duiden we aan met: ∫

. De waarden van ϕx zelf zijn geen kansen, het dan dan ook dat voor

sommige ϕx deze groter zijn dan 1. Je berekent de kans door de oppervlakte te berekenen.

De kans van de totale oppervlakte onder de functie is altijd 1, waar de functie naar de x-as gaat is de

kans nul. Dit komt omdat de oppervlakte onder de functie overeenkomt met de zekere gebeurtenis

Ω. Als x een negatief getal is kan de functie niet hoger gaan dan y=0.

Als X een continue toevalsvariabele is dan is de dichtheidsfunctie ϕx gedefinieerd als volgt:

ϕx :

x ϕx (x)

met ϕ ≥0 en als a < b : P(a ≤ X ≤ b) = ∫

Hieruit volgt dan:

de dichtheidsfunctie is dus een niet-negatieve functie

de waarden zijn geen kansen

=

∫

= 1

dergelijke oppervlaktes kan je berekenen door de figuur op te delen in kleine

balkjes. Deze benadering werkt natuurlijk steeds beter met steeds kleinere balkjes.

Een statistisch model voor een toevalsvariabele X specificeren houdt dus in dat men een plausibele

dichtheidsfunctie voor deze variabele postuleert.

Oppervlakte van figuren:

Rechthoek, parallellogram: basis * hoogte

Vierkant: zijde²

Driehoek: basis * hoogte

2

Trapezium: kleine basis + grote basis * hoogte

2

Ruit: kleine diagonaal * grote diagonaal

2

Cirkel: π * straal²

In de statistiek zal men vaak dichtheidsfuncties onvolledig specificeren. Bijvoorbeeld weet men de

vorm wel maar niet de specifieke plaats van de top:

De definitie van een cumulatieve verdelingsfunctie is dezelfde voor discrete en continue

toevalsvariabelen. Voor continue toevalsvariabelen geldt hierbij dat:

Φ(x) = P(X ≤ x ) = ∫

bij continue toevalsvariabelen gaat het niet om een trapfunctie zoals

bij discrete

1.2 Samenvattende maten:

Populatiemodus: elke waarde x waarvoor π(x) respectievelijk ϕ(x) maximaal

Populatiemediaan (Me*x) PC50* = D5* = Q2*

Populatiegemiddelde:

= verwachte waarde

= µx of E[X] = expected value

o Geval 1: X discreet en eindig waardengebied

∑

∑| | ( )

o Geval 2: X discreet, aftelbaar oneindig waardengebied

Dit wil zeggen dat als ∑ absoluut convergeert (benaderd), is het

populatiegemiddelde gelijk aan

∑

∑

o Geval 3: X continu

∫ ∫ | |

Dit heeft te maken met het feit dat we dan de functie in kleinere intervallen

(rechthoekjes) opdelen

Drie verschillende interpretaties van het populatiegemiddelde:

(1) als "steekproefgemiddelde" van een (meestal) ∞ grote steekproef ; de beoogde populatie

(2) als "verwachte winst/verlies" in een gokspel

(3) als "evenwichtspunt" van een balans (kantelpunt waarvoor de weegschaal in evenwicht is)

symmetrisch zie je aan top

Enkele belangrijke eigenschappen van het populatiegemiddelde:

[ ] Hier mag je E en niet door elkaar gebruiken,

E is de verwachting over alle steekproeven en is de verwachting voor populatie X

Als c ≠ µx dan E[(X - µx)²] < E [(X – c)²]

Dit volgt uit

E [( X-c)²] = E[(X - µx)²] + (µx - c)²

Hier mag je E eb wel door elkaar gebruiken

In het geval van discrete toevalsvariabelen:

[ ] ∑

[ ] ∑

1.3 Spreidingsmaten

Bereik: Max X – Min X (indien deze bestaan)

Interkwartielbereik: Q*3 – Q*

1

Populatievariantie : [

] met [ ] ∑

Populatie standaarddeviatie = √

Enkele belangrijke eigenschappen van

[ ]

of

Ongelijkheid van Tchebychev:

Als k > dan P(|X - µx| ≥k ≤ 1/k²

Als k’ > dan P(|X - µx| ≥k’ ≤ 1/k’

Transformatie van toevalsvariabelen

( ) ∑

( )

[ ] ∑

[ ] ∑

In het algemeen geldt dat als X een TV is met kansmassafunctie (of dichtheidsfunctie), dat als Y =

f(X):

- X decreet: [ ] ∑

- X continu: [ ] ∫

Bijzonder geval; lineaire transformatie (bewijs pagina 165):

Als Y = aX + b dan E[Y] = a E[X] + b

dan

-> E neemt niet alle eigenschappen van sommatie over (bewijs p165)

Ipv Z-transformatie nu ζ transformatie met

Er geldt dat

2.2 populatiekarakteristieken van twee TV

A TWEE DISCRETE TOEVALSVARIABELEN

Voor elke waarde (xj, yj’) in het waardengebied kunnen we de kans P ({ω | (X,Y) (ω) = (xj, yj’)})

Deze noteren we verder kortweg als πX,Y (xj, yj’)

Hieruit volgt dat:

- (x,y) : 0 ≤ πX,Y (x,y) ≤ 1

- Als (x,y) waardengebied van (X,Y) dan πX,Y (x,y) =0

- ∑ ( )

Je kan deze best voorstellen in een tabel met twee ingangen. De rijen van deze tabel corresponderen

dan met de x-waarden en de kolommen met de y-waarden. In de marges van de tabel zijn de kolom

en rijtotalen weergeven (= marginale kansmassafuncties). nDe marginale kansmassafuncties van een

bivariate toevalsvariabele (X,Y) zijjn dus gelijk aan de (univariate) kansmassafncties van X en Y.

We kunnen dit grafisch voorstellen in een driedimensionele histogram waarbij het volume van de

voorgestelde staven overeenkomt met de waarden van de kansmassafunctie.

Als (X,Y) een discrete toevalsvariabele is met waarden ( ) en met kansmassafunctie

( ), dan is voor elke xj in het waardengebied van X met

|

|

een conditionele kansmassafunctie.

analoog is ook voor elke yj’ in het waardengebied van Y met

|

|

een conditionele kansmassafunctie.

Dit kan je ook overzichtelijk in een tabel zetten. Hierbij is elke rij op een vermenigvuldigingsfactor na

gelijk aan de overeenkomstige rij uit de eerder gegeven tabel van de bivariate kansmassafunctie. Alle

rijtotalen zijn bovendien (op afrondingsfouten na) gelijk aan 1.

Als (X,Y) een discrete toevalsvariabele is met X-waarden xj en Y-waarden Yj’ dan zijn de volgende

eigenschappen equivalent:

j, j’ : ( ) ( ) ( )

j : |

j’ : |

Als deze eigenschappen gelden, dan zegt men dat toevalsvariabelen X en Y statistisch onafhankelijk

zijn. Voor te bewijzen denk er aan dat het ene slechts geldt als het andere geldt. Bewijs dat 2 uit 1

volgt, 3 uit 2 en 1 uit 3

Opmerkingen:

De laatste twee impliceren dat alle conditionele kansmassafuncties aan mekaar gelijk zijn.

Informatie over X geeft niet meer informatie over de (conditionele) verdeling van Y en

omgekeerd.

Het begrip statistisch onafhankelijke toevalsvariabelen sluit direct aan bij het begrip

statistisch onafhankelijke gebeurtenissen. Deze eigenschap impliceert overigens ook dat φX,Y

(x,y) = φx (x) maal φy (y), en dit voor alle X en Y waarden

B TWEE CONTINUE TOEVALSVARIABELEN

Dit kan voorgesteld worden in een dergelijke figuur:

kan meerdere toppen hebben

Waarbij het volume onder deze functie boven het oppervlakte van de rechthoek [a,b] x [c,d] de kans

P(a≤ X ≤ b en c ≤ Y ≤ d) aangeeft. Het volume onder ϕX,Y boven een bepaalde rechthoek noteren we

verder als (integralen voor aanduiding volume bergoppervlakte):

∫ ∫

∫ ∫

Als (X,Y) een continue toevalsvariabele is met bivariate dichtheidsfunctie ϕX,Y , dan impliceert ϕX,Y

dichtheidsfuncties ϕX en ϕY voor X en Y, welke we marginale dichtheidsfuncties noemen. Er geldt

dat:

∫

∫

Definitie:

Als (X,Y) een continue toevalsvariabele is met bivariate dichtheidsfunctie ϕX,Y , dan is voor elke yj’ met

( ) :

|

| |

Een conditionele dichtheidsfunctie. Andersom geldt dit voor elke xj met ( ) .

In de grafiek hierboven kunnen conditionele dichtheidsfuncties op ene vermenigvuldigingsfactor na

worden bekomen door het oppervlak van te doorsnijden met een vlak loodrecht op de X-as ter

hoogte van x. De vermenigvuldigingsfactor,

zorgt er eenvoudigweg voor dat de oppervlakte

onder | gelijk is aan 1.

Als (X,Y) een continue toevalsvariabele is met dichtheidsfunctie dan zijn de volgende

eigenschappen equivalent:

x, y :

x met : |

y met : |

Als deze eigenschappen gelden, dan zegt men dat X en Y statistisch onafhankelijk zijn.

2.2.2 samenvattende maten

Centrale tendensmaten

Conditioneel verwachte waarden of conditionele populatiegemiddelden:

= µY|X = xj of E [Y|X = xj]

o (X,Y) discreet: | ∑ |

∑ |

o (X,Y): continu: | ∫ |

∫ |

Spreidingsmaten

Conditionele populatievarianties:

= |

|

o (X,Y) discreet: | ∑

| |

∑ | |

(X,Y): continu: | ∫

| |

∫ | |

Voor de berekening van variantie gebruiken we vaak volgende eigenschap:

| [ | ] [ | ]

| [ | ] [ | ]

Populatiecovariantie

= [ ( )]

(X,Y) discreet: [ ( )]

∑

(X,Y): continu: [ ( )

∫∫( ) ( )

Nog enkele eigenschappen:

[ ]

[ ]

en

en Z-transformatie: geen meeteenheid

Populatiecorrelatie:

Enkele eigenschappen:

Met als gevolg:

a) ⇔ [ ]

b) ⇔ [ ]

Als X en Y statistisch onafhankelijk zijn dan :

Bewijs p188

Let op: de populatiecorrelatie kan nul zijn zonder dat er sprake is van statistische

onafhankelijkheid.

Somvariabelen

Meer algemeen geldt:

[ ∑ ] ∑ [ ]

∑

∑

∑

∑ ∑ ∑

2.3 Relatie tussen steekproef en populatiekarakteristieken van toevalsvariabelen

= brug tussen beschrijvende en inductieve statistiek

Psychologen willen uitspraken doen over populatiekarakteristieken van toevalsvariabelen die voor

haar of hem onbekend zijn. Hierbij hebben we twee opties:

Parameterschatting: de grootte van een onbekende parameter willen kunnen, met name µx

en pxy.

Hypothesetoetsing: weten of een veronderstelling of hypothese mbt parameters ( µx > µy)

wel degelijk klopt.

Methodes om parameterschatting te doen:

Beperkte steekproef trekken, zo verkrijgen we een schatting van het gezochte

populatiegemiddelde

= een statistiek = schatters

Probleem: vinden van goede statistieken

o Het gemiddelde van alle schattingen moeten zo dicht mogelijk bij het ware getal

liggen.

o Hierbij zijn X1, X2 en X3 niet identiek, maar hebben wel allemaal dezelfde

kansmassafunctie = identiek verdeeld

Idd = independent and identically distributed = identiek verdeeld + onafhankelijk

is de statistiek die vanuit elke steekproef een schatting van µx oplevert.

Verwachte waarde is hierbij op te vatten als de verwachte waarde van de verdeling van de

statistiek over alle mogelijke steekproeven heen.

In het algemeen noemt men de verdeling (kansmassafunctie of dichtheidsfunctie) van een

statistiek de steekproevenverdeling van die statistiek.

2 MANIEREN OM [ ] AAN TE TONEN

1) Manier 1

X1, X2 en X3 = idd

ϴ = πx1 (1) = πx2 (1) = πx3 (1)

0 1/3 2/3 1 Hieruit volgt dat:

[ ]

2) Manier 2

[ ] [

]

[ ] [ ] [ ]

Bovendien identiek verdeeld!

[ ] [ ] [ ]

[ ]

[ ]

= een zuivere schatter: een schatter die als verwachte waarde de te schatten parameter heeft

o We wensen ook dat de schattingen die we hebben gemiddeld genomen niet al te ver

afwijken van de ware parameterwaarde

o = we kunnen dus ook evalueren in termen van de verwachte kwadratische fout,

daarbij wordt de verwachte waarde opnieuw genomen over alle mogelijke

steekproeven.

o In het geval van [ ] = standaardfout

o

(zie pagina 201)

o Grotere steekproeven leveren preciezere schattingen

[( ) ]

familie schatters is consistent

Opmerkingen:

1) Deze voorgaande stellingen gelden zowel voor toepassingen bij kansspelen als psychologisch

relevante vraagstukken

2) We toonden in het geval van een 1-0 toevalsvariabele X aan dat een zuivere schatter is

van µx en dat [ ]

. Deze eigenschappen gleden echter voor alle soorten

toevalsvariabelen X (als X1, X2, … idd zijn).

Inductieve statistiek telt niet op over n observaties

3) Ook voor andere parameters dan populatiegemiddelden kan naar goede schatters gezocht

worden. Zo kan men bv populatiekwantielen (waaronder voor elke populatiekarakteristiek

zou men zich daarbij kunnen afvragen of de steekproeftegenhanger een goede schatter

oplevert). Zo zou men bv kunnen proberen te schatten met als statistiek de

steekproefvariantie. Deze noteren we als (zoals met een hoofdletter om aan te geven

dat we hem nu beschouwen als toevalsvariabele). is echter geen zuivere schatter van

,

het is een zuivere schatter van

. hiervoor geldt echter wel weer hoe groter de

steekproefomvang, hoe dichter het gemiddelde schot bij de roos zal liggen. We noemen

asymptotisch zuivere schatter van .

Wat is dan wel een zuivere schatter van :

welke elke steekproef van omvang n afbeeldt op:

∑

en dus ook enkele andere zuivere schatters :

∑

is slechts een asymptotisch zuivere schatter van

Zuivere schatter: [ ]

4) In het algemeen is een belangrijke uitdaging voor de inductieve statistiek het vinden van

goede statistieken. Met goed als betekenis:

a. Goede wiskundige eigenschappen (zuiverheid, consistentie)

b. Een goede psychologische interpreteerbaarheid en inhoudelijke relavantie