Sommen van toevalsvariabelen en de Centrale Limietstelling

Post on 04-Aug-2015

205 views 1 download

Transcript of Sommen van toevalsvariabelen en de Centrale Limietstelling

Deel II : Kansrekenen en toevalsvariabelen

Hoofdstuk 3 : Sommen van onafhankelijke toevalsvariabelen

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Onafhankelijke t.v.

• Herinner dat de gebeurtenissen A en B onafhankelijk zijn als en slechts als

P(A en B) = P(A) ∙ P(B) • Twee toevalsvariabelen X en Y zijn onafhankelijk,

als elke gebeurtenis waarbij alleen X betrokken is onafhankelijk is van elke gebeurtenis waarbij alleen Y betrokken is.

Paarsgewijs onafhankelijk

• De toevalsvariabelen X1, X2, …, Xn zijn paarsgewijs (of onderling) onafhankelijk als en slechts als elk paar toevalsvariabelen Xi en Xj (i≠j) onafhankelijk is.

Correlatie : definitie

• Correlatie tussen twee toevalsvariabelen X en Y = r = maat voor de richting en de sterkte van de lineaire samenhang tussen X en Y

X Y

X Y

X YE

Correlatie : eigenschappen (1)

• ─1 ≤ r ≤ 1• De correlatie is dimensieloos• Het teken van de correlatie geeft aan of X en Y

positief (in dezelfde zin) of negatief (in tegengestelde zin) met elkaar verbonden zijn.

• De grootte van de correlatie geeft de sterkte van de lineaire samenhang.

Correlatie : eigenschappen (2)

• Als r = 0, dan is er totaal geen lineair verband tussen X en Y (X en Y zijn ongecorreleerd)

• Als r = 1 (resp. ─1) dan is er een perfecte positieve (resp. negatieve) lineaire samenhang tussen X en Y :

Y = a + b X met b > 0 (resp. < 0)• Hoe dichter r bij ±1 ligt, hoe sterker de lineaire

samenhang. Hoe dichter bij 0, hoe zwakker.

Ongecorreleerd versus onafhankelijk

• Als X en Y onafhankelijk zijn, dan zijn ze ook ongecorreleerd.

• Het omgekeerde is niet waar!!

Onafhankelijk

Ongecorreleerd

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantiea) Verwachtingswaarde en variantie van een lineaire

combinatie

b) Verwachtingswaarde en variantie van een steekproefgemiddelde (en een som)

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Lineaire combinaties

• Voorbeeld: we gooien 3 keer met een dobbelsteen en noteren met X het aantal keer dat je 6 gegooid hebt bij die 3 worpen en met Y het aantal keer dat je geen 6 gegooid hebt bij diezelfde 3 worpen. Dan zal mX = 0.5 , mY = 2.5 en sX² = sY² = 5/12.

• Wat is mX+Y ? s²X+Y ?

Algemeen

• Er geldt steeds dat mX+Y = mX + mY

• Er geldt echter niet steeds dat s²X+Y = s²X + s²Y !

Algemeen : lineaire combinaties

YXYX

YXbYaX ba

Uitbreiding:

2 2 2 2X Y X Y X Y

2 2 2 2 2 2aX bY X Y X Ya b ab

Speciaal geval: onafhankelijke toevalsvariabelen

YXYX

YXbYaX ba

Uitbreiding:

2 2 2X Y X Y

2 2 2 2 2aX bY X Ya b

Voorbeeld : verschil

• Neem a = 1 en b = -1:

• Voor onafhankelijke toevalsvariabelen:

X Y X Y

2 2 2 2X Y X Y X Y

2 2 2X Y X Y

Oefening 1

Meneer Goedhart verkoopt kaarsen en wenskaarten voor Amnesty International. Een set kaarsen kost 7 € en een pakje wenskaarten kost 10 €. Op basis van voorgaande jaren weet meneer Goedhart dat er gemiddeld per week 100 sets kaarsen en 150 pakjes wenskaarten verkocht worden, met een standaardafwijking van respectievelijk 20 en 25. Het aantal verkochte kaarsen per week is onafhankelijk van het aantal verkochte wenskaarten. Wat zijn de verwachte totale inkomsten per week? En met welke standaardafwijking?

Oefening 2Veronderstel dat X (resp. Y) de maandelijkse return is voor

het aandeel Dell (resp. Apple). Op basis van maandelijkse returns tussen 1990 en 2008, weten we dat mX = 2.02%, sX = 16.59%, mY = 1.75%, sY = 15.09%. De correlatie tussen X en Y bedraagt r = 0.379. Sandra heeft in haar portefeuille 60% aandelen Dell en 40% aandelen Apple, dus de maandelijkse return voor haar portefeuille is de toevalsvariabele

R = 0.6 X + 0.4 Y.Wat is de verwachte return en de standaardafwijking van Sandra’s portefeuille.

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantiea) Verwachtingswaarde en variantie van een lineaire

combinatie

b) Verwachtingswaarde en variantie van een steekproefgemiddelde (en een som)

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Populatie versus steekproef Populatie = ALLE HUB-

studenten m = gemiddeld IQ van

ALLE HUB-studenten= populatiegemiddelde

Constante

• Steekproef van 25 HUB-studenten

• = gemiddeld IQ van 25 studenten in de steekproef= steekproefgemiddelde

• Variabel (t.v.) (afh. van steekproef tot st.prf.)

• Voor één bepaalde steekproef vinden we bijv. = 102,36

Schatting voor m

Steekproefgemiddelde : inleiding

• Steekproefgemiddelde = 102,36 is een schatting voor het populatiegemiddelde m

• Hoe goed is die schatting? Hoeveel kan m nog afwijken van deze schatting?

• Foutmarge?

Steekproefgemiddelde : inleiding • Andere steekproef andere schatting • Steekproefgemiddelde is een toevalsvariabele!• Rond welke waarde schommelen deze

steekproefgemiddeldes? ?• Hoe sterk schommelen deze

steekproefgemiddeldes? ?• Hoe zijn deze steekproefgemiddeldes verdeeld?

Steekproefgemiddelde : inleiding • Simulatie met de GRM : 250 keer een steekproef

van omvang 25 simuleren (uit een normaal verdeelde populatie met verwachting 105 en standaardafwijking 15), en telkens berekenen. Vervolgens bekijken we wat het gemiddelde is van deze 250 steekproefgemiddeldes, wat hun standaardafwijking is, en hoe ze verdeeld zijn.

Steekproefgemiddelde : algemeen

• We wensen de verwachting m van een t.v. X te schatten.

• We nemen een steekproef van omvang n uit X, dit betekent : o X1, X2,…, Xn onderling onafhankelijk

o X1, X2,…, Xn allen verdeeld zoals X

• Steekproefgemiddelde:

nn

ii XXXn

Xn

X

211

11

Som versus steekproefgemiddelde• Som

Sn = X1 + X2 + … + Xn

• Steekproefgemiddelde

• Dan geldt natuurlijk dat = Sn / n Sn = n

• En kunnen de verwachting en variantie van onmiddellijk uit die van Sn afgeleid worden.

nn

ii XXXn

Xn

X

211

11

Verwachte waarde

• Som

E(Sn) = E(X1 + X2 + … + Xn)

= E(X1) + E(X2) + … + E(Xn)

= m + m + … + m= n m

• Steekproefgemiddelde

1 1( ) ( ) ( )n

n

SE X E E S n

n n n

Alle Xi verdeeld zoals X

Verwachte waarde : conclusie

( )nE S n

is een zuivere (of onvertekende) schatter voor m

m wordt niet systematisch onder- of overschat

( )E X

Variantie• Som

Var(Sn) = Var(X1 + X2 + … + Xn)

= Var(X1) + Var(X2) + … + Var(Xn)

= s² + s² + … + s² = n s²

• Steekproefgemiddelde

22

2 2

1 1( ) ( ) ( )n

n

SVar X Var Var S n

n n n n

Alle Xi verdeeld zoals X

X1, …, Xn onderling onafhankelijk

Variantie : conclusie2( )nVar S n

Standaardafwijking van neemt af, naarmate de grootte van de steekproef toeneemt.

is een consistente schatter

2

( )Var Xn

nSn X n

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Verdeling

• Eerste geval : X is Normaal verdeeld

• In dat geval zijn Sn en een lineaire combinatie van variabelen (X1, … Xn) die allemaal Normaal verdeeld zijn en onafhankelijk zijn

Sn en is ook Normaal verdeeld

~ ( , )nS N n n ~ ( , )X Nn

Verdeling

• Het vorige is in feite een speciaal geval van de volgende eigenschap:

• Als X en Y normaal verdeeld zijn en onafhankelijk,

dan is elke lineaire combinatie a X + b Y

ook normaal verdeeld.

Verdeling

• Tweede geval : X is niet Normaal verdeeld

• De Centrale Limietstelling zegt in dat geval dat Sn en dus ook bij benadering Normaal verdeeld is voor voldoende grote n.

• Applet : http://lstat.kuleuven.be/java

( , )X Nn

( , )nS N n n

Toepassing : Normale benadering van de binomiale verdeling• X ~ Be(p)

mX = p, s²X = p (1−p)

• Steekproef X1, X2, …, Xn

• Sn = X1 + X2 + … + Xn = aantal successen

• Dan geldt

Sn ~ Bi(n, p)

• En wegens de Centrale Limietstelling

( , (1 ))nS N n n

Stelling van de Moivre-Laplace

X ~ Bi(n, p) kan benaderd worden doorY ~ N(np, ),

indien o n p = verwacht aantal successen ≥ 10o n(1−p) = verwacht aantal mislukk ≥ 10

~ , ~ , 1X Bi n Y N n n

Oefening

Je gooit 20 keer met een zuiver muntstuk. Bereken zowel exact via de Binomiale verdeling als met de Normale benadering:

a) Kans op minstens 12 keer kop?b) Kans op minstens 5 en hoogstens 11 keer kop?c) Kans op juist 7 keer kop?d) Kans op minder dan 9 keer kop?

X ~ Bi(20,0.5)

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(X≥12)

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(X≥12)

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(Y≥12)

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(Y≥11,5)

Oefeningen

• Zie apart opgaveblad op Hubwise.