Sommen van toevalsvariabelen en de Centrale Limietstelling

40
Deel II : Kansrekenen en toevalsvariabelen Hoofdstuk 3 : Sommen van onafhankelijke toevalsvariabelen

Transcript of Sommen van toevalsvariabelen en de Centrale Limietstelling

Page 1: Sommen van toevalsvariabelen en de Centrale Limietstelling

Deel II : Kansrekenen en toevalsvariabelen

Hoofdstuk 3 : Sommen van onafhankelijke toevalsvariabelen

Page 2: Sommen van toevalsvariabelen en de Centrale Limietstelling

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Page 3: Sommen van toevalsvariabelen en de Centrale Limietstelling

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Page 4: Sommen van toevalsvariabelen en de Centrale Limietstelling

Onafhankelijke t.v.

• Herinner dat de gebeurtenissen A en B onafhankelijk zijn als en slechts als

P(A en B) = P(A) ∙ P(B) • Twee toevalsvariabelen X en Y zijn onafhankelijk,

als elke gebeurtenis waarbij alleen X betrokken is onafhankelijk is van elke gebeurtenis waarbij alleen Y betrokken is.

Page 5: Sommen van toevalsvariabelen en de Centrale Limietstelling

Paarsgewijs onafhankelijk

• De toevalsvariabelen X1, X2, …, Xn zijn paarsgewijs (of onderling) onafhankelijk als en slechts als elk paar toevalsvariabelen Xi en Xj (i≠j) onafhankelijk is.

Page 6: Sommen van toevalsvariabelen en de Centrale Limietstelling

Correlatie : definitie

• Correlatie tussen twee toevalsvariabelen X en Y = r = maat voor de richting en de sterkte van de lineaire samenhang tussen X en Y

X Y

X Y

X YE

Page 7: Sommen van toevalsvariabelen en de Centrale Limietstelling

Correlatie : eigenschappen (1)

• ─1 ≤ r ≤ 1• De correlatie is dimensieloos• Het teken van de correlatie geeft aan of X en Y

positief (in dezelfde zin) of negatief (in tegengestelde zin) met elkaar verbonden zijn.

• De grootte van de correlatie geeft de sterkte van de lineaire samenhang.

Page 8: Sommen van toevalsvariabelen en de Centrale Limietstelling

Correlatie : eigenschappen (2)

• Als r = 0, dan is er totaal geen lineair verband tussen X en Y (X en Y zijn ongecorreleerd)

• Als r = 1 (resp. ─1) dan is er een perfecte positieve (resp. negatieve) lineaire samenhang tussen X en Y :

Y = a + b X met b > 0 (resp. < 0)• Hoe dichter r bij ±1 ligt, hoe sterker de lineaire

samenhang. Hoe dichter bij 0, hoe zwakker.

Page 9: Sommen van toevalsvariabelen en de Centrale Limietstelling

Ongecorreleerd versus onafhankelijk

• Als X en Y onafhankelijk zijn, dan zijn ze ook ongecorreleerd.

• Het omgekeerde is niet waar!!

Onafhankelijk

Ongecorreleerd

Page 10: Sommen van toevalsvariabelen en de Centrale Limietstelling

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantiea) Verwachtingswaarde en variantie van een lineaire

combinatie

b) Verwachtingswaarde en variantie van een steekproefgemiddelde (en een som)

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Page 11: Sommen van toevalsvariabelen en de Centrale Limietstelling

Lineaire combinaties

• Voorbeeld: we gooien 3 keer met een dobbelsteen en noteren met X het aantal keer dat je 6 gegooid hebt bij die 3 worpen en met Y het aantal keer dat je geen 6 gegooid hebt bij diezelfde 3 worpen. Dan zal mX = 0.5 , mY = 2.5 en sX² = sY² = 5/12.

• Wat is mX+Y ? s²X+Y ?

Page 12: Sommen van toevalsvariabelen en de Centrale Limietstelling

Algemeen

• Er geldt steeds dat mX+Y = mX + mY

• Er geldt echter niet steeds dat s²X+Y = s²X + s²Y !

Page 13: Sommen van toevalsvariabelen en de Centrale Limietstelling

Algemeen : lineaire combinaties

YXYX

YXbYaX ba

Uitbreiding:

2 2 2 2X Y X Y X Y

2 2 2 2 2 2aX bY X Y X Ya b ab

Page 14: Sommen van toevalsvariabelen en de Centrale Limietstelling

Speciaal geval: onafhankelijke toevalsvariabelen

YXYX

YXbYaX ba

Uitbreiding:

2 2 2X Y X Y

2 2 2 2 2aX bY X Ya b

Page 15: Sommen van toevalsvariabelen en de Centrale Limietstelling

Voorbeeld : verschil

• Neem a = 1 en b = -1:

• Voor onafhankelijke toevalsvariabelen:

X Y X Y

2 2 2 2X Y X Y X Y

2 2 2X Y X Y

Page 16: Sommen van toevalsvariabelen en de Centrale Limietstelling

Oefening 1

Meneer Goedhart verkoopt kaarsen en wenskaarten voor Amnesty International. Een set kaarsen kost 7 € en een pakje wenskaarten kost 10 €. Op basis van voorgaande jaren weet meneer Goedhart dat er gemiddeld per week 100 sets kaarsen en 150 pakjes wenskaarten verkocht worden, met een standaardafwijking van respectievelijk 20 en 25. Het aantal verkochte kaarsen per week is onafhankelijk van het aantal verkochte wenskaarten. Wat zijn de verwachte totale inkomsten per week? En met welke standaardafwijking?

Page 17: Sommen van toevalsvariabelen en de Centrale Limietstelling

Oefening 2Veronderstel dat X (resp. Y) de maandelijkse return is voor

het aandeel Dell (resp. Apple). Op basis van maandelijkse returns tussen 1990 en 2008, weten we dat mX = 2.02%, sX = 16.59%, mY = 1.75%, sY = 15.09%. De correlatie tussen X en Y bedraagt r = 0.379. Sandra heeft in haar portefeuille 60% aandelen Dell en 40% aandelen Apple, dus de maandelijkse return voor haar portefeuille is de toevalsvariabele

R = 0.6 X + 0.4 Y.Wat is de verwachte return en de standaardafwijking van Sandra’s portefeuille.

Page 18: Sommen van toevalsvariabelen en de Centrale Limietstelling

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantiea) Verwachtingswaarde en variantie van een lineaire

combinatie

b) Verwachtingswaarde en variantie van een steekproefgemiddelde (en een som)

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Page 19: Sommen van toevalsvariabelen en de Centrale Limietstelling

Populatie versus steekproef Populatie = ALLE HUB-

studenten m = gemiddeld IQ van

ALLE HUB-studenten= populatiegemiddelde

Constante

• Steekproef van 25 HUB-studenten

• = gemiddeld IQ van 25 studenten in de steekproef= steekproefgemiddelde

• Variabel (t.v.) (afh. van steekproef tot st.prf.)

• Voor één bepaalde steekproef vinden we bijv. = 102,36

Schatting voor m

Page 20: Sommen van toevalsvariabelen en de Centrale Limietstelling

Steekproefgemiddelde : inleiding

• Steekproefgemiddelde = 102,36 is een schatting voor het populatiegemiddelde m

• Hoe goed is die schatting? Hoeveel kan m nog afwijken van deze schatting?

• Foutmarge?

Page 21: Sommen van toevalsvariabelen en de Centrale Limietstelling

Steekproefgemiddelde : inleiding • Andere steekproef andere schatting • Steekproefgemiddelde is een toevalsvariabele!• Rond welke waarde schommelen deze

steekproefgemiddeldes? ?• Hoe sterk schommelen deze

steekproefgemiddeldes? ?• Hoe zijn deze steekproefgemiddeldes verdeeld?

Page 22: Sommen van toevalsvariabelen en de Centrale Limietstelling

Steekproefgemiddelde : inleiding • Simulatie met de GRM : 250 keer een steekproef

van omvang 25 simuleren (uit een normaal verdeelde populatie met verwachting 105 en standaardafwijking 15), en telkens berekenen. Vervolgens bekijken we wat het gemiddelde is van deze 250 steekproefgemiddeldes, wat hun standaardafwijking is, en hoe ze verdeeld zijn.

Page 23: Sommen van toevalsvariabelen en de Centrale Limietstelling

Steekproefgemiddelde : algemeen

• We wensen de verwachting m van een t.v. X te schatten.

• We nemen een steekproef van omvang n uit X, dit betekent : o X1, X2,…, Xn onderling onafhankelijk

o X1, X2,…, Xn allen verdeeld zoals X

• Steekproefgemiddelde:

nn

ii XXXn

Xn

X

211

11

Page 24: Sommen van toevalsvariabelen en de Centrale Limietstelling

Som versus steekproefgemiddelde• Som

Sn = X1 + X2 + … + Xn

• Steekproefgemiddelde

• Dan geldt natuurlijk dat = Sn / n Sn = n

• En kunnen de verwachting en variantie van onmiddellijk uit die van Sn afgeleid worden.

nn

ii XXXn

Xn

X

211

11

Page 25: Sommen van toevalsvariabelen en de Centrale Limietstelling

Verwachte waarde

• Som

E(Sn) = E(X1 + X2 + … + Xn)

= E(X1) + E(X2) + … + E(Xn)

= m + m + … + m= n m

• Steekproefgemiddelde

1 1( ) ( ) ( )n

n

SE X E E S n

n n n

Alle Xi verdeeld zoals X

Page 26: Sommen van toevalsvariabelen en de Centrale Limietstelling

Verwachte waarde : conclusie

( )nE S n

is een zuivere (of onvertekende) schatter voor m

m wordt niet systematisch onder- of overschat

( )E X

Page 27: Sommen van toevalsvariabelen en de Centrale Limietstelling

Variantie• Som

Var(Sn) = Var(X1 + X2 + … + Xn)

= Var(X1) + Var(X2) + … + Var(Xn)

= s² + s² + … + s² = n s²

• Steekproefgemiddelde

22

2 2

1 1( ) ( ) ( )n

n

SVar X Var Var S n

n n n n

Alle Xi verdeeld zoals X

X1, …, Xn onderling onafhankelijk

Page 28: Sommen van toevalsvariabelen en de Centrale Limietstelling

Variantie : conclusie2( )nVar S n

Standaardafwijking van neemt af, naarmate de grootte van de steekproef toeneemt.

is een consistente schatter

2

( )Var Xn

nSn X n

Page 29: Sommen van toevalsvariabelen en de Centrale Limietstelling

Inhoud

1. Onafhankelijkheid en correlatie

2. Verwachtingswaarde en variantie

3. Verdeling van sommen van onafhankelijke toevalsvariabelen (Centrale Limietstelling)

Page 30: Sommen van toevalsvariabelen en de Centrale Limietstelling

Verdeling

• Eerste geval : X is Normaal verdeeld

• In dat geval zijn Sn en een lineaire combinatie van variabelen (X1, … Xn) die allemaal Normaal verdeeld zijn en onafhankelijk zijn

Sn en is ook Normaal verdeeld

~ ( , )nS N n n ~ ( , )X Nn

Page 31: Sommen van toevalsvariabelen en de Centrale Limietstelling

Verdeling

• Het vorige is in feite een speciaal geval van de volgende eigenschap:

• Als X en Y normaal verdeeld zijn en onafhankelijk,

dan is elke lineaire combinatie a X + b Y

ook normaal verdeeld.

Page 32: Sommen van toevalsvariabelen en de Centrale Limietstelling

Verdeling

• Tweede geval : X is niet Normaal verdeeld

• De Centrale Limietstelling zegt in dat geval dat Sn en dus ook bij benadering Normaal verdeeld is voor voldoende grote n.

• Applet : http://lstat.kuleuven.be/java

( , )X Nn

( , )nS N n n

Page 33: Sommen van toevalsvariabelen en de Centrale Limietstelling

Toepassing : Normale benadering van de binomiale verdeling• X ~ Be(p)

mX = p, s²X = p (1−p)

• Steekproef X1, X2, …, Xn

• Sn = X1 + X2 + … + Xn = aantal successen

• Dan geldt

Sn ~ Bi(n, p)

• En wegens de Centrale Limietstelling

( , (1 ))nS N n n

Page 34: Sommen van toevalsvariabelen en de Centrale Limietstelling

Stelling van de Moivre-Laplace

X ~ Bi(n, p) kan benaderd worden doorY ~ N(np, ),

indien o n p = verwacht aantal successen ≥ 10o n(1−p) = verwacht aantal mislukk ≥ 10

~ , ~ , 1X Bi n Y N n n

Page 35: Sommen van toevalsvariabelen en de Centrale Limietstelling

Oefening

Je gooit 20 keer met een zuiver muntstuk. Bereken zowel exact via de Binomiale verdeling als met de Normale benadering:

a) Kans op minstens 12 keer kop?b) Kans op minstens 5 en hoogstens 11 keer kop?c) Kans op juist 7 keer kop?d) Kans op minder dan 9 keer kop?

Page 36: Sommen van toevalsvariabelen en de Centrale Limietstelling

X ~ Bi(20,0.5)

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(X≥12)

Page 37: Sommen van toevalsvariabelen en de Centrale Limietstelling

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(X≥12)

Page 38: Sommen van toevalsvariabelen en de Centrale Limietstelling

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(Y≥12)

Page 39: Sommen van toevalsvariabelen en de Centrale Limietstelling

X ~ Bi(20,0.5) benaderd door Y ~ N(10, v(5))

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x

p(x

)

P(Y≥11,5)

Page 40: Sommen van toevalsvariabelen en de Centrale Limietstelling

Oefeningen

• Zie apart opgaveblad op Hubwise.