Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor...

14
www.quickprinter.be Q 146 5,00 € 2de bach TEW Van Driessen uickprinter Koningstraat 13 2000 Antwerpen Statistiek 2

Transcript of Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor...

Page 1: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

www.quickprinter.be Q

146 5,00 €

2de bach TEW

Van Driessen

uickprinterKoningstraat 132000 Antwerpen

Statistiek 2

Page 2: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

Nieuw!!!

Online samenvattingen kopen via

www.quickprintershop.be

Page 3: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

1

Hoofdstuk 1: Het schatten van populatieparameters

1.1 Inleiding: schatter versus schatting Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld (𝜆)

We kennen deze parameter niet, dus we gaan hem schatten

Schatting is gebaseerd op metingen/waarnemingen Steekproefgegevens

Schatting voor 𝜆 gaat een functie zijn van de verzamelde steekproefwaarden

Elke onderzoeker gaat andere waarden verkrijgen Dus ook een andere schatting o Omdat het een kansvariabele is = HOOFDLETTER

Schatting = reëel getal Schatter = kansvariabele met onbekende waarde

1.2 Het schatten van een gemiddelde

1.2.1 Gemiddelde van een normaal verdeelde populatie

Normaal verdeelde populatie Gekend populatiegemiddelde 𝜇 = 3,5 Gekende populatiemediaan = 3,5 1000 onderzoekers elke onderzoeker verricht 5 metingen

Wat: steekproefgemiddelde bepalen Hoe: steekproefgemiddelde en steekproefmediaan berekenen Steekproefgemiddelde berekenen ≈ 3,5 Steekproefmediaan berekenen ≈ 3,5

Gemiddelde en mediaan = zuivere/onvertekende schatters van het gemiddelde van een normaal verdeelde populatie

1.2.2 Gemiddelde van een exponentieel verdeelde populatie

Exponentieel verdeelde populatie

Parameter 𝜆 =1

100

Populatiegemiddelde 𝜇 =1

𝜆= 100

1000 onderzoekers elke onderzoeker verricht 5 metingen Steekproefgemiddelde = 99,2417 ≈ 100 Steekproefmediaan = 77,0114 ≠ 100

Mediaan = onzuivere/vertekende schatter van het gemiddelde van een exponentieel verdeelde populatie

1.3 Criteria voor schatters

1.3.1 Een onvertekende of zuivere schatter Een ideale schatter bestaat niet !!!

Page 4: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

2

Onvertekende schatter 𝜃 voor een onbekende populatieparameter 𝜃

= zuiver of onvertekend als 𝐸(𝜃) = 𝜃 formularium p.10

Hier is de vertekening 𝑉(𝜃) = |𝐸(𝜃) − 𝜃| = 0 formularium p.10

Aandacht op 3 schatters:

1. Steekproefgemiddelde �̅� onvertekende/zuivere schatter

Heeft de kleinste variantie schatting het dichtst bij populatiegemiddelde

2. Steekproefproportie �̂� onvertekende/zuivere schatter

Speciaal geval van steekproefgemiddelde 3. Steekproefvariantie 𝑆2 onvertekende/zuivere schatter

Steekproefstandaarddeviatie 𝑆 = vertekende schatter !!!

1.3.2 Precisie of efficiëntie van een schatter Schatter moet een kleine variantie/standaarddeviatie hebben precieze/efficiënte schatter Wat moeten we hier kiezen?

Onvertekende schatter en grote variantie vertekende schatter en kleine variantie De kleinste gemiddelde gekwadrateerde afwijking

𝐺𝐺𝐴(𝜃) = 𝑣𝑎𝑟(𝜃) + [𝑉(𝜃)]2

= 𝑣𝑎𝑟(𝜃) + |𝐸(𝜃) − 𝜃|2 formularium p.10

Meer waarnemingen = meer informatie = betere schattingen DUS: nauwkeurigheid moet toenemen naarmate de waarnemingen toenemen

1.4 Methoden voor het berekenen van schatters 3 methoden voor schatters te vinden met goede eigenschappen:

1. De methode van momenten 2. De methode van de kleinste kwadraten 3. De methode van de grootste aannemelijkheid

Deze zijn onvertekend, maar komen niet aan bod in dit boek

1.5 Het steekproefgemiddelde �̅�

1.5.1 Verwachte waarde en variantie Steekproefgemiddelde = kansvariabele = schatter als we geen data verzameld hebben Individuele waarnemingen niet bekend hoofdletters: X1, X2, …, Xn Individuele waarnemingen bekend kleine letters: x1, x2, …, xn

Verwachte waarde: formularium p.10 𝐸(�̅�) = 𝜇 Bewijs:

𝐸(�̅�) = 𝐸 ∙ (1

𝑛 ∑𝑋𝑖

𝑛

𝑖=1

)

=1

𝑛 ∑𝐸(𝑋𝑖)

𝑛

𝑖=1

Page 5: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

3

=1

𝑛 (𝜇 + 𝜇 + ⋯+ 𝜇)

=𝑛𝜇

𝑛= 𝜇

→ Deze stelling toont aan dat het steekproefgemiddelde een onvertekende/zuivere schatter is van

het populatiegemiddelde Variantie: formularium p.10

𝑣𝑎𝑟(�̅�) = 𝜎�̅�2 =

𝜎2

𝑛

𝜎�̅� =𝜎

√𝑛

Bewijs:

𝑣𝑎𝑟(�̅�) = 𝜎�̅�2 = 𝑣𝑎𝑟 (

1

𝑛 ∑𝑋𝑖

𝑛

𝑖=1

)

=1

𝑛2 ∑𝑣𝑎𝑟(𝑋𝑖)

𝑛

𝑖=1

=1

𝑛2 (𝜎2 + 𝜎2 + ⋯+ 𝜎2)

=𝑛𝜎2

𝑛2

=𝜎2

𝑛

→ Variantie van het steekproefgemiddelde neemt lineair af wanner de steekproefomvang n

toeneemt → Dus als n groter wordt, is er meer kans dat het steekproefgemiddelde �̅� dicht bij 𝜇 zal liggen → Standaardfout/standard error = vierkantswortel van deze variantie = 𝜎�̅�

1.5.2 Kansdichtheid van het steekproefgemiddelde uit een normaal verdeelde populatie Geval 1: normaal verdeelde populatie formularium p.8

→ Als 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑁(𝜇, 𝜎2) 𝑜𝑛𝑎𝑓𝑎𝑛𝑘𝑒𝑙𝑖𝑗𝑘

→ Dan geldt voor het gemiddelde: �̅� ~ 𝑁 (𝜇,𝜎2

𝑛)

→ Dan geldt voor de som: ∑ 𝑋𝑖 ~ 𝑁(𝑛𝜇, 𝑛𝜎2)𝑛𝑖=1

Geval 2: niet-normaal verdeelde populatie (dus wel uniform, exponentieel, …)

→ Als 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑁(𝜇, 𝜎2) 𝑜𝑛𝑎𝑓𝑎𝑛𝑘𝑒𝑙𝑖𝑗𝑘 → Dan is het meteen duidelijk welke kansdichtheid �̅� heeft (zie volgende titeltje)

1.5.3 Kansverdeling of –dichtheid van het steekproefgemiddelde uit een niet-normaal

verdeelde populatie We gebruiken een grote steekproef de centrale limietstelling kan gebruikt worden

1.5.3.1 Centrale limietstelling

Page 6: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

4

Voor steekproeven waarvan je de verdeling niet kent ! Kan pas uitgevoerd worden als n ≥ 30 Als je de verdeling niet kent, is de som/gemiddelde benaderend normaal verdeeld Variant 3 formularium p.10

→ Werkt met het gemiddelde → Werkt met dezelfde 𝜇 en 𝜎 → Als 𝑋1, … , 𝑋𝑛 𝑜𝑛𝑎𝑓ℎ𝑎𝑛𝑘𝑒𝑙𝑖𝑗𝑘 𝑚𝑒𝑡 𝑔𝑒𝑚𝑖𝑑𝑑𝑒𝑙𝑑𝑒 𝜇 𝑒𝑛 𝑚𝑒𝑡 𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 𝜎2

→ Dan is �̅� =𝑋1+⋯+𝑋𝑛

𝑛≈ 𝑁 (

𝑛𝜇

𝑛,𝑛𝜎2

𝑛2 ) ≈ 𝑁 (𝜇,𝜎2

𝑛)

1.5.4 Illustratie van de centrale limietstelling Zie boek p. 15-20

1.6 De steekproefproportie �̂� = speciaal geval van steekproefgemiddelde �̅� Bestudeerde variabele kan enkel de waarden 0 (faling) of 1 (succes) aannemen

o Vb. Man/vrouw, defect/niet defect 𝐼𝑛𝑑𝑖𝑒𝑛 𝑋𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋) 𝑒𝑛 𝑛 𝑖𝑠 𝑣𝑜𝑙𝑑𝑜𝑒𝑛𝑑𝑒 𝑔𝑟𝑜𝑜𝑡: formularium p.11 Voorwaarden:

→ 𝑛𝜋 > 5 → 𝑛(1 − 𝜋) > 5

�̂� = ∑𝑋𝑖

𝑛

𝑛

𝑖=1

≈ 𝑁 (𝜋 ,𝜋(1 − 𝜋)

𝑛)

→ �̂� − 𝜋

√𝜋(1 − 𝜋)𝑛

~ 𝑁(0,1)

Verwachte waarde: formularium p.11

𝐸(�̂�) = 𝜋

Bewijs:

𝐸(�̂�) = 𝐸 ∙ (1

𝑛 ∑𝑋𝑖

𝑛

𝑖=1

)

=1

𝑛 ∑𝐸(𝑋𝑖)

𝑛

𝑖=1

=1

𝑛 (𝜋 + 𝜋 + ⋯+ 𝜋)

=𝑛𝜋

𝑛= 𝜋

→ Deze stelling toont aan dat de steekproefproportie een onvertekende/zuivere schatter is van de

populatieproportie Variantie: formularium p.11

𝑣𝑎𝑟(�̂�) =𝜋(1 − 𝜋)

𝑛

Page 7: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

5

Bewijs:

𝑣𝑎𝑟(�̅�) = 𝜎�̅�2 = 𝑣𝑎𝑟 (

1

𝑛 ∑𝑋𝑖

𝑛

𝑖=1

)

=1

𝑛2 ∑𝑣𝑎𝑟(𝑋𝑖)

𝑛

𝑖=1

=1

𝑛2 (𝜋(1 − 𝜋) + 𝜋(1 − 𝜋) + ⋯+ 𝜋(1 − 𝜋))

=𝑛𝜋(1 − 𝜋)

𝑛2

=𝜋(1 − 𝜋)

𝑛

→ Variantie van de steekproefproportie neemt lineair af wanner de steekproefomvang n toeneemt → Dus als n groter wordt, is er meer kans dat de steekproefproportie dicht bij 𝜋 zal liggen Voor 𝑛 klein Binomiale kansverdeling

𝐴𝑎𝑛𝑡𝑎𝑙 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑒𝑛 𝑖𝑛 𝑒𝑒𝑛 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓 ~ 𝑏𝑖𝑛(𝑛; 𝜋)

1.7 De steekproefvariantie 𝑆2

𝑆2 =1

𝑛 − 1∑(𝑋𝑖 − �̅�)2

𝑛

𝑖=1

formularium p.11

1.7.1 Verwachte waarde formularium p.11 𝐸(𝑆2) = 𝜎2 Bewijs:

𝐸(𝑆2) = 𝐸 (1

𝑛 − 1∑(𝑋𝑖 − �̅�)2

𝑛

𝑖=1

)

=1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇 + 𝜇 − �̅�)2

𝑛

𝑖=1

)

=1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇)2

𝑛

𝑖=1

+ 2∑(𝑋𝑖 − 𝜇)(𝜇 − �̅�) + ∑(𝜇 − �̅�)2

𝑛

𝑖=1

𝑛

𝑖=1

)

Page 8: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

6

= 1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇)2

𝑛

𝑖=1

+ 2(𝜇 − �̅�)∑(𝑋𝑖 − 𝜇) + 𝑛(𝜇 − �̅�)2

𝑛

𝑖=1

)

= 1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇)2

𝑛

𝑖=1

+ 2(𝜇 − �̅�)(𝑛�̅� − 𝑛𝜇) + 𝑛(𝜇 − �̅�)2 )

= 1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇)2

𝑛

𝑖=1

− 2𝑛(𝜇 − �̅�)2 + 𝑛(𝜇 − �̅�)2 )

= 1

𝑛 − 1∙ 𝐸 ∙ (∑(𝑋𝑖 − 𝜇)2

𝑛

𝑖=1

− 𝑛(𝜇 − �̅�)2 )

= 1

𝑛 − 1∙ (∑𝐸 ∙ [(𝑋𝑖 − 𝜇)2]

𝑛

𝑖=1

− 𝑛𝐸(𝜇 − �̅�)2 )

= 1

𝑛 − 1∙ (∑𝑣𝑎𝑟(𝑋𝑖)

𝑛

𝑖=1

− 𝑛 ∙ 𝑣𝑎𝑟(�̅�) )

= 1

𝑛 − 1∙ (∑𝜎2

𝑛

𝑖=1

− 𝑛 ∙𝜎2

𝑛)

= 1

𝑛 − 1∙ (𝑛𝜎2 − 𝜎2)

=𝜎2(𝑛 − 1)

𝑛 − 1= 𝜎2

→ De steekproefvariantie 𝑆2 is een onvertekende/zuivere schatter van de populatievariantie 𝜎2

1.7.2 De 𝜒2-verdeling (“chi-kwadraatverdeling”) → 𝑋 ~ 𝜒𝑘2

= Speciaal geval van een gammaverdeling = Heeft één parameter 𝒌 = het aantal vrijheidsgraden Verwachte waarde en variantie: formularium p.9

𝐸(𝑋) = 𝑘 𝑣𝑎𝑟(𝑋) = 2𝑘

1.7.3 Relatie tussen standaardnormale en 𝜒2-verdeling

𝑋1, 𝑋2, … , 𝑋𝑘 ~ 𝑁(0,1) → 𝑠𝑜𝑚 𝑘𝑤𝑎𝑑𝑟𝑎𝑡𝑒𝑛: 𝑋12 + 𝑋2

2 + ⋯+ 𝑋𝑘2 ~ 𝜒𝑘

2 formularium p.9 Hoe groter het aantal vrijheidsgraden, hoe meer lijkend op normale kansdichtheid (CLS)

𝑘 = 50

Page 9: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

7

1.7.4 Kansdichtheid van een steekproefvariantie Kansdichtheid formularium p.11

𝑆2 =1

𝑛 − 1∑(𝑋𝑖 − �̅�)2

𝑛

𝑖=1

↔ (𝑛 − 1)𝑆2 = ∑(𝑋𝑖 − �̅�)2

𝑛

𝑖=1

↔(𝑛 − 1)𝑆2

𝜎2= ∑

(𝑋𝑖 − �̅�)2

𝜎2

𝑛

𝑖=1

↔(𝑛 − 1)𝑆2

𝜎2≈ ∑

(𝑋𝑖 − 𝜇)2

𝜎2

𝑛

𝑖=1

→ (𝑛 − 1)𝑆2

𝜎2= ∑

(𝑋𝑖 − 𝜇)2

𝜎2

𝑛

𝑖=1

~ 𝑁(0,1) 𝑖𝑛𝑑𝑖𝑒𝑛 𝑋𝑖 ~ 𝑁(𝜇, 𝜎2)

→ (𝑛 − 1)𝑆2

𝜎2 ~ 𝜒𝑛−1

2 𝑖𝑛𝑑𝑖𝑒𝑛 𝑋𝑖 ~ 𝑁(𝜇, 𝜎2)

Variantie

𝑣𝑎𝑟 ((𝑛 − 1)𝑆2

𝜎2 ) = 2𝑘 = 2 ∙ (𝑛 − 1)

↔ (𝑛 − 1

𝜎2)2

𝑣𝑎𝑟(𝑆2) = 2 ∙ (𝑛 − 1)

↔ 𝑣𝑎𝑟(𝑆2) = 2 ∙ (𝑛 − 1) ∙ (𝜎2

𝑛 − 1)

2

=2𝜎4

𝑛 − 1

→ Variantie van de steekproefvariantie neemt lineair af wanner de steekproefomvang n toeneemt → Dus als n groter wordt, is er meer kans dat de steekproefvariantie dicht bij 𝜎2 zal liggen

1.8 De steekproefstandaarddeviatie S = een vertekende/onzuivere schatter van de populatiestandaarddeviatie

𝑆 = √1

𝑛 − 1∑(𝑋𝑖 − �̅�)2

𝑛

𝑖=1

formularium p.11 (wortel van 𝑆2) 𝐸(𝑆) < 𝜎 Levert een onderschatting van de populatiestandaarddeviatie 𝜎 Hoe kleiner het aantal waarnemingen n, hoe groter de onderschatting van 𝜎

Page 10: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

8

Page 11: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

9

Hoofdstuk 2: Intervalschatters

2.1 Punt- en intervalschatters Schatters uit hoofdstuk 1 leveren slechts één waarde op puntschatters

Geen indicatie van betrouwbaarheid Intervalschatters = geeft aan een puntschatter een bepaalde betrouwbaarheid

Berekenen van een interval op basis van de steekproefgegevens 𝑃(𝐿 ≤ 𝜃 ≤ 𝑈) = 1 − 𝛼 1. Betrouwbaarheidscoëfficiënt 1 − α

→ waarde tussen 0 en 1 (een kans) → dus 𝛼 tussen 0 en 1 → moet zo groot mogelijk zijn (90%,95% of 99%)

2. Betrouwbaarheidsinterval [𝐿, 𝑈] → zo smal mogelijk (voor nauwkeurige informatie)

3. Onbekende parameter 𝜃

2.2 Betrouwbaarheidsinterval voor een populatiegemiddelde 𝜇 met bekende

variantie 𝜎 Veronderstelling dat 𝜎2 gekend is en 𝜇 niet is niet realistisch enkel voor educatieve doeleinden

2.2.1 Percentielen uit de standaardnormale dichtheid 𝑃(𝑍 ≥ 𝑧𝛼) = 𝛼 𝑚𝑒𝑡 𝑍 ~ 𝑁(0,1) → 𝑃(𝑍 ≤ −𝑧𝛼) = 𝛼

→ 𝑃 (−𝑧𝛼2

≤ 𝑍 ≤ 𝑧𝛼2) = 1 − 𝛼

2.2.2 Opstellen van een betrouwbaarheidsinterval

�̅� ~ 𝑁 (𝜇,𝜎2

𝑛)

→ 𝑍 =�̅� − 𝜇

√𝜎2

𝑛

~ 𝑁(0,1)

Page 12: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

10

→ 𝑃

(

−𝑧𝛼2

≤�̅� − 𝜇

√𝜎2

𝑛

≤ 𝑧𝛼2

)

= 1 − 𝛼

→ 𝑃 (−𝑧𝛼2

∙𝜎

√𝑛≤ �̅� − 𝜇 ≤ 𝑧𝛼

2∙

𝜎

√𝑛) = 1 − 𝛼

→ 𝑃 (+𝑧𝛼2

∙𝜎

√𝑛≥ 𝜇 − �̅� ≥ −𝑧𝛼

2∙

𝜎

√𝑛) = 1 − 𝛼

→ 𝑃 (�̅� + 𝑧𝛼2

∙𝜎

√𝑛≥ 𝜇 ≥ �̅� − 𝑧𝛼

2∙

𝜎

√𝑛) = 1 − 𝛼

Betrouwbaarheidsinterval voor 𝜇: formularium p.10

[�̅� − 𝑧𝛼2

∙𝜎

√𝑛 ; �̅� + 𝑧𝛼

2∙

𝜎

√𝑛]

2.2.3 Breedte van een betrouwbaarheidsinterval (B) Hoe breder het interval, hoe betrouwbaarder:

𝐵 = (�̅� + 𝑧𝛼2

∙𝜎

√𝑛) − (�̅� − 𝑧𝛼

2∙

𝜎

√𝑛) = 2𝑧𝛼

2∙

𝜎

√𝑛

→ B neemt toe als n daalt → B neemt toe als 1 − 𝛼 stijgt, dus als 𝛼 daalt → B neemt toe als 𝜎2 stijgt

2.2.4 Foutenmarge (b)

𝑏 =𝐵

2=

2𝑧𝛼2

∙𝜎

√𝑛2

= 𝑧𝛼2

∙𝜎

√𝑛

2.3 Betrouwbaarheidsinterval voor een populatiegemiddelde 𝜇 met onbekende

variantie 𝜎 𝜎2 moet geschat worden aan de hand van de steekproefvariantie 𝑆2 Probleem: betrouwbaarheidsinterval (uit vorige paragraaf) kan niet zomaar gebruikt worden

𝑇 =�̅� − 𝜇

√𝑆2

𝑛

~ 𝑁(0,1) → 𝑚𝑎𝑎𝑟 𝑤𝑒𝑙 ~ 𝑡𝑛−1

2.3.1 Student t-verdeling → 𝑇 ~ 𝑡𝑛 = afgeleid door W.S. Gosset

𝑇 =𝑍

√𝑋𝑛

𝑚𝑒𝑡 𝑋 ~ 𝜒𝑛2 𝑒𝑛 𝑚𝑒𝑡 𝑍 ~ 𝑁(0,1)

formularium p.9

Page 13: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

11

→ Hoe groter n wordt, hoe meer de t-verdeling op de standaardnormale verdeling lijkt

→ De t-verdeling is symmetrisch: 𝑡1−𝛼 ; 𝑛−1 = −𝑡𝛼 ; 𝑛−1

o Het 10de percentiel: 𝑡0,90 ; 8 = −1.3968

o Het 90ste percentiel: 𝑡0,10 ; 8 = 1,3968

2.3.2 Toepassing van de t-verdeling bij de constructie van betrouwbaarheidsintervallen

𝑇 =�̅� − 𝜇

√𝑆2

𝑛

=

�̅� − 𝜇𝜎𝑆

√𝑛𝜎

→ 𝑏𝑒𝑖𝑑𝑒 𝑙𝑒𝑑𝑒𝑛 𝑑𝑒𝑙𝑒𝑛 𝑑𝑜𝑜𝑟 𝜎

=

�̅� − 𝜇𝜎 ∙ √𝑛

𝑆

𝜎√𝑛∙ √𝑛

→ 𝑛𝑜𝑒𝑚𝑒𝑟 𝑤𝑜𝑟𝑡𝑒𝑙 − 𝑣𝑟𝑖𝑗 𝑚𝑎𝑘𝑒𝑛 𝑑𝑜𝑜𝑟 𝑡𝑒 𝑣𝑒𝑟𝑚𝑒𝑛𝑖𝑔𝑣𝑢𝑙𝑑𝑖𝑔𝑒𝑛 𝑚𝑒𝑡 √𝑛

=

�̅� − 𝜇𝜎

√𝑛

√𝑆2

𝜎2

→ 𝑡𝑒𝑙𝑙𝑒𝑟 𝑖𝑠 𝑠𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑛𝑜𝑟𝑚𝑎𝑎𝑙 𝑣𝑒𝑟𝑑𝑒𝑒𝑙𝑑

=

�̅� − 𝜇𝜎

√𝑛

√(𝑛 − 1)𝑆2

(𝑛 − 1)𝜎2

→ 𝑚𝑒𝑡(𝑛 − 1)𝑆2

𝜎2 ~ 𝜒𝑛−1

2

→ 𝑧𝑜𝑑𝑎𝑡: �̅� − 𝜇

𝑆

√𝑛

~ 𝑡𝑛−1

Betrouwbaarheidsinterval: formularium p.10

𝑃 (−𝑡𝛼2 ; 𝑛−1

≤�̅� − 𝜇

𝑆

√𝑛

≤ 𝑡𝛼2 ; 𝑛−1

) = 1 − 𝛼

Page 14: Statistiek 2 - quickprinter.be · Voorbeeld: Aankomstenpatroon van klanten in een bankkantoor Poisson-verdeeld ( ) We kennen deze parameter niet, dus we gaan hem schatten ... We gebruiken

12

↔ 𝑃 (−𝑡𝛼2 ; 𝑛−1

∙𝑆

√𝑛≤ �̅� − 𝜇 ≤ 𝑡𝛼

2 ; 𝑛−1

∙𝑆

√𝑛) = 1 − 𝛼

↔ 𝑃 (+𝑡𝛼2 ; 𝑛−1

∙𝑆

√𝑛≥ 𝜇 − �̅� ≥ −𝑡𝛼

2 ; 𝑛−1

∙𝑆

√𝑛) = 1 − 𝛼

↔ 𝑃 (�̅� + 𝑡𝛼2 ; 𝑛−1

∙𝑆

√𝑛≥ 𝜇 ≥ �̅� − 𝑡𝛼

2 ; 𝑛−1

∙𝑆

√𝑛) = 1 − 𝛼

→ [�̅� − 𝑡𝛼2 ; 𝑛−1

∙𝑆

√𝑛 ; �̅� + 𝑡𝛼

2 ; 𝑛−1

∙𝑆

√𝑛]

2.4 Betrouwbaarheidsinterval voor een populatieproportie 𝜋

2.4.1 Een eerste intervalschatter gebaseerd op de normale verdeling = Wilson score interval

Beste interval, maar complexer

�̂� ~ 𝑁 (𝜋 ; 𝜋(1 − 𝜋)

𝑛) → 𝑣𝑖𝑎 𝑑𝑒 𝐶𝐿𝑆

→ 𝑃

(

−𝑧𝛼2

≤�̂� − 𝜋

√𝜋(1 − 𝜋)𝑛

≤ 𝑧𝛼2

)

= 1 − 𝛼 → 𝑆𝑡𝑎𝑛𝑑𝑎𝑎𝑟𝑑𝑖𝑠𝑒𝑟𝑒𝑛 𝑛𝑎𝑎𝑟 𝑁(0,1)

↔ 𝑃 ((�̂� − 𝜋)

2

𝜋(1 − 𝜋)𝑛

≤ 𝑧𝛼2

2) = 1 − 𝛼

Alle waarden van 𝜋 die voldoen aan de ongelijkheid vormen het betrouwbaarheidsinterval

↔ (𝑛 + 𝑧𝛼

2

2)𝜋2 − (2𝑛�̂� + 𝑧𝛼

2

2)𝜋 + 𝑛�̂�2 ≤ 0 → 𝑜𝑛𝑔𝑒𝑙𝑖𝑗𝑘ℎ𝑒𝑖𝑑 𝑎𝑛𝑑𝑒𝑟𝑠 𝑠𝑐ℎ𝑟𝑖𝑗𝑣𝑒𝑛

Onder- en bovengrens van het betrouwbaarheidsinterval zijn de nulpunten

𝐷 = 𝑏2 − 4𝑎𝑐 = (2𝑛�̂� + 𝑧𝛼2

2)2

− 4 ∙ (𝑛 + 𝑧𝛼2

2) ∙ 𝑛�̂�2

= 4𝑛2�̂�2 + 4𝑛�̂�𝑧𝛼2

2 + 𝑧𝛼2

4 − 4𝑛2�̂�2 − 4𝑛�̂�2𝑧𝛼2

2

= 𝑧𝛼2

2 (4𝑛�̂� + 𝑧𝛼2

2 − 4𝑛�̂�2)

𝑵𝒖𝒍𝒑𝒖𝒏𝒕𝒆𝒏 =−𝒃 ± √𝑫

𝟐𝒂

(2𝑛�̂� + 𝑧𝛼2

2) ± √𝑧𝛼2

2 (4𝑛�̂� + 𝑧𝛼2

2 − 4𝑛�̂�2)

2 ∙ (𝑛 + 𝑧𝛼2

2)

Betrouwbaarheidsinterval: formularium p.11