Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie...

25
Overzicht Theorie Kansrekening 7N5p 2013 GGHM

Transcript of Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie...

Page 1: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

Overzicht Theorie Kansrekening

7N5p

2013 GGHM

Page 2: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

2

Inhoud 1 Kansrekening ......................................................................... 3 1.1 Uitkomst en uitkomstenruimte ......................................................................... 3 1.1.1 Complement ......................................................................... 3 1.1.2 Doorsnede ......................................................................... 4 1.1.3 Vereniging ......................................................................... 4 1.2 Kans en kansexperiment ......................................................................... 5 1.2.1 Kansdefinitie ......................................................................... 5 1.2.2 Kansexperimenten ......................................................................... 5 1.2.3 Kansvariabelen ......................................................................... 6 1.2.4 Intuïtieve kansmodel ......................................................................... 6 1.2.5 Frequentistisch kansmodel ......................................................................... 6 1.3 Kansregels ......................................................................... 7 1.3.1 Somregel ......................................................................... 7 1.3.2 Complementaire kansen ......................................................................... 7 1.3.3 Algemene somregel ......................................................................... 7 1.3.4 Productregels ......................................................................... 8 1.3.4.1 Voorwaardelijke kans ......................................................................... 8 1.3.4.2 Simultane en voorwaardelijke kansen.................................................. 8 1.3.4.3 Algemene productregel ........................................................................ 9 1.3.4.4 Productregel voor onafhankelijke ....................................................... 9 gebeurtenissen 1.3.4.5 Onafhankelijkheid ......................................................................... 9 1.4 Regel van Bayes ......................................................................... 10 1.4.1 Afleiding van de regel van Bayes ...................................................................... 10 1.4.2 Betekenis van Bayes’ regel ......................................................................... 11 2 Kansverdelingen ....................................................................................... 12 2.1 Empirische kansverdelingen ....................................................................................... 12 2.2 Theoretische kansverdelingen ....................................................................................... 12 2.3 Kansverdeling als model ....................................................................................... 13 2.4 Overschrijdingskansen ....................................................................................... 13 2.5 Verwachtingswaarden ....................................................................................... 14 2.6 Discrete kansverdelingen ....................................................................................... 14 2.6.1 Overschrijdingskansen van discrete verdelingen ............................................... 15 2.6.2 Binomiale verdeling ....................................................................................... 15 2.6.2.1 Binomiaalcoëfficiënt ............................................................................ 15 2.6.2.2 Overschrijdingskansen v/d binomiale verdeling .................................. 16 2.6.2.3 Voorbeeld van de binomiale verdeling ................................................ 16 2.6.2.4 Parameters van de binomiale verdeling ............................................... 17 2.6.2.5 Verwachtingen v/d binomiale verdeling .............................................. 17 2.6.3 Hypergeometrische verdeling ............................................................................ 17 2.6.3.1 Overschrijdingskansen v/d hypergeometrische verdeling.................... 18 2.6.3.2 Verwachtingen v/d hypergeometrische verdeling ................................ 18 2.6.4 Poisson verdeling ....................................................................................... 19 2.6.4.1 Overschrijdingskansen v/d Poissonverdeling ...................................... 19 2.6.4.2 Voorbeeld v/d Poisson verdeling ......................................................... 19 2.6.4.3 Parameters v/d Poisson verdeling ........................................................ 20 2.6.4.4 Verwachtingen v/d Poisson verdeling ................................................. 20 2.7 Continue kansverdelingen ....................................................................................... 21 2.7.1 Kansdichtheid ....................................................................................... 21 2.7.2 Overschrijdingskansen van continue verdelingen .............................................. 22 2.7.3 Normale verdeling ....................................................................................... 22 2.7.3.1 Overschrijdingskansen v/d normale verdeling ..................................... 23 2.7.3.2 Standaard normale verdeling ............................................................... 24 2.7.3.3 Normale benadering van discrete verdelingen ..................................... 25 2.7.3.4 Continuïteitscorrectie ........................................................................... 25

Page 3: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

3

1 KANSREKENING De theorie van de kansrekening definieert een aantal begrippen, zoals uitkomst, uitkomstenruimte, kans en kansexperiment, en leidt regels af die voorschrijven hoe met kansen kan worden gerekend. De kansrekening is net als de Euclidische meetkunde een wiskundige theorie en heeft evenals deze belangrijke praktische toepassingen. Uitgangspunt is het concept van het kansexperiment. Een kansexperiment is een experiment, waarvan de uitkomst niet exact voorspelbaar is, maar waarbij de verschillende mogelijke uitkomsten met een bepaalde waarschijnlijkheid of kans optreden. Veel reële, maar gecompliceerde situaties worden beter begrepen en meer beheersbaar als we ze met modellen uit de kansrekening analyseren. Voorbeeld Een 'meltdown' van een kernreactor is het gevolg van de samenloop van een groot aantal onwaarschijnlijke, maar niet uit te sluiten gebeurtenissen. Door van die gebeurtenissen de onderlinge samenhang en de kans dat zij optreden in kaart te brengen, kunnen we niet alleen de uiteindelijke kans op een 'meltdown' uitrekenen, maar vooral ook beïnvloeden door bijvoorbeeld de meest kritische van de gebeurtenissen te manipuleren. Deze zg. risico-analyse is daarom een onmisbaar beleidsinstrument voor overheid en bedrijfsleven. 1.1 Uitkomst en uitkomstenruimte De verzameling van alle mogelijke uitkomsten van een kansexperiment wordt uitkomstenruimte genoemd. De uitkomstenruimte wordt aangeduid met de Griekse hoofdletter omega, Ω. Een deelverzameling van de uitkomstenruimte wordt aangeduid met gebeurtenis. Voorbeeld Het werpen van een dobbelsteen is een voorbeeld van een kansexperiment. De uitkomstenruimte van dit experiment bestaat uit de verzameling van alle mogelijke uitkomsten, dus Ω = 1, 2, 3, 4, 5, 6. Een voorbeeld van een gebeurtenis is het gooien van 5 of meer ogen, dus de deelverzameling 5, 6. Het complement van een gebeurtenis, evenals de doorsnede en de vereniging van twee gebeurtenissen, kunnen gedefinieerd worden met behulp van begrippen uit de verzamelingenleer. 1.1.1 Complement Het complement van een gebeurtenis is de deelverzameling van de uitkomsten, die niet tot die gebeurtenis behoren. Het complement van A (notatie: A ) bevat juist die elementen die niet to A behoren. A wordt ook wel als "niet A" uitgesproken. Twee complementaire gebeurtenissen vormen samen de gehele uitkomstenruimte van het kansexperiment: Ω = A A∪ Voorbeeld Het complement van de gebeurtenis 'het gooien van 5 of meer ogen' is dus 'het gooien van 4 of minder ogen'. Dit is de deelverzameling 1, 2, 3, 4. Hier is A = 5, 6 en A = 1, 2, 3, 4.

Page 4: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

4

1.1.2 Doorsnede De doorsnede van twee gebeurtenissen bevat die uitkomsten, die tot beide gebeurtenissen behoren. De doorsnede van de gebeurtenissen A en B wordt aangeduid met A ∩ B, uitgesproken als A én B. Voorbeeld De doorsnede van de gebeurtenissen 'het gooien van 5 of meer ogen' en 'het gooien van 5 of minder ogen' is '5 ogen'. Als twee gebeurtenissen elkaar uitsluiten, dat wil zeggen geen enkele uitkomst gemeenschappelijk hebben, worden zij disjunct genoemd. We zeggen, dat hun doorsnede leeg is en geven dat aan met: A ∩ B = ∅. Het symbool ∅ duidt een lege verzameling aan. Complementaire gebeurtenissen zijn per definitie disjunct. Voorbeeld De doorsnede van de gebeurtenissen 'het gooien van 5 of meer ogen' en 'het gooien van minder dan 5 ogen' is leeg. De gebeurtenissen zijn dus disjunct. A =5, 6 en B = 1, 2, 3, 4 zijn disjunct, omdat A ∩ B = ∅. Dat wil zeggen, dat geen enkele uitkomst tot zowel A als B behoort. 1.1.3 Vereniging De vereniging van twee gebeurtenissen, bevat alle uitkomsten, die tot één van beide gebeurtenissen of tot beide behoren. De vereniging van de gebeurtenissen A en B wordt aangeduid met A ∪ B, uitgesproken als A of B. Als de gebeurtenissen disjunct zijn, dus als de doorsnede van A en B leeg is, wordt de vereniging A ∪ B verkregen door de uitkomsten van A aan die van B toe te voegen. Voorbeeld De vereniging van de gebeurtenissen 'het gooien van 5 ogen' en 'het gooien van 6 ogen' met een dobbelsteen is 'het gooien van 5 of 6 ogen'. De gebeurtenissen zijn disjunct (sluiten elkaar uit), want je kunt niet tegelijk een 5 en een 6 gooien. Veelal zijn de gebeurtenissen niet disjunct, en is dus de doorsnede van A en B niet leeg. In dat geval wordt A ∪ B verkregen door uitkomsten van A toe te voegen aan die van B en de (dubbel getelde) uitkomsten in de doorsnede A ∩ B één keer te verwijderen. Voorbeeld De vereniging van de gebeurtenissen 'het gooien van 5 of meer ogen' en 'het gooien van een oneven aantal ogen' is 1, 3, 5 of 6 ogen. De eerste gebeurtenis is A = 5, 6, de tweede is B = 1, 3, 5 en A ∪ B = 5, 6 plus 1, 3, 5 minus éénmaal de doorsnede 5 is 1, 3, 5, 6. De doorsnede van beide gebeurtenissen, 5 ogen, mag dus slechts eenmaal in de vereniging vóórkomen.

Page 5: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

5

1.2 Kans en kansexperiment De kans op een bepaalde gebeurtenis wordt uitgedrukt in een getal tussen 0 en 1. Een waarde dicht bij 0 geeft aan dat de gebeurtenis onwaarschijnlijk is; een waarde dicht bij 1 geeft een hoge waarschijnlijkheid aan. Kans wordt formeel als een wiskundig axioma gedefinieerd. Er bestaan verschillende verklaringen van het concept 'kans'. We behandelen het frequentistische kansmodelen het intuitieve kansmodel. Een kansexperiment is een experiment, waarvan de uitkomst niet voorspelbaar is, maar waarbij de verschillende mogelijke uitkomsten met een bepaalde waarschijnlijkheid of kans optreden. De verzameling van alle mogelijke uitkomsten van het kansexperiment wordt de uitkomstenruimte (notatie: Ω) genoemd. Een kansexperiment wordt mathematisch voorgesteld door een kansvariabele, die verschillende waarden kan aannemen. Ieder van de mogelijke waarden van de kansvariabele heeft een bepaalde kans om op te treden. 1.2.1 Kansdefinitie De kans op een bepaalde gebeurtenis (eng. probability of event, notatie P) wordt uitgedrukt in een getal tussen 0 en 1, inclusief 0 en 1. De notatie voor de kans op de gebeurtenis x is P(X = x), waarbij 0 ≤ P(X = x) ≤ 1. Met de hoofdletter X wordt de kansvariabele aangeduid en met de kleine letter x de realisatie of waarde van de kansvariabele. Kortheidshalve schrijven we vaak P(x) in plaats van P(X = x). Een waarde dicht bij 0 betekent dat de gebeurtenis onwaarschijnlijk is; een waarde dicht bij 1 betekent een hoge waarschijnlijkheid. De kans P(x) = 0 geeft aan dat het optreden van de gebeurtenis x uitgesloten is, de kans P(x) = 1 geeft aan dat de gebeurtenis x in ieder geval optreedt. De kans op een willekeurige uitkomst uit de uitkomstenruimte is dus P(Ω) = 1. Op deze manier gedefinieerd is het begrip kans een abstract mathematisch concept. Er bestaan verschillende kansmodellen, die nader proberen te verklaren wat de praktische en filosofische betekenis van dit concept is. Wij behandelen het intuïtieve kansmodel en het frequentistische kansmodel. De grootte van een kans is soms theoretisch af te leiden, maar moet meestal worden geschat uit experimentele of historische gegevens. Voorbeeld De kans op het gooien van 6 ogen met een (ideale) dobbelsteen is theoretisch 1/6, omdat de uitkomstenruimte van het kansexperiment uit 6 even waarschijnlijke uitkomsten bestaat en gevraagd wordt naar de kans op het optreden van één van die uitkomsten. Voorbeeld De kans op de geboorte van een meisje kunnen we niet theoretisch afleiden, maar uit gegevens van de burgerlijke stand weten we, dat er ongeveer 45 meisjes tegen 55 jongens worden geboren. De kans op de geboorte van een meisje is dus 45/(45+55) = 0.45. 1.2.2 Kansexperimenten Voor de kansrekening belangrijke theoretische kansexperimenten zijn bijvoorbeeld het werpen met een dobbelsteen of een muntstuk. Daarbij gaat het niet om de praktische uitvoering, maar om het gedachte-experiment van het werpen met een (ideale) dobbelsteen of munt. In de werkelijkheid hebben we te maken met praktische kansexperimenten als het geboren worden van een jongen of een meisje, het aantal verkeersongelukken per maand op een bepaald weggedeelte, de meting van het IQ bij kinderen in groep 4, of het optreden van onweer op 21 juni in De Bilt. Merk op dat bij één kansexperiment meerdere uitkomstenruimtes kunnen horen. Dit hangt af van de kansvariabele, waarin we geïnteresseerd zijn, en van wat er is gemeten.

Page 6: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

6

1.2.3 Kansvariabelen Een kansexperiment wordt mathematisch voorgesteld door een kansvariabele (stochast genoemd), die verschillende mogelijke waarden kan hebben. Die mogelijke waarden worden realisaties genoemd. Ieder van de realisaties heeft een bepaalde kans om op te treden. De kansvariabele wordt met een hoofdletter aangeduid, bijvoorbeeld X, een mogelijke realisatie met een kleine letter, bijvoorbeeld x. De realisatie x is dus een concrete waarde. De kans zelf wordt met een hoofdletter P aangeduid. De kans op (het optreden van) de realisatie x van (de kansvariabele) X wordt dan genoteerd als P(X = x). Voorbeeld De kans dat bij het werpen van een muntstuk de uitkomst 'kruis' wordt verkregen stellen we voor door P(X = 'kruis'). De kansvariabele X = 'het werpen van en muntstuk' en de realisatie x = 'kruis'. 1.2.4 Intuitieve kansmodel Wat is de kans op het gooien van een 5 of hoger met een dobbelsteen? We kunnen de volgende redenering opzetten. Als de dobbelsteen zuiver symmetrisch is met het zwaartepunt precies in het midden, zijn alle zes de uitkomsten 1, 2, 3, 4, 5, 6 even waarschijnlijk. Geven we nu de kans op het optreden van ieder van de uitkomsten de waarde 1/6, dan is de som van alle kansen gelijk aan één. De kans op het optreden van ofwel een 5, dan wel een 6 is dan gelijk aan P(X ≥ 5) = 2 x 1/6 = 1/3. De betekenis, die we aan het concept kans hechten is volgens dit model louter intuïtief. Het kansexperiment met de dobbelsteen is eigenlijk geen echt experiment, maar een model, dat onze intuïtie ondersteunt. De definitie van kans is bovendien tautologisch: we hebben immers eerst alle uitkomsten 'even waarschijnlijk' genoemd en hebben daarvan gebruik gemaakt om 'kans' te definiëren. Het intuïtieve kansmodel, hoe onlogisch ook, sluit goed aan bij het omgaan met kansen in de dagelijkse praktijk. Kansen op winst en risico's op ongevallen zijn belangrijke overwegingen, die ons handelen bepalen, terwijl het in de meeste gevallen onmogelijk is die kansen en risico's empirisch te bepalen of te verifiëren. 1.2.5 Frequentistische kansmodel Wat is de kans op het gooien van een 5 of hoger met een dobbelsteen? Als we het experiment daadwerkelijk uitvoeren, dan weten we uit ondervinding, dat we, na een aantal worpen met de dobbelsteen, in ongeveer 1/3 van de gevallen een 5 of 6 hebben gegooid. Als de dobbelsteen zuiver symmetrisch is met het zwaartepunt precies in het midden zullen we weliswaar aanvankelijk een toevallige afwijking van deze proportie van 1/3 vinden, maar naarmate het aantal pogingen toeneemt wordt de proportie 1/3 steeds dichter benaderd. De redenering is nu, dat als we het aantal worpen onbegrensd laten toenemen, de proportie 1/3 onbegrensd dicht wordt benaderd. De limiet 1/3 noemen we de kans op het optreden van de uitkomsten 5 of 6. Dit model wordt het frequentistische kansmodel genoemd. Kans is daarin de limiet van de relatieve frequentie van de uitkomst in een gedachte-experiment, dat we 'oneindig' vaak herhalen. Daardoor is het mogelijk veel concreter te formuleren wat we met een kans bedoelen. Het nadeel is, dat het in veel praktische situaties niet goed mogelijk is een empirisch kansmodel te bedenken, zodat we weer terugvallen op het intuïtieve kansmodel. Voorbeeld. De kans, dat een kind bij de geboorte een meisje is, is ongeveer 0.45. We kunnen dit verifiëren door in de gegevens van de burgerlijke stand de aantallen aangegeven jongens en meisjes te turven. We vinden dan inderdaad ongeveer 45% meisjes en 55% jongens. De kans, dat de VVD de volgende verkiezingen wint of de toename van het risico op leukemie bij kinderen, die in de buurt van een kerncentrale wonen is daarentegen niet in een empirisch kansexperiment te verifiëren.

Page 7: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

7

1.3 Kansregels Bij het rekenen met kansen gaan we uit van de definitie van kans (zie kansdefinitie). De regels van de kansrekening zijn hieruit afgeleid met behulp van de verzamelingenleer. De belangrijkste kansregels zijn de somregel, de algemene somregel en de productregel. 1.3.1 Somregel De kans op de vereniging van twee gebeurtenissen is gelijk aan de som van de kansen op ieder van de gebeurtenissen, mits de gebeurtenissen disjunct zijn. De notatie van deze somregel is: P(A ∪ B) = P(A) + P(B) Voorbeeld De kans op het gooien van een 5 of een 6 met een (ideale) dobbelsteen is P( 5 ∪ 6) = P(5) + P(6) = 1/6 + 1/6 = 1/3. Het gooien van een 5 en het gooien van een 6 zijn elkaar uitsluitende gebeurtenissen, want je kunt niet tegelijk een 5 en een 6 gooien. 1.3.2 Complementaire kansen Voor twee gebeurtenissen, die elkaars complement zijn, A en A , geldt dat P( A ) = 1 – P(A) Deze regel kan uit de somregel worden afgeleid. Immers een gebeurtenis A is het complement van een gebeurtenis A als A ∪ A = Ω. Volgens de somregel is P(A) + P( A ) = P(A ∪ A ) = P(Ω) = 1. Dus is P( A ) = 1 - P(A). De kans op een willekeurige uitkomst uit de uitkomstenruimte Ω is P(Ω) = 1, omdat dat een zekere gebeurtenis is. Voorbeeld De kans op de geboorte van een jongen is 1 minus de kans op de geboorte van een meisje: P(X = jongen) = 1 – P(X = meisje) = 1 – 0.49 = 0.51. 1.3.3 Algemene somregel Als twee gebeurtenissen A en B elkaar niet uitsluiten is de kans op de gebeurtenis A ∪ B gelijk aan de som van de kansen op A en B minus de kans op de doorsnede van A en B. De notatie van deze algemene somregel is: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) De kans op het optreden van de doorsnede van A en B, P(A ∩ B), kan empirisch worden bepaald of met behulp van een van de productregels worden berekend. Voorbeeld De kans op het 'gooien van 5 of meer ogen' of het 'gooien van een oneven aantal ogen' met een (ideale) dobbelsteen kan met de algemene somregel worden berekend. A = 5,6 en B = 1,3,5. De doorsnede A ∩ B = 5 i.e. de enige uitkomst, die A en B gemeenschappelijk hebben. Dus is: P(A ∪ B = P(A) + P(B) – P(A ∩ B) = 2/6 + 3/6 - 1/6 = 2/3 Als A en B disjunct zijn, dus elkaar uitsluiten is de doorsnede van A en B leeg en is dus de kans P(A ∩ B) per definitie gelijk aan 0. De somregel is dus een speciaal geval van de algemene somregel.

Page 8: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

8

1.3.4 Productregels Voor de berekening van de kans op de doorsnede van twee gebeurtenissen A en B, P(A ∩ B), gebruiken we de productregels. Als de gebeurtenissen A en B afhankelijk zijn, geldt de algemene productregel, als ze echter onafhankelijk zijn geldt de simpeler productregel voor onafhankelijke gebeurtenissen. Om te kunnen begrijpen wat (on)afhankelijkheid van gebeurtenissen inhoudt, definiëren we eerst het begrip voorwaardelijke kans en vergelijken deze kans met de kans op de doorsnede, die ook wel simultane kans wordt genoemd. 1.3.4.1 Voorwaardelijke kans De kans op de gebeurtenis A, onder de voorwaarde dat de gebeurtenis B is opgetreden, wordt de voorwaardelijke kans op A gegeven B genoemd. De notatie voor deze voorwaardelijke kans is P(A|B). Achter de verticale streep staat de voorwaarde (de gebeurtenis B) voor de kans dat de gebeurtenis A zal optreden. In de praktijk is de kans op een gebeurtenis vaak afhankelijk van het optreden van een andere gebeurtenis. Anders gezegd: het optreden van de tweede gebeurtenis, B, geeft informatie over (verandert) de kans op de eerste gebeurtenis, A. Voorbeeld De kans dat je fiets wordt gestolen hangt af van de plaats waar je je fiets hebt neergezet, de kans dat een baby een aangeboren ziekte heeft hangt soms af van het geslacht van de baby, de kans dat iemand een hogere opleiding heeft gevolgd wordt (mede) bepaald door het opleidingsniveau van de ouders enzovoort. Als de voorwaardelijke kans op A gegeven B gelijk is aan de onvoorwaardelijke kans op A, dus als P(A|B) = P(A), dan zijn de gebeurtenissen A en B onafhankelijk. 1.3.4.2 Simultane en voorwaardelijke kansen De kans op de doorsnede van A en B, P(A ∩ B), wordt ook wel de simultane kans op A en B genoemd. De simultane kans op A en B moet goed worden onderscheiden van de voorwaardelijke kans op A gegeven B, P(A|B). Bij de simultane kans gaat om het samen optreden van twee gebeurtenissen, terwijl het bij de voorwaardelijke kans om het optreden van een gebeurtenis gaat, nadat of terwijl aan de voorwaarde is voldaan, dat de andere gebeurtenis heeft plaatsgevonden. Het onderscheid is in de praktijk niet altijd gemakkelijk te maken. Voorbeeld De kans, dat iemand een hogere opleiding gaat volgen, wordt (mede) bepaald door het opleidingsniveau van de ouders. Stel dat B is gedefinieerd als 'een hoger-opgeleid kind' en A als 'een hoger-opgeleide vader', dan is de simultane kans P(A ∩ B) de kans, dat we door willekeurige mensen te vragen naar hun eigen opleiding en naar die van hun vader, iemand aantreffen, die zowel zelf hoger-opgeleid is als een hoger-opgeleide vader heeft. Stel dat we in 4% van de gevallen zulke personen aantreffen, dan is naar schatting P(A ∩ B) = 0.04. De voorwaardelijke kans is de kans, dat we door uitsluitend hoger- opgeleide kinderen te vragen naar het opleidingsniveau van hun vader, een kind aantreffen met een hoger-opgeleide vader. Waarschijnlijk vinden we iets als P(A|B) = 0.6, want hoger-opgeleide kinderen hebben inderdaad vaker hoger-opgeleide vaders dan willekeurig gekozen kinderen.

Page 9: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

9

1.3.4.3 Algemene productregel De simultane kans op twee gebeurtenissen A en B wordt berekend met de algemene productregel: P(A ∩ B) = P(A|B) ∙ P(B) In deze vergelijking is P(A|B) de voorwaardelijke kans op de gebeurtenis A, gegeven dat B zich heeft voorgedaan. Voorbeeld Bij een enquête onder studenten blijkt 1 op de 3 meisjes een eigen PC te hebben. Er studeren evenveel meisjes als jongens. Hoe groot is de kans, dat een willekeurig gekozen student een meisje met PC is? Definiëren we PC-bezit met A en geen PC-bezit met A , meisjes-student zijn met D en jongens-student zijn met D , dan is gegeven, dat P(A|D) = 1/3 en verder dat P(D) = 0.5. De kans, dat een willekeurige student een meisje is met een eigen PC, is dan P(A ∩ D) = P(A|D) ∙ P(D) = (1/3) x (1/2) = 1/6. 1.3.4.4 Productregel voor onafhankelijke gebeurtenissen Als de voorwaardelijke kans P(A|B) gelijk is aan de onvoorwaardelijke kans P(A) gaat de algemene productregel P(A ∩ B) = P(A|B) ∙ P(B) over in de productregel voor onafhankelijke gebeurtenissen: P(A ∩ B) = P(A) ∙ P(B) De gebeurtenissen A en B zijn in dat geval onafhankelijk. De productregel voor onafhankelijke gebeurtenissen is dus een speciaal geval van de algemene productregel. Voorbeeld De primaire acties bij allerlei kansspelen zijn meestal onafhankelijk. Twee afzonderlijke worpen met een dobbelsteen leveren onafhankelijke gebeurtenissen. Een dobbelsteen heeft geen geheugen. De kans dat we eerst zes ogen gooien en daarna één oog is P(X=6) ∙ P(X=1) = (1/6) ∙ (1/6) = 1/36. 1.3.4.5 Onafhankelijkheid Twee gebeurtenissen A en B zijn onafhankelijk, als de voorwaardelijke kans op A gegeven B gelijk is aan de onvoorwaardelijke kans op A, dus als P(A|B) = P(A). In dat geval is ook het omgekeerde waar: P(B|A) = P(B). Voor onafhankelijke gebeurtenissen gaat de algemene productregel over in de productregel voor onafhankelijke gebeurtenissen: P(A ∩ B) = P(A|B) ∙ P(B) = P(A) ∙ P(B) Afhankelijkheid van twee gebeurtenissen is een formele eigenschap en vormt geen bewijs van het bestaan van een causale relatie tussen de beide gebeurtenissen. Afhankelijkheid van A en B wil alleen zeggen: het optreden van de ene gebeurtenis, B, geeft informatie over (verandert) de kans op de andere gebeurtenis, A. We contrasteren daarom wel stochastische (on)afhankelijkheid (vanuit het gezichtspunt van de kansrekening) met causale (on)afhankelijkheid (vanuit het gezichtspunt van oorzaak en gevolg). Voorbeeld Het sterfterisico door longkanker op de leeftijd van 50 jaar bedraagt in de gehele bevolking 0.1%, hetzelfde risico voor mannen bedraagt 0.3%. Er is hier dus geen sprake van stochastische onafhankelijkheid. Mogen we nu concluderen, dat er een causale relatie is tussen longkanker en geslacht? Niet op grond van deze gegevens. Weliswaar is de voorwaardelijke kans P(longkankersterfte | man) = 0.003 groter dan de onvoorwaardelijke kans P(longkankersterfte) = 0.001, maar de belangrijkste risicofactor, roken, in beide subpopulaties verschilt. Vrouwen hebben (in de afgelopen decennia) minder gerookt dan mannen.

Page 10: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

10

1.4 Regel van Bayes De regel van Bayes is zonder twijfel de belangrijkste stelling uit de kansrekening. Hij kan worden afgeleid uit de algemene productregel en legt een relatie tussen de voorwaardelijke en onvoorwaardelijke kansen op de gebeurtenissen A en B. De eenvoudige vorm van de regel is:

P(B|A) P(A)

P(A|B) = P(B|A) P(A) + P(B|A) P(A)

⋅⋅ ⋅

De theoretische betekenis van Bayes' regel is, dat hij inzichtelijk maakt hoe onze inschatting van de kans op een onzekere gebeurtenis A, wordt beïnvloed door het optreden van een andere onzekere gebeurtenis B. De regel van Bayes wordt toegepast, als optimale beslissingen en procedures noodzakelijk zijn, zoals in de medische en genetische diagnostiek, artificiële intelligentie, organisatie van het dataverkeer en in ieder wetenschappelijk onderzoek, als het erom gaat te bewijzen, dat de waarschijnlijkheid van de juistheid van een hypothese door het onderzoek is toegenomen. Ook in het dagelijks leven komen situaties voor, waarin de toepassing van de regel van Bayes essentieel is voor een juiste beslissing. Voorbeeld Bij een aanrijding was volgens een getuige een blauwe taxi betrokken en doorgereden. Dat het een taxi was, is wel zeker, maar over de kleur twijfelt de politie nog. Bij navraag blijkt, dat in de stad 85% van de taxi's geel is en slechts 15% blauw. Zonder de extra informatie van de getuige moet de politie ervan uitgaan, dat de kans 15% is, dat de taxi blauw was. De betrouwbaarheid van de getuige wordt op 80% geschat, dat wil zeggen, dat hij in 80 van de 100 gevallen een juiste verklaring pleegt af te leggen. Die extra informatie maakt, dat de kans dat de taxi blauw was aanzienlijk toeneemt, maar niet tot 80%. De regel van Bayes maakt het mogelijk die kans uit te rekenen, zie §1.4.2 Betekenis van Bayes' regel. 1.4.1 Afleiding van Bayes’ regel De afleiding van de regel van Bayes is voor de toepassingen van beperkt belang, maar voor een goed inzicht is hier toch de afleiding, met een voorbeeld van een eenvoudige toepassing. Vanwege de symmetrie van de simultane kans P(A ∩ B) = P(B ∩ A) kan de algemene productregel op twee manieren worden geschreven: P(A ∩ B) = P(A|B) ∙ P(B) = P(B|A) ∙ P(A) Dus is

P(B|A) P(A)

P(A|B) = P(B)

Dit is de regel van Bayes in zijn eenvoudigste vorm.

De noemer kan nu als volgt worden herleid: P(B) = P(A ∩ B) + P( A ∩ B)

en door tweemaal toepassen van de algemene productregel tot: P(B) = P(B|A).P(A) + P(B| A ) ∙ P( A )

waarmee de regel van Bayes is bewezen: P(B|A) P(A)

P(A|B) = P(B|A) P(A) + P(B|A) P(A)

⋅⋅ ⋅

Voorbeeld Een marktonderzoeker vraagt aan de klanten van een supermarkt of zij aan een enquête willen meewerken. De helft van hen stemt toe en aan hen wordt gevraagd of zij een bepaald product hebben gekocht. 4 op de 10 heeft het product inderdaad gekocht. De onderzoeker vindt dit aan de hoge kant en bedenkt, dat kopers van het product misschien eerder geneigd zijn om aan een enquête mee te werken dan niet-kopers. Om die stelling te onderbouwen vraagt hij aan een steekproef van kopers of zij aan een enquête willen meewerken. 80% zegt daar ja op en niemand weigert te antwoorden. Welk deel van de populatie is (potentiële) koper? Dergelijke problemen zijn goed op te lossen met de eenvoudige vorm van de regel van Bayes, zoals hierboven afgeleid. Als A staat voor 'koper' en B voor 'ja, ik doe mee aan de enquête', dan is P(B) de kans dat een willekeurig iemand uit de populatie meedoet aan het onderzoek en is P(B|A) de (voorwaardelijke) kans dat iemand uit de subpopulatie van kopers een meedoener is. Verder is P(A) de

Page 11: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

11

kans dat een willekeurig iemand uit de populatie een koper is, terwijl P(A|B) de (voorwaardelijke) kans is dat iemand uit de subpopulatie van meedoeners een koper een is. In het voorbeeld is P(B) = 0.5, P(A|B) = 0.4 en P(B|A) = 0.8, zodat de proportie kopers in de gehele populatie is: P(A) = 0.4 x 0.5 / 0.8 = 0.25 In onderstaande tabel vatten we dat nog eens samen:

1.4.2 Betekenis van Bayes’ regel

Bayes' regel luidt: P(B|A) P(A)

P(A|B) = P(B|A) P(A) + P(B|A) P(A)

⋅⋅ ⋅

en geeft aan, dat P(A|B), d.i. de kans op A gegeven de zekerheid dat B waar is, afhangt van de kansen op B

als A waar is en als A niet waar is, dus P(B|A) en P(B| A ), en bovendien van de onvoorwaardelijke kansen P(A)

en P( A ). De onvoorwaardelijke kans P(A) wordt wel de a priori kans genoemd en de voorwaardelijke kans P(A|B) de a posteriori kans, dat wil zeggen de kans op A, nadat we de extra informatie B hebben gekregen. Voorbeeld Bij een aanrijding was volgens een getuige een blauwe taxi betrokken en doorgereden. Dat het een taxi was, is wel zeker, maar over de kleur twijfelt de politie nog. Bij navraag blijkt, dat in de stad 85% van de taxi's geel is en slechts 15% blauw. Zonder de extra informatie van de getuige moet de politie ervan uitgaan, dat de de kans 15% is, dat de taxi blauw was. De betrouwbaarheid van de getuige wordt op 80% geschat, dat wil zeggen, dat hij in 80 van de 100 gevallen een juiste verklaring pleegt af te leggen. Die extra informatie maakt, dat de kans dat de taxi blauw was aanzienlijk toeneemt, maar niet tot 80%. Als A = "de taxi was blauw" en B = "de getuige zegt dat de taxi blauw was", dan is de a priori kans, dat

de taxi blauw was P(A) = 0.15 en dus P( A ) = 0.85. De a posteriori kans, dat de getuige zegt, dat de taxi blauw is, als hij dat ook werkelijk is, is P(B|A) = 0.8 en de kans, dat hij dat zegt, als de taxi geel is, is

P(B| A ) = 0.2. De kans, dat de taxi blauw is, is nadat de politie de informatie van de getuige heeft verkregen:

0,8 0,15

P(A|B) = 0,410,8 0,15 + 0,2 0,85

⋅ ≈⋅ ⋅

De praktische betekenis van de regel van Bayes is, dat beslissingen in onzekere situaties beter kunnen worden onderbouwd, omdat we kunnen uitrekenen, welke kennis we nodig hebben om de kans op een juiste beslissing zo groot mogelijk te maken. Bayes' regel is het fundament van de besliskunde en wordt overal toegepast waar beslissingen moeten worden genomen en processen moeten worden geoptimaliseerd, waarin onzekere factoren een rol spelen.

Page 12: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

12

2 Kansverdelingen De verzameling van alle mogelijke waarden, die een kansvariabele kan aannemen plus de kansen, dat die waarden worden gerealiseerd, wordt kansverdeling genoemd. In de praktijk heeft een kansverdeling meestal de vorm van een tabel, grafiek of formule. Omdat de kansverdeling alle mogelijke realisaties van de kansvariabele omvat, is de som van alle kansen van een kansverdeling per definitie gelijk aan één: ΣP(x) = 1 waarin de som is genomen over de gehele uitkomstenruimte Ω. Sommige kansverdelingen zijn gebaseerd op een door empirisch onderzoek verkregen frequentieverdeling. Meestal worden in de statistiek echter kansverdelingen toegepast, die uit denkbeeldige kansexperimenten zijn afgeleid. Dergelijke theoretische kansverdelingen staan in de statistiek model voor de verdeling van kansen in een reële situatie. Naar gelang het type van de kansvariabele worden kansverdelingen ingedeeld in discrete kansverdelingen en continue kansverdelingen. 2.1 Empirische kansverdelingen Kansverdelingen zijn vaak gebaseerd op een door empirisch onderzoek verkregen frequentieverdeling. Voorbeeld Uit een door een enquête verkregen frequentietabel van de inkomens(klassen) in Nederland kunnen we de kansen schatten om een willekeurig persoon aan te treffen met een inkomen van € 0 - 10.000, € 10.000 - 20.000 ... of hoger dan € 200.000. Op vergelijkbare wijze kunnen we uit een sterftetabel de kansen schatten, dat een willekeurige persoon op een bepaalde leeftijd zal overlijden. De kansen, dat Ajax nummer 1, 2, ..., laatste wordt in de eerstvolgende voetbalcompetitie, kunnen we op grond van de huidige prestaties en van allerlei andere factoren inschatten. In al deze gevallen is de som van de kansen gelijk één (1), want iedereen heeft een inkomen tussen 0 en meer dan €200.000, gaat op enige leeftijd dood en Ajax eindigt altijd op een of andere plaats. 2.2 Theoretische kansverdelingen De meeste kansverdelingen, die in de statistiek worden toegepast, zijn uit kansexperimenten theoretisch afgeleid. Theoretische kansverdelingen worden beschreven door een wiskundige formule of procedure en (meestal) gekenmerkt door een klein aantal constanten of parameters. Voorbeeld Door 4 maal met een munt te gooien en het aantal keren 'kruis' als uitkomst te beschouwen krijgen we de volgende theoretische kansverdeling. Dit is een voorbeeld van een theoretische verdeling, de binomiale verdeling. In de praktijk staat deze verdeling model voor, bijvoorbeeld, de verdeling van de kansen op een gezinssamenstelling van 0, 1, 2, 3 of 4 jongens in een gezin van 4 kinderen, als de kans op een jongen per keer steeds precies 0.5 is. Het aantal muntworpen is in dit geval equivalent met de grootte van het gezin. Het aantal keren 'kruis' is equivalent met het aantal jongens in het gezin.

Page 13: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

13

2.3 Kansverdeling als model Waarom gebruiken we theoretische kansverdelingen als model voorempirische kansverdelingen of reële frequentieverdelingen? Statistisch onderzoek beoogt uitspraken te doen over de kansverdeling van een kenmerk op basis van steekproefgegevens. Om de kansverdeling precies te leren kennen zouden grote steekproeven nodig zijn, waardoor het onderzoek tijdrovend en kostbaar zou worden. Als we nu theoretische of praktische redenen hebben om aan te nemen, dat de gezochte kansverdeling benadert kan worden met een theoretische kansverdeling met bekende eigenschappen, kunnen we soms met een kleinere steekproef volstaan. Voorbeeld Tellingen, bijvoorbeeld van ongevallen, hebben een theoretische kansverdeling, die de Poisson- verdeling wordt genoemd. De standaardafwijking van de Poisson-verdeling is gelijk aan de wortel van het gemiddelde van de tellingen. In Nederland is het aantal dodelijke verkeersslachtoffers gemiddeld

over een aantal jaren 1200. De standaardafwijking kan dus geschat worden op 1200 35≈ . Als in een bepaald jaar het aantal verkeersslachtoffers 1235 bedraagt, valt dat binnen de normale toevallige spreiding en is er geen reden om van een opvallende toename te spreken. Als het aantal slachtoffers in een jaar echter 1300 is, is dat wel reden om te spreken van een niet-toevallige toename of misschien zelfs van een trend. Theoretische kansverdelingen worden gekenmerkt door een wiskundige formule of procedure en door een klein aantal parameters. Door aan te nemen, dat een empirische kansverdeling gemodelleerd kan worden door een theoretische verdeling met bekende mathematische eigenschappen, kunnen we met één enkele of een paar waarnemingen de hele verdeling schatten. 2.4 Overschrijdingskansen De kans op het optreden van een uitkomst gelijk aan of groter dan een waarde x, P(X ≥ x), wordt (rechter)overschrijdingskans genoemd. De kans P(X ≤ x), wordt cumulatieve kans of ook wel linkeroverschrijdingskans genoemd. Overschrijdingskansen zijn interessante grootheden: zij geven aan hoe zeldzaam een bepaalde uitkomst of een nog grotere (of een nog kleinere) uitkomst is. De overschrijdingskansen van belangrijke theoretische kansverdelingen kunnen in statistische tabellen worden opgezocht. Voorbeeld De kansverdeling van de in een loterij te winnen prijzen is in de tabel weergegeven. De kans om 1000 of meer euro te winnen is de overschrijdingskans P(X ≥ 1000) = P(X = 1000) + P(X = 5000) + P(X = 10000) = 0,0003 + 0,0001 + 0,00003 = 0,00043

Page 14: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

14

2.5 Verwachtingswaarden Als van een kansvariabele X de kansverdeling bekend is, dus als P(X = x) = P(x) bekend is voor alle waarden x, dan kunnen we de verwachtingswaarde E(X) van X uitrekenen. Deze is voor discrete kansverdelingen gedefinieerd als de som van alle waarden x, ieder vermenigvuldigd met de kans dat hij optreedt: E(X) = ΣxP(x) Voor continue kansverdelingen geldt de overeenkomstige uitdrukking: E(X) = ∫xf(x)dx De verwachting(swaarde) van X, E(X), wordt populatiegemiddelde genoemd en is bij een kansverdeling, wat het rekenkundig gemiddelde is bij een frequentieverdeling. E(X) wordt vaak met de Griekse letter μ aangeduid, dus E(X) = μ. E(X) is bij een kansspel de gemiddelde opbrengst aan prijzen, vandaar de naam 'verwachting'. Voorbeeld We spelen met een gewone dobbelsteen en spreken af, dat ik jou het aantal geworpen ogen in euro's uitbetaal, terwijl jij mij voor iedere worp 31/2 euro betaalt. Is dat een 'fair deal'? Jouw winst is gemiddeld per worp: E(X) = ΣxP(x) = 1x1/6 + 2x1/6 + 3x1/6+ 4x1/6+ 5x1/6+ 6x1/6 = 31/2 euro en dat is precies wat je betaalt, dus er is niets mis met de deal. De verwachting van de deviaties X - μ is altijd gelijk aan 0, want E(X - μ) = E(X) - E(μ) = μ - μ = 0. Een belangrijker grootheid is de verwachting van het kwadraat van de deviaties, gedefinieerd als: E(X - μ)² = Σ(x - μ)²P(x) Voor continue kansverdelingen geldt de overeenkomstige uitdrukking: E(X - μ)² = ∫(x - μ)²f(x)dx Deze grootheid wordt populatievariantie genoemd en is equivalent met de variantie bij een frequentieverdeling. De populatievariantie wordt met σ² aangeduid, dus E(X - μ)² = σ². 2.6 Discrete kansverdelingen Naar gelang het type van de kansvariabele worden kansverdelingen ingedeeld in discrete en continue kansverdelingen. Als het type van de kansvariabele discreet is, dat wil zeggen, als de kansvariabele een aftelbaar aantal mogelijke uitkomsten of realisaties heeft, is de bijbehorende kansverdeling een discrete kansverdeling. De drie belangrijkste discrete verdelingen zijn de binomiale verdeling, de hypergeometrische verdeling en de Poisson-verdeling. Een telling in een steekproef van beperkte omvang heeft meestal de binomiale verdeling. Voorbeeld Standaard kansexperiment is het werpen van een munt met als uitkomst het aantal keren, dat 'kruis' wordt gegooid. Als de omvang van de steekproef (het aantal muntworpen) n is en de kansvariabele X, als mogelijke waarden x = 0, 1, 2, ... , n (het aantal keren 'kruis') heeft, dan is X binomiaal verdeeld. Een telling in een steekproef afkomstig uit een populatie van beperkte omvang heeft meestal de hypergeometrische verdeling. Het verschil met de binomiale verdeling is dat bij de binomiale verdeling de populatie onbeperkt groot ('oneindig') is. Voorbeeld Het aantal vrouwen in steekproeven van 10, door loting gekozen uit een personeelsbestand van 200 personen (kleine populatie), heeft de hypergeometrische verdeling. Een telling, waarbij de uitkomst in principe onbeperkt (bij benadering oneindig) is, heeft meestal de Poisson-verdeling. Voorbeeld Het aantal bladluizen op een plant, het aantal ongelukken per jaar op een bepaalde weg, het aantal drukfouten per bladzijde en het aantal versprekingen van Philip Freriks per uitzending van het NOS-journaal hebben alle de Poisson-verdeling. De kansvariabele X, heeft de mogelijke waarden x = 0, 1, 2, ... , ∞ en er is geen vaste steekproefgrootte, alleen een tijdsinterval of ruimte waarin wordt geteld. Onder bepaalde voorwaarden kunnen de binomiale, de hypergeometrische en de Poisson-verdeling worden benaderd met de normale verdeling, zie normale benadering van discrete verdelingen.

Page 15: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

15

2.6.1 Overschrijdingskansen van discrete verdelingen De overschrijdingskansen van discrete kansverdelingen verschillen in één opzicht van de overschrijdingskansen van continue verdelingen. Bij discrete kansverdelingen geldt, dat P(X≥ x) ≠ P(X>x). Daarom is bij discrete kansverdelingen de rechteroverschrijdingskans niet gelijk aan één minus de linkeroverschrijdingskans, maar geldt P(X≥x) = 1 - P(X<x) Bij continue kansverdelingen is het onderscheid tussen X≥ x en X>x niet van belang en geldt dus: P(X≥x) = 1 - P(X≤x) = 1 - P(X<x) Voorbeeld De discrete kansverdeling van de in een loterij te winnen prijzen is in de tabel weergegeven. De kans om 500 of meer euro te winnen is de overschrijdingskans P(X≥500) = 0,001 + 0,0003 + 0,0001 + 0,00003 = 0,00143. De kans om 500 of minder euro te winnen is niet gelijk aan 1– 0,00143 maar is P(X ≤ 500) = 0,001 + 0,003 + 0,01 + 0,03 + 0,95557 = 0,99957 2.6.2 Binomiale verdeling Onafhankelijke tellingen in steekproeven van vaste omvang volgen meestal de binomiale verdeling. Standaard kansexperiment is het werpen van een munt met als uitkomst het aantal keren, dat 'kruis' wordt gegooid. Dergelijke experimenten zijn onafhankelijk, dat wil zeggen de kans op de uitkomst 'kruis' is steeds dezelfde. Als de omvang van de steekproef (het aantal muntworpen) n is en de kansvariabele X, de mogelijke waarden x = 0, 1, 2, ... , n (het aantal keren 'kruis') heeft, dan heeft X de binomiale verdeling. Als bij één worp de kans op 'kruis' gelijk is aan p, dan is de kans dat bij n worpen de kansvariabele X, een van de mogelijke

waarden k aanneemt: ( ) (1 )k n knP X k p p

k−

= = ⋅ −

In deze vergelijking voor de binomiale kansverdeling is nk

de binomiaalcoëfficiënt.

Het kansexperiment, waarop de binomiale verdeling is gebaseerd, heeft slechts twee uitkomsten: 'kruis' en 'munt'. In de statistiek spreken we meer algemeen van 'succes' en 'mislukking'. Een dergelijk experiment met slechts twee uitkomsten wordt Bernoulli experiment genoemd, de variabele X is een dichotome kansvariabele. De kans op succes p, kan alle waarden tussen nul en één hebben. Andere voorbeelden van dichotome uitkomsten zijn geslacht (man of vrouw), overleving (dood of levend) of examenuitslag (geslaagd of gezakt).

2.6.2.1 Binomiaalcoëfficiënt Het aantal verschillende volgordes, waarin een serie dichotome uitkomsten kan worden verkregen, wordt het aantal combinaties genoemd. Voorbeeld Als we 4 keer een munt werpen, dan zijn de mogelijke uitkomsten x = 0, 1, 2, 3, 4 keer 'kruis'. De uitkomst x = 0 wordt gerealiseerd, als we 4 keer achtereenvolgens 'munt' en nul keer 'kruis' werpen. Er is slechts één enkele volgorde waarin deze uitkomst kan vóórkomen, het aantal combinaties is dus gelijk aan 1. De uitkomst x = 1 wordt gerealiseerd, als we 1 keer 'kruis' werpen en 3 keer 'munt'. Er zijn 4 combinaties (4 verschillende volgordes), waarmee deze uitkomst kan worden verkregen. Zie afbeelding hiernaast. Het aantal combinaties kan sneller worden berekend met de binomiaalcoëfficiënt. Als n het aantal experimenten is en k is de uitkomst, dan is de berekeningsformule van de binomiaalcoëfficiënt:

n n!

= k k!(n-k)!

Page 16: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

16

De notatie n

k

voor de binomiaalcoëfficiënt wordt uitgesproken als 'n boven k'. De notatie n! (uitgesproken als

'n faculteit') staat voor n(n-1)∙(n-2)∙ ... ∙2∙1, bijvoorbeeld 4! = 4∙3∙2∙1 = 24 Voorbeeld De uitkomst één 'kruis' en drie 'munt' (k = 1) kan in 4 verschillende volgordes voorkomen:

4 4! 4 3 2 1

41 1!(4 1)! 1 (3 2 1)

⋅ ⋅ ⋅= = = − ⋅ ⋅ ⋅

2.6.2.2 Overschrijdingskansen van de binomiale verdeling Overschrijdingskansen van de binomiale verdeling, dus de kansen P(X≥x) voor verschillende waarden van x, kunnen met behulp van de formules van de binomiale verdeling worden berekend. Als de steekproefomvang groter is dan 3 of 4 worden die berekeningen al gauw tijdrovend. In statistische handboeken staan tabellen, waarin voor een beperkt aantal waarden van n en p de overschrijdingskansen voor alle waarden van x tussen 0 en n kunnen worden opgezocht. Met de grafische rekenmachine kunnen binomiale (overschrijdings)kansen eenvoudig worden berekend. Voorbeeld Een erfelijke eigenschap heeft in de populatie een frequentie van 27%, dus p = 0,27. De kans dat in een steekproef van n = 20 de erfelijke eigenschap bij tenminste 10 personen aanwezig is, is P(X≥10) ≈ 0,024 De afbeeldingen hiernaast geven aan hoe dit met de grafische rekenmachine (gebruikmakend van de wizard) berekend kan worden. syntax van de TI-nspire: P(X = k) = binomPdf(n,p,k) en P( o ≤ X ≤ b) = binomCdf(n,p,o,b) met n = grootte van de steekproef p = kans op succes o = ondergrens b = bovengrens 2.6.2.3 Voorbeeld van de binomiale verdeling Voorbeeld Een multiple choice tentamen bevat 10 vragen, ieder met 4 alternatieve antwoorden, waarvan er steeds slechts één goed is. Wat is de kans om door louter gokken 6 of meer punten te halen? De kansen op x = 6, 7, .. , 10 successen in steekproeven van n = 10, berekend uit de binomiale verdeling met populatieproportie p = 0.25, zijn: Uit de tabel volgt, dat de kans op 6 of meer punten P(X ≥ 6) = 0,0197 De individuele kansen voor x = 6, 7, .. , 10 kunnen met de GRM d.m.v. binomPdf berekend worden. Het is echter eenvoudiger de optie binomCdf te gebruiken en P(X ≥ 6) in één keer te berekenen.

Page 17: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

17

2.6.2.4 Parameters van de binomiale verdeling Een binomiaal verdeelde kansvariabele, X, met steekproefomvang, n, en kans op 'succes' p, duiden we aan met: X ~ B(n, p) De constanten n en p worden de parameters van de betreffende binomiale verdeling genoemd. De kansen en andere eigenschappen van de binomiale verdeling worden uitsluitend door deze parameters bepaald. Bij een experiment met 6 muntworpen is dus n = 6 en p = 0,5 (voor een 'ideale' munt), bij een multiple choice tentamen met 10 vragen en 4 alternatieven per vraag is n = 10 en p = 0,25 en bij de kansverdeling van de aantallen jongens in gezinnen van 4 is n = 4 en p = 0,55, etc. 2.6.2.5 Verwachtingen van de binomiale verdeling De verwachtingswaarde van de binomiaal verdeelde kansvariabele X is: E(X) = μ = np en de variantie van de kansverdeling is: E(X - μ)² = σ² = n p (1 – p) Voorbeeld Een multiple choice tentamen bevat 10 vragen, ieder met 4 alternatieve antwoorden, waarvan er steeds slechts één goed is. Als het tentamen door zuiver te gokken wordt gemaakt, wat is dan de verwachting van het aantal gescoorde punten en wat is de standaardafwijking van de scores? De verwachting is E(X) = μ = n p = 10 ∙ 0,25 = 2,5 punten, de variantie is E(X - μ)² = σ² = n p(1 - p) =

10 ∙ 0,25 ∙ 0,75 = 1,88 en de standaardafwijking is σ = 1,88 1,37≈ 2.6.3 Hypergeometrische verdeling In steekproeven uit een dichotome populatie van onbeperkte omvang hebben de aantallen successen de binomiale verdeling. Als de populatie waaruit de steekproeven worden getrokken slechts beperkt van omvang is, hebben de aantallen successen echter de hypergeometrische verdeling. Steekproeven kunnen met of zonder teruglegging worden getrokken: de eenheden worden één voor één getrokken en teruggelegd in de populatie (binomiale verdeling) of niet teruggelegd (hypergeometrische verdeling). In het eerste geval verandert de samenstelling van de populatie na iedere trekking niet, in het laatste geval wel. Bij niet terugleggen zijn de achtereenvolgende trekkingen niet onafhankelijk: de kans op een succes hangt af van het resultaat (succes of niet) van de voorgaande trekking. De waarde van de proportie successen in de populatie, p, verandert na iedere trekking. In een onbeperkt grote (of zeer grote) populatie maakt teruglegging niet uit en gaat de hypergeometrische verdeling over in de binomiale verdeling. De kans op x successen in een steekproef van n observaties uit een populatie met omvang N, waarin

zich Np succesen bevinden is:

p pN N-N

x n-xP(x) =

N

n

In deze vergelijking voor de hypergeometrische kansverdeling staat de notatie .

.

voor de binomiaalcoëfficiënt.

Voorbeeld In een ziekenhuisapotheek worden 50 ampullen van een weinig toegepaste steriele injectievloeistof bereid. Als er in deze charge precies één niet-steriel exemplaar zit, hoe groot is dan de kans, dat die ene ampul in een steekproef van 10 ampullen wordt gevonden? De omvang van de populatie is N = 50, de steekproefomvang is n = 10 en de proportie niet-steriele exemplaren in de populatie is π = 0.02.

De gevraagde kans is dus: 15

1 49

1 9P(x = 1) = =

50

10

We zien in dit voorbeeld, dat steekproefsgewijze controle op deze wijze uitgevoerd weinig zekerheid biedt over de kwaliteit van de populatie.

Page 18: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

18

2.6.3.1 Overschrijdingskansen van de hypergeometrische verdeling Overschrijdingskansen van de hypergeometrische verdeling, dus de kansen P(X x) voor verschillende waarden van x, kunnen met behulp van de formules van de hypergeometrische verdeling worden berekend. De (rechter)overschrijdingskans wordt term voor term berekend en opgeteld uit: P(X x) = P(x) + P(x+1) + P(x+2) ... , P(n) Als de steekproefomvang groter is dan 3 of 4 worden die berekeningen al gauw tijdrovend. Voorbeeld. In een ziekenhuisapotheek worden 100 ampullen van een injectievloeistof bereid. Als bij de sterilisatie van deze charge van 100 ampullen er 5 niet-steriel zijn gebleven, hoe groot is dan de kans, dat in een steekproef van 20 ampullen 0, 1, 2, .... , 5 niet-steriele ampullen worden gevonden? De omvang van de populatie is N = 100, de steekproefomvang is n = 20 en het deel niet-steriele exemplaren in de populatie is p = 0.05. De hypergeometrische kansverdeling is in de tabel en in de figuur weergegeven en vergeleken met de (binomiale) kansverdeling, die zou ontstaan als de charge veel groter dan N = 100 zou zijn.

2.6.3.2 Verwachtingen van de hypergeometrische verdeling De hypergeometrische verdeling is een kansverdeling met 3 parameters:N, de omvang van de populatie, n de omvang van de steekproef en p, de kans op 'succes' bij een enkele waarneming (Bernoulli experiment). De kansen op een bepaalde samenstelling van een steekproef en andere eigenschappen van de hypergeometrische verdeling worden uitsluitend door deze parameters bepaald. De verwachtingswaarden van de hypergeometrisch verdeling zijn voor het gemiddelde: E(X) = μ = np en voor de variantie van de kansverdeling: E(X - μ)² = σ² = np(1 - p)(N - n)/(N - 1)

Page 19: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

19

2.6.4 Poisson verdeling Onafhankelijke tellingen in steekproeven van onbeperkte omvang volgen meestal de Poisson-verdeling. Het aantal bladluizen op een plant, het aantal ongelukken per jaar op een bepaalde weg, het aantal drukfouten per bladzijde en het aantal Coli-bacteriën in 0,1 ml zwemwater hebben alle de Poisson-verdeling. Kenmerkend voor de Poisson-verdeling is, dat er geen vaste steekproefgrootte is, alleen een tijdsinterval of ruimte, waarin wordt geteld. In de voorbeelden zijn dat respectievelijk: een plant, de tijdseenheid 'jaar', een bladzijde en 0,1 ml water. De kansvariabele X, heeft de mogelijke waarden x = 0, 1, 2, ... , ∞.

De kans op een van de waarden x, P(x), wordt gegeven door: x -μμ e

P(x) = x!

In deze formule is μ = E(X), de verwachting van X en e ≈ 2,718 2.6.4.1 Overschrijdingskansen van de Poisson-verdeling Overschrijdingskansen van de Poisson-verdeling, dus de kansen P(X≥x) voor verschillende waarden van x, kunnen met behulp van de formule van de Poisson-verdeling worden berekend. Omdat het aantal waarden groter dan x oneindig groot is, berekenen we de (rechter)overschrijdingskans van x uit de cumulatieve kans van x-1 volgens: P(X≥x) = 1 - P(X≤x-1) Als de x groter is dan 3 of 4 worden die berekeningen al gauw tijdrovend. Hier komt de grafische rekenmachine weer van pas! De TI-nspire heeft 2 opties om de overschrijdingskans van de Poissonverdeling uit te rekenen: P(X=k) = poissPdf(μ,k) en P(o≤X≤b) = poissPdf(μ,o,b) Voorbeeld Het aantal verkeersdoden in Nederland is ongeveer 1200 per jaar, dus μ = 1200/365 ≈ 3,3 per dag. De kans, dat er op een willekeurige dag meer dan 6 doden (x = 7) vallen is, is P(X≥7) ≈ 0,051. Met de TI zijn er twee manieren om dit te berekenen: P(X≥7) = 1 – poissCdf(3.3,0,6) ≈ 0,051 en P(X≥7) = poissCdf(3.3,7,1000) ≈ 0,051 2.6.4.2 Voorbeeld van de Poisson-verdeling Voorbeeld Zwemwater wordt gecontroleerd op de aanwezigheid van Coli-bacteriën, die indicator zijn voor fecale verontreiniging. In 0,1 ml water bevinden zich in een bepaald geval gemiddeld 3,4 bacteriën. De kansen, dat we in een kweekmonster van 0,1 ml 0, 1, 2, ... , 9 bacteriën aantreffen, kunnen met de Poissonverdeling met μ = 3.4 worden berekend en staan in de tabel. Reken zelf enkele kansen na met de grafische rekenmachine! Uit de tabel volgt, dat de kans om bijvoorbeeld geen bacteriën aan te treffen gelijk is aan P(0) = 0.03. De kans om 4 of meer bacteriën te vinden is de overschrijdingskans P(X ≥ 4) = 0,19 + 0,13 + 0,07 + 0,03 + 0,01 + 0,01 = 0,44 De som van alle kansen in de rechterkolom zou 1,00 moeten zijn, maar is 0,99 door afronding en doordat de (zeer kleine) kansen P(X ≥ 10) in de tabel zijn weggelaten. De kansverdeling is ook in de grafiek te zien. De Poisson-verdeling is een rechtsscheve verdeling, zoals ook uit de vorm van de kansverdeling in de grafiek blijkt.

Page 20: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

20

2.6.4.3 Parameters van de Poisson-verdeling Een Poisson-verdeelde kansvariabele X, met verwachting μ, duiden we aan met: X ~ P(μ) De constante μ is de enige parameter van de betreffende Poisson-verdeling. De kansen en andere eigenschappen van de Poisson-verdeling worden uitsluitend door deze parameter bepaald. Als we dus het gemiddelde van een (groot) aantal tellingen kennen, kunnen we de verdeling van de kansen op allerlei waarden uitrekenen. Voorbeeld Het aantal dodelijke verkeersslachtoffers is in Nederland ongeveer 1200 per jaar, dat is 3,3 per dag. De kans op meer dan een verdubbeling (7 doden of meer) van dat aantal op een bepaalde dag is dus P(X ≥7) = 0,051. Let op: we gaan er daarbij waarschijnlijk ten onrechte vanuit, dat het aantal verkeersdoden per dag louter door het toeval wordt bepaald en niet (ook) door bijvoorbeeld extra drukke dagen in het weekend of de vakantie. 2.6.4.4 Verwachtingen van de Poisson-verdeling De verwachtingswaarde van de Poisson-verdeelde kansvariabele X is: E(X) = μ en de variantie van de kansverdeling is: E(X - μ)² = σ² = μ Karakteristiek voor de Poisson-verdeling is dat μ = σ², dus dat het gemiddelde gelijk is aan de variantie (of dat de standaarafwijking gelijk is aan de wortel uit het gemiddelde).

Page 21: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

21

2.7 Continue kansverdelingen Afhankelijk van het type van de kansvariabele worden kansverdelingen ingedeeld in discrete en continue kansverdelingen. Als de kansvariabele continu is, is de bijbehorende kansverdeling een continue kansverdeling. Voorbeeld Van 10.000 schoolkinderen tussen 10 en 11 jaar oud wordt het intelligentie-quotiënt (IQ) bepaald. De resultaten zijn in een histogram met klassenbreedte 5 IQ-punten in de eerste figuur hieronder weergegeven. Verkleinen we de klassenbreedte tot 1 IQ-punt dan ontstaat het tweede, fijnere histogram hieronder. Als we in gedachten de klassenbreedte steeds kleiner maken en het aantal waarnemingen onbeperkt laten toenemen ontstaat in de limiet de laatste, vloeiende curve hieronder. De frequentiedichtheid gaat dan over in de kansdichtheid en de figuur wordt kansdichtheidskromme genoemd.

De belangrijkste continue kansverdelingen zijn de normale verdeling, de Student's t-verdeling, de chikwadraat-verdeling en de F-verdeling waarvan wij alleen de normale verdeling bekijken. 2.7.1 Kansdichtheid De kansdichtheid beschrijft mathematisch of grafisch de kansverdeling van een continue kansvariabele. Grafisch kunnen we de kansdichtheid laten voortkomen uit het histogram door in gedachten de klassenbreedte van een histogram steeds kleiner te maken en het aantal waarnemingen onbeperkt te laten toenemen. In de limiet ontstaat dan de vloeiende curve, die kansdichtheidskromme wordt genoemd. De kansdichtheid is zelf geen kans, maar een functie f(x), van de waarden x van de kansvariabele X. De kans op het voorkomen van een waarde in een bepaald interval wordt gegeven door het oppervlak onder de kansdichtheidskromme in dat interval. In de figuur is het gekleurde oppervlak gelijk aan de kans dat een waarneming in het interval tussen x = 110 en x = 120 ligt.

Mathematisch is deze kans: 120

110

P(110 x 120) = f(x) dx≤ ≤

Het oppervlak onder de totale kansdichtheidskromme is per definitie gelijk aan één (1).

Page 22: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

22

2.7.2 Overschrijdingskansen van continue verdelingen De kans op het optreden van een uitkomst gelijk aan of groter dan een waarde x, P(X ≥ x), wordt (rechter)overschrijdingskans genoemd. De (rechter)overschrijdingskans is gelijk aan het oppervlak onder de kansdichtheidskromme rechts van de waarde x. De kans P(X ≤ x), wordt cumulatieve kans of linkeroverschrijdingskans genoemd. Deze kans is gelijk aan het oppervlak onder de kansdichtheidskromme links van de waarde x. Bij continue verdelingen geldt praktisch gesproken, dat P(X ≥ x) = P(X > x), zodat de linkeroverschrijdingskans van x gelijk is aan 1 minus de rechteroverschrijdingskans van x. Voor de overschrijdingskansen van discrete verdelingen is dat niet zo! Overschrijdingskansen zijn belangrijke grootheden: een rechteroverschrijdingskans geeft aan hoe zeldzaam een bepaalde uitkomst of een nog grotere waarde dan die uitkomst is. Voorbeeld In de kansdichtheidskromme van de verdeling van de intelligentie van schoolkinderen is te zien, dat een IQ van 115 of hoger vrij zeldzaam is. De rechteroverschrijdingskans P(X ≥ 115) ≈ 0.1. Een IQ van 90 of lager komt echter minder zelden voor. De cumulatieve kans P(X ≤ 90) ≈0.2. 2.7.3 Normale verdeling De normale verdeling (of verdeling van Gauss) is een continue kansverdeling, die wordt beschreven door

de kansdichtheidsfunctie:

2x - μ1- σ21

f(x) = σ 2π

e

De kansdichtheidskromme van de normale verdeling is een klokvormige curve, symmetrisch rondom x = μ en gedefinieerd van x = –∞ tot x = +∞. De buigpunten van de curve liggen bij x = μ + σ en x = μ – σ. De verwachtingswaarde en de variantie van een normaal verdeelde variabele zijn E(X) = μ en E(X - μ)² = σ², zodat μ en σ de betekenis hebben van het gemiddelde en de standaardafwijking, vergelijkbaar met het gemiddelde en de standaardafwijking van een frequentieverdeling. Voor een kansvariabele, die de normale verdeling heeft, wordt de notatie X~ N(μ, σ) gebruikt, μ en σ zijn de parameters van de normale verdeling. Omdat de verdeling symmetrisch is, is μ ook gelijk aan de mediaan en de modus van de normale verdeling en is de scheefheid van de verdeling gelijk aan 0. De normale verdeling is een geschikt model voor veel empirische kansverdelingen. Zo zijn lichaamslengtes, IQ's en bloedsuikergehaltes bij benadering normaal verdeeld, maar de inkomensverdeling in Nederland is dat bijvoorbeeld niet. Verder kan worden bewezen (centrale limietstelling), dat het steekproefgemiddelde van een niet te kleine steekproef bij benadering normaal verdeeld is. Van deze eigenschap wordt gebruikgemaakt door zelfs tellingen en proporties met de normale verdeling te benaderen.

Page 23: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

23

2.7.3.1 Overschrijdingskansen van de normale verdeling De overschrijdingskansen van de normale verdeling, p = P(X ≥ x), zijn niet (eenvoudig) te berekenen. Met een grafische rekenmachine of computerprogramma is dit echter mogelijk. Is een rekenmachine of computerprogramma niet beschikbaar dan kunnen de overschrijdingskansen na Z-transformatie in een statistische tabel van de standaard normale verdeling worden opgezocht. Voorbeeld Van een groep studenten is bekend dat het IQ normaal verdeeld is met een gemiddelde μ = 105 en een standaardafwijking σ = 7. Bereken de kans dat een aselect gekozen student een IQ heeft dat boven de 120 ligt. Met de grafische rekenmachine: normCdf(o,b, , ) geeft P(X ≥120) = normCdf(120,∞,105,7) ≈ 0,016 Dit betekent tevens dat 1,6% van de studenten een IQ heeft dat 120 of meer bedraagt! Verdergaand kunnen we ons ook afvragen wat het IQ is waaronder de 10% van de studenten zit met het laagste IQ. Met de TI-nspire: invNorm(opp,μ,σ) (Let op invNorm kijkt altijd naar de oppervlakte vanaf –∞) P(X=x) = 0,10 dus x = invNorm(0.10,105,7) ≈ 96 10% van de studenten heeft dus een IQ van 96 of lager! De kansdichtheid van de normale verdeling is symmetrisch rondom μ, zodat bijvoorbeeld P(X ≥ μ + x) = P(X ≤ μ - x) voor ieder waarde van x (zie figuur). Een belangrijke overschrijdingskans is P(X ≥ μ + x) = P(X ≤ μ - x) ≈ 0,159 De betekenis hiervan is, dat van een normaal verdeelde variabele ongeveer tweederde (68,2%)van de waarnemingen in het interval μ - σ < X < μ +σ ligt. Een andere belangrijke overschrijdingskans is P(X ≥ μ + 2σ) = P(X≤ μ - 2σ) = 0,023. Als vuistregel geldt dus, dat van een normaal verdeelde variabele het merendeel van de waarnemingen (95.4%) niet meer dan twee standaardafwijkingen van het gemiddelde af ligt. De vuistregels samengevat:

- ongeveer 68% van de waarnemingen ligt tussen μ–σ en μ+σ - ongeveer 95% van de waarnemingen ligt tussen μ–2σ en μ+2σ

Page 24: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

24

2.7.3.2 Standaard normale verdeling De normale verdeling met μ = 0 en σ = 1 wordt standaard normale verdeling genoemd. De kansvariabele met een standaard normale verdeling wordt vaak met Z in plaats van met X aangeduid. De standaard normale verdeling wordt daarom ook wel Z-verdeling genoemd. De overschrijdingskansen van de standaard normale verdeling kunnen worden berekend met de interactieve simulatie voor de normale verdelingdoor voor μ en σ respectievelijk de waarden 0 een 1 in te vullen. In statistiekboeken kunnen de overschrijdingskansen in een statistische tabel van de standaard normale verdeling worden opgezocht.

Iedere normaal verdeelde kansvariabele, X ~ N(μ, σ), kan door de Z-transformatie worden herleid tot een standaard normaal verdeelde kansvariabele, Z ~ N(0,1). Door alle waarden van X te verminderen met μ en het resultaat door σ te delen krijgen we de nieuwe variabele Z = (X - μ) / σ Door deze lineaire transformatie is de Z-variabele vergelijkbaar met de X-variabele. De Z-variabele is echter op een andere schaal gemeten met als eenheid de oorspronkelijke σ en als gemiddelde 0. Via de standaard normale verdeling kunnen de overschrijdingskansen van alle andere normaal verdeelde variabelen in een statistische tabel worden opgezocht. Voorbeeld Het lichaamsgewicht van 18-jarige Nederlandse jongens is normaal verdeeld met gemiddelde μ = 70 kg en standaardafwijking σ = 5 kg. Hoe groot is de kans dat een dienstplichtige meer dan 75 kg weegt? Meer dan 80 kg? We transformeren de waarden x1 = 75 en x2 = 80 naar z1 = (x1 - μ) / σ = (75 - 70) / 5 = 1 en z2 = (x2 - μ) / σ = (80 - 70) / 5 = 2.

De overschrijdingskansen P(Z ≥ 1) = 0,159 en P(Z ≥ 2) = 0,023 kunnen nu zo uit een (standaard)tabel afgelezen worden.

Page 25: Overzicht Kansrekening 3 - praktijknaturasanat.eupraktijknaturasanat.eu/downloads/Overzicht theorie Kansrekening.pdf · De eerste gebeurtenis is A = {5, 6}, de tweede is B = {1, 3,

25

2.7.3.3 Normale benadering van discrete verdelingen Discrete kansverdelingen, zoals de binomiale verdeling en de Poisson-verdeling, kunnen benaderd worden met de normale verdeling mits de steekproef (bijvoorbeeld het aantal muntworpen) voldoende groot is (centrale limietstelling). Vooral bij de bepaling van de overschrijdingskansen van discrete verdelingen leidt de normale benadering sneller tot het resultaat. De binomiaal verdeelde kansvariabele X, heeft bij benadering de normale verdeling, als np ≥ 5 en tegelijk n(1– p) ≥ 5. Voor p = 0,5 is een steekproefgrootte van n = 10 dus voldoende om de normale benadering te mogen toepassen. Voor waarden van p groter of kleiner dan 0,5 moet de steekproefomvang navenant groter zijn, bijvoorbeeld voor p = 0,7 moet n = 17 zijn, omdat np = 11,9 ≥ 5 en n(1– p) = 5,1 ≥ 5. De parameters van de normale benadering van de binomiale verdeling, X ~ N(μ, σ) zijn μ = np en σ = √(n p(1– p)) Voorbeeld. Wat is de kans om tenminste 8 keer 'kruis' te gooien in 10 worpen met een zuivere munt? Met de TI-nspire vinden we voor die kans P(X ≥ 8) ≈ 0,055 Omdat aan de voorwaarden np ≥ 5 en n(1–p) ≥ 5 is voldaan, mag ook de normale benadering worden toegepast met μ = n ∙ p = 5 en σ = √(np(1– p)) = √2,5 ≈ 1,58. Met de TI-nspire vinden we nu P(X ≥ 8) ≈ 0,029 Deze benadering kan aanzienlijk verbeterd worden door toepassing van de zg. continuïteitscorrectie. Ook een Poisson-verdeelde kansvariabele kan met de normale verdeling worden benaderd, mits μ ≥ 5. De parameters van de normale benadering van de Poisson-verdeling, X ~ N(μ, σ) zijn μ = μ en σ = √μ. Voorbeeld De aantallen cellen in de hokjes van het telraster onder de microscoop hebben de Poisson-verdeling met μ ≈ 5,5 De kans om in een hokje meer dan 10 cellen aan te treffen kan dus met de normale benadering worden berekend. Voor de normale benadering geldt: σ = √μ = √5,5 ≈ 2,35 Met de TI-nspire berekenen we de overschrijdingskans P(X ≥ 11) ≈ 0,027 Indien we de Poisson-verdeling toepassen vinden we voor die kans P(X ≥ 11) = 0,054 Ook hier geeft de continuïteitscorrectie een betere benadering. 2.7.3.4 Continuiteitscorrectie De benadering van een discrete verdeling met de normale verdeling kan aanzienlijk verbeterd worden door toepassing van de continuïteitscorrectie. Een waarde als bijvoorbeeld '8' in de reeks van discrete getallen x = ..., 6, 7, 8, 9, 10, ...is in de continue getallenreeks eigenlijk een waarde tussen 7.5 en 8.5. De kans P(X ≥ 8) is dus in de normale benadering gelijk aan P(X ≥ 7.5) en de kans P(X ≤ 8) is in de normale benadering P(X ≤ 8.5). Als correctie voor de (dis)continuïteit wordt dus een half (1/2) afgetrokken van de waarde, waarvoor een rechteroverschrijdingskans wordt berekend, en een half (1/2) opgeteld bij de waarde, waarvoor eenlinkeroverschrijdingskans wordt berekend. Voorbeeld. Wat is de kans om tenminste 8 keer 'kruis' te gooien in 10 worpen met een zuivere munt? Berekend met de binomiale verdeling is die kans P(X ≥ 8) = 0,055 Bij toepassing van de normale benadering met μ = 5 en σ ≈ 1,58 is de uitkomst zonder continuïteitscorrectie P(X ≥ 8) ≈ 0,029 en met de continuïteitscorrectie P(X ≥ 7,5) ≈ 0,057 De benadering is met de continuïteitscorrectie dus aanzienlijk verbeterd. De continuïteitscorrectie mág altijd worden toegepast en móet worden toegepast als de steekproefomvang n < 50