statistiek chemie

download statistiek chemie

of 164

Transcript of statistiek chemie

VoorwoordIn dit dictaat worden de beginselen van de statistiek behandeld aan de hand van een breedspectrumvanvoorbeeldenuit denatuurwetenschappen, met nameophet gebiedvande(fysische) chemieenhet grensgebiedtussenchemie, biologieenmedischewetenschappen.Aeidingen worden alleen gegeven waar ze bijdragen tot het begrip; de nadruk ligt enerzijdsopdevertalingvaneenchemischprobleemnaareenstatistischprobleem, anderzijdsopdeinterpretatievanderesultatenvandestatistischebewerkingenineenchemischecontext.Verdere uitbreiding van de stof is te vinden in het bachelor-keuzecollege Chemometrie I.In de cursus wordt zo min mogelijk klassiek hoorcollege gegeven; de hoorcolleges die erzijn dienen als inleiding en helpen de student een globaal beeld te krijgen van de behandeldestof. Hetechtebegripdienttekomendooroefenen. Hiervoorzijntweesoortenoefeningenbeschikbaar. Eenset oefeningenistoegankelijkviahet internet enkanoveral enopelkgewenstmomentwordengemaakt. Doorhetrekenwerkzoveel mogelijkaandecomputerovertelatenkunnenveel opgavesinrelatiefkortetijdwordengedaan. Inveel gevallenishetechterzodatniet eenantwoordhetenigjuisteis; omdatteervarenzijnaanheteindvan ieder hoofdstuk opgaves opgenomen die in een werkcollege behandeld zullen worden. Ditbiedtookdegelegenheidwatdieperintegaanopdemanierwaaropberekeningenwordenuitgevoerd. Bovendien zijn in het dictaat ongeveer honderd uitgewerkte voorbeeldopgaven tevinden.Omtevoorkomendatwaardevolletijdwordtverspildaanhetuithethoofdlerenvanformulesmagbijhettentamengebruikwordengemaaktvandictaatenaantekeningen. Denadruk moet liggen op het begrip van de stof, en dit wordt weerspiegeld in de computerop-gaven en de tentamens. Het gebruik van rekenmachines is om dezelfde reden niet toegestaan:op het tentamen hoeft men in moeilijkere gevallen slechts aan te geven wat men wil uitrekenen.Op een paar kleine aanpassingen na is er dit jaar weinig veranderd aan het dictaat. Welis een extra appendix toegevoegd, waarin numerieke / korte antwoorden staan op een grootaantal van de opgaven in het dictaat. Dit om de student in staat te stellen zelf te controlerenof een opgave correct is gemaakt.Oudetentamenszijnopdewebsiteteraadplegen. Ookmeteenoudereversievanhetdictaat blijft het mogelijk de stof te bestuderen, maar het is aan te raden om de verschillenmet de nieuwste versie goed te markeren.Iedereen die door commentaar of anderszins aan het dictaat heeft bijgedragen wil ik bijdeze hartelijk danken, en ik houd me aanbevolen voor verdere opbouwende kritiek.Prof. dr. L.M.C. BuydensNijmegen, juli 2010iiiInhoudsopgave1 Inleiding 12 Beschrijvendestatistiek 32.1 Variabelen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Stand- of locatieparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2.1 Gemiddelden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2.2 Robuuste locatieparameters . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Spreidingsparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3.1 Variantie en standaardafwijking . . . . . . . . . . . . . . . . . . . . . . 62.3.2 De gepoolde standaardafwijking . . . . . . . . . . . . . . . . . . . . . 72.3.3 De range . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.4 Robuuste spreidingsparameters . . . . . . . . . . . . . . . . . . . . . . 82.4 Fouten in experimentele data . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.4.1 Precisie en nauwkeurigheid . . . . . . . . . . . . . . . . . . . . . . . . 92.4.2 Herhaalbaarheid en reproduceerbaarheid . . . . . . . . . . . . . . . . . 102.4.3 Verschillende soorten fouten . . . . . . . . . . . . . . . . . . . . . . . . 102.5 Het weergeven van waarnemingen en resultaten. . . . . . . . . . . . . . . . . 112.5.1 Afronden en signicante cijfers . . . . . . . . . . . . . . . . . . . . . . 112.5.2 Foutenvoortplanting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.5.3 De grasche weergave van data . . . . . . . . . . . . . . . . . . . . . . 142.6 Verdelingen van discrete variabelen. . . . . . . . . . . . . . . . . . . . . . . . 162.6.1 De discrete uniforme verdeling . . . . . . . . . . . . . . . . . . . . . . 172.6.2 De binomiale verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6.3 De Poissonverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.7 Verdelingen van continue variabelen . . . . . . . . . . . . . . . . . . . . . . . 202.7.1 De continue uniforme verdeling . . . . . . . . . . . . . . . . . . . . . . 212.7.2 De exponentiele verdeling . . . . . . . . . . . . . . . . . . . . . . . . . 212.7.3 De normaalverdeling. . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.7.4 De lognormale verdeling. . . . . . . . . . . . . . . . . . . . . . . . . . 252.7.5 De Student-t verdeling. . . . . . . . . . . . . . . . . . . . . . . . . . . 262.7.6 De2-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.7.7 De F-verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.8 Nogmaals kwantielen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.9 Q-Q plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.10Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31iii3 Betrouwbaarheidsintervallen 333.1 Inleiding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Nogmaals de normaalverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2.1 Het schatten van en. . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.2 Standaardisatie van variabelen . . . . . . . . . . . . . . . . . . . . . . 353.2.3 Het oppervlak onder de normaalcurve . . . . . . . . . . . . . . . . . . 363.3 Betrouwbaarheidsintervallen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.3.1 Betrouwbaarheidsintervallen voor individuele metingen . . . . . . . . . 413.3.2 Betrouwbaarheidsinterval van een gemiddelde. . . . . . . . . . . . . . 423.3.3 Betrouwbaarheidsintervallen en de systematische fout . . . . . . . . . 463.3.4 De interpretatie van een betrouwbaarheidsinterval . . . . . . . . . . . 463.4 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 Parametrischehypothesetoetsen 494.1 Inleiding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Algemene werkwijze bij hypothesetoetsen . . . . . . . . . . . . . . . . . . . . 504.3 De belangrijkste parametrische hypothesetoetsen . . . . . . . . . . . . . . . . 544.3.1 De one-sample t-toets . . . . . . . . . . . . . . . . . . . . . . . . . . 544.3.2 De two-sample t-toets . . . . . . . . . . . . . . . . . . . . . . . . . . 564.3.3 Het vergelijken van gepaarde waarnemingen. . . . . . . . . . . . . . . 584.3.4 DeF-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635 Meerhypothesetoetsen 655.1 Niet-parametrische toetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.1.1 De Wilcoxon signed-rank test . . . . . . . . . . . . . . . . . . . . . . . 665.1.2 De Mann-WhitneyU-test . . . . . . . . . . . . . . . . . . . . . . . . . 675.1.3 Het vergelijken van gepaarde waarnemingen. . . . . . . . . . . . . . . 695.2 Toetsen voor specieke verdelingen en uitbijters . . . . . . . . . . . . . . . . . 705.2.1 DixonsQ-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.2.2 De2-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.2.3 De Kolmogorov-Smirnov test . . . . . . . . . . . . . . . . . . . . . . . 745.2.4 De Shapiro-Wilks test . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.3 Een waarschuwing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.4 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786 Correlatieenregressie 796.1 Inleiding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2 De correlatiecoecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2.1 De signicantie van een correlatie . . . . . . . . . . . . . . . . . . . . . 816.2.2 Interpretatie van correlatie . . . . . . . . . . . . . . . . . . . . . . . . 826.3 Lineaire regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3.1 De regressielijn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3.2 Aannames voor kleinste-kwadratenregressie . . . . . . . . . . . . . . . 846.3.3 Lineaire regressie vany opx . . . . . . . . . . . . . . . . . . . . . . . 846.3.4 De kleinste-kwadratenmethode . . . . . . . . . . . . . . . . . . . . . . 856.3.5 Betekenis vana enb bij calibratie . . . . . . . . . . . . . . . . . . . . 87iv6.4 Correctheid van het lineaire model . . . . . . . . . . . . . . . . . . . . . . . . 886.5 De precisie van de regressielijn . . . . . . . . . . . . . . . . . . . . . . . . . . 906.5.1 Betrouwbaarheidsintervallen vana enb . . . . . . . . . . . . . . . . . 916.5.2 Signicantie van de regressie . . . . . . . . . . . . . . . . . . . . . . . 936.5.3 Predictie-interval voor een voorspeldey-waarde. . . . . . . . . . . . . 936.5.4 Betrouwbaarheidsinterval voor de lijn . . . . . . . . . . . . . . . . . . 956.6 Specieke toepassingen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 966.6.1 Het berekenen van concentraties met de regressielijn . . . . . . . . . . 966.6.2 Het vergelijken van methoden. . . . . . . . . . . . . . . . . . . . . . . 976.7 Uitbreidingen van lineaire regressie . . . . . . . . . . . . . . . . . . . . . . . . 996.7.1 Gewogen regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.7.2 Multipele regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1006.7.3 Niet-lineaire regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026.8 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1037 Variantieanalyse(ANOVA) 1057.1 Het principe van variantieanalyse. . . . . . . . . . . . . . . . . . . . . . . . . 1067.2 Voorwaarden voor het gebruik van ANOVA. . . . . . . . . . . . . . . . . . . 1067.3 Factoren en factorinstellingen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.4 Enkelvoudige ANOVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1087.4.1 Totale variantie bij enkelvoudige ANOVA . . . . . . . . . . . . . . . . 1097.4.2 Additiviteit van varianties bij enkelvoudige ANOVA . . . . . . . . . . 1097.4.3 Signicantietest bij enkelvoudige ANOVA. . . . . . . . . . . . . . . . 1107.4.4 De ANOVA tabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1117.5 ANOVA bij lineaire regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . 1127.5.1 Lack of t en de pure fout . . . . . . . . . . . . . . . . . . . . . . . 1147.6 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1188 Experimenteleproefopzet: factorieledesigns 1198.1 Inleiding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198.2 Het doel van een experimental design . . . . . . . . . . . . . . . . . . . . . . . 1208.3 Factoren en interacties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1228.3.1 Het coderen van factorinstellingen . . . . . . . . . . . . . . . . . . . . 1238.4 Factoriele designs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1248.4.1 De designmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1248.4.2 Berekening van hoofd- en interactie-eecten bij een factorieel design . 1268.4.3 Signicantie van eecten . . . . . . . . . . . . . . . . . . . . . . . . . . 1278.4.4 Grasche bepaling van signicante factoren . . . . . . . . . . . . . . . 1298.4.5 Analyse van designs met multipele regressie . . . . . . . . . . . . . . . 1308.5 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1329 Enkeleandereexperimenteleproefopzetten 1339.1 Inleiding. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1339.2 Fractionele designs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1339.3 Confounding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1369.4 Plackett-Burman designs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1369.5 De uitvoering van een experimental design . . . . . . . . . . . . . . . . . . . . 137v9.6 Vervolg-designs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1389.7 Opgaven. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Bibliograe 141AStatistischetabellen 143BTentamens 151CAntwoordenopopgaven 155viHoofdstuk1InleidingIedereen in de empirische wetenschappen wordt vroeg of laat geconfronteerd met het feit dateen herhaald experiment slechts zelden leidt tot exact hetzelfde resultaat. Dit is het gevolgvan het feit dat we, alhoewel we het proberen, niet alle factoren die van invloed zijn op eenexperiment in de hand hebben. Zo ontstaan meetfouten, die ofwel een systematisch ofwel eentoevallig karakter hebben. De bedoeling van een experiment is echter het correcte antwoordop een vraag te verkrijgen. In hoeverre is dit nog mogelijk wanneer we ieder experimenteelresultaat met gezonde scepsis moeten bekijken?Voorbeeld1.1Een studente voert een bepaalde organische synthese uit. In haar verslagschrijftzedatbij85Cdeopbrengst93procentbedraagt. Hierkunnenweeenaantalvragen bij stellen. Blijft het 93% bij herhaling van het experiment? Zo niet, is er dan een boven- dan wel ondergrens aan te geven en waarom? Hoegrootisdeinvloedvandewerktemperatuur? Moetdietotop0.1Cgecon-troleerd worden of mag die rustig schommelen tussen 80 en 90C? Welkevariabelenhebbeninvloedopdeopbrengst? Bijvoorbeeldconcentratievande reagentia, pH, temperatuur enz. Benvloeden die variabelen elkaar? Is 93% de hoogst bereikbare opbrengst?Indien ze wist welke variabelen de opbrengstkunnen benvloeden, hoe had ze deze dan moeten kiezen om een zo hoog mogelijkeopbrengst te verkrijgen?De experimentator wordt hier te hulp geschoten door de statistiek. Door a posteriori analysevan een aantal herhaalde experimenten kan een schatting worden gemaakt van bijvoorbeeldeenbetrouwbaarheidsinterval, of kanwordenaangetoonddattweelaboratoriatotdezelfdeanalyseresultatenkomen. Inheteerstegeval sprekenwevanbeschrijvendestatistiek: eenaantalexperimentenwordtsamengevat,bijvoorbeeldmeteengemiddeldeeneenstandaarddeviatie. In het tweede geval gaan we een stap verder en kunnen we gevolgtrekkingen makenomtrentonzedata; ditwordtwel inferentiegenoemd. Beidegebiedenzulleninditcollegeruimschoots aan bod komen.Inhoofdstuk2wordenkortenkeleaspectenvandebeschrijvendestatistiekbehandeld,waarbij zowel berekende grootheden zoals het gemiddelde als verschillende manieren om data1graschweertegevenaanbodkomen. Hetzal blijkendatinveel gevallengegevensgoedbeschreven kunnen worden door een waarschijnlijkheidsverdeling die gekarakteriseerd wordtdoor eenkleinaantal parameters (zoals het gemiddelde). Enkelebelangrijkeverdelingenzullenderevuepasseren. Hierdoor wordt het verbandtussenwaarschijnlijkheidsrekeningenstatistiekduidelijk. Specialeaandachtwordtgeschonkenaandenormaalverdelingendet-verdeling.Deze twee verdelingen staan centraal in hoofdstuk 3, waarin betrouwbaarheidsintervallenworden behandeld. Zowel de constructie van betrouwbaarheidsintervallen als de interpretatievan de intervallen krijgen aandacht.Het uitvoeren van hypothesetoetsen is het onderwerp van hoofdstukken 4 en 5. Dit on-derwerpiseenlogischeuitbreidingvandetheorievanbetrouwbaarheidsintervallen. Doortoepassingvandejuistestatistischetoetsishetbijvoorbeeldmogelijkaantetonenoftweereeksen waarnemingen signicant van elkaar verschillen of niet. Hierbij kan men onderscheidmakentussenparametrischetoetsen, waarbijvaneenbepaaldeverdeling(meestaleennor-maalverdeling)wordtuitgegaan, enniet-parametrischetoetsen, waarbij deaannamesveelminder strikt zijn.Regressie, hetverklarenvandewaardenvandeenevariabele(bijvoorbeeldy)doorde andere (meestal x), wordt behandeld in hoofdstuk 6. Het berekenen van de beste rechtelijndoor eenaantal puntenvergt wel wat rekenenmaar is inprincipestugdoorwerken:vandaar dat we dat in de meeste gevallen aan de computer overlaten en ons concentreren opdebetekenisvanderesultaten. Iserwel eensignicantverbandtussendevariabelen? Isaan de voorwaarden voor kleinste-kwadraten regressie voldaan?Zou een kwadratisch model(bijvoorbeeld) niet beter zijn?Een techniek die meerdere reeksen tegelijk kan vergelijken, Analysis of Variance (ANOVA),vormt een uitbreiding op het hoofdstuk van hypothesetoetsen; in hoofdstuk 7 wordt de achter-grondvanhetrekenwerkgegeven,enenkeletoepassingenwordenbehandeld. MetnamedetoepassingvanANOVAinregressieisbelangrijk: zoishetmogelijkteonderzoekenof ersprake is van een signicante afwijking van een rechte lijn.Delaatstetweehoofdstukkenbehandelenhetbelangrijkeonderwerpvanexperimenteleproefopzet. Hierdoorkanmeteenminimumaanexperimenteleinspanningmaximaleinfor-matie worden verkregen. Essentieel is dat niet alle mogelijke experimenten even nuttig zijn.Ieder hoofdstuk wordt voorafgegaan door een aantal leerdoelen. Na bestudering van hethoofdstukkandestudentaandehandvandezedoelennagaanofhetstuderensuccesvolisgeweest. Aan het eind van de hoofdstukken staan een klein aantal opgaven die in het werkcol-lege zullen worden behandeld. Tijdens de hoorcolleges zal ook gelegenheid worden geboden teoefenen met de stof door het maken van computeropgaven. Deze zijn algemeen toegankelijkvia het internet, op de locatiehttp://www.webchem.science.ru.nl/StatBij iederecomputeropgavewordt eerst detheorie(zeer summier) behandeld, waarnaeenaantal vragen beantwoord dienen te worden. Ook is een set gemengde opgaven beschikbaar.De hoeveelheid tik- en klikwerk is zo klein mogelijk gehouden, zodat de meeste aandacht kanuitgaan naar de wezenlijke vragen.2Hoofdstuk2BeschrijvendestatistiekLeerdoelenNa bestudering van dit hoofdstuk moet de student in staat zijnexperimentele data op correcte wijze weer te geven en samen te vatten;verschillende manieren om data grasch weer te geven te kunnen interpreteren en aante geven welke informatie uit deze plots kan worden geextraheerd;de behandelde verdelingen te herkennen, en aan te geven in welke situaties ze verwachtkunnen worden;de verschillende verdelingen te beschrijven met een klein aantal parameters en de beteke-nis van deze parameters te kunnen omschrijven.2.1 VariabelenIn een experiment hebben we te maken met variabelen, de parameters die bij het experimenteen rol spelen. We zijn ons in de meeste gevallen van een groot aantal van deze variabelen nietbewust, maartochkunnenzeeengroteinvloeduitoefenenophetexperiment. Hierbijkangedacht worden aan omgevingsvariabelen als temperatuur, luchtvochtigheid en de hoeveelheidlicht in de kamer, maar ook aan meer exotische dingen, zoals in invloed van het passeren vaneengoederentreinopgevoeligeapparatuur. Indemeestegevallenisdeinvloedvandezevariabelen min of meer constant, zodat experimenten onderling toch vergelijkbaar blijven.Variabelendierechtstreeksmethetexperimenttemakenhebbenzijnonderteverdelenin afhankelijke en onafhankelijke variabelen. Een onafhankelijke variabele hebben we zelf inde hand, bijvoorbeeld de instelling van een apparaat, de concentratie in een stock oplossing,etcetera. De afhankelijke variabele is veelal een functie van de onafhankelijke variabele, en isvaak gerelateerd aan datgene waarvan we de waarde willen bepalen. Hierbij kan men denkenaanbijvoorbeeldeenabsorptiewaarde. Dewaardevaneenvariabelekanopdrieschalenworden uitgedrukt:1. de nominale schaal, waarbij de waarde met woorden beschreven wordt. Er wordt geennumerieke waarde aan de eigenschap toegekend. De kleur van een object wordt op eennominaleschaal uitgezet, bijvoorbeeldbestaandeuitdekleurenrood, geel, groenen32.2. STAND-OFLOCATIEPARAMETERSblauw. In de chromatograe wordt voor het soort kolom een nominale schaal gebruikt;kolommenkunnenbijvoorbeeldnormal-phaseofreversed-phasezijn. Hetisduidelijk,dat opdezeschaal geenrangordevantoepassingis. Wesprekenhierookwel overkwalitatieve variabelen.2. de ordinale schaal, waarbij de eigenschap ook met woorden wordt beschreven. Hoeweldeze schaal niet numeriek is ingedeeld, is er nu wel een zekere rangorde aan te brengenopdeschaal. Detemperatuurvaneenoplossingkanbijvoorbeelduitgezetwordenopde schaalverdeling heet, warm, lauw, koud. Stel, een chromatograsche scheiding wordtuitgevoerd op een C18-kolom. Baseren we ons hierbij alleen op de visualisatie van eenchromatogram dan kan de scheiding uitgezet worden op de schaal goed, matig, slecht.De rangorde is gebaseerd op een waardeoordeel, maar er is geen duidelijke afstandsmaataan te geven (is het verschil tussen goed en matig even groot als het verschil tussen matigen slecht?).3. deinterval schaal, waarbijdeafstandopdeschaal uitgedruktwordtingetallen. Deeigenschapkandusnumeriekuitgedruktwordenenerziteenduidelijkerangordein.De temperatuur van een oplossing kan bijvoorbeeld uitgezet worden op een schaal, diealle temperaturen tussen -10C en 110C kan weergeven. Drie verschillende kolommenineenchromatograschexperimentkunnenvergelekenwordendoorderesolutievooreen bepaald mengsel op een numerieke schaalverdeling uit te zetten. We spreken hierover kwantitatieve variabelen. Deze kunnen nog verder onderverdeeld worden in discreteen continue variabelen. Een discrete variabele is het gevolg van een telling en kan dusalleenmeteenintegerofgeheel getal aangeduidworden. Eencontinuevariabelekantussen twee grenzena enb alle waarden aannemen.Voorbeeld2.1Bij eenchromatograschexperiment iseenijklijnopgesteldvoor hetmeten van de concentratie van de antioxidant BHT in urine. De onafhankelijke variabeleis de concentratie van de BHT-standaarden: deze zijn immers door de analist zelf bereid.Deresponsishetdetectorsignaal endatisafhankelijkvandeingespotenconcentratieBHT. Het detectorsignaal is hier dus de afhankelijke variabele.Voorbeeld2.2Deisotopenvanbroomzijndiscretevariabelen. Zij kunnenimmersalleen79Br of81Br zijn. Zoookzijndespectralepatroneninmassaspectrometrieofhet aantal pieken in de chromatograe discrete variabelen. Concentraties van reagentia,temperatuur, druk etcetera, zijn continue variabelen.2.2 Stand-oflocatieparametersExperimentenhebbenalsdoel dewaardevaneenofandereonbekendeeigenschapvanhetobject dat wordt bestudeerdteschatten. Wehebbenal geziendat deuitkomst vaneenenkele meting niet zeer betrouwbaar hoeft te zijn, en daarom worden vaak meerdere metingenuitgevoerd. Uitdezedatawordtdanhetgevraagdeantwoordafgeleid. Meestalwordendemeetresultatenopeenof meerderemanierensamengevat. Omtebeginnenkunnendatasamengevat worden met behulp van een klein aantal parameters. De belangrijkste parametergeeft aan wat de centrale waarde van de data is. Deze wordt een standparameter, of ookwel locatieparameter genoemd. Er zijn verschillende manieren om een centrale waarde uitte rekenen.4HOOFDSTUK2. BESCHRIJVENDESTATISTIEK2.2.1 GemiddeldenHet rekenkundig gemiddelde van een aantal replicaten wordt berekend door het resultaat vanalle metingen op te tellen en te delen door dat aantal metingen (Formule 2.1), en is in dezelfdeeenheden als de gemeten variabele. x =1nn

i=1xi =

xin(2.1)Deze denitie van het gemiddelde is de gangbare, en komt overeen met de verwachtingswaardevan de betreende variabele.Het geometrisch gemiddelde wordt berekenddoor alle nwaardenmet elkaar te ver-menigvuldigen, en daar den-de machtswortel uit te trekken: x =n_

xi(2.2)Merkopdat delogaritmevanhet geometrischgemiddeldegelijkis aanhet rekenkundiggemiddeldevandelogaritmesvandedata. Hetkanalleenberekendwordenvoorpositievegetallen.Voorbeeld2.3Tijdens het practicumvoert Ericeencomplexometrischetitratievanmagnesium met een EDTA-oplossing uit. Hij doet dit 4 keer (n = 4) en voegt achtereen-volgens 9.82, 10.05, 9.99 en 9.90 ml EDTA-oplossing toe. Gemiddeld is dit (9.82+10.05+9.99 + 9.90)/4 = 9.94 ml. De vier metingen zijn samen met hun rekenkundig gemiddelde(weergegeven door de stippellijn) afgebeeld in onderstaande guur.metingml toegevoegd9.610.010.41 2 3 4Het geometrisch gemiddelde is vooral relevant wanneer parameters met elkaar vermenigvuldigdmoetenworden. Eentypischvoorbeeldisdatvanrente: stel,mendoeteeninvesteringdiehet eerste jaar 10 procent oplevert, het tweede jaar 60 procent, en het derde jaar 20 procent.De waarde van de investering wordt ieder jaar vermenigvuldigd met een factor (respectievelijk1.1, 1.6 en 1.2). Het gemiddelde rendement is dan het geometrisch gemiddelde, het rendementdat ieder jaar gehaald moet worden om uiteindelijk op hetzelfde bedrag uit te komen. In ditvoorbeeld is dit ongeveer 1.283, dus per jaar zou iets meer dan 28 procent rendement gehaaldmoeten worden.In het vervolg bedoelen we met het gemiddelde het rekenkundig gemiddelde, tenzij ditanders is aangegeven.52.3. SPREIDINGSPARAMETERS2.2.2 RobuustelocatieparametersTweeanderelocatieparameters dienogwel eens gebruikt wordenzijndemediaanendemodus. Demodusissimpelwegdewaardediehetmeestvoorkoment; dezemaatisvooralinteressant bij discrete variabelen. De mediaan is de middelste waarde van een reeks op groottegerangschikte getallen. Wanneer het aantal waarnemingen, n, even is, dan is de mediaan hetgemiddelde van de middelste twee waarnemingen.Deze twee maten hebben een plezierige eigenschap: ze zijn niet al te gevoelig voor uitbi-jters. Ze worden ook robuuste locatieparameters genoemd. Wanneer in een reeks waarne-mingen een decimaalpunt incorrect wordt afgelezen en een getal (bijvoorbeeld) een factor 10te groot is,dan heeft dit een enorm eect op het (geometrisch of rekenkundig) gemiddelde.Mediaan en modus zullen echter nauwelijks veranderen.Voorbeeld2.4Bij een reeks titraties wordt achtereenvolgens 25.04, 25.21, 25.06, 25.01ml. titrant toegevoegd. Men berekent het gemiddelde en de mediaan van deze reeks: hetgemiddelde x = 25.08 ml en de mediaanme = 25.05 ml.Stel dat de tweede waarde niet 25.21 maar 25.37 ml bedraagt. Later zullen we laten ziendat25.37aantoonbaareenuitbijteris. Nuconcentrerenweonsopdeinvloedvandezeuitbijter op het gemiddelde en de mediaan. Het gemiddelde x = 25.12 ml en de mediaanme = 25.05 ml.De mediaan is duidelijk minder gevoelig voor zon uitbijter dan het gemiddelde; vandaarhet etiket robuust.Voorbeeld2.5Voor de gegevens uit voorbeeld 2.3 wordt de mediaan als volgt berekend.Sorteer de waarnemingen: dit levert 9.82, 9.90, 9.99 en 10.05. Het aantal waarnemingenis even. De mediaan is dan (9.90 + 9.99)/2 = 9.945 ml. De modus is in dit geval niet tebepalen, omdat alle waarnemingen evenveel keer voorkomen.2.3 SpreidingsparametersInhetalgemeenzullenherhaaldemetingenallemaal eenbeetjeafwijkenvanhuncentralewaarde. Eenbeschrijvingmetalleendiecentralewaardedoetdusgeenrechtaandedata.Spreidingsparameters geven aan hoe groot de spreiding rond de centrale waarde daadwerkelijkis. Ook hier weer zijn een aantal verschillende parameters beschikbaar.2.3.1 VariantieenstandaardafwijkingDe variantie,s2is een maat voor de afwijking. De variantie wordt berekend door:s2=

ni=1(xi x)2n 1(2.3)s =

ni=1(xi x)2n 1(2.4)Dewortel uit devariantie, s, heet destandaardafwijking(of standaarddeviatie) endezewordtmeestal opgegevenomdespreidinginhetresultaatuittedrukken. InFormule2.46HOOFDSTUK2. BESCHRIJVENDESTATISTIEKistezien, datdestandaardafwijkingindezelfdeeenhedenalsdevariabeleopgegevenmoetworden. Bovendien blijkt, dat voor het berekenen van de variantie en de standaardafwijkingeen kwadratensom gedeeld wordt door het aantal waarnemingen min 1 (n 1). Het aantalwaarnemingenmin1noemtmenhetaantalvrijheidsgraden. Dataantalkomtovereenmethetaantalonafhankelijkeafwijkingen(xi x),datgebruiktwordtindeberekeningvandevariantie en standaardafwijking. Indien er (n 1) afwijkingen bekend zijn dan is de laatsteautomatischbekendomdat(xi x) =0. Metanderewoorden: indebepalingvandevariantieisereenvrijheidsgraadminderdanhetaantal waarnemingenn, omdatmetallewaarnemingen al het gemiddelde is uitgerekend.De afwijking van een resultaat ten opzichte van een gemiddelde wordt ook wel uitgedruktin de variatiecoecient,of relatieve standaarddeviatie (RSD). Deze wordt niet weergegevenin de eenheden van de variabele, maar uitgedrukt in een percentage. Wanneer het gemiddeldegelijk is aan nul levert deze maat problemen op!RSD = 100 s x(2.5)Voorbeeld2.6Van de resultaten uit voorbeeld 2.3 worden de kwadratensommen bepaald.Deze zijn weergegeven in de linker tabel hieronder.xixi x (xi x)29.82 -0.12 0.01449.90 -0.04 0.00169.99 0.05 0.002510.05 0.11 0.0121(xi x)2= 0.0306 ml2variantie,s2= 0.0102 ml2standaardafwijking,s = 0.1010 mlRSD = 1.02%Hieruit kunnen de variantie en de standaardafwijking berekend worden. De afwijking vanhet gemiddelde bedraagt 0.1010 ml. Eric moet dus opgeven, dat hij 9.94 0.10 ml heefttoegevoegd.2.3.2 DegepooldestandaardafwijkingTot nu toe is gesproken over de berekening van het gemiddelde en de standaardafwijking voor1 reeks waarnemingen. In bepaalde gevallen is het ook mogelijk om een standaardafwijkingvoormeerderereeksenwaarnemingenuitterekenen. Hetkannamelijkvoorkomen, datdereeksenwaarnemingenopverschillendetijdenen/ofopverschillende(maargelijkwaardige)monsters bepaald zijn. Binnen een reeks kunnen verschillen optreden: het zou zo kunnen zijndatdegemiddeldennetietsafwijkenterwijldestandaardafwijkingenronddiegemiddeldenwel gelijk zijn. Om toch alle gegevens te kunnen gebruiken in een schatting van de spreidingin de data (hoe meer gegevens, hoe beter de schatting!)worden de varianties van de reeksengepoold. Dit gebeurt als volgt:spooled =(n11)s12+ (n21)s22+ + (nk1)sk2(n11) + (n21) + + (nk1)(2.6)In Formule 2.6 isnihet aantal waarnemingen in reeksi (er zijn duskreeksen), ensi2is devariantieinreeksi. Hetisbelangrijkintezienwatgelijkwaardigemonsterszijn. Intutiefzal duidelijkzijn, dateenreeksmeteenveel groterevariantiedandeanderereekseneente grote invloed zal hebben op despooled. Met behulp van een signicantie-test kan bepaaldworden of de varianties van de reeksen in voldoende mate aan elkaar gelijk zijn. In dat geval72.3. SPREIDINGSPARAMETERSspreekt men van homogene varianties. Een signicantie-test voor homogene varianties wordtbehandeld in het hoofdstuk over hypothesetoetsen.Voorbeeld2.7In hoofdstuk 3 wordt een voorbeeld behandeld over de bepaling van hetkwik gehalte (ppm) in kabeljauw. Op acht verschillende kabeljauwen werd een verschillendaantal replicate metingen (ni) uitgevoerd (zie onderstaande tabel).serie 1 2 3 4 5 6 7 8ni5 4 3 6 4 6 4 7s2i0.0101 0.0116 0.0121 0.0122 0.0114 0.0137 0.0170 0.0216Degepooldestandaardafwijkingvoor demetingenopdezeverschillende, maar gelijk-waardige monsters is:spooled=(5 1)0.0101 + (4 1)0.0116 + + (7 1)0.0216(5 1) + (4 1) + + (7 1)= 0.1196 ppm2.3.3 DerangeWanneer men beschikt over een reeks waarnemingen dan ontstaat al een eerste indruk overde spreiding door de hoogste waarde uit de reeks te vergelijken met de laagste waarde. Hetverschil tussen deze hoogste waarde en de laagste waarde uit een reeks waarnemingen noemtmenderange(R). Indieneenbeperktaantalwaarnemingenvoorhandenis, kaneeneersteschatting van de standaardafwijking gemaakt worden met de simpele formule s =Rd2, waarbijd2eengetabelleerdewaardeisdieafhangtvanhetaantal waarnemingenbinneneenreeks.Voor 3 < n < 10 kan d2 benaderd worden metn. In voorbeeld 2.3 is de range 10.059.82 =0.23ml. Inditvoorbeeldisd2=2. Wanneerwenudestandaardafwijkingopdezesnellemanier schatten vinden we een waarde van 0.23/2 = 0.12 ml. Deze methode voor het vindenvan een standaard deviatie is nogal gevoelig voor uitbijters (waarom?).2.3.4 RobuustespreidingsparametersWanneereenrobuustelocatieparameterzoalsdemediaanwordtgebruiktishetbeterookeen robuuste spreidingsparameter te nemen. Alhoewel het op het eerste gezicht vreemd kanlijken dat een spreidingsparameter robuust kan zijn (immers, de parameter moet de afwijkingvandecentralewaardejuistbeschrijven), moetenwetochnietvergetendatwetemakenhebben met echte variatie rond een centrale waarde, en soms met bizarre variatie. Datlaatsteis bijvoorbeeldhet geval bij eenaeesfout waarbij dedecimalepunt niet goedisgezet. Uiteraardzijnwenietgenteresseerdinhetbeschrijvenvandeaeesfouten,maarinde daadwerkelijke variatie in het proces dat gevolgd wordt. De meest gebruikte maat wordtmean absolute deviation (MAD!) genoemd. Deze wordt berekend door de mediaan te nemenvan de absolute afwijkingen ten opzichte van de mediaan van de data. Als robuuste schattingvoor een standaardafwijking wordt MAD/0.6745 genomen.Voorbeeld2.8Invoorbeeld2.3isde(gerangschikte)reekswaarnemingen9.82, 9.90,9.99en10.05ml. Demediaanvandezedatais9.945, endemediaanvandeabsoluteafwijkingen ten opzichte van de mediaan is 0.075 (ga dit na!). Hieruit volgt datsMAD 0.111 ml.8HOOFDSTUK2. BESCHRIJVENDESTATISTIEK2.4 Fouteninexperimenteledata2.4.1 PrecisieennauwkeurigheidNu de begrippen gemiddelde en spreiding bekend zijn, kunnen de precisie en de nauwkeurigheidgentroduceerdworden. Vandeveledenitiesdievoordezebegrippencirculeren, zullenindeze cursus de volgende gebruikt worden:precisie, de mate van spreiding rond het gemiddelde (centrale waarde)nauwkeurigheid, de juistheid om met x de ware waarde te benaderen.Hoe moet je je nu de ware waarde voorstellen?Dat is eigenlijk de ideale waarde, die je zouvinden, wanneer je zonder tussenkomst van foutenbronnen metingen verricht, iets dat, zoalszal blijken, onmogelijk is. Als maat voor de precisie wordt doorgaans de variantie, s2, of destandaardafwijkings genomen. Een en ander kan het best gellustreerd worden aan de handvan het volgende voorbeeld.Voorbeeld2.9Vier studenten (A-D) voeren een titratie van NaOH met HCl uit. Menheeft ervoor gezorgd, dat de oplossingen exact 0.100 M zijn. Ze krijgen alle vier een bek-erglas met exact 10.00 ml NaOH en titreren tot het omslagpunt. Dit moeten ze vijf keerherhalen. We weten dat ze theoretisch exact 10.00 ml HCl moeten toevoegen. Als warewaarde beschouwen we dus deze 10.00 ml. Wat brengen de studenten ervan terecht?A B C D10.08 9.88 10.19 10.0410.11 10.14 9.79 9.9810.09 10.14 9.69 10.0210.10 9.80 10.05 9.9710.12 10.21 9.78 10.04Daaruit volgt:A B C D x (ml) 10.10 10.03 9.90 10.01s (ml) 0.02 0.18 0.21 0.03De interpretatie is als volgt. Student A werkt precies, want er is een kleine spreiding rondzijn gemiddelde. Hij is echter niet erg nauwkeurig geweest. Immers, zijn gemiddelde wijktnogal af van de ware waarde. Daarentegen is de precisie van student B niet goed. Maarondanksdegrotespreidingbenaderthijweldewarewaardeenheefthetresultaatduseen grote nauwkeurigheid. Student C benadert de ware waarde niet en introduceert eengrote spreiding. Zowel precisie als nauwkeurigheid deugen hier dus niet. Student D leverteen precies en nauwkeurig resultaat. Een en ander is weergegeven in de volgende guur.ml toegevoegdStudent9.6 9.8 10.0 10.2 10.4ABCD92.4. FOUTENINEXPERIMENTELEDATA2.4.2 HerhaalbaarheidenreproduceerbaarheidStel dat de studenten de replicate metingen direct na elkaar uitvoerden. De omstandighedenvoor ieder van de replicate metingen zouden dan (min of meer) identiek zijn. Zowel de omgev-ingstemperatuuralsdetemperatuurvanhetreagenszoudennoghetzelfdezijn, evenalsdegemoedstoestand van de studenten etcetera. Bij het vergelijken van de replicaten onder iden-tieke omstandigheden spreekt men over de herhaalbaarheid. Wanneer echter de omstandighe-den veranderd zouden kunnen zijn, bijvoorbeeld doordat de studenten op verschillende dagende replicaten bepaalden, of de metingen werden door andere studenten uitgevoerd, dan spreektmen over de reproduceerbaarheid van de replicate metingen. In dit geval konden bijvoorbeeldzowel de omgevingstemperatuur als de temperatuur van het reagens veranderd zijn. Zelfs deconcentratie van het reagens zou verlopen kunnen zijn.Zowel het herhalen als het reproduceren van metingen zal een spreiding in de resultatenveroorzaken. Men kan dan ook stellen, dat de totale spreiding in dat geval opgebouwd is uitdespreidingveroorzaaktdoorhetherhalenvanmetingenendespreidingveroorzaaktdoorhet reproduceren van metingen (in het hoofdstuk over variantieanalyse zal behandeld wordenhoedeverschillendeoorzakenvanspreidingtebepalenzijn). Zoweldeherhaalbaarheidalsde reproduceerbaarheid hangen dus samen met de precisie. Als maat voor de precisie wordtdoorgaans de variantie of standaardafwijking gebruikt. Diezelfde maat kan daarom gebruiktworden met betrekking tot de herhaalbaarheid en reproduceerbaarheid.2.4.3 VerschillendesoortenfoutenIn voorbeeld 2.9 hebben we gezien, dat verschillende studenten resultaten produceerden metverschillende nauwkeurigheden en precisies. Blijkbaar werden er enkele fouten bij de metingengemaakt. Bij het meten of doen van waarnemingen worden we geconfronteerd met verschil-lendesoortenfouten. Diefoutenzijnonderteverdeleninblunders, toevalligefoutenensystematische fouten.Blunders. Typische gevallen van blunders zijn de volgende; je leest af 0.001 en je noteert0.01, jenoteert0.6terwijl het-0.6was, ofjevergatdatdeschaal maal 103was, iemandoverhandigt je een cuvet waar hij met vettige vingers aan heeft gezeten,etcetera. Blunderszullen in een reeks waarnemingen vaak dusdanig afwijkende getallen zijn, dat ze vaak op zichtal herkend worden. Zoniet, dan zijn er methoden om deze zogenaamde uitbijters te detecteren.EenvandezemethodenisDixons Q-testenzal behandeldwordeninhethoofdstukoverhypothesetoetsen.Toevalligefouten. Deze categorie behelst de niet te vermijden fouten. Toevallig geeft alaan, datwegeenrichtingkunnenaanduiden. Dezefoutenzullenhetresultaatdaneensnegatief, dan eens positief benvloeden. Zij worden onder andere door de mens gentroduceerden zullen dus altijd voorkomen. Deze fouten hangen samen met de precisie oftewel de spreidingrond de gemiddelde waarde. Je kunt als mens gewoon eens je dag niet hebben. Soms is deoorzaak bekend (beetje ziek, te laat gaan slapen, humeurig enz.), soms niet. Moet er gemetenworden dan hebben deze factoren invloed op het resultaat. De precisie zal afnemen, oftewelerzal eengroterespreidingronddecentralewaardezijn. Ditleidttoteentoevalligefout.Anderevoorbeeldendietoteentoevalligefoutkunnenleidenzijntemperatuurswisselingen,(atmosferische) drukwisselingen, etcetera.10HOOFDSTUK2. BESCHRIJVENDESTATISTIEKSystematischefouten. Inhetalgemeenbenvloedensystematischefoutenhetresultaatwel in een bepaalde richting. Het toepassen van een niet geheel waterdichte meetmethodezalleidentotsystematischefoutenendusonnauwkeurigeresultaten. Systematischefoutenzijn onder te verdelen in:instrumentelefouten, bijvoorbeeldslechteelektronischecontactenineendetectorofverminderde druk in een HPLC-pomp (lek) leiden tot minder goede resultaten bij eenchromatograsche analyse. Stel dat men een calibratielijn wil opstellen. Dan zal vooriedereconcentratiederesponstelaagzijn. Dezefoutwerktdussystematischdoor.Deze systematische fout leidt tot een slechtere benadering van de ware waarde,duseen slechtere nauwkeurigheid.methodefouten,bijvoorbeelddoorhetnietidealegedragvanreagentia(zoalshetver-lopen van een titer, een complexvormer is niet selectief genoeg, aanwezigheid van inter-ferenten in het reagens, etcetera). Ook komt het voor, dat men bij het bepalen van eenmonster een andere temperatuur (druk etcetera) hanteert dan bij het opstellen van decalibratielijn.persoonlijke fouten, bijvoorbeeld door vooringenomenheid. Het kan best zo zijn dat eenpersoon bij het aezen van eenzelfde buretstand, systematisch een hogere uitslag geeftdan een ander persoon.2.5 HetweergevenvanwaarnemingenenresultatenHetweergevenvaneenexperimenteel resultaatheeftslechtszinalsditsamengaatmethetschattenvandefout. Gewoonlijkwordthetgemiddeldevaneenaantal herhaaldeexperi-menten gebruikt als schatting van de te meten grootheid. Daarnaast wordt de standaardafwi-jking van dit gemiddelde vaak aangeduid als de precisie van de gebruikte methode. Gerela-teerd aan deze weergave van resultaten is het afronden van een waarde. Het is goed hier evenbij stil te staan, alvorens verder te gaan met de eigenlijke statistiek.2.5.1 AfrondenensignicantecijfersAfrondenvanmeetwaardenkanbovenopdeexperimenteleonnauwkeurigheidnogeenextrafout introduceren: idealiter is de afrondfout (veel) kleiner dan de meetfout, maar als in eenberekeningtevroegwordtafgerondisditwel eensniethetgeval. Alleenhetallerlaatsteresultaatmagwordenafgerond! Alletussenresultatenmoetenmet zoveel mogelijkcijfersworden meegenomen. De grootte van de afrondfout is een halve eenheid in het laatste cijfer.De mededelingG = 8 betekent dusG = 8 12, oftewel 7.5 5.Een nog veel belangrijker reden wordt gevormd door het zogenaamde centrale limiet the-orema. Dit zegt dat de som van een groot aantal onafhankelijke variabelen ongeveer normaalverdeeld zal zijn, wat voor verdelingen de onafhankelijke variabelen ook hebben. Dit is bijvoor-beeld de reden dat de uitkomst van een experiment, waarop een heleboel omgevingsvariabelenieder afzonderlijk een kleine invloed uitoefenen, vaak een normale verdeling rond een centralewaarde te zien zal geven. Deze centrale waarde is dan onze schatting van de ware waarde, ende spreiding daaromheen wordt meetfout genoemd.De pdf van de normaalverdeling wordt gegeven doorf(x; , ) =12e12(x)2(2.15)232.7. VERDELINGENVANCONTINUEVARIABELEN4 2 0 2 40.00.10.20.30.4xf(x)4 2 0 2 40.00.20.40.60.81.0xF(x)Figuur 2.6: Theoretische normaalverdeling en cumulatieve normaalverdeling.Deze verdeling wordt gekarakteriseerd door een tweetal parameters. De centrale waarde geeft de plaats aan van de curve. De breedte van de curve wordt gegeven door de variantie, diemet2aangeduid wordt. Om aan te geven dat variabeleXnormaal verdeeld is met gemid-delde en variantie 2wordt vaak de volgende notatie gebruikt: X is N(, 2). In hoofdstuk 3zullen we verder ingaan op de eigenschappen van de normaalverdeling. In Figuur 2.6 zijn detheoretische normaalverdeling en cumulatieve normaalverdeling weergegeven.Voorbeeld2.22We hebben in het geval van een uniforme distributie gezien dat bij hetwerpen van een dobbelsteen iedere kant evenveel kans heeft om bovenop te eindigen. Wan-neer we echter met twee of meer dobbelstenen tegelijk gooien en de verdeling van de sombekijken verandert het beeld drastisch. Bij twee dobbelstenen is de waarde 7 waarschijnli-jker dan andere waarden, simpelweg omdat er meer mogelijkheden zijn om tot 7 te komen(slechts een combinatie leidt tot een som van 2 terwijl er 6 mogelijkheden zijn om 7 te kri-jgen). In onderstaande guur is te zien dat de som van 5 dobbelstenen al redelijk normaalverdeeldlijkt(deklokvormigecurvelijktsterkophetlinkerplaatjeinFiguur2.6. Ditillustreert het centrale limiet theorema: de som van een aantal onafhankelijke variabelenneigt naar een normaalverdeling.1 steen1 2 3 4 5 60501001502 stenen2 4 6 8 10 120204060805 stenen5 10 15 20 25 30051015202524HOOFDSTUK2. BESCHRIJVENDESTATISTIEK2.7.4 DelognormaleverdelingBij de normaalverdeling waren de waarnemingen symmetrisch verdeeld rond het gemiddelde.Omallerlei redenenkanhetvoorkomen, datwaarnemingennietsymmetrischverdeeldzijnrond het gemiddelde. Een voorbeeld is de lognormale verdeling. De pdf wordt gegeven doorf(x; , ) =1x2e12(ln x)2x > 0 (2.16)Nemenwedelogaritmevaneenlognormaal verdeeldevariabele, danvindenweweereennormale verdeling terug. We zien vaak een lognormale verdeling wanneer er een absolute on-dergrens zitaan mogelijke waarden,bijvoorbeeldbij concentraties. Negatieveconcentratiesbestaan niet, en vandaar dat in veel gevallen lage concentraties (zoals de concentratie zwaremetalenofPCBsindegrond)lognormaalverdeeldzijn. Eendrietalvoorbeeldenvanlog-normale verdelingen met gemiddelde 0 (jargon: x> 0. Het gemiddelde van 0 komt overeenmetdelogaritmevaneenechtgemiddeldevan1...) enverschillendestandaarddeviatiesisweergegeven in Figuur 2.7.0.0 0.5 1.0 1.5 2.0 2.5 3.0012345xf(x)sd =0.5sd =1sd =5Figuur 2.7: Lognormale verdelingen met verschillende standaardafwijkingen en gemiddelde 0.N.B. Wanneer de verdeling scheef is kan deze niet altijd volledig gekarakteriseerd wordenmet het gemiddelde en de standaardafwijking. Het gemiddelde kan zelfs misleidend zijn!Vaak worden zogenaamde robuuste stand- en spreidingsparameters gebruikt: de mediaan,en de standaardafwijking gebaseerd op de mediaan. Bij normaal verdeelde waarnemingenis het gemiddelde gelijk aan de mediaan en gelijk aan de modus. Bij niet-symmetrischedata is dat niet meer zo.Voorbeeld2.23Enquetes onder oud-studenten bevatten soms een vraag naar het huidigeinkomen. De antwoorden hierop (voor zover ze gegeven worden) zijn vrijwel zeker scheefverdeeld. Hierbij spelen een aantal factoren een rol: allereerst is het waarschijnlijker datdiegenen die het hebben gemaakt aan een dergelijke enquete meedoen dan diegenen diehetmaatschappelijkminderhebbengetroen. Verderiseenafwijkingnaarboven(tenopzichte van een centrale waarde) potentieel veel groter dan een afwijking naar beneden;een salaris kan immers nooit negatief zijn,maar wel bijvoorbeeld tien keer zo hoog zijnals de centrale waarde. Vandaar dat ook in dergelijke enquetes de mediaan of de modusals maat wordt genomen (het modale inkomen).252.7. VERDELINGENVANCONTINUEVARIABELEN4 2 0 2 40.00.10.20.30.4xf(x)3 vrijheidsgraden10 vrijheidsgraden vrijheidsgradenFiguur 2.8: De Student-t verdeling met respectievelijk 3, 10 en vrijheidsgraden. De laatstekomt overeen met de normaalverdeling.2.7.5 DeStudent-tverdelingDeStudent-tverdelingisvergelijkbaarmetdegestandaardiseerdenormaalverdeling, maarheeft een extra parameter, het aantal vrijheidsgraden = n1, waarbij n het aantal waarne-mingen is. Als = dan komen de twee verdelingen exact overeen. Hoe kleiner het aantalvrijheidsgraden, des temeer verschil zit er tussendenormaalverdelingende t-verdeling.DitisprecieswatWilliamGosset, eenwerknemervandeGuinnessbrouwerijeninDublin,opgevallen was aan kleine (n < 30) steekproeven uit normaal verdeelde data: de dichtheid inhet midden van de verdeling was kleiner dan verwacht, terwijl in de staarten meer kans wasdan volgens de theoretische normaalverdeling. Dit wordt gellustreerd in Figuur 2.8. Gossetpubliceerdezijnbevindingenin1908inhetartikel TheprobableErrorof aMeanonderhet pseudoniem Student;vandaar de naam voor deze verdeling. Det staat waarschijnlijkvoortest. Det-verdelingligtaandebasisvandemeestgebruiktehypothesetoetsen(ziehoofdstuk 4). De pdf is een tikkie ingewikkelder dan de tot nu toe behandelde verdelingen,en die laten we daarom maar even voor wat zij is.2.7.6 De2-verdelingEen ander voorbeeld van een scheve verdeling die van groot belang is, met name in de exactewetenschappen,isde2-verdeling1. Dezebeschrijftdeverdelingvanhetkwadraatvaneenstandaard normaal verdeelde variabele; zo is de verdeling van een variantie een2-verdeling.Eenanderetoepassingvindenweincurvetting, hetbeschrijvenvanexperimenteledata,zoalseenpiekineenNMRspectrummeteentheoretischelijnvormzoalseenLorentz-lijn.Tenslotte zullen we zien dat een hypothesetoets, gebaseerd op de2-verdeling, gebruikt kanworden om te toetsen of een verzameling datapunten voldoen aan een theoretische verdeling(zoals eent- of normaalverdeling, maar ook een2-verdeling!).1Voordeniet-Griekenonderons: eenchi-kwadraatverdeling.26HOOFDSTUK2. BESCHRIJVENDESTATISTIEK0 5 10 150.00.10.20.30.40.5xf(x)2 vrijheidsgraden3 vrijheidsgraden4 vrijheidsgraden5 vrijheidsgradenFiguur 2.9: Theoretische curves voor2-verdelingen met respectievelijk 2, 3, 4 en 5 vrijhei-dsgraden.De2-verdeling kent een parameter, het aantal vrijheidsgraden. Ook hier laten we deprecieze vorm van de pdf even achterwege. Bij een klein aantal vrijheidsgraden is de dichthei-dsfunctie niet symmetrisch; hoe groter het aantal vrijheidsgraden, hoe groter de symmetrie.Vooreenaantal verschillendevrijheidsgradenzijndebijbehorendetheoretischedichtheids-functies geplot in Figuur 2.9. Enkele andere eigenschappen van de2-verdeling: het gemid-delde van een 2-verdeelde variabele is , en de variantie is 2. De maximale waarde is gelijkaan 2 als> 2.2.7.7 DeF-verdelingDeverhoudingvantwee 2-verdeeldevariabelenX1enX2, met respectievelijk1en2vrijheidsgraden, leidt tot een variabele verdeeld volgens deF-verdeling:F(x1, x2; 1, 2) =X1/1X2/2Deze verdeling heeft twee parameters: het aantal vrijheidsgraden van de teller,1, en van denoemer,2. Deze verdeling komt men vaak tegen als men de verhouding van twee variantiesgaatbekijken: inhoofdstuk4wordteenhypothesetoetsgentroduceerdomtebeslissenofdeze verhouding signicant afwijkt van 1.Evenals dedistributiefunctievande 2-verdelingis dievandeF-verdelingniet sym-metrisch, en bestaat alleen voor positieve getallen. In Figuur 2.10 zijn enkele dichtheidsfunc-ties als voorbeeld weergegeven. De F-verdeling is ook gerelateerd aan de Student-t verdeling:F,1,2 = (t/2,2)2Dushet-kwantiel vandeF-verdelingmetrespectievelijk1en2vrijheidsgradenisgelijkaan het/2-kwantiel van eent-verdeling met2 vrijheidsgraden.272.8. NOGMAALSKWANTIELEN0 1 2 3 4 50.00.20.40.60.81.0xf(x)(10, 10) vrijheidsgraden(4, 2) vrijheidsgraden(2, 4) vrijheidsgradenFiguur2.10: TheoretischecurvesvoorF-verdelingenmet(1, 2)gelijkaanrespectievelijk(2, 4), (4, 2), en (10, 10) vrijheidsgraden.2.8 NogmaalskwantielenKwantielen spelen een belangrijke rol in veel statistische operaties. Daarom is het goed je terealiserendatelkgewenstkwantiel directuitdeplotvandecumulatievedistributiefunctiekan worden afgelezen. Immers,deze laat voor elkex-waarde zien hoe groot de cumulatievekans op een waarde x is; met andere woorden, de oppervlakte onder de normaalcurve van totx. Een en ander is gellustreerd in Figuur 2.11.Niet alleenvoor theoretischeverdelingenkanmenzulkeplots maken, maar ookvoorexperimenteleverdelingen, bijvoorbeeldeenreeksvan25metingen. Uiteraardisdeguurdan minder gladjes. Deze functie wordt ook wel de empirische cumulatieve distributiefunctie,of ecdf, genoemd.0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.20.00.20.40.60.81.0UniformxF(x)0.10.20.30.40.50.60.70.80.94 2 0 2 40.00.20.40.60.81.0NormaalxF(x)0.10.20.30.40.50.60.70.80.9Figuur 2.11: Cumulatieve distributiefuncties en kwantielen voor de uniforme verdeling (links)en de normaalverdeling (rechts).28HOOFDSTUK2. BESCHRIJVENDESTATISTIEKVoorbeeld2.24Voor de aatoxine data uit voorbeeld 2.14 kan een cumulatieve distribu-tieverdeling worden opgesteld. We beginnen met het sorteren van de data. Aangezien er25metingenzijn, komtheteerstepuntovereenmethet1/25kwantiel, hettweedemethet 2/25 kwantiel, enzovoorts. In tabelvorm:Punt 5.6 5.7 5.7 5.8 . . . 6.3 6.5Kwantiel 0.04 0.08 0.12 0.16 . . . 0.96 1.00Dit alles uitgezet in een plot leidt tot onderstaande guur. In vergelijking met de rechterplot in Figuur 2.11 is de globale vorm gelijk, alleen niet zo gladjes.5.0 5.5 6.0 6.5 7.00.00.20.40.60.81.0xFn(x)2.9 Q-QplotsEr bestaan verschillende formele toetsen om na te gaan of een reeks waarnemingen verdeeldisvolgenseenvandeverdelingenindevorigeparagraaf. Metnameishetvaakbelangrijkteonderzoekenof eenreekswaarnemingennormaal verdeeldis. Indezecursuszulleninhoofdstuk 5 drie verschillende testen behandeld worden. Wanneer waarnemingen niet normaalverdeeldzijn, kangeprobeerdwordenviaeentransformatievandiewaarnemingenalsnognormaal verdeelde data te verkrijgen. Zo is een lognormale verdeling eenvoudig om te zettenineennormaleverdelingdoorvanallegetallendelogaritmetenemen. Enkeleandereveelgebruikte transformaties zijn kwadrateren en worteltrekken.Eensnelleeninformatievemanier omeenindruktekrijgenof eendataset normaalverdeeld is (of met een andere verdeling goed kan worden beschreven) is een quantile-quantileplot, of kortweg Q-Q plot. Hierbij wordt de cumulatieve verdeling van de gemeten waardenvergeleken met de theoretische cumulatieve verdeling van bijvoorbeeld een normaalverdeling:depuntenvandecumulatievetheoretischeverdeling, zoalsbijvoorbeeldweergegeveninderechterplot van guur 2.11, komen op de x-as te staan, en de bijbehorende waarden van de ecdf(bijvoorbeeld de guur in voorbeeld 2.24) op dey-as. Wanneer de data (ongeveer) verdeeldzijnvolgensdetheoretischeverdelinglaat deQ-Qplot eenrechtelijnzien. Afwijkingenvan die rechte lijn zijn meestal te vinden aan de extremen, en kunnen wijzen op een andereverdeling dan verwacht, of op de aanwezigheid van uitbijters.292.9. Q-QPLOTSVoorbeeld2.25Op dey-as in een Q-Q plot staan de kwantielen van de gemeten waar-den; opdex-asstaandekwantielenvolgensdeverdelingwaarinmenisgenteresseerd.Hier gaan we onderzoeken of de aatoxine-gehaltes van voorbeelden 2.14 en 2.15 normaalverdeeldzijn. Netalsinvoorbeeld2.24gebruikenwekwantielen, waarbij dezeinditgeval symmetrisch ten opzichte van 0.5 zijn gezet;vergeleken met voorbeeld 2.24 liggende gezochte kwantielen allemaal 0.02 lager. Dit levert onderstaande tabel (ga dit na!):Analist 5.6 5.7 5.7 5.8 . . . 6.3 6.5Stagiaire 5.3 5.4 5.5 5.7 . . . 6.6 6.9Kwantiel 0.02 0.06 0.10 0.14 . . . 0.94 0.98Normaalverdeling -2.054 -1.555 -1.282 -1.080 . . . 1.555 2.054De kwantielen van de theoretische normaalverdeling kunnen worden gevonden in Tabel A.4.Deze tabel is zo opgezet dat de oppervlakte rechts van wordt gegeven; aangezien de nor-maalverdeling symmetrisch is weten we dat links van de waarde -2.054 2% van de totaleoppervlakte ligt. Voor < 0.5 nemen we daarom de negatieve waarde van het gevondenkwantiel. Dit alles leidt tot de volgende plots:2 1 0 1 25.65.86.06.26.4QQ plot, analistTheoretische kwantielenSample kwantielen2 1 0 1 25.56.06.5QQ plot, stagiaireTheoretische kwantielenSample kwantielenIn beide gevallen wijken de gegevens niet al te zeer af van de rechte lijn. Duidelijk is heteect van het afronden te zien: slechts enkeley-waarden komen voor.30HOOFDSTUK2. BESCHRIJVENDESTATISTIEK2.10 Opgaven1. (a) AlsweervanuitgaandatinDNAdekansophetvoorkomenvandevierbasenA, C, G en T even groot is (en onafhankelijk van de positie), hoe groot is dan dekans op precies 5 As in een sequentie van 26 basen? En hoe groot is de kans op11 As?(b) Hoegrootisdekansoptenminste11gelijkenucleotidenalswetweesequentiesvan 26 basen met elkaar vergelijken?2. In voorbeeld 2.20 hebben we een strategie gezien om te bepalen of een partij verfpottenaandespecicaties voldoet. Eenanderestrategieis devolgende. Honderdpottenworden geopend en de kleur wordt vergeleken met de standaard. Wanneer meer dan 5potten afwijken,wordt de hele partij afgekeurd. Wat is de kans dat een slechte partij(ookweermet meer dan10procentslechtepotten) tenonrechte wordt geaccepteerd?(Hint: beschouw dit als een voorbeeld van een binomiaalverdeling.)3. Ineenfarmaceutischegroothandel wordenpillenpertweehonderdverpakt. Wanneer1.5% van de pillen een kleine afwijking in de kleur van het beschermlaagje heeft, wat isdan de kans op respectievelijk nul, een, twee of drie afwijkende pillen in een verpakking,(a) uitgaande van een binomiaalverdeling?(b) uitgaande van de Poisson-benadering met = n p = 200 0.015 = 3?4. Erzijnaltijd welmensen diemetalcoholopachterhetstuurkruipen. Depakkansisklein; hetaantalkerendatautomobilistenin eenjaarwordenbetraptkanbeschrevenworden met een Poissonverdeling. Het probleem is dat we niet weten hoeveel mensener nietworden betrapt.(a) Leid uit de uitdrukkingen voorf(1; ) enf(2; ) een formule af om te schatten.(b) Generaliseerdezeuitdrukking,gebruikmakendvanparenf(k; )enf(k + 1; ).Welk paar (k, k + 1) zal de meest nauwkeurige schatting opleveren?(c) In onderstaande tabel staat het aantal maal dat automobilisten betrapt zijn (datauit het jaar 2000, afkomstig van vijf politieregios in Nederland).Aantal maal betrapt 0 1 2 3 4 > 4Aantal automobilisten ? 8877 481 52 8 1Wat is?(d) Hoeveel mensen reden er (naar schatting) rond met alcohol op zonder betrapt teworden?Jekuntjehierbij eengrootaantal anderetoepassingenvoorstellen, zoalshetaantalmensendat illegaal vuurwapens bezit, het schattenvanhet aantal olifantenineenbepaald gebied, het aantal woorden dat Shakespeare kende, etcetera.Vrij naar: van der Heijden, Peter G.M., Cruy, Maarten & van Houwelingen, Hans C. StatisticaNeerlandica 57 (3), 289-304.312.10. OPGAVEN32Hoofdstuk3BetrouwbaarheidsintervallenLeerdoelenNa bestudering van dit hoofdstuk moet de student in staat zijnbetrouwbaarheidsintervallen te berekenen;de betekenis van een betrouwbaarheidsinterval op correcte wijze te interpreteren.3.1 InleidingIn hoofdstuk 2 is het voorbeeld behandeld van de analist die voor een Regionale Milieu Inspec-tie25pottenpindakaasanalyseerdeophetaatoxinegehalte. Hetgehaltewerdopgegevenals het gemiddelde van die 25 metingen: het gemiddelde was de beste schatting van de warewaarde. Omdat we allerlei fouten maken (waaronder, zoals vermeld, een heel stel waar wegewoonweg niets aan kunnen doen) meten we niet exact de ware waarde en is er sprake vaneen spreiding rond het gemiddelde.Stel dat het gehalte aatoxine voor 50 of zelfs 100 potten in plaats van 25 potten wordtgemeten. Bij een groter aantal metingen zullen fouten elkaar steeds meer uitmiddelen,metals gevolg een betere benadering van de ware waarde. Wat is een voldoende aantal metin-gen? Honderdkeermetenlijktergveel. Hethangterhelemaal vanaf welkeeisenweaanhetantwoordstellen. Depindakaasisuiteenenormebulkhoeveelheidineengrootaantalpotten gedaan, maar misschien was er in de bulkhoeveelheid niet overal sprake van dezelfdeconcentratie aan aatoxine. Het heeft geen zin te proberen de concentratie nog preciezer vastte stellen dan de variatie die toch al aanwezig was. In andere situaties kan het wel van belangzijn om tot het gaatje te gaan.Hetinprincipeoneindigaantal kerendatwehaddenkunnenmetenvertegenwoordigtde populatie. De populatie is in feite de oorspronkelijke bulkhoeveelheid en wordt vertegen-woordigddooral depottendiewordengeanalyseerd. Menzegtdaneensteekproef uitdepopulatie te hebben genomen. Behalve dat het meestal onmogelijk of onrendabel is de gehelepopulatie te analyseren is het soms ook onpraktisch: wanneer het gehalte werkzame stof ineen tablet alleen kan worden vastgesteld door deze tablet op te lossen en vervolgens de analysete doen, is men gedwongen steeksproefsgewijs de kwaliteit van de tabletten te onderzoeken.333.2. NOGMAALSDENORMAALVERDELINGVoorbeeld3.1Wanneer in de landbouw veel pesticiden zijn gebruikt, zal een waterzuiv-eringsmaatschappij daar rekening mee moeten houden. In een etmaal worden verscheidenemonstersgenomenvanhetwaterdatnaardehuishoudensgaatenvervolgensgeanaly-seerd. Met het gemiddelde en de variantie van deze steekproef wil men zo goed mogelijkhet gemiddelde en de variantie van de populatie schatten om te bepalen of het drinkwatervan voldoende kwaliteit is. Het is natuurlijk onmogelijk de populatie volledig te bemon-steren. Deze bestaat namelijk uit oneindig veel potentiele monsters.3.2 NogmaalsdenormaalverdelingWanneer we een heel groot aantal van n (meestal wordt aangenomen dat n nadert tot oneindig)waarnemingen zouden hebben, dus in het geval van een populatie, kunnen we deze theoretischook in klassen indelen. Omdat we in dat geval zoveel waarnemingen hebben wordt ten eerstehet aantal klassen, kheel groot ententweededeklassebreedteheel klein(b =Rk ). Dehistogrammen in Figuur 3.1 gaan er daardoor steeds meer uitzien als een echte normaalcurve,net zoals in Figuur 2.2 de histogrammen bij meer waarnemingen steeds platter werden.n=10Frequentie4 2 0 2 40.00.51.01.52.02.53.0n=100Frequentie4 2 0 2 405101520n=1000Frequentie4 2 0 2 4050100150200Figuur 3.1: Histogrammen voor normaal verdeelde data bij steeds grotere aantallen waarne-mingen.De algemene formule van een normaalcurve is gegeven door Formule 2.15:f(x) =12e12(x)2De twee parameters en bepalen respectievelijk de positie en de breedte van de verdeling. InFiguur 3.2 is een Gauss-curve afgebeeld met = 0 en = 1. Indien de frequentieverdeling vaneen populatie de vorm van een normaalcurve aanneemt, dan zegt men dat de waarnemingennormaal verdeeld zijn. Men spreekt in dat geval van een normaalverdeling. De factor 1/2iseennormalisatiefactor,waardoorhettotaleoppervlakonderdecurvegelijkgesteldwordtaan 1:_+f(x)dx = 1Het belang hiervan zien we later in dit hoofdstuk.34HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLEN4 2 0 2 40.00.10.20.30.4xf(x)Figuur3.2: Gauss-curvemetgemiddelde=0enstandaardafwijking=1. Degroottevan de standaardafwijking is af te lezen uit de graek: dit is de helft van de breedte van denormaalverdeling op 60.7% van de maximale hoogte.3.2.1 HetschattenvanenWezijngenteresseerdindewarewaarde. Dezekunnenweechternooitexactweten,omdat we daarvoor een oneindig aantal keren zouden moeten meten. Wat we dus doen is eensteekproef nemen uit de populatie en respectievelijk x ens bepalen. Deze steekproefparame-ters zijn schatters van de populatieparameters en. Hoe groter het aantal waarnemingen,des te beter kunnen de populatieparameters geschat worden. Let op: dat wil niet zeggen datdestandaarddeviatiekleinerwordt! Vooreennormaalverdeeldepopulatiegeldtbovendiendat het geschatte gemiddelde gelijk zal zijn aan de mediaan; immers, de normaalverdeling issymmetrisch rond een centrale waarde.N.B. Indeliteratuurvindenwevoordeschattingvandepopulatieparameters envaakdesymbolen en (doorhet dakjeophet symbool voordeparameterteplaatsen geeft men aan, dat de parameter geschat wordt). In deze cursus zullen we voor deschatting van de populatieparameters echter steeds de symbolen x en s blijven gebruiken.Aangezien en onbekend zijn, vullen we in formules waarin deze symbolen voorkomendeschatters xensin. Omdezeteberekenenwordteensteekproef uitdepopulatiegenomen. Laterzal blijken, datmenonderscheidmaakttusseneenkleine(n0. Hetoppervlakboveneenbepaaldepositievegrenswaarde ug is gelijk aan het oppervlak beneden de waarde ug, omdat de normaalverdel-ingsymmetrischrondhetgemiddeldeis. Hetoppervlakbinnendegrenzen ugiscomple-mentair aan het oppervlak buiten de grenzen: P([u[ ug) = 1 P([u[ > ug).38HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLEN4 2 0 2 40.00.10.20.30.40.50.6uf(u)68 %95 %99.7%Figuur 3.6: Grenzen voor de gestandaardiseerde normaalverdelingTabellenvoorhet bepalenvandeoverschrijdingskansvoorbepaaldegrenswaarden(ofviceversa) kunnenoptweemanierenopgebouwdzijn. Teneerstekunnendekolommengevuld zijn met de overschrijdingskansen voor deu-waarden, zoals in Tabel A.1. Daarnaastkunnen de kolommen ook gevuld zijn met de u-waarden behorend bij een overschrijdingskans(Tabel A.2). Wanneer we willen weten welke grenswaarde er bij een overschrijdingskans van0.34 hoort zoeken we in de kolommen van Tabel A.1 0.34. Gaan we naar links in de kolomdanvindenwedewaarde0.9. Wemoetenechterookdetweededecimaal wetendusgaanwe ook nog eens omhoog en vinden 0.05. Oftewel, bij een overschrijdingskans van 0.34 hoortu = 0.95. Hadden we Tabel A.2 willen gebruiken dan zouden we op het kruispunt van derijwaarde 0.3 en kolomwaarde 0.04 eenu-waarde van 0.95 vinden.Voorbeeld3.3Binnen welke grenzen vallen 75 procent van de waarnemingen uit voor-beeld 3.2 ( x = 1.888 ppm ens = 0.785 ppm)?Hier is sprake van een tweezijdig betrouwbaarheidsinterval, immers er zijn twee grenzenvan belang. Willen we gebruik maken van Tabel A.2 dan moeten we het complementaireoppervlak, oftewel de overschrijdingskans aanduiden. We geven de onbekende grens evende naamug. Gevraagd is:P([u[ ug) = 0.75 =P([u[ > ug) = 1 P([u[ ug) = 0.25Uit Tabel A.2 blijktug= 1.15. De grenzen van dex-waarden kunnen we berekenen uitu = [x x[/s.Daaruit volgtx = x us.Dusx=1.888 1.150.785ppm, of, metanderewoorden, 75%vandewaarnemingenbevinden zich in het interval 0.985 x 2.791 ppm.393.2. NOGMAALSDENORMAALVERDELINGVoorbeeld3.4Wat zijndegrenzenwaarbuiten5procent vandewaarnemingenuitvoorbeeld 3.2 vallen?Dit is een tweezijdig betrouwbaarheidsinterval;nu wordt direct het oppervlak buiten detwee grenzen gegeven. P([u[ > ug) = 0.05. Uit Tabel A.2 blijktug = 1.96. Daaruit volgtx = 1.888 1.960.785ppm; oftewel,5%vandewaarnemingenbevindtzichbuitendegrenzenx< 0.349 ppm enx> 3.427 ppm (dus 2.5% voorx< 0.349 ppm en 2.5% voorx > 3.427 ppm).EenzijdigeoverschrijdingskansIn de vorige paragraaf is gesproken over het oppervlak binnen of buiten twee grenswaarden,symmetrischgelegentenopzichtevanhetgemiddelde. ZoalsinFiguur3.5tezieniszijndebeideoppervlakkenbovenenonderdetweegrenswaardenpreciesevengroot. Ditvolgtuit de symmetrie van de normaalverdeling en de gekozen grenswaarden. Met behulp van detabellen in Appendix A is dus ook eenvoudig te bepalen hoe groot de oppervlakte is boveneen bepaalde positieve grenswaarde: deze is namelijk precies de helft van wat uit Tabel A.1of A.2 wordt afgeleid. Omdat er hier slechts 1 grenswaarde in het geding is spreekt men vaneen eenzijdige overschrijdingskans.Omdat hier toch steeds een vertaalstap moet worden gemaakt (moet ik nou het dubbeleof de helft nemen?)worden behalve tweezijdige tabellen ook vaak eenzijdige tabellen gegeven.Dezetabellenkunnenopdezelfdemaniergeconstrueerdwordenalsdetweezijdigetabellen;ze zijn gegeven in Tabellen A.3 en A.4. Indien we willen weten welke eenzijdige overschrijd-ingskans hoort biju = 2.13 zoeken we in Tabel A.3 het kruispunt van de rijwaarde 2.1 en dekolomwaarde 0.03. We vinden dan een overschrijdingskans van 0.017.Voorbeeld3.5We willen weten hoeveel procent van de waarnemingen uit voorbeeld 3.2valt tussen de grenzenx1 = 1.5 ppm enx2 = 2.0 ppm (weer x = 1.888 ppm ens = 0.785ppm). Er is nu sprake van een oppervlaktebepaling tussen twee grenzen, oftewel van eentweezijdig betrouwbaarheidsinterval. We weten echter dat x = 1.888 ppm, dus het intervalwaartussen we het oppervlak willen bepalen is niet symmetrisch rond het gemiddelde. Wekunnen nu niet gebruik maken van Tabel A.2 voor een tweezijdig interval. Dit probleemwordt opgelost door het verschil te nemen tussen twee eenzijdige intervallen.Hetverschil tussenO2, P(u 0.143),enO1, P(u 0.494), is precies waarwe naar op zoek zijn:O2 O1 = P(x 2.0) P(x 1.5)= P(u 0.143) P(u 0.494)= 1 P(u > 0.143) P(u > 0.494)= 1 0.443 0.311= 0.2461 0 1 2 3 4 50.00.10.20.30.40.50.6xf(x)O1O2Het oppervlak onder de curve tussen x = 1.5 ppm en x = 2.0 ppm beslaat zon 25%. Dusde kans op het aantreen van tussen 1.5 en 2.0 ppm is 25 procent.40HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLENVoorbeeld3.6Wat is de kans op een negatieve uitschieter, indien (arbitrair) negatieveuitschieters gedenieerd worden als kleiner dan x 2s?Met andere woorden: hoe grootisdekans, dateenkwikgehaltevanminderdan1.888 20.785=0.318ppmwordtgevonden?Dit is een eenzijdig betrouwbaarheidsinterval. Er sprake van slechts 1 grenswaarde. OmindeAppendicesdegereduceerdevariabeleutevindenmoetenweeerst xomzetten:u = (0.318 1.888)/0.785 = 2.0 (dimensieloos!). Daaruit volgtP(x 0.318) =P(u 2.0), maar de integraal in Tabel A.4 is alleen getabelleerd vooru> 0. Dus maken wegebruik van P(u 2.0) = P(u 2.0) = 0.023. De kans op het vinden van een negatieveuitschieter, gedenieerd als het vinden van een kwikgehalte kleiner dan 0.318 ppm, is dusiets meer dan 2%. De vraag: hoeveel procent kans is er, om een kwikgehalte van minderdan 0.318 ppm vinden, kunnen we dus interpreteren als er is een kans van 98 procentom aan te treen in het gebiedx > 0.318 ppm.Voorbeeld3.7Voor welk kwikgehalte, groter dan het gemiddelde van x = 1.888 ppm iser een overschrijdingskans van 10%?Dan wordt gesteldP(u > ug) = 0.10. Uit Tabel A.4blijkt ug=1.28, dus(x 1.888)/0.785=1.28. Daaruitvolgt x=2.893ppm. Metanderewoorden: 10%vanhetoppervlakonderhetrechterdeelvandecurvebeslaatdekwikgehaltes boven 2.893 ppm. Weer anders gezegd, er is een kans van 90 procent omaan te treen in het gebiedx < 2.893 ppm.3.3 BetrouwbaarheidsintervallenDespreidingrondeencentralewaardekanwordenbeschrevenmeteenstandaarddeviatie,maardeinterpretatiehiervanisnietaltijdeenvoudig, ensomszelfsmisleidend. Eenmeerintutievemanier omdespreidingronddecentralewaardetebeschrijvenishet betrouw-baarheidsinterval. Eriseenbepaaldekans,deoverschrijdingskans,datzichnietinhetberekende interval bevindt. Wanneer men een risico () van 5% wil accepteren, stelt men een(100 )%,inditgeval95%betrouwbaarheidsintervalop. Wilmenminderkanslopendeware waarde te missen (informeel voor: ligt niet binnen het betrouwbaarheidsinterval),watovereenkomtmeteenkleinere, danzalhetintervalbrederworden. Bij =0ishetinterval van , ). De breedte van het betrouwbaarheidsinterval is bovendien afhankelijkvandeprecisie: wanneerdespreidingindeindividuelewaardenkleinis, danzal het95%betrouwbaarheidsinterval kleiner zijn dan wanneer de spreiding groot is.N.B. Inprincipezijneroneindigveel intervallentebedenkendie(bijvoorbeeld)95%van de oppervlakken onder een normaalcurve bevatten. Het betrouwbaarheidsintervalis het kleinste van al die intervallen. Het is eenvoudig aan te tonen dat dit interval vooreen symmetrische verdeling zoals een normaalverdeling oft-verdeling exact symmetrischligt ten opzichte van het gemiddelde.3.3.1 BetrouwbaarheidsintervallenvoorindividuelemetingenEenzijdige en tweezijdige overschrijdingskansen zijn relatief eenvoudig uit te rekenen; dit leidtdanookdirectnaardedenitievanbetrouwbaarheidsintervallen. Neemalsvoorbeeldeenindustrieel proces, waarbij ieder uur een meting aan het product wordt verricht. De kwaliteit413.3. BETROUWBAARHEIDSINTERVALLENvan het product moet constant zijn, en omdat er in het verleden al duizenden metingen zijnverricht weten we vrij precies welke spreiding normaliter aangetroen wordt. Het (tweezijdige)interval is dan uDecentralewaardewordt aangegevendoor , terwijl dematevanspreidingaangeeft.Wekunnenhiermeeaangevenbinnenwelkinterval 95%vandewaarnemingenzal vallen.Dat impliceert een overschrijdingskans = 0.05,oftewel u = 1.96 (opzoeken in Tabel A.2).Daaruitvolgt, datereenkansvan95%bestaatdateenvolgendewaarnemingbinnendegrenzen 1.96 zal vallen.Het betrouwbaarheidsinterval in de vorige paragraaf is gebaseerd op zeer goed bekende ofbekend veronderstelde schattingen voor de centrale waarde en de standaardafwijking (vandaarookdegebruiktesymbolenen). Dit gaat slechtsineenbeperkt aantal gevallenop.Soms zijn er, zoals in het voorbeeld, erg veel gegevens uit het verleden bekend; soms zijn ertheoretische redenen waarom een bepaalde waarde genomen wordt. Meestal echter schattenwe de populatieparameters en met de steekproefparameters x ens.Bij een kleine steekproef (n < 30) kan de gereduceerde variabele u niet meer gebruikt wor-den. In plaats daarvan moet men overgaan op de gereduceerde variabele t. In Appendix A ist getabelleerd (eenzijdig zowel als tweezijdig) voorn 1 vrijheidsgraden en een overschrijd-ingskans . Voor kleine steekproeven wordt het betrouwbaarheidsinterval voor een individuelemeting dus:x = x tdfsVoorbeeld3.8Een ander voorbeeld van het hier behandelde betrouwbaarheidsintervalis de bepaling van het alcoholpercentage in het bloed. Op een bepaald laboratorium, dathiervooreenspeciekemethodegebruikt, isditeendermatevaaktoegepastebepaling,datmenopbasisvanmetingenuithetverledenmagstellen=0.006%. Menkrijgteen monster bloed van een mogelijk dronken automobilist en vindt 0.089% ethanol in hetbloed. Het95%betrouwbaarheidsinterval vooropbasisvandieenkelemetingendebekend veronderstelde wordt dan bepaald aan de hand van de volgende gegevens :x = 0.089% = 0.006%u = 1.96 (tweezijdig)Dus0.089 1.960.006 0.089 + 1.960.006; oftewel, =0.089 0.012%. Weinterpreteren dit als volgt: de kans is 95 procent dat de werkelijke concentratie alcohol inhet bloed van de automobilist zich bevindt in het interval begrensd doorx1 = 0.077% enx2 = 0.101%.3.3.2 BetrouwbaarheidsintervalvaneengemiddeldeIntutief voelen we aan dat een gemiddelde nauwkeuriger is dan een individuele meting. Ditvertaaltzichnatuurlijkinminderbredebetrouwbaarheidsintervallen. Nogsteedsishetzodat de breedte van het betrouwbaarheidsinterval afhangt van de spreiding in de individuelemetingen (s), maar we verwachten dat bij een groot aantal metingen een uitmiddeling plaatsvindt. Het is eenvoudigaantetonendat destandaardafwijkingvaneengemiddelde(in42HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLEN4 2 0 2 40.00.10.20.30.40.50.60.7xf(x) ss nFiguur 3.7: Normaal verdeelde populatie (doorgetrokken lijn). De gestreepte curve geeft deverdeling aan van de gemiddelden van groepen vann = 3 waarnemingen. Deze is smaller, enomdat de oppervlakte onder deze curve ook is genormaliseerd tot 1, is de maximale y-waardegroter.hetEngels: StandardErroroftheMean, SEM)gelijkisaandestandaardafwijkingvandeindividuele metingen, gedeeld door de wortel uit het aantal replicaten:SEM= s/nDitisgellustreerdinFiguur3.7. Dedoorgetrokkenlijnsymboliseertdeverdelingvanindividuele metingen. Wanneer we de metingen groeperen in clusters van 3 metingen, en weplotten de verdeling van de gemiddelden, verkrijgen we de gestreepte lijn. Dit is nog steedseenGausscurve, maareendieduidelijksmalleris: inditgeval scheeltheteenfactor 3.Merk op dat de plaats van de curve niet verandert: het gemiddelde zelf blijft gelijk.Om nu een betrouwbaarheidsinterval voor een gemiddelde te bepalen, gebruiken we weerde gewone formule, waarbij we weer u gebruiken wanneer er een groot aantal metingen gedaanis, ent wanneer het aantal metingen kleiner is dan 30: x usn x +usn(3.5)Weschattendeonbekendemethetgemiddelde xvaneensteekproefvannmetingenuitde populatie. Het betrouwbaarheidsinterval geeft de (on)zekerheid in deze schatting, immershet interval wordt gegevenvoor (100- )%waarschijnlijkheidof betrouwbaarheid. Heelbelangrijk is de invloed vann in de SEM. Dit wordt duidelijk in het volgende voorbeeld.Voorbeeld3.9Vooreentitratiewordtopgegevendat10.10 0.10ml istoegevoegd.Stel, dat 0.10ml het95%betrouwbaarheidsinterval vanhetgemiddeldevertegenwo-ordigt. Het gemiddelde x = 10.10 ml is een schatting voor. Het betrouwbaarheidsin-terval geeft in dit geval aan dat er een waarschijnlijkheid van 95% is te vinden tussen10.00 en 10.20 ml. Men is hier echter niet tevreden mee en wil het betrouwbaarheidsin-terval smaller hebben, bijvoorbeeld 0.05 ml. De schatting s van de populatieparameter433.3. BETROUWBAARHEIDSINTERVALLENbeschouwenwealseenconstante. DemogelijkheidomdeSEM, endushetbetrouw-baarheidsinterval, smaller te maken is meer metingen te doen, dusn groter maken. Ho-eveel metingen zijn hiervoor nodig?In dit geval geldt:1.96s/n = 0.101.96s/n

= 0.05waaruit volgt: n

= 4n.Let op! De standaarddeviatie wordt niet per denitie kleiner wanneer meer waarnemingenworden gedaan. Ook al wordt het betrouwbaarheidsinterval vanhetgemiddelde meestalkleinerbijeengroteraantal waarnemingen, hetkangoedzijndathetbetrouwbaarhei-dsinterval voor een individuele waarneming gelijk blijft of zelfs groter wordt.Uitbovenstaandvoorbeeldblijkt,datdebreedtevanhetbetrouwbaarheidsintervalvanhetgemiddelde omgekeerd evenredig is met de wortel van het aantal waarnemingen. Dat houdtin dat voor een kleine verandering in de breedte van het interval relatief veel extra metingenmoeten worden verricht. Men moet zich dan ook goed realiseren of dat extra werk de moeitewaard is. In veel gevallen zal dan ook een compromis gevonden worden tussen het nut vaneen smaller interval en de daarvoor benodigde hoeveelheid extra metingen.Voorbeeld3.10We bekijken nog een keer de data uit voorbeeld 3.2. Wat is het 50% enhet 95% betrouwbaarheidsinterval voor de verwachte waarde van een volgende kabeljauw?Uiteraard is de beste schatting voor de verwachte waarde gelijk aan het gemiddelde van detot nu toe geanalyseerde vissen, x. De spreiding rond deze waarde bestaat uit een aantalcomponenten. Allereerst is er het verschil tussen individuele vissen;daarnaast is er nogde spreiding in de gehaltes gevonden in een enkele vis. Als we aannemen dat de laatsteveel kleiner is dan de eerste, dan kunnen we als standaard deviatie het best de standaarddeviatie tussen de acht gemiddeldes van de afzonderlijke vissen nemen. Dit iss = 0.903.Voor = 0.5en = 0.05vindenwe(TabelA.5)respectievelijkt0.57= 0.711ent0.057=2.365. We moeten hiert gebruiken, omdat het aantal vrijheidsgraden,n 1 = 7, kleineris dan 30. Daaruit volgt: = 0.5 : x = 1.888 0.7110.903 = 1.9 0.64 ppm = 0.05 : x = 1.888 2.3650.903 = 2 2.1 ppmHetlaatsteintervalisnatuurlijkbehoorlijkgroot, maartochinformatief. Zowetenwebijvoorbeeld dat een kabeljauw met een kwikgehalte van 10 ppm onwaarschijnlijk is.Voorbeeld3.11Watishet95%betrouwbaarheidsinterval voordeverwachtewaardevan de gemiddelde kabeljauw uit voorbeeld 3.2?We gebruiken weer dezelfde waarde voor de standaarddeviatie, s = 0.903 ppm, maar nunemenwemeedatweeenbetrouwbaarheidsinterval vooreengemiddeldezoeken. Wedelen de standaarddeviatie dus door de wortel uit het aantal waarnemingen, hier 8. Dus: = 0.05 : x = 1.888 2.3650.903/8 = 1.9 0.76 ppmDuidelijkisweerteziendateenbetrouwbaarheidsinterval vooreengemiddelde(veel)smaller is dan een betrouwbaarheidsinterval voor een individuele meting.44HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLENVoorbeeld3.12Wat is het 95% betrouwbaarheidsinterval voor het gemiddelde van deeerste vis uit voorbeeld 3.2?De verschillen tussen de vissen zijn hier niet relevant, het gaat om de verschillen tussenreplicate metingen op een enkele vis. De standaard deviatie uit de vorige vraag kunnenwe dus niet gebruiken. Een optie is om de standaard deviatie van de metingen van vis 1 tegebruiken: s = 0.1005, bij 4 vrijheidsgraden. De bijbehorendet-waarde ist0.054= 2.776.Dit levert een betrouwbaarheidsinterval op van = 0.05 : = 1.670 2.7760.1005/5 = 1.7 0.13 ppmEen andere optie is gebruik te maken van de gepoolde standaardafwijking. Dit mag alswebereidzijnaantenemendatdespreidingvooralleindividuelevissengelijkis. Inhoofdstuk 4 zullen we aantonen,dat de varianties in dit voorbeeld inderdaad homogeenzijn,zodat het poolen toegestaan is. Daaruit volgt dan de gepoolde standaardafwijkingals schatting van:s2pooled =(5 1)0.0101 + (4 1)0.0038 +... + (7 1)0.0142(5 1) + (4 1) +... + (7 1)= 0.0103dusspooled = 0.1015 0.10 ppm.Het aantal vrijheidsgraden is nu gelijk aan (5 1) +(4 1) +... +(7 1) = 31, wat leidttott0.0531= 2.040: = 0.05 : = 1.670 2.0400.1015/5 = 1.7 0.093 ppmDoor het grotere aantal vrijheidsgraden is het betrouwbaarheidsinterval iets smaller gewor-den, zelfs bij een iets grotere standaard deviatie! De verschillen zijn echter klein.Voorbeeld3.13Eenscholengemeenschapligt aaneendrukke verkeersweg. MenisgenteresseerdindeconcentratiePb2+inhetbloedvandeschoolgaandejeugdopdezescholengemeenschap. Men kiest willekeurig 50 pupillen, waarvan men een monster bloedneemt(eensteekproef metn=50). Ditleverteengemiddeldeconcentratievan10.12ng/ml Pb2+eneenstandaardafwijkingvan0.64ng/ml. Watisnuhet95%betrouw-baarheidsinterval voor de gemiddelde Pb2+concentratie in het bloed van alle kinderen opde scholengemeenschap (merk op, dat de populatie hier vertegenwoordigd wordt door alleleerlingen van de scholengemeenschap)?Voor = 0.05 enn = 50 geldtu = 1.96 (tweezijdig). Het betrouwbaarheidsinterval voor wordt dan:10.12 1.96 0.6450 10.12 + 1.96 0.6450Dit levert = 10.12 0.18 ng/ml.Stel dat men de breedte van het betrouwbaarheidsinterval wil verlagen naar bijvoorbeeld 0.10 ng/ml. Hoe groot zal men dan de steekproef moeten kiezen?1.96 0.64n= 0.10Daaruit volgt dat de steekproefgrootte dan 157 moet zijn. Hierbij nemen we wel aan datbij een grotere steekproef de waarde van de standaarddeviatie niet verandert.453.3. BETROUWBAARHEIDSINTERVALLEN3.3.3 BetrouwbaarheidsintervallenendesystematischefoutWehebbenalgeziendatdetoevalligefoutinhetbetrouwbaarheidsintervalbeschrevenkanworden door de standaardafwijking. Het is mogelijk met behulp van een betrouwbaarheidsin-tervaleenindicatietekrijgenvoorhetaanwezigzijnvaneensystematischeafwijking. Eensystematischefoutwerktimmersineenbepaalderichtingenveroorzaakteenslechterebe-nadering van de ware waarde (afnemende nauwkeurigheid). Wanneer deze ware waardeniet in een 95% betrouwbaarheidsinterval ligt van een aantal metingen, is het waarschijnlijkdatereensystematischefoutisopgetreden. Eenanderebenaderingomeensystematischefout te ontdekken wordt gegeven in hoofdstuk 4 over hypothesetoetsen.Voorbeeld3.14Menheeftdebeschikkingovereen0.10MoplossingHCl en0.10MNaOHoplossing. Vijf maal voertmeneentitratievan10.00ml NaOHmetdezuur-oplossinguit. Detoegevoegdehoeveelhedenzijn9.88, 10.18, 10.23, 10.39en10.25ml.Daaruitvolgt x=10.19ml ens=0.19ml. Watishet95%betrouwbaarheidsintervalvan het gemiddelde? Omdatn = 5 moeten wet gebruiken. Voor = 5% enn 1 = 4vrijheidsgraden geldtt = 2.78.10.19 2.78 0.195 10.19 + 2.78 0.195Ditlevert=10.19 0.23ml. Wordthiernueensystematischefoutgemaakt? Nietaantoonbaar, want theoretisch zou er 10.00 ml zuur-oplossing moeten worden toegevoegd.Dus = 10.00 ml. Deze waarde ligt in het betrouwbaarheidsinterval.3.3.4 DeinterpretatievaneenbetrouwbaarheidsintervalEen voor de hand liggende interpretatie van (bijvoorbeeld) een 95% betrouwbaarheidsinter-val is dat er een kans is van 95 procent dat de ware waarde in dit interval ligt. Alhoewelweditspraakgebruikinditdictaatookhebbengehanteerd, ishetstriktgenomennietcor-rect. Aangezienvastligt(enalleenonbekendis),ligtofwelbinnenhetinterval,ofniet.Hoezokans? Hetenigeelementdatonderhevigisaanhettoeval zijndegemetendataxi,waarophetintervalisgebaseerd. Watweeigenlijkbedoelenmeteen95%betrouwbaarhei-dsinterval ishetvolgende: wanneerweonzeprocedureheel vaaktoepassen(duseensetximeten, hetgemiddeldeberekenenenopgrondvandegevondenstandaardafwijkingeenbetrouwbaarheidsintervalbepalen),danzalin95procentvandegevallenhetgevondenbe-trouwbaarheidsinterval de ware waarde bevatten. In de praktijk wordt dit onderscheid vaakniet gemaakt.Dezemaniervanhetinterpreterenvanbetrouwbaarheidsintervallenwordtwel defre-quentistische benadering genoemd. Voor velen blijft het een gekunstelde interpretatie, en inde statistiek heeft er lange tijd een strijd bestaan (en bestaat tot op zekere hoogte nog steeds)tussendefrequentistenendeBayesianen. DelaatstendankenhunnaamaandeEngelsedominee Thomas Bayes (17021761). Het is hier niet de plaats om al te diep in te gaan op deideeen achter bayesiaanse statistiek: een van de meest drastische verschillen met de frequen-tistische benadering is dat het mogelijk wordt om andere informatie dan alleen meetgegevensmeetenemen. Zokaneenhypothese(ziehetvolgendehoofdstuk)waarinveelvertrouwenbestaat in de bayesiaanse aanpak pas verworpen worden als er erg veel bewijs tegen is gevon-den. Uiteraardkandezeaanpakleidentotsubjectieveresultaten... Eenleesbaaroverzichtkan worden gevonden in ref. [5].46HOOFDSTUK3. BETROUWBAARHEIDSINTERVALLEN3.4 Opgaven1. De gemiddelde lengte van mensen in de gendustrialiseerde wereld is tijdens de afgelopen150 jaar met 10 tot 15 centimeter toegenomen. Momenteel meet de gemiddelde Amerikaanseman 177.5 cm. Dit is kleiner dan de gemiddelde Nederlander, die 182.5 cm lang is. Hi-eronder wordt de lichaamslengte van 251 volwassen en volgroeide mannen uit de staatUtah weergegeven in een histogram en een Q-Q plot.Frequentie160 170 180 190 20001020304050603 2 1 0 1 2 3165170175180185190195Theoretische kwantielenSample kwantielen(a) Zijn de meetresultaten normaal verdeeld?(b) Neem aan dat de gegevens normaal verdeeld zijn. De schatting van de gemiddeldelengte van een man uit Utah is 178.6 cm en de geschatte standaarddeviatie is 6.6cm. Bereken het 95% betrouwbaarheidsinterval van het gemiddelde.(c) Hoeveel extrametingenmoetDr. Fishernogverrichtenwanneerhijdebreedtevan het gehele betrouwbaarheidsinterval met 1.2 cm wil verlagen?(d) Hoe groot is de kans dat een willekeurig gemeten Amerikaan uit Utah groter is dande gemiddelde Nederlandse man?2. Eennieuwespectroscopischemethodevoordebepalingvanmetalenineenlegeringwordt getest opeenmonster met bekendesamenstelling. Het gemiddeldevanvierreplicate metingen en de standaardafwijking met de nieuwe methode is weergegeven inonderstaandetabel. Bepaal ofeensystematischefoutaantoonbaarisbijdebepalingvan:(a) Ni: = 0.10, = 0.05en = 0.01(b) Pb: = 0.05(c) Sb: = 0.01Ni Pb SbBekend gehalte 0.0520 0.106 0.018 x nieuwe methode 0.0530 0.103 0.017s nieuwe methode 0.0007 0.012 0.0203. In paragraaf 2.3.4 wordt gesteld dat MAD/0.6745 een robuuste schatting van de stan-daardafwijkingis. Hoeveelprocentvanhetoppervlakvandegestandaardiseerdenor-maalverdeling ligt links van 0.6745?Vind je dit een logisch antwoord, gezien de denitievan de MAD?4. Tentamen 7 november 2007 (pagina 151): opgave 1(a).473.4. OPGAVEN48Hoofdstuk4ParametrischeHypothesetoetsenLeerdoelenNa bestudering van dit hoofdstuk moet de student in staat zijnde algemene werkwijze bij het toetsen van hypothesen toe te passen;de goede (parametrische) hypothesetoets te selecteren in een gegeven situatie;de resultaten van een hypothesetoets op correcte wijze te interpreteren.4.1 InleidingInvoorbeeld2.9titreerdeneenaantal studentenNaOHmet HCl. Indat voorbeeldwasbekendhoeveel HCl destudententheoretischhaddenmoetentoevoegen. Tochwasereenverschil tussendietheoretischehoeveelheidendehoeveelheid, dieiederestudentafzonder-lijktoevoegde. Ookonderlingwarenderesultatenvandestudentenverschillend. Invoor-beeld 3.13 werd op een scholengemeenschap het gemiddelde gehalte lood in het bloed van deschoolgaande jeugd bepaald. Men zou dit gemiddelde kunnen vergelijken met een maximaalaanvaardbaar gehalte. Ook zou men het gemiddelde van deze school kunnen vergelijken methet gemiddelde van een andere school.In bovenstaande gevallen werd steeds een verschil in waarden geconstateerd. Het is belan-grijk de signicantie van dit verschil te onderzoeken. Met andere woorden: is er een statistischaantoonbaar verschil, en zo ja, wat zijn de onderliggende oorzaken? Let wel, een statistischaantoonbaarverschilisoptesporenmetbehulpvanstatistiek, voorhetherkennenvandeonderliggende oorzaak echter is kennis van het betreende vakgebied nodig, in ons geval dusde chemie. In dit hoofdstuk zullen we de zogenaamde signicantie- of hypothesetoetsen be-handelen om de signicantie van een verschil in uitkomsten te bepalen. Een signicantietoetskangebruiktwordenomeenvergelijkingtemakentussenbijvoorbeeldeenexperimenteelgemiddeldeeneenreferentiewaarde, tweeof meerexperimenteel bepaaldegemiddelden, oftwee varianties. Wanneer een gemiddelde niet bijzonder informatief is (bijvoorbeeld bij niet-normaal verdeelde data) kunnen ook andere karakteristieken van een serie gegevens, zoals eenmediaan worden getoetst. Bovendien zal een toets worden besproken die het mogelijk maaktte beslissen of een reeks waarnemingen van een bepaalde verdeling (vaak de normaalverdel-ing) afkomstig zijn, en een toets om uitbijters (losse waarnemingen die niet met de overigewaarnemingen overeenkomen) te detecteren.494.2. ALGEMENEWERKWIJZEBIJHYPOTHESETOETSENWe onderscheiden twee soorten hypothesetoetsen: parametrische toetsen, gebaseerd op deaannamedatdewaarnemingennormaal verdeeldzijn, enniet-parametrischetoetsenwaar-bijdezeaannamenietgemaaktwordt. Aangezieninveelgevallen(zoalseerdergezien)ex-perimentele resultaten aan een normaalverdeling voldoen,worden meestal de parametrischetoetsengebruikt. Indiegevallenwaarbij eenandereverdelingwordtaangetroenkunnendeze toetsen echter verkeerde antwoorden geven. Niet-parametrische toetsen zijn in principealtijdtoepasbaar. Deredendatwezenietaltijdgebruikenisdatparametrischetoetsen,juist door die aanname van normaal verdeelde data, in gevallen waarin de aanname gerecht-vaardigd is veel krachtiger zijn. We zullen straks zien wat met het begrip power van een toetsbedoeld wordt. Het is soms mogelijk te proberen door een transformatie (logaritme,worteletcetera)niet-normaalverdeeldedatatoteennormaalverdelingterugtebrengenzodateenparametrische toets uitgevoerd kan worden. Als dat niet kan, moet gekozen worden voor eenniet-parametrische toets.4.2 AlgemenewerkwijzebijhypothesetoetsenIn de inleiding zijn een aantal gevallen gegeven waarin men een hypothesetoets kan gebruiken.Eenopsommingvanhypothesetoetsendieopdezegevallenbetrekkinghebben, zalgegevenworden in de volgende paragrafen. Voorelkvandezetoetsenisdewerkwijzehetzelfde. Wezullendezewerkwijzeuitgebreidbehandelenaandehandvaneenhypothesetoetsvoorhetvergelijken van experimentele gemiddelden. De vraag is of ze verschillend zijn, met inachtne-ming van de spreiding rond beide gemiddelden. Het algemene schema voor het opstellen vaneen hypothesetoets ziet er als volgt uit:1. Stel de nulhypothese H0 op. Men test altijd of een geconstateerd verschil signicant is ofniet. Afhankelijk van het probleem betreft dit een verschil tussen twee gemiddelden, eenverhouding tussen varianties etcetera. De nulhypothese, die uitgaat van geen signicantverschil wordtgetoetst. AlstegenhangervandenulhypothesewordtdealternatievehypotheseH1 opgezet. Deze gaat uit van een signicant verschil.2. Kies het signicantieniveau . Men wil aan de conclusie die men uiteindelijk zal trekkenimmers een signicantie, een betrouwbaarheid toekennen.3. Selecteer de hypothesetoets die gebruikt gaat worden. Deze is afhankelijkvandetoepassing.4. Bereken de waarde van de toetsingsgrootheid.5. Vergelijk de berekende waarde van de toetsingsgrootheid met een getabelleerde waarde,ook wel kritische waarde genoemd.6. Trek aan de hand van bovenstaande handelingen de conclusie of de nulhypothese ver-worpen moet worden of niet.Dit schema zullen we uitwerken aan de hand van voorbeeld 3.13. Daarin bepaalde men hetgemiddelde loodgehalte in het bloed van een groep schoolkinderen. De school was gesitueerdlangs een drukke weg waarover veel verkeer reed. De schoolleiding had het vermoeden dat dekinderen op deze school daardoor wel eens een signicant hoger gehalte lood in het bloed konhebben dan andere kinderen. Van 50 kinderen op de school werd het loodgehalte in het bloed50HOOFDSTUK4. PARAMETRISCHEHYPOTHESETOETSENbepaald. Voor deze steekproef werd een gemiddeld loodgehalte gevonden x2= 10.12 ng/mlmet standaardafwijkings2 = 0.64 ng/ml. Daarna werden 50 kinderen die niet op de bewusteschool zatengeselecteerd. Dezegroepnoemenwedereferentiegroep. Ookvanhenwerdhet loodgehalte in het bloed bepaald. Voor deze steekproef werd een gemiddeld loodgehaltegevonden x1=10.00ng/ml metstandaardafwijkings1=0.51ng/ml. Wegebruikennueen hypothesetoets voor het vergelijken van twee experimenteel bepaalde gemiddelden om teonderzoeken of er een signicant verschil is tussen de twee groepen.Loodgehalte (pg/ml)7 8 9 10 11 12 13Figuur 4.1: De (gedealiseerde) verdelingen van het loodgehalte van de referentiegroep en degroep schoolkinderen.SteldenulhypotheseH0op.De schoolleiding wil testen of het gemiddelde2signicant hoger is dan het gemiddelde1.Om deze signicantietoets te kunnen doen wor