3. Statistiek in 4 havo/vwo

18
Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14 Statistiek in 4 HAVO/VWO

Transcript of 3. Statistiek in 4 havo/vwo

Page 1: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

Statistiek  in  4  HAVO/VWO      

Page 2: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

2

 

Page 3: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

3

Inhoudsopgave      Achtergrondinformatie  .......................................................................................................................    4    Voor  de  docent  ...................................................................................................................................    5    Les  1:  Een  inleiding  over  zin  en  onzin  van  statistiek  ...........................................................................    6    Les  2:  Gemiddelde,  standaardafwijking  en  betrouwbaarheidsinterval  met  Excel  .............................    8    Keuzeactiviteit  1  (havo)  ......................................................................................................................  12    Keuzeactiviteit  2  (vwo)  .......................................................................................................................  14    Keuzeactiviteit  3  (vwo)  .......................................................................................................................  15              

Page 4: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

4

Achtergrondinformatie:  

Auteurs:  Jorn  van  Hout;  e-­‐mail:  j.vanhout@rombouts-­‐lvo.nl    Henk  Stip;  e-­‐mail:  SPH@kwc-­‐culemborg.nl  Gerrie  Stuurman;  e-­‐mail:  [email protected]  

Waaruit  bestaat  het  materiaal?  Het  materiaal  bevat  een  lessenserie  statistiek  voor  4  HAVO/VWO.  De  intentie  is  het  redeneren,  het  concept-­‐begrip,  meer  nadruk  te  geven.    Zie  ook  de  volgende  bladzijden.  

Wat  was  de  aanleiding  om  dit  te  ontwerpen?  Juist   de   nadruk   op   "rekenen",   op   procedures,   die   normaal   bij   statistiek   gelegd   wordt,   was   de  aanleiding  om  deze  lessenserie  op  te  zetten.  

Wat  zijn  de  aanbevelingen  voor  verdere  ontwerpen?  Dit  materiaal  verder  uitwerken  tot  samenhangend  leerlingmateriaal  is  in  ieder  geval  een  aanbeveling  van  het  auteursteam.    

Page 5: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

5

Voor  de  docent    De   voorliggende   lessen   statistiek   zijn   bedoeld   voor   havo4/vwo4.   Deze   lessenserie   gaat   over   het  kritisch  lezen  en  beoordelen  van  aangereikte  informatie  en  over  het  wiskundig  onderbouwd  aangeven  van   de   betrouwbaarheid   van   eigen   meetresultaten.   Aan   de   orde   komen   het   berekenen   en   de  betekenis  van  de  standaarddeviatie,  correlatie  (VWO)  en  (als  extra  activiteit)  capture-­‐mark-­‐recapture.  Het   is   niet   zozeer   de   bedoeling   dat   de   leerlingen   veel   aan   het   rekenen   zijn,  maar  meer   dat   zij   een  goede  basis  ontwikkelen  voor  het  begrijpen  van  statistische  gegevens  en  het  kritisch  beoordelen  van  statistische  beweringen.    Computer  In  alle  drie  (of  vier)  lessen  is  het  gebruik  van  een  computer  met  internetverbinding  door  de  leerlingen  noodzakelijk.      Excel/VuStat  Het  rekenwerk   in  deze   lessenserie  wordt   in  eerste   instantie  met  Excel   (2010)  gedaan.   In  2e   instantie  wordt  ook  met  het  programma  VuStat  (laatste  versie)  gewerkt.    Eén   van   de   doelstellingen   van   deze   lessenserie   is   dat   de   leerlingen   zich   basale   vaardigheden   eigen  maken  die  voor  het  werken  met  deze  programma’s  nodig  zijn.    We  hopen  dat  de  leerlingen  met  plezier  aan  deze  lessenserie  zullen  werken.    Als  inleiding  op  de  lessen  zou  je  de  volgende  materialen  kunnen  gebruiken:  -­‐  Sheets  (powerpoint)  vanaf:  “Meer  Valkuilen”  (presentatie  van  Erik  van  Zwet  NVvW  dag  2013)  -­‐  Dat  kan  geen  toeval  zijn  -­‐  Wisebit  103  -­‐  Kan  je  tussen  elk  willekeurig  gebeurtenis  een  verband  zien?        http://www.wetenschap24.nl/programmas/wisebits/afleveringen/2009/dat-­‐kan-­‐geen-­‐toeval-­‐zijn-­‐wisebit-­‐103.html  (www.wisebits.academy.nl)  -­‐  Toepassing  van  Statistiek  “Hoe  worden  we  wereldkampioen?”          www.uitzendinggemist.nl/afleveringen/1373502   (Min.  8:30-­‐14:50)  -­‐  Voorbeeld  van  bedrijf  dat  werkt  met  toepassen  statistiek:  Ortec    http://www.ortec.nl/media/files/articles/nederlands/leo_van_hal_analyse_van_a_league_dames_2007_15_okt_2008.pdf      Bronvermelding:    Een   (groot)  deel   van  de   tekst   is   afkomstig  uit  de  module  Twijfel   en   Zekerheid   die   is   geschreven  en  ontwikkeld  ten  behoeve  van  het  bèta  excellent  programma  voor  leerlingen  uit  klas  5  VWO    De  auteur  van  de  module  Twijfel  en  Zekerheid    is  Rob  van  ’t  Land,  docent  scheikunde  en  NL&T  aan  de  Werkplaats  Kindergemeenschap  te  Bilthoven.          

Page 6: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

6

 

Les  1:  Een  inleiding  over  zin  en  onzin  van  statistiek.  

Betrouwbaarheid  van  informatie    

Ken  je  die  reclames  waarin  geschermd  wordt  met  hoge  percentages?  Zo  van  “80  %  van  de  dames  die  reageerden   op   een   enquête   in   een   bepaald   damesblad   X   vonden   dat   antirimpelcrème   Y   tot   een  vermindering  van  het  aantal  rimpels  leidde”.  Dat  is  toch  mooi,  zou  je  zeggen,  bij  gebruik  van  dit  middel  heb  je  dus  80  %  kans  op  minder  rimpels.  En  natuurlijk  moet  het  wel  iets  goeds  zijn,  want  deze  crème  is  de  enige  waar  ook  nog  zwitsodyne  in  zit!!!  Natuurlijk  zoek  je  onmiddellijk  op  internet  naar  zwitsodyne:  niets  over  de  samenstelling  te  vinden.  En  hoe   zit  het  met  die  80  %  positieve   reacties?  Hebben  er  vijfduizend  dames  gereageerd  of   zijn  het  er  misschien  maar   vijf?  Wat   zou   de   uitkomst   van   de   enquête   zijn   geweest   als   er   vijf   anderen   hadden  gereageerd?  Het  ligt  voor  de  hand  dat  niet  alle  Nederlandse  vrouwen  zijn  ondervraagd  of  alle  vrouwen  ter  wereld.  Er  is   in  het  beste  geval  onderzoek  gedaan  aan  de  hand  van  een  steekproef  (in  plaats  van  een  populatieonderzoek   aan  de   gehele   populatie).  De  betrouwbaarheid   van   een   steekproef   is   sterk  afhankelijk  van  de  grootte  van  de  steekproef.      Daarnaast  is  niet  duidelijk  welke  criteria  zijn  gebruikt  bij  deze  enquête.    Zijn  er  rimpeltjes  geteld,  is  er  naar  diepte  van  rimpels  gekeken,  is  het  een  gevoelsmatig  oordeel,  mogelijk  aangestuurd  door  de  hoop  dat  het  middel  werkt?  Is  er  een  placebo  onderzoek  verricht?  En  is  deze  informatie  overdraagbaar  naar  alle   Nederlandse,   Europese,   etc.   vrouwen   of   heeft   de   uitslag   ook   te   maken   met   het   feit   dat   alle  deelneemsters  een  abonnement  hebben  op  dit  specifieke  blad  X?    

 

Opdracht  1  Zoek  zelf  één  reclame  waarbij  je  kritische  noten  plaatst  bij  in  de  reclame  veronderstelde  resultaten.  

 Nu  komt  het   in  de  reclamewereld  natuurlijk  voor  (de  goede  niet  te  na  gesproken)  dat  men  probeert  iets  aan  de  man  of   vrouw   te  brengen  door  het  beter,  mooier,   goedkoper  voor   te   stellen  dan  het   in  werkelijkheid   is.   Maar   er   zijn   ook   talloze   volstrekt   serieuze   publicaties   waarin   niet   alle   informatie  aanwezig  is  om  tot  een  absolute  interpretatie  te  komen.  Dat  gebeurt  soms  per  ongeluk,  soms  in  een  behoefte  tot  vereenvoudiging  voor  de  lezer,  etc.    

   Voorbeeld  bij  opdracht  1:  Coca  Cola  Light  maakt  dik!    Coca   Cola   Light   is   uitgevonden   in   1982   en,   zoals   te   zien   is   in   onderstaand   plaatje,   is   sindsdien   het  overgewicht-­‐probleem  alleen  maar  toegenomen!    

         

Page 7: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

7

Opdracht  2  Zoek   in   het   nieuws   (TV,   krant   en   andere  media)   een   stukje   op  waarin   een   causaal   (oorzaak-­‐gevolg)  verband  wordt  gesuggereerd,   terwijl  uit  het  verhaal  duidelijk  blijkt  dan  er  geen  data   (gegevens)   zijn  waarmee   het   causale   verband  wordt   ondersteund.   Of   zoals   bij   het   bovenstaande  waar   er   wel   een  verband  is,  maar  geen  causaal  verband.  

   Opdracht  3    Ga  naar:  http://www.drstat.net/nl/pages/01-­‐meten_en_schalen      Je  hoeft  hiervoor  niet  in  te  loggen,  omdat  deze  eerste  les  gratis  is  (freeware)  Je  leest  en  maakt  de  1e  les.    Zorg  dat  je  tijdens  het  bestuderen  van  deze  les  aantekeningen  maakt  (samenvatting).  Op  de  toets  over  statistiek  zullen  enkele  vragen  worden  gesteld  over  deze  stof.  Dit  is  tevens  de  laatste  opdracht  van  de  1e  les.  Alles  wat  je  deze  les  niet  af  krijgt,  is  huiswerk  voor  de  volgende  les.  

Page 8: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

8

Les  2:  Gemiddelde,  standaardafwijking  en    betrouwbaarheidsinterval  (met  excel)  

Een  bekende  uitdrukking  is  “meten  is  weten”.  Maar  wat  is  meten?  Sowieso  is  elke  meting  waarbij   je  meetapparatuur  gebruikt  nooit  100  %  zuiver.  Elk  apparaat  heeft  een  beperkte  nauwkeurigheid,  al  kan  de  daardoor  veroorzaakte  afwijking  heel  klein  zijn.  Soms  zijn  onzekerheden  ook  onontkoombaar.  Als  je  een   zuurbasetitratie  uitvoert  met  behulp   van  een   zuurbase   indicator   is   er   voor  de   kleurverandering  van   de   indicator   ook   een   beetje   zuur   of   base   nodig.   Je   gebruikt   daardoor   altijd   iets   te   veel   titrant.  Hoeveel  is  dat?  Gebruik  je  bij  elke  titratie  evenveel  indicator?  Ook  kunnen  bij  elke  handeling  die  je  bij  de   titratie   uitvoert   (kleine)   afwijkingen   optreden:   het   aflezen   van   een   pipet   of   een   buret   zijn   niet  oneindig  nauwkeurig.  Door  al  deze  “toevallige  fouten”  zullen  bij  het  herhaald  uitvoeren  van  metingen  niet   steeds   exact   dezelfde   uitkomsten   worden   verkregen.   De   ene   keer   kom   je   op   een   te   hoog  antwoord,   de   andere   keer   op   een   te   laag   antwoord.  Maar   door   de  meting   te   herhalen,   kun   je   een  gemiddeld  resultaat  bepalen  en  dat  beschouwen  als  meest  waarschijnlijke  waarde.    Maar  hoe  zeker  of  onzeker  ben  je  dan  over  de  werkelijke  waarde?  En  hoe  waardevol  zijn  de  verschillende  afzonderlijke  metingen?  Ken  je  aan  elke  meting  een  even  grote  waarde  toe,  laat  je  “uitschieters”  weg,  werk  je  met  een   gewogen   gemiddelde?   Zie   hiervoor   verder   onder   betrouwbaarheid   van   een   meting,  standaarddeviatie.  Naast  toevallige  fouten  zijn  er  ook  systematische  fouten.  Dan  doe  je  echt  iets  verkeerd  of  er  is  iets  mis  met  een  apparaat.   Je   leest  consequent  te  hoog  af,   je  apparaat   is  niet  goed  geijkt,   je  geo-­‐driehoek   is  een  “namaak”  dingetje,  etc.  Hier  helpt  middelen  en  rekenen  niet,  het  onderzoek  moet  over  nadat  de  fouten  zijn  weggenomen.    Betrouwbaarheid  van  een  meting,  standaarddeviatie    Op  school  heb   je  vast  wel  eens  een  meting  moeten  uitvoeren  en  zul   je  ook  geleerd  hebben  dat  een  meting  in  duplo  (dus  twee  keer)  moet  worden  uitgevoerd.  (één  meting  is  GEEN  meting)  Eigenlijk  kun  je  er  dan  alleen  nog  iets  mee  als  de  twee  gevonden  waarden  redelijk  dicht  bij  elkaar  liggen.  Maar  wat  is   redelijk?  Sta   je  een  verschil  van  0,1  %  toe,  of  1  %,  of  5%?  Je  voert  twee  metingen  uit  en  vindt  als  uitkomsten  12,38  en  12,74.  Vind  je  dat  mooi  genoeg?  Wat  geef  je  als  resultaat  van  je  onderzoek:  “het  antwoord   is   12,56”   of   “het   antwoord   is   12,56   ±   0,18”   of   ...?   Daarover   bestaan   op   wiskunde  gebaseerde   afspraken   die   gebaseerd   zijn   op   het   aantal   metingen   en   de   afwijkingen   van   deze  afzonderlijke  metingen  ten  opzichte  van  het  gemiddelde  (µ,  spreek  uit:  mu).      Voor   je   verder   gaat   start   je   het   programma   Excel   op.   De   weergegeven   tabel   voer   je   in   in   Excel  (kopiëren-­‐  plakken  (Ga  in  cel  A1  staan:  plakken  als  unicode  tekst)).  Stel   dat   je   tafelazijn   titreert  met   natronloog.  Ga   er   even   van  uit   dat  we   in   staat   zijn   om  voldoende  nauwkeurig   steeds   dezelfde   hoeveelheid   van   10,00  mL   tafelazijn   af   te   meten.   Die   is   dus   constant,  maar  we  vinden  bij  verschillende  titraties  wel  steeds  een  verschillend  aantal  ml  natronloog:                      Ga  in  de  cel  onder  12,38  staan  (Zoek  in  het  menu:  Formules>functie  invoegen>gemiddelde>selecteer  de   cellen   waarover   het   gemiddelde   moet   worden   berekend>OK).   Tik   tenslotte   in   cel   A14  “gemiddelde”.  

meting   mL  natronloog  x   meting   mL  natronloog  x  1   12,35   6   12,43  2   12,45   7   12,39  3   12,42   8   12,37  4   12,36   9   12,40  5   12,41   10   12,38  

Page 9: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

9

Gemiddeld  is  er  bij  deze  10  metingen  12,396  mL  natronloog  (𝑥  =  12,396)  gebruikt.    Je  bepaalt  nu  voor  elke  meting  de  afwijking   van  dit  gemiddelde   𝑥 −  𝑥 ,  dus  bijvoorbeeld  voor  de  eerste  meting  12,35  –  12,396  =  -­‐  0,046.    Opdracht  4a  De  rest  van  de  verschillen  kun  je  door  Excel  ook  automatisch  laten  berekenen  i.p.v.  stuk  voor  stuk  uit  te  rekenen.  Zoek  uit  hoe  (z.o.z.),  en  vul  de  kolom  verder  aan.)      

meting   mL  natronloog  x   afwijking  van  gemiddelde   𝑥 −  𝑥  1   12,35   -­‐0,046  2   12,45    3   12,42    4   12,36    5   12,41    6   12,43    7   12,39    8   12,37    9   12,40    10   12,38    

 Ga  op  cel  B14  staan,  klik  op  Σ  en  sleep  met  de  linkermuisknop  ingedrukt  over  de  cellen  B2  t/m  B11,  plaats  de  cursor  in  de  schrijfbalk  achter  het  laatste  haakje,  tik  /  en  klik  op  cel  A12.  Enter.  Ga  op  cel  C2  staan  en  tik  “=B2-­‐$B$14”.  Enter.    Ga  weer  op  cel  C2  staan,  klik  rechts,  kies  kopiëren  en  plak  in  de  cellen  C3  t/m  C11.  De  $-­‐tekens  zorgen  ervoor  dat   in  alle   cellen  C2   t/m  C11   telkens  het  gemiddelde  B14  wordt  afgetrokken.  Kijk  maar  eens  wat  er  gebeurt  als  je  die  tekens  weglaat.)    Als  de  verschillende  metingen  dicht  bij  het  gemiddelde  (µ)  liggen,  mag  je  aannemen  dat  de  werkelijke  waarde  ook  dicht  bij  dit  gemiddelde  ligt.  Je  onzekerheid  is  dan  klein.  Hoe  groot  die  onzekerheid  is,  kun  je  bepalen  door  de  standaarddeviatie  te  berekenen.  Daarvoor  moet  je  een  soort  gemiddelde  afwijking  gaan  bepalen  waarin   je   alle   “fouten”   (=   afwijkingen)  mee   laat   tellen.  Hiervoor  wordt   de   totale   fout  (afwijking)  door  het   totaal  aantal  metingen  gedeeld.  Om  de  negatieve  en  positieve   afwijkingen  niet  tegen  elkaar  weg  te  laten  vallen,  kwadrateer  je  de  gevonden  fouten:  Opdracht:  Zoek  uit  hoe  je  dat  door  excel  kunt  laten  doen    

meting  mL  natronloog  

x  afwijking  van  gemiddelde  

𝑥 −  𝑥  kwadraat  van  de  afwijking  

𝑥 −  𝑥 𝟐  1   12,35   -­‐0,046   0,002116  2   12,45      3   12,42      4   12,36      5   12,41      6   12,43      7   12,39      8   12,37      9   12,40      10   12,38      

 

Page 10: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

10

Ga  op  cel  D2  staan,  ga  naar  “formules”,  kies  “functie  invoegen”  en  kies  “MACHT”.  Klik  achter  “getal”  op  cel  C2  en  tik  achter  “macht”  2.  Klik  op  OK.  Ga  weer  op  cel  D2  staan,  klik  rechts,  kies  kopiëren  en  plak  in  de  cellen  D3  t/m  D11.    De   standaardafwijking   of   standaarddeviatie   σ   wordt   nu   gevonden   door   de   kwadraten   van   de  afwijkingen   te   middelen   (dus   delen   door   het   aantal   metingen)   en   uit   het   dan   verkregen   getal   de  wortel  te  nemen:  

      σ  =    𝒙!  𝒙 𝟐𝒏

𝒊!𝟏𝒏

 

In  het  voorbeeld  leidt  dit  tot  een  standaarddeviatie  σ  =  0,0304.    Opdracht  4b  Reken  met  behulp  van  Excel  de  bovenstaande  waarde  van  σ  =  0,0304  na.  Tik  in  cel  C14  “som/aantal  metingen”.  Ga  op  cel  D14  staan,  klik  op  Σ  en  sleep  met  de  linkermuisknop  ingedrukt  over  de  cellen  D2  t/m  D11,  plaats  de  cursor  in  de  schrijfbalk  achter  het  laatste  haakje,  tik  /  en  klik  op  cel  A12.  Enter.  Tik  in  cel  C15  “standaarddeviatie”.  Ga  op  cel  D15  staan,  ga  naar  “formules”,  kies  “Logisch”  en  dan  “functie  invoegen”  en  kies  “WORTEL”.  Klik  achter  “getal”  op  cel  D14.  Klik  op  OK.  In  cel  D15  staat  nu  de  standaarddeviatie.  Vergelijk  die  met  je  antwoord  van  opdracht  7  of  opdracht  9.  Veel  werk  nog,  vind  je  niet?    Ga  nog  eens  in  het  zelfde  Excel  werkblad  op  cel  D16  staan.  Ga  naar  “formules”,  kies  “functie  invoegen”  en   type  bij  de  zoekfunctie  STDEVP.  Kies  STDEVP  en  sleep  met  de   linker  muisknop   ingedrukt  over  de  cellen  B2  t/m  B11.  Kies  OK  en  vergelijk  het  resultaat  met  je  antwoord  van  opdracht  7  of  opdracht  9.    We  nemen  aan  dat  de   verschillende  meetwaarden  normaal   verdeeld   zijn.  Dat  betekent  dat   er   veel  meetwaarden  zijn  die  dicht  bij  het  gemiddelde  (µ)  liggen  en  steeds  minder  naarmate  de  meetwaarden  verder   van   het   gemiddelde   liggen.  Wanneer   het   aantal  meetwaarden   dan  wordt   uitgezet   tegen   de  gemeten  waarde,  ontstaat  een  klokvormige  curve  waarvan  de  top  bij  het  gemiddelde  ligt:    

Figuur  3:    Klokcurve  bij  normale  verdeling    Deze  methode  voorspelt  dan  dat  de  uitkomst  van  68  %  van  de  metingen  tussen  de  grenzen  (µ  ±  σ)  ligt  en  de  uitkomst  van  95  %  van  de  metingen  tussen  de  grenzen  (µ  ±  2σ):  

Figuur  4:    Grenzen  verwachtingswaarde    

Page 11: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

11

Voor   onze   voorbeeldberekening   betekent   dit:   je   hebt   95%   kans   dat   het   werkelijke   aantal   ml  natronloog   tussen   12,396   ±   0,0608   ligt   en   dus,   na   nette   afronding   12,40   ±   0,06   mL.   Pas   op,   de  werkelijke   waarde   kan   nog   steeds   buiten   deze   grenzen   liggen.  Misschien   is   er   wel   sprake   van   een  systematische  fout.    Opdracht  5  Ook   het   gemiddelde   van   de   eerste   twee   metingen   uit   het   voorgaande   voorbeeld   (duplometing)  leveren   een   gemiddelde   waarde   van   12,40  mL.   Bereken   de   standaarddeviatie   op   basis   van   slechts  deze  twee  metingen  en  geef  aan  tussen  welke  waarden  de  uitkomst  van  dit  onderzoek  zou  liggen  met  een  zekerheid  van  95%.    Opdracht  6  In  een  andere  meetserie  worden  voor  tien  titraties  de  volgende  resultaten  gevonden:    meting   mL  natronloog  

1   12,0  2   13,0  3   12,5  4   12,7  5   12,7  6   11,8  7   12,1  8   12,5  9   12,4  10   12,3  

 Bereken   ook   voor   deze   meetserie   de   standaarddeviatie   en   geef   aan   tussen   welke   waarden   de  uitkomst  van  dit  onderzoek  zou  liggen  met  een  zekerheid  van  95%.    Opdracht  7  Welke  twee  factoren  spelen  een  belangrijke  rol  bij  het  bepalen  van  de  uitkomst  van  een  meting?    Een  praktische  toepassing  Zoals  we  al   eerder  hebben  vermeld  heeft   elk  meetapparaat,  hoe  nauwkeurig  ook,   een  beperking   in  zijn   betrouwbaarheid.   Bovendien   is   ons   oog   ook   beperkt   in   het   aflezen   van   schalen   (zoals   een  meetlat).   In   de   volgende   opdracht   gaan   jullie   een   eenvoudig   onderzoek   in   het   klaslokaal   doen  met  behulp  van  je  geodriehoek.    Opdracht  8  Bepaal   zo   nauwkeurig  mogelijk   de   oppervlakte   van   je   tafel  met   behulp   van   je   (eigen)   geodriehoek.  Wissel  geen  gegevens  uit  met  elkaar,  maar  geef  je  antwoord  in  cm2    in  1  decimaal  nauwkeurig.  Let  op:  er   bestaat   geen   goed  of   fout   antwoord   (echte   rekenfouten   en   systematische   fouten  uitgezonderd)!  Verzamel   hierna   de   resultaten   van   je   klasgenoten.   Verwerk   de   resultaten   in   een   tabel   (eventueel  gekoppeld   aan   de   naam).   Bereken   met   behulp   van   Excel   ook   voor   deze   meetserie   de  standaarddeviatie   en   geef   aan   tussen   welke   waarden   de   uitkomst   van   dit   onderzoek   ligt   met   een  zekerheid  van  95%.  Schrijf  een  verslagje  over  je  bevindingen.    

Page 12: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

12

Keuzeactiviteit  1  (Havo)    Hoeveel  konijnen  zitten  er  in  het  bos?  Capture-­‐Mark-­‐Recapture.  

 Stel  dat  je  als  ecoloog  een  onderzoek  in  het  bos  om  de  populatie  van  konijnen  te  bepalen.  Het  is  een  flink  karwei  om  alle  konijnen  uit  het  bos  te  vangen  en  te  tellen.  Bovendien  weet  je  niet  of  je  alle  dieren  uit   het   bos   daadwerkelijk   gevangen   hebt.   In   dat   geval   brengt   de   Capture-­‐Mark-­‐Recapture-­‐methode  een   oplossing.   Je   begint   met   een   aantal   konijnen   te   vangen   en   te   merken.   De   gemerkte   konijnen  worden  weer  vrijgelaten  en  krijgen  genoeg  tijd  om  zich  weer    met  de  andere  konijnen   in  het  bos  te  verspreiden.   Vervolgens   ga   je   opnieuw   konijnen   vangen,  maar   je   doet   dit  wel   zo   snel   na   de   eerste  vangst   dat   je   in   redelijkheid  mag   verwachten   dat   de   populatie   door   zaken   als   geboorte,   sterfte   en  migratie  niet  wezenlijk  is  veranderd.  Het  aantal  gemerkte  konijnen  in  je  tweede  vangst  verhoudt  zich  tot  het   totaal  aantal  konijnen  van  de   tweede  vangst  als  het  aantal  gemerkte  konijnen   tot  het   totaal  aantal  konijnen   in  het  bos.  Dit   stelt  ons   in   staat  een  schatting  van  het  aantal  konijnen   in  het  bos   te  maken  volgens:    

        𝑁 = !∗!!

 waarbij  N  staat  voor  het  geschatte  aantal  konijnen  in  het  bos,  M  voor  het  aantal  bij  de  eerste  vangst  gemerkte  konijnen,  C  voor  het  aantal  bij  de   tweede  vangst  gevangen  konijnen  en  R  voor  het  aantal  gemerkte  konijnen  dat  bij  de  tweede  vangst  werd  aangetroffen.    Dit   verhaal   vertelde   mijn   collega   biologie,   maar   ongelovige   die   ik   ben,   wilde   ik   dat   natuurlijk  controleren.  Nu  ben  ik  niet  het  bos  ingegaan,  maar  ik  heb  80  zwarte  legers  van  het  spel  Risk  gemengd  met  20  gele  legers.  Na  mengen  heb  ik  tien  maal  (telkens  met  hermengen  na  elke  “vangst”)  telkens  10  legers  blind  gepakt.  Het  resultaat  was  als  volgt:    20  gele  legers  van  totaal  100  

   poging   aantal  gele  legers  1   1  2   0  3   3  4   2  5   2  6   2  7   2  8   2  9   3  10   3  

 Opdracht  10  a   Laat  zien  dat  in  dit  geval  de  formule  een  juiste  voorspelling  geeft  van  het  aantal  gebruikte  legers.  b   Bereken   de   standaarddeviatie.   Bedenk   daarbij   dat   in   het   onderhavige   geval   sprake   is   van   een  

aantal   steekproeven   in   plaats   van   een   totale   populatiemeting.   In   verband  met   de   (iets)   grotere  onbetrouwbaarheid  pas  je  bij  steekproeven  de  formule  voor  de  standaarddeviatie  aan  tot:  

          σ  =    𝒙!  𝒙 𝟐𝒏

𝒊!𝟏𝒏!𝟏

   

c   Bereken  wat  met  95%  betrouwbaarheid  het  minimum  en  maximum  totale  aantal  legers  zou  zijn.    

Page 13: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

13

Opdracht  11  Probeer  voorgaand  onderzoek  zelf  ook  eens.  Heb   je  geen  Risk   thuis?  Met  witte  en  bruine  bonen  en  talloze  andere  middelen  lukt  het  ook.  Ga  niet  het  bos  in.    Opdracht  12  Binnen   de   hiervoor   genoemde   randvoorwaarden   worden   in   een   bos   100   konijnen   gevangen.   Deze  worden   gemerkt   en   weer   los   gelaten.   Vervolgens   worden   na   voldoende   tijd   tien   keer   15   konijnen  gevangen.  Het  aantal  gemerkte  konijnen  per  vangst  vind  je  in  de  volgende  tabel:    100  gemerkte  konijnen  

   poging  

aantal  gemerkte  konijnen  per  15  

1   5  2   4  3   7  4   4  5   6  6   5  7   6  8   4  9   4  10   5  

 Bereken  wat  met  95%  betrouwbaarheid  het  minimum  en  maximum  totale  aantal  konijnen  in  het  bos  zou  zijn.  

Page 14: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

14

 

Keuzeactiviteit  2  (VWO)     TOP  2000  

 Je  werkt   in   tweetallen  aan  de  onderstaande  opdracht.  Per   tweetal   lever   je  een  verslag   in  met   jullie  bevindingen  en  uitkomsten.    Opdracht:  Open   het   excelbestand   Top   2000.   De   vraag   die   je   moet   beantwoorden   bij   de   gegevens   van   het  bestand  TOP  2000  is:  Welk  decennium  heeft  de  beste  popmuziek  voortgebracht?    Je   moet   minstens   twee   manieren   bedenken   om   aan   de   hand   van   de   gegevens   in   het   TOP   2000  bestand  te  bepalen  welke  decennium  de  beste  muziek  heeft  opgeleverd.  Hierbij  moet  je  letten  op  de  volgende  regels:  Ga  hierbij  uit  van  de  periodes  1930  t/m  1939,  1940  t/m  1949,  1950  t/m  1959  etc.  Je  moet  alle  nummers  uit  de  hele  TOP  2000  gebruiken.    Je   moet   bedenken   hoe   je   op   een   goede   manier   rekening   kunt   houden   met   nummers   die   pas   zijn  uitgebracht   in   de   loop   van   de   elf   jaren   die   in   het   bestand   staan   (1999   t/m   2009).   Zie   bijvoorbeeld  nummer  8  uit  de  TOP  2000:  Clocks  van  de  groep  Coldplay.  In  de  kolom  jaar  zie  je  dat  het  nummer  in  2003   is   uitgebracht.   Voor   de   jaren   1999   t/tm   2002   staan   er   daarom   “0”   –en   in   de   lijst.   Let   op:   Bij  bijvoorbeeld   nummer   11   uit   de   lijst   staan   ook   een   aantal   nullen   in   de   kolommen.   Deze   nullen  betekenen  echter  iets  anders!  Weet  je  ook  wat?    Voor  beide  manieren    moet  je  precies  beschrijven  hoe  je  bepaalt  welk  decennium  het  beste  is.  Je  moet  beide  manieren  ook  uitvoeren  en  aangeven  welk  decennium  bij   jou  wint.  Heb   je   tweemaal  dezelfde  winnaar?  Of  twee  verschillende  winnaars?  Welke  manier  vinden  jullie  het  eerlijkst?    

Page 15: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

15

 

Keuzeactiviteit  3  (VWO)  Fictie  of  waarheid:  de  correlatiecoëfficiënt  

 De  correlatiecoëfficiënt  is  een  hulpmiddel  waarmee  je  kunt  onderzoeken  of  er  een  statistisch  verband  is  tussen  twee  variabelen.  Dat  kunnen  twee  onafhankelijke  variabelen  zijn  of  een  te  kiezen  variabele  en  een  daarvan  afhankelijke  variabele.  Realiseer   je  dat   je  met  de  correlatiecoëfficiënt  een  statistisch  (zeg  maar  “rekenkundig”)  verband  kunt  ontdekken.  Daarmee  is  nog  niet  gezegd  dat  er  ook  een  causaal  (oorzakelijk)   verband   is.   Immers,   niets   is   zeker   en   ook   dat   niet.   Lees   bijvoorbeeld   maar   eens   het  volgende  artikel  uit  NRC:  

https://www.nrc.nl/nieuws/2010/12/20/hoe-­‐meer-­‐telefoonmasten-­‐hoe-­‐meer-­‐geboortes/  

Hoe  meer  telefoonmasten,  hoe  meer  geboortes  

      DOOR  STEVEN  DE  JONG    

 

WETENSCHAP    Er   is   een   sterke   correlatie   gevonden   tussen   het   aantal   telefoonmasten   en   het   geboortecijfer   per  gemeente.   Iedere  extra  mast  staat  volgens  de  Britse  wiskundige  Matt  Parker     in  verhouding  tot  17,6  baby’s  meer  dan  het  landelijke  gemiddelde.  Wie  het  niet  gelooft,  kan  deze  Excel-­‐sheet  bestuderen.  Parker  vatte  de  bevindingen  samen  en  maakte  er   een   persberichtje   van.   Hij   wilde   daarmee   aantonen   dat   journalisten   oorzakelijke   en   statistische  verbanden  nogal  eens  door  elkaar  halen.  Een  kop  als  ‘Straling  GSM-­‐mast  zorgt  voor  geboortegolf’  zou  hem  in  zijn  vooroordeel  bevestigen.  

Maar  dat  viel  mee,  legt  hij  aan  de  BBC  uit.  Dat  media  er  niet  intrapten  wijt  hij  aan  het  gegeven  dat  hij  ‘maar   een   gewone   jongen’   is   en   geen   vermaard   wetenschapper   met   een   gerenommeerd  onderzoeksinstituut  achter  zich.  Toch  wilde  hij  een  punt  maken:  al  die  berichten  waarin  een  causaal  verband  wordt   gelegd   tussen   kinderkanker   en   straling  moeten  niet   zomaar   voor  waar   aangenomen  worden.  Dat  neemt  echter  niet  weg  dat  die  sterke  correlatie  tussen  telefoonmasten  en  het  aantal  borelingen  staat   als   een   huis.   Hoe   zit   dat?   Er   is   een   derde   factor,   schrijft   Parker   in  The  Guardian.   Namelijk   de  

Page 16: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

16

populatie.   Telefoonmaatschappijen   plaatsen   veel  masten   in   gebieden  waar   veel  mensen  wonen.   En  hoe  meer  mensen,  hoe  meer  geboortes.  Maar  met  straling  heeft  dat  niets  van  doen.  

Stel  dat  je  het  verband  wilt  onderzoeken  tussen  twee  variabelen  x  en  y.  Je  beschikt  over  waarden  x1,  x2,  x3,  ….,  xn  bij  waarden  y1,  y2,  y3,  ….,  yn.    Je  vraagt  je  af  of  er  een  statistisch  lineair  verband  tussen  y  en  x  bestaat:    y  =  a.x  +  b    Als  je  de  waarden  van  y  uitzet  als  functie  van  x  in  een  zogenaamde  scatterplot  (puntengrafiek)  krijg  je  een  figuur  van  de  volgende  gedaante:  

      Figuur  6    scatterplot    Als  er  een  lineair  verband  tussen  y  en  x  bestaat,  is  het  waarschijnlijk  dat  de  daarbij  behorende  rechte  door  het  punt  (  𝑥, 𝑦)  gaat.  Dit  punt  is  als  het  ware  het  zwaartepunt  van  je  puntenverzameling:    

      Figuur  7    zwaartepunt    Voor  de  correlatiecoëfficiënt  R  geldt  nu:    

𝑅 =  1

𝑛 − 1𝑥! − 𝑥 . 𝑦! − 𝑦

σ! .σ!

!

!!!

 

 De   correlatiecoëfficiënt   (symbool   R)   geeft   aan   hoe   betrouwbaar   het   veronderstelde   wiskundige  verband  y  =  a.x  +  b  tussen  y  en  x  is.  De  waarde  van  de  correlatiecoëfficiënt  ligt  tussen  -­‐1  en  +1  (  -­‐1  ≤  R  ≤  1  ).    Bij  negatieve  waarden  hoort  een  dalende   lijn  bij   toenemende  x   (a  <  0),  bij  positieve  waarden  van  R  hoort  een  stijgende  lijn  (a  >  0).  Dit  tekenverschil  wordt  vaak  ondervangen  door  niet  R  te  geven,  maar  

Page 17: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

17

R2.  Dat  geeft  dus   informatie  over  de  betrouwbaarheid  van  de  gevonden   functie   zonder  de  aard  van  het  verband  (dalende  of  stijgende  lijn)  aan  te  geven.    Voor  de  betrouwbaarheid  van  de  gevonden  functie  gelden  de  volgende  standaardregels:    

- Als  -­‐0,1  <  R  ≤  0    of  0  ≤  R  <  0,1    is  er  geen  correlatie,  m.a.w.  het  gevonden  verband  is  niet  correct.  - Als  -­‐0,3  <  R  ≤  -­‐0,1    of  0,1  ≤  R  <  0,3    is  er  nauwelijks  correlatie,  m.a.w.  het  gevonden  verband  is  

onbetrouwbaar.  - Als  -­‐0,5  <  R  ≤  -­‐0,3    of  0,3  ≤  R  <  0,5    is  er  een  matige  correlatie,  m.a.w.  het  gevonden  verband  is  

niet  erg  zeker.  - Als  -­‐1,0  ≤  R  ≤  -­‐0,5    of  0,5  ≤  R  ≤  1,0    is  er  een  sterke  correlatie,  m.a.w.  het  gevonden  verband  is  

sterk  en  natuurlijk  betrouwbaarder  naarmate  R  dichter  bij  -­‐1  of  1  ligt.    Als  je  naar  de  formule  voor  R  kijkt,  begrijp  je  dat  er  aardig  wat  rekenwerk  vast  zit  aan  het  bepalen  van  de  correlatiecoëfficiënt.  Zie  hiervoor  ook  het  onderdeel  “Kleinste  kwadraten  methode  voor  een  lineair  verband”.   Gelukkig   biedt   een   spreadsheet   programma   uitkomst:   uit   een   tabel   met   waarden   voor  variabelen  x  en  y  kun  je  via  formules/functie  invoegen/correlatie  snel  de  waarde  van  R  uitrekenen.    Opdracht  13  Een  groepje  leerlingen  denkt  dat  er  een  lineair  verband  is  tussen  de  concentratie  van  sulfaat  in  grond  en   de   groei   van   waterkersplantjes   op   die   grond.   Onderzoek   of   hun   resultaten   deze   hypothese  ondersteunen.  Maak  weer  gebruik  van  Excel.  De  meetresultaten  vind  je  hierna:      sulfaatgehalte  van  de  grond  (mmol/L)   groei  waterkers  /dag  in  mm  

2,3   0,9  7,8   2,5  0,5   2,1  4,1   2,7  6,7   1,2  3,4   3,3  1,8   0,3  9,3   1,5  5,1   2,8  8,2   1,4  

 Opdracht  14  Een   groepje   leerlingen  denkt   dat   er   een   lineair   verband   is   tussen  de  pH   van   grond  en  de   groei   van  waterkersplantjes   op   die   grond.   Onderzoek   of   hun   resultaten   deze   hypothese   ondersteunen.  Maak  gebruik  van  Excel.  De  meetresultaten  vind  je  in  de  tabel:      pH  van  de  grond   groei  waterkers  /dag  in  mm   pH  van  de  grond   groei  waterkers  /dag  in  mm  

4,9   0,9   6,5   3,3  6,8   3,6   4,0   0,3  5,4   1,3   5,7   1,5  6,2   2,7   6,2   2,8  5,1   1,2   5,4   1,4  

 

Page 18: 3. Statistiek in 4 havo/vwo

Dit materiaal is gemaakt gedurende de Leergang Wiskunde schooljaar 2013/14

18

Opdracht  15  Op  de  autosnelweg  A2  van  Eindhoven  naar  Maastricht   staat  voor  Maastricht  om  vijf  uur   ’s  middags  elke  dag  een  file.  De  lengte  van  deze  file  voor  een  aantal  verschillende  dagen  vind  je  in  het  overzicht  hierna.   In  dat  overzicht  vind   je  ook  het  aantal  eieren  dat  door  de  twintig  kippen  van  boer  B.  op  een  boerderij  in  Friesland  werd  gelegd.  Bereken  de  correlatiecoëfficiënt.  Wat  zou  jouw  conclusie  zijn?        

kilometers  file   aantal  eieren   kilometers  file   aantal  eieren  4,9   4   6,5   8  7,8   12   8,4   15  5,7   8   9,3   18  3,8   2   5,1   6  12,1   20   8,2   11