Het gebruik van Excel 2007 voor statistische analyses. Een...

15
Beknopte handleiding Excel 2007 Statistiekkwartetspel Ben Baarda; 2010 Pagina 1 © 2010 Noordhoff Uitgevers bv Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel veel mogelijkheden tot statistische analyse. Vrijwel alle statistische technieken die in het Statistiekkwartetspel besproken zijn, kun je uitvoeren met Excel. Het voordeel van Excel is dat het vrijwel standaard op alle pc’s en laptops zit. Je kunt het dus ook gebruiken als je voor je stage in de binnenlanden van Afrika zit. Voorwaarde is wel dat je de invoegtoepassing “Gegevensanalyse” installeert. Als je naar de volgende site van Microsoft gaat, wordt uitgelegd hoe je dat moet doen: http://office.microsoft.com/nlnl/excel/HA102382521043.aspx#InstallAnalysisToolPak In het kort wordt hier besproken hoe je Excel kunt gebruiken voor de besproken statistische analyses. Ik ga ervan uit dat je vertrouwd bent met het werken met Microsoftprogramma’s zoals Word en je dus weet hoe je files moet openen, opslaan, hoe je moet kopiëren, knippen plakken en dergelijke. Wanneer je meer informatie over het statistisch gebruik van Excel wilt hebben, gebruik dan “Het Basisboek Statistiek met Excel” (verschijnt 2011). Als voorbeeld is voor deze beknopte handleiding het databestand “datakwartet8” gebruikt, dat je ook op deze website vindt in de databestanden map. Als je Excel opent, kom je in het volgende scherm: Figuur E.1 Openingsscherm van Excel 2007.

Transcript of Het gebruik van Excel 2007 voor statistische analyses. Een...

Page 1: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 1 

© 2010 Noordhoff Uitgevers bv 

Het gebruik van Excel 2007 voor statistische analyses. Een beknopte handleiding. 

 

Bij Excel denken de meesten niet direct aan een statistisch programma. Toch biedt Excel  veel mogelijkheden tot statistische analyse. Vrijwel alle statistische technieken die in het Statistiekkwartetspel besproken zijn, kun je uitvoeren met Excel. Het voordeel van Excel is dat het vrijwel standaard op alle pc’s en laptops zit. Je kunt het dus ook gebruiken als je voor je stage in de binnenlanden van Afrika zit. Voorwaarde is wel dat je de invoegtoepassing “Gegevensanalyse” installeert. Als je naar de volgende site van Microsoft gaat, wordt uitgelegd hoe je dat moet doen: http://office.microsoft.com/nl‐nl/excel/HA102382521043.aspx#InstallAnalysisToolPak 

In het kort wordt hier besproken hoe je Excel kunt gebruiken voor de besproken statistische analyses. Ik ga ervan uit dat je vertrouwd bent met het werken met Microsoft‐programma’s zoals Word en je dus weet hoe je files moet openen, opslaan, hoe je moet kopiëren, knippen plakken en dergelijke.  

Wanneer je meer informatie over het statistisch gebruik van Excel wilt hebben, gebruik dan “Het Basisboek Statistiek met Excel” (verschijnt 2011). 

Als voorbeeld is voor deze beknopte handleiding het databestand “datakwartet8” gebruikt, dat je ook op deze website vindt in de databestanden map. 

Als je Excel opent, kom je in het volgende scherm: 

 

Figuur E.1 Openingsscherm van Excel 2007. 

Page 2: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 2 

© 2010 Noordhoff Uitgevers bv 

Voor het maken van een onderzoeksdatabestand is het goed om in Excel met vaste kolommen en rijen te werken. Waarbij in de kolommen de variabelen staan, zoals de leeftijd en het geslacht en in de rijen de ‘cases’. De cases zijn dus je onderzoekseenheden zoals de respondenten. Je ziet in figuur E.2 een voorbeeld van een ingevuld databestand; op rij 2 staat de mannelijke student 96, die 5 vragen goed had bij de toets en 34 uur had gestudeerd. Het is verstandig om in de eerste rij de namen van de variabelen te zetten en om het respondent‐, of casenummer als eerste kolom te nemen. Je hebt dat nummer soms in Excel nodig om bepaalde tabellen te maken, maar je hebt het ook nodig wanneer je een typefout hebt gemaakt. Als er bijvoorbeeld bij respondent 45 bij leeftijd 333 staat, is er waarschijnlijk wat misgegaan. Je moet dan in het dossier, of op de vragenlijst van respondent, kunnen  controleren wat de werkelijke leeftijd is. 

 

 

Figuur E.2 Datascherm Excel 2007. 

Voor de waarde van een ontbrekende waarde, zoals bij student 198 die geen toets heeft gedaan, kun je het best een spatie gebruiken.  

Page 3: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 3 

© 2010 Noordhoff Uitgevers bv 

Verder kun je zelf allerlei nieuwe variabelen maken door gebruik te maken van de formule functie van Excel. Stel dat je het verschil in aantal goede antwoorden tussen de eerste keer en de herkansing wilt weten, dan ga je met je cursor in de tweede cel van een nieuwe kolom staan, bijvoorbeeld H2. Je typt dan in het fx venstertje ‘=G2 – B2’. Het ‘=’ telken is voor Excel een teken dat hij wat uit moet rekenen. 

 

Figuur E.3 Het maken van nieuw variabelen met de formulefunctie. 

Je ziet in figuur E.3 dat in het zwart omlijnde hokje H2 in de rechter onderhoek een zwart blokje staat. Als je hier op gaat staan en je sleept het blokje naar beneden, rekent Excel ook de verschillen voor de andere respondenten uit. 

Zoals je in figuur E.3 kunt zien kent Excel allerlei menu’s, zoals “Start”, “Invoegen” en  “Pagina‐indeling”. Ik zal achtereenvolgens het “Start”‐, “Invoegen”‐ en “Gegevens”‐menu bespreken. Dit zijn de belangrijkste menu’s voor het uitvoeren van statistische analyses. De overige menu’s, zoals “Pagina‐indeling”, zijn of niet specifiek voor Excel en lijken op andere Microsoft‐toepassingen, of zijn weer juist heel erg specifiek, maar niet direct noodzakelijk.  

Page 4: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 4 

© 2010 Noordhoff Uitgevers bv 

Het ”Start”‐menu 

Figuur E.4 Het ”Start”‐menu. 

De meeste opdrachten uit het “Start”‐menu zullen je bekend voorkomen, zoals het kiezen van een lettertype en grootte. Er zijn twee opdrachten die ik voor de analyse van onderzoeksgegevens  kort zal bespreken, dat is “Getal” en “Sorteren en filteren” 

 

 

Figuur E.5 Het getal en sorteer en filter‐menu in Excel 2007. 

Met het getal‐menu kun je het karakter van je gegevens definiëren. Je moet daartoe wel eerst de kolom markeren waarin de gegevens staan die je wilt definiëren. Je markeert bijvoorbeeld kolom C, geslacht, en geeft hier aan dat het tekst betreft. Wanneer het om getallen gaat, kun je hier ook aangeven hoeveel cijfers je achter de komma wilt hebben. Het komt voor dat Excel berekeningen, zoals een gemiddelde, niet uitvoert, doordat de gegevens niet goed gedefinieerd zijn. Wanneer er gedefinieerd is dat het tekst is, zal Excel geen gemiddelde uitrekenen. Controleer dus of je gegevens goed gedefinieerd zijn. 

Met “Sorteren” kun je je gegevens ordenen. Stel dat je de toetsresultaten van de mannelijke met de vrouwelijke studenten wilt vergelijken, dan is het handig om de gegevens te ordenen naar geslacht. Je markeert dan eerst de kolom geslacht (Kolom C) en gaat vervolgens naar “Sorteren”. Hier kies je voor sorteren van hoog naar laag. Excel vraagt dan of je de selectie wilt uitbreiden; breidt de selectie inderdaad uit. Excel sorteert dan niet alleen de 

Page 5: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 5 

© 2010 Noordhoff Uitgevers bv 

geslachtsgegevens, maar ook de gegevens die bij die persoon met dat geslachtskenmerk horen. De gegevens blijven dus per persoon in tact. Je kunt nu met markeren, kopiëren en plakken op een nieuw blad twee kolommen maken; een kolom met de toetsresultaten van de mannen en een met de testresultaten van de vrouwen (zie figuur E.6). 

 

 

Figuur E.6 De toetsresultaten van mannen en vrouwen in aparte kolommen. 

Page 6: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 6 

© 2010 Noordhoff Uitgevers bv 

Het “Invoegen”‐menu 

Figuur E.7 Het “Invoegen”‐menu in Excel 2007. 

Met het “Invoegen”‐menu kun je tabellen en grafieken maken, dat is belangrijk wanneer je gegevens wilt presenteren en analyseren. 

De “Draaitabel”‐functie biedt de mogelijkheid om tabellen te maken. Markeer eerst weer de gegevens die in de tabel moeten komen. Als voorbeeld heb ik identiteit, het aantal goede antwoorden en het geslacht gemarkeerd, voor een tabel waarin de toetsresultaten worden gepresenteerd uitgesplitst naar geslacht. Vergeet niet de identiteitsgegevens te markeren, die heb je nodig om de tabel te maken. Klik nu op draaitabel. Je krijgt dan een scherm vergelijkbaar met figuur E.8. Sleep hier “geslacht” naar “Kolomlabels”, “goed” naar “Rijlabels” en “ident” naar “Waarden”. Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog wel even verfraaien, de lege cellen staan bijvoorbeeld erg slordig. Door in de tabel op “Kolomlabels”  te gaan staan en het vinkje voor “leeg” weg te halen, verdwijnen die in de kolom. Doe hetzelfde voor de “Rijlabels”.  

 

 Figuur E.8 Het Draaitabel‐menu in Excel 2007. 

Page 7: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 7 

© 2010 Noordhoff Uitgevers bv 

Door op “Draaigrafiek”  te klikken en te kiezen voor “Kolommen”, wordt de tabel vertaald in een staafdiagram die je weer op allerlei manieren kunt verfraaien. Excel biedt erg veel mogelijkheden tot het maken van grafieken. 

 

Figuur E.9 Het maken van een staafdiagram in Excel 2007. 

 

Page 8: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 8 

© 2010 Noordhoff Uitgevers bv 

Het “Gegevens”‐menu. 

Figuur E.10 Het Gegevensanalyse‐menu in Excel 2007. 

In het “Gegevens”‐menu is het belangrijk dat het onderdeel “Gegevensanalyse”  geïnstalleerd is. Staat dat niet in jouw menu, instaleer het dan alsnog. Aan het begin van deze korte handleiding staat hoe je dat moet doen. Het onderdeel “Gegevensanalyse” biedt je de mogelijkheid tot veel, zelfs geavanceerde, statistische analysemogelijkheden. Ik zal alleen die onderdelen bespreken die in het “Satistiekkwartetspel” aan bod komen. 

Page 9: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 9 

© 2010 Noordhoff Uitgevers bv 

Het beschrijven van gegevens 

Het beschrijven van gegevens met gebruik van tabellen en grafieken is hiervoor al besproken. Wat niet besproken is, is hoe je met Excel beschrijvende statistische maten als het gemiddelde berekent. Kies in het “Gegevensanalysemenu” voor de opdracht “Beschrijvende statistiek”. Je krijgt dan een menu zoals in figuur E.11. Geef bij invoerbereik aan van welke gegevens je de beschrijvende maten wilt berekenen. In dit geval van het aantal goede antwoorden, kolom B dus. Verder moet je aangeven dat in de eerste rij de variabelennamen staan; “Labels in de eerste rij”. Door “Samenvattingsinfo” te markeren, krijg je alle beschrijvende maten. 

 

Figuur E.11 Het berekenen van beschrijvende statistische maten met het onderdeel “Beschrijvende statistiek” uit het “Gegevensanalyse”‐menu. 

Page 10: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 10 

© 2010 Noordhoff Uitgevers bv 

Het resultaat vindt je in tabel E1, zie voor de uitleg van de maten Statistiekkwartet 5 . 

Goed 

Gemiddelde  8,002564103 

Standaardfout  0,06346183 

Mediaan  8 

Modus  8 

Standaarddeviatie  1,253270719 

Steekproefvariantie  1,570687496 

Kurtosis  ‐0,124969952 

Scheefheid  ‐0,501038093 

Bereik  5 

Minimum  5 

Maximum  10 

Som  3121 

Aantal  390 

Tabel E1 Voorbeeld van het resultaat van de berekening van beschrijvende maten met het onderdeel “Beschrijvende statistiek” uit het “Gegevensanalyse”‐menu. 

Page 11: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 11 

© 2010 Noordhoff Uitgevers bv 

Het toetsen van verschillen in gemiddelden in twee of meer steekproeven. 

In figuur E.9 kun je zien dat de toetsresultaten van de vrouwelijke studenten nogal verschillen van die van de mannelijke studenten. Wanneer het hier twee steekproeven betreft, is het de vraag in hoeverre dat verschil op toeval kan berusten, met andere woorden of het verschil in gemiddelde significant is. Zoals je weet kun je dit toetsen met de t‐test en in dit geval de t‐test voor onafhankelijke steekproeven. In het “Gegevensanalyse”‐menu moet de je “T‐test:  twee steekproeven met ongelijke varianties” aanklikken. Kijk voor de uitleg waarom je deze toets moet gebruiken in statistiekkwartet 7. 

 

Figuur E.12 Het berekenen van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties” uit het “Gegevensanalyse”‐menu. 

Het is handig als je eerst op een apart werkblad twee kolommen maakt, een met de gegevens van de vrouwen en de andere met de gegevens van de mannen (zie figuur E.6). Je geeft dan in het menu aan, dat de gegevens van de vrouwen in kolom A en van de mannen in kolom B staan (“Variabelenbereik” 1 en 2; figuur E12). Vervolgens geef je ook weer aan dat je labels gebruikt. Als je nu op “OK” klikt, krijg je het resultaat zoals in tabel E2 .  

Page 12: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 12 

© 2010 Noordhoff Uitgevers bv 

Hieruit blijkt dat de vrouwen (gem.= 7,20; s= 1,34; n= 297) inderdaad significant (t=6,84; df=134; p<.0001) beter presteren dan de mannen (gem.=8,25; s= 1,12; n= 93). 

T‐toets: twee steekproeven met ongelijke varianties     

   toets man  toets vrouw 

Gemiddelde  7,204301075 8,252525253 

Variantie  1,794763908 1,243447993 

Waarnemingen  93 297 

Schatting van verschil tussen gemiddelden  0  

Vrijheidsgraden  134  

T‐ statistische gegevens  ‐6,840010391  

P(T<=t) eenzijdig  1,2805E‐10  

Kritiek gebied van T‐toets: eenzijdig  1,656304542  

P(T<=t) tweezijdig  2,561E‐10  

Kritiek gebied van T‐toets: tweezijdig  1,97782573   

Tabel E2 Voorbeeld van het resultaat van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties”  uit het “Gegevensanalyse”‐menu. 

Heb je gepaarde steekproeven, bijvoorbeeld wanneer je het gemiddelde van de voortoets van de studenten met hun gemiddelde op de herkansing wilt vergelijken, dan moet je “T‐toets: twee gepaarde steekproeven voor gemiddelden” gebruiken. 

Heb je meer dan twee steekproeven, dus meer dan twee gemiddelden die je wilt vergelijken, dan moet je kiezen voor “Unifactoriële variantie‐anlayse”. 

 

Page 13: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 13 

© 2010 Noordhoff Uitgevers bv 

Het toetsen van verschillen in gemiddelden in percentages of proporties.  

Het blijkt dat van de mannelijke studenten 43% geslaagd is, terwijl dat voor de vrouwelijke studenten 81% is; tabel E3. Het lijkt er dus op dat de vrouwen vaker slagen dan de mannen.  

Geslaagd Man  (n=93) 

Vrouw (n=297) 

Ja  40 (43%)  240 (81%) 

Nee  53 (57%)  57   (19%) 

Eindtotaal  100,00%  100,00% Tabel E3 Een draaitabel met het aantal al dan niet geslaagden uitgesplitst naar geslacht. 

Aangezien het hier steekproeven betreft, is er een kans dat dit verschil op toeval berust. Je moet daarom met Chi‐kwadraat toetsen wat de kans is dat dit verschil op toeval berust. Je kunt dan het best in Excel eerst een kruistabel maken zoals in tabel E3 gebeurd is, zie ook figuur E.8. Het uitrekenen van een Chi‐kwadraat in Excel is lastig. Beter kun je gebruikmaken van een van de “Chi square calculators” op internet. In het voorbeeld in figuur E.13 is gebruik gemaakt van de ‘calculator’ die je kunt vinden op: http://faculty.vassar.edu/lowry/newcs.html 

 

Figuur E.13 Het berekenen van de t‐toets met het onderdeel “T‐toets: twee steekproeven met ongelijke varianties” uit het “Gegevensanalyse”‐menu. 

Je ziet (Figuur E.13) dat de kans om op basis van toeval een verschil te vinden als in tabel E3, heel erg klein is (Chi2= 48,12; df= 1; p< .0001). Vrouwelijke studenten slagen dus significant vaker dan mannelijke studenten. 

 

Page 14: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 14 

© 2010 Noordhoff Uitgevers bv 

Het berekenen van een samenhang 

Wanneer je wilt weten of er een verband is tussen de hoeveelheid tijd die een student gestudeerd heeft en het resultaat op zijn toets, is het verstandig om eerst een spreidingsdiagram te maken. Je markeert weer de kolommen van de twee variabelen waarvan Excel een spreidingdiagram moet maken; figuur E.14. Vervolgens klik je in het “Invoegen”‐menu op “Spreiding” en kiest daar voor de eerste grafiek met de bolletjes, zonder de lijntjes. 

 

 Figuur E.14 Het maken van een spreidingsdiagram. 

Het resultaat is een puntenwolk, die min of meer een stijgende lijn vormt. Wil je die lineaire (regressie)lijn laten trekken, ga dan op een van de puntjes staan en klik op je rechtermuisknop, je komt dan in het menu zoals in figuur E.15. Hier moet je kiezen voor “Lineair”, je wilt immers een rechte lijn. Als je ook nog “Vergelijking in grafiek weergeven” en “R‐kwadraat in grafiek weergeven” aanklikt, vermeldt Excel de formule die bij de regressielijn hoort en de determinatiecoefficient (r2). Je ziet r2= 0,4358, dat betekent dat de  correlatie (r) √0,4358 = 0,66 is.  

Page 15: Het gebruik van Excel 2007 voor statistische analyses. Een ...hoadd.noordhoff.nl/sites/7729/_assets/7729d02.pdf · Je krijgt dan de tabel zoals in figuur E.8. Die moet je dan nog

Beknopte handleiding Excel 2007                   Statistiekkwartetspel              Ben Baarda; 2010  Pagina 15 

© 2010 Noordhoff Uitgevers bv 

Figuur E.15 Het maken van een regressielijn, regressieformule en het berekenen van r2 in een spreidingsdiagram. 

Als het een steekproef is, moet je weer vaststellen wat de kans is om op basis van toeval bij een steekproefomvang van 390 studenten een correlatie van 0,66 te vinden. Wanneer je een “r to P calculator” van internet gebruikt, zul je ontdekken dat die kans kleiner dan 0.0001 is; het kan dus vrijwel geen toeval zijn.