dictaatspss11v2new
-
Upload
dennis-claessens -
Category
Documents
-
view
177 -
download
2
Transcript of dictaatspss11v2new
Faculteit Wiskunde en Informatica
SPSS versie 11 voor het
Regulier Onderwijs
mei 2004
2
SPSS voor het Regulier Onderwijs Samenvatting In dit dictaat wordt het werken met het statistische pakket SPSS voor Windows behandeld, voor zover dat van belang is in het reguliere onderwijs aan de Technische Universiteit Eindhoven. Het gaat om een beperkt deel van het pakket. Meer uitgebreide informatie is te vinden in de manuals, zie VUBIS voor de locaties waar de documentatie kan worden ingezien. Dit dictaat bestaat uit vijf delen: Kennismaking met SPSS, Toetsen en schatten, Regressie-analyse, Variantie-analyse en Kansrekening met SPSS. Keywords SPSS, datafiles, statistics, EDA, histogram, distributions, sampling, crosstabulation, testing of a hypothesis, boxplot, regression, correlation, residuals, response surface, analysis of variance, LSD-test, interaction.
INHOUDSOPGAVE 1 KENNISMAKING MET SPSS .................................................................................... 5
1.1 Inleiding...............................................................................................................................................5
1.2 Algemeen .............................................................................................................................................5 1.2.1 Opstarten.......................................................................................................................................5
1.3 Het werken met datafiles ...................................................................................................................6 1.3.1 Het invoeren van data in een lege datafile ....................................................................................6 1.3.2 Het opslaan en benoemen van een datafile ...................................................................................7 1.3.3 Het openen van een datafile..........................................................................................................7 1.3.4 Het aanbrengen van mutaties in een bestaande file ......................................................................7 1.3.5 Het laten uitvoeren van statistische analyses ................................................................................9
1.4 Voorbeeld ..........................................................................................................................................10 1.4.1 Creëren van een nieuw bestand ..................................................................................................11
1.5 Beschrijvende statistiek....................................................................................................................11 1.5.1 Datakentallen per variabele ........................................................................................................11 1.5.2 Datakentallen per deelgroep .......................................................................................................12 1.5.3 Dataweergave per variabele........................................................................................................13 1.5.4 Dataweergave per deelgroep.......................................................................................................14 1.5.5 Histogram ...................................................................................................................................15 1.5.6 Staafdiagram...............................................................................................................................16
1.6 Kansverdelingen ...............................................................................................................................17 1.6.1 Berekenen van kansverdelingen .................................................................................................17 1.6.2 Overzicht kansverdelingen .........................................................................................................17 1.6.3 Berekenen van kansen ................................................................................................................20 1.6.4 Berekenen van kritieke waarden.................................................................................................21 1.6.5 Steekproeven uit een kansverdeling ...........................................................................................22 1.6.6 Grafische controle op normaliteit ...............................................................................................22
1.7 Overzicht van besproken procedures .............................................................................................24
1.8 Opdrachten .......................................................................................................................................25 2 TOETSEN EN SCHATTEN....................................................................................... 32
2.1 Inleiding.............................................................................................................................................32
2.2 Toetsen en schatten bij één steekproef............................................................................................32
2.3 Toetsen en schatten bij twee steekproeven .....................................................................................35 2.3.1 Gepaarde waarnemingen ............................................................................................................35 2.3.2 Onafhankelijke steekproeven......................................................................................................38
2.4 Analyse van kruistabellen ................................................................................................................41
2.5 Overzicht van besproken procedures .............................................................................................43
2.6 Opdrachten .......................................................................................................................................44
3
3 REGRESSIE EN CORRELATIE ............................................................................... 48
3.1 Inleiding.............................................................................................................................................48
3.2 Samenhang tussen variabelen..........................................................................................................49 3.2.1 Grafische weergave ....................................................................................................................49 3.2.2 Correlatiecoëfficiënt ...................................................................................................................50
3.3 Enkelvoudige regressie.....................................................................................................................50 3.3.1 Modeltoetsen ..............................................................................................................................50 3.3.2 Analyse in SPSS .........................................................................................................................51
3.4 Meervoudige regressie......................................................................................................................56 3.4.1 Analyse in SPSS .........................................................................................................................56 3.4.2 Aanvullende uitvoer ...................................................................................................................59 3.4.3 Modeltoetsen ..............................................................................................................................59
3.5 Modelcontrole ...................................................................................................................................60 3.5.1 Vergelijk waargenomen en voorspelde waarden ........................................................................61 3.5.2 Normal Probability Plot van residuen.........................................................................................62 3.5.3 Residuen tegen voorspelde waarde.............................................................................................63 3.5.4 Residuen tegen index..................................................................................................................65 3.5.5 Residuen tegen variabele ............................................................................................................66 3.5.6 Polynoomregressie......................................................................................................................68
3.6 Overzicht van besproken procedures .............................................................................................70
3.7 Opdrachten .......................................................................................................................................71 4 VARIANTIEANALYSE ............................................................................................ 78
4.1 Inleiding.............................................................................................................................................78
4.2 Enkelvoudige variantieanalyse ........................................................................................................78 4.2.1 Algemeen....................................................................................................................................78 4.2.2 Procedureaanroep en rechtstreekse uitvoer.................................................................................78 4.2.3 Boxplots......................................................................................................................................79 4.2.4 Verwachtingswaarde per deelgroep............................................................................................79 4.2.5 Verschillen tussen twee deelgroepen..........................................................................................81 4.2.6 Modelaannamen..........................................................................................................................82
4.3 Enkelvoudige variantieanalyse met verblokking ...........................................................................84 4.3.1 Algemeen....................................................................................................................................84 4.3.2 Procedureaanroep en rechtstreekse uitvoer.................................................................................85 4.3.3 Boxplots......................................................................................................................................88 4.3.4 Verwachtingswaarden per deelgroep..........................................................................................89 4.3.5 Verschillen tussen deelgroepen ..................................................................................................90 4.3.6 Modelaannamen..........................................................................................................................91
4.4 Meervoudige variantieanalyse.........................................................................................................93 4.4.1 Algemeen....................................................................................................................................93 4.4.2 Procedureaanroep en rechtstreekse uitvoer.................................................................................93 4.4.3 Boxplots......................................................................................................................................95 4.4.4 Verwachtingswaarden per deelgroep..........................................................................................96 4.4.5 Interacties ...................................................................................................................................97 4.4.6 Modelaannamen..........................................................................................................................99
4.5 Overzicht van besproken procedures ...........................................................................................102
4.6 Opdrachten .....................................................................................................................................103
4
5 KANSREKENING MET SPSS ................................................................................ 110
5.1 Inleiding...........................................................................................................................................110
5.2 Gebruik van kansverdelingsfuncties.............................................................................................111
5.3 SPSS-syntax en plotten van kansverdelingen...............................................................................114
5.4 Centrale Limietstelling...................................................................................................................117
5.5 Minimale steekproefomvang..........................................................................................................119
1 Kennismaking met SPSS
1.1 Inleiding Dit eerste hoofdstuk is bedoeld om vertrouwd te raken met mogelijkheden en gebruik van SPSS. In het eerste gedeelte bespreken we een aantal algemene zaken die noodzakelijk zijn om aan de slag te kunnen gaan. Het gaat daarbij om het opstarten van het pakket, het werken met datafiles, analyses, de Menu Bar, de Application Toolbar en het Output Window. In het tweede gedeelte demonstreren we het gebruik van statistische procedures binnen SPSS aan de hand van enkele toepassingen rond: • beschrijvende statistiek • verdelingsfuncties en kansdichtheden
1.2 Algemeen
1.2.1 Opstarten We gaan er van uit dat op uw PC SPSS is geïnstalleerd. Is dit niet het geval dan moet u het zelf op uw eigen PC installeren, bijvoorbeeld via Outlook. Als we SPSS hebben opgestart, verschijnt de SPSS Data Editor en tevens een Dialog Box, waarin we kunnen kiezen welke handeling we als eerste actie graag zouden willen uitvoeren. We nemen echter aan dat we de Dialog Box negeren. Het window dat we nu zien, is dit:
5
Als we een lege cel aanklikken en daarna iets intypen, komt dat hier in het witte gedeelte en in de cel zelf te staan. Als we daarneen willekeurige andere cel aanklikken, wordt de ingetikte waarde afgerond of aangevuld met nullen, afhankelijk van het type en formaat van de variabele.
a
In deze rij komen de namen van de variabelen van de datafile te staan.
In deze cellen komen de data te staan. Elke rij wordt voorafgegaan door een rijnummer, oftewel het nummer van de observatie. Het rijnummer is zwart gekleurd indien de betreffende rij data en/of missing data bevat en is anders grijs.
Data View en Variable View. Standaard is altijd Data View actief, zodat we data in kunnen typen of bekijken. In Variable View kunnen we o.a. naam en type van een variabele wijzigen.
Onder het IconDialog Recallstaan de tien uitganalyses.we dezelfdsoort ananog eens willen uitvoerekunnen we die hier aanklikkenDit gaat sdan via dMenu balk
laatste evoerde Als
e lyse
n,
. neller e
.
In de Menu balk kunnen we de analyses en data-bewerkingen kiezen die we willen uitvoeren.
1.3 Het werken met datafiles 1.3.1 Het invoeren van data in een lege datafile Tik de gewenste waarde in in een lege cel. Als we nu een willekeurige andere cel selecteren, wordt de ingetikte waarde eventueel afgerond of aangevuld met nullen. We zien dat de kolom waarin we iets hebben geplaatst nu een naam heeft gekregen: var00001. Dit is de (default) naam van de variabele, waarvan de waarden in de cellen van de eerste kolom staan. Hebben we deze waarde in de meest bovenste cel ingevuld, dan is dat ook de enige waarde van var00001: de lengte van var00001 is dan gelijk aan 1. Als we alleen iets in een lagere cel ingevuld hebben, bevatten alle cellen daarboven nu een punt en dit betekent: missing data. De lengte van de variabele(n) kunnen we aflezen aan de rijnummers van de datafile. Het onderste nummer dat nog zwart gekleurd is, geeft de lengte van de variabele(n) aan. In principe hebben alle variabelen gelijke lengte, een eventueel verschil wordt opgevuld met missing data. Ook is het altijd zo, dat de meest linkse k kolommen een naam hebben. De kolommen die zich rechts daarvan bevinden, hebben geen naam en bevatten alleen lege cellen. De default namen zijn var00001, var00002, enz. We willen de naam var00001 straks wijzigen, omdat die weinig-zeggend is. Van belang zijn ook de attributen van var00001, o.a. Type en Decimals. Standaard is het type Numeric en Decimals 2 en dit betekent bijvoorbeeld dat als we 1 hebben ingetikt, er in de cel 1.00 komt te staan en dat als we b.v. ‘a’ intikken, dit wordt geweigerd. Dit betekent ook dat als we b.v. 1.237 hebben ingetikt, er komt te staan 1.24. Echter, intern wordt wel gerekend met 1.237 en ook als we later deze cel opnieuw selecteren, verschijnt in de witte balk boven de datafile de waarde 1.237. In zo’n geval is het niet ondenkbaar, dat we het attribuut Decimals van deze variabele willen wijzigen in 3, zodat we 3 decimalen achter de punt krijgen te zien in plaats van 2. Dit komt verderop nog aan de orde.
6
Ook het label van een variabele kan een belangrijke rol spelen. Het is namelijk mogelijk om zowel aan de naam van de variabele als aan elk van z’n waarden een label te hangen. In de standaardsituatie zijn er nog geen labels. De naam van een variabele wordt vaak zo gekozen, dat die uitdrukt wat die variabele voorstelt. Hier zijn echter maar 8 karakters voor ter beschikking en dit is soms te weinig. In een label kan een langere tekst worden opgenomen. Hier komen we nog op terug. Het is ook mogelijk aan de waarde van een variabele een label te hangen. Dit wordt vooral gedaan bij variabelen van het type Numeric en Decimals 0, Ordinal of Nominal, d.w.z. kleine integers, niet al te veel verschillende waarden, waarbij iedere waarde z’n eigen betekenis heeft, bijvoorbeeld bij variantieanalyse met nominale variabelen. In een statistische analyse wordt t.a.v. de output met deze labels rekening gehouden.
1.3.2 Het opslaan en benoemen van een datafile Dit gaat net als in andere Windows-toepassingen. Alle files in SPSS die data bevatten voor statistische analyses hebben als achtervoegsel sav, de files met output spo. De gewenste filenaam kunnen we intikken zonder het achtervoegsel (dit wordt automatisch toegevoegd).
1.3.3 Het openen van een datafile Ook het openen van een file gaat net als in andere Windows-toepassingen. Als we een datafile willen openen waar we onlangs mee hebben gewerkt, dan hebben we nog twee manieren om deze te openen: geef gelijk bij het opstarten aan welke file er geopend moet worden of klik op File/Recently Used Data. Natuurlijk kunnen we ook een nieuwe, lege datafile openen door op File/New/Data te klikken.
1.3.4 Het aanbrengen van mutaties in een bestaande file • In Data View
1. De waarde in een cel kunnen we wijzigen door de cel te selecteren en de gewenste waarde in te voeren.
2. Een nieuwe variabele invoegen of een nieuwe observatie tussenvoegen doen we door met de rechter muisknop te klikken op de naam van de variabele resp. de case waar we een nieuwe variabele resp. case voor willen zetten en te kiezen voor Insert variables resp. cases. Hiervoor zijn ook knoppen in de toolbar aanwezig (6e resp. 7e van rechts). De nieuwe variabele resp. case komt in de kolom resp. rij vóór de aangeklikte cel.
3. Meer waarden, variabelen of observaties knippen, plakken, kopiëren, verwijderen. Data kunnen we m.b.v. de muis of het toetsenbord (Shift, Ctrl en pijltje) blokken. Het blok wordt zwart, behalve de cel waarmee we begonnen zijn, die alleen verdikte randen heeft. Een hele rij of kolom kunnen we selecteren door een van de rij- of kolomnummers aan te klikken. Door te slepen kunnen we zo ook meerdere rijen of kolommen selecteren. Een geselecteerd blok kunnen we knippen, plakken, kopiëren of verwijderen.
7
Let er bij plakken op dat als we een blok naar een plaats kopiëren die (gedeeltelijk) binnen de kolommen van de datafile zelf ligt, de types van de variabelen in het blok en de variabelen die horen bij de kolommen waar we het blok naar toe kopiëren hetzelfde zijn. Als we een blok op een plaats zetten die buiten de kolommen van de datafile zelf ligt, komen er nieuwe variabelen bij (met default namen) en worden de attributen van die variabelen hetzelfde als die van de oorspronkelijke variabelen in het blok.
• In Variable View
Hier kunnen we naam, type, labels en andere attributen van een variabele wijzigen of invoeren. Dit wijst zich vanzelf. Een paar opmerkingen:
1. Name Als we in een nog lege rij een nieuwe variabelenaam invoeren, krijgen de overige attributen automatisch default waarden (zoals hierboven afgebeeld).
2. Width en Decimals Width en Decimals horen eigenlijk bij het type van de variabele en in sommige gevallen doet hun waarde er niet toe, b.v. Width is wel van belang als een variabele van het type String is, maar niet als de variabele van het type Numeric is en bij Decimals is dit net andersom.
3. Label en Value Onder Value kunnen we aangeven welk getal in de datafile staat voor welke betekenis. Als we in Data View met de muis bewegen over de variabele met een label, dan zien we de naam van het label verschijnen. Als we het Icon met het label erop aanklikken, veranderen de waarden van de variabele in de betekenis die er met behulp van het label aan gegeven is.
4. Missing Meestal wordt hiervoor een waarde gebruikt die de variabele feitelijk onmogelijk kan hebben.
8
1.3.5 Het laten uitvoeren van statistische analyses Hebben we een correct ingevoerde datafile, dan kunnen we op één of meer variabelen daarvan een statistische analyse uitvoeren. Een opmerking vooraf: het is verstandig de data te saven voordat we een analyse gaan uitvoeren. SPSS heeft een breed scala aan (grafische) mogelijkheden om data te analyseren en te interpreteren. We kunnen bijvoorbeeld van een of meer variabelen een aantal statistische grootheden laten uitrekenen via Analyze/Descriptive Statistics/Descriptives. We kunnen dan de variabele(n) selecteren die we willen laten analyseren. Via de knop Options kunnen we aangeven welke statistische grootheden we willen laten berekenen. In het geval van meer variabelen kunnen we ook nog kiezen uit een aantal criteria, die de volgorde bepalen van de variabelen in de output (onder Display Order). Variable List betekent daar dat de volgorde van de variabelen in de output hetzelfde is als de volgorde waarin we de variabelen in de eerste Dialog Box hebben meegegeven. Via Continue komen we weer in de vorige Dialog Box terecht. Klik nu op OK. In de onderste grijze balk krijgen we de melding Running Descriptives en als het systeem klaar is zien we een Output Window (zie hieronder).
Hier staat met behulp van icons en tekst een korte samenvatting van de output, die aan de rechterkant staat.
Hier staat de output van de uitgevoerde analyses. De output kunnen we selecteren en kopiëren naar bijv. een Word-bestand via ‘Copy Objects’. Ook kunnen we de tabellen, grafieken e.d. aanpassen met Chart Object resp. Pivot Table Object (rechtermuisknop), zie ook §1.5.5.
Via de knop Goto Data of via Window komen we van de output-file weer terug in de datafile.
9
1.4 Voorbeeld Als voorbeeld nemen we de stuwkrachtgegevens van een drietal motortypen A, B en C, zoals weergegeven in onderstaande tabel:
A B C
999.5 1001.4
996.8 1000.2 1002.0
999.5 1000.9
997.8 995.9
¦ 1002.7
999.1 995.8 999.8 998.4 997.8
1001.7 998.7
1000.4 995.7
¦ 998.5
1006.5 1000.2 1005.3
998.4 1004.3 1001.8
998.8 1005.6 1003.8
¦ 1003.5
Merk daarbij het volgende op: • Stuwkrachtgegevens zijn data van het type Numeric met Decimals gelijk aan 1.
Motortypes zijn in principe letters, dus eigenlijk van het type String, maar in SPSS zal dit moeten worden doorgegeven via een variabele van het type Numeric met Decimals gelijk aan 0, anders kunnen sommige analyses niet gedaan worden. Omdat er 3 verschillende codes zijn, zouden we deze kunnen weergeven met de waarden resp. 1, 2 en 3, waaraan we de labels resp. A, B en C toevoegen.
• De tabelindeling met drie kolommen stemt hier niet met de bestandsindeling overeen: er zijn immers per meting slechts twee grootheden van belang, namelijk motortype (groep) en stuwkracht. Het feitelijk bestand bevat dus twee variabelen (en niet drie):
¦ ¦
10
1.4.1 Creëren van een nieuw bestand Start in SPSS een lege datafile op. Geef de eerste kolom de naam van de eerste variabele, in dit voorbeeld groep. Geef in Variable View de gewenste attributen mee. Vul nu de naam van de tweede variabele in, in het voorbeeld stuwkr. Ook deze variabele voorzien we van de gewenste attributen. Desgewenst kunnen we bij Label een langere naam voor de variabele meegeven. Willen we aan bepaalde waarden van de variabele labels meegeven, dan kunnen we dit aangeven onder Values. In het voorbeeld noemen we groep onder Label motortype en kennen we via Values in de Dialog Box de labels A, B en C toe aan de waarden 1,2 en 3. We zien onder Values nu staan: {1,A}... (i.p.v. None). Als alle variabelen gedefinieerd zijn, kan het invullen van de data beginnen. We vullen de gegevens cel voor cel in in Data View. We kunnen controleren of de labels van de variabelen er staan door met de muis te bewegen boven de grijze balken waaronder de data staan. Ook kunnen we klikken op de knop met het label erop in de Application Toolbar. Als alles in orde is bevonden, kunnen we de file saven. De datafile van het voorbeeld heet vb1.4.sav.
1.5 Beschrijvende statistiek Bij het analyseren van gegevens is het vaak zinvol om eerst een globale indruk (grafisch en d.m.v. kentallen) op te doen van de beschikbare data, alvorens meer geavanceerde technieken toe te passen. De beschrijvende statistiek biedt daartoe een aantal mogelijkheden. In de volgende paragrafen komen enkele technieken aan bod voor het berekenen van kentallen (gemiddelde, standaardafwijking en dergelijke) en het weergeven van data in een figuur. De bespreking is verre van volledig: zelf experimenteren, eventueel met behulp van de Help-functie, binnen de mogelijkheden van Graphs, Analyze, Reports, Descriptive Statistics, Custom Tables, Compare Means, etc. op de Menu balk wordt daarom aanbevolen. Bij de voorbeelden maken we gebruik van de stuwkrachtdata uit de vorige paragraaf, vb1.4.sav.
1.5.1 Datakentallen per variabele Het berekenen van bepaalde kentallen (gemiddelde, range, deviatie, etc.) van de ingevoerde data gaat als volgt:
• Klik op Analyze/Descriptive Statistics /Descriptives. • We krijgen nu de Descriptives Dialog Box, waarin we eerst de variabele stuwkr
onder Variable(s) moeten zetten. • Klik op Options, waarna er een nieuwe Dialog Box verschijnt, waarin aangegeven
kan worden welke grootheden er berekend moeten worden. We willen nu berekenen: het gemiddelde, de variantie, de standaarddeviatie, het minimum, het maximum en de range (de mediaan hadden we ook wel willen laten uitrekenen, maar die staat er helaas niet bij. De mediaan is wel te verkrijgen via bijvoorbeeld Analyze/Custom Tables/Basic Tables). De keuzemogelijkheden bij Display Order zijn in dit geval irrelevant, omdat we maar één variabele aan het analyseren zijn.
• We klikken nu op Continue en daarna op OK. We krijgen nu het Output Window met daarin het volgende resultaat:
Descriptive Statistics
306 20.5 992.0 1012.5 1001.052 3.717 13.813306
STUWKRValid N (listwise)
N Range Minimum Maximum MeanStd.
Deviation Variance
11
1.5.2 Datakentallen per deelgroep Soms is het zinvol om de kentallen per deelgroep te bepalen (bijvoorbeeld per motortype A, B of C).
• Klik op Analyze/Compare Means/Means. • Zet de variabele stuwkr onder Dependent List en de variabele groep onder
Independent List. • Klik op Options. Zet alle grootheden die we willen laten uitrekenen aan de
rechterkant, in de volgorde waarin we ze in de tabel willen zien. De grootheden die we willen berekenen zijn: het aantal, het gemiddelde, de standaarddeviatie, de mediaan, het minimum en maximum, de range en de variantie (de eerste drie staan er al).
• Klik op Continue en op OK (wordt in vervolg niet meer vermeld). Dit geeft als resultaat:
Report
STUWKR
102 999.613 2.095 999.439 995.5 1005.8 10.3 4.388102 998.993 2.814 998.800 992.0 1006.0 14.1 7.920102 1004.551 3.266 1004.460 995.0 1012.5 17.5 10.666306 1001.052 3.717 1000.515 992.0 1012.5 20.5 13.813
motortypeABCTotal
N MeanStd.
Deviation Median Minimum Maximum Range Variance
12
1.5.3 Dataweergave per variabele Een vorm om enkele statistische kentallen van een dataset grafisch weer te geven is de z.g. Box-and-Whisker plot, kortweg: boxplot. In SPSS kunnen we een boxplot als volgt verkrijgen:
• Klik op Graphs/Boxplot. • In de Dialog Box klikken we op Simple en bij Data in Chart Are klikken we op
Summaries of Separate Variables, omdat we de stuwkrachtdata in één boxplot willen hebben en niet uitgesplitst naar de verschillende groepen.
• Daarna klikken we op Define en vullen we onder Boxes Represent de variabele stuwkr in.
Als resultaat krijgen we:
306N =
STUWKR
1020
1010
1000
990
241
De figuur die we krijgen geeft informatie over locatie, spreiding en scheefheid van de data. De ‘box’ wordt gevormd door de waarde van het eerste en derde kwartiel. De afstand hiertussen, de z.g. interkwartielafstand, is een maat voor de spreiding. De lijn in de ‘box’ geeft de mediaan, een maat voor de locatie. De positie ervan binnen de box (nl. al dan niet in het midden) geeft een globale indicatie voor de scheefheid van de verdeling. De lengte van de whiskers is maximaal 1.5 maal de interkwartielafstand. Vallen er data buiten de maximale lengte van de whiskers, dan worden deze apart weergegeven en als uitschieters aangemerkt. In dit geval is er één uitschieter naar boven, namelijk observatie nummer 241.
13
1.5.4 Dataweergave per deelgroep Omdat we de boxplot ook per groep willen bekijken, gaan we weer naar Graphs/Boxplot.
• We klikken weer op Simpel, maar bij Data in Chart Are klikken we nu op Summaries for groups of cases. We willen de stuwkrachtdata nu namelijk wel uitgesplitst naar groep bekijken en onderling vergelijken.
• Daarna klikken we weer op Define en zetten we bij Variable: stuwkr en bij Category Axis: groep.
Het resultaat staat hieronder.
102102102N =
motortype
CBA
STU
WK
R
1020
1010
1000
990
215
29
Onderling vergelijk op locatie, spreiding en scheefheid is eenvoudiger dan bij de berekende kentallen in §1.5.2: we kunnen nu in één oogopslag zien dat motortype C qua locatie duidelijk verschilt van motortype A en B en dat motortype A een kleinere spreiding heeft dan motortype B en C. In motortype A zien we één uitschieter naar boven, in motortype C één uitschieter naar beneden. Merk op dat observatie nummer 241, die we in de vorige boxplot als uitschieter zagen, in deze boxplot niet als uitschieter wordt aangemerkt en dat de uitschieters die we hier wel zien, niet te zien waren in de boxplot waarin we de motortypen samengenomen hadden.
14
1.5.5 Histogram Kwantitatieve data kunnen ook in een histogram weergegeven worden. In SPSS kan als volgt een histogram gemaakt worden:
• Klik Graphs/Histogram. • Vul bij Variabele stuwkr in.
Het resultaat staat hieronder.
STUWKR
1012.0
1010.0
1008.0
1006.0
1004.0
1002.0
1000.0
998.0996.0
994.0992.0
50
40
30
20
10
0
Std. Dev = 3.72 Mean = 1001.1N = 306.00
We krijgen een histogram met 22 klassen. De klassebreedte is 1 en de klassemiddens staan om en om in de X-as aangegeven. Stel, we willen het aantal klassen wijzigen in 16. Dit gaat als volgt:
• Selecteer het histogram, klik er met de rechtermuisknop op en klik daarna op SPSS Chart Object/Open. In plaats hiervan kunnen we ook op het histogram dubbelklikken.
• We krijgen een nieuw window met de Chart Editor. Selecteer in de Chart Editor de waarden van de klassemiddens door op één ervan te klikken.
• Klik daarna op Chart/Axis. We krijgen nu de Interval Axis Dialog Box. Klik onder Intervals op Custom in plaats van Automatic.
• Klik vervolgens op Define. Nu kunnen we 22 in 16 veranderen. • Sluit de Chart Editor af en keer zo terug in het Output Window.
Het resultaat staat hieronder. Opmerking: via de Chart Editor kunnen ook allerlei andere dingen worden aangepast, zoals het lettertype, de kleur, enz. Tabellen kunnen op dezelfde manier worden aangepast via de SPSS Pivot Table Object.
15
STUWKR
1011.4
1008.7
1005.9
1003.2
1000.4
997.7994.9
992.2
60
50
40
30
20
10
0
Std. Dev = 3.72 Mean = 1001.1N = 306.00
1.5.6 Staafdiagram Voor de presentatie van kwalitatieve data is o.a. een staafdiagram geschikt. Een staafdiagram krijgen we als volgt:
• Klik op Graphs/Bar en in de Dialog Box op Simple. • Selecteer bij Data in Chart Are Summaries for groups of cases. • Klik op Define. Bij Bars Represent moet N of cases geselecteerd zijn. • Vul bij Category Axis de variabele groep in.
Hieronder staat het resultaat.
motortype
CBA
Cou
nt
110
100
90
80
70
60
50
In dit voorbeeld zijn van elk motortype evenveel exemplaren, dus de drie staven zijn even hoog. Indien gewenst, kunnen de staven ook horizontaal krijgen i.p.v. verticaal. Dit gaat via de Chart Editor (zie §1.5.5), klik op Swap Axes en sluit daarna de Chart Editor weer af.
16
1.6 Kansverdelingen Bij het werken met kansen spelen verdelingsfuncties en kansdichtheden een belangrijke rol. SPSS biedt de mogelijkheid om een aantal standaard kansverdelingen te berekenen. Ook is het mogelijk om steekproeven uit een verdeling te trekken, bijvoorbeeld om een steekproefverdeling te simuleren.
1.6.1 Berekenen van kansverdelingen Het berekenen van kansen kan binnen SPSS als volgt:
• Klik op Transform /Compute. We kunnen nu een aantal (kans)functies laten uitrekenen en random trekkingen doen. Voorwaarde is wel, dat we niet een geheel lege datafile hebben.
• Bij Target Variable vullen we de naam van de variabele in die de te berekenen waarden moet gaan bevatten. Dit kan een variabele zijn die reeds bestaat (die wordt dan overschreven), maar dat hoeft niet.
• Onder Functions zien we dat er behalve statistische, ook numerieke functies beschikbaar zijn. De statistische functies nemen we straks kort even door. We kunnen een functie onder Numeric Expression zetten. Er komen dan één of meer vraagtekens bij, gescheiden door komma’s. Dit zijn de parameters, die we moeten invullen met een waarde (van het type Numeric of String) of de naam van een bestaande variabele. Functiewaarden die niet berekend kunnen worden (b.v. ln(0)) leveren missing data op. In zo’n geval krijgen we wel een melding in het Output Window. Functies met in één van de argumenten missing data leveren opnieuw missing data op. Het is ook mogelijk om functiewaarden alleen uit te rekenen indien aan een zekere voorwaarde is voldaan. Klik hiertoe op de knop If. Klik if case satisfies condition aan. Daaronder kunnen we de voorwaarde invullen. Klik op Continue en, mits de ingevulde voorwaarde syntactisch correct is, op OK. Alle plaatsen die niet aan de voorwaarde voldoen, leveren missing data op.
1.6.2 Overzicht kansverdelingen Hieronder volgt een overzicht van de beschikbare statistische verdelingsfuncties. • De eerste kolom geeft de naam van de functie zoals hij staat aangegeven in de
ruimte onder Functions in de Compute Variable Dialog Box, zonder de parameters. De functies met voorvoegsel CDF berekenen de cumulatieve kans, die met voorvoegsel PDF de kans(dichtheid), die met voorvoegsel IDF de inverse cumulatieve kans en die met RV beginnen, geven een random trekking uit de genoemde verdeling.
• De tweede kolom geeft de parameters van de desbetreffende functie. Staan er drie puntjes na één parameter, dan betekent dat dat de desbetreffende functie een willekeurig aantal (minstens twee) parameters mag hebben.
• In de derde kolom staat een C als het een continue functie betreft en een D als het een discrete functie betreft.
• In de vierde kolom staat een korte beschrijving van de desbetreffende functie. Voor een meer uitgebreide functiebeschrijving en de betekenis van de parameters wordt verwezen naar de literatuur en de Help functie binnen de Transform/Compute Dialog Box. Door herhaald te klikken op See Also, daarna op het gewenste item, vervolgens op Display, krijg je meer informatie over de gewenste functie.
17
Functie parameters C/D Omschrijving
CDFNORM zvalue C Cum. standaardnormale verdeling CDF.BERNOULLI q, p D Cum. Bernoulli verdeling CDF.BETA q,shape1,shape2 C Cum. Beta verdeling CDF.BINOM q,n,p D Cum. Binomiale verdeling CDF.BVNOR q1,q2,r C Cum. standaard bivar. norm. verd. CDF.CAUCHY q,loc,scale C Cum. Cauchy verdeling CDF.CHISQ q,df C Cum. Chisquare verdeling CDF.EXP q,scale C Cum. exponentiële verdeling CDF.F q,df1,df2 C Cum. Fisher verdeling CDF.GAMMA q,shape,scale C Cum. Gamma verdeling CDF.GEOM q,p D Cum. geometrische verdeling CDF.HALFNRM q,threshold,scale C Cum. halfnormale verdeling CDF.HYPER q,total,sample,hits D Cum. hypergeometrische verdeling CDF.LAPLACE q,mean,scale C Cum. Laplace verdeling CDF.LOGISTIC q,mean,scale C Cum. Logistische verdeling CDF.LNORMAL q,a,b C Cum. Lognormale verdeling CDF.NEGBIN q,threshold,p D Cum. negatieve Binomiale verd. CDF.NORMAL q,mean,stddev C Cum. Normale verdeling CDF.PARETO q,threshold,shape C Cum. Pareto verdeling CDF.POISSON q,mean D Cum. Poisson verdeling CDF.SMOD q,size,df C Cum. gestudent. max. modulus CDF.SRANGE q,size,df C Cum. gestudent. range statistic CDF.T q,df C Cum. Student verdeling CDF.UNIFORM q,min,max C Cum. Uniforme verdeling CDF.WEIBULL q,a,b C Cum. Weibull verdeling CFVAR numexpr, … C Var. coëff. van de par. waarden IDF.BETA p,shape1,shape2 C Inverse cum. Beta verdeling IDF.CAUCHY p,loc,scale C Inverse cum. Cauchy verdeling IDF.CHISQ p,df C Inverse cum. Chisquare verdeling IDF.EXP p,scale C Inverse cum. exponentiële verd. IDF.F p,df1,df2 C Inverse cum. Fisher verdeling IDF.GAMMA p,shape,scale C Inverse cum. Gamma verdeling IDF.HALFNRM q,threshold,scale C Inverse cum. halfnormale verd. IDF.IGAUSS q,mean,scale C Inverse cum. Gauss verdeling IDF.LAPLACE p,mean,scale C Inverse cum. Laplace verdeling IDF.LOGISTIC p,mean,scale C Inverse cum. Logistische verdeling IDF.LNORMAL p,a,b C Inverse cum. Lognormale verdeling IDF.NORMAL p,mean,stddev C Inverse cum. Normale verdeling IDF.PARETO p,threshold,shape C Inverse cum. Pareto verdeling IDF.SMOD p,size,df C Inverse cum. gestud. max. modulus IDF.SRANGE p,size,df C Inverse cum. gestud. range statistic IDF.T p,df C Inverse cum. Student verdeling IDF.UNIFORM p,min,max C Inverse cum. uniforme verdeling IDF.WEIBULL p,a,b C Inverse cum. Weibull verdeling MIN value, … C Minimum van de par. waarden MEAN numexpr, … C Gemiddelde van de par. waarden MAX value, … C Maximum van de par. waarden NCDF.BETA q,shp1,shp2,nc C Niet-centrale cum. Beta verdeling NCDF.CHISQ q,df,nc C Niet-centrale cum. Chisquare verd. NCDF.F q,df1,df2,nc C Niet-centrale cum. Fisher verdeling NCDF.T q,df,nc C Niet-centrale cum. Stud. verdeling NORMAL stddev C Random trekking Normale verd.
18
(gemiddelde 0) NPDF.BETA q,shp1,shp2,nc C Niet-centrale Beta verdeling NPDF.CHISQ q,df,nc C Niet centrale Chisquare verdeling NPDF.F q,df1,df2,nc C Niet-centrale Fisher verdeling NPDF.T q,df,nc C Niet-centrale Student verdeling PDF.BERNOULLI q,p D Bernoulli verdeling PDF.BETA q,shape1,shape2 C Beta verdeling PDF.BINOM q,n,p D Binomiale verdeling PDF.BVNOR q1,q2,r C Standaard Bivariate Normale verd. PDF.CAUCHY q,loc,scale C Cauchy verdeling PDF.CHISQ q,df C Chisquare verdeling PDF.EXP q,scale C Exponentiële verdeling PDF.F q,df1,df2 C Fisher verdeling PDF.GAMMA q,shape,scale C Gamma verdeling PDF.GEOM q,p D Geometrische verdeling PDF.HALFNRM q,threshold,scale C Halfnormale verdeling PDF.HYPER q,total,sample,hits D Hypergeometrische verdeling PDF.IGAUSS q,mean,scale C Gauss verdeling PDF.LAPLACE q,mean,scale C Laplace verdeling PDF.LNORMAL q,a,b C Lognormale verdeling PDF.LOGISTIC q,mean,scale C Logistische verdeling PDF.NEGBIN q,threshold,p D Negatief Binomiale verdeling PDF.NORMAL q,mean,stddev C Normale verdeling PDF.PARETO q,threshold,shape C Pareto verdeling PDF.POISSON q,mean D Poisson verdeling PDF.T q,df C Student verdeling PDF.UNIFORM q,min,max C Uniforme verdeling PDF.WEIBULL q,a,b C Weibull verdeling PROBIT prob C Inverse cum. stand. Norm. verd. RV.BERNOULLI p D Random trekking Bernoulli verd. RV.BETA shape1,shape2 C Random trekking de Beta verd. RV.BINOM n,p D Random trekking Binomiale verd. RV.CAUCHY loc,scale C Random trekking Cauchy verd. RV.CHISQ df C Random trekking Chisquare verd. RV.EXP scale C Random trekking expon. verd. RV.F df1,df2 C Random trekking Fisher verd. RV.GAMMA shape,scale C Random trekking Gamma verd. RV.GEOM p D Random trekking Geometr. verd. RV.HALFNRM threshold,scale C Random trekking halfnorm. verd. RV.HYPER total,sample,hits D Random trekking Hypergeo. verd. RV.IGAUSS mean,scale C Random trekking inv. Gauss verd. RV.LAPLACE mean,scale C Random trekking Laplace verd. RV.LOGISTIC mean,scale C Random trekking Logistische verd. RV.LNORMAL a,b C Random trekking Lognormale verd.RV.NEGBIN threshold,p D Random trekking neg. Binom. verd.RV.NORMAL mean,stddev C Random trekking Normale verd. RV.PARETO threshold,scape C Random trekking Pareto verd. RV.POISSON mean D Random trekking Poisson verd. RV.T df C Random trekking Student verd. RV.UNIFORM min,max C Random trekking Uniforme verd. RV.WEIBULL a,b C Random trekking Weibull verd. SD numexpr, … C Stand. dev. van de par. rwaarden SUM numexpr, … C Som van de parameterwaarden
19
UNIFORM max C Random trekking Uniforme verd. (tussen 0 en opgegeven waarde) VARIANCE numexpr, … C Variantie van de par. waarden
1.6.3 Berekenen van kansen Met bovenstaande functies kunnen we allerlei kansen berekenen. Stel bv. we hebben een Binomiale verdeling met n = 25 en p = 0.2. We willen voor x = 0, 1, ... 25 de kans berekenen op x trekkingen. Allereerst maken we een variabele x met de waarden 0 t/m 25. Dit kan bijvoorbeeld als volgt (uitgaande van een nieuwe, lege datafile):
• Klik op Data/Go To Case. • Vul in de dialog Box in: 26 (het hoogste rijnummer). De cel met rijnummer 26 en
kolomnummer 1 heeft nu dik omlijnde randen. • Tik nu iets in (bijvoorbeeld 0). Als je nu een willekeurige ander cel aanklikt, zie je
dat je een variabele var00001 hebt met waarde 0 in rij 26 en missingdata in rij 1 t/m 25.
• Klik op Transform/Compute. Zet bij Target Variable: x en bij Numeric Expression: $casenum − 1. Klik op OK.
• De variable var00001 kunnen we verwijderen door de eerste kolom van de datafile te selecteren en daarna op delete te drukken.
Vervolgens kunnen we voor alle waarden van de variabele x de kans berekenen op hoogstens x trekkingen uit de genoemde Binomiale verdeling:
• Klik op Transform/Compute. • Zet bij Target Variable: s. • Zorg dat de ruimte onder Numeric Expression leeg is. • Klik onder Function op CDF.BINOM(q,n,p). • Klik op de pijl die naar boven wijst. In de ruimte onder Numeric Expression komt
nu te staan: CDF.BINOM(?,?,?). • Vul voor de eerste parameter in: x, voor de tweede 25 en de derde 0.2. • Klik op OK. We hebben nu een variabele s die aan de bovengenoemde kans
voldoet. • Verander het attribuut Width van s in b.v. 15 en Decimals in 8, zodat er meer
decimalen te zien zijn. Om de kans op precies x trekkingen te krijgen, moeten we nu nog van iedere waarde van s het verschil met z’n voorganger berekenen en de bovenste waarde van s kopiëren:
• Klik op Transform/Compute. • Zet bij Target Variable: p en bij Numeric Expression: s − lag(s). Klik op OK. • Kopieer de bovenste waarde van s naar de bovenste cel van p. • De variabele p bevat de gevraagde kansen.
Omdat we in SPSS 11 ook de beschikking hebben over de kans op één waarde (de PDF-functies voor discrete kansverdelingen) kan bovenstaand ook als volgt:
• Klik op Transform/Compute. • Zet bij Target Variable: p. • Zorg dat de ruimte onder Numeric Expression leeg is. • Klik in de ruimte onder Function op PDF.BINOM(q,n,p).
20
• Klik op de pijl die naar boven wijst. In de ruimte onder Numeric Expression komt nu te staan: PDF.BINOM(?,?,?).
• Vul voor de eerste parameter in: x, voor de tweede 25 en de derde 0.2. • Klik op OK. Je hebt nu een variabele p die aan de bovengenoemde kans voldoet. • Verander het attribuut Width van p in b.v. 15 en Decimals in 8, zodat je meer
decimalen ziet.
Het blijkt dat het resultaat nog iets nauwkeuriger is dan met de vorige methode. Bovenstaand resultaat kunnen we ook bereiken met behulp van een programma. Dat kan als volgt:
• Klik op File/New/Syntax. We krijgen de SPSS Syntax Editor. • Tik het programma in. Dat kan er als volgt uitzien:
input program. loop #i=1 to 26. compute x=#i-1. compute p=pdf.binom(x,25,0.2). end case. end loop. end file. end input program. execute.
• Klik op Run/All.
Voor uitgebreide informatie over programmeren in SPSS: klik op Help/Syntax Guide/ Base.
1.6.4 Berekenen van kritieke waarden Ook kritieke waarden kunnen we met bovengenoemde functies berekenen. We hebben dan de functies nodig die met IDF beginnen. Een voorbeeld: stel we willen de kritieke waarden weten van de normale verdeling voor σ = n/100, n = 1, ...100 met α = 0.05. We gaan weer uit van een lege datafile. Eerst maken we een variabele, bijvoorbeeld sigma, die de waarden 0.01, 0.02, …1.00 bevat:
• Klik op Data/Go To Case. • Zet in het veld achter case number: 100. • Klik op OK. • Vul een punt in het meest linkse veld met regelnummer 100. • Klik op Transform/Compute. • Zet bij Target Variable: sigma. • Zet in de ruimte onder Numeric Expression: $casenum∗0.01. • Klik op OK.
Nu gaan we de functie IDF.NORMAL voor de inverse van de cumulatieve normale verdeling aanroepen:
• Klik op Transform/Compute. • Zet bij Target Variable: x. • Zorg dat de ruimte onder Numeric Expression leeg is. • Klik onder Function op IDF.NORMAL(p,mean,stddev). • Klik op de pijl die naar boven wijst. In de ruimte onder Numeric Expression komt
nu te staan: IDF.NORMAL(?,?,?). • Vul voor de eerste parameter in: 0.95, voor de tweede 0 en voor de derde sigma. • Klik op OK. De variabele x bevat de gevraagde kritieke waarden.
21
1.6.5 Steekproeven uit een kansverdeling Ook kunnen er random trekkingen uit een verdeling genomen worden. Dan hebben we i.h.a. de functies die met RV beginnen nodig (i.g.v. een standaardnormale verdeling kan ook NORMAL gebruikt worden, dan hoeven we minder parameters in te vullen). Weer een voorbeeld: we willen 100 trekkingen uit een normale verdeling met gemiddelde 1 en standaarddeviatie 2. We gaan weer uit van een lege datafile.
• Klik op Data/Go To Case. • Zet in het veld achter case number: 100. • Klik op OK. • Vul een punt in het meest linkse veld met regelnummer 100. • Klik op Transform/Compute. • Zet bij Target Variable: x. • Zorg dat de ruimte onder Numeric Expression leeg is. • Klik onder Function op RV.NORMAL(mean,stddev). • Klik op de pijl die naar boven wijst. In de ruimte onder Numeric Expression komt
nu te staan: RV.NORMAL(?,?). • Vul voor de parameters in: 1, resp. 2. • Klik op OK. We hebben nu in de variabele x de 100 gevraagde aselecte trekkingen
uit de bovengenoemde kansverdeling staan.
1.6.6 Grafische controle op normaliteit Bij een aantal statistische procedures zal het nodig blijken te zijn om na te gaan in hoeverre data afkomstig kunnen zijn uit een normale verdeling. Een grafische manier om dit te controleren is om, als functie van een waarde x0, de feitelijke fractie van waarnemingen kleiner of gelijk aan x0 te vergelijken met de corresponderende cumulatieve kans P[X ≤ x0] van een geschikte normale verdeling. Zijn er grote verschillen, dan is dat een indicatie dat de aanname van een normale verdeling niet redelijk is. Wanneer de cumulatieve kansen op basis van de data in deze figuur duidelijk niet op een rechte lijn liggen is dit een indicatie dat niet voldaan lijkt te zijn aan de aanname van een normale verdeling. De normaliteit van de stuwkrachtdata van de verschillende motortypen in vb1.4.sav kunnen we in SPSS toetsen als volgt:
• Klik op Analyze/Descriptive Statistics/Explore. • Klik bij Display op Plots. • Vul bij Dependent List de variabele stuwkr in. • Vul bij Factor List de variabele groep in. • Klik op de knop Plots. • Selecteer bij Boxplot None. • Selecteer Normality plots with tests.
Bij Descriptive hoeft niets aangeklikt te staan. Dit geeft het volgende resultaat:
22
Tests of Normality
.070 102 .200* .987 102 .399
.056 102 .200* .991 102 .718
.064 102 .200* .989 102 .568
motortypeABC
STUWKRStatistic df Sig. Statistic df Sig.
Kolmogorov-Smirnova Shapiro-Wilk
This is a lower bound of the true significance.*.
Lilliefors Significance Correctiona.
Normal Q-Q Plot of STUWKR
For GROEP= A
Observed Value
1006100410021000998996994
Exp
ecte
d N
orm
al3
2
1
0
-1
-2
-3
Normal Q-Q Plot of STUWKR
For GROEP= B
Observed Value
10081006100410021000998996994992990
Exp
ecte
d N
orm
al
3
2
1
0
-1
-2
-3
Normal Q-Q Plot of STUWKR
For GROEP= C
Observed Value
102010101000990
Exp
ecte
d N
orm
al
3
2
1
0
-1
-2
-3
De datapunten in bovenstaande plaatjes liggen redelijk in de buurt van de rechte lijn. In de Kolmogorov-Smirnov test heeft Sig. in alle drie de gevallen een waarde die groter is dan 0.05. Er is dus geen reden om te twijfelen aan de normaliteit van de verzamelde data voor de verschillende motortypes.
23
1.7 Overzicht van besproken procedures
Omschrijving Menu Bar Dialog Box BESCHRIJVENDE STATISTIEK
Data kentallen per variabele
Analyze/Descriptive Statistics/Descriptives
Data variabele(n) meegeven In sub-Dialog Box: Stat. grootheden meegeven
Data kentallen per deelgroep
Analyze/Compare Means/Means
Data variabele(n) meegeven Categ. variabele(n) meegeven In sub-Dialog Box: Stat. grootheden meegeven
Data weergave per variabele Graphs/Boxplot Data variabele meegeven
Data weergave per deelgroep Graphs/Boxplot Data variabele meegeven
Categorie variabele meegeven Histogram Graphs/Histogram Data variabele meegeven Staafdiagram Graphs/Bar Categorie variabele meegeven
KANSVERDELINGEN EN KANSDICHTHEDEN
Kansen berekenen Transform/Compute Target variabele meegeven CDF-functie meegeven
Kansen terugrekenen Transform/Compute Target variabele meegeven IDF-functie meegeven
Aselecte trekkingen Transform/Compute Target variabele meegeven RV-functie meegeven
Controle op Normaliteit
Analyze/Descriptive Statistics/Explore
Data variabele meegeven In sub-Dialog Box: Normality Plot with tests
24
1.8 Opdrachten Werk, alvorens aan deze opdrachten te beginnen, de eerder beschreven voorbeelden door. Opdracht 1.1 De dataset Employee data.sav bevat gegevens van de werknemers van een middelgroot Amerikaans bedrijf. De volgende eigenschappen (variabelen) zijn in deze dataset opgenomen: Id werknemersnummer ter identificatie van een werknemer Gender het geslacht van de werknemer Bdate geboortedatum werknemer Educ aantal jaren opleiding Jobcat soort betrekking Salary actuele salaris in U.S. dollars per jaar Salbegin aanvangssalaris in U.S. dollars per jaar Jobtime aantal maanden in dienst Prevexp aantal maanden in dienst bij vorige betrekking(en) Minority indicatie of behorend bij een minderheidsgroep a) Wijzig de Engelse variable labels in aansprekende nederlandstalige labels. b) Wijzig de value labels van de variabele minority in “nee” (voor 0) en “ja” (voor 1).
Doe hetzelfde voor de value labels van de variabele gender; kies hierbij aansprekende labels.
c) Maak een nieuwe variabele met naam salaris met het actuele salaris in euro’s.
Neem hiervoor een numerieke kolom met nul decimalen. Vul de variabele met de naar euro omgezette waarden. Kies voor de koers $1.00 = 1.13 euro. Aanwijzing: doe dit met Transform/Compute.
d) Maak een nieuwe variabele trouw met de waarde 1 als de betreffende werknemer
meer dan 90 maanden in dienst is en anders 0. Aanwijzing: doe dit met Transform/Recode/Into different variables.
e) Maak een scatterplot (Graphs/Scatter) waarin de variabelen Salary en Salbegin tegen
elkaar zijn uitgezet. Welke conclusies trekt u hieruit? Wijzig een aantal eigenschappen van de plot, bijvoorbeeld de kleur en de grootte van de punten.
25
f) Maak een histogram met het salarisoverzicht van alle werknemers. Experimenteer wat met de layout van het histogram. Wijzig eigenschappen als bijvoorbeeld, tekst bij de assen enz. Wat is het aantal klassen volgens de regel van Sturge? Wijzig het door SPSS gekozen aantal klassen in het door deze regel voorgestelde aantal.
g) Maak een histogram met het salarisoverzicht van alle mannelijke werknemers
Aanwijzing: doe dit met Data/Select Cases. Vergeet dit zogenaamde filter na afloop niet op te heffen.
h) Maak een staafdiagram (bar chart) waarbij het gemiddelde salaris van de mannelijke
en vrouwelijke werknemers met elkaar worden vergeleken. Welke conclusies trekt u hieruit?
i) Maak een Box & Whisker plot van de variable Salary.
Wat kunt u zeggen over de verdeling van de waarden van deze variabelen? Hoe verklaart u het grote aantal uitschieters aan een kant?
j) Maak een multiple Box & Whisker plot van de variable Salary voor de mannen en de
vrouwen. Intepreteer de overeenkomsten en de verschillen tussen beide onderdelen van de plot.
k) Bereken een aantal kentallen van het salaris van de mannelijke en vrouwelijke
werknemers (gemiddelde, maximum, minimum, variantie enz. ) en vergelijk deze met elkaar. Doe dit met Analyse/Descriptive Statistics/Explore. Intepreteer o.a. de Stem & Leaf plot. Komen uw bevindingen overeen met eerdere conclusies?
l) Maak een taartdiagram met het percentage mannelijke en vrouwelijke werknemers. m) Laat aan de hand van een multiple taartdiagram zien of de percentages vrouwelijke
werknemers in de minderheidsgroep en de overige werknemers verschillen. Aanwijzing: verdeel de dataset eerst in twee delen met Data/Split File.
n) Ga na of er verschil bestaat tussen de salariëring van werknemers uit
minderheidsgroepen en de overige werknemers. Gebruik de grafische hulpmiddelen uit de voorgaande onderdelen. Gebruik voor uw conclusies ook andere exploratieve faciliteiten van SPSS.
26
Opdracht 1.2 Van 100 scholieren zijn gegevens bekend over: • geslacht (m/v) • leeftijd (in jaren) • lengte (in cm) • gewicht (in kg) Het eerste gedeelte van de dataset scholieren.sav ziet er als volgt uit:
a) Bepaal voor de gegevens van geslacht een geschikt staafdiagram. Doe hetzelfde voor
de leeftijdgegevens. Maak tevens een gecombineerd staafdiagram van geslacht en leeftijd.
b) Bepaal voor de lengte-gegevens een geschikt histogram. Experimenteer daarbij met
het aantal klassen voor een optimaal resultaat. In hoeverre stemt de vorm van het histogram overeen met de vorm voor een normale verdeling? Doe hetzelfde voor de gewichtsgegevens.
c) Bepaal voor de lengte-gegevens een Normal probability plot. In hoeverre lijken de
gegevens afkomstig uit een normale verdeling? Doe hetzelfde voor de gewichtsgegevens.
d) Bepaal, opgesplitst naar leeftijdsklasse, voor de lengte-gegevens de volgende
kentallen: • gemiddelde en mediaan, • variantie en standaardafwijking, • minimale en maximale waarde.
Ga op grond hiervan na hoe de gegevens voor de verschillende leeftijden verschillen. Doe hetzelfde voor de gewichtsgegevens.
e) Geef de lengtegegevens weer in een meervoudige Box-and-Whisker plot, opgesplitst
naar geslacht. Bepaal op grond hiervan hoe de resultaten voor jongens en meisjes verschillen. Doe hetzelfde voor de gewichtsgegevens.
27
Opdracht 1.3 Op vijf verschillende dagen zijn telkens zes geproduceerde tandwielen gewogen. De resultaten zijn hieronder (in kg) weergegeven.
maandag dinsdag woensdag donderdag vrijdag 6.120 6.129 6.116 6.114 6.112 6.119 6.119 6.121 6.124 6.127 6.113 6.116 6.117 6.126 6.123 6.123 6.122 6.118 6.120 6.120 6.121 6.124 6.114 6.121 6.120 6.116 6.113 6.111 6.123 6.124
Creëer binnen SPSS een bestand met twee variabelen om deze data op te slaan en voer de afzonderlijke resultaten in.
a) Bepaal voor de gewichtsgegevens: • gemiddelde en mediaan • variantie en standaardafwijking • minimale en maximale waarde. Bepaal, opgesplitst naar dag, deze kentallen. Ga op grond hiervan na of er verschillen zijn tussen de resultaten per dag.
b) Geef de gewichtsgegevens weer in een Box-and-Whisker plot. Interpreteer het
verkregen resultaat.
c) Geef de gewichtsgegevens weer in een gemeenschappelijke Box-and-Whisker plot, opgesplitst naar dag. Bepaal op grond hiervan of er verschillen zijn tussen de resultaten per dag en vergelijk dit met het antwoord bij onderdeel a).
d) Geef de gewichtsgegevens weer in een histogram. Experimenteer daarbij met het
gewenste aantal klassen en beschrijf daarbij het effect van (te) veel of (te) weinig klassen. In hoeverre stemt, bij een geschikte keuze van het aantal klassen, de vorm van het histogram overeen met de vorm van een normale verdeling?
e) Bepaal de best passende normale verdeling voor de gewichtsgegevens. Vergelijk
de gevonden parameters met gemiddelde en variantie, zoals gevonden bij onderdeel b). Bepaal ook een gecombineerde schets van histogram en gevonden normale verdeling.
f) Bepaal voor de gewichtsgegevens een Normal Probability Plot. In hoeverre lijken
de gegevens afkomstig uit een normale verdeling? Vergelijk het antwoord met dat van onderdeel c).
28
Opdracht 1.4 Bij deze opgave gebruiken we het SPSS voorbeeldbestand Cars.sav, met gegevens over het aantal autotypen die op Amerikaanse markt beschikbaar zijn. Meer in het bijzonder gaan we uit van de volgende variabelen:
Naam Label Nadere aanduiding mpg Miles per Gallon 1 mpg ≈ 0.4 km/l accel Time to Accelerate from 0 to 60 mph (sec) 1 mile ≈ 1.6 km cylinder Number of Cylinders origin Country of Origin 1=USA, 2=Europa, 3=Japan weight Vehicle Weight (lbs.) horse Horsepower
a) Bepaal voor het benzineverbruik de volgende kentallen:
• gemiddelde en mediaan • variantie en standaardafwijking • minimale en maximale waarde. Doe hetzelfde voor de acceleratietijden.
b) Bekijk in het Datafile Window het bestand Cars.sav. Bepaal in het bijzonder het
gewicht en de paardenkracht van de auto(′s) met maximaal/minimaal benzineverbruik en die van de auto(′s) met maximaal/minimale acceleratietijd (Hint: gebruik Data/Sort Cases om een variabele naar opklimmende grootte te sorteren. De overige kolommen worden dan zodanig aangepast, dat de rijen hetzelfde blijven).
c) Geef een histogram voor het benzineverbruik. Experimenteer daarbij met het aantal
klassen en ga, bij een geschikte keuze, na in hoeverre de gegevens afkomstig lijken uit een normale verdeling. Controleer dit met behulp van een Normal Probability Plot. Doe hetzelfde voor de acceleratietijden.
d) Bepaal voor de gegevens rond cylinderaantal en gebied van herkomst elk afzonderlijke geschikte staafdiagrammen. Ga ook na wat er gebeurt wanneer gebied van herkomst en cylinderaantal tegelijk worden opgegeven e) Bepaal, opgesplitst naar cylinderaantal, voor het benzineverbruik de volgende
kentallen: • gemiddelde en mediaan, • variantie en standaardafwijking, • minimale en maximale waarde.
Geef de gegevens weer in een gemeenschappelijke Box-and-Whisker plot, opgesplitst naar cylinderaantal. Ga op grond hiervan na welke verschillen er (lijken) te bestaan. Doe hetzelfde voor de acceleratie-tijden.
f) Herhaal opdracht e), maar splits de gegevens nu op naar gebied van herkomst.
29
Opdracht 1.5 a) Bepaal, met behulp van SPSS, voor elk van de volgende normale verdelingen een
steekproef van omvang n = 100: N(μ = 0; σ = 1), N(μ = 0; σ = 2),
N(μ = 3; σ = 1), N(μ = 3; σ = 2), Sla elk van de steekproeven de waarde op in een aparte variabele. b) Bepaal voor elk van de steekproeven uit onderdeel a) een geschikt histogram. c) Bepaal voor elk van de steekproeven uit onderdeel a) een Normal probability plot.
Lijken de steekproeven afkomstig uit een normale verdeling? d) Bepaal voor elk van de steekproeven uit onderdeel a) de volgende kentallen:
• gemiddelde en mediaan, • variantie en standaardafwijking, • minimum en maximum. Vergelijk de resultaten voor gemiddelde en mediaan onderling. Vergelijk ook de resultaten voor gemiddelde en standaardafwijking met de waarden uit onderdeel a) en verklaar eventuele (kleine) verschillen.
e) Geef elk van de steekproefresultaten weer in een Box-and-Whisker plot. Verklaar de
symmetrie van de figuren. Opdracht 1.6 a) Bepaal, met behulp van SPSS, een steekproef van n = 100 uit een exponentiële
verdeling met λ = 2. Sla deze steekproefwaarden op in een aparte variabele. b) Bepaal voor de steekproef uit onderdeel a) een geschikt histogram. Geef op grond
hiervan aan of meer of minder dan 50% van de waarden onder de gemiddelde waarde ligt.
c) Bepaal voor de steekproef uit onderdeel a) het gemiddelde en de mediaan. Verklaar
het verschil tussen beide waarden. Geef ook aan welke waarde het grootst is en verklaar dit (Hint: gebruik onderdeel b).
d) Geef de resultaten weer in een Box-and-Whisker plot (waarden die sterk van de mediaan afwijken verschijnen apart in de figuur). Verklaar waarom de getekende figuur asymmetrisch en waarom de mediaanwaarde niet in het midden van de box ligt (Hint: gebruik onderdeel b).
30
Opdracht 1.7 In elk van de volgende onderdelen is een kansverdeling gegeven. Bepaal met behulp van SPSS de gevraagde kansen. a) Bin(n = 20; p = 0.4): P[k ≤ 16] P[k ≤ 4] P[4 < k ≤ 16] b) N(μ = 8, σ2 = 4.8): P[X ≤ 16] P[X ≤ 4] P[4 < X ≤ 16] c) N(μ = 8, σ2 = 4.8): P[X ≤ 16.5] P[X ≤ 4.5] P[4 < X ≤ 16.5] Vergelijk de antwoorden voor a) en b) en voor a) en c) onderling. Geef suggesties voor het benaderen van kansen van de (discrete) binomiale verdeling op basis van een (continue) normale verdeling.
31
2 Toetsen en schatten
2.1 Inleiding In veel situaties is het wenselijk om, op grond van waarnemingen uit een experiment, de waarden van populatieparameters te schatten of na te gaan in hoeverre vermoedens hierover correct (kunnen) zijn. Binnen de statistiek zijn daartoe technieken ontwikkeld rond schatten en toetsen. We bespreken enkele mogelijkheden op dit gebied binnen SPSS. Vervolgens staan we stil bij een speciaal type toetsen, namelijk het analyseren van kruistabellen. Verdelingsvrije toetsen worden in het kort besproken. Voor meer informatie hierover wordt verwezen naar de meer uitgebreide SPSS documentatie.
2.2 Toetsen en schatten bij één steekproef Neem als voorbeeld het ijzergehalte in een mengsel. Er is een steekproef genomen van 27 stuks. De gegevens zijn weergegeven in onderstaande tabel. Eén getal is helaas onleesbaar geworden. De data zijn opgeslagen in vb2.2.sav. We bepalen een aantal kentallen en gaan op basis van de steekproef een schatting voor het gemiddelde en de standaarddeviatie van de populatie bepalen. Tevens berekenen we een betrouwbaarheidsinterval voor μ (het populatiegemiddelde).
11.7 12.2 10.9 11.4 11.3 12.0 11.1 11.2 11.6
11.8 10.8 11.2 11.9 10.5 11.0 12.1 10.7 11.3
11.0 11.5 11.1 11.8 10.9 11.2 ? 11.5 11.4
ijzergehalte mengsel We gaan als volgt te werk:
• Klik op Analyze/Descriptive Statistics/Explore. • Zet de variabele ijzer onder Dependent List.
We krijgen nu een Output Window waarin staat: a) De Case Processing Summary. Hierin staat het aantal waarnemingen vermeld en het
aantal missing data. Case Processing Summary
26 96.3% 1 3.7% 27 100.0%IJZERN Percent N Percent N Percent
Valid Missing TotalCases
32
b) De z.g. Descriptives. Hierin staan enkele statistische grootheden, zoals het gemiddelde (ook het 95%-betrouwbaarheidsinterval hiervan wordt gegeven), de standaarddeviatie, de range, de skewness e.a.
Descriptives
11.350 8.722E-0211.170
11.530
11.34911.300
.198
.44510.512.2
1.7.725.177 .456
-.635 .887
MeanLower BoundUpper Bound
95% ConfidenceInterval for Mean
5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
IJZERStatistic Std. Error
c) De Stem and Leaf Plot.
IJZER Stem-and-Leaf Plot Frequency Stem & Leaf .00 10 . 5.00 10 . 57899 11.00 11 . 00112223344 7.00 11 . 5567889 3.00 12 . 012 Stem width: 1.0 Each leaf: 1 case(s)
33
d) De Boxplot.
26N =
IJZER
12.5
12.0
11.5
11.0
10.5
10.0
Een boxplot en een histogram zijn zeer geschikt om een globale indruk van de data te krijgen. Een histogram van de data kan verkregen worden via Graphs/Histogram:
IJZER
12.2512.0011.7511.5011.2511.0010.7510.50
7
6
5
4
3
2
1
0
Std. Dev = .44 Mean = 11.35N = 26.00
34
We willen toetsen H0: μ = 11 tegen Ha: μ ≠11 met onbetrouwbaarheid α = 0.05. Dit gaat als volgt:
• Klik op Analyze/Compare Means/One-Sample T Test. • Vul bij Test Variable(s) ijzer in en bij Test Value: 11. • Klik op Options. Bij Confidence Interval moet een percentage van 95 vermeld
staan. Dit is het resultaat:
One-Sample Statistics
26 11.350 .445 8.722E-02IJZERN Mean
Std.Deviation
Std. ErrorMean
One-Sample Test
4.013 25 .000 .350 .170 .530IJZERt df Sig. (2-tailed)
MeanDifference Lower Upper
95% ConfidenceInterval of the
Difference
Test Value = 11
Uit de onderste tabel blijkt dat het 95%-betrouwbaarheidsinterval voor μ −11 gelijk is aan [0.170, 0.530]. Omdat dit interval 0 niet bevat, verwerpen we H0. Dit interval komt uiteraard op hetzelfde neer als wat we bij b) reeds hebben gevonden. Ook uit het feit dat de tweezijdige overschrijdingskans van Mean Difference onder H0 kleiner is dan 0.05 (Sig. 2-tailed) blijkt dat we H0 moeten verwerpen.
2.3 Toetsen en schatten bij twee steekproeven
2.3.1 Gepaarde waarnemingen Neem als voorbeeld de ijzergehaltes in een mengsel die voor 20 verschillende monsters via twee verschillende methoden bepaald zijn. We willen toetsen of methode A een significant verschillend resultaat geeft t.o.v. methode B. Verder zullen we het resultaat nog eens verifiëren met enkele plots.
sample 1 2 3 4 5 6 7 8 9 10 methode A 13.3 17.6 4.1 17.2 10.1 3.7 5.1 7.9 8.7 11.9 methode B 13.4 17.9 4.1 17.0 10.3 4.0 5.1 8.0 8.8 12.0
sample 11 12 13 14 15 16 17 18 19 20 methode A 7.4 15.0 13.4 6.2 11.2 8.5 10.9 4.4 16.7 9.8 methode B 7.2 15.0 13.3 6.4 11.3 8.5 10.8 4.7 17.0 9.9
ijzergehalte in een mengsel, volgens twee methoden Deze gegevens zijn opgeslagen in vb2.3.1.sav met variabelen metha en methb.
35
Omdat er in dit geval sprake is van gepaarde data (aan één monster zijn namelijk steeds beide metingen verricht) kan de analyse in feite uitgevoerd worden op de rij van paarverschillen tussen beide methodes. Dit is in wezen één rij van data, zodat de analyse conform die van de vorige paragraaf zou kunnen verlopen. SPSS biedt de mogelijkheid om bij twee steekproeven aan te geven dat het om gepaarde waarnemingen gaat. De analyse verloopt als volgt:
• Klik op Analyze/Compare Means/Paired Samples T Test • Zet metha en methb onder Paired Variables.
We krijgen als resultaat: a) Het aantal, het gemiddelde, de standaarddeviatie en de standaarddeviatie van het
gemiddelde van zowel metha als methb.
Paired Samples Statistics
10.155 20 4.394 .98210.235 20 4.380 .980
METHAMETHB
Pair1
Mean NStd.
DeviationStd. Error
Mean
b) De correlatiecoëfficiënt en het significantieniveau van metha en methb.
Paired Samples Correlations
20 .999 .000METHA & METHBPair 1N Correlation Sig.
c) Van het verschil metha-methb achtereenvolgens het gemiddelde, de
standaarddeviatie, de standaarddeviatie van het gemiddelde, het 95%-betrouwbaarheidsinterval, de t-waarde voor H0: methode A geeft gemiddeld hetzelfde resultaat als methode B, het aantal vrijheidsgraden van t en de bijbehorende 2-zijdige overschrijdingskans.
Paired Samples Test
-8.00E-02 .158 3.524E-02 -.154 -6.234E-03 -2.270 19 .035METHA - METHBPair 1Mean
Std.Deviation
Std. ErrorMean Lower Upper
95% ConfidenceInterval of the
Difference
Paired Differences
t dfSig.
(2-tailed)
De tweezijdige overschrijdingskans van t onder H0 is 0.035 en dus kunnen we concluderen dat methode A een significant verschillend resultaat oplevert t.o.v. methode B. Merk op dat deze conclusie in overeenstemming is met het 95%-betrouwbaarheids-interval voor het verschil van metha en methb (0 valt immers buiten dit interval).
36
We willen nu nog een boxplot en een histogram van methb-metha maken. Om dit te kunnen doen, moeten we via Transform/Compute in de datafile een nieuwe variabele aanmaken die de verschillen methb-metha bevat. Deze nieuwe variabele noemen we difba. Maken we hiermee een boxplot en een histogram, dan is het resultaat als volgt:
20N =
DIFBA
.4
.3
.2
.1
-.0
-.1
-.2
-.3
DIFBA
.25.130.00-.13-.25
7
6
5
4
3
2
1
0
Std. Dev = .16 Mean = .08N = 20.00
De twee plots lijken het significant van 0 verschillend zijn van difba te bevestigen.
37
2.3.2 Onafhankelijke steekproeven Vaak willen we twee verschillende, onafhankelijke steekproeven met elkaar vergelijken, d.w.z. toetsen of enkele belangrijke grootheden, zoals het gemiddelde en de variantie in de ene steekproef significant verschillen van de andere steekproef. Neem als voorbeeld de volgende gegevens van het mangaangehalte bij twee verschillende leveringen grondstoffen:
mangaangehalte bij twee verschillende leveringen grondstoffen
3.3 3.7 3.5 3.5 3.4 3.5 3.6 3.9 3.2 3.4 batch A 3.1 3.6 3.8 3.4 3.3 3.6 3.5 4.0 3.7 3.6 3.2 3.6 3.1 3.4 3.0 3.4 2.8 3.1 3.3 3.6 batch B 3.5 2.9 3.3 3.1 3.7 3.0 3.2 3.4 3.5 3.1
Deze gegevens zijn opgeslagen in vb2.3.2.sav. De waarnemingen voor batchA en batchB staan los van elkaar (het betreft immers twee verschillende leveringen), zodat er sprake is van onafhankelijke data. Om hun resultaat te kunnen analyseren kunnen we de Independent Samples T Test van SPSS gebruiken. Daartoe zijn de data gereorganiseerd: we hebben een nieuwe variabele mangaan gemaakt die de mangaangehaltes van zowel batchA als batchB bevat en een variabele, batch, die voor elk dataelement aangeeft tot welke batch hij behoort. Binnen de variabele batch is aan de waarde 1 het label A gehangen en aan de waarde 2 het label B. Het vergelijken van de data in SPSS gaat als volgt:
• Klik op Analyze/Compare Means/Independent Samples T Test. • Zet onder Test Variable(s) de variabele mangaan en onder Grouping Variable de
variabele batch. • Klik nu op Define Groups en vul bij Group 1 en Group 2 de waarden 1 resp. 2 in.
Als resultaat krijgen we: a) Een overzichtje waarin per batch staat: het aantal elementen, het gemiddelde, de
standaarddeviatie en de standaarddeviatie van het gemiddelde. Group Statistics
20 3.530 .225 5.031E-0220 3.260 .250 5.591E-02
BATCHAB
MANGAANN Mean
Std.Deviation
Std. ErrorMean
b) Een overzicht met daarin een test voor gelijkheid van varianties en een test voor
gelijkheid van gemiddelden met een betrouwbaarheidsinterval voor het verschil van de gemiddelden.
38
Independent Samples Test
.777 .384 3.59 38 .001 .270 7.5E-02 .118 .422
3.59 37.58 .001 .270 7.5E-02 .118 .422
Equal variancesassumedEqual variancesnot assumed
MANGAANF Sig.
Levene'sTest for
Equality ofVariances
t df
Sig.(2-tailed)
MeanDifference
Std. ErrorDifference Lower Upper
95%Confidence
Interval of theDifference
t-test for Equality of Means
Zowel in het geval van vooronderstelling van gelijke varianties als van ongelijke varianties blijkt het 95%-betrouwbaarheidsinterval van het verschil van de verwachtingswaarden niet 0 te bevatten. We verwerpen dus de hypothese dat de gemiddelden gelijk zijn. Dit zien we ook aan de overschrijdingskans van 0.001. Ook zien we dat we de hypothese van gelijke varianties niet kunnen verwerpen (vanwege F = 0.777 met overschrijdingskans 0.384). Een histogram en een boxplot kunnen we als volgt in één keer verkrijgen:
• Klik op Analyze/Descriptive Statistics/Explore. • Selecteer Plots onder Display. Zet onder Dependent List mangaan en onder
Factor List batch. • Klik op de knop Plots. Selecteer onder Boxplots Factor levels together en onder
Descriptive histogram. Dit is het resultaat (via de Chart Editor zijn de histogrammen zo aangepast dat ze dezelfde assen hebben):
MANGAAN
4.003.793.583.383.172.962.75
Histogram
For BATCH= A
Freq
uenc
y
10
8
6
4
2
0
Std. Dev = .23 Mean = 3.53N = 20.00
39
MANGAAN
4.003.793.583.383.172.962.75
Histogram
For BATCH= B
Freq
uenc
y
7
6
5
4
3
2
1
0
Std. Dev = .25 Mean = 3.26N = 20.00
2020N =
BATCH
BA
MA
NG
AA
N
4.2
4.0
3.8
3.6
3.4
3.2
3.0
2.8
2.6
Uit de boxplot en de twee histogrammen blijkt duidelijk dat batchA qua lokatie verschilt van batchB, maar qua spreiding zijn ze vergelijkbaar.
40
2.4 Analyse van kruistabellen In het volgende wordt besproken hoe we kunnen toetsen of variabelen, op nominaal niveau gemeten, onafhankelijk zijn. Bij continue variabelen gebruiken we voor deze doelstelling correlatieanalyse. Neem als voorbeeld de servicegevoeligheidsdata van twee verschillende typen apparaten, zoals aangegeven in onderstaande tabel. We willen nagaan of er samenhang bestaat tussen servicegevoeligheid en type.
no service service type A 80 32 type B 63 33
servicegevoeligheid per app. type Het is in SPSS niet mogelijk om de tabel in deze vorm te laten analyseren. We moeten uitgaan van een dataset met 3 numerieke variabelen type, service en freq. Dan kunnen we type = 1 laten corresponderen met type A, enz. Iedere voorkomende combinatie van waarden van type en service zetten we in een aparte rij. In de variabele freq zetten we het aantal malen dat de desbetreffende combinatie voorkomt. De datafile ziet er dus als volgt uit:
type service freq 1 0 80 1 1 32 2 0 63 2 1 33
Op deze manier kloppen de gegevens voor SPSS nog niet helemaal. Er is namelijk steeds maar één regel van de datafile gebruikt voor een heel aantal frequenties. Daardoor “denkt” SPSS dat elke combinatie van type en service slechts één keer voorkomt. Dit kunnen we oplossen door aan te geven dat in de variabele freq staat hoe vaak de genoemde combinatie voorkomt. Dit gaat via Data/Weight Cases of het Icon met de balans. De datafile is opgeslagen als vb2.4.sav. De analyse gaat als volgt:
• Klik op Analyze/Descriptive Statistics/Crosstabs. • Zet onder Row(s) de variabele type en onder Column(s) de variabele service. • Klik op Statistics. Selecteer Chi-square.
41
Dit is het resultaat:
Case Processing Summary
208 100.0% 0 .0% 208 100.0%TYPE * SERVICEN Percent N Percent N Percent
Valid Missing TotalCases
TYPE * SERVICE Crosstabulation
Count
80 32 11263 33 96
143 65 208
AB
TYPE
Total
no yesSERVICE
Total
Chi-Square Tests
.810b 1 .368
.563 1 .453
.809 1 .368.373 .226
.806 1 .369
208
Pearson Chi-SquareContinuity Correction a
Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases
Value df
Asymp.Sig.
(2-sided)Exact Sig.(2-sided)
Exact Sig.(1-sided)
Computed only for a 2x2 tablea.
0 cells (.0%) have expected count less than 5. The minimum expected count is30.00.
b.
De conclusie is, dat er geen significante samenhang bestaat tussen servicegevoeligheid en type, omdat de 2-zijdige overschrijdingskans veel groter is dan 0.05.
42
2.5 Overzicht van besproken procedures
Omschrijving Menu Bar Dialog Box TOETSEN EN SCHATTEN
Eén populatie Analyze/Descriptive Statistics/ Explore
Variabele meegeven
Twee populaties: gepaarde steekproeven
Analyze/Compare Means/Paired Samples T Test
Variabelen meegeven
Twee populaties: onafhankelijke steekproeven
Analyze/Compare Means/Independent Samples T Test
Variabelen meegeven Groepnummers meegeven
Analyse van een kruistabel
Analyze/Descriptive Statistics/ Crosstabs
Variabelen meegeven Statistics/Chisquare
43
2.6 Opdrachten Werk, alvorens aan deze opdrachten te beginnen, de eerder beschreven voorbeelden door. Opdracht 2.1 In een laboratorium zijn de volgende zeven bepalingen gedaan aan het zwavelgehalte van steenkool. De resultaten staan in de file opg0201.sav. 3.18 3.20 3.22 3.14 3.09 3.10 3.10. a) Bepaal van de data een Box-and-Whisker plot en beschrijf wat je ziet. Controleer de
normaliteit met een Normal probability plot. b) Bereken een tweezijdig 95%-betrouwbaarheidsinterval voor de verwachtingswaarde μ c) Bepaal voor elk van de volgende hypothesentoetsen de waarde van de
toetsingsgrootheid t, de bijbehorende overschrijdingskans en de conclusie van de toets bij α = 0.05:
(i) H0 : μ = 3.05 H1 : μ ≠ 3.05; (ii) H0 : μ = 3.15 H1 : μ ≠ 3.15; (iii) H0 : μ = 3.25 H1 : μ ≠ 3.25 Vergelijk de gevonden conclusies met de toetsresultaten die we af kunnen leiden uit het in b) gevonden 95%-betrouwbaarheidsinterval voor μ. Voor welke waarde(n) van μ0 wordt bij de hypothese H0: μ = μ0 tegen H1: μ ≠ μ0 op basis van de gevonden data H0 juist verworpen?
Opdracht 2.2 Bij 10 monsters wordt op twee verschillende manieren een titratie uitgevoerd. De resultaten staan in de tabel en in de datafile opg0202.sav:
monster 1 2 3 4 5 6 7 8 9 10 titratie 1 76.3 77.2 73.7 75.8 77.4 74.5 78.2 73.8 75.7 76.1 titratie 2 77.0 77.3 74.9 75.2 77.7 75.0 78.5 74.1 75.4 76.8
a) Beargumenteer dat er hier sprake is van gepaarde data. b) Bekijk voor elk van de monsters 1 t/m 10 het resultaat voor beide titratiemethoden.
Doe dit door Graphs/Scatter te selecteren. Neem voor de X-as de variabele die het nummer van het monster bevat en voor de Y-as het resultaat van de 2 verschillende metingen. Verander eventueel in de plot sommige kleuren of symbolen om een duidelijkere figuur te krijgen.
Lijken er verschillen tussen de beide titratiemethoden te zijn?
44
c) Geef voor het verschil in resultaat van de 10 titratiemonsters een Box-and-Whisker
plot en controleer de normaliliteit van de verschilvector met een Normal probability plot. Doe dit door de verschilvector in een aparte variabele onder te brengen en ga daarna verder met Analyze/Descriptive Statistics/Explore. Lijkt het verschil significant van 0 verschillend? Is het verschil in resultaat normaal verdeeld?
d) Bepaal een tweezijdig 90%-betrouwbaarheidsinterval voor het verschil in verwachtingswaarden μ1 − μ2. e) Bepaal voor de toets met de hypothese: H0: μ1 = μ2; μ1 ≠ μ2 de waarde van de
toetsingsgrootheid t, de overschrijdingskans en de conclusie van de toets voor α = 0.10. Is het resultaat in overeenstemming met de conclusie die volgt uit het eerder gevonden 90%-betrouwbaarheidsinterval voor μ1 − μ2?
Opdracht 2.3 Van een twintigtal monsters worden er aselect tien aangewezen om via titratiemethode 1 geanalyseerd te worden. De resultaten zijn: 76.3 77.2 73.7 75.8 77.4 74.5 78.2 73.8 75.7 76.1 De resterende tien monsters worden via titratiemethode 2 geanalyseerd met als resultaat: 77.0 77.3 74.9 75.2 77.7 75.0 78.5 74.1 75.4 76.8 Merk op dat de getalwaarden overeenstemmen met die uit opdracht 2.2. Voor de verdere analyse kan dan ook de datafile opg0202.sav gebruikt worden a) Beargumenteer dat er hier sprake is van onafhankelijke steekproeven. b) Bepaal een tweezijdig 90%-betrouwbaarheidsinterval voor het verschil in
verwachtingswaarden μ1 − μ2. Vergelijk het resultaat met dat van opdracht 2.2 en probeer het verschil te verklaren (Hint: vergelijk voor beide gevallen de gebruikte standaardafwijking en de verdeling van de schatter).
c) Bepaal voor de toets met de hypothese H0: μ1 = μ2; H1: μ1 ≠ μ2 de waarde van de
toetsingsgrootheid t, de overschrijdingskans en de conclusie van de toets bij α = 0.1. Vergelijk het resultaat met dat van opdracht 2.2 en probeer het verschil te verklaren (Hint: Maak van de data een multiple Box-and-Whisker plot).
d) Is de vooronderstelling van gelijke varianties voor beide groepen gerechtvaardigd?
45
Opdracht 2.4 Aan producten afkomstig van twee verschillende machines zijn sterktemetingen gedaan met als resultaten:
• machine 1: 5.314 5.347 5.301 5.319 • machine 2: 5.332 5.343 5.370 5.409 5.340 5.328 5.352
Deze resultaten zijn opgeslagen in de datafile opg0204.sav a) Beargumenteer dat er hier sprake is van onafhankelijke steekproeven. b) Bepaal voor de data een multiple Box-and-Whisker plot. Lijken de beide steekproeven
elk afkomstig uit dezelfde verdeling? c) Bepaal een 95%-betrouwbaarheidsinterval voor het verwachte verschil μ1 − μ2.
Beargumenteer of een 90%-betrouwbaarheidsinterval voor μ1 − μ2 breder of smaller is. Controleer dit vervolgens door een berekening.
d) Geef voor de toets met de hypothese H0: μ1 = μ2; H1: μ1 ≠ μ2 de waarde van de
toetsingsgrootheid t, de overschrijdingskans en de conclusie van de toets bij α = 0.05. e) Is de vooronderstelling van gelijke varianties voor beide groepen gerechtvaardigd? Opdracht 2.5 Doel van deze opgave is om op basis van een simulatie van een aantal steekproeven uit een normale verdeling betrouwbaarheidsintervallen voor de verwachtingswaarde μ te bepalen en de kwaliteit daarvan te onderzoeken. We nemen daartoe 10 steekproeven ter grootte 100 uit een standaardnormale verdeling. a) Neem uit de normale verdeling met μ = 0 en σ = 1 10 steekproeven van 100 stuks
(hint: ga eerst met de muis naar kolom 1 en rij 100 van de datafile. Klik op de desbetreffende cel en vul een punt in. We hebben nu een variabele var00001 met missing data en lengte 100. Noem de variabele rand1 en ga verder met Transform/Compute). Noem de overige variabelen rand2 t/m rand10.
b) Bepaal voor elk van deze steekproeven gemiddelde x en standaardafwijking s.
Bereken op basis van de resultaten van rand1 zelf (dus zonder SPSS) het 90%-betrouwbaarheidsinterval voor μ. Bevat dit interval de correcte waarde 0?
c) Bepaal met SPSS voor alle 10 gevallen het 90%-betrouwbaarheidsinterval voor μ.
Vergelijk het resultaat met het zelf berekende eerste geval in b). Hoeveel van de intervallen bevatten de correcte waarde 0? Vergelijk dit met de gekozen betrouwbaarheid van 90%.
46
Opdracht 2.6 Van een 74-tal personen wordt de kleur ogen en kleur haar genoteerd. Zie de tabel. Ga na of de variabelen oogkleur en haarkleur ongeassocieerd zijn.
Haarkleur Blond Bruin Zwart Rood
oogkleur Blauw Bruin Groen
17 4 12 3 8 11 13 0 2 0 3 1
Data bij opdracht 2.6 De data is opgeslagen in de file opg0206.sav, echter niet in de vorm zoals bovenstaande tabel, maar met 3 variabelen oogkl, haarkl en freq (bijbehorende labels: oogkleur, haarkleur en frequentie). oogkl kan als waarde hebben: 1 (label blauw), 2 (label bruin) of 3 (label groen). haarkl kan als waarde hebben: 1 (label blond), 2 (label bruin), 3 (label zwart) of 4 (label rood). In freq staat het aantal voorkomende gevallen voor de desbetreffende combinatie van oogkleur en haarkleur. Combinaties met frequentie 0 zijn weggelaten. Om SPSS duidelijk te maken dat freq de frequenties weergeeft, is de file pas gesaved nadat eerst nog het volgende is gedaan: klik op Data/Weight Cases en vul in de Dialog Box de variabele freq in en klik op OK. SPSS construeert uit de aldus aangemaakte datafile zelf bovenstaande tabel.
47
3 Regressie en correlatie
3.1 Inleiding In het eerste gedeelte van dit hoofdstuk bespreken we hoe het met behulp van SPSS mogelijk is om globaal vast te stellen of (kwantitatieve) variabelen onderling samenhangen. Daarbij maken we geen onderscheid in termen van oorzaak en gevolg of van afhankelijke en onafhankelijke variabelen. Ligt zo’n onderscheid wel voor de hand en is er sprake van één afhankelijke variabele y en één onafhankelijke variabele x1, dan kan het zinvol zijn om de samenhang te beschrijven met een enkelvoudig regressiemodel (§3.3):
Y = β0 + β1x1 + ε met ε ~ N (0,σ2). Coëfficiënten uit dit model, β0 en β1 en variantie σ2 van de foutterm ε zijn op basis van steekproefgegevens te schatten. Bovendien kunnen we hypothesen toetsen en de respons voorspellen. In §3.4 bespreken we SPSS procedures voor meervoudige regressiemodellen:
Y = β0 + β1x1 + β2x2 + ...+ βkxk + ε met ε ~ N (0,σ2)
met k onafhankelijke variabelen x1 t/m xk. Het controleren van de modelaannamen op basis van de residuenplots komt aan bod in §3.5. Meer geavanceerde mogelijkheden (b.v. stapsgewijze modelselectie, diagnose op basis van invloedsmaten, niet lineaire regressie, ridge regressie) laten we buiten beschouwing. Hiervoor zij verwezen naar aanvullende literatuur, zoals:
• L.C.Hamilton: Regression with Graphics, a second course in applied statistics • D.C.Montgomery and E.A. Peck: Introduction to linear regression analysis • J.O. Rawlings: Applied regression analysis, a research tool • R.H.Myers: Classical and modern regression with applications
Zie voor de bijbehorende procedures binnen SPSS de uitgebreide documentatie of de Help-functie van SPSS.
48
3.2 Samenhang tussen variabelen In eerste instantie richten we ons op het vaststellen van de mogelijke samenhang tussen variabelen, nog zonder een onderscheid in oorzaak/gevolg of afhankelijke/onafhankelijke variabelen te maken. Ter illustratie nemen we in deze en de volgende paragraaf de data uit onderstaande tabel over het verband tussen temperatuur en soortelijke warmte. We gaan er van uit dat deze gegevens zijn opgeslagen in de datafile vb3.2.sav met variabelen temper en heat.
Temperatuur °C 50 60 70 80 90 100 Soortelijke
Warmte 1.60 1.64
1.63 1.65
1.67 1.67
1.70 1.72
1.71 1.72
1.71 1.74
Specifieke warmte als functie van de temperatuur (2 metingen)
3.2.1 Grafische weergave De meest eenvoudige manier om globaal vast te stellen of (kwantitatieve) variabelen onderling samenhangen is om ze gezamenlijk in een strooidiagram weer te geven:
• Klik op Graphs/Scatter. • Selecteer Simple en klik op Define. • Vul bij Y-axis heat in en bij X-axis temper.
Dit geeft als resultaat:
TEMPER
110100908070605040
HE
AT
1.76
1.74
1.72
1.70
1.68
1.66
1.64
1.62
1.60
1.58
Duidelijk blijkt uit de figuur de positieve samenhang tussen beide variabelen: met de temperatuur neemt ook de soortelijke warmte toe. Merk op dat in de figuur sommige waarnemingen samenvallen.
49
3.2.2 Correlatiecoëfficiënt Een eventueel lineaire samenhang tussen variabelen valt ook af te leiden uit de correlatiecoëfficiënt tussen twee variabelen. Deze is in SPSS als volgt te verkrijgen:
• Klik op Analyze/Correlate/Bivariate • Zet onder Variables temper en heat
Correlations
1.000 .930**. .000
12 12.930** 1.000.000 .
12 12
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
TEMPER
HEAT
TEMPER HEAT
Correlation is significant at the 0.01 level(2 t il d)
**.
We krijgen als resultaat dat de (Pearson) correlatiecoëfficiënt tussen temper en heat gelijk is aan 0.930. Ook de tweezijdige overschrijdingskans wordt gegeven. Deze is gelijk aan 0.000. Dit ondersteunt het vermoeden op basis van het scatterplot dat er een positieve samenhang bestaat tussen de variabelen.
3.3 Enkelvoudige regressie Situaties met een (lineaire) samenhang tussen één onafhankelijke variabele x1 en één afhankelijke variabele y zijn te beschrijven met een enkelvoudig regressiemodel:
Y = β0 + β1x1 + ε. In deze paragraaf concentreren we ons hierop. We bespreken SPSS-mogelijkheden op dit gebied. Als voorbeeld nemen we de data uit §3.2 met soortelijke warmte als afhankelijke variabele y en temperatuur als onafhankelijke variabele x1 .
3.3.1 Modeltoetsen Daar we bij een enkelvoudig lineair model te maken hebben met één parameter, is de modeltoets equivalent aan de toets of die ene parameter significant is.
50
3.3.2 Analyse in SPSS Een lineaire regressie-analyse kunnen we binnen SPSS als volgt uitvoeren:
• Klik op Analyze/Regression/Linear • Zet bij Dependent de variabele heat en bij Independent(s) de variabele temper.
Dit is het resultaat:
Variables Entered/Removed b
TEMPER a . EnterModel1
VariablesEntered
VariablesRemoved Method
All requested variables entered.a.
Dependent Variable: HEATb.
Model Summary
.930a .866 .852 1.664E-02Model1
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), TEMPERa.
ANOVAb
1.783E-02 1 1.783E-02 64.407 .000a
2.769E-03 10 2.769E-042.060E-02 11
RegressionResidualTotal
Model1
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), TEMPERa.
Dependent Variable: HEATb.
Coefficientsa
1.511 .022 69.831 .0002.257E-03 .000 .930 8.025 .000
(Constant)TEMPER
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: HEATa.
In de onderste tabel staan de parameterschattingen voor β0 en β1, die resulteren in een geschat model:
. .y x= +1511 0 002257
51
In de plot van §3.2.1 kunnun we deze lineaire fit aanbrengen via de SPSS Chart Editor:
• Klik binnen de Chart Editor op Chart/Options. • Selecteer Total onder Fit Line. • Klik op de knop Fit Options. • Onder Fit Method moet Linear Regression geselecteerd zijn. • Onder Regression Options moet Include constant in equation geselecteerd zijn.
Dit is het resultaat:
TEMPER
110100908070605040
HE
AT
1.76
1.74
1.72
1.70
1.68
1.66
1.64
1.62
1.60
1.58
De soortelijke warmte neemt dus toe als de temperatuur toeneemt. Daarnaast blijkt uit de geschatte standaardfout voor : s.e.( ) = 0.000. Op grond hiervan is de toetsings-grootheid bij de toets H
β1 β1
0: β1 = 0 tegen H1: β1 ≠ 0 : t = 8.025. Uitgaande van de hier geldende t-verdeling met n − 2 = 10 vrijheidsgraden is H0 dus te verwerpen: de significantie of p-waarde van de toets is 0.000. In de variantieanalyse-tabel (de ANOVA tabel) ziet men de kwadratensommen, vrijheidsgraden en gemiddelde kwadratensommen voor model (‘Regression’) en error (‘Residual’). De waarde van de toetsingsgrootheid F = 64.407 is bij de geldende F1,10-verdeling significant verschillend van de waarde 1: het significantieniveau is hoog (overschrijdingskans 0.000) en je verwerpt H0: β1 = 0. Opmerking: F = t2 en F1,ν = tν (met F ≅ F1,ν en t ≅ tν): de F-toets en de t-toets zijn equivalent. In de Model Summary staan schattingen voor de correlatiecoëfficiënt (zie ook §3.2.2), het kwadraat ervan (R-squared, de determinatiecoëfficiënt) en de standaardafwijking van de foutterm (Std. Error of the Estimate). Deze laatste volgt ook uit de gemiddelde restkwadratensom (zie ANOVA-tabel): MSE .
52
Een grafisch resultaat kunnen we verkrijgen als volgt:
• Klik op Analyze/Regression/Linear. • Zet bij Dependent de variabele heat en bij Independent(s): temper. • Klik op de knop Plots. • Selecteer bij Standardized Residual Plots Histogram en Normal Probability Plot.
We krijgen als resultaat de tabellen die we hierboven al hadden en: a) Een histogram van de gestandaardiseerde residuen (het aantal klassen is teruggebracht
tot 4 via de Chart Editor).
Regression Standardized Residual
1.31.44-.44-1.31
Histogram
Dependent Variable: HEAT
Freq
uenc
y
7
6
5
4
3
2
1
0
Std. Dev = .95 Mean = 0.00N = 12.00
b) Een normaliteitsplot van de gestandaardiseerde residuen.
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: HEAT
Observed Cum Prob
1.00.75.50.250.00
Exp
ecte
d C
um P
rob
1.00
.75
.50
.25
0.00
Een plot van de (gestudentiseerde) residuen tegen de gestandaardiseerde voorspelde waarden krijgen we als volgt:
53
• Klik op Linear Regression onder het Icon Dialog Recall (we hebben de analyse immers net uitgevoerd).
• Klik op de knop Plots. • Zet bij X: ZPRED en bij Y: SRESID (i.p.v. DEPENDNT). • Zet Histogram en Normal Probability Plot uit (deze hebben we al).
Het resultaat is als volgt:
Scatterplot
Dependent Variable: HEAT
Regression Standardized Predicted Value
1.51.0.50.0-.5-1.0-1.5
Reg
ress
ion
Stu
dent
ized
Res
idua
l
2
1
0
-1
-2
Uit deze grafieken kan blijken of het model redelijk past bij de data: grote of systematische afwijkingen kunnen namelijk wijzen op een onjuiste specificatie van het model (zie de figuren hieronder) of op onjuiste veronderstelling over de verdeling van de residuen. In vorig voorbeeld lijkt er ook zo’n systematisch patroon aanwezig te zijn: in de Normal Probability Plot is er een golfpatroon in de residuen en daarom is er twijfel aan de onderlinge onafhankelijkheid ervan.
X
14121086420
Y
120
100
80
60
40
20
0
-20
54
X
14121086420
Uns
tand
ardi
zed
Res
idua
l
20
10
0
-10
-20
55
3.4 Meervoudige regressie In deze paragraaf laten we zien hoe voor een meervoudig lineair regressiemodel
Y = β0 + β1x1 + . . . + βkxk + ε de parameters β0 t/m βk en σ2 op basis van waarnemingen geschat kunnen worden en toetsen uit te voeren zijn. Als voorbeeld noemen we een model voor het benzinegebruik van auto’s:
y = β0 + β1x1 + β2x2 + β3x3 + ε Met y: benzineverbruik
x1: cylinderinhoud x2: motorvermogen
x3: gewicht ε ~ N (0, σ2) We gebruiken gegevens uit het SPSS voorbeeldbestand Cars.sav, namelijk: variabele SPSS-naam SPSS-label omschrijving y mpg Miles per gallon benzineverbuik in miles/gallon; 1 mpg = 0.43 km/l x1 engine Engine Displacement cylinderinhoud in inch3; (cu. inches) 1 inch3 ≈ 16.4 cc x2 horse Horsepower motorvermogen in pk x3 weight Vehicle Weight(lbs.) gewicht in pounds(lbs); 1 pound ≈ 0.45 kg
3.4.1 Analyse in SPSS Open de datafile Cars.sav.
• Klik op Analyze/Regression/Linear. • Zet bij Dependent de variabele mpg. • Zet bij Independent(s) de variabelen engine, horse en weight.
We krijgen het volgende resultaat:
Variables Entered/Removed b
Vehicle Weight (lbs.),Horsepower, EngineDisplacement (cu. inches)
a . Enter
Model1
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Miles per Gallonb.
56
Model Summary
.822a .676 .673 4.46Model1
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), Vehicle Weight (lbs.),Horsepower, Engine Displacement (cu. inches)
a.
ANOVAb
16098.158 3 5366.053 269.664 .000a
7720.836 388 19.89923818.993 391
RegressionResidualTotal
Model1
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), Vehicle Weight (lbs.), Horsepower, EngineDisplacement (cu. inches)
a.
Dependent Variable: Miles per Gallonb.
Coefficientsa
44.015 1.272 34.597 .000
-5.53E-03 .007 -.074 -.786 .432
-5.56E-02 .013 -.273 -4.153 .000-4.62E-03 .001 -.504 -6.186 .000
(Constant)Engine Displacement(cu. inches)HorsepowerVehicle Weight (lbs.)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Miles per Gallona.
De negatieve tekens van de coëfficiënten bij motorvermogen en gewicht lijken logisch: je verwacht ‘technisch’ dat een toename van elk zal resulteren in een groter benzineverbruik, dus in minder miles per gallon. Een schatting voor de standaardafwijking σ van de foutterm ε in het model is te vinden in de Model Summary onder Standard Error of the Estimate: 4.46. Op basis hiervan kan voor elk van de coëfficiënten βi een standaardfout s(βi) geschat worden (Std. Error), alsmede een toetsingsgrootheid t = die een rol speelt bij het toetsen van Hi i
ˆ ˆ/ ( )sβ β 0: βi = 0 tegen H1: βi ≠ 0. Op basis van deze toets is vast te stellen of de met βi corresponderende modelterm significant is, althans onder de veronderstelling dat alle overige termen in het model blijven. Gelden de veronderstellingen betreffende de foutterm ε (zie ook §3.5) dan is voor de aangegeven toets van βi de overschrijdingskans op basis van een Student-t verdeling te bepalen. Resultaten staan vermeld onder ‘Sig’. Bij α = 0.05 blijkt alleen engine niet significant te zijn. Zonder engine resulteert dan de volgende uitvoer:
57
Variables Entered/Removed b
Vehicle Weight(lbs.), Horsepower
a . Enter
Model1
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Miles per Gallonb.
Model Summary
.822a .675 .674 4.46Model1
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), Vehicle Weight (lbs.),Horsepower
a.
ANOVAb
16085.855 2 8042.928 404.583 .000a
7733.138 389 19.88023818.993 391
RegressionResidualTotal
Model1
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), Vehicle Weight (lbs.), Horsepowera.
Dependent Variable: Miles per Gallonb.
Coefficientsa
44.777 .825 54.307 .000-6.11E-02 .011 -.299 -5.335 .000-5.04E-03 .001 -.551 -9.818 .000
(Constant)HorsepowerVehicle Weight (lbs.)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Miles per Gallona.
Merk hierbij het volgende op: • Omdat de parameterschattingen niet onafhankelijk zijn, zijn de resultaten voor de
parameterschattingen veranderd ten opzichte van het oorspronkelijke model. • De resultaten voor de schatting van de standaardfout SE en de standaardfouten
zijn ook veranderd, evenals de berekende t-waarden. s( )β i
• Keren we terug naar het uitvoerscherm bij het oorspronkelijke model, dan blijkt uit het aantal vrijheidsgraden van de restkwadratensom (388) dat 392 waarnemingen (388 plus het aantal geschatte parameters, dat gelijk is aan 4) gebruikt zijn om het model met coëfficiënten β0 t/m β3 te schatten: precies die auto’s waarvoor elk van de gegevens mpg, engine, horse en weight bekend is. Er zijn 8 auto’s waarvoor het benzineverbruik niet bekend is en 6 andere auto’s waarvoor het motorvermogen niet bekend is. Dus 14 waarnemingen konden niet meedoen aan de analyse. Dit klopt met het totaal aantal waarnemingen (406).
58
3.4.2 Aanvullende uitvoer Via de knop Plots in de Linear Regression Dialog Box kan verder nog verkregen worden: • Scatterplots: De afhankelijke variabele tegen elk van de onafhankelijke variabelen
(selecteer bij Produce all partial plots). Verder elke combinatie van twee van de volgende grootheden: • de afhankelijke variabele (DEPENDNT) • gestandaardiseerde voorspelde waarden (ZPRED) • gestandaardiseerde residuen (ZRESID) • externe residuen (DRESID)∗ • aangepaste voorspelde waarden (ADJPRED) • gestudentiseerde residuen (SRESID) • extern gestudentiseerde residuen (SDRESID).
• Histogram: Het is mogelijk om een histogram van de gestandaardiseerde residuen te
laten maken. • Normaliteitsplot: Er kan een Normal Probability plot van de gestandaardiseerde
residuen gemaakt worden. Via de Statistics knop zijn o.a. betrouwbaarheidsintervallen van de coëfficiënten en een covariantie- en correlatiematrix van de onafhankelijke variabelen beschikbaar.
3.4.3 Modeltoetsen Naast toetsen op individuele modeltermen (zie §3.4.1) met hypothesen H0: βi = 0 H1: βi ≠ 0 is ook een toets van het model als geheel, met hypothesen: H0: β1 = β2 =...=βk = 0 H1: minstens één βi ≠ 0 mogelijk. Hierbij speelt de opsplitsing van de totale kwadratensom over model (regressie) en foutterm een rol. Bij de k parameters β1 t/m βk in het model (de constante β0 is al meegenomen in de totale kwadratensom) horen k vrijheidsgraden. Het aantal vrijheidsgraden bij de restkwadratensom verandert overeenkomstig in n−k−1.
∗ Het externe residu bij een zekere waarneming wordt berekend door uit te gaan van een regressie waaruit de desbetreffende waarneming is weggelaten. Het externe residu is dan gelijk aan de waarneming verminderd met de voorspelde waarde behorend bij die waarneming en de zojuist genoemde regressie. 59
Hier hoort de volgende ANOVA-tabel bij:
Kwadr. som Vrijh. graden Gemiddelde kwadratensom Toetsingsgrootheid
Model Fout
SSmodelSSE
k n−k−1
SSmodel/k SSE/(n−k−1) F = SSmodel∗(n-k-1)/(SSE∗k)
Totaal SSyy n−1
De toetsingsgrootheid F heeft onder H0 een Fk,n-k-1-verdeling. Het bijbehorend kritiek gebied is rechtseenzijdig. Zie voor de output van de variantieanalyse m.b.t. het oorspronkelijke en het gereduceerde model §3.4.1. Kwadratensommen (Sum of Squares), vrijheidsgraden (DF) en gemiddelde kwadratensommen (Mean Square = Sum of Squares/DF) zijn hierin herkenbaar alsook de toetsingsgrootheid F (F-ratio = Mean Square(Model)/Mean Square(Error)) voor de aangegeven toets:
H0: β1 = β2 =...=βk = 0 tegen H1: minstens één βi ≠ 0
Het uitvoerscherm bevat ook nog de grootheid R2 (R-Squared = Sum of squares(Model)/ Sum of squares(Total)): het door het model (regressie) verklaarde gedeelte van de totale kwadratensom: hoe hoger hoe beter. Bij modellen met een verschillend aantal termen (zoals bijvoorbeeld in §3.4.1) is een direct onderling vergelijk op basis van de grootte van R2 niet zinvol. Immers, extra termen in een model leiden bijvoorbeeld nooit tot een afname van R2. Beter is het om een correctie voor het aantal modeltermen toe te passen en bij k termen in het model (exclusief β0) te kijken naar de aangepaste grootheid:
Radjn R
n k2 1 1 1
12
= − − −− −
( )( )
Op basis hiervan is wel een onderling vergelijk tussen modellen met een verschillend aantal termen zinvol. Het resultaat staat in de output bij ‘R-Squared (adjusted for d.f.)’. Daarnaast bevat dit deel van het uitvoerscherm een schatting voor de standaardafwijking van de foutterm in het model (Standard Error of Estimate = SQRT(Mean Square Error)).
3.5 Modelcontrole Het louter schatten van modelparameters en toetsen van hun significantie is in feite onvoldoende om te komen tot een adequaat regressiemodel. Criteria voor de beoordeling hangen onder andere samen met het doel van het model, bijvoorbeeld voorspellen van waarden of ontdekken en beschrijven van de samenhang tussen de verklaarde en verklarende variabelen. Daarnaast is het van belang om na te gaan of er individuele waarnemingen zijn die een onevenredig grote invloed op het uiteindelijke resultaat hebben en of de veronderstellingen over de foutterm ε (namelijk: verwachtingswaarde 0, gelijke varianties σ2, onderlinge onafhankelijkheid en normale verdeling) acceptabel lijken. Immers, op basis daarvan zijn bijvoorbeeld toetsen met t- en F-verdelingen gerechtvaardigd. Dergelijke controles zijn vaak gebaseerd op een grafische weergave van voorspelde en waargenomen waarden alsmede hun onderlinge verschillen, de residuen.• Met behulp van SPSS zijn deze figuren eenvoudig te maken, zoals in deze paragraaf zal blijken. Een juiste interpretatie vergt vaak de nodige ervaring, omdat eenvoudige regels niet altijd te geven zijn.
• Formeel gezien is het niet juist om aannames rond de foutterm εi te controleren op basis van de residuen. Zo is bijvoorbeeld de variantie van de residuen niet constant en zijn de residuen onderling afhankelijk. Als het echter om (globale) beoordeling gaat, zijn methoden op basis van residuen in de praktijk bruikbaar. 60
3.5.1 Vergelijk waargenomen en voorspelde waarden Op basis van het geschatte model is het mogelijk om bij de waarnemingspunten modelvoorspellingen uit te rekenen en deze te vergelijken met de feitelijk gevonden waarden. Deze zijn te verkrijgen als volgt:
• Klik op Analyze/Regression/Linear • Vul de afhankelijke en de onafhankelijke variabele(n) in • Selecteer Save en selecteer onder Predicted Values Unstandardized • Selecteer ook onder Residuals Unstandardized
Het resultaat is, dat we naast de regressieanalyse in de datafile per waarneming de modelvoorspelling en het residu op basis van het geschatte model verkrijgen. De voorspelde waarden staan nu in de datafile onder de naam pre_1 (label: Unstandardized Predicted Value) en de residuen onder de naam res_1 (label: Unstandardized Residual). Doen we dit voor de file Cars.sav met mpg als afhankelijke en horse en weight als onafhankelijke variabelen, dan krijgen we voor de eerste 15 waarnemingen als resultaat (afgerond op 3 decimalen, een punt betekent missing data): obs. nr. mpg pre_1 res_1 1 18 19.164 −1.164 2 15 16.073 −1.073 3 18 18.286 −0.286 4 16 18.301 −2.301 5 17 18.831 −1.831 6 15 10.789 4.211 7 14 9.380 4.620 8 14 9.897 4.103
9 14 8.716 5.284 10 15 13.754 1.246 11 . 22.169 . 12 . 13.809 . 13 . 15.087 . 14 . 13.077 . 15 . 14.670 .
Van waarneming 11 t/m 15 is de waarde van mpg onbekend waardoor res_1 voor deze waarnemingen niet berekend kan worden en dus missing data oplevert. Deze waarnemingen doen dus niet mee in de berekeningen voor de regressiecoëfficiënten. De voorspelde waarden kunnen wel berekend worden, want de waarden van horse en weight zijn voor die waarnemingen bekend. Een grafische weergave van de feitelijke tegen de gestandaardiseerde voorspelde waarden kunnen we verkrijgen door binnen Linear Regression op de knop Plots te klikken en vervolgens bij Y te zetten: DEPENDNT en bij X: ZPRED. Via de Chart Editor brengen we de lineaire fit door de punten aan (zie §3.3.2). Hieronder staat het resultaat.
61
Scatterplot
Dependent Variable: Miles per Gallon
Regression Standardized Predicted Value
210-1-2-3
Mile
s pe
r Gal
lon
50
40
30
20
10
0
Het valt op dat de hokjes die de feitelijke waarnemingen weergeven, min of meer een parabool vormen. Dit suggereert dat aan de modelaannamen niet geheel is voldaan en dat we misschien een of meer kwadratische termen in het model moeten opnemen.
3.5.2 Normal Probability Plot van residuen We kunnen de residuen weergeven in een Normal Probability Plot als volgt:
• Ga weer in Linear Regression naar de knop Plots. • Selecteer Normal probability plot.
Het resultaat staat hieronder. De punten liggen redelijk in de buurt van de rechte lijn.
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Miles per Gallon
Observed Cum Prob
1.00.75.50.250.00
Exp
ecte
d C
um P
rob
1.00
.75
.50
.25
0.00
62
3.5.3 Residuen tegen voorspelde waarde Wanneer aan de veronderstellingen over de foutterm ε in een model voldaan is, verwacht je in een figuur waarin de residuen ei tegen de voorspelde waarden uitgezet zijn, punten met een random verdeling (onafhankelijkheid) binnen een overal even brede band (gelijke σ; gestippeld gebied) rond de waarde 0 (verwachtingswaarde van de foutterm). Duidelijk afwijkende patronen zijn een indicatie dat niet aan alle modelaannamen voldaan is. In zo’n geval zal ook een weergave van de feitelijke residuen e
yi
i = yi − y tegen de voorspelde waarden een afwijkend patroon vertonen. Voorbeelden van een normaal patroon en afwijkende patronen zijn:
i
yi
Random verdeling van ei als functie van y i
. .. . ei ei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 . . . . y 0 . . . . y . . . yi i i
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . | . . . . . . . . . . . . . . . . .
ei . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 0 . . . . y . . . . . . . .
i
. . . . . . . . . . . . . . . . . . . . .
Mogelijke afwijkende patronen van residuen als functie van voorspelde waarde
De linker figuur geeft een patroon van negatieve en positieve residuen, mogelijk een indicatie voor afhankelijkheid van de fouttermen in het model. Bij de middelste figuur is de bandbreedte ongelijk: dit kan er op wijzen dat de variatie van de foutterm toeneemt met . In dit geval kan een transformatie van de data (bijvoorbeeld ln(y) in plaats van y nemen; zie literatuur) het probleem reduceren. Bij de rechter figuur liggen enkele residuen duidelijk buiten de band: kennelijk is het model inadequaat voor deze punten (uitschieters).
yi
63
Via de knop Plots in Linear Regression kunnen we b.v. de gestandaardiseerde residuen krijgen als functie van de gestandaardiseerde voorspelde waarden. Zet daarvoor bij Y: ZRESID en bij X: ZPRED. Zie onderstaande figuur. Hierin valt met name het ontbreken van (grotere) negatieve residu-waarden bij lage voorspelwaarden op. Dit kan een indicatie zijn voor een model dat in het betreffende gebied niet adequaat is en dus mogelijk aangepast moet worden (bv. extra of andere modeltermen opnemen).
Scatterplot
Dependent Variable: Miles per Gallon
Regression Standardized Predicted Value
210-1-2-3
Reg
ress
ion
Sta
ndar
dize
d R
esid
ual 4
2
0
-2
-4
-6
-8
64
3.5.4 Residuen tegen index Bij waarnemingen die achter elkaar in de tijd plaatsvinden kan het zinvol zijn om de residuen tegen de tijd (of tegen het rijnummer in de datafile, wanneer ze in meetvolgorde opgeslagen zijn) uit te zetten. Ook nu is bij correcte modelveronderstellingen een ‘random’ spreiding binnen een nagenoeg even brede band rond 0 te verwachten. Duidelijk afwijkende patronen zoals getekend in de vorige paragraaf, kunnen wijzen op een onderlinge afhankelijkheid in de foutterm (linker figuur, b.v. ten gevolge van de gebruikte procedure) of een veranderde toestand (b.v. middelste figuur: toenemende residuen t.g.v. slijtage; dezelfde figuur maar dan gespiegeld: afnemende residuen t.g.v. een leereffect). In SPSS kunnen we niet via de regressieprocedure een scatterplot van de residuen vs. rijnummers maken. Dit moet via Graphs/Scatter. Voordat we de Scatterplot kunnen maken, moeten de residuen (al dan niet gestandaardiseerd) in de datafile staan. Hoe dit kan, is reeds besproken in §3.5.1. Ook moet er een variabele zijn die de rijnummers bevat. We nemen aan dat de datafile een nieuwe variabele res_1 met label Unstandardized Residual erbij heeft gekregen, waarin de gewone residuen staan en tevens een nieuwe variabele id met label row_number waarin de index staat. Het resultaat van de scatterplot staat hieronder. Het bereik van de x-as is gewijzigd via de Chart Editor. Er lijkt vanaf nr. 200 gemiddeld enige stijgende lijn te zitten in de residuen als functie van de index.
row_number
450400350300250200150100500
Uns
tand
ardi
zed
Res
idua
l
20
10
0
-10
-20
-30
65
3.5.5 Residuen tegen variabele Ook nu zal bij een juist model en correcte veronderstellingen over de foutterm een random verdeling van residuen binnen een overal even brede band rond de waarde nul te zien zijn. Wijkt het feitelijke patroon hiervan af, dan kan dit een indicatie zijn voor een onjuist model, waarin bijvoorbeeld termen ontbreken. Als het residuenpatroon bijvoorbeeld een parabool vormt, dat kan dit een aanleiding zijn om een kwadratische term aan het model toe te voegen. Evenals bij residuen tegen index moeten we de (gestandaardiseerde/gestudentiseerde) residuen eerst onder een extra variabele aan de datafile toevoegen (via Save in Linear Regression). Vervolgens kunnen we dan een scatterplot maken van de residuen tegen de gewenste variabele. Doen we dit voor het model met mpg als afhankelijke variabele en engine, weight en horse als onafhankelijke variabelen, dan krijgen we:
Engine Displacement (cu. inches)
5004003002001000
Uns
tand
ardi
zed
Res
idua
l
20
10
0
-10
-20
-30
66
Horsepower
3002001000
Uns
tand
ardi
zed
Res
idua
l
20
10
0
-10
-20
-30
Vehicle Weight (lbs.)
6000500040003000200010000
Uns
tand
ardi
zed
Res
idua
l
20
10
0
-10
-20
-30
Merk op dat het residuenpatroon vs. de cilinderinhoud kan wijzen op het ontbreken van bijvoorbeeld een kwadratische term voor cilinderinhoud in het model, omdat de residuen min of meer een parabool vormen. Dit geldt ook voor het residuenverloop als functie van het motorvermogen en van het gewicht (zie de twee plaatjes hieronder). Bij alle drie de plaatjes valt de grotere spreiding van de residuen bij kleinere waarden van de onafhankelijke variabele op.
67
3.5.6 Polynoomregressie Polynomiale regressiemodellen
Y = β0 + β1x +β2x2 + ... + βpxp + ε
kunnen we laten uitrekenen via Analyze/Regression/Curve Estimation. In het geval van de datafile Cars.sav:
• Zet bij Dependent(s): mpg. • Bij Independent zetten we engine (Variable moet geselecteerd zijn) • Selecteer Include constant in Equation en bij Models Cubic. • Plot Models laten we uit en we selecteren Display Anova Table.
We krijgen als resultaat: MODEL: MOD_3. _ Dependent variable.. MPG Method.. CUBIC Listwise Deletion of Missing Data Multiple R .80752 R Square .65209 Adjusted R Square .64944 Standard Error 4.62772 Analysis of Variance: DF Sum of Squares Mean Square Regression 3 15814.743 5271.5811 Residuals 394 8437.832 21.4158 F = 246.15362 Signif F = .0000 -------------------- Variables in the Equation -------------------- Variable B SE B Beta T Sig T ENGINE -.053355 .036789 -.713713 -1.450 .1478 ENGINE**2 -.000177 .000163 -1.112887 -1.087 .2777 ENGINE**3 4.24125841E-07 2.1915E-07 1.086957 1.935 .0537 (Constant) 36.264450 2.383227 15.217 .0000 Het blijkt dat de termen engine, engine∗∗2 en engine∗∗3 onder aanname dat alle overige termen in het model blijven, niet significant zijn. Weglaten van de minst significante term (hier engine∗∗2) is bij polynoomregressie vaak niet de aangewezen weg om tot een eenvoudiger model te komen. Gebruikelijker is het om te zoeken naar een polynoommodel van lagere graad dat niet significant verschilt. Hier kunnen we dus p = 2 proberen (dit houdt in dat we van Cubic naar Quadratic gaan).
• Ga weer naar Curve Estimation. • Selecteer Quadratic.
Als resultaat krijgen we:
68
MODEL: MOD_4. _ Dependent variable.. MPG Method.. QUADRATI Listwise Deletion of Missing Data Multiple R .80547 R Square .64878 Adjusted R Square .64700 Standard Error 4.64378 Analysis of Variance: DF Sum of Squares Mean Square Regression 2 15734.531 7867.2655 Residuals 395 8518.045 21.5647 F = 364.82198 Signif F = .0000 -------------------- Variables in the Equation -------------------- Variable B SE B Beta T Sig T ENGINE -.121007 .011505 -1.618675 -10.518 .0000 ENGINE**2 .000135 2.4537E-05 .846103 5.498 .0000 (Constant) 40.350314 1.109540 36.367 .0000 Nu zijn alle termen zeer significant, zodat het geen zin meer heeft om een nog lagere waarde van p te proberen.
69
3.6 Overzicht van besproken procedures Omschrijving Menu Bar Dialog Box REGRESSIE EN CORRELATIE
Simple Scatterplot Graphs/Scatter Simple + Define In nieuwe Dialog Box: Variabele X-as en Y-as meegeven
Correlatiecoëfficiënt Analyze/Correlate/ Bivariate Variabelen meegeven
Enkelvoudige/ meervoudige regressie
Analyze/Regression/ Linear
Afh. variabele meegeven Onafh. variabele(n) meegeven
Polynoomregressie Analyze/Regression/ Curve Estimation
Afh. variabele(n) meegeven Onafh. variabele meegeven Model(len) meegeven
Residu Plot Analyze/Regression/ Linear
Variabelen meegeven Knop met Plots Of: Save, Simple Scatterplot
70
3.7 Opdrachten Werk, alvorens aan deze opdrachten te beginnen, de eerder beschreven voorbeelden door. Opdracht 3.1 Beschouw de waarnemingen uit de tabel. Hij is opgeslagen in de datafile opg0301.sav.
x 1 2 3 4 5 y 3 2 4 6 5
Data bij opdracht 3.1 a) Bepaal met behulp van SPSS schattingen voor de parameters van het model
Y = β0 + β1x + ε. b) Bepaal uit de verkregen uitvoer schattingen voor de standaardafwijking van de
foutterm en voor de standaardafwijking van de parameters β0 en β1. Toets of β1 significant van 0 verschilt (α = 0.05) en interpreteer het resultaat.
c) Vergelijk de toets op basis van de variantieanalyse-tabel met de toets voor β1 uit
onderdeel b). Geef in beide gevallen expliciet de hypothesen en verklaar daaruit dat de resultaten hier overeenstemmen.
d) Bereken op basis van de kwadratensomsplitsing van SSyy in SSmodel en SSE het
kwadraat van de correlatiecoëfficiënt en vergelijk dit met de in de uitvoer opgegeven waarde.
e) Geef in de figuur de datapunten weer en de punten die de voorspelde regressielijn
vormen. Bepaal een schatting voor E(Y | x = 4.5). f) Bepaal een 80%-betrouwbaarheidsinterval voor een individuele waarneming Y bij
gegeven x. Beargumenteer of een 95%-interval breder of smaller is dan een 80%-interval en controleer dit met behulp van SPSS.
g) Teken de residuen als functie van de onafhankelijke variabele x. Geeft dit aanleiding
tot suggesties voor een andere modelspecificatie?
71
Opdracht 3.2 Een modelcontrole die alleen gebaseerd is op significantie van parameters of op de gevonden correlatiecoëfficiënten en die niet kijkt naar strooidiagrammen of residuen is onvoldoende. Deze opdracht is bedoeld om dit te demonstreren. Beschouw de variabelen x1, x2 en y1 t/m y4, zoals aangegeven in onderstaande tabel en opgeslagen in de datafile opg0302.sav.
obs x1 x2 y1 y2 y3 y4
1 10.0 8.0 8.04 9.14 7.46 6.58 2 8.0 8.0 6.95 8.14 6.77 5.76 3 13.0 8.0 7.58 8.74 12.74 7.71 4 9.0 8.0 8.81 8.77 7.11 8.84 5 11.0 8.0 8.33 9.26 7.81 8.47 6 14.0 8.0 9.96 8.10 8.84 7.04 7 6.0 8.0 7.24 6.13 6.08 5.25 8 4.0 19.0 4.26 3.10 5.39 12.50 9 12.0 8.0 10.84 9.13 8.15 5.56 10 7.0 8.0 4.82 7.26 6.42 7.91 11 5.0 8.0 5.68 4.74 5.73 6.89
Data bij opdracht 3.2 (bron: Am Stat. 27(1973)17) a) Bepaal voor elk van de vier volgende regressiemodellen de coëfficiënten en de
correlatiecoëfficiënt: • model 1: Y1 = β0 + β1x1 + ε • model 2: Y2 = γ0 + γ1x1 + ε • model 3: Y3 = δ0 + δ1x1 + ε • model 4: Y4 = ρ0 + ρ1x2 + ε. Vergelijk de resultaten en becommentarieer.
b) Geef voor elk van deze modellen in één figuur de waarnemingen en het gevonden
model weer. Vergelijk de resultaten en geef aan bij welk model je verwacht dat kleine veranderingen in de data een sterke invloed op het resultaat zullen hebben.
c) Teken ook voor elk van deze modellen de residuen als functie van de onafhankelijke
variabele x1 of x2. Vergelijk de resultaten onderling en geef, zo mogelijk, suggesties voor de verbetering van het model.
72
Opdracht 3.3 In een experiment is de levensduur y van een bepaald type zuigerring bepaald bij verschillende torsiebelastingen x. De gegevens staan in de tabel en in de datafile opg0303.sav vermeld.
x 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 y 410 400 400 410 425 460 495 500
Data bij opdracht 3.3 a) Geef de data weer in een strooidiagram. Leid hieruit een eerste suggestie af voor een
geschikt regressiemodel. b) Beschouw het model Y = α0 + α1x + ε .
• Gebruik Linear Regression om schattingen voor α0, α1 en var(ε ) te vinden. • Ga na of de coëfficiënt α1 significant is. • Ga aan de hand van residuenplots na of aan de modelaannamen voldaan lijkt te
zijn en geef, zo mogelijk, suggesties voor verbeteringen. c) Beschouw het model Y = β0 + β1x + β2x2 + ε .
• Bepaal schattingen voor β0, β1, β2 en var(ε ). • Ga na of elk van de coëfficiënten β1 en β2 afzonderlijk significant is. • Ga aan de hand van de variantieanalyse-tabel na of het model als geheel
significant is. • Controleer de modelaannamen met behulp van residuenplots en andere geschikte
middelen. d) Beschouw het model Y = γ0 + γ1x + γ2x2 + γ3x3 + ε.
• Bepaal schattingen voor γ0 t/m γ3 en var(ε ). • Ga na of elk van de coëfficiënten γ1 t/m γ3 afzonderlijk significant is. • Ga aan de hand van de variantieanalyse-tabel na of het model als geheel
significant is. • Controleer op basis van de residuenplots de modelaannamen.
e) Welk van de drie modellen lijkt het meest geschikt?
73
Opdracht 3.4 Bij meervoudige regressie is een weergave van de afhankelijke variabele tegen één van de onafhankelijke variabelen niet altijd informatief, en soms zelfs misleidend. Dit in tegenstelling tot de situatie bij enkelvoudige regressie. In deze opgaven illustreren we dit aan de hand van een voorbeeld.
y 2340 6480 11780 14580 16100 16400 14840 12980 8280 4500 1580 0 x1 1 4 9 13 17 20 26 29 34 37 39 40x2 39 144 279 351 391 400 364 319 204 111 39 0
Beschouw bovenstaande gegevens voor de afhankelijke variabele y en de onafhankelijke variabelen x1 en x2. Ze zijn opgeslagen in de datafile opg0304.sav. a) Bepaal een strooidiagram van y en x1. Geef op grond hiervan een suggestie voor een
geschikt verband tussen y en x1. b) Bepaal een strooidiagram van y en x2. Geef op grond hiervan een suggestie voor een
geschikt verband tussen y en x2. c) Beschouw het regressiemodel Y = β0 + β1x + β2x2 + ε .
Bepaal met behulp van SPSS de coëfficiënten voor dit model. Geef ook een schatting voor σ2 en verklaar het resultaat. (Hint: wat betekent het als alle residuen gelijk aan 0 zijn en wat is dan de schatting voor σ?)
d) Teken ook de datapunten in een driedimensionale plot via Graphs/Scatter/3D-Plot.
Probeer op grond hiervan de figuren uit a) en b) te verklaren. Opdracht 3.5 Bij een veresteringsproces is het omzettingspercentage y, gemeten bij zes combinaties van temperatuur x1 en concentratie x2 van een katalysator. Resultaten staan in de tabel en in de datafile opg0305.sav.
x1 175 175 200 200 225 225 x2 4 8 4 12 8 12 y 58 63 72 82 85 90
a) Beschouw het model Y = α0 + α1x1 + ε.
Gebruik Linear Regression om schattingen voor α0, α1 en var(ε) te vinden. Ga na of de coëfficiënt α1 significant is. Ga op basis van de variantieanalyse-tabel na of het model als geheel significant is.
Ga op basis van o.a. de residuenplots na of aan de modelaannamen voldaan lijkt te zijn en geef zo mogelijk suggesties voor verbeteringen.
b) Beschouw het model Y = β0 + β1x1 + β2x2 + ε . Bepaal schattingen voor β0, β1, β2 en var(ε). Ga na of elk van de coëfficiënten β1 en β2 afzonderlijk significant is. Ga op basis van de variantieanalyse-tabel na of het model als geheel significant is. Ga op basis van o.a. de residuenplots na of aan de modelaannamen voldaan lijkt te
zijn. Vergelijk de resultaten met die uit onderdeel a) en geef zo mogelijk suggesties voor
verbeteringen.
74
Opdracht 3.6 Een farmaceutische onderneming beproeft een nieuw pijnstillend middel door aan een aantal patiënten een hoeveelheid van dit medicijn toe te dienen en te meten hoe lang het duurt voordat de patiënt een verlichting van de pijn ervaart. Gegevens per patiënt van toegediende dosis x1, leeftijd x2, bloeddrukindicatie x3 en tijdsduur tot pijnverlichting y staan in de tabel en in de datafile opg0306.sav.
y 25 43 55 47 43 57 26 27 25 29 22 29 x1 2 2 2 2 2 2 5 5 5 5 5 5 x2 31 19 30 27 41 25 40 35 44 39 64 31 x3 .25 .50 .75 .25 .50 .75 .25 .50 .75 .25 .50 .75
y 13 11 14 20 20 30 13 8 3 27 26 5 x1 7 7 7 7 7 7 10 10 10 10 10 10 x2 34 29 55 14 32 33 66 20 45 22 27 53 x3 .25 .50 .75 .25 .50 .75 .25 .50 .75 .25 .50 .75
Data bij opdracht 3.6 Beschouw een drietal regressiemodellen: • Model 1: Y = α0 + α1x1 + ε • Model 2: Y = β0 + β1x2 + ε • Model 3: Y = γ0 + γ1x3 + ε a) Bepaal voor elk van deze modellen schattingen voor de coëfficiënten en var(ε). Ga in elk van de gevallen op basis van o.a. de residuenplots na of aan de
modelaannamen voldaan lijkt te zijn en geef zo mogelijk suggesties voor verbetering. Beschouw nu het model Y = δ0 + δ1x1 + δ2x2 + δ3x3 + ε. b) Bepaal schattingen voor δ0 t/m δ3 en var(ε) en vergelijk deze met de schattingen uit a).
Voer een variantieanalyse uit en ga op grond hiervan na welk gedeelte van de kwadratensom door het volledige model verklaard wordt. Ga aan de hand o.a. van residuenplots voor elk van de onafhankelijke variabelen na of aan de veronderstellingen voldaan lijkt te zijn.
Het patroon van de residuen als functie van x1 is verder te verbeteren door middel van het model Y = γ0 + γ1x1 + γ2x2 + γ3x3 + γ4x1
2 + ε. c) Bepaal met behulp van Linear Regression schattingen voor γ1 t/m γ4 en controleer bij
dit model het verloop van de residuen als functie van x1. Teken ook het residuenverloop als functie van x1 voor enerzijds x3 = 0.25 en anderzijds x3 = 0.75. Dit kan door nieuwe variabelen in de datafile op te nemen die dezelfde waarden krijgen als de residuen, maar dan alleen voor x3 = 0.25 resp. x3 = 0.75 en missing data voor de overige plaatsen. Vergelijk beide figuren onderling en constateer dat ze een verschillend patroon hebben.
Verbetering op dit punt is mogelijk door als model te nemen:
Y = ζ0 + ζ1x1 + ζ2x2 + ζ3x3 + ζ4x1
2 + ζ5x1x3 + ε.
De toegevoegde term wordt interactieterm genoemd.
75
d) Bepaal schattingen voor ζ0 t/m ζ5 en var(ε ). Ga na of elk van de coëfficiënten ζ1 t/m ζ5 afzonderlijk significant is. Ga ook na of het model als geheel significant is. Controleer of aan de modelaannamen voldaan lijkt te zijn en geef zo mogelijk suggesties voor verbetering.
Opdracht 3.7 In deze opdracht demonstreren we een manier om bij een groot aantal onafhankelijke variabelen een geschikt regressiemodel te selecteren. Deze methode staat bekend als backward selection.Raadpleeg voor verdere details hierover en over andere methodes van selectie de literatuur uit §3.1. Beschouw de datafile Cars.sav. Bij deze opdracht zijn de volgende variabelen van belang (tussen haakjes staat het label): • mpg(Miles per Gallon) benzineverbruik in miles/gallon; y • engine(Engine Displacement(cu.inches)) cylinderinhoud in cubic inch; x1 • horse(Horsepower) motorvermogen in pk; x2 • accel(Time to Accelerate from 0 to 60 mph(sec)) accel. tijd van 0 tot 60 m/hour; x3 • weight(Vehicle Weight(lbs)) autogewicht in lbs; x4 a) Neem het volgende model y = α0 + α1x1 + α2x2 + α3x3 + α4x4 + ε.
Bepaal schattingen voor α0 t/m α4 en ga na of elk van de afzonderlijke coëfficiënten α1 t/m α4 significant is (α = 0.01).
b) Schrap uit het model onder a) de variabele waarvan de bijbehorende coëfficiënt het
minst significant is en voer voor dit model met drie verklarende variabelen opnieuw een variantieanalyse uit. Constateer dat ten opzichte van het model uit a) zowel de coëfficiëntschattingen als hun significanties qua waarden veranderd zijn (om deze reden is het bij deze methode niet geoorloofd om per stap meer dan één variabele weg te laten).
Ga opnieuw na of elk van de coëfficiënten en het model als geheel significant is. c) Herhaal de procedure uit onderdeel b), net zo lang tot alle coëfficiënten significant
zijn (dus: per stap één variabele weglaten en het model opnieuw doorrekenen). Ga bij het uiteindelijke model na in hoeverre het teken (positief/negatief) van de gevonden coëfficiënten logisch lijkt (het lijkt bijvoorbeeld logisch dat het benzineverbruik toeneemt, dus het aantal miles per gallon afneemt, naarmate het gewicht van de auto toeneemt).
d) Ga voor het uiteindelijke model uit onderdeel c) op basis van residuenplots na in
hoeverre aan de modelaannamen voldaan lijkt te zijn. Is het wenselijk om kwadratische termen in het model op te nemen?
e) Controleer je vermoeden met betrekking tot extra kwadratische termen door het
uiteindelijke model uit onderdeel c) uit te breiden tot een volledig kwadratisch model1 en daarop de eerder besproken selectieprocedure toe te passen.
Controleer voor het model dat op deze wijze gevonden wordt in hoeverre het aan de modelaannamen lijkt te voldoen en vergelijk de resultaten met die uit onderdeel d).
1 Bij een model Y = α0 + α1x1 + α2x2 + ε is het volledig kwadratisch model Y = β0 + β1x1 + β2x2 + β3x1
2 + β4x2
2 + β5x1x2 + ε. 76
Opdracht 3.8 Wanneer de onafhankelijke variabelen in een regressiemodel onderling een sterke samenhang vertonen, kunnen er bij het berekenen van een geschikt regressiemodel problemen optreden. Dit wordt aan de hand van deze opgave gedemonstreerd. Voor details zij verwezen naar de literatuur (§3.1). Daar staat het probleem bekend onder multi-collineariteit. y -3.74 7.70 7.05 10.50 24.22 27.34 32.82 36.30 44.13 40.65x1 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 x2 0.48 0.96 1.44 2.00 2.55 2.99 3.46 3.92 4.46 5.01
Data bij opdracht 3.8 Beschouw de waarnemingen voor variabelen y, x1 en x2 uit de tabel en de datafile opg0308.sav. a) Maak een strooidiagram van x1 tegen x2. Vertonen beide variabelen een sterke
samenhang? Beschouw het model Y = α0 +α1x1 +α2x2 + ε . b) Bepaal schattingen van α0 t/m α2 en ga na of elk van de afzonderlijke coëfficiënten α1
en α2 significant is (α = 0.05). Bepaal tevens op basis van de variantieanalyse-tabel of het model als geheel significant is. Licht toe of de gevonden resultaten onderling met elkaar in strijd lijken te zijn.
Beschouw ook de modellen Y = β0 + β1x1 + ε en Y = γ0 + γ1x2 + ε. c) Bepaal voor beide modellen schattingen voor de coëfficiënten en vergelijk deze met de schattingen in b). Ga na of β1 en γ1 significant zijn (α = 0.05). d) Teken met behulp van Graphs/Scatter/3D-Plot y als functie van x1 en x2. Lijkt een
vlak dat rust op de getekende verticale lijnen stabiel ondersteund?
77
4 Variantieanalyse
4.1 Inleiding In het vorige hoofdstuk bleek hoe met behulp van regressieanalyse de invloed van kwantitatieve variabelen xi op een afhankelijke variabele Y te onderzoeken is. In dit hoofdstuk concentreren we ons op het onderzoek naar de invloed van kwalitatieve variabelen xi op een afhankelijke variabele Y. We bespreken daartoe SPSS procedures voor enkelvoudige variantieanalyse met en zonder verblokking, en voor meervoudige variantieanalyse. Daarbij besteden we met name aandacht aan het interpreteren van resultaten, het controleren van de modelaannamen en het doorrekenen van alternatieven.
4.2 Enkelvoudige variantieanalyse 4.2.1 Algemeen Enkelvoudige variantieanalyse is gericht op het ontdekken van verschillen tussen meerdere groepen op basis van onafhankelijke waarnemingen. In dat opzicht is het een uitbreiding van de toetsmethoden voor verschillen tussen twee onafhankelijke steekproeven. Als voorbeeld maken we gebruik van een bestand met gegevens van een aantal auto’s op de Nederlandse markt, vb4.2.1.sav, en wel in het bijzonder van de variabelen:
verbruik brandstofverbruik bij stadsgebruik (in liter/100 km); land herkomstland; 1=Duitsland; 2=Frankrijk; 3=Italië; 4=Japan; 5=overig; brandstof type brandstof; 1=benzine; 2=diesel;
We onderzoeken of het brandstofverbruik voor auto’s bij stadsgebruik (in liter/100 km) verschilt per herkomstgebied. Er is dus sprake van één factor, ‘land’, met vijf verschillende niveaus, namelijk Duitsland, Frankrijk, Italië, Japan en overig. Hierdoor ontstaan er in feite vijf groepen van waarnemingen: per herkomstgebied één.
4.2.2 Procedureaanroep en rechtstreekse uitvoer De analyse gaat als volgt:
• Voor de analyse klikken we op Analyze/Compare Means/One Way Anova. • We zetten bij Dependent List: verbruik en bij Factor: land.
Dit levert het volgende resultaat op:
ANOVA
stadsverbruik
169.171 4 42.293 3.888 .006989.896 91 10.878
1159.067 95
Between GroupsWithin GroupsTotal
Sum ofSquares df
MeanSquare F Sig.
De totale kwadratensom SSyy = 1159.067 is opgesplitst in een foutterm SSwithin = 989.896 en een modelterm SSbetween = 169.171. n is het aantal waarnemingen en k het aantal groepen; n = 100 en k = 5.
78
Door beide kwadratensommen te delen door een geschikt aantal vrijheidsgraden, namelijk k – 1 = 4 voor SSbetween en (n – 1) – (k – 1) = 95 – 4 = 91 voor SSwithin (kolom met df), ontstaan gemiddelde kwadratensommen: MSbetween en MSwithin, resp. 42.293 en 10.878 (kolom met Mean Square). Hun verhouding F=3.888 is de toetsingsgrootheid om na te gaan of er verschillen tussen de herkomstgebieden zijn. Op basis van de geldende F -verdeling blijkt deze significant groter dan 1 te zijn: de bijbehorende overschrijdingskans Sig (0.006) is aanzienlijk kleiner dan bijvoorbeeld een waarde α = 0.05. Op grond daarvan concluderen we dus dat er significante verschillen tussen de herkomstgebieden lijken te bestaan. Na deze algemene conclusie is het zinvol om na te gaan hoe de verschillende groepen zich dan tot elkaar verhouden, zodat we de conclusie kunnen specificeren.
914
4.2.3 Boxplots Allereerst maken we daartoe boxplots, uitgesplitst naar herkomstgebied. Zie onderstaande figuur.
1622101533N =
herkomstland
overigjapanitaliefrankrijkduitsland
stad
sver
brui
k
30
20
10
0
78
5671
Ze geven een globale indruk van lokatie, spreiding en symmetrie van waarnemingen. Hier valt met name op dat frankrijk en japan scheef verdeeld zijn, terwijl japan, overig en frankrijk veraf gelegen waarnemingen hebben. Uit deze figuur alleen is niet zonder meer een conclusie over lokatieverschillen te trekken, omdat de ‘spreidingsblokjes’ voor elk van de landen de nodige overlap vertonen. Tussen japan en overig is de overlap echter heel klein.
4.2.4 Verwachtingswaarde per deelgroep Per deelgroep kan een betrouwbaarheidsinterval voor de verwachtingswaarden berekend worden met behulp van One Way Anova. Klik daar op de knop Options en selecteer Statistics Descriptive. We krijgen opnieuw de Anova Tabel, maar daarnaast ook onderstaand overzicht.
79
Descriptives
stadsverbruik
33 10.824 3.584 .624 9.554 12.095 5.5 17.915 8.793 2.327 .601 7.505 10.082 6.6 15.010 11.390 4.129 1.306 8.436 14.344 6.7 18.422 8.282 1.975 .421 7.406 9.157 5.8 14.516 11.619 4.226 1.056 9.367 13.870 7.5 23.696 10.116 3.493 .356 9.408 10.823 5.5 23.6
duitslandfrankrijkitaliejapanoverigTotal
N MeanStd.
Deviation Std. ErrorLowerBound
UpperBound
95% ConfidenceInterval for Mean
Minimum Maximum
Het aantal waarnemingen N en het groepsgemiddelde Mean zijn per land weergegeven. Resultaten voor alle waarnemingen samen staan in de rij Total. Verder bevat de uitvoer per land schattingen voor de standaarddeviatie si en voor de standaarddeviatie s ni / i van het gemiddelde op basis van de gegevens per groep. Hiermee worden de 95%-betrouwbaarheidsintervallen voor de verwachting berekend. Deze intervallen kunnen ook verkregen worden via Analyze/Descriptive Statistics/Explore. Als we het via deze weg doen, is het ook mogelijk om het betrouwbaarheidspercentage te wijzigen via de knop Statistics. Om dit alles wat beter voor ons te kunnen zien, willen we de betrouwbaarheidsintervallen grafisch weergeven. Met One way Anova is dit niet rechtstreeks mogelijk. Wel via een Error Bar Chart, als volgt:
• klik op Graphs/ Error Bar… • We kiezen voor Simple en Data in Chart are: Summaries for groups of cases • Vervolgens op Define-knop klikken en
specificeren als Variable: Verbruik en als Category Axis: land Controleer dat bij Bars Represent is ingevuld: Confidence interval for mean en bij level: 95% Het resultaat staat hieronder:
Define-knop klikken en specificeren als Variable: Verbruik en als Category Axis: land Controleer dat bij Bars Represent is ingevuld: Confidence interval for mean en bij level: 95% Het resultaat staat hieronder:
1622101533N =
herkomstland
overigjapanitaliefrankrijkduitsland
95%
CI s
tads
verb
ruik
16
14
12
10
8
6
We zien dat de intervallen van japan en overig elkaar niet overlappen en die van japan en duitsland ook niet, maar de overige wel. We kunnen hieruit echter niets concluderen met betrekking tot wel of niet significante verschillen. Daarvoor moeten andere tests gedaan worden en die komen in de volgende paragraaf aan bod. 80
4.2.5 Verschillen tussen twee deelgroepen Wanneer, zoals in dit voorbeeld, uit de toets op basis van de ANOVA-tabel volgt dat minstens één van de groepen significant afwijkt, is het zinvol om na te gaan welke groep(en) dit betreft. Dit kan onder andere door voor alle combinaties van twee (onafhankelijke) deelgroepen de twee-steekproeventoets uit te voeren. Terugrekenen vanuit de bijbehorende toetsingsgrootheid t leert echter dat voor een significant verschil tussen groep i en groep m het nodig is dat:
| |. . /y y t si m i mn n− ≥ +α 21 1
Hierbij is s een schatting van de standaarddeviatie tussen de groepen onderling, oftewel (MSwithin)1/2, waarbij MSwithin gelijk is aan Mean Square Within Groups in de ANOVA- tabel. De aangegeven grenswaarde wordt het kleinst significante verschil genoemd (Engels: Least significant difference, LSD). Een tabel van verschillen voor alle paren van deelgroepen kunnen we als volgt krijgen (het kleinst significante verschil wordt echter niet vermeld):
• Ga m.b.v. de Dialog Recall Button weer naar de One Way Anova • Vul eventueel opnieuw de variabelen in • Klik op de knop Post Hoc • Selecteer LSD
Het resultaat is als volgt:
Multiple Comparisons
Dependent Variable: stadsverbruikLSD
2.031 1.027 .051 -9.20E-03 4.071-.566 1.191 .636 -2.931 1.7992.542* .908 .006 .739 4.346-.795 1.005 .431 -2.790 1.201
-2.031 1.027 .051 -4.071 9.202E-03-2.597 1.346 .057 -5.271 7.794E-02
.512 1.104 .644 -1.682 2.705-2.825* 1.185 .019 -5.180 -.471
.566 1.191 .636 -1.799 2.9312.597 1.346 .057 -7.79E-02 5.2713.108* 1.258 .015 .610 5.607-.229 1.330 .864 -2.870 2.412
-2.542* .908 .006 -4.346 -.739-.512 1.104 .644 -2.705 1.682
-3.108* 1.258 .015 -5.607 -.610-3.337* 1.084 .003 -5.489 -1.184
.795 1.005 .431 -1.201 2.7902.825* 1.185 .019 .471 5.180.229 1.330 .864 -2.412 2.870
3.337* 1.084 .003 1.184 5.489
(J) herkomstlandfrankrijkitaliejapanoverigduitslanditaliejapanoverigduitslandfrankrijkjapanoverigduitslandfrankrijkitalieoverigduitslandfrankrijkitaliejapan
(I) herkomstlandduitsland
frankrijk
italie
japan
overig
MeanDifference
(I-J) Std. Error Sig.LowerBound
UpperBound
95% ConfidenceInterval
The mean difference is significant at the .05 level.*.
Helaas is het niet zo overzichtelijk. Dit komt o.a. omdat voor alle 20 paren van verschillende landen een regel is gebruikt om statistische grootheden weer te geven, terwijl dit eigenlijk slechts voor 10 verschillende paren had hoeven gebeuren (paar (x,y) komt nl. op hetzelfde neer als paar (y,x), alleen het teken is tegengesteld).
81
Een sterretje betekent dat het desbetreffende paar landen een significant verschil in gemiddeld verbruik heeft met α = 0.05. Dit zijn de volgende paren:
duitsland – japan frankrijk – overig italie – japan japan – overig
In een schema is dit als volgt overzichtelijk weer te geven:
japan x frankrijk xx duitsland xx italie xx overig x Elk paar landen dat een x in dezelfde kolom heeft, heeft geen significant verschil in gemiddeld verbruik, de overige wel. Dus: japan is significant met duitsland, italie en overig en frankrijk is significant met overig. De overige paren hebben geen significant verschil. Belangrijk is om je realiseren dat er nogal wat paarverschillen, hier 10, getoetst worden, elk afzonderlijk met α = 0.05. De kans op minstens één fout van de eerste soort (hier: het ten onrechte concluderen dat een verschil significant is) is bij al deze toetsen dus groter dan α, en de methode heeft de neiging om te veel significante verschillen aan te geven. Andere methoden, zoals de methode van Tukey of Duncan, corrigeren hiervoor door bij de grenswaarde voor significante verschillen een andere dan een t-verdeling te gebruiken. Binnen SPSS zijn dergelijke methoden toe te passen door binnen de One Way Anova via de knop Post Hoc een andere methode aan te klikken.
4.2.6 Modelaannamen Bij variantieanalyse gelden voor fouttermen ε die in modellen een rol spelen dezelfde aannamen als bij regressieanalyse, namelijk dat ze N (0,σ2) verdeeld zijn en onderling onafhankelijk. Controle van deze aannamen gebeurt dan ook, analoog aan §3.5.2 t/m §3.5.5, op basis van de residuen. In de procedure One Way Anova zit geen Save optie om residuen en voorspelde waarden vast te houden. Via Univariate gaat dit wel:
• Klik op Analyze/General Linear Model/Univariate. • Vul bij Dependent Variable verbruik in en bij Fixed Factor(s) land. In de
standaardsituatie houdt de procedure Univariate rekening met alle mogelijke interacties van de factoren, maar omdat we hier met maar één factor te maken hebben, is interactie in dit geval niet van toepassing. Pas in §4.3 e.v. komen interacties aan bod.
• Klik nu op de knop Save en selecteer daar Unstandardized Predicted Values en Unstandardized Residuals. We krijgen er dan in de datafile twee nieuwe variabelen bij: res_1, waarin de gewone residuen staan en pre_1, waarin de voorspelde waarden staan.
Maak nu een Scatter-plot met op de x-as de variabele land en op de y-as de variabele res_1. We krijgen nu een scatterplot van de residuen per herkomstgebied. Helaas krijgen we niet de labels, maar de nummers bij de X-as. Zie hierna.
82
herkomstland
6543210
Res
idua
l for
VE
RB
RU
IK
20
10
0
-10
Voor een plot van de residuen als functie van de voorspelde waarden, maken we weer een scatterplot met op de X-Axis nu pre_1 i.p.v. land (Snel via de Dialog Recall Button). Het resultaat:
Predicted Value for VERBRUIK
12.011.511.010.510.09.59.08.58.0
Res
idua
l for
VE
RB
RU
IK
20
10
0
-10
Bij deze enkelvoudige variantieanalyse bevatten beide figuren in essentie dezelfde informatie: per herkomstgebied is er immers één voorspelde waarde, namelijk het gemiddelde van de betreffende deelgroep. De spreiding van residuen voor Frankrijk en Japan (met allebei lage voorspelde waarden) lijkt iets kleiner dan voor de overige gebieden. Verder lijkt Italië meer negatieve dan positieve residuen te hebben. Hoewel niet echt verontrustend, zouden beide een indicatie kunnen zijn voor een niet correct model (bijvoorbeeld te weinig factoren) of voor modelaannamen waaraan niet volledig voldaan is.
83
4.3 Enkelvoudige variantieanalyse met verblokking
4.3.1 Algemeen Enkelvoudige variantieanalyse met verblokking is gericht op het ontdekken van de invloed van één kwalitatieve factor op basis van onderling afhankelijke waarnemingen. Een voorbeeld is het onderzoek naar de invloed van de verschillende condities 90 km/h constant, 120 km/h constant en stadsgebruik op het brandstofverbruik, uitgaande van de gegevens van het bestand vb4.2.1.sav. Per auto zijn deze gegevens namelijk niet onafhankelijk: grote auto’s zullen bijvoorbeeld voor alle drie omstandigheden een hoger verbruik hebben dan kleine auto’s. Door in de experimentopzet en daarna ook in de analyse hiermee rekening te houden zijn dergelijke effecten (gedeeltelijk) te compenseren: in feite reduceer je zo de invloed van ongewenste of oncontroleerbare factoren. In dat opzicht is het een uitbreiding van toetsmethoden uit hoofdstuk 2, waarbij het ging om verschillen tussen twee groepen op basis van gepaarde waarnemingen. In het voorbeeld van deze paragraaf gebruiken we voor de duidelijkheid uit het vb4.2.1.sav-bestand slechts gegevens voor zeven auto’s (zie tabel). Ze zijn opgeslagen in een apart bestand, vb4.3.1.sav. De indeling ervan wijkt af van die van vb4.2.1.sav: er zijn niet langer drie verschillende variabelen voor het brandstofverbruik, maar slechts één, consumpt, gecombineerd met een variabele conditie, die de meetconditie bevat. Verder is er een variabele auto met het volgnummer van de betreffende auto in vb4.2.1.sav. De variabelen zijn alle numeriek. conditie heeft de waarde 1, 2 of 3, met labels resp. 90 km/h, 120 km/h en stad.
auto 90 km/h 120 km/h stad 8 8.3 10.2 14.9 11 4.7 6.6 7.1 15 4.1 6.3 5.8 19 4.9 7.0 6.7 50 10.4 12.3 17.9 73 4.8 6.5 7.8 79 7.3 10.2 12.3
Selectie van gegevens uit het vb4.2.1.sav-bestand
84
4.3.2 Procedureaanroep en rechtstreekse uitvoer De analyse gaat als volgt:
• Klik op Analyze/General Linear Model/Univariate. • Zet bij Dependent Variable consumpt en bij Fixed Factor(s) conditie en auto. • Klik nu op Model. Standaard is Full factorial geselecteerd bij Specify Model. Dit
is een model, waarin ook met alle mogelijke interacties rekening wordt gehouden. Omdat we dit niet willen, moeten we in plaats daarvan Custom selecteren.
• Zet nu conditie en auto onder Factor & Covariates. Als resultaat krijgen we:
Tests of Between-Subjects Effects
Dependent Variable: CONSUMPT
233.887a 8 29.236 15.228 .0001476.724 1 1476.724 769.159 .000177.852 6 29.642 15.439 .00056.034 2 28.017 14.593 .00123.039 12 1.920
1733.650 21256.926 20
SourceCorrected ModelInterceptAUTOCONDITIEErrorTotalCorrected Total
Type IIISum of
Squares dfMean
Square F Sig.
R Squared = .910 (Adjusted R Squared = .851)a.
Ook nu weer de bekende kwadratensomopslitsing over indelingsfactor conditie, verblokkingsfactor auto en foutterm Error. Door de kwadratensommen te delen door het bijbehorend aantal vrijheidsgraden ontstaan gemiddelde kwadratensommen (kolom Mean Square). Mean Square Error = 1.920 is daarbij een schatting van de variantie van de toevalscomponent. Op basis van de F-ratio (kolom F) F = 14.593 met bijbehorende
212F -verdeling is een toets mogelijk naar de invloed van factor conditie. Blijkens de erg
lage overschrijdingskans, 0.001, is de conditie (90 km/h constant, 120 km/h constant of stadsgebruik) significant van invloed op het verbruik. Ook voor de verblokkingsfactor auto wordt een toets gegeven, hier met F = 15.439 en een significantieniveau 0.000 op basis van een -verdeling. Ze geeft aan dat, door rekening te houden met de verblokking, de variantie van de toevalscomponent significant kleiner geworden is: verblokking had hier dus zin. Omdat verblokking is toegepast om de invloed van ongewenste of oncontroleerbare factoren te compenseren, ben je vooralsnog niet in een verdere analyse van verschillen geïnteresseerd: de blokken (auto’s) in dit experiment zijn min of meer willekeurig gekozen.
612F
85
Ga terug naar de Univariate Dialog Box waarin de variabelen van de analyse zijn ingevuld.
• Klik nu op de knop Plots, dan kunnen we de gemiddelde consumptie als functie van één van de factoren laten plotten.
• Zet auto onder Horizontal Axis en klik op de knop Add. Doe hetzelfde voor conditie.
• Om het effect van mogelijke interactie tussen beide factoren te bekijken, zetten we nogmaals auto onder Horizontal Axis en zetten we conditie onder Separate Lines en klikken vervolgens op de knop Add.
Het resultaat staat hieronder. We zien dat er praktisch geen interactie tussen auto en conditie bestaat: de lijnen lopen parallel.
Estimated Marginal Means of CONSUMPT
AUTO
7973501915118
Est
imat
ed M
argi
nal M
eans
18
16
14
12
10
8
6
4
2
CONDITIE
90 km/h
120 km/h
stad
86
Estimated Marginal Means of CONSUMPT
AUTO
7973501915118
Est
imat
ed M
argi
nal M
eans
14
12
10
8
6
4
Estimated Marginal Means of CONSUMPT
CONDITIE
stad120 km/h90 km/h
Est
imat
ed M
argi
nal M
eans
11
10
9
8
7
6
87
4.3.3 Boxplots We gaan nu twee boxplots maken, namelijk een boxplot voor consumpt als functie van conditie, en een voor consumpt als functie van auto. Beide groepen boxplots staan hieronder.
777N =
conditie
stad12090
cons
umpt
ie
20
18
16
14
12
10
8
6
4
2
3333333N =
auto
7973501915118
cons
umpt
ie
20
18
16
14
12
10
8
6
4
2
In de boxplot als functie van conditie is de spreiding bij stad groter dan bij de andere twee condities. Verder lijkt de verdeling van waarnemingen in alle drie de gevallen behoorlijk scheef. Daarbij is wel enige reserve geboden: elke groep in de boxplot bestaat slechts uit zeven waarnemingen. De boxplot per blokfactor auto geeft een mogelijke oorzaak voor dit scheef lijkende verloop: er zijn vier ‘zuinige’ auto’s, namelijk 11, 15, 19 en 73 en drie ‘onzuinige’ auto’s: 8, 50 en 79. De mediaan, als middelste waarneming, is dus telkens op basis van de vierde ‘zuinige’ auto bepaald. Bedenk dat in de boxplot per auto telkens slechts drie waarnemingen gebruikt zijn.
88
4.3.4 Verwachtingswaarden per deelgroep Zoals bij enkelvoudige variantieanalyse zonder verblokking reeds is aangegeven, kan per deelgroep een betrouwbaarheidsinterval voor de verwachtingswaarde berekend worden met One Way Anova:
• Klik op Analyze/Compare Means/One Way Anova. • Zet bij Dependent List consumpt en bij Factor de variabele conditie. • Klik op de knop Options. • Selecteer Descriptive.
Het resultaat staat hieronder.
Descriptives
CONSUMPT
7 6.357 2.359 .892 4.175 8.539 4.1 10.47 8.443 2.412 .912 6.212 10.673 6.3 12.37 10.357 4.701 1.777 6.009 14.705 5.8 17.9
21 8.386 3.584 .782 6.754 10.017 4.1 17.9
90 km/h120 km/hstadTotal
N MeanStd.
Deviation Std. ErrorLowerBound
UpperBound
95% ConfidenceInterval for Mean
Minimum Maximum
ANOVA
CONSUMPT
56.034 2 28.017 2.510 .109200.891 18 11.161256.926 20
Between GroupsWithin GroupsTotal
Sum ofSquares df
MeanSquare F Sig.
We zien onder andere het aantal waarnemingen (N) en het groepsgemiddelde (Mean) per conditie evenals een schatting voor de standaardfout (Std Error = Std Deviation / N ). Het gewenste betrouwbaarheidspercentage, 95%, kan hier niet veranderd worden. Zie hiervoor en voor het grafisch weergeven van betrouwbaarheidsintervallen §4.2.4. Als betrouwbaarheidsintervallen disjunct zijn, kunnen we niet zonder meer concluderen, dat het verschil significant is. Daarvoor moeten namelijk betrouwbaarheidsintervallen voor het verschil tussen deelgroepen worden bepaald. Dit kan door in de Anova Dialog Box op de knop Post Hoc te klikken en daar het gewenste onderscheidings-criterium (b.v. LSD of Tukey) te selecteren. Eventueel kunnen we ook nog het Significance Level wijzigen (standaard 0.05).
89
4.3.5 Verschillen tussen deelgroepen Omdat uit de toets op basis van de ANOVA-tabel blijkt dat het verbruik voor minstens één van de condities significant afwijkt, is het zinvol na te gaan welke conditie(s) dit betreft. Net als in ANOVA zonder verblokking kan dit op basis van het kleinste significante verschil (LSD). Een schatting voor de standaardafwijking s volgt uit de gemiddelde kwadratensom in de ANOVA-tabel:
s MSRESIDUAL= .
Het bijbehorende aantal vrijheidsgraden legt het aantal vrijheidsgraden voor de gebruikte t-verdeling vast.
• Klik op Analyze/General Linear Model/Univariate. • Zet bij Dependent Variable consumpt, bij Fixed Factor(s) conditie en daaronder
auto. • Klik op de knop Model. Selecteer Custom onder Specify Model (standaard staat
nl. Full Factorial geselecteerd en dan wordt de interactie conditie∗auto ook bij het model betrokken).
• Zet conditie onder Model. Doe hetzelfde voor auto. Klik op Continue. • Klik op de knop Post Hoc. Zet conditie onder Post Hoc Test for. • Onder Equal Variances Assumed selecteren we LSD. Het resultaat van de Post Hoc test staat hieronder.
Multiple Comparisons
Dependent Variable: CONSUMPTLSD
-2.086* .741 .016 -3.699 -.472-4.000* .741 .000 -5.614 -2.3862.086* .741 .016 .472 3.699
-1.914* .741 .024 -3.528 -.3014.000* .741 .000 2.386 5.6141.914* .741 .024 .301 3.528
(J) CONDITIE120 km/hstad90 km/hstad90 km/h120 km/h
(I) CONDITIE90 km/h
120 km/h
stad
MeanDifference
(I-J) Std. Error Sig.LowerBound
UpperBound
95% ConfidenceInterval
Based on observed means.The mean difference is significant at the .05 level.*.
Kennelijk zijn alle condities significant verschillend, want achter elke waarde onder Mean Difference staat een sterretje. Ook aan de betrouwbaarheidsintervallen kunnen we het zien, want geen enkel interval bevat 0.
90
4.3.6 Modelaannamen Voor controle van de modelaannamen op basis van de residuen moeten we eerst er voor zorgen dat we de (ongestandaardiseerde) residuen en voorspelde waarden als extra variabelen in de datafile hebben staan. Dat kan met behulp van Univariate.
• Klik op Model, selecteer Custom. • Zet de onafhankelijke variabelen onder Model en klik op Continue. • Klik op Save. Selecteer Unstandardized Predicted Values en Unstandardized
Residuals. De voorspelde waarden en residuen komen in de datafile te staan onder de namen pre_1 en res_1 met labels Predicted Value for CONSUMPT resp. Residual for CONSUMPT. Nu kunnen we een scatterplot maken van de residuen als functie van conditie. Het resultaat staat hieronder.
CONDITIE
43210
Res
idua
l for
CO
NS
UM
PT
3
2
1
0
-1
-2
Voor conditie = 3 (label ‘stad’) liggen de residuen wat verder uit elkaar, dus de spreiding is groter dan voor de andere twee condities. We plotten ook de residuen tegen de voorspelde waarden in een scatterplot:
91
Predicted Value for CONSUMPT
161412108642
Res
idua
l for
CO
NS
UM
PT
3
2
1
0
-1
-2
De residuen als functie van de voorspelde verbruikswaarde lijken niet volgens het toeval verdeeld. Tussen 3 en 7 zijn ze namelijk allemaal positief (dus voorspelt het model daar systematisch te laag) en tussen 7 en 9.5 zijn ze alle negatief (en dus voorspelt het model daar juist te hoog). Ook de grotere spreiding van de residuen met Predicted Value > 9.5 valt op. Een en ander kan een indicatie zijn voor een niet correct model (bijvoorbeeld te weinig factoren) of voor modelaannamen waaraan niet volledig voldaan is.
92
4.4 Meervoudige variantieanalyse
4.4.1 Algemeen Meervoudige variantieanalyse is gericht op het ontdekken van de invloed van meerdere kwalitatieve factoren, bijvoorbeeld brandstoftype én herkomstland, op één afhankelijke variabele, bijvoorbeeld brandstofverbruik. Daarbij is niet alleen de invloed van factoren afzonderlijk van belang, de hoofdeffecten, maar ook de gecombineerde invloed van factoren, de interacties. Zo kan het bijvoorbeeld zijn dat zowel diesel-auto’s als Japanse auto’s in het algemeen zuinig zijn (hoofdeffecten), maar dat juist de combinatie ervan, namelijk Japanse diesels, een afwijkend gedrag vertonen (interactie). In deze paragraaf bespreken we een analysemethode om hier achter te komen. Voorwaarde daarbij is dat van elke combinatie van factorniveaus precies evenveel onafhankelijke waarnemingen beschikbaar zijn. In het bestand vb4.2.1.sav is dit niet het geval. Daarom nemen we het aangepaste bestand, vb4.4.1.sav, met gegevens over een aantal Duitse en Japanse auto’s. We gebruiken de variabelen: top1 topsnelheid (km/h) brandst1 type brandstof: 1 heeft label ‘benzine’, 2: ‘diesel’ land1 herkomstland: 1: ‘duitsland’, 2: ‘japan’
4.4.2 Procedureaanroep en rechtstreekse uitvoer Voor meervoudige variantieanalyse is dezelfde procedure van toepassing als bij de enkelvoudige variantieanalyse met verblokking.
• Klik op Analyze/General Linear Model/Univariate (of via het Dialog Recall Icon). • Zet bij Dependent Variable top1 en bij Fixed Factor(s) brandst1 en land1.
We krijgen de variantieanalyse-tabel en omdat we in de standaardsituatie zitten, wordt er ook rekening gehouden met interactie tussen de factoren. Het resultaat volgt hieronder.
93
Tests of Between-Subjects Effects
Dependent Variable: topsnelheid(km/h)
3192.375a 3 1064.125 8.378 .000867903.1 1 867903.1 6832.922 .0002628.125 1 2628.125 20.691 .000
3.125 1 3.125 .025 .876561.125 1 561.125 4.418 .045
3556.500 28 127.018874652.0 326748.875 31
SourceCorrected ModelInterceptBRANDST1LAND1BRANDST1 * LAND1ErrorTotalCorrected Total
Type IIISum ofSquares df
MeanSquare F Sig.
R Squared = .473 (Adjusted R Squared = .417)a.
De opbouw en het principe ervan stemmen overeen met die van de andere Anova-tabellen: van de kwadratensom 6748.875 (Corrected Total) zijn kwadratensommen voor systematische effecten afgesplitst, namelijk voor de hoofdeffecten brandst1 en land1, resp. 2628.125 en 3.125 en voor de interactie brandst1∗land1 van beide factoren 561.125. Het restant Error 3556.500 geldt als toevalsterm. Ook de beschikbare n–1=31 (Corrected Total) vrijheidsgraden df (degrees of freedom) zijn verdeeld over hoofd-effecten (elk met k=2 niveaus, dus df=k–1=1), interactie (het product, 1∗1=1 van het aantal vrijheidsgraden per hoofdeffect) en Error (het restant, 31–1–1–1=28). Door kwadratensommen te delen door het bijbehorend aantal vrijheidsgraden ontstaan gemiddelde kwadratensommen (kolom Mean Square). Mean Square Error=127.018 geeft een schatting voor de variantie van de toevalscomponent. Uit een vergelijk van deze waarde met de andere gemiddelde kwadratensommen zijn F-ratio’s te berekenen voor elk van de hoofdeffecten en de interactie. Op basis hiervan en van geschikte F-verdelingen zijn toetsen mogelijk om na te gaan of de betreffende term een significante invloed heeft op de afhankelijke variabele. Voor factor brandst1 met F=20.69 en een overschrijdings-kans 0.000 op basis van een F -verdeling is dit het geval. Bij factor land1 met F = 0.025 en een overschrijdingskans 0.876 op basis van een -verdeling niet. Interactie brandst1∗land1 met F = 4.418 en overschrijdingskans 0.045 op basis van een F -verdeling is in feite een randgeval: bij α = 0.05 is deze significant, bij α = 0.01 niet.
281
F281
281
94
4.4.3 Boxplots Maak boxplots van brandstof * topsnelheid en van herkomstland * topsnelheid.
1616N =
brandstof
dieselbenzine
tops
nelh
eid
210
200
190
180
170
160
150
140
130
32
31
1616N =
herkomstland
japanduitsland
tops
nelh
eid
210
200
190
180
170
160
150
140
130
Opvallend zijn twee verafgelegen punten bij de diesel-waarnemingen: diesels met een (te) hoge topsnelheid. Voor het overige geven de figuren geen aanleiding tot ongerustheid. Om de modelveronderstellingen te toetsen zouden we boxplots van de residuen moeten maken. In bovenstaande figuren zijn de waarnemingen gebruikt. Daarom zijn de verschillen tussen de beide boxplots in iedere figuur grotendeels te verklaren uit de significante interactie tussen de factoren land en brandstof.
95
4.4.4 Verwachtingswaarden per deelgroep Net als bij enkelvoudige variantieanalyse kunnen betrouwbaarheidsintervallen voor de verwachtingswaarden per factorniveau of per factorniveaucombinatie berekend worden. Een schatting voor de standaardafwijking s volgt uit de gemiddelde kwadratensom in de Anova-tabel: s = (Mean Square Error)1/2. Het bijbehorend aantal vrijheidsgraden legt het aantal vrijheidsgraden voor de gebruikte t-verdeling vast.
• Ga terug naar de Univariate Dialog Box. • Klik nu op de knop Options. • Zet land1, brandst1 en land1∗brandst1 onder Display Means for.
Het resultaat (behalve de Anova-tabel, die hadden we al) staat hieronder.
1. Grand Mean
Dependent Variable: topsnelheid(km/h)
164.688 1.992 160.606 168.769Mean Std. Error
LowerBound
UpperBound
95% ConfidenceInterval
3. herkomstland
Dependent Variable: topsnelheid(km/h)
164.375 2.818 158.604 170.146165.000 2.818 159.229 170.771
herkomstlandduitslandjapan
Mean Std. ErrorLowerBound
UpperBound
95% ConfidenceInterval
2. brandstof
Dependent Variable: topsnelheid(km/h)
173.750 2.818 167.979 179.521155.625 2.818 149.854 161.396
brandstofbenzinediesel
Mean Std. ErrorLowerBound
UpperBound
95% ConfidenceInterval
4. brandstof * herkomstland
Dependent Variable: topsnelheid(km/h)
169.250 3.985 161.088 177.412178.250 3.985 170.088 186.412159.500 3.985 151.338 167.662151.750 3.985 143.588 159.912
herkomstlandduitslandjapanduitslandjapan
brandstofbenzine
diesel
Mean Std. ErrorLowerBound
UpperBound
95% ConfidenceInterval
Mean, Std. Error en Confidence Interval zijn gegeven per factorniveau van brandst1 (tabel 2) en land1 (tabel 3) alsmede per combinatie van factorniveaus brandst1∗land1 (tabel 4). Het overall gemiddelde staat in tabel 1. Zie §4.2.4 voor een voorbeeld van het plotten van betrouwbaarheidsintervallen.
96
4.4.5 Interacties Blijkens de Anova-tabel is naast het hoofdeffect brandst1(brandstof) de interactie brandst1∗land1 tussen de factoren brandst1 en land1 significant (α = 0.05). Dit betekent dat vooral de combinatie van factorniveaus van belang is. We kunnen hierover meer informatie krijgen door in de Univariate Dialog Box op de knop Plots te klikken. We maken een plot van de gemiddelde topsnelheid als functie van het type brandstof voor beide landen van herkomst. Ook maken we een plot van de gemiddelde topsnelheid als functie van het land van herkomst voor beide typen brandstof. Het resultaat is als volgt:
Estimated Marginal Means of topsnelheid(km/h)
brandstof
dieselbenzine
Est
imat
ed M
argi
nal M
eans
180
170
160
150
herkomstland
duitsland
japan
Estimated Marginal Means of topsnelheid(km/h)
herkomstland
japanduitsland
Est
imat
ed M
argi
nal M
eans
180
170
160
150
brandstof
benzine
diesel
97
In de plots staan de gemiddelden van top1 (topsnelheid) per combinatie van factorniveaus (zie ook Mean in tabel nr 4: brandstof∗herkomstland) uitgezet. In de bovenste plot staan in de X-as instellingen van brandst1 (benzine of diesel) terwijl resultaten van dezelfde instellingen van land1 (duitsland of japan) door een lijn verbonden zijn. In de onderste plot is het juist andersom: in de X-as staan instellingen van land1 (duitsland of japan) terwijl resultaten van dezelfde instellingen van brandst1 (benzine of diesel) door een lijn verbonden zijn. We kijken allereerst naar de bovenste figuur. Opvallend is dat de hellingen van beide lijnen negatief en verschillend zijn: diesel-auto’s hebben in beide landen een kleinere gemiddelde topsnelheid dan benzine-auto’s, maar het verschil is voor Duitse auto’s kleiner dan voor Japanse auto’s. De gemiddelde topsnelheid voor Duitse auto’s (diesel en benzine samen) is ongeveer even groot als de gemiddelde topsnelheid voor Japanse auto’s: beide lijnen snijden elkaar ongeveer in het midden. Dit komt overeen met het resultaat van de Anova-tabel: het hoofdeffect van de factor land1 is in hoge mate niet significant (P-waarde > 0.5). Kijken we nu naar de onderste figuur. De doorlopende lijn, die bij ‘benzine’ hoort, loopt omhoog: Japanse benzine-auto’s hebben een hogere gemiddelde topsnelheid dan Duitse benzine-auto’s. De onderbroken lijn die bij ‘diesel’ hoort, loopt omlaag: Japanse diesel-auto’s hebben een kleinere gemiddelde topsnelheid dan Duitse diesel-auto’s. Dit is hetzelfde interactie-effect als in de bovenste figuur, maar nu vanuit een andere invalshoek bekeken. Duidelijk is dat het gemiddelde effect van benzine (Japanse en Duitse auto’s samen) groter is dan dat van diesel: de lijn die hoort bij ‘benzine’ ligt namelijk geheel boven de lijn die bij ‘diesel’ hoort. Ook dit komt overeen met de Anova-tabel: de factor brandst1 is in hoge mate significant (P-waarde 0.000). Bedenk overigens dat de interactieplots slechts een globale indruk geven van het interactie-effect: om na te gaan of verschillen tussen specifieke niveau-combinaties echt significant zijn, zijn betrouwbaarheidsintervallen voor zo’n verschil nodig.
98
4.4.6 Modelaannamen Binnen Univeriate is er een mogelijkheid om residuen rechtstreeks te laten plotten.
• Gebruik daarvoor de knop Options. • Selecteer Residual Plot.
Het resultaat is als volgt:
Observed
Predicted
Std. Residual
Dependent Variable: topsnelheid(km/h)
Model: Intercept + BRANDST1 + LAND1 + BRANDST1*LAND1
In dit plaatje staan 3 verschillende plots (de andere drie zijn alleen gedraaid: de coördinaten zijn verwisseld), nl. de (gestudentiseerde) residuen tegen de observaties (linksonder), de (gestudentiseerde) residuen tegen de voorspelde waarden (onder in het midden) en de observaties tegen de voorspelde waarden (boven in het midden). Zo’n plaatje is aardig om een globale indruk te krijgen, maar een duidelijk nadeel is, dat het erg klein is, zeker als het veel waarnemingen betreft. Ook staan de waarden van de X en Y-as er niet bij. Om grotere plaatjes te krijgen en ook om de residuen tegen de afzonderlijke onafhankelijke factoren uit te zetten zullen de voorspelde waarden en de residuen (eventueel gestudentiseerd of gestandaardiseerd) als aparte variabelen moeten worden opgeslagen in de datafile, zie §4.2.4. Een scatterplot daarvan geeft het volgende resultaat:
99
Predicted Value for TOP1
180170160150
Res
idua
l for
TO
P1
30
20
10
0
-10
-20
Voor de laagste van de vier voorspelde waarden lijkt de spreiding van de residuen wat kleiner. Voor de plots van de residuen tegen de afzonderlijke factoren volgen we dezelfde procedure en vervangen we bij X-Axis de variabele pre_1 door brandst1. Via de Chart Editor kunnen we de X-as aanpassen, omdat alleen de waarden 1 en 2 er toe doen. Resultaat:
brandstof
3210
Res
idua
l for
TO
P1
30
20
10
0
-10
-20
Het is een beetje jammer dat in de plot bij de waarde 1 en 2 in de X-as niet vermeld staat om welke brandstof het gaat (1=benzine, 2=diesel). De spreiding van de residuen is voor beide brandstoffen ongeveer hetzelfde en de gemiddelde waarde van de residuen is voor de afzonderlijke brandstoffen ongeveer 0. De plot geeft dus geen aanleiding tot ongerustheid.
100
Voor de andere plot vervangen we bij X-Axis de variabele brandst1 door land1. Vergeet niet de X-as aan te passen. Het resultaat staat hieronder.
herkomstland
3210
Res
idua
l for
TO
P1
30
20
10
0
-10
-20
101
4.5 Overzicht van besproken procedures
Omschrijving Menu Bar Dialog Box VARIANTIEANALYSE Enkelvoudige variantieanalyse (completely randomized design)
Analyze/Compare Means/ One Way Anova
Variabelen meegeven
Enkelvoudige variantieanalyse met verblokking (randomized block experiment)
Analyze/General Linear Model/Univariate
Variabelen meegeven Model meegeven (interactie weglaten!)
Meervoudige Variantieanalyse (factorial experiment)
Analyze/General Linear Model/Univariate
Variabelen meegeven Eventueel model meegeven (i.g.v. geen volledig model)
102
4.6 Opdrachten Werk, alvorens aan deze opdrachten te beginnen, de eerder beschreven voorbeelden door. Opdracht 4.1 Van vijf benzinemerken is het octaangetal bepaald. De resultaten staan in de tabel en in het bestand opg0401.sav. Gebruik voor de analyse van deze data de One Way Anova procedure.
merk A B C D E 87 95 89 85 84 91 95 90 84 80 octaan
getal 92 97 95 85 87
Data bij opdracht 4.1
a) Maak voor de data een Boxplot als functie van het merk en interpreteer het resultaat. b) Bepaal de variantieanalyse-tabel. Ga na wat de overschrijdingskans is voor de toets op
verschillen per merk. Wat is bij α = 0.05 je conclusie? c) Bekijk voor het berekende model de residuenplots als functie van de factorinstellingen
en van de voorspelde waarden. Lijkt de aanname van gelijke variantie gerechtvaardigd? Controleer ook de normaliteit.
d) Bepaal een 95%-betrouwbaarheidsinterval voor de verwachtingswaarde van het
octaangetal bij merk D. e) Maak een plot voor de 95%-betrouwbaarheidsintervallen van de verwachtingswaarden
per merk en geef op grond hiervan aan welke verschillen er lijken te bestaan. f) Bepaal op basis van de Least-Significant-Difference methode welke
verwachtingswaarden significant verschillen (α = 0.05) en vergelijk het resultaat met dat van onderdeel e).
g) Kies voor de methode van Tukey en bepaal hiermee opnieuw welke
verwachtingswaarden significant verschillen (α = 0.05). Vergelijk het resultaat met de onderdelen e) en f). Merk op dat de LSD-methode geneigd is om te veel significante verschillen aan te geven. De methode van Tukey is in dat opzicht kritischer.
103
Opdracht 4.2 Met behulp van variantieanalyse is het mogelijk om verschillen in de verwachtingswaarden tussen k onafhankelijke groepen te analyseren. Deze methoden zijn dus ook van toepassing wanneer er sprake is van twee onafhankelijke groepen. De resultaten lopen parallel met die met die van de eerder beschreven toetsings- en schattingsmethoden voor twee onafhankelijke steekproeven. In deze opdracht laten we dit zien
monster 1 2 3 4 5 6 7 8 9 10
titratie 1 76.3 77.2 73.7 75.8 77.4 74.5 78.2 73.8 75.7 76.1 titratie 2 77.0 77.3 74.9 75.2 77.7 75.0 78.5 74.1 75.4 76.8
Data bij opdracht 2.3 t.b.v. opdracht 4.2 Beschouw nogmaals de data van opdracht 2.3 voor twee titratiemethoden (zie tabel). Deze data zijn opgeslagen in een bestand opg0202.sav. a) Bepaal met behulp van One Way Anova voor deze situatie de variantieanalyse-tabel.
Bepaal hieruit de waarde van de toetsingsgrootheid F, de overschrijdingskans en de conclusie bij α = 0.10 voor een toets op verschillen in verwachtingswaarden. Vergelijk de resultaten met die van opdracht 2.3c (vergelijk in het bijzonder de waarde van t2 met die van F).
b) Is het mogelijk om met behulp van variantieanalyse een eenzijdige toets op verschillen
in de verwachtingswaarden uit te voeren? c) Bepaal op basis van de Least-Significant-Difference methode met een
betrouwbaarheid van 90% of de verwachtingswaarden significant verschillen. Vergelijk de waarde voor het kleinste significante verschil bij 90% met de (half)breedte van het 90%-betrouwbaarheidsinterval, zoals gevonden in opdracht 2.3b en verklaar eventuele overeenkomsten.
104
Opdracht 4.3 Van een aantal verschillende monsters van een bepaalde kwaliteit steenkool is door vier verschillende laboratoria het zwavelgehalte bepaald. De resultaten staan in de tabel en in het bestand opg0403.sav.
Lab Zwavelgehalte in gewichtsprocent A 3.18 3.14 3.12 3.14 3.23 B 3.14 3.13 3.27 C 3.02 3.07 D 3.18 3.20 3.22 3.14 3.09 3.10
Data bij opdracht 4.3
a) Maak voor de data een boxplot als functie van het laboratorium en geef op grond hiervan aan welke verschillen er lijken te bestaan.
b) Bepaal de variantieanalyse-tabel. Ga na wat de overschrijdingskans is bij de toets op
verschillen tussen laboratoria. Wat is bij resp. α = 0.05 en α = 0.10 je conclusie? c) Bepaal op basis van de Least-Significant-Difference methode of er significante
paarverschillen zijn (α = 0.05). Vergelijk het resultaat met dat in onderdeel b) en verklaar eventuele tegenstrijdigheden.
d) Kies voor de methode van Tukey en bepaal hiermee opnieuw welke
verwachtingswaarden significant verschillen (α = 0.05). Vergelijk het resultaat met de onderdelen e) en f). Merk op dat de LSD-methode geneigd is om te veel significante verschillen aan te geven. De methode van Tukey is in dat opzicht kritischer.
105
Opdracht 4.4 In een varkensfokkerij is een experiment uitgevoerd om de invloed van drie verschillende soorten voeding op de gewichtstoename na te gaan. De resultaten (gemeten over een vast tijdsinterval, in kg) staan in de tabel en in het bestand opg0404.sav.
Voeding Gewichtstoename A 133 144 135 149 143 B 163 148 152 146 157 C 210 233 220 226 229
Data bij opdracht 4.4 a) Maak voor de data een boxplot als functie van het voedingstype en geef op grond
daarvan aan welke verschillen er lijken te bestaan. b) Bepaal de variantieanalyse-tabel en ga na of er significante verschillen zijn tussen de
voedingstypen (α = 0.05). c) Controleer op basis van de residuen in hoeverre aan de modelaannamen voldaan lijkt
te zijn. d) Maak een plot van de 95%-betrouwbaarheidsintervallen van de verwachtingswaarden
per voedingstype en geef op grond daarvan aan welke verschillen er lijken te bestaan. e) Bepaal op basis van de Least-Significant-Difference methode welke
verwachtingswaarden significant verschillen (α = 0.05) en vergelijk het resultaat met dat van onderdeel d).
f) Kies de methode Tukey en bepaal hiermee opnieuw welke verwachtingswaarden
significant verschillen (α = 0.05). Welke methode heeft feitelijk de kleinste kans op een fout van de eerste soort?
106
Opdracht 4.5 Door uitdroging kunnen in een houten constructie scheuren ontstaan. Een methode om het effect hiervan te verminderen is om de bewuste plek vochtig te houden. Voor twaalf constructies is bijgehouden hoe de breedte van de scheur verandert in de loop der tijd wanneer de vochtigheidsgraad van de omgeving verhoogd wordt. Resultaten staan in de tabel en in het bestand opg0405.sav.
Locatie Scheurbreedte ↓ 0 weken 2 weken 6 weken 14 weken 1 0.50 0.20 0.10 0.10 2 0.40 0.20 0.10 0.10 3 0.60 0.30 0.15 0.10 4 0.80 0.40 0.10 0.10 5 0.80 0.30 0.05 0.05 6 1.00 0.40 0.05 0.05 7 0.90 0.25 0.05 0.05 8 1.00 0.30 0.05 0.10 9 0.70 0.25 0.10 0.10 10 0.60 0.25 0.10 0.05 11 0.30 0.15 0.10 0.05 12 0.30 0.15 0.05 0.05
Data bij opdracht 4.5
a) Maak van de data een boxplot als functie van het aantal weken en interpreteer het resultaat.
b) c) Wat is het voordeel van een verblokking naar locatie bij dit experiment? d) Bepaal de variantieanalyse-tabel. Houd daarbij rekening met de verblokking naar
locatie. Ga na wat de overschrijdingskans is bij de toets op verschillen per weekinstelling. Wat is bij α = 0.05 je conclusie?
e) Ga na wat de overschrijdingskans is bij de toets is bij de toets op het
verblokkingseffect naar locatie. Wat is bij α = 0.05 je conclusie? f) Geef aan hoe de ANOVA-tabel verandert wanneer geen rekening gehouden zou zijn
met het verblokkingseffect. Controleer dit met SPSS door de verblokkingsfactor locatie weg te laten.
g) Bekijk voor het model met verblokkingseffect de residuenplot als functie van de
factorinstellingen, de verblokking en de voorspelde waarden. Lijkt de aanname van gelijke varianties gerechtvaardigd? Zijn de residuen normaal verdeeld?
h) Geef een 95%-betrouwbaarheidsinterval voor de verwachtingswaarde bij 0 en bij 14
weken. i) Maak een plot voor de 95%-betrouwbaarheidsintervallen van de verwachtingswaarden
bij de verschillende weekinstellingen en geef op grond daarvan aan welke verschillen er lijken te bestaan.
j) Bepaal op basis van de Least-Significant-Difference methode welke verwachtings-
waarden van de verschillende weekinstellingen significant verschillen (α = 0.05). Vergelijk het resultaat met dat van h).
k) Herhaal onderdeel i) met de methode van Tuckey en vergelijk het resultaat.
107
Opdracht 4.6 De effectiviteit van een productieproces is bepaald voor twee verschillende machines, A1 en A2 en voor drie verschillende basismaterialen: kurk (BB1), rubber (B2B ) en plastic (BB3). De resultaten staan in de tabel en in het bestand opg0406.sav.
BB1 BB2 BB3
4.31 3.36 4.01 4.27 3.42 3.94 A1
4.40 3.48 3.89 3.94 3.91 3.48 3.81 3.80 3.53 A2
3.99 3.85 3.42 Data bij opdracht 4.6 a) Maak voor de data boxplots als functie van het machinetype en het basismateriaal.
Wordt hierbij met mogelijke interacties rekening gehouden? b) Bepaal de variantieanalyse-tabel. Houd daarbij rekening met interacties. Zijn de
hoofdeffecten en de interactie significant? (α = 0.05). c) Interpreteer met behulp van interactie- en meansplots de resultaten. Welke
instellingscombinatie heeft de grootste effectiviteit? d) Bekijk voor het berekende model de relevante residuenplots en ga na of aan de
aannamen met betrekking tot gelijke varianties voldaan lijkt te zijn. Zijn de residuen normaal verdeeld?
e) Bepaal voor de instellingscombinatie met de hoogste effectiviteit een 95%-
betrouwbaarheidsinterval voor de verwachtingswaarde. f) Bepaal zelf (dus niet met behulp van SPSS) wat het kleinste significante verschil is bij
vergelijking van de effectiviteit voor elk van de niveau-instellingscombinaties onderling (α = 0.05). Zijn er instellingscombinaties die niet significant verschillen met de eerder bepaalde meest efficiënte combinatie?
108
Opdracht 4.7 Door middel van een rijtest zijn vier typen autobanden (A, B, C en D) vergeleken voor wat betreft slijtage. Daarbij werden 16 banden (per type 4 stuks) gemonteerd op vier auto’s van verschillend type om een grotere geldigheid van de conclusies te verkrijgen. Bovendien is rekening gehouden met de wielpositie omdat die mogelijk van invloed is op de slijtage. Voor de opzet van het onderzoek wordt aselect één van de mogelijke 4x4 latijnse vierkanten gekozen. Resultaten van de metingen staan in de tabel en in het bestand opg0407.sav.
Type auto Wielpositie 1 2 3 4
linksvoor C4 A5 D6 B2 rechtsvoor B2 D7 A4 C4 linksachter A3 C8 B6 D5 rechtsachter D7 B4 C9 A3
Data bij opdracht 4.7
a) Maak van de data boxplots als functie van het type auto, het type band en de wielpositie. Interpreteer het resultaat.
b) Bepaal de variantieanalyse-tabel voor een model zonder interacties. Welke factoren
zijn significant (α = 0.05)? c) Ga na of aan de modelaannamen voldaan lijkt te zijn. d) Maak voor elk van de factoren een plot van de 95%-betrouwbaarheidsintervallen voor
de verwachtingswaarde en geef op grond daarvan aan welke verschillen er lijken te bestaan.
e) Bepaal op basis van de Least-Significant-Difference methode voor elk van de factoren
welke verwachtingswaarden significant verschillen (α = 0.05). Vergelijk het resultaat met dat van onderdeel d) en verklaar schijnbare tegenstellingen.
f) In de gekozen proefopzet is het niet mogelijk om interacties tussen factoren mee te
nemen. Wanneer we echter de (niet-significante) factor wielpositie weglaten en dus alleen de factoren autotype en bandtype meenemen is het wel mogelijk een indruk van de interactie te krijgen. Bepaal de variantieanalyse-tabel voor zo’n aangepast model met interacties. Is het op grond hiervan mogelijk om te toetsen? Verklaar dit nader.
g) Bekijk voor dit model de interactieplot en interpreteer het resultaat.
109
5 Kansrekening met SPSS
5.1 Inleiding Binnen SPSS for Windows zijn een groot aantal functies beschikbaar om te rekenen met diverse kansverdelingen, zoals onder meer normale, t-, F-verdeling en Binomiale verdeling (zie hoofdstuk 1.6.2, voor een overzicht). Er zijn 4 hoofdtypen functies te onderscheiden (onderscheid op basis van 3-letter aanduiding voor de punt in de naam van de functies): CDF.verdeling (q, parameters van verdeling) Cumulatieve Distributie Functie (F) van nader te specificeren verdeling; geeft als uitkomst: p_value = links 1-zijdige overschrijdingskans voor q ofwel P (X <= q) (oppervlakte onder kansverdeling); bij de standaard-normale verdeling N(0,1) wordt q doorgaans aangegeven met z. bv. CDF.Binom (q, n, p) of CDF.Normal (q, mean, stand.dev.) bv. CDF.Normal (-1.645, 0, 1) 0.05
CDF.Normal (-1.96 , 0, 1) 0.025 CDF.Normal ( 1.96 , 0, 1) 0.975
z qα− =
α
IDF.verdeling (p_value, parameters van verdeling) geeft als uitkomst: q = kritieke waarde bij bepaalde overschrijdingskans (p_value) bv. IDF.Binom (p_value, n, p) of IDF.Normal (p_value, mean, stand.dev.) bv. IDF.Normal (0.05, 0, 1) -1.645
IDF.Normal (0.025, 0, 1) -1.96 IDF.Normal (0.975, 0, 1) 1.96 PDF.verdeling (q, parameters van verdeling) vanaf SPSS 11 Probability Distribution Functie van nader te specificeren verdeling (kansdichtheid bij continue verdeling); geeft als uitkomst: p_value = kans op q (ofwel P (X = q). bv. PDF.Binom (q, n, p) bv. PDF.Binom (1, 20, 0.4) 0.00049
PDF.Binom (8, 20, 0.4) 0.17971 PDF.Binom (12, 20, 0.4) 0.03550
RV.verdeling (parameters van verdeling) geeft als uitkomst een Random trekking uit de gespecificeerde verdeling.
bv. RV.Binom (n, p) of RV.Normal (mean, stand.dev.) 110
Opmerking. Gebruik van RV.verdelingsfuncties is in principe mogelijk vanuit een lege dataset; RV-functies genereren immers zelf data uit de gespecificeerde verdeling. SPSS vereist evenwel een eindpunt in de lege dataset. Met de Data Editor kan dit als als volgt worden bereikt: • ga via het Data-menu naar het item Go to Case... • er verschijnt nu een dialog window; vul daar het gewenste aantal cases in (bv. 1000)
en druk op OK. • plaats in de betreffende cel de waarde 0 (of een punt) en druk op enter;
op dat moment wordt de numerieke variabele VAR00001 aangemaakt, met de waarde 0.00 voor case 1000 (en verder allemaal missing values). Uiteraard worden deze waarden daarna overschreven bij aanroep van de RV.verdelingsfunctie.
Via SPSS syntax kunnen data gegenereerd worden, zonder dat er het bestaan van een (lege) dataset is vereist. In dit hoofdstuk zullen aan de hand van een uitgebreide uitwerking de diverse nogelijkheden van het gebruik van de kansverdelingsfuncties worden besproken. Vervolgens komen nog enkele onderdelen afzonderlijk aan bod komen, te weten: • gebruik van SPSS syntax en plotten van kansverdelingen • Centrale Limietstelling, • bepaling van minimale steekproefomvang.
5.2 Gebruik van kansverdelingsfuncties De kansverdelingsfuncties zijn binnen SPSS aanroepbaar het Compute Dialog window. Opmerking voooraf. Indien binnen SPSS begonnen wordt met een lege dataset dan dient, voorafgaand aan een Compute-opdracht, eerst minimaal een punt in de 1e cel geplaatst te worden (waarbij een dataset van 1 case, met 1 var VAR00001 wordt gecreëerd). Het Compute Dialog Window verschijnt na de menu-keuzeTransform > Compute Na specificatie van een naam voor de Target Variable, kan een functie geselecteerd worden, waarbij er ?-tekens verschijnen op nog in te vullen plaatsen.
NB. In de Compute Dialog box wordt nooit een punt geplaatst achter de numerieke expressie; dit in tegenstelling tot specificatie in syntax-commando’s waar dat wel vereist is (zie verderop).
111
In de functielijst staan beknopte aanduidingen voor de betekenis van de argumenten voor de verschillende verdelingen. Zo moeten bij de CDF.Binom-functie de parameters n en p van de binomiale verdeling als 2e en 3e argument gespecificeerd te worden. Als 1e argu-ment dient een waarde voor q ingevuld worden, waarvoor vervolgens de cumulatieve distributie functie (= links 1-zijdige overschrijdingskans, p_value) wordt bepaald. Bv. q=4, n=20 en p=0.4 levert (na OK) een p_links = 0.05095 (zie Data Editor, na aanpas-sing van het aantal decimal places van 2 naar 5 via deVariable view-tab onderin het Data Editor window). Vervolgens kan de overschrijdingskans voor bv. q=16 worden opgevraagd, door deze waarde in te vullen in de Compute Dialog-box; als daarbij gebruik gemaakt wordt van de Dialog Recall-knop in de toolbar (4e van links in het Data Editor window) dan wordt het eerder ingevulde scherm teruggekregen en kan volstaan worden met het wijzigen van de waarde 4 door 16. Na OK (en beantwoording met Yes, op de vraag Change Existing variable?) wijzigt de nieuwe waarde van p_links in de Data Editor: 0.99995 De verschillende overschrijdingskansen kunnen ook afzonderlijk worden verkregen door de waarden voor q in de Data editor onder elkaar in te voeren en vervolgens in de Compute-expressie als 1e argument q te specificeren.
De complete cumulatieve kansverdeling kan verkregen worden door iedere mogelijke waarde van q te specificeren; voor Bin (n=20; p=0.4) zijn dit 21 cases met q = 0 .. 20. Zoals eerder aangegeven zijn de hier berekende kansen de linker 1-zijdige overschrij-dingskansen; voor de kans op precies de waarde q is er vanaf versie 11 van SPSS een nieuwe verzameling functies beschikbaar, aangeduid met: PDF.naam . Deze berekenen de kans bij een bepaalde waarde (kansdichtheid bij een continue verdeling); deze kans is in dit geval van binomiale verdeling uiteraard gelijk aan het verschil tussen de opvolgende CDF-kansen. Wijzig in het Compute Dialog Window de naam van de Target Variable in bv. Diff en wijzig de expressie in PDF.BINOM (q, 20, 0.4). De waarden verschijnen in de uitvoer via Analyze > Reports > Case Summaries.
112
Case Summariesa
0 .00004 .000041 .00052 .000492 .00361 .003093 .01596 .012354 .05095 .034995 .12560 .074656 .25001 .124417 .41589 .165888 .59560 .179719 .75534 .15974
10 .87248 .1171411 .94347 .0709912 .97897 .0355013 .99353 .0145614 .99839 .0048515 .99968 .0012916 .99995 .0002717 .99999 .0000418 1.00000 .0000019 1.00000 .0000020 1.00000 .0000021 21 21
123456789101112131415161718192021
NTotal
Q P_LINKS DIFF
Limited to first 100 cases.a.
Of grafisch, met een Bar Chart (Values of individual cases).
Q
20181614121086420
Val
ue D
IFF
.20
.18
.16
.14
.12
.10
.08
.06
.04
.02
0.00
Hierbij zijn achteraf nog wat handmatige aanpassingen aan de plot toegevoegd door te dubbelklikken op de chart in de SPSS uitvoer. Vervolgens in de Chart Editor dubbelklikken op de labels langs de Y-as (SPSS term: Scale-axis) en gridlijnen opvragen bij Major divisions (bij Minot Divisions evt. nog fijner grid in te stellen). Tevens is via de Labels-knop het aantal Decimal places op 2 gezet.
113
5.3 SPSS-syntax en plotten van kansverdelingen Voor specificatie van data-manipulatie bewerkingen is gebruik van de Dialog boxen binnen SPSS al snel omslachtig en foutgevoelig. Het alternatief hiervoor is gebruik van SPSS syntax commando’s. Daarvoor is een apart syntax editor window beschikbaar. Commando’s worden daar automatisch in geplaatst door in de Dialog boxen op de Paste-knop te drukken (1e keer wordt syntax window automatisch geopend). Daarnaast kunnen de commando’s uiteraard ook rechtstreeks via het toetsenbord worden ingevoerd. De syntax commando’s kunnen separaat bewaard worden in een syntaxfile (*.SPS). Daarmee wordt gebruik voor de toekomst zeer aanzienlijk vereenvoudigd en zijn de bewerkingen veel makkelijker exact reproduceerbaar. Via Help > Syntax Guides zijn de complete syntax manuals on line te raadplegen (ook beschikbaar in afzonderlijke *.PDF-bestanden). * SPSS syntax commando's voor hiervoor beschreven kansrekening. * Syntax: Commando kan op meerdere regels worden gespecificeerd; * 1e regel: verplicht beginnen in kolom 1; * commando-einde: punt...!!! * Let op: commentaar (=regel begint met *) ook afsluiten met punt... * Zo niet, dan wordt eropvolgend SPSS-commando ook nog als * commentaar gezien...(en dus niet uitgevoerd)... * ----------------------------------------------------------------. INPUT PROGRAM. LOOP q = 0 TO 20. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. COMPUTE p_links = CDF.BINOM (q, 20, 0.4). COMPUTE diff = PDF.BINOM (q, 20, 0.4). Format q (F3.0) p_links diff (F8.5). List Cases. GRAPH /BAR(SIMPLE)= VALUE(diff) BY q . Toelichting. Met de syntax-commando’s INPUT PROGRAM ... END INPUT PROGRAM is het mogelijk om commando’s te geven zonder dat er een dataset is. Voor de hand liggende toepassing is dan ook om daarbinnen commando’s op te nemen om een dataset te genereren (met LOOP ... END LOOP-struktuur). Het Format-commando geeft het data-formaat in de uitvoer (totale breedte en aantal dec,, standaard 8.2). In een tweede voorbeeld worden steekproeven van 500 waarnemingen genomen uit een tweetal gespecificeerde normale verdelingen (standaardnormale verdeling en normale verdeling met mu = 5 en sigma = 0.5. INPUT PROGRAM. LOOP #i = 1 TO 500. + COMPUTE x1 = RV.NORMAL (0,1). + COMPUTE x2 = RV.NORMAL (2,0.5). + END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. GRAPH /HISTOGRAM(NORMAL)= x1 . GRAPH /HISTOGRAM(NORMAL)= x2 . De COMPUTE-commando’s zijn nu binnen de LOOP-structuur gebracht (#i is een tijdelijke variabele). T.b.v. lay-out zijn die commando’s ingesprongen; het +-teken (of willekeurig ander teken, niet zijnde een spatie) in de 1e kolom is dan noodzakelijk omdat van een regel waarop een commando begint, de 1e positie gevuld moet zijn.
114
Het resultaat is een overzicht van de verdeling van beide steekproeven in 2 verschillende plaatjes.
X1
3.202.40
1.60.80
.00-.80
-1.60-2.40
-3.20
50
40
30
20
10
0
Std. Dev = 1.01 Mean = .00
N = 500.00
X2
6.606.20
5.805.40
5.004.60
4.203.80
3.403.00
100
80
60
40
20
0
Std. Dev = .51 Mean = 5.01
N = 500.00
Voor de weergave van de labels langs de x-as is hierbij nog wat nabewerking nodig via de Chart Editor:
• dubbelklik op de plot in de SPSS Viewer, om het window van de Chart Editor te openen, • dubbelklik op de x-as-labels, • kies Custom Intervals en specificeer via Define: Width=0.2, Range min= -3.3, max.=3.5
(resp. 2.9 en 6.7), • specificeer vervolgens via Labels de Display per 4 (resp. 2) labels, met Midpoint-aanduiding en
met Staggered Orientation. Om een overzicht van beide verdelingen in 1 plot te verkrijgen, dient van het Chart-type Line gebruik gemaakt te worden (met weergave van Values for individual cases). Daarvoor is een andere opzet van de dataset nodig, met gebruik van de PDF.NORMAL-functie die de waarde van de kansverdeling geeft voor een willekeurig punt langs de x-as. Hierbij is een 3e variabele vereist met oplopende waarden langs de x-as. INPUT PROGRAM. LOOP #i = 1 TO 500. + COMPUTE xas= -3.0 + (#i-1) * 0.02 . + COMPUTE x1pdf = PDF.NORMAL (xas, 0, 1). + COMPUTE x2pdf = PDF.NORMAL (xas, 5, 0.5). + END CASE. END LOOP. END FILE. END INPUT PROGRAM. FORMATS xas (F8.2). VAR LABELS x1pdf 'normal (mu=0, sig=1)' x2pdf 'normal(mu=5,sig=0.5)'. GRAPH /LINE(multiple)= VALUE ( x1pdf x2pdf ) BY xas.
115
In de gecombineerde plot komt duidelijker het verschil in breedte en daarmee ook in hoogte van de verdelingen naar voren (oppervlakte =1; de totale kansmassa). (het aantal labels langs de X-as is via de Chart Editor ingesteld op 1 per 50 cases).
XAS
6.005.00
4.003.00
2.001.00
.00-1.00
-2.00-3.00
Val
ue1.0
.8
.6
.4
.2
0.0
normal (mu=0, sig=1)
normal(mu=5,sig=0.5)
116
5.4 Centrale Limietstelling Volgens de Centrale Limietstelling volgt het gemiddelde van een steekproef (van voldoende omvang) altijd een normale verdeling met verwachting μ en variantie . Dit is onafhankelijk van de kansverdeling binnen de populatie, waaruit de steekproef is getrokken.
2 / nσ
De vereiste omvang van de steekproef hangt af van de vorm van de populatie-verdeling, (vooral van de symmetrie ervan) maar doorgaans wordt als vuistregel gehanteerd . 30n ≥Met bijgaande SPSS-syntax wordt de invloed van de grootte van n geïllustreerd. Er worden 2 steekproeven genomen uit een uniforme verdeling met waarden tussen 0 en 10; de 1e met een steekproefomvang van 250 en de 2e met n=10. Om de verdeling van de steekproefgemiddelden te kunnen weergeven zijn deze 2 steekproeven ieder 100x herhaald. * CLT.SPS -- Demo of Central Limit Theorem. * x_mean ~ N (mu, (sigma**2)/n) * --------------------------------------------------------------. * Generate dataset by SPSS syntax commands. * See also on line help, * via Help-menu > SPSS Syntax Guide > Base > item DO - REPEAT. * Example: number of samples: 100 * sample-size (n): 250 and 10 * ------------------------------------------------------------------- * Generate dataset with SPSS syntax commands. * --------------------------------------------------------------------. * Set seed = value ; for reproduction of random data generation. SET SEED = 123456. INPUT PROGRAM. LOOP samplenr = 1 TO 100. + DO REPEAT response = r1 TO r250. + COMPUTE response = RV.UNIFORM (0,10). + END REPEAT. + COMPUTE avg250 = MEAN (r1 TO r250). + COMPUTE avg10 = MEAN (r1 TO r10). + END CASE. END LOOP. END FILE. END INPUT PROGRAM. FORMAT samplenr (F3.0). * ------------------ Plot values of individual sample means. GRAPH /LINE (MULTIPLE) = VALUE( avg10 avg250 ) BY samplenr. GRAPH /ERRORBAR (CI 95) = avg250 avg10 . * ------- Compute sample Standard Errors of the Mean (=sample stnd.dev/sqrt(n)). COMPUTE ste250 = SD ( r1 TO r250) / SQRT (250). COMPUTE ste10 = SD (r1 TO r10) / SQRT (10). * ------------------ Plot values of individual sample standard error of the mean. GRAPH /LINE(MULTIPLE)= VALUE ( ste10 ste250 ) BY samplenr . FREQUENCIES VARIABLE=avg10 avg250 /FORMAT=NOTABLE /HISTOGRAM NORMAL /STATISTICS=MEAN MEDIAN MODE STDDEV MIN MAX. Statistics
100 1005.0725 4.96495.0883 4.9606
2.84a 4.57a
.88847 .174422.84 4.577.32 5.46
NMeanMedianModeStd. DeviationMinimumMaximum
AVG10 AVG250
Multiple modes exist. The smallest value is showna.
Met deze syntax wordt een afwijkende dataset opgebouwd: per record (SPSS-case) wordt in dit geval een complete steek-proef (sample) gegenereerd, van 250 waarnemingen. De 100 SPSS-cases bevatten dus in totaal 100 steekproeven. Met de COMPUTE-commando’s worden gemiddelde en standaard-deviatie per steekproef berekend (de 1e 10 cases worden ook gebruikt voor de 2e reeks steekproeven).
117
Samplenr
9691
8681
7671
6661
5651
4641
3631
2621
1611
61
Val
ue
8
7
6
5
4
3
2
AVG10
AVG250
100100N =
AVG10AVG250
95%
CI
5.3
5.2
5.1
5.0
4.9
4.8
AVG250
5.40 - 5.50
5.20 - 5.30
5.00 - 5.10
4.80 - 4.90
4.60 - 4.70
4.40 - 4.50
AVG250
Freq
uenc
y
30
20
10
0
Std. Dev = .17 Mean = 4.96
N = 100.00
Samplenr
9691
8681
7671
6661
5651
4641
3631
2621
1611
61
Val
ue
1.4
1.2
1.0
.8
.6
.4
.2
0.0
STE10
STE250
AVG10
7.40 - 7.80
6.60 - 7.00
5.80 - 6.20
5.00 - 5.40
4.20 - 4.60
3.40 - 3.80
2.60 - 3.00
AVG10
Freq
uenc
y
30
20
10
0
Std. Dev = .89 Mean = 5.07
N = 100.00
AVG250 (same classwidth as AVG10)
7.40 - 7.80
6.60 - 7.00
5.80 - 6.20
5.00 - 5.40
4.20 - 4.60
3.40 - 3.80
2.60 - 3.00
AVG250
Freq
uenc
y
100
90
80
70
60
50
40
30
20
10
0
Std. Dev = .17 Mean = 4.96
N = 100.00
118
5.5 Minimale steekproefomvang In de praktijk wil men vaak voorafgaand aan een onderzoek een idee hebben van de minimaal vereiste omvang van een steekproef: met een te kleine steekproef kunnen wellicht achteraf onvoldoende conclusies worden getrokken, een te grote steekproef kan onnodig veel tijd of geld kosten. Het gaat hierbij om de wensen cq. eisen die men heeft om op grond van steekproef-resultaten meer algemene uitspraken over populatie-parameters te kunnen doen. Afhankelijk van de gewenste uitspraak zal een statistische techniek gekozen worden en zal de minimale steekproefomvang bepaald kunnen worden. Aan de hand van de vaak voorkomende berekening van het betrouwbaarheidsinterval van de verwachtingswaarde (gemiddelde) van de populatie zal een en ander hier verder uitgewerkt worden. Uitgangspunt daarbij is een normaal verdeelde populatie waarbij μ niet, maar σ2 wel bekend is. Een dergelijk tweezijdig betrouwbaarheidsinterval wordt gedefinieerd door:
/ 2 / 2n nx z x zα ασ σμ− < < +
Onderdelen van deze definitie zijn: • x : gevonden steekproefgemiddelde • σ : de bekend veronderstelde populatie-standaardafwijking.
Deze kan geschat worden uit eerder onderzoek of ervaringsgegevens en/of uit het gegeven dat voor een normaal verdeelde variabele 68% van alle waarnemingen in het interval x σ− ligt; 95% in het interval 2x σ− en nagenoeg alle waarden (99,7%) in het interval 3x σ− vallen.
• : is de kritieke waarde van de standaard normale verdeling bij gegeven / 2zα α . 1-α is de betrouwbaarheid (=zekerheid; Engels: Confidence): de kans dat het interval de ware populatiewaarde bevat; bij een toename van 1-α neemt ook toe en wordt het interval dus breder.
/ 2zα
• n : de steekproefomvang. De halve breedte van het interval, / 2 nzα σ , is een maat voor de nauwkeurigheid (= precisie) van het interval: naarmate het interval smaller is, is de nauwkeurigheid hoger. De twee grootheden betrouwbaarheid en nauwkeurigheid zijn dus tegengesteld aan elkaar: • een breed interval is zeer betrouwbaar (de populatiewaarde μ zal er vaker in liggen)
maar ook behoorlijk onnauwkeurig (vanwege de grote breedte), • een smal interval is zeer nauwkeurig maar niet erg betrouwbaar: zal klein moeten
zijn om een smal interval als resultaat te krijgen. De betrouwbaarheid 1-/ 2zα
α zal dus ook relatief klein zijn, ofwel: het interval zal niet erg vaak μ bevatten.
Door de steekproefomvang n voldoende hoog te kiezen, kan voor beide grootheden een acceptabele waarde gevonden worden (uiteraard ook door σ te verkleinen; het doel van kwaliteitsprogramma's, maar dat valt hier verder buiten bestek). Uitgaande van een nauwkeurigheid van hbr (halve breedte van het tweezijdig betrouwbaarheidsinterval) wordt de formule dan als volgt:
/ 2 n hbrzα σ ≤ ofwel:
2
/ 2znhbrα σ
≥ ⎛ ⎞⎜ ⎟⎝ ⎠
119
Een voorbeeld. Schoolcijfers (in de range 0-10) zijn doorgaans bij benadering normaal verdeeld. • Voor de bepaling van σ kan gebruik gemaakt worden van het gegeven dat 68% van de
waarnemingen valt in het interval σ± (ofwel: ruim 2/3 van alle waarnemingen valt in circa het middelste 1/3 deel van het waardebereik ); 95% valt in het interval 2σ± en nagenoeg alle waarnemingen (99,7%) vallen binnen 3σ± . In dit geval leidt invullen en proberen tot een geschatte waarde van σ = 1.5, immers: 68% ligt daarbij in het interval met een breedte van 1.5± (ofwel in het interval 4 – 7 , bij een in dit voorbeeld aannemelijk steekproefgemiddelde van x =5.5), 95% van de waarnemingen valt daarbij in het interval 2.5 – 8.5 (breedte ) 99,7% ligt binnen een interval 1 – 10 (intervalbreedte:
2*1.5±3*1.5 4.5 9± = ± = totaal).
• Bepaling van een tweezijdig betrouwbaarheidsinterval verloopt vervolgens als volgt:
voor bv. een klas met 25 leerlingen: / 2 / 21.5 1.525 25x z x zα αμ− < < +
Voor het 95%-betrouwbaarheidsinterval geldt: / 2 1.96zα =
en daarmee komt het 95%-betrouwbaarheidinterval op: 1.5251.96 0.59x x± = ±
De nauwkeurigheid van dit betrouwbaarheidsinterval is dus 0.59 (de halve breedte). Meer vollediger omschreven: met 95% betrouwbaarheid (zekerheid) bevat dit interval, met een nauwkeurigheid van 0.59, de werkelijke waarde van het populatiegemiddelde. Hierbij wordt de ligging van het interval gefixeerd door het gevonden steekproef-gemiddelde (ervan uitgaande dat de klas een aselecte vertegenwoordiging is van de populatie). Voor een 90%-betrouwbaarheidsinterval wordt de nauwkeurigheid 0.49 (nu geldt / 2 1.645zα = ).
• De minimale steekproefomvang kan bepaald worden, uitgaande van een gegeven σ, en gewenste/vereiste betrouwbaarheid (zekerheid) en nauwkeurigheid (hbr). Bij σ=1.5 en 95% betrouwbaarheid en nauwkeurigheid van 0.5 wordt deze omvang
minimaal:
21.96 *1.5 34.570.5
n ≥ ⎛ ⎞ ≥⎜ ⎟⎝ ⎠
ofwel, naar boven afgerond: n = 35
Om het populatiegemiddelde met 95% betrouwbaarheid op 0.25 punt nauwkeurig te kunnen bepalen (dus met halvering van de breedte van het interval), wordt de minimale n 4x groter: 4 * 34.57 = 139 leerlingen.
Bij 90% betrouwbaarheid en een nauwkeurigheid van 0.5 wordt de minimale
21.645 *1.5 24.350.5
n ≥ ⎛ ⎞ ≥⎜ ⎟⎝ ⎠
ofwel: minimaal n = 25
(hetgeen hiervoor ook al bij benadering was af te leiden).
120
Binnen SPSS kan deze berekening als volgt worden opgezet: Definieer 3 variabelen voor de 3 grootheden in de formule:
• sigma (bv. st_dev), • betrouwbaarheid (in %; confid), • nauwkeurigheid (prec).
en vul waarden in, bv. zoals hiervoor uitgewerkt:
st_dev confid prec 1.5 95 .50 1.5 95 .25 1.5 90 .50
Stel commando’s op voor berekening:
Compute pvalue =(100-confid) / 200. Compute zalfa = IDF.NORMAL ( pvalue , 0, 1).
Compute min_n = TRUNC ((zalfa**2)*(st_dev**2) / (prec**2))+1. List cases.
In de Data-Editor verschijnt het resultaat van de berekening bij de nieuwe variabele min_n. Met het List cases-commando verschijnen de resultaten ook in het uitvoerwindow. ST_DEV CONFID PREC PVALUE ZALFA MIN_N 1.50 95.00 .50 .03 -1.96 35.00 1.50 95.00 .25 .03 -1.96 139.00 1.50 90.00 .50 .05 -1.64 25.00 Number of cases read: 3 Number of cases listed: 3
121