Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de...

7

Click here to load reader

Transcript of Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de...

Page 1: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

33

Hoofdstuk 8

Toetsende statistiek

Meestal zijn we niet alleen geïnteresseerd in beschrijvende statistiek (over de steekproef),

maar ook in toetsende statistiek. Het doel hiervan is om hypothesen te toetsen, en daarmee

inzicht te verkrijgen in relaties tussen variabelen in de onderzochte populatie. Essentieel bij

deze analyses is dat er gegeneraliseerd wordt naar de populatie waaruit de steekproef

afkomstig is.

Ook in het vorige hoofdstuk kwam zulke generalisatie overigens al aan bod. Pearson’s

correlatie-coëfficiënt r is een schatting (gebaseerd op de steekproef) van de populatie-

parameter ρ, en de regressie-coëfficiënt b is een schatting (gebaseerd op de steekproef) van

de populatie-parameter ß.

8.1 Associatie van categoriale data: CROSSTABS [dV 32.2]

Als twee variabelen beide van nominaal of ordinaal meetnivo zijn, kunnen we het verband

tussen deze variabelen onderzoeken met het commando CROSSTABS. Dit levert een zgn.

kruistabel op, waarop ook statistische associatiematen berekend kunnen worden. Het

onderstaande voorbeeld maakt gebruik van de eerder besproken enquête-gegevens over

proefpersonen (uit bestand vb01.dat).

[Data Editor] Kies Analyze > Descriptive Statistics > Crosstabs... Kies de knop

Statistics... en vink de optie Chi-square aan, en ga door met Continue...

[Syntax] Met de commando’s:

(8.1)

CROSSTABS

/ CELLS= COUNT COL

/ STATISTICS = CHISQ

/ TABLES= GESLACHT BY STUDIE .

De uitvoer van dit commando is weergegeven in Figuur 8.1. Het commando in 8.1 geeft aan,

dat we alleen kijken naar bepaalde waarden van de variabelen Geslacht en Studie. De

Page 2: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

34

kruistabel is bepaald door de waarden van Geslacht voor rijen, en die van Studie als

kolommen. In de cellen van de tabel staat niet alleen het ruwe aantal observaties (“count”)

in de combinatie van Geslacht en Studie, maar ook de kolom-percentages (“col”). Bovendien

wordt de statistische maat Χ2 berekend over het verband. In dit voorbeeld wordt daarmee in

feite onderzocht, of de verdeling tussen mannelijke en vrouwelijke proefpersonen gelijk is voor

de 5 categorieën van Studie. De Χ2 wordt op drie manieren berekend. Bij toetsing van Χ2 luidt

de H0 dat er géén verband is: Χ2 = 0. De p-waarden bij de berekende waarden laat zien dat

H0 niet verworpen kan worden bij α = .05. Je mag dan aannemen, dat er relatief gezien

evenveel mannen en vrouwen uit elke studierichting komen.

> Onderzoek welke instellingen zijn gebruikt om tot het onderstaand resultaat te komen.

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

geslacht * studie 111 100,0% 0 ,0% 111 100,0%

geslacht * studie Crosstabulation

studie

0 1 2 3 99 Total

Count 1 7 2 1 3 14 1

Expected Count 2,1 6,1 2,6 1,4 1,8 14,0

Count 16 41 19 10 11 97

geslacht

2

Expected Count 14,9 41,9 18,4 9,6 12,2 97,0

Count 17 48 21 11 14 111 Total

Expected Count 17,0 48,0 21,0 11,0 14,0 111,0

Chi-Square Tests

Value df Asymp. Sig. (2-sided)

Pearson Chi-Square 2,161(a) 4 ,706

Likelihood Ratio 2,183 4 ,702 Linear-by-Linear Association

1,120 1 ,290

N of Valid Cases 111

a. 4 cells (40,0%) have expected count less than 5. The minimum expected count is 1,39.

Figuur 8.1: Uitvoer van CROSSTABS: Kruistabel met associatie-maten.

Page 3: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

35

8.2 Verschillen tussen twee of meer gemiddelden

Wetenschappelijke onderzoekers zijn geïnteresseerd in verbanden tussen variabelen. Vaak

gaat het dan om een verband tussen een factor (onafhankelijke variabele, van nominaal of

ordinaal meetnivo) en een responsie (afhankelijke variabele, van interval- of ratio-nivo). Het

verband binnen de steekproef kun je dan onderzoeken met de menu-optie of commando

MEANS. Dat hebben we al behandeld in § 4.6 (p.19). Je kunt hier per experimentele conditie

zoeken wat het gemiddelde van een groep is. Het doel van de volgende paragrafen is het

bekijken of deze gemiddelden werkelijk significant van elkaar verschillen.

Voor de opdrachten in dit hoofdstuk gebruiken we de gegevens over de studenten in deze

cursus in het studiejaar 2008 (enq2008.sav). Je vindt deze gegevens (in SPSS formaat) op

de web-pagina van de cursus. Plaats deze bestanden in je cursus-directory.

8.3 De t-toets [dV 35]

De t-toets is een eenvoudige toets om te kijken of een variabele verschilt tussen twee

condities van een factor. Voor onze doeleinden beschouwen we het jaar van studie

(eerstejaars, tweedejaars, enz) hier als afhankelijke variabele, en wel van het ratio-meetnivo.

Alhoewel de waarden van de variabele <jaar> rechtsscheef zijn, mag je ze voor het practicum

toch als normaalverdeeld beschouwen. In onze cursus is er geen factor die de groep duidelijk

in tweeën splitst; geslacht en voorkeurshand zijn beide nogal ongelijk verdeeld. We zullen

daarom zelf een nieuwe factor init aanmaken, die is gebaseerd op de beginletter van ieders

voornaam. Studenten met een beginletter uit de eerste helft van het alfabet (A t/m L) krijgen

de waarde init=1; studenten met een beginletter uit de tweede helft van het alfabet (M t/m Z)

krijgen de waarde init=2.

[Data editor] Je maakt een nieuwe variabel init met Transform > Compute variable en

geeft die de waarde 1, maar onderaan moet je wel if aanvinken om de conditie in te stellen. In

het volgende scherm moet je ‘if case satisfies condition’ kiezen. De voorwaarde is

Letter < “M”

Voer dat uit, en doe het nog een keer met init=2 voor Letter >= “M”

Page 4: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

36

[Syntax] De commando’s om de nieuwe variabele te construeren zie je in (8.2). Neem deze

commando’s over in een Syntax venster, inclusief de punt na ieder commando

(8.2)

IF ( Letter < "M") init = 1 .

IF ( Letter >= "M") init = 2 .

EXECUTE.

Het gebruikte commando IF is een variant van het commando COMPUTE (zie § 5.2, p.22),

met als extra kenmerk dat het laatste deel van het commando (na de haken) alleen wordt

uitgevoerd indien de voorwaarde in het eerste deel (tussen buitenste haken) is vervuld. De

voorwaarde heeft hier betrekking op de beginletter van de roepnaam.

Voer de IF-commando’s uit (denk aan het gebruik van het commando EXECUTE) via de opties

Run > All in het Syntax venster.

De nieuwe factor init definiëert twee groepen, die je hier groepsgewijs met elkaar moet

vergelijken (/GROUPS). We kijken dus of de groep met init=1 significant verschilt van de

groep met init=2, voor wat betreft de afhankelijke variabele Jaar. Dit wordt ook ‘independent’,

onafhankelijk, genoemd. Dit is dus een test voor gemiddelden van metingen die onafhankelijk

van elkaar zijn. De geobserveerde data komen van één proefpersoon uit één van de condities.

Eigenlijk creëren we hier condities gebaseerd op de eerste letter van de naam van de

betrokkenen. Het kan hier dus nooit zijn dat één proefpersoon in beide condities zit.

> Bedenk van te voren wat je H0 en Ha hypothesen zijn. Vind je het aannemelijk dat hier een

van de groepen een hoger gemiddelde heeft?

Je kunt het commando voor deze t-toets aanroepen via het Data Editor venster, kies Analyze

> Compare Means > Independent-Samples T Test... Kies hierin voor de juiste

testvariabele/afhankelijke variabele. Zorg er voor dat je bij Grouping Variable de juiste

nominale variabele selecteert. Standaard weet SPSS niet welke waarden daarin staan. Klik op

define groups en definieer de juiste waarden van je factor.

[Syntax] Je kunt het ook weer doen in het Syntax venster, met een commando als

volgt:

(8.3)

T-TEST / GROUPS = init(1,2) / VARIABLES Jaar .

Voor andere data-verzamelingen (maar niet voor onze gegevens over studentenkenmerken) is

het ook mogelijk om de twee condities van een factor niet groepsgewijs, maar paarsgewijs te

vergelijken (kies Analyze > Compare Means > Paired-Samples T Test... of het Syntax

Page 5: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

37

commando T-TEST /PAIRS). Voor ieder paar van observaties wordt dan een verschil berekend;

vervolgens wordt getoetst H: D = 0. Deze methode wordt ook wel aangeduid als ‘related’,

‘matched’, ‘pairwise’; een t-test voor afhankelijke groepen. Deze methode is alleen toegestaan

als de observaties inderdaad in paren zijn gedaan, bv voor twee benen van een voetballer,

twee leden van een tweeling, enz. Als een observatie ontbreekt voor één lid van het paar, dan

wordt het gehele paar verwijderd uit de berekeningen. (De paarsgewijze methode is dus niet

toegestaan voor de huidige data-verzameling, met onafhankelijke observaties in de twee

groepen). Bij deze metingen zie je juist wel vaak dat van één proefpersoon dezelfde meting

tweemaal wordt gedaan. Neem hierbij bijvoorbeeld dat een proefpersoon een keer een

geheugen test doet met een placebo en een andere keer met een echt medicijn.

> Is het verschil in studievoortgang tussen de twee groepen studenten in onze cursus wel of

niet significant? Op grond van welke uitkomsten trek je deze conclusie? Let op: de

gerapporteerde p-waarde of significantie-nivo9 geeft aan hoe groot de kans is om deze waarde

voor t te vinden, indien H0 waar is. H0 zegt dat er géén verschil is tussen de groepen: H0:

µ1,gem – µ2,gem =0.

8.4 ONEWAY [dV 36.2]

Als we willen weten of een variabele verschilt tussen meer dan twee condities (m.a.w. als een

factor meer dan 2 waarden kan aannemen), dan is een herhaalde t-toets op alle combinaties

van 2 condities ongeschikt. In dit geval moeten we een variantie-analyse uitvoeren. Hiervoor

zijn in SPSS drie commando’s beschikbaar: ONEWAY, ANOVA en MANOVA (in oplopende

complexiteit).

Met ONEWAY kun je alleen een variantie-analyse uitvoeren met één factor. Het effect van deze

factor wordt dan uiteraard getoetst tegen de within-cell-variantie. Je kunt het commando voor

deze toets aanroepen via het Data Editor venster, kies Analyze > Compare Means >

Oneway ANOVA...

[Syntax] Je kunt het ook weer doen in het Syntax venster, met het commando ONEWAY.

Met de optie Post Hoc kun je verschillende soorten van post-hoc vergelijkingen tussen

condities uitvoeren. Dit mag (en hoef) je niet doen als de ANOVA geen significante verschillen

9 In de uitvoer van SPSS wordt de p-waarde meestal aangeduid met Sig.

Page 6: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

38

vindt tussen condities. Als er wel significante verschillen bestaan, dan laten de resultaten van

de post hoc testen precies zien welke condities significant van elkaar verschillen. Hierbij is

echter wel voorzichtigheid geboden, omdat de post-hoc toetsen relatief grote kansen hebben

op Type-I en Type-II fouten. Dit komt doordat je minimaal 3 maal een soort t-toets doet en

dat je dan het risico loopt op wat wel kanskapitalisatie wordt genoemd.

> Onderzoek of de factor Opleiding een significant effect heeft op Jaar. Onderscheid daarbij

alleen de vier groepen TCS, TLW+TW, Pre+Mas, en overige opleidingen. Tip: maak een nieuwe

variabele voor deze groepen, of pas <code opleiding> aan. Een nieuwe variabele kun je met

Transform > Compute variable maken, met als if-conditie dan

Opleiding = ‘TCS’ or Opleiding = ‘TLW+TW’ or Opleiding = ‘Pre+Mas’

Op grond van welke uitkomsten trek je je conclusie?

8.5 ANOVA [dV 36.5]

Met het commando ANOVA kun je ook een variantie-analyse uitvoeren met meer dan één

factor. Standaard worden ook interacties tussen de factoren onderzocht. SPSS neemt aan dat

het een factorieel design betreft, waarbij alle condities van alle factoren met elkaar

gecombineerd zijn. Dat wordt ook een volledig gekruist design genoemd. Het commando

ANOVA toetst alle hoofdeffecten en interactie-effecten tegen de within-cell-variantie.

We gaan dit doen voor een gegevensverzameling van IQ waarden van 1000 personen die

onderverdeeld zijn in groepen met verschillende psychische aandoeningen (inclusief

controlegroep), waarbij ook een onderscheid wordt gemaakt tussen mannen en vrouwen. Het

bestand staat op de website als IQ.txt op de website.

Voer een variantie-analyse uit met IQ als afhankelijke variabele, en met de fixed factoren

groep en geslacht, en met hun interactie. Je kunt het commando hiervoor aanroepen via het

Data Editor venster, kies Analyze > General Linear Model > Univariate...10

Let op: Je moet twee standaard-instellingen van de berekening aanpassen. Deze opties kun je

instellen via de knop Model in het menu; onderaan zie je twee instellingen. Kies voor de optie

Sums of Squares: Type I en zet het vinkje uit bij de optie Include intercept. Deze instellingen

10 Dit is een univariate analyse omdat er slechts één afhankelijke variabele is, hoewel er wel meerdere

onafhankelijke variabelen zijn.

Page 7: Hoofdstuk 8 Toetsende statistiek - gerritbloothooft.nl · Kies de knop Statistics ... en vink de optie Chi-square aan, en ga door met Continue ... [Syntax] Met de commando’s: (8.1)

39

leiden tot de meest conventionele wijze van berekenen van Sums of Squares, overeenkomstig

de uitleg in het boek11. Voer ook een posthoc test uit.

> Welke effecten zijn significant? Op grond van welke uitkomsten trek je deze conclusies?

Merk op dat inderdaad SSTot = SSgroep + SSgeslacht + SSinteractie + SSE, zoals besproken tijdens

college. Hoeveel van de totale Sums of Squares (variantie) wordt verklaard door de (fixed)

factoren?

8.6 complexe analyses: MANOVA

Tenslotte kun je complexe variantie-analyses uitvoeren met het commando MANOVA. Dit

wordt niet meer behandeld in het Basishandboek (De Vocht, 2012), en ook niet in deze

cursus. Het commando is alleen beschikbaar via een Syntax venster, en niet via menu’s.

MANOVA moet je gebruiken bij een zgn. Multivariate ANOVA, je kijkt dan naar het effect van

een factor op twee afhankelijke variabelen. Het kan zijn dat je geen effect vindt op één van de

afzonderlijke afhankelijke variabelen, maar als je ze gezamenlijk bestudeerd juist wel. In deze

cursus gaan we er niet verder op in.

Bibliografie

Devore, Jay and Roxy Peck (7th ed. 2011) Statistics: The Exploration and Analysis of Data,

Duxbury, Pacific Grove, CA.

De Vocht, Alphons (2012) Basishandboek SPSS 20 voor Windows, Bijleveld, Utrecht.

11 Andere opties zijn soms handiger als er veel observaties ontbreken.