Statistiek Samenvatting Boek en Collegeaantekeningen

39
Statistiek 2 Samenvatting boek en collegeaantekeningen College 1, Hoofdstuk 15 Een-factor analyse van de variantie Hoe kun je een nulhypothese testen dat verschillende populatiegemiddelden gelijk zijn? Wat is de analyse van een variantie? Deze term wordt meestal aangeduid als ANOVA. De techniek wordt gebruikt om hypotheses te testen over twee of meer populatiegemiddelden. (Als het om twee onafhankelijke steekproeven uit twee populaties gaat gaat gebruik je de t- toets voor onafhankelijke steekproeven.) Je beschrijft eerst je gegevens in bijvoorbeeld een tabel en geeft deze weer in een (boxplot)diagram. Je kijkt naar de standaarddeviatie en de standaardfout voor elke steekproef uit elke populatie. Hoe groter de steekproef, hoe kleiner de standaardfout. Je bepaalt de betrouwbaarheidsintervallen voor de steekproefgemiddelden. Hoe meer cases in de steekproef, hoe kleiner het betrouwbaarheidsinterval. Als je testwaarde buiten het betrouwbaarheidsinterval valt, kun je de nulhypothese dat deze een plausibele waarde is voor je populatiegemiddelde, verwerpen. Nu is het doel vast te stellen of deze verschillen te wijten zijn aan natuurlijke veranderlijkheden binnen steekproeven of dat er misschien reden is aan te nemen dat er verschillende waarden zijn voor de verschillende populaties? Nulhypothese: de populatiegemiddelden voor alle onderscheiden groepen is hetzelfde. De nulhypothese gaat altijd over de populatie, en gaat over één specifieke situatie. Je verwerpt je nulhypothese als de variantie tussen de groepen groter is dan de variantie binnen de groepen. De populatiegemiddelden zijn dus dan niet gelijk. De statistische techniek die je hiervoor gebruikt heet analyse van de variantie. Je kijkt naar de veranderlijkheden binnen elke steekproef alsook naar de veranderlijkheden tussen steekproefgemiddelden. Hieruit trek je conclusies over de populatiegemiddelden.

description

College 1, Hoofdstuk 15Een-factor analyse van de variantieCollege 2, Hoofdstuk 16 Twee-factor analyse van de variantieCollege 3, Hoofdstuk 17 en 18Het vergelijken van geobserveerde en verwachtte tellingen, chi kwadraat toetsCollege 4, Hoofdstuk 19AssociatiematenCollege 5, Hoofdstuk 20Correlatie en regressieCollege 7, Hoofdstuk 23 en 24Meervoudige lineaire regressie Hoofdstuk 24Meervoudige regressie diagnostiekCollege 8, Hoofdstuk 22Het analyseren van residuen

Transcript of Statistiek Samenvatting Boek en Collegeaantekeningen

Page 1: Statistiek Samenvatting Boek en Collegeaantekeningen

Statistiek 2 Samenvatting boek en collegeaantekeningen

College 1, Hoofdstuk 15Een-factor analyse van de variantie

Hoe kun je een nulhypothese testen dat verschillende populatiegemiddelden gelijk zijn?

Wat is de analyse van een variantie? Deze term wordt meestal aangeduid als ANOVA. De techniek wordt gebruikt om hypotheses te testen over twee of meer populatiegemiddelden. (Als het om twee onafhankelijke steekproeven uit twee populaties gaat gaat gebruik je de t-toets voor onafhankelijke steekproeven.)Je beschrijft eerst je gegevens in bijvoorbeeld een tabel en geeft deze weer in een (boxplot)diagram. Je kijkt naar de standaarddeviatie en de standaardfout voor elke steekproef uit elke populatie. Hoe groter de steekproef, hoe kleiner de standaardfout. Je bepaalt de betrouwbaarheidsintervallen voor de steekproefgemiddelden. Hoe meer cases in de steekproef, hoe kleiner het betrouwbaarheidsinterval. Als je testwaarde buiten het betrouwbaarheidsinterval valt, kun je de nulhypothese dat deze een plausibele waarde is voor je populatiegemiddelde, verwerpen. Nu is het doel vast te stellen of deze verschillen te wijten zijn aan natuurlijke veranderlijkheden binnen steekproeven of dat er misschien reden is aan te nemen dat er verschillende waarden zijn voor de verschillende populaties? Nulhypothese: de populatiegemiddelden voor alle onderscheiden groepen is hetzelfde. De nulhypothese gaat altijd over de populatie, en gaat over één specifieke situatie. Je verwerpt je nulhypothese als de variantie tussen de groepen groter is dan de variantie binnen de groepen. De populatiegemiddelden zijn dus dan niet gelijk. De statistische techniek die je hiervoor gebruikt heet analyse van de variantie. Je kijkt naar de veranderlijkheden binnen elke steekproef alsook naar de veranderlijkheden tussen steekproefgemiddelden. Hieruit trek je conclusies over de populatiegemiddelden.

Spreiding rond steekproefgemiddelde Spreiding van steekproefgemiddeldenSteekproefgemiddelden gelijk aan elkaar Steekproefgemiddelden verschillen van elkaar

De een-factor variantieanalyse wordt gebruikt voor cases die toegewezen worden tot verschillende groepen gebaseerd op hun waarde voor één variabele. Die variabele wordt een factor genoemd. Bij een twee-factor variantieanalyse gaat het uiteraard om twee variabelen. De factoren zijn de onafhankelijke variabelen (nominaal, ordinaal of ratio). Er is altijd ook een afhankelijke ratio variabele.

Welke aannames/voorwaarden over de gegevens zijn vereist om analyse-van-variantie-technieken te gebruiken? Onafhankelijke, willekeurige steekproeven zijn genomen uit elke populatie. Er mag geen relatie zijn zowel tussen de observaties in de verschillende populaties als tussen de observaties in dezelfde populatie.

Page 2: Statistiek Samenvatting Boek en Collegeaantekeningen

De populaties zijn normaal verdeeld. Kan worden gecheckt door een histogram of een normaliteittoets voor elk van de populaties. Normaliteit is niet extreem belangrijk wanneer het aantal cases maar groot genoeg is. De varianties in de populaties zijn gelijk aan elkaar. Je kunt deze checken door een Levene´s toets te doen. Of door naar de spreiding van de observaties in een boxplot te kijken. Wanneer het aantal cases in elke populatie ongeveer gelijk is, is ook deze aanname niet heel erg belangrijk. Waar je wel goed op moet letten zijn bias in je onderzoek. Het is dan niet mogelijk om juiste conclusies te trekken uit je gegevens. Wanneer de verdeling niet normaal groot is maar N wel groot genoeg → centrale limietstelling. Wanneer de verdeling niet normaal is en N klein is → herschalen door middel van een logaritme of door wortel te trekken, en anders een nonparametrische toets gebruiken.

Hoe wordt de F ratio verwerkt, en wat vertelt deze je? De F ratio is de ratio van twee benaderingen van de variantie van de populatie. Je kijkt naar de veranderlijkheden binnen elke steekproef over het steekproefgemiddelde alsook naar veranderlijkheden tussen steekproefgemiddelden. Je vergelijkt de geobserveerde spreiding met de verwachte spreiding als de nulhypothese waar zou zijn. Als de spreiding groter is dan verwacht heb je reden aan te nemen dat er verschil zit in de populatiegemiddelden en kun je dus je nulhypothese verwerpen. Spreiding binnen de steekproeven: de aanname is dat alle steekproeven uit populaties met dezelfde variantie komen. Omdat niet alle steekproeven eenzelfde populatiegemiddelde hebben kun je niet zomaar een gemiddelde variantie berekenen. Spreiding tussen de steekproeven: stelt vast hoe de steekproefgemiddelden van elkaar verschillen tussen de verschillende groepen die je vergelijkt. Deze benadering van de variantie is alleen correct als de nulhypothese waar is. Als deze niet waar is zal deze variantie te groot zijn. Je verwerpt je nulhypothese als de variantie tussen de groepen groter is dan de variantie binnen de groepen. Als de nulhypothese waar is ligt de F-waarde dicht bij 1. Hoe dichter de F-waarde bij 1 ligt, hoe kleiner het verschil is. Aan de overschrijdingskans die wordt weergegeven bij de F-waarde in een tabel kun je zien of je een nulhypothese moet verwerpen of aannemen.

Voorbeeld berekening variantieanalyse:

K = het aantal groepen.

Page 3: Statistiek Samenvatting Boek en Collegeaantekeningen

J = het nummer van de groep waarnaar je kijkt.

Vrijheidsgraad df staat steeds onder de deelstreep. De waarde die je berekent is de gemiddelde wortel voor beide groepen, en zegt iets over de gemiddelde variantie binnen en tussen de groepen die je onderscheidt.

Het berekenen van de spreiding binnen de steekproeven: ∑j=1k

(n j−1 ) x s j2

n−k

(111−1 ) x 10 ,14²+ (808−1 ) x10 ,72²+(131−1 ) x 11 ,67²+(286−1 ) x 10 ,41²+(151−1 ) x 9,73 ²1487−5

=

166839,711482

= 112,58

Het berekenen van de spreiding tussen steekproeven: ∑j=1k

n j (x j−x )2

k−1

111 (45,03−45,62 )2+808 (44,95−45,62 )2+131 (45,69−45,62 )2+286 (46,37−45,62 )2+151(48,19−45,62) ²5−1

= 1560,214

= 390,05

Het berekenen van de F-ratio:

F = between−groups mean squarewit h∈−groupsmean square

=

∑j=1

k

n j (x j−x )2

k−1

∑j=1

k

(n j−1 )x s j2

n−k

= 390,05112,58

= 3,46

Waarom heb je meervoudige vergelijkingsmethodes nodig? De analyse van de variantie stelt niet vast wélke gemiddelden significant van elkaar verschillen. Door welke steekproefgemiddelden wordt dit verschil veroorzaakt? De meervoudige vergelijkingsmethode wordt gebruikt om je ervoor te beschermen teveel verschillen als significant te beschouwen en de groepen die wél van elkaar verschillen te identificeren. De methode gaat er niet vanuit dat de variantie in elke groep gelijk is. Je kunt dit nagaan met de Levene’s toets. Het is een aanvulling op de variantieanalyse, géén vervanging. Deze methode wordt alleen in combinatie met de variantieanalyse gebruikt. Je zou ook voor alle mogelijke paren van gemiddelden een t-toets kunnen doen. Nadeel hiervan is dat de kans op een toevalstreffer toeneemt. De kans is dus aanwezig dat je een statistisch significante uitkomst verkrijgt, ook al zijn alle populatiegemiddelden gelijk.

Page 4: Statistiek Samenvatting Boek en Collegeaantekeningen

De Bonferronitoets is de meest gangbare toets. In deze toets wordt de overschrijdingskans vermenigvuldigd met het aantal vergelijkingen dat je maakt. Hoe meer vergelijkingen, hoe hoger de drempel wordt voor een significante uitkomst.

College 2, Hoofdstuk 16 Twee-factor analyse van de variantie

Hoe kun je de hypothese testen over populatiegemiddelden als je meer dan twee factoren hebt?

Je leert hoe je een nulhypothese moet testen op de gelijkheid van populatiegemiddelden wanneer je de cases indeelt in groepen gebaseerd op twee factoren. Deze methode wordt de twee-factor variantieanalyse genoemd. Je kunt nu bijvoorbeeld de verschillen in een werkweek van mensen bekijken op basis van de opleiding én het geslacht. Als je vijf categorieën opleidingen hebt, en twee categorieën geslacht, krijg je dus 10 cellen voor elke mogelijke combinatie tussen opleiding en geslacht. De eerste stap is altijd kijken naar je gegevens, en deze onderzoeken door middel van een histogram of staafdiagram en een boxplot.

Welke soorten hypotheses kun je testen wanneer je twee of meer factoren hebt?De nulhypothese die je bij de twee-factor variantieanalyse stelt is: de populatiegemiddelden van de onderscheiden groepen zijn gelijk. Je stelt drie vragen bij een variantieanalyse:- Is er verschil met het populatiegemiddelde op basis van de ene factor?- Is er verschil met het populatiegemiddelde op basis van de andere factor?- Is de relatie tussen de afhankelijke variabele en de ene factor gelijk aan de relatie tussen de afhankelijke variabele en de andere factor?De eerste twee vragen hebben betrekking op slechts een van de twee factoren. De eerste twee vragen gaan over de hoofdeffecten van de hypothese. Dit zijn de effecten van elk van de individuele factoren. De laatste vraag gaat over de interactie tussen de twee factoren en gaat over de twee factoren tegelijkertijd. De interactie is het verschil tussen het hoofdeffect en het gezamenlijk effect van de factoren. Er is dus sprake van interactie wanneer het effect van de ene factor niet gelijk is voor alle categorieën van de andere factor.

Wat is een interactie?Voorbeeld: het verband testen tussen vier verschillende lesmethoden en drie verschillende groepen studenten. Op de x-as staan de vier lesmethoden (nominaal), op de y-as de gemiddelde score op een examen (ratio, afhankelijke variabele), de lijnen representeren de drie verschillende groepen studenten (nominaal).

Hoofdeffecten

Interactie

Page 5: Statistiek Samenvatting Boek en Collegeaantekeningen

A B C D A B C D

In de linkerfiguur lopen de drie lijnen parallel. De scores op de examens zijn niet gelijk, maar de lesmethoden hebben wel dezelfde uitwerking op alle drie groepen studenten. Er is geen interactie tussen lesmethode en type student. Als er geen interactie is heeft het ook zin om wat te zeggen over de hoofdeffecten van de lesmethode en van het type student. De eerste lesmethode lijkt het beste te zijn. Je kunt de gemiddelde score voor een student berekenen met de volgende vergelijking: voorspelde waarde zonder interactie = gemiddelde waarde + effect van factor 1 + effect van factor 2. In de rechterfiguur lopen de lijnen door elkaar. De beste methode hangt af van het type student en het beste type student hangt af van de methode. Je kunt nu niks meer zeggen over de relatie tussen de factoren omdat de lijnen niet parallel lopen. Je wilt weten of de interactie die je observeert in je steekproef groot genoeg is om te kunnen aannemen dat deze ook bestaat in de populatie.

Welke aannames/voorwaarden zijn noodzakelijk om een variantieanalyse te gebruiken wanneer je meer dan twee factoren hebt? Dezelfde voorwaarden als bij een een-factor variantieanalyse gelden ook bij de twee-factor variantieanalyse. De gegevens moeten uit een willekeurige steekproef komen met onafhankelijke cases, zowel binnen als tussen de steekproeven. De verdeling moet normaal zijn (normaliteittoets of QQ plot). De varianties in de populaties moeten gelijk zijn aan elkaar.

De tabel van de variantieanalyseEen belangrijk verschil met de een-factor variantieanalyse zit hem in het aantal hypotheses dat je gaat testen. Je test nu drie hypotheses die overeenkomen met de drie vragen die je voorheen hebt gesteld. - Je toetst de significantie van het hoofdeffect van de ene factor. - Je toetst de significantie van het hoofdeffect van de andere factor.- Je toetst de significantie van de interactie.

Page 6: Statistiek Samenvatting Boek en Collegeaantekeningen

R squared: geeft aan wat/hoeveel door het model wordt verklaard.Df: vrijheidsgraad: subgroepen -1K: k = k1 x k2 K1: k1 = k1-1K2: k2 = k2-1Df interactie: (k1-1) x (k2-1)Df Error: n-kTotal: n Corrected Total: n-1

De Error Mean Square vertelt je hoeveel de observaties binnen alle cellen variëren (188,559).Hieruit komen de Mean Square voor SEKSE (82,286) en de Mean Square voor PROV (947,039) vertellen je iets over de spreiding van de steekproefgemiddelden van beide factoren. Uit de spreiding van alle cellen komt de Mean Square voor de interactie (757,977). Vervolgens kijk je naar de overschrijdingskans van de F-waarde om te kijken of je de nulhypothese moet verwerpen of aannemen. De f-waardes worden berekend door de mean squares van de hoofdeffecten en de mean square van de interactie te delen door de mean square van de error.

Je kijkt als eerst naar de interactie. Nulhypothese: de relatie tussen de factoren en de afhankelijke variabele is voor beide factoren gelijk. (Er is dus volgens de nulhypothese geen interactie.) Als er wel sprake is van interactie zijn de effecten voor beide factoren niet gelijk aan elkaar. In het geval van het voorbeeld over de lesmethoden kun je niet meer praten over de categorie lesmethoden of de categorie studenttype. Je moet dan praten over bijvoorbeeld studentengroep nummer 1 die lesmethode type A volgden. Als er geen sprake is van interactie heeft het zin te kijken naar de hoofdeffecten van beide factoren.

Vervolgens kun je dus kijken naar de hoofdeffecten. Is het populatiegemiddelde gelijk voor de onderscheiden groepen? Je kijkt naar de significantie per factor en kijkt of je de nulhypothese dat alle populatiegemiddelden van de onderscheiden groepen van de factoren gelijk zijn, kunt verwerpen of aannemen. (Dus kun je op deze manier bijvoorbeeld stellen dat onder de factor

Page 7: Statistiek Samenvatting Boek en Collegeaantekeningen

lesmethode de examenscores voor alle onderscheiden lesmethodes gelijk zijn, of juist niet. Hetzelfde geld voor de factor studenttype.)

Als je geen interactie hebt gevonden kun je de analyse opnieuw uitvoeren waarbij je de interactie tussen de modellen weglaat. De interactie wordt opgenomen in de error sum of squares. De getallen in de kolom van de som van kwadraten veranderd dan iets in de tabel.

Je verklaart dus eigenlijk vier soorten varianties:- de verklaarde variantie van factor 1- de verklaarde variantie van factor 2- de verklaarde variantie van de interactie- de onverklaarde variantie

Deze verdwijnt in het tweede model.

Wat betekenen de rest van de rijen in de tabel?Corrected Total: vertelt je hoeveel de geobserveerde waarden verschillen van het gemiddelde van alle cases gecombineerd. Het vertelt je hoeveel spreiding er zit in de afhankelijke variabele. Het totale gemiddelde aftrekken van elke case, het verschil kwadrateren en bij elkaar optellen. Corrected model: vertelt je iets over de spreiding in de afhankelijke variabele die kan worden verklaard en toegewezen aan de effecten die je hebt onderzocht. Dit percentage wordt weergegeven onderaan de tabel in de R squared.

Waar zitten de verschillen? Je weet nog steeds niet waar de verschillen zijn, je weet alleen dat ze bestaan. Het kan zijn dat slechts enkele groepen significant van elkaar verschillen. Ook in het geval van de twee-factor variantieanalyse kun je hiervoor een bonferronitoets uitvoeren. Je kunt maar een vergelijking tegelijkertijd maken. Voor een factor als geslacht hoef je de toets niet uit te voeren omdat er maar twee mogelijkheden zijn, en je dus direct weet waartussen zich de verschillen bevinden. Het verschil tussen de geobserveerde waarde en de waarde voorspelt door het ANOVA model heet een residu. Deze moeten ook normaal zijn verdeeld met een constante variantie als aan de voorwaarden voor de toets wordt voldaan. Hiervoor kun je een levene’s toets doen. (Wat je moet doen als de uitkomst significant is staat in het boek maar wordt in de colleges niet behandeld, dus lijkt niet belangrijk.)

College 3, Hoofdstuk 17 en 18Het vergelijken van geobserveerde en verwachtte tellingen, chi kwadraat toets

Hoe kun je de nulhypothese dat twee variabelen onafhankelijk zijn toetsen?

Je maakt bij de chi kwadraat toets gebruik van een kruistabel om variabelen met elkaar in verband te willen brengen die beiden nominaal of ordinaal zijn.

Wat zijn geobserveerde en verwachtte tellingen?Je telt het aantal cases in elke cel van je tabel. Je vergelijkt dit geobserveerde getal met een verwacht getal dat je in een cel zou vinden als de nulhypothese waar zou zijn. Je verwacht in een nulhypothese dan bijvoorbeeld dat van cafébezoekers een even groot percentage gelukkig is als van de niet-cafébezoekers. Er is dus in dat geval geen verband tussen beide variabelen.

Page 8: Statistiek Samenvatting Boek en Collegeaantekeningen

Je kunt in een nulhypothese ook stellen dat twee variabelen onafhankelijk van elkaar zijn. De kennis van de waarde van de ene variabele zegt dan niks over de waarde van een andere variabele. Het verwachte aantal in een cel bereken je als volgt:

n̂=nrij xnkolomntotaal

(rijtotaal x kolomtotaal)/tabeltotaal

Voorbeeld:Worden mensen gelukkig van het bezoeken van een café? Totaal:Gelukkig Niet gelukkig

Cafébezoeker ja of nee

Cafébezoeker GeteldRijpercentage

26857,9%

19542,1%

463100,00%

Niet cafébezoeker

GeteldRijpercentage

23249,2% X

24050,8%

472100,00%

Totaal: GeteldRijpercentage

50053,5%

435 :46,5%

935100,00%

=Worden mensen gelukkig van het bezoeken van een café? Totaal:Gelukkig Niet gelukkig

Cafébezoeker ja of nee

Cafébezoeker GeteldVerw. tellingResidu

268247,620,4

195215,4-20,4

463463,00

Niet cafébezoeker

GeteldVerw. tellingResidu

232252,4-20,4

240219,620,4

472472,00

Totaal: GeteldVerw. telling

500500,00

435435,00

935935,00

Het residu is het verschil tussen de geobserveerde en de verwachtte tellingen. Als je residu positief is heb je meer cases in de cel gevonden dan er zouden staan wanneer de nulhypothese waar zou zijn. Een negatieve residu betekent het omgekeerde. De residuen zijn bij elkaar opgeteld per rij en in elke kolom 0. Als de nulhypothese waar is, zijn de residuen heel klein. Bij een positief residu is de telling groter dan de verwachte waarde, bij een negatief residu is dit precies andersom.

Hoe voer je de chi kwadraat toets uit? Je berekent de chi kwadraat statistiek en vergelijkt de waarde met de chi kwadraat verdeling om te bekijken hoe waarschijnlijk de geobserveerde waarde is als de nulhypothese waar is. Als de nulhypothese waar is verwacht je dat de geobserveerde en de verwachte waarden gelijk zijn. Dan is x2 dus klein. Hoe meer cellen hoe kleiner de residuen.

x2=∑ (ncel−n̂celncel

¿)2

¿

chi kwadraat=∑ (telling−verwachtetelling)telling

2

Vrijheidsgraad: (aantal rijen in de tabel - 1) x (aantal kolommen in de tabel - 1)

Page 9: Statistiek Samenvatting Boek en Collegeaantekeningen

Welke voorwaarden gelden voor de chi kwadraat toets? - De cases moeten onafhankelijk zijn, iedere case mag maar een keer voorkomen en er mag

geen overlap zijn. - Voorwaarden met betrekking tot de verwachte aantallen per cel: Voor maximaal 20% van de cellen mag het verwachte aantal kleiner zijn dan 5. Voor geen enkele cel mag het verwachte aantal kleiner zijn dan 1.

Wanneer een verwacht aantal wel kleiner is dan 1, kun je dit oplossen door dicht bij elkaar liggende categorieën samen te voegen. Zeer gelukkig, gelukkig, neutraal, ongelukkig en zeer ongelukkig worden dan bijvoorbeeld (als de verwachte aantallen onder zeer gelukkig en zeer ongelukkig kleiner zijn dan 1) gelukkig, neutraal en ongelukkig.

Je let op de pearson Chi-square en de bijbehorende significantie. In het voorbeeld hierboven verwerp je de nulhypothese. Onder de tabel wordt altijd aangegeven of aan de voorwaarden is voldaan. Over de andere dingen zoals likelihood ratio e.d. hebben we het in college niet gehad.

Na het uitvoeren van de chi kwadraat toets kun je als de significantie hoger ligt dan 5% zeggen dat het percentage mensen dat gelukkig is hetzelfde is voor zowel de cafébezoekers als de niet-cafébezoekers. Je kunt dan ook antwoord geven op de vraag of twee variabelen op een bepaalde manier van elkaar afhankelijk zijn.

Eenzijdig en tweezijdig toetsenBij de z-toets en de t-toets kun je een keuze maken om eenzijdig of tweezijdig te toetsen. Bij de F-toets en de Chi-kwadraat toets is dit moeilijker te duiden, door de asymmetrische verdeling. Je moet zoeken naar de kritische F of x2.

Wat is een enkelvoudige chi kwadraat toets?

Page 10: Statistiek Samenvatting Boek en Collegeaantekeningen

Je kunt de Chi kwadraat toets ook gebruiken om nulhypotheses te testen over de verdeling van waarden van een enkele variabele (met een geobserveerde en verwachte waarde). Je zet dan een nominale of ordinale verdeling af tegen een testverdeling. Je hebt te maken met drie verdelingen: de verdeling in de steekproef, de verdeling in de populatie en de verwachte verdeling. Je nulhypothese luidt dat de verdeling in de populatie gelijk is aan de testverdeling.

CausaliteitDe kracht van een toets hangt af van de discrepantie met de nulhypothese en de steekproefgrootte. Als je de nulhypothese verwerpt, is er een verband tussen de variabelen. Over welke verbanden dit zijn, de causaliteit, zegt de significantie niets. Tevens zegt de toets niets over de richting van een verband.

Nonparametrische toetsen

Kruskal-Wallis toets. De Kruskal-Wallis toets is een alternatief voor de een-factor variantieanalyse. Een nonparametrische toets wordt gebruikt als de verdeling van de waarden niet normaal én het aantal cases te klein is. De toets wordt net zo uitgevoerd als de Mann-Whitney toets, alleen zijn er meer groepen. In de Mann-Whitney toets wilde je vergelijken hoeveel tijd mensen die wel of geen gebruik maakten van internet met familie doorbrachten. In de Kruskal-Wallis toets wil je kijken hoe de relatie is tussen de hoeveelheid tijd die op internet wordt doorgebracht en de hoeveelheid tijd die met familie wordt doorgebracht.

Voorwaarden:- De cases moeten onafhankelijk zijn. - De verdeling van de waarden in de populaties moeten gelijkvormig zijn. - De varianties in de populaties moeten gelijk aan elkaar zijn (toetsen met een Levene’s toets).

De nulhypothese is gelijk aan die van de Mann-Whitney toets: de gemiddelde rangnummers per groep zijn gelijk.

College 4, Hoofdstuk 19Associatiematen

Hoe je de sterkte van de relatie tussen twee categoriale variabelen meten?In dit hoofdstuk leer je technieken voor het meten van de sterkte en de richting van een verband tussen twee categoriale variabelen. Deze variabelen hebben een beperkte hoeveelheid van mogelijke waarden en kunnen weergegeven worden in een kruistabel.

Wat zijn associatiematen en wanneer zijn ze zinvol?Associatiematen worden gebruikt om de relatie te meten tussen categoriale variabelen. Een perfecte relatie is makkelijk te definiëren, een imperfecte relatie is lastiger, kan op verschillende manieren worden gekwantificeerd. Associatiematen worden meestal in een warde uitgedrukt die varieert van 0 tot 1. Hoe groter de absolute waarde, hoe sterker het verband. Als het getal positief is nemen beide variabelen toe. Is het getal negatief, dan neemt de ene variabele toe als de andere afneemt.

Page 11: Statistiek Samenvatting Boek en Collegeaantekeningen

Sterkte van een verband:Lager dan 0,2 → zwak verbandTussen 0,2 en 0,4 → matig verbandTussen 0,4 en 0,7 → sterk verbandBoven 0,7 → zeer sterk verband Let op! Geen harde grenzen!

Is er een beste manier om associatiematen te meten?Er zijn verschillende manieren om associatiematen te meten, die hangen af van het soort variabele. Bij een nominale variabele kun je geen richting van een verband meten. Iedere soort associatiemaat meet associatie op een verschillende manier die allen associatie op een verschillende manier definiëren.

Waarom is de chi kwadraat statistiek niet goed voor het meten van de associatie?De chi kwadraat toets is geen geschikte manier om associatie te meten. De waarde van de ch kwadraat vertelt je niets over de sterkte van de relatie tussen twee variabelen.

Wat is de proportionele foutreductie?Methode om de sterkte van een relatie tussen twee variabelen te meten. Hoe goed kun je de ene waarde uit de andere voorspellen? De proportionele foutreductie vergelijkt de fout die je maakt wanneer je een waarde voorspelt van een (afhankelijke) variabele gebaseerd op de waarden van een andere (onafhankelijke) variabele, met de fout wanneer je deze waarden voorspelt zonder informatie over de andere variabele.

Nulhypothese: de associatiemaat in de populatie is 0.

Het berekenen van Lambda:

Lambda=misclassified∈situatie1−misclassified∈situatie2misclassified∈situatie 1

Voorbeeld: Tevredenheid van mensen in verschillende woningtypen.

Drie stappen:- Het voorspellen van de waarde van de ene variabele zonder het kennen van de andere

variabele. (Tevredenheid wordt bepaald door het type woning.)- Het voorspellen van de waarde van de ene variabele op basis van de waarde van de

andere variabele. (Kijken naar alle mensen die in een vrijstaande woningen wonen en gokken hoe tevreden ze zijn. Altijd gokken op de grootste categorie.)

- Het berekenen van de reductie in aandeel fout voorspelde waarde. Kijken naar verschillen tussen de twee voorspellingsmethoden.

De afhankelijke variabele geldt als de te voorspellen waarde, in dit geval dus tevredenheid.

Zeer tevreden Tevreden OntevredenVrijstaand 54 27 6 872-1 kap 34 19 4 57Hoek 27 32 4 63Tussen 51 70 18 139

Page 12: Statistiek Samenvatting Boek en Collegeaantekeningen

Flat 31 49 18 98197 197 50 444

M1 = 444-197 = 247 (fout) Niet weten welk type woning(Bij M1 ga je er vanuit dat iedereen de meest voorkomende waarde gaat geven, (in dit geval of zeer tevreden, of tevreden). Als je iedereen indeelt in die waarde, die je hierboven in de tabel dat je 197+50 óf 444-197 = 247 mensen verkeerd classificeert.)M2 = 87-54 = 33 (fout) Wel weten welk type woning

57-34 = 23 je neemt het rijtotaal – de meest voorkomende waarde63-32 = 31139-70 = 6998-49 = 49Opgeteld = 205

Lambda=247−205247

= 0,17 → dat betekent dat je 17% minder fouten maakt als je weet in

welk type woning iemand woont.

Extreme situaties: Lambda = 1: wanneer M2 0 is. (De hoogste waarde die Lambda aan kan nemen).Lambda = 0: wanneer M1 = M2. (De laagste waarde die Lambda aan kan nemen. De onafhankelijke variabele voegt niets toe aan het voorspellen van de afhankelijke variabele.)

Als een associatiemaat gelijk is aan 0, betekent dat dan dat twee variabelen geen relatie vertonen?Wanneer twee variabelen statistisch onafhankelijk zijn, is Lambda 0. Maar wanneer Lambda 0 is, betekent dit niet dat twee variabelen statistisch onafhankelijk zijn!

In de tabel in SPSS waarin Lambda wordt weergegeven, kijk je altijd naar de waarde van Lambda achter de variabele die afhankelijk is. De waarde van Lambda hangt dus af van welke variabele je wilt voorspellen uit welke andere variabele.

Symmetrische Lambda: Wanneer je geen afhankelijke en onafhankelijke variabele aan kunt wijzen, ga je een symmetrische Lambda berekenen. Dat doe je voor beide variabelen.

Lambda=(247−205 )+(305−302)

247+305 = 0,082

(Dus nu: 444 – 139 = 305197-54 = 143197-70 = 12750-18 = 32 → opgeteld 302)

Lambda wordt gebruikt voor variabelen op verschillende schaal. De enige voorwaarde is dat er een beperkte hoeveelheid waarden zijn. Is dit wel zo, moeten ze worden ondergebracht in groepen. Je gebruikt bij een ordinale variabele niet de volgorde van de variabelen. Er zijn metingen die dit wel doen.

Page 13: Statistiek Samenvatting Boek en Collegeaantekeningen

Hoe kan aanvullende informatie over de volgorde van variabelen in de associatiemaat worden opgenomen voor variabelen gemeten op een ordinale schaal?Deze metingen vertellen je niet alleen iets over de sterkte van een verband, maar ook iets over de richting van dat verband. Er kan sprake zijn van een positief of een negatief verband. Dit kan niet bij een nominale variabele, omdat er geen volgorde in de variabelen zit.

Metingen op basis van concordantie: Veel ordinale associatiematen zijn gebaseerd op het meten van paren cases. Het moet dus gaan om twee ordinale variabelen. Je gaat voor elk paar dat mogelijk is bekijken of ze concordant zijn.

- Concordant: bij één case is de waarde van beide variabelen groter dan bij de andere case.

- Discordant: bij de ene case is de waarde van een variabele groter en die van de andere kleiner dan bij de andere case.

- Tie: bij beide cases is de waarde van tenminste één van de beide variabelen gelijk. Als de meeste paren concordant zijn, is de associatie tussen de twee variabelen positief. Als de meeste paren discordant zijn, is de associatie negatief. Als de paren evenveel voorkomen, is er geen associatie. De volgende metingen zijn allemaal gericht op het verschil tussen het aantal concordante (P) paren en het aantal discordante (Q) paren, berekend voor alle onderscheiden paren.

Goodman en Kruskal’s gamma

Formule: P−QP+Q

Waardes kunnen variëren van -1 (alles discordant) tot 0 (discordant en concordant even groot) tot 1 (alles concordant). De – of de + geeft de richting van het verband aan. Deze toets doet niets met de ties. Als twee variabelen onafhankelijk zijn, is de Gamma 0. Als Gamma 0 is, betekent dit niet dat de twee variabelen per se onafhankelijk zijn.

Kendall’s tau-bGamma negeert alle paren van cases die een tie hebben. Kendall’s tau-b doet dit niet. Deze neemt ties wel mee, maar dan de ties in paren afzonderlijk. Niet de ties in beide variabelen. De waarden +1 en -1 komen voor, maar alleen in tabellen met dezelfde hoeveelheid rijen en kolommen.

Formule :P−Q

√(P+Q+T x )x (P+Q+T y)

Kendall’s Tau-cEen methode die een waarde kan aannemen van -1 tot +1 voor elk formaat tabel, is deze.

Formule: 2m( p−q)n2(m−1)

N = de hoeveelheid cases. M = kleinere hoeveelheid van het aantal rijen en kolommen

Voor de Kendall’s tau-b en tau-c is er geen simpele manier om een interpretatie van de proportionele foutreductie te maken. Bij Gamma is die er wel.

Somer’s D

Page 14: Statistiek Samenvatting Boek en Collegeaantekeningen

De vorige drie zijn allen symmetrische metingen. Het maakt niet uit welke variabele onafhankelijk is. Somers is een verlenging van Gamma wanneer een van twee variabelen als afhankelijk kan worden gezien. Het enige verschil met Gamma is dat onder de deelstreep de som van alle paren cases die geen tie vormen met de onafhankelijke variabele komen te staan.

Geen enkele associatiemeting is het best voor alle situaties. Je moet kijken naar de soort gegevens, en de manier waarop de associatie wilt definiëren. Je kunt als de associatie laag is alleen zeggen dat de variabelen geen sterk verband laten zien op de manier waarop deze methode dit zou kunnen detecteren. Je moet niet verschillende testen doen en dan de hoogste pakken.

Cohen’s KappaAls je gebruik maakt van dezelfde schaal voor beide variabelen, kun je associatiemetingen berekenen die gebruik maken van deze toevoegende informatie. Deze methode zoekt naar de mate van overeenstemming. Bij maximale overeenstemming staan alle cases op de diagonaal. Als de variabelen niks met elkaar te maken hebben, worden de waarden verspreidt over de cellen. Als er alleen 0 op de diagonaal staat, zeggen mensen altijd iets anders over de twee variabelen. Deze methode mag alleen gebruikt worden bij dezelfde categorieën voor de twee ordinale variabelen. Probleem: er staat niet vast wat voor percentage er op de diagonaal mag staan als rekening gehouden wordt met toeval.

Problemen:- Er zijn veel associatiematen, en er is er niet een het best.- Wanneer de uitkomst 0 is, betekent dit niet dat er geen verband bestaat.

Metingen op basis van correlatieJe kunt, als de volgorde betekenis heeft, de correlatiecoëfficiënt berekenen. Je berekent hiermee de sterkte van een lineaire associatie tussen twee variabelen. Punten moeten dan in een spreidingsdiagram geclusterd rond een rechte lijn liggen. Als ze op een positieve lijn liggen, is de correlatiecoëfficiënt 1, als ze op een negatieve lijn liggen -1. Als de correlatiecoëfficiënt 0 is, kan er wel een verband zijn op een non-lineaire manier. Letten op de Pearson (met een waarde van -1 tot 1).

Metingen gebaseerd op de chi kwadraat statistiekDe chi kwadraat toets zegt iets over de waarschijnlijkheid dat een verband bestaat, maar niets over de sterkte van dat verband. Associatiematen zeggen iets over de sterkte van een verband. Je kunt ze alleen gebruiken als de uitkomst significant is. Associatiematen zeggen namelijk niks over de waarschijnlijkheid dat een verband bestaat. Associatiematen horende bij de chi kwadraat toets passen de uitkomst zo aan, dat deze binnen een bereik van 0 tot 1 valt.

Phi coëfficiënt

∅=√ x2NDe grootte van het getal is afhankelijk van het aantal rijen en kolommen in de kruistabel. Het getal kan dan groter worden dan 1.

Coëfficiënt of contingency

Page 15: Statistiek Samenvatting Boek en Collegeaantekeningen

C=√ x2

x2+NWaarde hangt af van het aantal rijen en kolommen in de tabel, maar blijft altijd kleiner dan 1.

Cramér’s V

V=√ x2

N (k−1)Kan de waarde van 1 benaderen voor tabellen van elk formaat. Maximum ligt in de buurt van 1. K is het kleinste aantal categorieën -1.

College 5, Hoofdstuk 20Correlatie en regressie

Hoe kun je een lijn kiezen die de lineaire relatie tussen twee relaties het beste samenvat?

Je kunt met deze methode bepalen of er een relatie is tussen twee variabelen (interval of ratio), en deze relatie beschrijven. In een diagram kun je bekijken of er een bepaald patroon bestaat. Door middel van een wiskundig model kun je de relatie beschrijven door de bijbehorende vergelijking op te zoeken.

Yy = a + bx positieve RCy = afhankelijk (op de y-as)x = onafhankelijk (op de x-as) ba = constante (intercept) geen RCb = regressiecoëfficiënt (helling, slope) a

negatieve RC (a + b . 0) x Nulhypothese: Er is geen lineair verband tussen beide variabelen. De regressiecoëfficiënt is 0. De significantie van de regressiecoëfficiënt zegt iets over de waarschijnlijkheid dat een verband bestaat. De correlatiecoëfficiënt zegt iets over de sterkte van dat verband. Ook voor de constante is toetsing mogelijk: de nulhypothese is dan: a = 0.

Regressie is niet symmetrisch. Als je een x en een y hebt, kun je a en b zelf uitrekenen. De constante (a) vertelt je de voorspelde waarde voor y wanneer x 0 is. De regressiecoëfficiënt (b) is de verandering in y wanneer x met een unit toeneemt. Deze kan zowel positief als negatief zijn. Y is dus de afhankelijke variabele, x de onafhankelijke.

Page 16: Statistiek Samenvatting Boek en Collegeaantekeningen

0 5000 10000 15000 20000 25000 30000 350000

500

1000

1500

2000

2500

3000

3500

4000

4500

Bruto huur p/m

Bruto huur p/m

Als je een in een spreidingsdiagram niets ziet (zoals hierboven), kun je de extreme waarden eruit halen zodat de spreiding minder groot wordt. Je moet altijd eerst een diagram maken, om een eventuele non-lineaire relatie alvast uit te sluiten. Als alle punten precies op de lijn vallen hoef je niet te zoeken naar een lijn die het best bij de gegevens past. Als dit niet zo is (wat natuurlijk meestal het geval is), wordt het lastiger.

Wat is de regressielijn (least-square line)? De regressielijn is de lijn die van alle lijnen die je in een diagram zou kunnen tekenen, de kleinste som van de gekwadrateerde verticale afstanden heeft tussen de punten en de lijn. Je gebruikt gekwadrateerde afstanden om zo negatieve getallen uit te sluiten.

Wat vertelt de helling je? De constante (intercept)?De helling vertelt je hoeveel y toeneemt als x een unit toeneemt. Bij een hoge regressiecoëfficiënt is de lijn steil, bij een lage is hij minder steil. De Constante vertelt je weinig, tenzij een waarde van 0 voor de onafhankelijke variabele logisch is. Als je kijkt naar levensverwachting en geboorteaantallen, zal een geboorteaantal van 0 niet voorkomen, en is het dus niet relevant om te zeggen dat als het geboorteaantal 0 is, de levensverwachting 90 is.

Het is het makkelijkst SPSS de gegevens te laten berekenen. In de kolom onder B staan de constante en de regressiecoëfficiënt, de helling.

Hoe bereken je voorspelde waarden en residuen?

Page 17: Statistiek Samenvatting Boek en Collegeaantekeningen

Als je bijvoorbeeld het geboorteaantal van een land weet, en je hebt de constante en de helling al berekend in SPSS, kun je heel makkelijk voorspellen wat de levensverwachting is in dat land, door de getallen in te vullen in de formule. Het residu voor een case bereken je door de waargenomen waarde van Y te verminderen met de voorspelde waarde van y (de afhankelijke variabele). Er kunnen positieve of negatieve residuen voorkomen. Positieve bevinden zich boven de regressielijn. Negatieve bevinden zich onder de regressielijn. Het residu is de verticale afstand van het punt tot aan de lijn.

Hoe kun je zeggen hoe goed een lijn bij je gegevens past?Dat een lijn het best past over de punten, wil niet zeggen dat de lijn ook goed over de punten heen valt. Je moet bepalen hoe goed een regressielijn over de gegevens past. Dit doe je door middel van een correlatiecoëfficiënt (Pearson, r). Deze absolute waarde kan variëren van -1 tot 1. Als alle punten precies op een positieve regressielijn vallen, is de correlatiecoëfficiënt 1, op een negatieve regressielijn -1. Deze coëfficiënt vertelt je hoe dicht de waarden rondom de lijn geclusterd liggen. Zowel de waarde 1 als -1 indiceren een sterk verband. Je kunt niks zeggen over de causale verbanden tussen twee variabelen. Als er geen verband is, is correlatiecoëfficiënt 0. Dit betekent niet dat als de correlatiecoëfficiënt 0 is, er geen verband is. Er is alleen geen lineair verband. Als B significant is, is de correlatie ook significant.

0 -1 1

De correlatiecoëfficiënt is een symmetrische meting. Ongeacht welke variabele je als afhankelijk instelt, worden dezelfde resultaten gegeven.

Formule :r=b x (sxs y

)

Lineaire regressie in SPSS (zie afbeelding):De correlatiecoëfficiënt wordt inde eerste tabel aangeduid met R. Als je de correlatiecoëfficiënt kwadrateert krijg je R2. Dit is het deel dat door het model verklaard wordt. (Dus bijvoorbeeld 69,6% van de levensverwachtingen wordt verklaard door de geboorteaantallen.) Als je uit de tweede tabel de sum of squares van de regressie deelt door de Total sum of squares krijg je R2. Adjusted R geeft aan hoe groot de kans is dat je uit een andere steekproef dezelfde resultaten bereikt.

Page 18: Statistiek Samenvatting Boek en Collegeaantekeningen

Waarschuwingen:- Gebruik de toets niet om voorspellingen te maken als er waarden van de

onafhankelijke variabele buiten het geobserveerde bereik liggen. Niet extrapoleren.

Geen verwachte waarde berekenen voor iemand Van 90!

18 79- Bereken geen regressie tenzij de relatie tussen de twee variabelen lineair lijkt te zijn

over het gehele geobserveerde bereik van de onafhankelijke variabele. Niet interpoleren. Dus geen regressielijn berekenen op basis van losse clusters.

Page 19: Statistiek Samenvatting Boek en Collegeaantekeningen

- Pas op voor een relatie die sterk afhankelijk is van één punt. Dus pas op voor uitschieters. Als de gemeten waarde wel klopt, kun je twee keer een regressiewaarde uitvoeren, een keer met en een keer zonder de uitschieter.

Met uitschieter

Zonder uitschieter

College 6, Hoofdstuk 20 en 21Lineaire regressie (vervolg)

Hoe kun je de nulhypothese toetsen over de regressielijn in de populatie gebaseerd op de resultaten die je verkrijgt uit een steekproef?In hoofdstuk 20 vatte je de relatie tussen twee variabelen samen door middel van een regressielijn die over de gegevens paste. Je wilt ook conclusies kunnen trekken over de populatie door middel van die gegevens. Dat komt in dit hoofdstuk.

Wat is de populatie regressielijn? Je trekt conclusies over de relatie tussen twee variabelen in de populatie gebaseerd op de resultaten die je hebt geobserveerd in de steekproef. Als je de gehele populatie onderzoeken zou de regressielijn waar zijn, en dus een regressielijn van de populatie zijn. Je onderzoekt echter een steekproef uit de populatie.

Welke voorwaarden gelden voor de gegevens om hypotheses over de populatie regressielijn te toetsen?

- De cases moeten onafhankelijk zijn. - De verdeling van de waarden van Y moeten normaal verdeeld zijn voor elke waarde

van X rond de regressielijn.

- De variantie van Y moet gelijk zijn bij elke waarde van X.- Het verband in de populatie tussen X en Y moet lineair zijn (alle gemiddelden van de

verdelingen moeten op een rechte lijn vallen).

Page 20: Statistiek Samenvatting Boek en Collegeaantekeningen

Voorwaarde 2 en 3 kun je met een korreltje zout nemen. Als de verdeling niet normaal is kun je ook een nonparametrische toets doen (de spearman’s correlatiecoëfficiënt). Als je voorwaarde 4 met een korreltje zout neemt (dit kan wel), gebeurt er ogenschijnlijk niets bijzonders. Je kunt dan alleen niet met een optimale verklaring komen.

Niet voldaan aan voorwaarde 2 Niet voldaan aan voorwaarde 3

Hoe toets je een nulhypothese dat de helling (regressiecoëfficiënt) of de correlatiecoëfficiënt 0 is in de populatie?De helling en de constante bepalen je regressielijn. Ze zijn ook de beste optie om de waarden voor de helling (regressie, b) en de constante (intercept, a) van de onbekende populatie in te schatten. Op basis hiervan kun je een hypothese toetsen. Constant en regressie of helling zullen bij het trekken van veel steekproeven normaal verdeeld zijn (mits aan de regressie voorwaarden is voldaan). De standaarddeviaties van deze verdelingen zijn de standaardfout van de regressie en de standaardfout van de constante. De standaardfout van de schatting is de schatting van de variantie van de afhankelijke variabele voor elke waarde van de onafhankelijke variabele.Als je de lineaire regressie berekent, wil je bekijken of er een lineaire relatie is tussen twee variabelen in de populatie. Dit betekent dat je een nulhypothese dat de helling (regressie) in de populatie 0 is wilt toetsen. Je kijkt hoe waarschijnlijk het is dat je de geobserveerde regressie verkrijgt, als de nulhypothese waar zou zijn. Je kunt ook zeggen dat de nulhypothese luidt dat de correlatiecoëfficiënt 0 is. Als je de ene nulhypothese kunt verwerpen, kan dat met de andere ook. Als derde kun je de nulhypothese stellen dat de populatiewaarde van de constante 0 is. Maar dit vertelt je niet heel veel. Het vertelt je alleen of de regressielijn door de origine komt (waarbij de waarden van beide variabelen 0 is), en het zegt niets over de eventuele lineaire relatie.

Tentamen: wat is a en wat is b. Hij geeft y, wat is dan x?

Wat is het verschil tussen een betrouwbaarheidsinterval voor de gemiddelde voorspelling en het voorspellingsinterval voor een individuele case?Het is onwaarschijnlijk dat de waarden uit de steekproef gelijk zijn aan die uit de populatie. Je kunt 95% betrouwbaarheidsintervallen berekenen voor de helling en de constante in de populatie. Formule: Helling ± 2,16 x standaardfout van de helling. De nauwkeurigheid van je voorspelling is afhankelijk van de spreiding. Als je een levensverwachting van 68 krijgt, maar de plausibele waarden moeten tussen 40 en 100 liggen heb je er niks aan. Als het bereik tussen 65 en 73 valt, zegt dit meer. Voor je de spreiding vaststelt, moet je eerst bepalen welke voorspellingen je eigenlijk wilt maken. De voorspelde waarde is hetzelfde voor beide mogelijkheden, wat verschilt is de spreiding. Mogelijkheden lineaire regressie:

Page 21: Statistiek Samenvatting Boek en Collegeaantekeningen

- Een voorspelling van het gemiddelde van Y voor een groep cases op basis van de waarde van X.

- Een voorspelling van de waarde van Y voor een individuele case op basis van de waarde van X.

Voorspellingen zijn het meest nauwkeurig voor waarden van de onafhankelijke variabele dicht bij het steekproefgemiddelde. Daar loopt de regressielijn altijd doorheen. Als je de standaardfout voor de gemiddelde voorspelde waarde hebt berekend, kun je een betrouwbaarheidsinterval berekenen voor elke waarde voor de onafhankelijke variabele.

betrouwbaarheidsinterval voorspellingsinterval

Meest betrouwbare punt

Voorspellingsintervallen voor individuele casesDe voorspelde waarde blijft hetzelfde, de standaardfout veranderd wel. Deze wordt groter. Deze hangt af van de spreiding in de voorspelling van het gemiddelde, en hoeveel de waarden van de afhankelijke variabele variëren voor een specifieke waarde van de onafhankelijke variabele. Je kunt voor een individuele case een voorspellingsinterval doen, dit is een bereik van waarden waarin je verwacht dat een waarde voor een individuele case zal vallen. Het voorspellingsinterval is altijd groter dan het betrouwbaarheidsinterval (voor een individu is de onzekerheid groter dan voor een groep).

Extra in college: Geografische eenheden als cases, staat niet in boek!Twee bijzonderheden:

- De cases zijn sterk uiteenlopend.De absolute cijfers zijn onbruikbaar

- Het aantal cases in de populatie is betrekkelijk klein.

Correlatiematrix: Difference of proportions test. Voorwaarden:

- Twee onafhankelijke steekproeven- Een binaire variabele

Een complete databestand is niet nodig, vier getallen volstaan. Nulhypothese: het aandeel ‘waar’ is in beide groepen gelijk.

Formules:n1= aantal cases in groep 1n2= aantal cases in groep 2x1= aantal malen ‘waar’ in groep 1x2= aantal malen ‘waar’ in groep 2

Proporties per groep:p1=

x1n1

p2=x2n2

Proportie gezamenlijk:p̂=

x1+x2n1+n2 (verwachte proportie)

Page 22: Statistiek Samenvatting Boek en Collegeaantekeningen

z=p1−p2

√ p̂ (1− p̂)√ n1+n2n1n2

De berekende z kan op de gebruikelijke wijze worden opgezocht in een tabel met z-scores, waaruit men vervolgens de p-waarde (d.w.z. overschrijdingskans) kan aflezen.

Voorbeeld:80 ondernemersTevredenheid met vestigingsplaats?Verhuisd of niet?

N1 = tevreden ondernemersN2 = ontevreden ondernemers

P1 = 2050

= 0,4 P2 = 1530

= 0,5

P = 0,4375

Z = -0,873 → opzoeken in tabel

P ≈ 0,38 → verband dus niet significant.

Wat kun je hiermee? Bijvoorbeeld naar aanleiding van een krantenartikel een toets doen. Maar dat krantenartikel gaat over de populatie, mag je hierover dan wel een toets uitvoeren? Aanname is: er is in dat geval sprake van een oneindig grote fictieve populatie. Bijvoorbeeld een artikel over het aantal kinderen dat jaarlijks overlijdt aan wiegendood, dat is een steekproef uit alle kinderen die ooit geboren zijn en alle kinderen die ooit nog geboren zullen worden.

Verzameling van elementen:- Steekproef- Populatie- Fictieve populatie

College 7, Hoofdstuk 23 en 24Meervoudige lineaire regressie

Hoofdstuk 23

Hoe maak je een regressiemodel met meer dan één onafhankelijke variabele?In de meeste situaties heb je meer dan een onafhankelijke variabele nodig om voorspellingen te doen over een afhankelijke situatie. Hiervoor gebruik je de meervoudige lineaire regressiemethode. Je verklaart een ratiovariabele uit twee of meer andere ratiovariabelen (plus eventueel een of meer binaire variabelen). Géén ordinale of nominale variabelen. Je

Page 23: Statistiek Samenvatting Boek en Collegeaantekeningen

kunt wel nominale variabelen gebruiken, maar deze moet je dan per variabele coderen in wel of niet, ja of nee, waar je de cijfers 0 en 1 aan kunt hangen.

Bijvoorbeeld: Christen 0 ja 1 neeMoslim 0 ja 1 neeBuddhist 0 ja 1 nee

Je hoeft dit maar voor twee van de drie waarden te doen, als je de antwoorden op de eerste twee weet, weet je die op de derde ook automatisch. Je neemt een nominale variabele met K categorieën op in de regressie door k-1 dummies (binaire variabelen) te berekenen.

Wat zijn partiële regressiecoëfficiënten?Formule: y = a + b1 . x1 + b2 .x2 + b3 . x3 enz.

constante regressiecoëfficiëntenAfhankelijke variabele onafhankelijke variabelen

De verschillende regressiecoëfficiënten voor elk van de onafhankelijke variabele zijn partiële regressiecoëfficiënten. Je kunt dezelfde methode gebruiken als bij de enkelvoudige regressielijn. Je gebruikt dan de coëfficiënten met de kleine som van de gekwadrateerde verschillen tussen de geobserveerde en voorspelde waardes van de afhankelijke variabele. Dus de som van de gekwadrateerde residuen.

Voorwaarden voor de toets:- De cases moeten onafhankelijk zijn. - De relatie tussen de onafhankelijke variabelen en y moet lineair zijn in de populatie. - Voor elke combinatie van waarden van de onafhankelijke variabele, is de verdeling van

de waarden voor de afhankelijke variabele normaal verdeeld. - De variantie van de afhankelijke variabele is gelijk voor elke combinatie van de waarde

van de onafhankelijke variabelen.

Als de verdeling van de waarden niet lineair is (duidelijk te zien als je een spreidingsdiagram matrix maakt) moet je ze transformeren zodat ze wel lineair worden. Door bijvoorbeeld logaritmen te nemen. Deze waarden moet je dan gebruiken in de meervoudige regressiemethode.

Hoe kun je nulhypothese testen dat alle partiële regressiecoëfficiënten uit de populatie 0 zijn?Nulhypothese bij meervoudige lineaire regressie: Er is geen lineair verband tussen de afhankelijke variabele enerzijds en de onafhankelijke variabelen anderzijds. De verklaarde variantie is 0. De partiële regressiecoëfficiënt is 0.

Page 24: Statistiek Samenvatting Boek en Collegeaantekeningen

De eerste stap in de methode is kijken hoe goed het model past. R2 verteld je welk percentage van de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen in het model. In dit geval is dat dus 48,9%. R2 kun je berekenen door de Total sum of squares te delen door de sum of squares van de regressie. R is de correlatiecoëfficiënt tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde gebaseerd op het regressiemodel. Een waarde van 0 betekent dat de onafhankelijke variabelen niet lineair gerelateerd zijn aan de afhankelijke variabele. Een waarde van 1 vertelt je dat de afhankelijke variabele perfect voorspelt kan worden uit de onafhankelijke variabelen.

De ANOVA tabel (analysis of variance) wordt gebruikt om de verschillende nulhypotheses te testen. (Er is geen lineair verband tussen de afhankelijke variabele enerzijds en de onafhankelijke variabelen anderzijds. De verklaarde variantie is 0. De partiële regressiecoëfficiënt is 0.)De total sum of squares is de totale variantie van de afhankelijke variabele. De sum of squares van de regressie is de verklaarde variantie door regressie. De sum of squares van de residu is de variantie die niet verklaard wordt door regressie. De overschrijdingskans hoort bij de meervoudige regressie als geheel, en vertelt je of je de nulhypothese kunt verwerpen of niet. Het aantal vrijheidsgraden is het aantal cases -1.

Page 25: Statistiek Samenvatting Boek en Collegeaantekeningen

De regressiecoëfficiënten van de onafhankelijke variabelen en de constante staan in kolom B van het laatste model dat je krijgt. Deze getallen zeggen iets over de bijdragen van de variabelen aan het model. Hoeveel veranderd de waarde van de afhankelijke variabele veranderd wanneer de waarde van een bepaalde onafhankelijke variabele met 1 vermeerderd, en de andere onafhankelijke variabelen gelijk blijven. Een positieve coëfficiënt betekent dat de voorspelde waarde toeneemt wanneer de onafhankelijke variabele toeneemt, een negatieve waarde betekent dat de voorspelde waarde afneemt als de onafhankelijke waarde toeneemt. Let hierbij goed op of het om logaritmen of om gewone getallen gaat. Je gebruikt de t-statistiek en de bijbehorende overschrijdingskans om je toetsen of je de nulhypothese kunt aannemen of verwerpen. De t-statistiek bereken je door de regressiecoëfficiënt te delen door de standaardfout van de regressiecoëfficiënt.

Wat kun je aan de hand van partiële regressiecoëfficiënten zeggen over de relatie tussen de afhankelijke variabele en een onafhankelijke variabele?De interpretatie is complex omdat conclusies over elke onafhankelijke variabele weer afhangen van de relatie met zowel de andere onafhankelijke variabelen als de afhankelijke variabele. In een matrix van de correlatiecoëfficiënt is te zien dat de correlatie tussen sommige onafhankelijke variabelen heel sterk is, en dat de bijbehorende overschrijdingskans kleiner dan 0,05% is, terwijl er in de meervoudige regressie analyse geen significant verschil aangetoond werd. Dat betekent dus dat de onafhankelijke variabelen onderling elkaar ook sterk beïnvloeden.

Het veranderen van het model: Als je een onafhankelijke variabele zou verwijderen, zouden de regressiecoëfficiënten van de overblijvende onafhankelijke variabelen allemaal veranderen. Je kunt dus in de meervoudige regressie analyse geen conclusies trekken over een individuele onafhankelijke variabele.

Je kunt een partiële correlatie coëfficiënt uitvoeren. Hiermee kun je de relatie van een onafhankelijke variabele met de afhankelijke variabele berekenen, terwijl de effecten van andere variabelen gecontroleerd worden.

Tolerantie en multicollineariteit: de sterkte van de lineaire relaties tussen de onafhankelijke variabelen wordt gemeten door de tolerantie. De waarde varieert van 0 tot 1. Een waarde dicht bij 1 betekent dat weinig van de spreiding van een onafhankelijke variabele verklaard wordt door de andere onafhankelijke variabelen. Een waarde dicht bij 0 betekent dat een onafhankelijke variabele een bijna lineaire combinatie is met de andere onafhankelijke variabelen. Deze noemen we multicollineair. Een tolerantie kleiner dan 0,1 levert een probleem op. Je moet dan enkele variabelen die een lineaire relatie vertonen verwijderen uit

Page 26: Statistiek Samenvatting Boek en Collegeaantekeningen

je model. Je krijgt anders namelijk dat bijvoorbeeld de populatiecoëfficiënten 0 zijn op basis van de F-statistiek, en je dus de nulhypothese moet verwerpen. Maar dat geen enkele van de individuele coëfficiënten significant zijn gebaseerd op de t-statistiek.

Wat zijn variabele selectiemethoden en wanneer zijn ze zinvol?Je uiteindelijke doel is om met een simpel model te komen die goed voorspelt. Je moet geen irrelevante variabelen in je model opnemen, en geen belangrijke uitsluiten. De volgende methoden helpen om een goed regressiemodel op te stellen:

- Forward selection: telkens een variabele toevoegen met de meest significante B, tot R2

niet meer significant toeneemt. Voorwaarde is een overschrijdingskans van 0,05 of minder.

- Backward elimination: Het omgekeerde, je begint met alle variabelen en gooit er steeds een uit, die de R2 het minst beïnvloed. Je gaat net zo lang door tot R2 significant afneemt. Voorwaarde is een overschrijdingskans van 0,1 of groter.

- Stepwise variable selection: de meest gebruikte methode. Het lijkt op de forward methode. Alleen nadat je een variabele hebt toegevoegd, verwijder je variabelen die op dat moment geen significante voorspellers zijn. Dus variabelen wiens betekenis verminderd door het invoegen van een andere variabele, worden verwijderd.

Hoofdstuk 24Meervoudige regressie diagnostiek

Hoe kun je controleren op overtredingen van de voorwaarden van de meervoudige regressieanalyse? En hoe kun je cases identificeren die de resultaten van de regressie meer dan de andere beïnvloeden? In dit hoofdstuk gebruik je residuen en andere diagnostieken om te controleren op overtredingen op de voorwaarden voor de regressietoets en om ongebruikelijke waarden te identificeren. De methoden in hoofdstuk 22 zijn ook van toepassing op de meervoudige regressiemethode. Hier worden alleen de methode beschreven die niet in hoofdstuk 22 staan.

Wat kun je leren van het plotten van residuen tegen de voorspelde waarden en de waarden van de onafhankelijke variabelen? Het onderzoeken van normaliteit: je gebruikt de verwijderde studentized residuen (zie hoofdstuk 22 voor uitleg) om naar overtredingen te kijken. Dit zijn de residuen die horen bij de cases die verwijderd zijn uit de regressie berekening. Deze functie maakt het gemakkelijk ongebruikelijke waarden te identificeren. Als aan de voorwaarden voldaan is, is de verdeling een t-verdeling met als vrijheidsgraad het aantal cases – het aantal onafhankelijke variabelen -2 (N-p-2). De verdeling is bij een groot aantal cases bij benadering normaal. Dit kun je zien in een stam-en-blad-diagram, boxplot (mediaan in het midden) en QQ-plot (punten op de lijn).

Spreidingsdiagrammen van residuen:Spreidingsdiagram van de voorspelde en geobserveerde waarden. De waarden moeten mooi rond de lijn geconcentreerd zijn en niet te veel clusteren. Het bereik van alle variabelen (de afstand tot de lijn) moet voor alle waarden ongeveer even groot zijn om aan de voorwaarde voor gelijke varianties te voldoen. In het volgende diagram worden residuen afgezet tegen de voorspelde waarden. Hier is het makkelijker om problemen te zien. Je kunt de absolute waarden voor de drie hoogste residuen onderzoeken. Maar wat je eigenlijk wilt weten, is of deze cases ongebruikelijke combinaties van waarden vertonen.

Page 27: Statistiek Samenvatting Boek en Collegeaantekeningen

Wat is en hefboomwerking wanneer is het zinvol? Hiervoor kun je de leverage (hefboom) statistiek gebruiken. De leverage meet hoe ver de waarden van een case liggen van de gemiddelden van alle onafhankelijke variabelen. De leverage heeft een bereik van 0 tot bijna 1. Vuistregel is te kijken naar de waarden die liggen boven 2.het aantal onafhankelijke variabelen/het aantal cases. Deze waarden hebben een grote invloed op de schattingen van de regressiecoëfficiënten. Als je punten vind met een hoge leverage kijk je eerst naar de gegevens om er zeker van te zijn dat er zich geen errors bevinden. Dan ga je nadenken over verklaringen voor een hoge leverage. Veranderingen in de coëfficiënten: je kunt punten identificeren die de regressiecoëfficiënt en de constante beïnvloeden. Je berekent dan de helling met, en zonder deze case en bekijkt wat voor invloed dit heeft op de waarde. In dit geval kun je hetzelfde doen, alleen kijk je nu naar het effect van het verwijderen van een case op de waarden van elk van de coëfficiënten, de constante incluis. Vuistregel als grens voor de waarden die je eruit moet halen is 2/√N .

Waarom is Cook’s afstand zinvol?Cook’s distance meet de verandering in alle regressiecoëfficiënten wanneer een case wordt verwijderd uit de analyse. Deze hangt af van de studentized residu en de leverage waarden. Je kunt overschrijdingskansen berekenen op basis van de F-verdeling met een vrijheidsgraad van ‘het aantal onafhankelijke cases+1’ en ‘het aantal cases - het aantal onafhankelijke cases - 1’. Waarden groter dan 1 verdienen nauwkeurig onderzoek.

Diagrammen tegen onafhankelijke variabelen: Als je de residuen tegen de waarden van de onafhankelijke variabele weergeeft, mag je geen patroon zien. Zie je dat wel, dan kan het zijn dat de relatie tussen de afhankelijke en de onafhankelijke variabele niet lineair is.

Wat kun je opmaken uit een partiële regressie diagram? Het partiële regressie diagram helpt je de adequaatheid van een regressiemodel vast te stellen. Het is een spreidingsdiagram met twee residuen. Op de verticale as zet je de residuen van het voorspellen van de afhankelijke variabele (bijvoorbeeld levensverwachting) uit alle onafhankelijke variabelen, behalve een onafhankelijke variabele (bijvoorbeeld hoeveelheid doctors op 1000 mensen). Op de horizontale as zet je de residuen van het voorspellen van de onafhankelijke variabele (dus hoeveelheid doctors op 1000 mensen) vanuit alle andere onafhankelijke variabelen. Als de aanname van lineairiteit waar is, is in deze spreidingsdiagram een lineaire relatie te zien. De helling in de spreidingsdiagram die je krijgt is de coëfficiënt van de onafhankelijke variabele (in dit geval het aantal doctors per 1000 mensen) in de meervoudige regressie. De correlatiecoëfficiënt is de partiële correlatiecoëfficiënt, dus de correlatie tussen de twee variabelen als de andere onafhankelijke variabelen constant worden gehouden.

College 8, Hoofdstuk 22Het analyseren van residuen

Hoe kun je zeggen of de voorwaarden die nodig zijn voor het testen van een nulhypothese in de meervoudige regressieanalyse overtreden worden?Het is lastig vast te stellen of voldaan wordt aan de voorwaarden die gesteld worden bij regressie analyses. Het is belangrijk dit te controleren. Residuen spelen hierbij een belangrijke rol.

Page 28: Statistiek Samenvatting Boek en Collegeaantekeningen

Een residu is het verschil tussen de geobserveerde waarde van de afhankelijke variabele en de voorspelde waarde door de regressielijn. Residuen moeten aan de volgende voorwaarden voldoen:

- Ze moeten bij benadering normaal verdeeld zijn. - De variantie van de residuen moet hetzelfde zijn voor alle waarden van de

onafhankelijke variabelen. - Er moet geen patroon te zien zijn wanneer ze in een spreidingsdiagram tegenover

voorspelde waarden worden gezet. - Succesvolle residuen moeten bij benadering onafhankelijk zijn.

Verschillende typen residuen maken het makkelijker problemen op te sporen:Gestandaardiseerde residuen: het relatieve formaat van een residu kun je niet vaststellen door alleen naar de waarde van het residu te kijken als je de rest van de waarden niet weet. De gestandaardiseerde residuen zijn residuen met een gemiddelde van 0 en een standaardafwijking van 1. Om hem te berekenen deel je het geobserveerde residu door de geschatte standaarddeviatie van de residuen. Je verwacht dat niet meer dan 5% gestandaardiseerde residuen een absolute waarde van meer dan 2 heeft (getal horende bij het 95% betrouwbaarheidsinterval). Studentized residuen: De spreiding van de voorspelde waarden is niet constant voor alle punten, maar hangt af van de waarden van de onafhankelijke variabele. De studentized residu houdt hier rekening mee, waar de gestandaardiseerde residu dit niet doet. Deze methode maakt het hierdoor makkelijker om overtredingen op de voorwaarden voor de regressieanalyse te detecteren. Vervolgens kun je de t-verdeling (met een vrijheidsgraag van het aantal cases min het aantal coëfficiënten) gebruiken om te kijken of deze waarde van de studentized residu aannemelijk is. Je moet bij de hoogste residuen de overschrijdingskans vermenigvuldigen met het aantal residuen in je steekproef. Hiermee voorkom je dat teveel waarden als onwaarschijnlijk worden beschouwd.

Hoe kun je residuen gebruiken om de voorwaarden (onafhankelijkheid, lineairiteit, normaliteit, constante variantie) te controleren? Controleren op normaliteit: de verdeling van de residuen moet bij benadering normaal zijn. Voor meer dan 30 cases moet dit ook het geval zijn bij studentized residuen. Eerst maak je een stam-en-blad-diagram of histogram. Je kunt ook een QQ plot gebruiken. Je verwacht dan dat de waarden nagenoeg op de lijn liggen als de verdeling normaal is. Het detrended QQ plot laat van elk punt de afstand tot de lijn zien. De punten moeten dan enigszins rondom de lijn vallen. De kunt in SPSS een Shaprio-wilk toets doen. Wat moet je doen als de verdeling niet normaal is? Eerst eventuele andere problemen oplossen, daarna kun je de waarden van de afhankelijke variabele gaan transformeren door bijvoorbeeld logaritmen of wortels te nemen. Controleren op een constante variantie: je kunt hiervoor de studentized residuen tegen de voorspelde waarden in een spreidingsdiagram weergeven. Als de variantie constant is, zie je geen patroon. Het is normaal als de spreiding iets toeneemt als de afhankelijke waarde toeneemt. Als de variantie niet constant is kun je de waarden van de afhankelijke variabele transformeren. Als de variantie van de afhankelijke variabele lineair toeneemt met die van de onafhankelijke waarde en allemaal positief zijn, kun je de wortel trekken. Als de standaarddeviatie lineair toeneemt met de onafhankelijke variabele, moet je de log nemen van de afhankelijke variabele. Controleren op lineairiteit: de eerste stap die je neemt in een regressie analyse is de afhankelijke en de onafhankelijke variabele in een spreidingsdiagram zetten. De punten moeten ongeveer op een lineaire lijn liggen. Je kunt ook de studentized residuen tegen de

Page 29: Statistiek Samenvatting Boek en Collegeaantekeningen

voorspelde waarden afzetten, als de relatie niet lineair is zie je een bocht in het diagram. Soms kun je dan de variabele transformeren zodat ze wel lineair worden door bijvoorbeeld logaritmen te nemen (wanneer de waarden van de afhankelijke variabele sneller toenemen dan een lineair model zou voorspellen ), of door wortel te trekken (wanneer waarden van de afhankelijke variabele sneller afnemen dan een lineair model zou voorspellen ). Je kunt alleen de afhankelijke, alleen de onafhankelijke of beide variabelen transformeren. Controleren op onafhankelijkheid: de waarde van de ene observatie is op geen enkele manier gerelateerd aan de waarde van een andere observatie. Afhankelijkheid kan een probleem zijn wanneer gegevens in een reeks worden verzameld. Je kunt de Durbin-Watson toets gebruiken om te kijken of opeenvolgende observaties correlatie vertonen. Deze heeft een waarde van 0 tot 4, als er geen correlatie is, moet de waarde dicht bij 2 liggen. Dicht bij 0 betekent een positieve correlatie, dicht bij 4 een negatieve. Als de waarde tussen 1,5 en 2,5 ligt, hoef jij je geen zorgen te maken.

Wat zijn punten die van invloed zijn, en waarom zijn ze belangrijk? Het is mogelijk dat een of meer punten een grote invloed heeft op je regressiemodel. De helling of de constante veranderd. Je wilt dat alle cases ongeveer in dezelfde mate bijdragen aan het regressiemodel. Je kunt een berekening maken van de regressiecoëfficiënt met en zonder de extreme waarde. Je kunt de verandering in helling bekijken. Maar of deze verandering significant is, is afhankelijk van de echte waarde van de helling. Je moet letten op gestandaardiseerde veranderingen groter dan 2/√N . Wat moet je doen als je een punt vindt die de resultaten veel beïnvloed? Zeker weten dat het geen fout in je gegevens is. Als je iets ongebruikelijks vind aan de case, kun je instellen dat je toetst met en zonder die karakteristiek. Kun je niks vinden, dan zit je er toch aan vast.

Verwijderde Studentized residuen (jackknifed residual)Dit het is residu voor een case wanneer deze is verwijderd uit de regressieanalyse. Als er afwijkingen zijn van de voorwaarden van de regressieanalye, kun je deze makkelijker vinden aan de hand van de verwijderde studentized residuen, dan aan de hand van de studentized residuen.