Regressie-analyse - Tilburg University een tabel worden de cases vermeld waarvan het...

Regressie-analyse

Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele

met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabe-

len). Wanneer de afhankelijke variabele voorspeld wordt op basis van één onafhankelijke

variabele is er sprake van enkelvoudige regressie-analyse. Wanneer er meerdere

onafhankelijke variabelen gebruikt worden om de afhankelijke variabele te voorspellen,

spreken we van multipele regressie-analyse.

Zo kunnen wij bijvoorbeeld de Arbeidssatisfactie van werknemers voorspellen op basis van

Werkdruk. In dit geval is er sprake van enkelvoudige regressie. Bij de voorspelling van

Arbeidssatisfactie op basis van Werkdruk, Opleiding en Inspraak, is er sprake van drie

onafhankelijke variabelen en dus van multipele regressie-analyse.

Van de regressieprocedure wordt hieronder het doel aangeduid, hoe de betreffende procedure

wordt aangeroepen met behulp van het menu, waar de specifieke hulp gevonden kan worden,

hoe de globale werkwijze is en enkele aandachtspunten die belangrijk zijn voor het gebruik.

Doel: het zo goed mogelijk voorspellen van de scores op de afhankelijke variabele met behulp

van de scores op een of meer onafhankelijke variabelen d.m.v. een lineair model. De

afhankelijke variabele dient van interval- of rationiveau (scale) te zijn. De onafhankelijke

variabelen zijn vaak van interval- of rationiveau, maar kunnen ook nominaal zijn (zgn.

dummy variabelen). Zie daarvoor aandachtspunt 4. In een multipele regressie-analyse kunnen

ook interacties opgenomen worden (zie aandachtspunt 4). Zelfs bepaalde niet-lineaire

verbanden kunnen geanalyseerd worden (zie aandachtspunt 5).

Voor de uitvoering in SPSS: Kies in het menu <Statistics> <Regression> <Linear…>

Informatie over de procedure kan in SPSS verkregen worden m.b.v. <Help, Topics, Contents,

Regression, Linear Regression> ofwel <Help> in het venster "Linear Regression" (na kiezen

van de procedure m.b.v. menu).

Missing Values worden in de berekening buiten beschouwing gelaten, mits correct

gedefinieerd of open gelaten (system missing). Met <Options...> kan aangegeven worden hoe

de missing values behandeld moeten worden: "exclude cases listwise" (dit is de standaard

instelling), "exclude cases pairwise" ofwel "replace with mean". In dit laatste geval worden de

missing values van een variabele vervangen door het gemiddelde van de non-missing values.

Globale werkwijze Om een (multipele) regressie-analyse uit te voeren moet een afhankelijke variabele worden

geselecteerd: "Dependent" en tevens een of meerdere onafhankelijke variabelen:

"Independent(s)".

Met behulp van de methode “Enter” worden de geselecteerde onafhankelijke variabelen alle

tegelijkertijd in de analyse opgenomen. De overige methoden (Stepwise, Remove, Backward

en Forward) worden hier niet behandeld. Ook het zgn. "gewogen kleinste-kwadraten model"

dat d.m.v. "WLS>>" kan worden gekozen, wordt hier niet behandeld. Zie hiervoor de Help-

functie in SPSS.

Van: <Statistics>, <Plots>, <Save> en <Options> worden hieronder slechts de mogelijkheden

toegelicht die een functie hebben in de standaard regressie-analyse.

Statistics Klik op <Statistics> om een keuze te kunnen maken uit de uitvoermogelijkheden.

"Estimates" staat standaard ingesteld en omvat de uitvoer van de regressiecoëfficiënten en

daarmee samenhangende grootheden: regressiecoëfficiënten (B), de standard error van de B's

(SE B), de gestandaardiseerde regressiecoëfficiënten (Beta), de toetsingsgrootheid t (T) en

de overschrijdingskans daarvan (Sig T). Vermeld moet worden dat de waarden van deze

grootheden afhankelijk zijn van de keuze van de onafhankelijke variabelen. Door toevoeging

of weglating van variabelen kunnen de waarden zeer sterk veranderen. Bijzonderheden over

het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2.

Ook "Model fit" is standaard aangekruist. Tot de uitvoer behoort: de multipele

correlatiecoëfficiënt (Multiple R), het kwadraat daarvan (R Square), de gecorrigeerde waarde

van R2 (Adjusted R Square) en de standard error. In aandachtspunt 3 wordt nadere informatie

gegeven over de gecorrigeerde waarde van R2. Bovendien wordt in de uitvoer een variantie-

analysetabel gepresenteerd met kwadratensommen, vrijheidsgraden (DF), variantieschattingen

(Mean Squares), de toetsingsgrootheid F en de overschrijdingskans van de gevonden F-

waarde (Signif F). Met behulp van deze variantie-analysetabel kan de berekende R2 op

significantie worden getoetst. Verdere bijzonderheden over het toetsen van regressiemodellen

zijn te vinden onder aandachtspunt 2.

Door "Descriptives" aan te kruisen, worden van de geselecteerde variabelen (inclusief de

afhankelijke variabele) de gemiddelden, de standaarddeviaties en de onderlinge correlaties

berekend en gepresenteerd.

Plots Enkele mogelijkheden van "Plots" worden beschreven bij de achterliggende theorie. "Plots"

wordt met name gebruikt om de assumpties van lineariteit, normaliteit en homoscedasticiteit

van het regressiemodel te controleren.

Save Tijdens de uitvoering van een multipele regressie-analyse worden enkele "nieuwe" variabelen

berekend, die normaliter niet in de datamatrix worden opgeslagen. Het gaat bijvoorbeeld om

de voorspelde scores (Unstandardized Predicted Values), de voorspelde scores in

standaardvorm (Standardized Predicted Values = voorspelde scores als z-scores), de residuen

(Unstandardized Residuals) en de residuen in de vorm van z-scores (Standardized Residuals).

Door de betreffende hokjes aan te kruisen, worden de bijbehorende variabelen wel in de

datamatrix opgenomen, zodat ze voor later gebruik beschikbaar blijven (mits de datamatrix

ook wordt bewaard!). SPSS zorgt zelf voor de naamgeving van deze variabelen. In de uitvoer

worden de naam en inhoud van deze variabelen gepresenteerd.

De achterliggende theorie

Het regressiemodel

Het regressiemodel voor de populatie in termen van de variabelen kan als volgt worden

geschreven:

Y = + 1X1 + 2X2 + ... + mXm +

Op het niveau van de individuele onderzoekseenheden kan dit model als volgt worden

geschreven:

Yi = + 1X1i + 2X2i + ... + mXmi + i

De parameters , 1, 2, ... zijn de regressiecoëfficiënten in de populatie. Voor iedere

onderzoekseenheid zijn het dezelfde waarden. De variabelen X zijn de onafhankelijke

variabelen. In totaal zijn er m onafhankelijke variabelen. Y is de afhankelijke variabele. De

(hypothetische) variabele (met de bijbehorende scores i) is de zgn. toevalsfactor of

errorterm. De score op de afhankelijke variabele wordt voor iedere onderzoekseenheid op

dezelfde wijze bepaald door de scores op de onafhankelijke variabelen, plus of min een

bepaalde waarde ( i) die specifiek is voor iedere onderzoekseenheid.

De bovenstaande regressievergelijking wordt in het algemeen door middel van een (aselecte

en representatieve) steekproef geschat:

Y = a + b1X1 + b2X2 + ... + bmXm + e (niveau van de variabelen)

Yi = a + b1X1i + b2X2i + ... + bmXmi + ei (niveau van de onderzoekseenheden)

Vaak schrijft men:

Y' = a + b1X1 + b2X2 + ... + bmXm (niveau van de variabelen)

Y'i = a + b1X1i + b2X2i + ... + bmXmi (niveau van de onderzoekseenheden)

waarbij Y'i de voorspelde score voorstelt.

De modellen kunnen ook nog geschreven worden in termen van gestandaardiseerde

variabelen:

Zy = (s)

1Z1 + (s)

2Z2 + ... + (s)

mZm + (populatie)

Zy = B1Z1 + B2Z2 + ... + BmZm + (steekproef)

De waarden van (s)

en B zijn de gestandaardiseerde regressiecoëfficiënten voor resp. de

populatie en de steekproef. Met behulp van de gestandaardiseerde regressiecoëfficiënten kan

worden bepaald welke onafhankelijke variabele het meeste gewicht in de schaal legt bij de

voorspelling van de afhankelijke variabele.

Voorwaarden om een regressie-analyse uit te voeren

Om op een correcte wijze te kunnen generaliseren van steekproef naar populatie, dient aan

een aantal assumpties voldaan te zijn. De gangbare statistische toetsing in de regressie-analyse

kan gevoelig zijn voor schending van een of meer van de hieronder vermelde assumpties.

Regressie-analyses uitvoeren zonder dat men zich om de voorwaarden bekommert, kan

gemakkelijk aanleiding geven tot moeilijk interpreteerbare resultaten. Het is daarom

verstandig de residuen zorgvuldig te analyseren om eventuele schendingen van de assumpties

op te sporen. We bespreken hieronder de assumpties en manieren om die te onderzoeken.

Assumptie 1: Lineariteit van de regressievergelijking

De regressievergelijking in de populatie is in werkelijkheid lineair (zie boven).

Controle op lineariteit en homoscedasticiteit

Maak m.b.v. <Plots> een plot van de gestandaardiseerde residuen (*ZRESID) op de Y-as

tegen de gestandaardiseerde voorspelde waarden (*ZPRED) op de X-as. Als aan de

assumpties van lineariteit en homoscedasticiteit is voldaan, zullen de punten in deze plot

volstrekt willekeurig verdeeld zijn. De aanwezigheid van een bepaald patroon is een

aanwijzing voor niet-lineaire regressie, voor heteroscedasticiteit of voor beide.

NB: Door het opnemen van kwadratische termen (en eventueel termen met een nog hogere

macht) kunnen sommige vormen van niet-lineaire regressie worden geanalyseerd. Met

behulp van COMPUTE opdrachten worden "nieuwe" variabelen X2, X

3, enz. gemaakt,

die vervolgens als onafhankelijke variabelen in de regressie-analyse worden

opgenomen.

Door geschikte transformaties is het soms mogelijk om verschillende vormen van niet-

lineariteit te "lineariseren". Bekend zijn logaritmische, reciproke en vierkantswortel-

transformaties.

Assumptie 2: Normaliteit, gemiddelde en variantie van de errortermen

Voor elke subgroep van onderzoekseenheden, gekenmerkt door een specifieke combinatie van

scores op de onafhankelijke variabelen X, is de verdeling van de -scores een normale

verdeling met gemiddelde 0 en constante variantie (homoscedasticiteit).

Het gemiddelde van de residuen in de steekproef (e) is altijd exact gelijk aan 0 als gevolg van

de schattingsprocedure.

Controle op normaliteit

Met behulp van <Plots> kan een histogram verkregen worden van de gestandaardiseerde

residuen door het betreffende hokje aan te kruisen. In het histogram is de theoretische normale

verdeling ingetekend. Sterke afwijkingen van de geobserveerde frequencies (kolommen) en

de theoretische normale verdeling zijn een aanwijzing voor non-normaliteit van de

errortermen, misspecificatie van het model (b.v. er zijn relevante onafhankelijke variabelen

vergeten) of heteroscedasticiteit.

Assumptie 3: Onafhankelijkheid van de errortermen

De waarden die aanneemt voor de diverse onderzoekseenheden zijn onafhankelijk van

elkaar. Een voorbeeld van duidelijk afhankelijke errortermen (dan is dus aan de voorwaarde

van onafhankelijkheid niet voldaan) wordt gevormd door zgn. repeated measurements

(herhaalde metingen bij dezelfde onderzoekseenheden). Dit is bijvoorbeeld bij tijdreeksen het

geval.

Assumptie 4: Onafhankelijkheid van error en onafhankelijke variabelen

De (hypothetische) toevalsfactor ( ) dient ongecorreleerd te zijn met de onafhankelijke

variabelen X. Of aan deze voorwaarde is voldaan, is in de praktijk moeilijk te beoordelen. De

steekproefcorrelatie tussen de onafhankelijke variabelen en de residuen is exact gelijk aan 0,

als gevolg van de schattingsprocedure. Deze correlatiecoëfficiënten zeggen niets over de

populatiewaarden ervan.

Localiseren van extreme waarden

Hoewel dit niets te maken heeft met de schending van de assumpties, kan voor de interpretatie

van een regressie-analyse het opsporen van extreem grote residuen van belang zijn. Het gaat

daarbij immers om slecht voorspelbare scores op de afhankelijke variabele. Na het commando

<Plots> kan het keuzehokje "Casewise plot" aangekruist worden. Kies daarna voor "Outliers

outside 3 std. deviations". In een tabel worden de cases vermeld waarvan het

gestandaardiseerde residu groter is dan 3 of kleiner dan -3. Zoals bekend zijn z-scores (onder

de assumptie van een normale verdeling) met een absolute waarde van 3 of meer uiterst

zeldzaam. Deze kun je beter uit je analyse laten door de waarde te definiëren als een missing

value of weg te halen.

Toetsen regressieparameters en regressiemodellen

Met behulp van de t-toetsen in de uitvoer van SPSS kan worden nagegaan of de betreffende

onafhankelijke variabele een significante extra bijdrage levert aan de verklaring van Y boven

op de bijdrage van alle overige onafhankelijke variabelen samen. Het komt echter regelmatig

voor dat er bij die overige onafhankelijke variabelen, variabelen voorkomen die zelf geen

significante bijdrage leveren aan de verklaring van Y. In een dergelijke situatie heeft een

individuele t-toets weinig waarde. De t-waarden en de bijbehorende overschrijdingskansen

zijn niet geschikt om de onafhankelijke variabelen te selecteren die een significante bijdrage

leveren aan de verklaring van de afhankelijke variabele.

Een belangrijke toets in de regressie-analyse is de zgn. modeltoets (F-toets voor proportie

verklaarde variantie). Hiermee wordt getoetst of het gehele regressiemodel een significante

proportie variantie verklaart. De toets kent de volgende nulhypothese: H0: R2=0 met H1:

R2>0. In de uitvoer van SPSS worden de resultaten van deze F-toets in de tabel ‘ANOVA’

weergegeven.

Een andere belangrijke toets is de F-toets voor modelvergelijking (niet te verwarren met de

vorige F-toets!). Met deze toets kan worden nagegaan of het toevoegen, resp. weglaten van

onafhankelijke variabelen leidt tot een significante verbetering, resp. verslechtering van het

regressiemodel.

Stel, in regressie-analyse 1 (met N onderzoekseenheden) zijn p onafhankelijke variabelen

opgenomen. Het kwadraat van de multipele correlatiecoëfficiënt wordt voorgesteld door R2

1.

In regressie-analyse 2 (met dezelfde N onderzoekseenheden) zijn dezelfde p onafhankelijke

variabelen opgenomen en bovendien nog q andere (nog niet gebruikte) onafhankelijke

variabelen. Het kwadraat van de multipele correlatiecoëfficiënt wordt nu voorgesteld door

R22. Uiteraard geldt dat R

22 R

21.

In SPSS kan de F-toets voor modelvergelijking worden uitgevoerd door te werken met

‘Blocks’. Specificeer eerst het ‘kleine’ regressiemodel. Door bij ‘Block 1 of 1’ op <Next> te

klikken, wordt een nieuw ‘Block’ gemaakt. Het is nu mogelijk om het ‘grote’ model te

specificeren. SPSS zal nu beide regressie-analyses (zowel voor het kleine als het grote

regressiemodel) in 1x uitvoeren. Via <Statistics> <R squared change> worden de gegevens

m.b.t. de F-toets voor modelvergelijking verkregen.

Dummy-variabelen

Nominale (en dus ook ordinale) variabelen kunnen heel goed als onafhankelijke variabelen in

een regressie-analyse worden opgenomen, mits zij getransformeerd zijn tot zgn. dummy-

variabelen. Een nominale variabele met k elkaar uitsluitende categorieën wordt met behulp

van COMPUTE en COMPUTE IF commando's omgezet in (k-1) dummy-variabelen.

Elke categorie kan worden herkend aan het unieke patronen van nullen en enen op de k-1

dummy-variabelen. Een categorie heeft een patroon van allemaal nullen; deze categorie wordt

de referentiecategorie genoemd. Je mag zelf bepalen welke categorie je kiest als

referentiecategorie.

Voorbeeld: kwalitatieve variabele met 3 categorieën (A,B,C) kun je met (3-1) dummies (D1

en D2 representeren.

Categorie D1 D2

A 1 0

B 0 1

C 0 0

Hier: categorie C is de referentiecategorie.

Stel dat de variabele VOOROPL bestaat uit drie categorieën, resp. L(ager), M(iddelbaar) en

H(oger) met bijbehorende scores 1, 2 en 3. De variabele VOOROPL is kwalitatief en wordt

dus niet zonder meer als onafhankelijke variabele in de regressie-analyse opgenomen. Eerst

worden (met behulp van 2 COMPUTE en 2 COMPUTE IF commando's) de volgende

datatransformaties uitgevoerd. We maken twee nieuwe variabelen: de variabele MO

(middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als

VOOROPL=1 of 3 (d.w.z niet middelbaar) en de waarde 1 als VOOROPL=2 (d.w.z. middel-

baar). HO heeft de waarde 0 als VOOROPL=1 of 2 (d.w.z. niet hoger) en de waarde 1 als

VOOROPL=3 (d.w.z. hoger).

Merk op dat er geen variabele LO nodig is! MO en HO zijn zgn. dummy-variabelen. Zij

worden beide in de regressie-analyse opgenomen. Zij vertegenwoordigen resp. het extra

effect van de middelbare en hogere vooropleiding. Nogmaals: VOOROPL wordt niet als

onafhankelijke variabele opgenomen, MO en HO wel en er is geen dummy-variabele LO.

Lager opgeleiden vormen de referentiecategorie, te herkennen aan hun scorepatroon met

nullen op zowel MO als HO.

Het opnemen van dummy-variabelen in de regressie-analyse op de hierboven omschreven

manier heeft alleen zin als er geen sprake is van interacties. Anders geformuleerd: als

afzonderlijke regressie-analyses (bijvoorbeeld uitgevoerd na het commando SPLIT FILE)

voor de verschillende categorieën van de nominale onafhankelijke variabele (ongeveer)

dezelfde regressie-coëfficiënten b (slope) opleveren, maar verschillende a's (intercepts), is het

werken met dummy-variabelen gerechtvaardigd. Er is dan geen sprake van interactie. Als

echter blijkt dat de b's in de afzonderlijke regressie-analyses voor de verschillende categorieën

van de nominale onafhankelijke variabele duidelijk (significant) verschillend zijn, moeten niet

alleen dummy-variabelen worden opgenomen, maar ook product-variabelen (=interactie

tussen dummy en andere predictor). Door de toevoeging van product-variabelen wordt het

model meestal aanzienlijk gecompliceerder; nu kunnen de regressie-coëfficienten verschillen

voor de verschillende categorieën van de nominale variabele.

Selecteren predictoren

Bij het selecteren van predictoren wordt vaak ten onrechte gedachte dat meer predictoren

zullen leiden tot een betere voorspelling van de afhankelijke variabele. Dit is een onjuiste

veronderstelling. Meestal zal na het opnemen van 5 à 6 predictoren de verklaarde variantie

niet veel meer verbeteren. Verder is het van belang dat het aantal proefpersonen in een goede

verhouding staat tot het aantal variabelen dat wordt meegenomen in de regressievergelijking.

Stevens (1992) noemt als vuistregel dat in het algemeen minimaal 15 proefpersonen per

predictor nodig zijn voor betrouwbare schattingen van de regressievergelijkingen.

Let bij het selecteren van variabelen op de onderlinge samenhang tussen predictoren en de

samenhang tussen individuele predictoren en de afhankelijke variabele. Het beste is om

predictoren te selecteren die onderling laag correleren, maar die elk wel hoog correleren met

de afhankelijke variabele. Deze predictoren zullen ieder een uniek stukje variantie in Y

verklaren. Tevens wordt op deze manier multicollineariteit voorkomen; de situatie waarin de

geschatte regressiecoëfficiënten onbetrouwbaar zijn (dit uit zich in gestandaardiseerde

regressiecoëfficiënten groter dan 1 of kleiner dan –1). In geval van multicollineariteit kunnen

variabelen die onderling hoog correleren beter worden samengevoegd. Ook kan er voor

gekozen worden om slechts één van de twee hoog correlerende predictoren op te nemen in het

regressiemodel. Tot slot is het mogelijk, wanneer er veel predictoren zijn, om eerst een data-

reductie toe te passen (principale componenten analyse) en de verkregen componenten op te

nemen als predictoren in het regressiemodel.

Inspectie van de correlatiematrix waarin alle correlaties tussen predictoren onderling en

correlaties tussen de predictoren en de afhankelijke variabele zijn opgenomen geeft een

indicatie of het verstandig is variabelen samen te voegen, niet in de analyse op te nemen of

datareductie toe te passen. SPSS heeft verder onder de optie <Statistics> binnen <Linear

Regression> de optie <Collinearity Diagnostics>. De zogenaamde ‘Tolerance’ en ‘VIF’=

Variance Inflation Factor, zijn daarbij indicatoren voor multicollineariteit. Meer informatie

over deze diagnostics staat in de Help-functie van SPSS wanneer je zoekt naar de term

‘collinearity’.

Regressie-analyse - Tilburg University een tabel worden de cases vermeld waarvan het...

Documents

Transcript of Regressie-analyse - Tilburg University een tabel worden de cases vermeld waarvan het...