Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Regressie-analyse - Tilburg University een tabel worden de cases vermeld waarvan het...
-
Upload
nguyenkhue -
Category
Documents
-
view
216 -
download
3
Transcript of Regressie-analyse - Tilburg University een tabel worden de cases vermeld waarvan het...
Regressie-analyse
Regressie-analyse is gericht op het voorspellen van één (numerieke) afhankelijke variabele
met behulp van een of meerdere onafhankelijke variabelen (numerieke en/of dummy-variabe-
len). Wanneer de afhankelijke variabele voorspeld wordt op basis van één onafhankelijke
variabele is er sprake van enkelvoudige regressie-analyse. Wanneer er meerdere
onafhankelijke variabelen gebruikt worden om de afhankelijke variabele te voorspellen,
spreken we van multipele regressie-analyse.
Zo kunnen wij bijvoorbeeld de Arbeidssatisfactie van werknemers voorspellen op basis van
Werkdruk. In dit geval is er sprake van enkelvoudige regressie. Bij de voorspelling van
Arbeidssatisfactie op basis van Werkdruk, Opleiding en Inspraak, is er sprake van drie
onafhankelijke variabelen en dus van multipele regressie-analyse.
Van de regressieprocedure wordt hieronder het doel aangeduid, hoe de betreffende procedure
wordt aangeroepen met behulp van het menu, waar de specifieke hulp gevonden kan worden,
hoe de globale werkwijze is en enkele aandachtspunten die belangrijk zijn voor het gebruik.
Doel: het zo goed mogelijk voorspellen van de scores op de afhankelijke variabele met behulp
van de scores op een of meer onafhankelijke variabelen d.m.v. een lineair model. De
afhankelijke variabele dient van interval- of rationiveau (scale) te zijn. De onafhankelijke
variabelen zijn vaak van interval- of rationiveau, maar kunnen ook nominaal zijn (zgn.
dummy variabelen). Zie daarvoor aandachtspunt 4. In een multipele regressie-analyse kunnen
ook interacties opgenomen worden (zie aandachtspunt 4). Zelfs bepaalde niet-lineaire
verbanden kunnen geanalyseerd worden (zie aandachtspunt 5).
Voor de uitvoering in SPSS: Kies in het menu <Statistics> <Regression> <Linear…>
Informatie over de procedure kan in SPSS verkregen worden m.b.v. <Help, Topics, Contents,
Regression, Linear Regression> ofwel <Help> in het venster "Linear Regression" (na kiezen
van de procedure m.b.v. menu).
Missing Values worden in de berekening buiten beschouwing gelaten, mits correct
gedefinieerd of open gelaten (system missing). Met <Options...> kan aangegeven worden hoe
de missing values behandeld moeten worden: "exclude cases listwise" (dit is de standaard
instelling), "exclude cases pairwise" ofwel "replace with mean". In dit laatste geval worden de
missing values van een variabele vervangen door het gemiddelde van de non-missing values.
Globale werkwijze Om een (multipele) regressie-analyse uit te voeren moet een afhankelijke variabele worden
geselecteerd: "Dependent" en tevens een of meerdere onafhankelijke variabelen:
"Independent(s)".
Met behulp van de methode “Enter” worden de geselecteerde onafhankelijke variabelen alle
tegelijkertijd in de analyse opgenomen. De overige methoden (Stepwise, Remove, Backward
en Forward) worden hier niet behandeld. Ook het zgn. "gewogen kleinste-kwadraten model"
dat d.m.v. "WLS>>" kan worden gekozen, wordt hier niet behandeld. Zie hiervoor de Help-
functie in SPSS.
Van: <Statistics>, <Plots>, <Save> en <Options> worden hieronder slechts de mogelijkheden
toegelicht die een functie hebben in de standaard regressie-analyse.
Statistics Klik op <Statistics> om een keuze te kunnen maken uit de uitvoermogelijkheden.
"Estimates" staat standaard ingesteld en omvat de uitvoer van de regressiecoëfficiënten en
daarmee samenhangende grootheden: regressiecoëfficiënten (B), de standard error van de B's
(SE B), de gestandaardiseerde regressiecoëfficiënten (Beta), de toetsingsgrootheid t (T) en
de overschrijdingskans daarvan (Sig T). Vermeld moet worden dat de waarden van deze
grootheden afhankelijk zijn van de keuze van de onafhankelijke variabelen. Door toevoeging
of weglating van variabelen kunnen de waarden zeer sterk veranderen. Bijzonderheden over
het toetsen van regressiemodellen zijn te vinden onder aandachtspunt 2.
Ook "Model fit" is standaard aangekruist. Tot de uitvoer behoort: de multipele
correlatiecoëfficiënt (Multiple R), het kwadraat daarvan (R Square), de gecorrigeerde waarde
van R2 (Adjusted R Square) en de standard error. In aandachtspunt 3 wordt nadere informatie
gegeven over de gecorrigeerde waarde van R2. Bovendien wordt in de uitvoer een variantie-
analysetabel gepresenteerd met kwadratensommen, vrijheidsgraden (DF), variantieschattingen
(Mean Squares), de toetsingsgrootheid F en de overschrijdingskans van de gevonden F-
waarde (Signif F). Met behulp van deze variantie-analysetabel kan de berekende R2 op
significantie worden getoetst. Verdere bijzonderheden over het toetsen van regressiemodellen
zijn te vinden onder aandachtspunt 2.
Door "Descriptives" aan te kruisen, worden van de geselecteerde variabelen (inclusief de
afhankelijke variabele) de gemiddelden, de standaarddeviaties en de onderlinge correlaties
berekend en gepresenteerd.
Plots Enkele mogelijkheden van "Plots" worden beschreven bij de achterliggende theorie. "Plots"
wordt met name gebruikt om de assumpties van lineariteit, normaliteit en homoscedasticiteit
van het regressiemodel te controleren.
Save Tijdens de uitvoering van een multipele regressie-analyse worden enkele "nieuwe" variabelen
berekend, die normaliter niet in de datamatrix worden opgeslagen. Het gaat bijvoorbeeld om
de voorspelde scores (Unstandardized Predicted Values), de voorspelde scores in
standaardvorm (Standardized Predicted Values = voorspelde scores als z-scores), de residuen
(Unstandardized Residuals) en de residuen in de vorm van z-scores (Standardized Residuals).
Door de betreffende hokjes aan te kruisen, worden de bijbehorende variabelen wel in de
datamatrix opgenomen, zodat ze voor later gebruik beschikbaar blijven (mits de datamatrix
ook wordt bewaard!). SPSS zorgt zelf voor de naamgeving van deze variabelen. In de uitvoer
worden de naam en inhoud van deze variabelen gepresenteerd.
De achterliggende theorie
Het regressiemodel
Het regressiemodel voor de populatie in termen van de variabelen kan als volgt worden
geschreven:
Y = + 1X1 + 2X2 + ... + mXm +
Op het niveau van de individuele onderzoekseenheden kan dit model als volgt worden
geschreven:
Yi = + 1X1i + 2X2i + ... + mXmi + i
De parameters , 1, 2, ... zijn de regressiecoëfficiënten in de populatie. Voor iedere
onderzoekseenheid zijn het dezelfde waarden. De variabelen X zijn de onafhankelijke
variabelen. In totaal zijn er m onafhankelijke variabelen. Y is de afhankelijke variabele. De
(hypothetische) variabele (met de bijbehorende scores i) is de zgn. toevalsfactor of
errorterm. De score op de afhankelijke variabele wordt voor iedere onderzoekseenheid op
dezelfde wijze bepaald door de scores op de onafhankelijke variabelen, plus of min een
bepaalde waarde ( i) die specifiek is voor iedere onderzoekseenheid.
De bovenstaande regressievergelijking wordt in het algemeen door middel van een (aselecte
en representatieve) steekproef geschat:
Y = a + b1X1 + b2X2 + ... + bmXm + e (niveau van de variabelen)
Yi = a + b1X1i + b2X2i + ... + bmXmi + ei (niveau van de onderzoekseenheden)
Vaak schrijft men:
Y' = a + b1X1 + b2X2 + ... + bmXm (niveau van de variabelen)
Y'i = a + b1X1i + b2X2i + ... + bmXmi (niveau van de onderzoekseenheden)
waarbij Y'i de voorspelde score voorstelt.
De modellen kunnen ook nog geschreven worden in termen van gestandaardiseerde
variabelen:
Zy = (s)
1Z1 + (s)
2Z2 + ... + (s)
mZm + (populatie)
Zy = B1Z1 + B2Z2 + ... + BmZm + (steekproef)
De waarden van (s)
en B zijn de gestandaardiseerde regressiecoëfficiënten voor resp. de
populatie en de steekproef. Met behulp van de gestandaardiseerde regressiecoëfficiënten kan
worden bepaald welke onafhankelijke variabele het meeste gewicht in de schaal legt bij de
voorspelling van de afhankelijke variabele.
Voorwaarden om een regressie-analyse uit te voeren
Om op een correcte wijze te kunnen generaliseren van steekproef naar populatie, dient aan
een aantal assumpties voldaan te zijn. De gangbare statistische toetsing in de regressie-analyse
kan gevoelig zijn voor schending van een of meer van de hieronder vermelde assumpties.
Regressie-analyses uitvoeren zonder dat men zich om de voorwaarden bekommert, kan
gemakkelijk aanleiding geven tot moeilijk interpreteerbare resultaten. Het is daarom
verstandig de residuen zorgvuldig te analyseren om eventuele schendingen van de assumpties
op te sporen. We bespreken hieronder de assumpties en manieren om die te onderzoeken.
Assumptie 1: Lineariteit van de regressievergelijking
De regressievergelijking in de populatie is in werkelijkheid lineair (zie boven).
Controle op lineariteit en homoscedasticiteit
Maak m.b.v. <Plots> een plot van de gestandaardiseerde residuen (*ZRESID) op de Y-as
tegen de gestandaardiseerde voorspelde waarden (*ZPRED) op de X-as. Als aan de
assumpties van lineariteit en homoscedasticiteit is voldaan, zullen de punten in deze plot
volstrekt willekeurig verdeeld zijn. De aanwezigheid van een bepaald patroon is een
aanwijzing voor niet-lineaire regressie, voor heteroscedasticiteit of voor beide.
NB: Door het opnemen van kwadratische termen (en eventueel termen met een nog hogere
macht) kunnen sommige vormen van niet-lineaire regressie worden geanalyseerd. Met
behulp van COMPUTE opdrachten worden "nieuwe" variabelen X2, X
3, enz. gemaakt,
die vervolgens als onafhankelijke variabelen in de regressie-analyse worden
opgenomen.
Door geschikte transformaties is het soms mogelijk om verschillende vormen van niet-
lineariteit te "lineariseren". Bekend zijn logaritmische, reciproke en vierkantswortel-
transformaties.
Assumptie 2: Normaliteit, gemiddelde en variantie van de errortermen
Voor elke subgroep van onderzoekseenheden, gekenmerkt door een specifieke combinatie van
scores op de onafhankelijke variabelen X, is de verdeling van de -scores een normale
verdeling met gemiddelde 0 en constante variantie (homoscedasticiteit).
Het gemiddelde van de residuen in de steekproef (e) is altijd exact gelijk aan 0 als gevolg van
de schattingsprocedure.
Controle op normaliteit
Met behulp van <Plots> kan een histogram verkregen worden van de gestandaardiseerde
residuen door het betreffende hokje aan te kruisen. In het histogram is de theoretische normale
verdeling ingetekend. Sterke afwijkingen van de geobserveerde frequencies (kolommen) en
de theoretische normale verdeling zijn een aanwijzing voor non-normaliteit van de
errortermen, misspecificatie van het model (b.v. er zijn relevante onafhankelijke variabelen
vergeten) of heteroscedasticiteit.
Assumptie 3: Onafhankelijkheid van de errortermen
De waarden die aanneemt voor de diverse onderzoekseenheden zijn onafhankelijk van
elkaar. Een voorbeeld van duidelijk afhankelijke errortermen (dan is dus aan de voorwaarde
van onafhankelijkheid niet voldaan) wordt gevormd door zgn. repeated measurements
(herhaalde metingen bij dezelfde onderzoekseenheden). Dit is bijvoorbeeld bij tijdreeksen het
geval.
Assumptie 4: Onafhankelijkheid van error en onafhankelijke variabelen
De (hypothetische) toevalsfactor ( ) dient ongecorreleerd te zijn met de onafhankelijke
variabelen X. Of aan deze voorwaarde is voldaan, is in de praktijk moeilijk te beoordelen. De
steekproefcorrelatie tussen de onafhankelijke variabelen en de residuen is exact gelijk aan 0,
als gevolg van de schattingsprocedure. Deze correlatiecoëfficiënten zeggen niets over de
populatiewaarden ervan.
Localiseren van extreme waarden
Hoewel dit niets te maken heeft met de schending van de assumpties, kan voor de interpretatie
van een regressie-analyse het opsporen van extreem grote residuen van belang zijn. Het gaat
daarbij immers om slecht voorspelbare scores op de afhankelijke variabele. Na het commando
<Plots> kan het keuzehokje "Casewise plot" aangekruist worden. Kies daarna voor "Outliers
outside 3 std. deviations". In een tabel worden de cases vermeld waarvan het
gestandaardiseerde residu groter is dan 3 of kleiner dan -3. Zoals bekend zijn z-scores (onder
de assumptie van een normale verdeling) met een absolute waarde van 3 of meer uiterst
zeldzaam. Deze kun je beter uit je analyse laten door de waarde te definiëren als een missing
value of weg te halen.
Toetsen regressieparameters en regressiemodellen
Met behulp van de t-toetsen in de uitvoer van SPSS kan worden nagegaan of de betreffende
onafhankelijke variabele een significante extra bijdrage levert aan de verklaring van Y boven
op de bijdrage van alle overige onafhankelijke variabelen samen. Het komt echter regelmatig
voor dat er bij die overige onafhankelijke variabelen, variabelen voorkomen die zelf geen
significante bijdrage leveren aan de verklaring van Y. In een dergelijke situatie heeft een
individuele t-toets weinig waarde. De t-waarden en de bijbehorende overschrijdingskansen
zijn niet geschikt om de onafhankelijke variabelen te selecteren die een significante bijdrage
leveren aan de verklaring van de afhankelijke variabele.
Een belangrijke toets in de regressie-analyse is de zgn. modeltoets (F-toets voor proportie
verklaarde variantie). Hiermee wordt getoetst of het gehele regressiemodel een significante
proportie variantie verklaart. De toets kent de volgende nulhypothese: H0: R2=0 met H1:
R2>0. In de uitvoer van SPSS worden de resultaten van deze F-toets in de tabel ‘ANOVA’
weergegeven.
Een andere belangrijke toets is de F-toets voor modelvergelijking (niet te verwarren met de
vorige F-toets!). Met deze toets kan worden nagegaan of het toevoegen, resp. weglaten van
onafhankelijke variabelen leidt tot een significante verbetering, resp. verslechtering van het
regressiemodel.
Stel, in regressie-analyse 1 (met N onderzoekseenheden) zijn p onafhankelijke variabelen
opgenomen. Het kwadraat van de multipele correlatiecoëfficiënt wordt voorgesteld door R2
1.
In regressie-analyse 2 (met dezelfde N onderzoekseenheden) zijn dezelfde p onafhankelijke
variabelen opgenomen en bovendien nog q andere (nog niet gebruikte) onafhankelijke
variabelen. Het kwadraat van de multipele correlatiecoëfficiënt wordt nu voorgesteld door
R22. Uiteraard geldt dat R
22 R
21.
In SPSS kan de F-toets voor modelvergelijking worden uitgevoerd door te werken met
‘Blocks’. Specificeer eerst het ‘kleine’ regressiemodel. Door bij ‘Block 1 of 1’ op <Next> te
klikken, wordt een nieuw ‘Block’ gemaakt. Het is nu mogelijk om het ‘grote’ model te
specificeren. SPSS zal nu beide regressie-analyses (zowel voor het kleine als het grote
regressiemodel) in 1x uitvoeren. Via <Statistics> <R squared change> worden de gegevens
m.b.t. de F-toets voor modelvergelijking verkregen.
Dummy-variabelen
Nominale (en dus ook ordinale) variabelen kunnen heel goed als onafhankelijke variabelen in
een regressie-analyse worden opgenomen, mits zij getransformeerd zijn tot zgn. dummy-
variabelen. Een nominale variabele met k elkaar uitsluitende categorieën wordt met behulp
van COMPUTE en COMPUTE IF commando's omgezet in (k-1) dummy-variabelen.
Elke categorie kan worden herkend aan het unieke patronen van nullen en enen op de k-1
dummy-variabelen. Een categorie heeft een patroon van allemaal nullen; deze categorie wordt
de referentiecategorie genoemd. Je mag zelf bepalen welke categorie je kiest als
referentiecategorie.
Voorbeeld: kwalitatieve variabele met 3 categorieën (A,B,C) kun je met (3-1) dummies (D1
en D2 representeren.
Categorie D1 D2
A 1 0
B 0 1
C 0 0
Hier: categorie C is de referentiecategorie.
Stel dat de variabele VOOROPL bestaat uit drie categorieën, resp. L(ager), M(iddelbaar) en
H(oger) met bijbehorende scores 1, 2 en 3. De variabele VOOROPL is kwalitatief en wordt
dus niet zonder meer als onafhankelijke variabele in de regressie-analyse opgenomen. Eerst
worden (met behulp van 2 COMPUTE en 2 COMPUTE IF commando's) de volgende
datatransformaties uitgevoerd. We maken twee nieuwe variabelen: de variabele MO
(middelbare opleiding) en de variabele HO (hogere opleiding). MO heeft de waarde 0 als
VOOROPL=1 of 3 (d.w.z niet middelbaar) en de waarde 1 als VOOROPL=2 (d.w.z. middel-
baar). HO heeft de waarde 0 als VOOROPL=1 of 2 (d.w.z. niet hoger) en de waarde 1 als
VOOROPL=3 (d.w.z. hoger).
Merk op dat er geen variabele LO nodig is! MO en HO zijn zgn. dummy-variabelen. Zij
worden beide in de regressie-analyse opgenomen. Zij vertegenwoordigen resp. het extra
effect van de middelbare en hogere vooropleiding. Nogmaals: VOOROPL wordt niet als
onafhankelijke variabele opgenomen, MO en HO wel en er is geen dummy-variabele LO.
Lager opgeleiden vormen de referentiecategorie, te herkennen aan hun scorepatroon met
nullen op zowel MO als HO.
Het opnemen van dummy-variabelen in de regressie-analyse op de hierboven omschreven
manier heeft alleen zin als er geen sprake is van interacties. Anders geformuleerd: als
afzonderlijke regressie-analyses (bijvoorbeeld uitgevoerd na het commando SPLIT FILE)
voor de verschillende categorieën van de nominale onafhankelijke variabele (ongeveer)
dezelfde regressie-coëfficiënten b (slope) opleveren, maar verschillende a's (intercepts), is het
werken met dummy-variabelen gerechtvaardigd. Er is dan geen sprake van interactie. Als
echter blijkt dat de b's in de afzonderlijke regressie-analyses voor de verschillende categorieën
van de nominale onafhankelijke variabele duidelijk (significant) verschillend zijn, moeten niet
alleen dummy-variabelen worden opgenomen, maar ook product-variabelen (=interactie
tussen dummy en andere predictor). Door de toevoeging van product-variabelen wordt het
model meestal aanzienlijk gecompliceerder; nu kunnen de regressie-coëfficienten verschillen
voor de verschillende categorieën van de nominale variabele.
Selecteren predictoren
Bij het selecteren van predictoren wordt vaak ten onrechte gedachte dat meer predictoren
zullen leiden tot een betere voorspelling van de afhankelijke variabele. Dit is een onjuiste
veronderstelling. Meestal zal na het opnemen van 5 à 6 predictoren de verklaarde variantie
niet veel meer verbeteren. Verder is het van belang dat het aantal proefpersonen in een goede
verhouding staat tot het aantal variabelen dat wordt meegenomen in de regressievergelijking.
Stevens (1992) noemt als vuistregel dat in het algemeen minimaal 15 proefpersonen per
predictor nodig zijn voor betrouwbare schattingen van de regressievergelijkingen.
Let bij het selecteren van variabelen op de onderlinge samenhang tussen predictoren en de
samenhang tussen individuele predictoren en de afhankelijke variabele. Het beste is om
predictoren te selecteren die onderling laag correleren, maar die elk wel hoog correleren met
de afhankelijke variabele. Deze predictoren zullen ieder een uniek stukje variantie in Y
verklaren. Tevens wordt op deze manier multicollineariteit voorkomen; de situatie waarin de
geschatte regressiecoëfficiënten onbetrouwbaar zijn (dit uit zich in gestandaardiseerde
regressiecoëfficiënten groter dan 1 of kleiner dan –1). In geval van multicollineariteit kunnen
variabelen die onderling hoog correleren beter worden samengevoegd. Ook kan er voor
gekozen worden om slechts één van de twee hoog correlerende predictoren op te nemen in het
regressiemodel. Tot slot is het mogelijk, wanneer er veel predictoren zijn, om eerst een data-
reductie toe te passen (principale componenten analyse) en de verkregen componenten op te
nemen als predictoren in het regressiemodel.
Inspectie van de correlatiematrix waarin alle correlaties tussen predictoren onderling en
correlaties tussen de predictoren en de afhankelijke variabele zijn opgenomen geeft een
indicatie of het verstandig is variabelen samen te voegen, niet in de analyse op te nemen of
datareductie toe te passen. SPSS heeft verder onder de optie <Statistics> binnen <Linear
Regression> de optie <Collinearity Diagnostics>. De zogenaamde ‘Tolerance’ en ‘VIF’=
Variance Inflation Factor, zijn daarbij indicatoren voor multicollineariteit. Meer informatie
over deze diagnostics staat in de Help-functie van SPSS wanneer je zoekt naar de term
‘collinearity’.