Inleiding in de statistiek voor de gedragswetenschappen. Met ondersteuning van SPSs
Statistiek voor Historici
description
Transcript of Statistiek voor Historici
Statistiek voor Historici
Hulpvak GB2HVST / G2HV09AHulpvak GB2HVST / G2HV09A
Dr. L.J. TouwenDr. L.J. Touwen
College 7College 7
Zevende college:
Trendlijnen aanbrengen in Excel-grafiekTrendlijnen aanbrengen in Excel-grafiek Voorbeeld Hudson pagina 133Voorbeeld Hudson pagina 133
Associatie en correlatieAssociatie en correlatie
NB Volgende week géén collegeNB Volgende week géén college NB Powerpoints staan online bij ‘theorie’NB Powerpoints staan online bij ‘theorie’
Voor doctoraalstudenten geldt: Hoofdstuk 7 vervaltHoofdstuk 7 vervalt
Eén tentamenvraag minderEén tentamenvraag minder
óf:óf: 1,1 ects in de vrije keuzeruimte1,1 ects in de vrije keuzeruimte
Drs: 2,9 ects
BA: 4 ects
Excel: trendlijnen
Met de rechtermuisknop op de data-series Met de rechtermuisknop op de data-series in de grafiek gaan staan – ‘Add trendline’in de grafiek gaan staan – ‘Add trendline’
Lineair, niet-lineair (exponentieel, Lineair, niet-lineair (exponentieel, logaritmisch, polynoom, moving average, logaritmisch, polynoom, moving average, etc)etc)
Options: ‘display equation on chart’Options: ‘display equation on chart’ Let op: moving average wordt niet juist Let op: moving average wordt niet juist
geplot door Excel.geplot door Excel.
Associatie en correlatie
Is er samenhang tussen twee reeksen Is er samenhang tussen twee reeksen variabelen? Beïnvloeden zij elkaar of staan variabelen? Beïnvloeden zij elkaar of staan zij allebei onder invloed van een derde zij allebei onder invloed van een derde variabele?variabele?
De waarde van de ‘afhankelijke variabele’ De waarde van de ‘afhankelijke variabele’ wordt veroorzaakt door een ‘onafhankelijke wordt veroorzaakt door een ‘onafhankelijke variabele’variabele’
Associatie en correlatie
Het bestaan van het verband moet op kwalitatieve gronden worden beargumenteerd.
Only if we can think of sound reasons why there might be a relationship between two or more variables should we indulge in the statistical identification and measurement of that relationship. (Hudson p. 138)
Associatie
Bij nominale en ordinale data spreken wij Bij nominale en ordinale data spreken wij van van associatieassociatie (geeft aan óf er een causaal (geeft aan óf er een causaal verband is). Hier gebruiken weverband is). Hier gebruiken we
1.1. Chi-kwadraat Chi-kwadraat of de of de contingentie contingentie coëfficiëntcoëfficiënt
2.2. Rangorde-correlatie-coëfficiënt van Rangorde-correlatie-coëfficiënt van SpearmanSpearman
Correlatie
Bij interval- en ratio-data kunnen we Bij interval- en ratio-data kunnen we tevens onderzoeken tevens onderzoeken hoe groothoe groot de de samenhang is, dit noemen we samenhang is, dit noemen we correlatiecorrelatie. .
Voor correlatie Voor correlatie
1.1. correlatie-coëfficiënt (Pearson correlatie-correlatie-coëfficiënt (Pearson correlatie-coëfficiënt)coëfficiënt)
2.2. Het Het regressiemodelregressiemodel brengt het gevonden verband brengt het gevonden verband in kaart.in kaart.
Associatie
Chi-kwadraat(a) Berekenen: som van (O-E)2/E voor elke cel(b) Interpreteren: kans dat het verband niet toevallig is.
- drempelwaarde hangt af van de dimensies van de tabel- staan de uitkomsten in 2 x 2 tabel (aantal vrijheidsgraden=1): drempelwaarde is 6,6 bij 99% betrouwbaarheid- dit kun je opzoeken in een tabel
Excel: functie ChiInv(kans; df)
Kritische waarden Chi-kwadraatDegrees of FreedomDegrees of Freedom
(n-1)*(k-1)(n-1)*(k-1)
Betrouwbaarheid 99% Betrouwbaarheid 99% (kans 0,01)(kans 0,01)
Betrouwbaarheid 95% Betrouwbaarheid 95% (kans 0,05)(kans 0,05)
11 6,6 [CHIINV(0,01;1)]6,6 [CHIINV(0,01;1)] 3,83,8
22 9,29,2 6,06,0
33 11,311,3 7,87,8
44 13,113,1 9,59,5
Associatie
SPEARMAN rangorde correlatie coëff. SPEARMAN rangorde correlatie coëff. Waarde tussen –1 en 1Waarde tussen –1 en 1 Geeft aan of de geobserveerde samenhang in de Geeft aan of de geobserveerde samenhang in de
rangordes van twee variabelen statistisch rangordes van twee variabelen statistisch significant is (dwz significant is (dwz waarschijnlijk waarschijnlijk niet door het niet door het toeval komt)toeval komt)
Excel: functies RANK (..) en PEARSON(..)Excel: functies RANK (..) en PEARSON(..)
Correlatie
Pearson correlatie-coëfficiëntPearson correlatie-coëfficiënt
0 < R < 1 positief verband bij R > ca. 0,70 < R < 1 positief verband bij R > ca. 0,7 -1 < R < 0 negatief verband bij R < ca. –0,7-1 < R < 0 negatief verband bij R < ca. –0,7 NB afh/onafh niet te zien(!)NB afh/onafh niet te zien(!)
PEARSON(array1; array2)PEARSON(array1; array2) PEARSON(B3:B13; A3:A13)PEARSON(B3:B13; A3:A13)
Correlatie
Determinatie coëfficiënt = R2 (Coëfficiënt of determination) geeft ‘percentage verklaard’ aan
grenswaarde 0,5 (0,7^2=0,49)
kwadraat van Pearson cor.coëff. RSQ(B3:B13;A3:A13)
Regressie
De regressie-lijn is de best-passende lijn De regressie-lijn is de best-passende lijn door een puntenwolk.door een puntenwolk.((scatter diagramscatter diagram))
Punten in beeld brengen in een X-Y grafiekPunten in beeld brengen in een X-Y grafiek
REGRESSIELIJN DOOR PUNTENWOLK
y = 0,9176x + 9,7
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
De puntenwolk geeft de spreiding weer. Deze grafiek is geen tijdreeks, maar een X-Y-grafiek met de waarden van de ene variabele (A) op de X-as en van de andere variabele (B) op de Y-as.
Regressielijn
Andere aandachtspunten:
‘Lagged results’ Autocorrelatie Multicollineariteit Non-random error
Excel functies Correl (..), Pearson (..), RSQ(..), RANK(..)Correl (..), Pearson (..), RSQ(..), RANK(..)
Let op: voor het berekenen van Let op: voor het berekenen van trendlijnentrendlijnen(bij tijdreeksanalyse, een lineaire trendlijn wordt net (bij tijdreeksanalyse, een lineaire trendlijn wordt net
zo berekend als een regressielijn):zo berekend als een regressielijn):Trend(..) : levert trendwaarden op Trend(..) : levert trendwaarden op NB dit is een array-functie!NB dit is een array-functie!Lineest (..), slope (..), intercept(..)Lineest (..), slope (..), intercept(..)leveren de parameters van de trendlijn opleveren de parameters van de trendlijn op
Volgende week geen college