Statistiek voor Historici

19
Statistiek voor Historici Hulpvak GB2HVST / G2HV09A Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen Dr. L.J. Touwen College 7 College 7

description

Statistiek voor Historici. Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen College 7. Zevende college:. Trendlijnen aanbrengen in Excel-grafiek Voorbeeld Hudson pagina 133 Associatie en correlatie NB Volgende week géén college NB Powerpoints staan online bij ‘theorie’. Drs: 2,9 ects - PowerPoint PPT Presentation

Transcript of Statistiek voor Historici

Page 1: Statistiek voor Historici

Statistiek voor Historici

Hulpvak GB2HVST / G2HV09AHulpvak GB2HVST / G2HV09A

Dr. L.J. TouwenDr. L.J. Touwen

College 7College 7

Page 2: Statistiek voor Historici

Zevende college:

Trendlijnen aanbrengen in Excel-grafiekTrendlijnen aanbrengen in Excel-grafiek Voorbeeld Hudson pagina 133Voorbeeld Hudson pagina 133

Associatie en correlatieAssociatie en correlatie

NB Volgende week géén collegeNB Volgende week géén college NB Powerpoints staan online bij ‘theorie’NB Powerpoints staan online bij ‘theorie’

Page 3: Statistiek voor Historici

Voor doctoraalstudenten geldt: Hoofdstuk 7 vervaltHoofdstuk 7 vervalt

Eén tentamenvraag minderEén tentamenvraag minder

óf:óf: 1,1 ects in de vrije keuzeruimte1,1 ects in de vrije keuzeruimte

Drs: 2,9 ects

BA: 4 ects

Page 4: Statistiek voor Historici

Excel: trendlijnen

Met de rechtermuisknop op de data-series Met de rechtermuisknop op de data-series in de grafiek gaan staan – ‘Add trendline’in de grafiek gaan staan – ‘Add trendline’

Lineair, niet-lineair (exponentieel, Lineair, niet-lineair (exponentieel, logaritmisch, polynoom, moving average, logaritmisch, polynoom, moving average, etc)etc)

Options: ‘display equation on chart’Options: ‘display equation on chart’ Let op: moving average wordt niet juist Let op: moving average wordt niet juist

geplot door Excel.geplot door Excel.

Page 5: Statistiek voor Historici

Associatie en correlatie

Is er samenhang tussen twee reeksen Is er samenhang tussen twee reeksen variabelen? Beïnvloeden zij elkaar of staan variabelen? Beïnvloeden zij elkaar of staan zij allebei onder invloed van een derde zij allebei onder invloed van een derde variabele?variabele?

De waarde van de ‘afhankelijke variabele’ De waarde van de ‘afhankelijke variabele’ wordt veroorzaakt door een ‘onafhankelijke wordt veroorzaakt door een ‘onafhankelijke variabele’variabele’

Page 6: Statistiek voor Historici

Associatie en correlatie

Het bestaan van het verband moet op kwalitatieve gronden worden beargumenteerd.

Only if we can think of sound reasons why there might be a relationship between two or more variables should we indulge in the statistical identification and measurement of that relationship. (Hudson p. 138)

Page 7: Statistiek voor Historici
Page 8: Statistiek voor Historici

Associatie

Bij nominale en ordinale data spreken wij Bij nominale en ordinale data spreken wij van van associatieassociatie (geeft aan óf er een causaal (geeft aan óf er een causaal verband is). Hier gebruiken weverband is). Hier gebruiken we

1.1. Chi-kwadraat Chi-kwadraat of de of de contingentie contingentie coëfficiëntcoëfficiënt

2.2. Rangorde-correlatie-coëfficiënt van Rangorde-correlatie-coëfficiënt van SpearmanSpearman

Page 9: Statistiek voor Historici

Correlatie

Bij interval- en ratio-data kunnen we Bij interval- en ratio-data kunnen we tevens onderzoeken tevens onderzoeken hoe groothoe groot de de samenhang is, dit noemen we samenhang is, dit noemen we correlatiecorrelatie. .

Voor correlatie Voor correlatie

1.1. correlatie-coëfficiënt (Pearson correlatie-correlatie-coëfficiënt (Pearson correlatie-coëfficiënt)coëfficiënt)

2.2. Het Het regressiemodelregressiemodel brengt het gevonden verband brengt het gevonden verband in kaart.in kaart.

Page 10: Statistiek voor Historici

Associatie

Chi-kwadraat(a) Berekenen: som van (O-E)2/E voor elke cel(b) Interpreteren: kans dat het verband niet toevallig is.

- drempelwaarde hangt af van de dimensies van de tabel- staan de uitkomsten in 2 x 2 tabel (aantal vrijheidsgraden=1): drempelwaarde is 6,6 bij 99% betrouwbaarheid- dit kun je opzoeken in een tabel

Excel: functie ChiInv(kans; df)

Page 11: Statistiek voor Historici

Kritische waarden Chi-kwadraatDegrees of FreedomDegrees of Freedom

(n-1)*(k-1)(n-1)*(k-1)

Betrouwbaarheid 99% Betrouwbaarheid 99% (kans 0,01)(kans 0,01)

Betrouwbaarheid 95% Betrouwbaarheid 95% (kans 0,05)(kans 0,05)

11 6,6 [CHIINV(0,01;1)]6,6 [CHIINV(0,01;1)] 3,83,8

22 9,29,2 6,06,0

33 11,311,3 7,87,8

44 13,113,1 9,59,5

Page 12: Statistiek voor Historici

Associatie

SPEARMAN rangorde correlatie coëff. SPEARMAN rangorde correlatie coëff. Waarde tussen –1 en 1Waarde tussen –1 en 1 Geeft aan of de geobserveerde samenhang in de Geeft aan of de geobserveerde samenhang in de

rangordes van twee variabelen statistisch rangordes van twee variabelen statistisch significant is (dwz significant is (dwz waarschijnlijk waarschijnlijk niet door het niet door het toeval komt)toeval komt)

Excel: functies RANK (..) en PEARSON(..)Excel: functies RANK (..) en PEARSON(..)

Page 13: Statistiek voor Historici

Correlatie

Pearson correlatie-coëfficiëntPearson correlatie-coëfficiënt

0 < R < 1 positief verband bij R > ca. 0,70 < R < 1 positief verband bij R > ca. 0,7 -1 < R < 0 negatief verband bij R < ca. –0,7-1 < R < 0 negatief verband bij R < ca. –0,7 NB afh/onafh niet te zien(!)NB afh/onafh niet te zien(!)

PEARSON(array1; array2)PEARSON(array1; array2) PEARSON(B3:B13; A3:A13)PEARSON(B3:B13; A3:A13)

Page 14: Statistiek voor Historici

Correlatie

Determinatie coëfficiënt = R2 (Coëfficiënt of determination) geeft ‘percentage verklaard’ aan

grenswaarde 0,5 (0,7^2=0,49)

kwadraat van Pearson cor.coëff. RSQ(B3:B13;A3:A13)

Page 15: Statistiek voor Historici

Regressie

De regressie-lijn is de best-passende lijn De regressie-lijn is de best-passende lijn door een puntenwolk.door een puntenwolk.((scatter diagramscatter diagram))

Punten in beeld brengen in een X-Y grafiekPunten in beeld brengen in een X-Y grafiek

Page 16: Statistiek voor Historici

REGRESSIELIJN DOOR PUNTENWOLK

y = 0,9176x + 9,7

0

5

10

15

20

25

30

35

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

De puntenwolk geeft de spreiding weer. Deze grafiek is geen tijdreeks, maar een X-Y-grafiek met de waarden van de ene variabele (A) op de X-as en van de andere variabele (B) op de Y-as.

Regressielijn

Page 17: Statistiek voor Historici

Andere aandachtspunten:

‘Lagged results’ Autocorrelatie Multicollineariteit Non-random error

Page 18: Statistiek voor Historici

Excel functies Correl (..), Pearson (..), RSQ(..), RANK(..)Correl (..), Pearson (..), RSQ(..), RANK(..)

Let op: voor het berekenen van Let op: voor het berekenen van trendlijnentrendlijnen(bij tijdreeksanalyse, een lineaire trendlijn wordt net (bij tijdreeksanalyse, een lineaire trendlijn wordt net

zo berekend als een regressielijn):zo berekend als een regressielijn):Trend(..) : levert trendwaarden op Trend(..) : levert trendwaarden op NB dit is een array-functie!NB dit is een array-functie!Lineest (..), slope (..), intercept(..)Lineest (..), slope (..), intercept(..)leveren de parameters van de trendlijn opleveren de parameters van de trendlijn op

Page 19: Statistiek voor Historici

Volgende week geen college