Beschrijvende en inferentiële statistiek College 9 – Anouk den Hamer – Hoofdstuk 12 (12.5 geen...

download Beschrijvende en inferentiële statistiek College 9 – Anouk den Hamer – Hoofdstuk 12 (12.5 geen tentamenstof) 1.

of 79

  • date post

    12-May-2015
  • Category

    Documents

  • view

    215
  • download

    0

Embed Size (px)

Transcript of Beschrijvende en inferentiële statistiek College 9 – Anouk den Hamer – Hoofdstuk 12 (12.5 geen...

  • Dia 1
  • Beschrijvende en inferentile statistiek College 9 Anouk den Hamer Hoofdstuk 12 (12.5 geen tentamenstof) 1
  • Dia 2
  • Vandaag Uitwerking oude tentamenopgaven Overzicht toetsen Regressie R 2
  • Dia 3
  • 3
  • Dia 4
  • 4
  • Dia 5
  • 5 Totaal Observed302570125 Expected502550 (obs-exp)^2 / exp808 Observed702530125 Expected502550 (obs-exp)^2 / exp808 Totaal10050100250
  • Dia 6
  • 6
  • Dia 7
  • 7
  • Dia 8
  • 8
  • Dia 9
  • 9
  • Dia 10
  • Wanneer gebruik je welke toets? 10
  • Dia 11
  • Wanneer je een specifieke waarde verwacht voor de nulhypothese: Bij een proportie: Binomial Test. Hoe in SPSS? Analyze Nonparametric Tests Legacy Dialogs Binomial. Variabele naar test variabele list slepen test proportion invullen bij options descriptives aanvinken. Bij een gemiddelde: One Sample T test. Hoe in SPSS? Analyze Compare Means One Sample T test. Variabele naar test variabele slepen test value invullen bij options hoef je niks te veranderen. 11
  • Dia 12
  • Wanneer je twee groepen wilt vergelijken: Onafhankelijke groepen: Independent T-test. Hoe in SPSS? Analyze Compare Means Independent T-test. De variabele die uit de 2 groepen bestaat is je grouping variable. Vul bij define groups de waarden van deze groepen in (vaak 1 en 2). De afhankelijke variabele komt in test variabele. Afhankelijke groepen: Dependent T-test. Hoe in SPSS? Analyze Compare Means Paired Samples T-test. Dubbelklik op de variabele van de voormeting en dubbelklik daarbij op de variabele van de nameting. 12
  • Dia 13
  • Wanneer je categorische variabelen wilt vergelijken: Chi-square: Analyze Descriptive Statistics Crosstabs. Variabele in row en variabele in colom (maakt niet uit welke waar). Bij statistics chi-square aanvinken. Bij cells observed, expected en adjusted standardized aanvinken. 13
  • Dia 14
  • Wanneer je wilt weten wat de invloed van een of meer continue onafhankelijke variabelen op een continue afhankelijke variabele is: Enkelvoudige regressie: Analyze > Regression > Lineair. Dependent is Y en Independent X. Meervoudige regressie: Analyze > Regression > Lineair. Dependent is Y en bij Independent kun je alle X-en invullen. 14
  • Dia 15
  • Wanneer je wilt weten of een schaal in je vragenlijst betrouwbaar is: Betrouwbaarheidsanalyse: Analyze > Scale > Reliability analysis. Alle items in itemsbox zetten. Bij statistics aanvinken: onder descriptives for item, scale en scale if item deleted, en onder summaries correlations. Ok. 15
  • Dia 16
  • Bestand te vinden op BB (Course Documents). 16
  • Dia 17
  • Tabellen Tabel A: z-verdeling met z-scores en p-waardes Tabel B: t-verdeling met dfs en kritieke t-waardes Tabel C: chi-square verdeling met dfs en kritieke chi-square waardes Tabel B: Ervan uitgaande dat je toetst bij een significantieniveau van.05: Bij een eenzijdige toets ga je op zoek naar de kritieke t- waarde bij t.05 (want 5% verdeeld over n staart) Bij een tweezijdige toets ga je op zoek naar de kritieke t- waarde bij t.025 (want 5% verdeeld over twee staarten) 17
  • Dia 18
  • Tot nu toe: X is categorisch: z-toets, t-toetsen, chi-sqaure toets Vandaag: X is continu (of kwantitatief) en Y is continu: regressie XY 18
  • Dia 19
  • Regressie Met regressie ga je proberen een waarde van Y te voorspellen aan de hand van X Bij regressie zijn X en Y beide kwantitatief! Enkelvoudige regressie: 1 X en 1 Y Meervoudige regressie: meerdere X-en en 1 Y Voorbeeld enkelvoudige regressie: je wilt weten of percentage single parents in een stad (X) verband houdt met de violent crime rate (Y) 19
  • Dia 20
  • Scatterplot 20
  • Dia 21
  • Regressie 1) Je wilt Y dmv X kunnen voorspellen met een formule. 2) Je probeert Y zo goed mogelijk te voorspellen, maar je kunt niet vermijden dat je Y niet helemaal precies voorspelt. 3) We hebben het wederom over de associatie tussen variabelen. 4) De sterkte van de associatie tussen X en Y wordt uitgedrukt door de correlatie. 5) Naast de sterkte van de associatie wil je weten hoe goed X Y voorspelt (met de R-square). 6) We willen weten of onze X een significante invloed heeft op Y. 21
  • Dia 22
  • Regressie 1) Je wilt Y dmv X kunnen voorspellen met een formule. 22
  • Dia 23
  • Regressieformule Formule: a is het intercept en b de slope Intercept (a of ): de waarde van Y als X 0 is Slope (b of ): de helling van de lijn. Dus de hoeveelheid Y die erbij komt als X n waarde omhoog gaat Bij een positieve b is er een positief verband en bij een negatieve b is er een negatief verband 23
  • Dia 24
  • Wat is het intercept? En wat is de slope? Intercept: bij X = 0, Y = 0. Het intercept is dus 0 Slope: bij X = 8 stijgt Y met 1000 (van 0 naar 1000). 1000/8 is 125. De slope is dus 125 24
  • Dia 25
  • Invullen in formule De formule: Dus: Y-hat = 0 + 125x, oftewel gewoon 125x Stel dat een stad een single parent percentage van 10 heeft, hoe hoog is de crime rate dan? 0 + 125*10 = 1250 25
  • Dia 26
  • Intercept verandert 26 : intercept Als verandert terwijl b constant blijft resulteert dat in parallelle lijnen.
  • Dia 27
  • Slope verandert 27 b: slope. Als b verandert terwijl constant blijft resulteert dat in geroteerde lijnen.
  • Dia 28
  • Regressie 2) Je probeert Y zo goed mogelijk te voorspellen, maar je kunt niet vermijden dat je Y niet helemaal precies voorspelt. 28
  • Dia 29
  • Residuals Probeert zo goed mogelijk te schatting hoe de lijn loopt Je hebt echter altijd predictions errors,ofwel residuals: de verticale afstand tussen een observatie en de lijn, het verschil tussen de y die je voorspelt met je formule en de geobserveerde y 29
  • Dia 30
  • Regressielijn en residuals Regressielijn met zo klein mogelijke residuals: least squares line Least squares line: lijn met de kleinste sum of squared residuals: sum of squared residuals = dus de som van de gekwadrateerde residuals Waarom geen least residuals line, maar least squares line? Als je de residuals niet kwadrateert, dan vallen de positieve residuals weg tegen de negatieve residuals. (-3 + 3 = 0, terwijl -3 2 + 3 2 = 18) 30
  • Dia 31
  • Model De regressielijn of de formule wordt ook wel een model genoemd Het model kan Y niet exact voorspellen, maar is een benadering van de relatie tussen X en Y 31
  • Dia 32
  • Regressie 3) We hebben het wederom over de associatie tussen variabelen. 32
  • Dia 33
  • Associatie De slope (de b) geeft aan of de associatie positief of negatief is De correlatie geeft de sterkte van de associatie 33
  • Dia 34
  • Regressie 4) De sterkte van de associatie tussen X en Y wordt dus uitgedrukt door de correlatie. 34
  • Dia 35
  • Regressie 5) Naast de sterkte van de associatie wil je weten hoe goed X Y voorspelt (met de R- square). 35
  • Dia 36
  • R-square De correlatie geeft aan hoe sterk het verband is en de R- square geeft aan in hoeverre X in staat is Y te voorspellen. Waarom wil je dat weten? Stel dat de R-square heel laag is, dan weet je dat je ook met andere variabelen rekening moet houden wil je Y goed kunnen voorspellen. 36
  • Dia 37
  • Zo meteen de formule voor de R-square 37
  • Dia 38
  • We zagen net least squares line 38
  • Dia 39
  • RSS = alle groene streepjes kwadrateren en bij elkaar optellen RSS = residual sum of squares Regressielijn met de voorspelde y 39
  • Dia 40
  • Je wilt weten hoeveel de voorspelde ys afwijken van de geobserveerde ys (RSS) En je wilt kunnen verklaren waarom er observaties zijn die afwijken van het gemiddelde van y 40
  • Dia 41
  • TSS = alle groene streepjes kwadrateren en bij elkaar optellen TSS = total sum of squares Gemiddelde y 41
  • Dia 42
  • Nodig voor de formule van de R-square 42
  • Dia 43
  • Formule R R = (TSS - RSS)/TSS TSS (total sum of sqaures): hoeveel de geobserveerde ys afwijken van het gemiddelde van y ( ) RSS (residual sum of squares): hoeveel de geobserveerde ys afwijken van de voorspelde y ( ) MSS (model sum of squares): TSS-RSS, dus de variantie verklaard door het model 43
  • Dia 44
  • Met de R wil je weten hoeveel beter de regressielijn (waarbij je rekening houdt met X) Y voorspelt dan wanneer je alleen de gemiddeldelijn van Y had gebruikt. M.a.w.: je wilt weten hoeveel variantie van Y verklaard wordt door X. Stel dat een R 0.40 is, dan is de error als je de voorspelde Y gebruikt (met X in de formule) 40% kleiner dan de error als je de gemiddelde y gebruikt (dus zonder X). Dus 40% van de variantie in Y wordt voorspeld door X 44
  • Dia 45
  • Theoretisch geeft de R de reductie in error als je de regressielijn gebruikt ipv de gemiddeldelijn. Praktisch geeft de R aan hoeveel variantie van Y verklaard wordt door X. 45
  • Dia 46
  • Eigenschappen R R ligt tussen 0 en 1 Hoe dichter bij 1, hoe sterker de a