R Statistiek II 2016-2017 - VPPK · 10 10 qbinom: het omgekeerde van qbinom P(X B(n, ) ≤ q) = p...

19
R Statistiek II – 2016-2017 Inhoudstafel BASIS ........................................................................................................................................................ 3 Centrummaten – p. 19 ........................................................................................................................ 4 R EN DE MEETNIVEAUS – P. 11 ................................................................................................................ 4 ORDENINGSTECHNIEKEN – P. 16 ............................................................................................................. 4 GRAFISCHE VOORSTELLINGEN – P. 17 ..................................................................................................... 5 SPREIDINGSMATEN – P. 21...................................................................................................................... 7 ASSOCIATIEMATEN – P. 24 ...................................................................................................................... 7 DE BIJZONDERE KANSVERDELINGEN ....................................................................................................... 7 1. De binomiale verdeling – p. 55 .................................................................................................... 7 2. De normale verdeling – p. 57 ...................................................................................................... 8 3. De χ²-verdeling – p. 59 ................................................................................................................ 8 4. De Student verdeling of t-verdeling – p. 61................................................................................. 8 5. De F-verdeling – p. 62 .................................................................................................................. 9 PUNTSCHATTINGEN – P. 74 ..................................................................................................................... 9 TOETSEN VAN HYPOTHESES .................................................................................................................... 9 Toetsen van hypothese betreffende een verwachting – p. 97 ........................................................... 9 Toetsen van hypothese betreffende twee verwachtingen – p. 98 ................................................... 10 Onafhankelijke steekproeven........................................................................................................ 10 Afhankelijke steekproeven – p. 102 .............................................................................................. 10 Hypothese toetsen betreffende twee varianties – p. 104 ................................................................ 11 Hypothese toetsen betreffende een proportie - p. 107................................................................. 11 Het toetsen van de normaliteit – p. 108 ............................................................................................... 12 POWER – P. 117 ..................................................................................................................................... 12 Power bij het toetsen van een hypothese betreffende een proportie – p. 117 ............................... 12 Power bij het toetsen van een hypothese betreffende een verwachting – p. 123 ........................... 13 Power bij het toetsen van een hypothese betreffende twee verwachtingen – afhankelijke steekproeven – p. 126 ....................................................................................................................... 13 Power bij het toetsen van een hypothese betreffende twee verwachtingen – onafhankelijke steekproeven – p. 128 ....................................................................................................................... 13 Power van de toets van 0: 1= 0 – p. 157 ...................................................................................... 14

Transcript of R Statistiek II 2016-2017 - VPPK · 10 10 qbinom: het omgekeerde van qbinom P(X B(n, ) ≤ q) = p...

  • R Statistiek II – 2016-2017

    Inhoudstafel

    BASIS ........................................................................................................................................................ 3

    Centrummaten – p. 19 ........................................................................................................................ 4

    R EN DE MEETNIVEAUS – P. 11 ................................................................................................................ 4

    ORDENINGSTECHNIEKEN – P. 16 ............................................................................................................. 4

    GRAFISCHE VOORSTELLINGEN – P. 17 ..................................................................................................... 5

    SPREIDINGSMATEN – P. 21 ...................................................................................................................... 7

    ASSOCIATIEMATEN – P. 24 ...................................................................................................................... 7

    DE BIJZONDERE KANSVERDELINGEN ....................................................................................................... 7

    1. De binomiale verdeling – p. 55 .................................................................................................... 7

    2. De normale verdeling – p. 57 ...................................................................................................... 8

    3. De χ²-verdeling – p. 59 ................................................................................................................ 8

    4. De Student verdeling of t-verdeling – p. 61 ................................................................................. 8

    5. De F-verdeling – p. 62 .................................................................................................................. 9

    PUNTSCHATTINGEN – P. 74 ..................................................................................................................... 9

    TOETSEN VAN HYPOTHESES .................................................................................................................... 9

    Toetsen van hypothese betreffende een verwachting – p. 97 ........................................................... 9

    Toetsen van hypothese betreffende twee verwachtingen – p. 98 ................................................... 10

    Onafhankelijke steekproeven ........................................................................................................ 10

    Afhankelijke steekproeven – p. 102 .............................................................................................. 10

    Hypothese toetsen betreffende twee varianties – p. 104 ................................................................ 11

    Hypothese toetsen betreffende een proportie - p. 107 ................................................................. 11

    Het toetsen van de normaliteit – p. 108 ............................................................................................... 12

    POWER – P. 117 ..................................................................................................................................... 12

    Power bij het toetsen van een hypothese betreffende een proportie – p. 117 ............................... 12

    Power bij het toetsen van een hypothese betreffende een verwachting – p. 123 ........................... 13

    Power bij het toetsen van een hypothese betreffende twee verwachtingen – afhankelijke

    steekproeven – p. 126 ....................................................................................................................... 13

    Power bij het toetsen van een hypothese betreffende twee verwachtingen – onafhankelijke

    steekproeven – p. 128 ....................................................................................................................... 13

    Power van de toets van 𝐻0: 𝛽1= 0 – p. 157 ...................................................................................... 14

  • _

    2

    Om de power van een ANOVA test te berekenen – p. 183 ............................................................... 14

    DE FUNCTIE lm – P. 146 ........................................................................................................................ 15

    De R functie summary - p. 155 .................................................................................................... 16

    Meervoudige lineaire regressie – p. 160 ........................................................................................... 16

    DE FUNCTIE aggregate – P. 169 ....................................................................................................... 17

    DE FUNCTIE aov – P.181 ....................................................................................................................... 17

    Summary(myAOV) – p. 182 ............................................................................................................ 17

    POST HOC MEERVOUDIGE VERGELIJKINGEN – P. 186 .......................................................................... 18

    ENKELVOUDIGE VARIANTIE-ANALYSE ALS EEN LINEAIR MODEL – P. 194 ............................................. 18

    PEARSON’S CHI-SQUARED TEST – P. 203 ............................................................................................... 19

    EFFECTGROOTTE W – P. 206 ................................................................................................................. 19

  • _

    3

    BASIS Vector aanmaken: naamvector myData myData

    score

    iq

    motivatie

    geslacht

    roken

    opleiding

    gewicht

    lengte

    1 16 127 4 V Neen psy 69 158

    2 10 125 2 V Neen psy 64 170

    … … … … … … …

    29 16 139 2 M Neen ped 61 182 30 18 122 6 M Neen psy 69 158

    Specifieke kolom (variabele) aanhalen: $ > myData$gewicht

    [1] 69 64 96 76 78 75 74 51 80 76 88 73 83 86 73 67 53

    [20] 67 48 59 46 59 80 104 53 82 61 69

    Geslacht van de n-de persoon opvragen: [n] > myData$geslacht [10]

    [1] M

    Levels: M V

    Grootte van het data frame opvragen: dim

    30 staat voor steekproefgrootte en 8 staat voor aantal variabelen. > dim(myData)

    [1] 30 8

    Sommatie: sum

    Vierkantswortel trekken: sqrt

    Om een getal af te ronden: round

    > pi [1] 3,141593

    > round(pi, 4) [1] 3,1416

    Voorwaarde geven: ==

    Bv. Vector aanmaken met lengte van de mannen > lengteM length(lengteM)

    [1] 94

    Eerste zes regels van het data frame opvragen: head > head(myData)

    score iq motivatie geslacht roken opleiding gewicht lengte 1 16 127 4 V Neen psy 69 158

    2 10 125 2 V Neen psy 64 170

    3 11 138 1 V Neen psy 96 180

    4 14 104 6 M Neen psy 76 156

    5 8 118 5 M Ja psy 78 176

    6 18 132 5 V Neen

    ped 75 174

  • _

    4

    Centrummaten – p. 19 Gemiddelde: mean

    > mean(c(12, 13, 15, 7, 2, 200, 19, 15, 14, 16, 19)) [1] 30.18182

    Mediaan: median > median(c(10, 15, 13, 17))

    [1] 14

    Modus: met table > table(myData$geslacht)

    M V

    14 16 “V” is de modus

    R EN DE MEETNIVEAUS – P. 11 Zeggen dat de getallen als niet-numeriek beschouwd moeten worden: factor

    > Tramnummer uitslag uitslag

    [1] brons zilver goud zilver

    Levels: brons < zilver < goud

    Om niet-numerieke data om te zetten naar numerieke niveaus: as.numeric > as.numeric(uitslag)

    [1] 1 2 3 2

    ORDENINGSTECHNIEKEN – P. 16 Frequentieverdeling: table

    > table(bloeddruk$dosis)

    1 2 3 4 5 = de verschillende levels in de vector

    18 19 21 21 21 = de frequentie van elk level

    Relatieve frequentieverdeling: prop.table > prop.table(table(myData$opleiding))

    ped psy soc

    0.33333333 0.60000000 0.06666667

    Bivariate frequentieverdeling: table

    > table( myData$geslacht, myData$opleiding)

    ped psy soc

    M 7 7 0

    V 3 11 2

  • _

    5

    GRAFISCHE VOORSTELLINGEN – P. 17 Taartdiagram: pie

    > pie(x = c(10, 18, 2), labels = c(“ped”, “psy”, “soc”))

    of

    > pie(table(myData$opleiding))

    Lijndiagram of staafdiagram: barplot

    > barplot(table(myData$motivatie))

    Histogram: hist

    > hist(x = myData$gewicht)

    Zelf aantal klassen bepalen van histogram: breaks

    > hist(x = myData$gewicht, breaks = 4)

    Spreidingsdiagram: plot

    > plot(x = myData$gewicht, y = myData$lengte)

  • _

    Zelf de lengte van de assen bepalen: xlim en ylim > plot(x = myData$gewicht, y = myData$lengte, xlim = c(0,100), ylim

    =c(100, 200))

    Boxplot: boxplot > boxplot(myData$iq)

    of

    > boxplot(myData)

  • _

    SPREIDINGSMATEN – P. 21 Variatiebreedte: max(myData$x) – min(myData$x)

    > max(myData$iq) - min(myData$iq)

    [1] 63

    Interkwartiele afstand: IQR > IQR(myData$iq)

    [1] 21

    ASSOCIATIEMATEN – P. 24 Correlatiecoëfficiënt van Pearson 𝑟𝑥𝑦: cor

    > cor(myData$gewicht, myData$lengte)

    [1] 0.4741137

    Correlatiecoëfficiënt van Kendall of Kendall’s τ: cor Maar! duidelijk maken dat je Kendall wilt: method = “kendall” > cor(sportData$leeftijd, sportData$gewicht, method = "kendall")q

    [1] 0.4305121

    DE BIJZONDERE KANSVERDELINGEN

    1. De binomiale verdeling – p. 55 X B(n, )

    dbinom: P(X B(n, ) = x) = ?

    x = k (aantal keer dat gebeurtenis A zich realiseert)

    size = n (aantal herhalingen van het toevalsproces)

    prob = (de kans dat A zich realiseert)

    > dbinom(x=0, size=4, prob=1/3)

    [1] 0.1975309

    pbinom: P(X B(n, ) ≤ q) = ?

    Sommeert alle kansen aan de linkerkant van 10, 10 inbegrepen

    > pbinom(q=10, size=20, prob=1/3)

    [1] 0.5623634

    Wanneer je niet de linkerstaart, maar de rechterstaart wilt weten: lower.tail = FALSE

    (10 uitgesloten) > pbinom(q=10, size=20, prob=1/3, lower.tail =

    FALSE)

    [1] 0.43763657

    Dit is dus hetzelfde als > 1 - pbinom(q=10, size=20, prob=1/3)

    [1] 0.43763657

  • _

    10

    10

    qbinom: het omgekeerde van qbinom

    P(X B(n, ) ≤ q) = p

    Berekent welke waarde van k een bepaalde kans heeft aan zijn

    linkerkant. > qbinom(p=0.90, size=20, prob=1/3)

    [1] 15

    2. De normale verdeling – p. 57 X ~ N(,²)

    Functie is symmetrisch.

    pnorm: P(X N(,²) ≤ x ) = ?

    q = x (in 2.5)

    mean =

    sd = → pas op! In 2.5 gebruikt men ², dus dat moet eerst nog omgerekend worden

    > pnorm(q=8, mean=10, sd=2)

    [1] 0.1586553

    qnorm: P(X N(,²) ≤ ? ) = p > qnorm(p=0.5, mean=10, sd=2)

    [1] 10

    3. De χ²-verdeling – p. 59

    𝑋1 N(0,1), 𝑋2 N(0,1), ... , 𝑋𝑙 N(0,1) zijn onafhankelijke standaardnormale variabelen. 2 2 2 2 Y = 𝑋1 + 𝑋2 + … + 𝑋𝑙 𝜒𝑙 Functie is niet symmetrisch.

    pchisq: P(Y χ2 ≤ x) = ?

    > pchisq(q=5, df=10)

    [1] 0.108822

    qchisq: P(Y χ2 ≤ ? ) = p > qchisq(p=0.10, df=20)

    [1] 12.44261

    4. De Student verdeling of t-verdeling – p. 61 2

    X N(0,1) en Y 𝜒𝑙

    𝑋 T = 𝑡𝑙

    √𝑌/𝑙

    zijn twee onafhankelijke toevalsvariabelen.

    Functie is symmetrisch.

    pt: P(Y 𝑡10 ≤ x) = ?

    > pt(q=1.3, df=10)

    [1] 0.8886171

    qt: P(Y 𝑡10 ≤ ? ) = p > qt(p=0.15, df=10)

    [1] -1.09305

  • _

    𝑥

    𝑥

    𝑥 𝑥

    5. De F-verdeling – p. 62 2 2

    X 𝜒𝑙1 en Y 𝜒𝑙2 zijn twee onafhankelijke toevalsvariabelen. 𝑋/𝑙1

    F = 𝑌/𝑙2 𝐹𝑙1 ,𝑙2

    Functie is niet symmetrisch.

    pf: P(Y 𝐹10,3 ≤ x) = ? > pf(q=2, df1=10, df2=3)

    [1] 0.6906222

    qf: P(Y 𝐹10,3 ≤ ? ) = p > qf(p=0.2, df1=10, df2=3)

    [1] 0.5372304

    PUNTSCHATTINGEN – P. 74 var: om 𝑠2 te berekenen

    Uitkomst is dus schatting van de variantie in de populatie, op basis van een steekproef (en niet

    variantie in de steekproef =𝑠𝑛2) > var(myData$iq)

    [1] 246.5471

    𝑠2 = 𝑠𝑛2 ∗ 𝑛

    𝑛−1

    cov: om 𝐶̂ 𝑂𝑉𝑥𝑦 te berekenen

    Uitkomst is dus schatting van de covariantie in de populatie, op basis van een steekproef (en niet

    covariantie in de steekproef) > cov(myData$gewicht, myData$lengte)

    [1] 76.85057

    TOETSEN VAN HYPOTHESES

    Toetsen van hypothese betreffende een verwachting – p. 97 is onbekend: t-toets voor één steekproef: t.test

    > t.test(x = myData$iq, mu = 100, alternative = "greater", conf.level =

    0.95)

    One Sample t-test

    data: myData$iq

    t = 6.0231, df = 29, p-value = 7.475e-07

    alternative hypothesis: true mean is greater than 100

    95 percent confidence interval:

    112.3957 Inf

    sample estimates:

    mean of x

    117.2667

  • _

    Toetsen van hypothese betreffende twee verwachtingen – p. 98

    Onafhankelijke steekproeven

    𝟏 en 𝟐 zijn gelijk maar onbekend:

    T-toets voor twee onafhankelijke steekproeven: t-test met “var.equal = TRUE” > tijdV tijdM t.test(x=tijdM, y=tijdV, alternative = "two.sided", conf.level = 0.95,

    var.equal = TRUE)

    Two Sample t-test

    data: tijdM and tijdV

    t = -0.8943, df = 198, p-value = 0.3722

    alternative hypothesis: true difference in means is not equal to 0

    95 percent confidence interval:

    -1.9074961 0.7172111

    sample estimates:

    mean of x mean of y

    22.60957 23.20472

    Geen hypothese m.b.t. 𝟏 en 𝟐 Welch t-toets voor twee onafhankelijke steekproeven: t.test met “var.equal = FALSE” > t.test(x=tijdM, y=tijdV, alternative = "two.sided", conf.level = 0.95,

    var.equal = FALSE)

    Welch Two Sample t-test

    data: tijdM and tijdV

    t = -0.89953, df = 197.89, p-value = 0.3695

    alternative hypothesis: true difference in means is not equal to 0

    95 percent confidence interval:

    -1.8998569 0.7095718

    sample estimates:

    mean of x mean of y

    22.60957 23.20472

    Afhankelijke steekproeven – p. 102

    Gewone one sample t-test, met verschil reeds uitgerekend (D = 𝑋1 - 𝑋2) > d t.test(x=d, mu=0, alternative = "greater", conf.level = 0.95)

    One Sample t-test

    data: d

    t = 3.8545, df = 39, p-value = 0.000211

    alternative hypothesis: true mean is greater than 0

    95 percent confidence interval:

    1.125761 Inf

    sample estimates:

    mean of x

    2

    of (nog eenvoudiger)

  • _

    paired t-test met “paired = TRUE” > t.test(x = rijfoutenData$rijfoutenMet, y =

    rijfoutenData$rijfoutenZonder, alternative = "greater", conf.level =

    0.95, paired = TRUE)

    Paired t-test

    data: rijfoutenData$rijfoutenMet and rijfoutenData$rijfoutenZonder

    t = 3.8545, df = 39, p-value = 0.000211

    alternative hypothesis: true difference in means is greater than 0

    95 percent confidence interval:

    1.125761 Inf

    sample estimates:

    mean of the differences

    2

    Hypothese toetsen betreffende twee varianties – p. 104 F-toets: var.test

    Om te testen of twee varianties identiek zijn. > var.test(x=tijdV, y=tijdM, alternative = "two.sided", conf.level =

    0.95)

    F test to compare two variances

    data: tijdV and tijdM

    F = 1.2145, num df = 105, denom df = 93, p-value = 0.3391

    alternative hypothesis: true ratio of variances is not equal to 1

    95 percent confidence interval:

    0.8146014 1.8020461

    sample estimates:

    ratio of variances

    1.214521

    Hypothese toetsen betreffende een proportie - p. 107 Enkel voor binomiale verdelingen.

    Enkel eenzijdige toets.

    Exacte binomiale toets: binom.test

    x = geobserveerde waarde

    n = aantal herhalingen van het proces

    p = proportie onder 𝐻0

    > binom.test(x=1, n=10, p=0.08, alternative = "greater")

    Exact binomial test

    data: 1 and 10

    number of successes = 1, number of trials = 10, p-value = 0.5656

    alternative hypothesis: true probability of success is greater than 0.08

    95 percent confidence interval:

    0.005116197 1.000000000

    sample estimates:

    probability of success

    0.1

  • _

    Het toetsen van de normaliteit – p. 108 Shapiro-Wilk toets: shapiro.test

    > shapiro.test(myData$gewicht)

    Shapiro-Wilk normality test

    data: myData$gewicht

    W = 0.98608, p-value = 0.9541

    Met de Shapiro-Wilk toets gaan we na of het plausibel is dat de toevalsvariabele gewicht normaal

    verdeeld is in de populatie, gezien de geobserveelde frequentieverdeling van gewicht in onze

    steekproef.

    POWER – P. 117

    Power bij het toetsen van een hypothese betreffende een proportie – p. 117 Power van een exacte binomiale toets berekenen bij het toetsen van een hypothese betreffende

    een proportie: powerBinom

    p0 = proportie onder 𝐻0

    p1 = proportie onder 𝐻1

    > library("exactci")

    Loading required package: ssanv

    > powerBinom(n = 10, p0 = 0.08, p1 = 0.15, sig.level = 0.05, alternative

    = "one.sided")

    power and sample size for single binomial response

    n = 10

    p0 = 0.08

    p1 = 0.15

    power = 0.1798035

    alternative = one.sided

    sig.level = 0.05

    NOTE: use rejections in correct direction only

    Minimale steekproefgrootte om een power van 0.90 te bekomen? > powerBinom(power = 0.90, p0 = 0.08, p1 = 0.15, sig.level = 0.05,

    alternative = "one.sided")

    power and sample size for single binomial response

    n = 177

    p0 = 0.08

    p1 = 0.15

    power = 0.9017898

    alternative = one.sided

    sig.level = 0.05

    NOTE: use rejections in correct direction only

  • _

    Power bij het toetsen van een hypothese betreffende een verwachting – p. 123 power.t.test

    delta = onder 𝐻0 - onder 𝐻1

    sd = standaarddeviantie 𝑠𝑥

    > power.t.test(n=100, delta=1.5, sd=7.4, sig.level=0.05, alternative =

    "two.sided", type = "one.sample")

    One-sample t test power calculation

    n = 100

    delta = 1.5

    sd = 7.4

    sig.level = 0.05

    power = 0.5188946

    alternative = two.sided

    Power bij het toetsen van een hypothese betreffende twee verwachtingen –

    afhankelijke steekproeven – p. 126 Paired t test power calculation: power.t.test met type = “paired”

    > power.t.test(n=40, delta=3, sd=sd, sig.level = 0.05, alternative =

    "one.sided", type = "paired")

    Paired t test power calculation

    n = 40

    delta = 3

    sd = 3.281651

    sig.level = 0.05

    power = 0.9999725

    alternative = one.sided

    NOTE: n is number of *pairs*, sd is std.dev. of *differences* within

    pairs

    Power bij het toetsen van een hypothese betreffende twee verwachtingen –

    onafhankelijke steekproeven – p. 128 T-toets voor twee onafhankelijke steekproeven: t-test met “var.equal = TRUE”

    Voorwaarde: 1 = 2

    Zie pg. 8

    Relevant verschil zoeken en specifieke alternatieve hypothese opstellen. Wat is de power van de

    toets onder die specifieke alternatieve hypothese? pwr.t2n.test 1−2

    d = schatting van de effectgrootte =

    𝑠𝑝𝑜𝑜𝑙𝑒𝑑

    > library("pwr")

    > pwr.t2n.test(n1=length(con), n2=length(exp), d=1/2.1, sig.level = 0.05,

    alternative = "greater")

    t test power calculation

    n1 = 56

    n2 = 119

  • _

    d = 0.4761905

    sig.level = 0.05

    power = 0.9001047

    alternative = greater

    Indien we twee steekproeven met dezelfde grootte willen trekken en we willen n weten:

    type = “two.sample”:

    > power.t.test(delta=1, sd=2.1, power = 0.95, sig.level = 0.05,

    alternative = "one.sided", type = "two.sample")

    Two-sample t test power calculation

    n = 96.13595

    delta = 1

    sd = 2.1

    sig.level = 0.05

    power = 0.95

    alternative = one.sided

    NOTE: n is number in *each* group

    Power van de toets van 𝐻0: 𝛽1= 0 – p. 157 Bij lineaire regressie.

    pwr.r.test

    r = waarde van de correlatiecoëfficient die je went te kunnen detecteren met een hoge kans

    > pwr.r.test(n=252, r=0.04866528, sig.level=0.05)

    approximate correlation power calculation (arctangh transformation)

    n = 252

    r = 0.04866528

    sig.level = 0.05

    power = 0.1200969

    alternative = two.sided

    Om de power van een ANOVA test te berekenen – p. 183 pwr.anova.test

    k = aantal groepen

    n = aantal individuen in elke groep

    f = effectgrootte f

    > pwr.anova.test(k=3, n=99, f=0.05400592, sig.level=0.05)

    Balanced one-way analysis of variance power calculation

    NOTE: n is number in each group

    k = 3

    n = 99

    f = 0.05400592

    sig.level = 0.05

    power = 0.1201184

  • _

    DE FUNCTIE lm – P. 146 Je gebruikt het argument formula om te zeggen welke variabelen je wilt analyseren.

    Lm(formula = afhankelijke variabele Y onafhankelijke variabele X)

    > lm(formula = gezondheid$uitgaven ~ gezondheid$duur)

    Call:

    lm(formula = gezondheid$uitgaven ~

    gezondheid$duur)

    Coefficients:

    (Intercept) gezondheid$duur

    97.204 2.001

    Regressielijn:

    (Intercept) = 𝑏0 gezondheid$duur= 𝑏1

    De output is beperkt, maar achter de schermen heeft R veel andere dingen berekend. Om de uitkomst

    van die berekeningen te kunnen raadplegen, moet je een naam toekennen aan het resultaat van de

    berekeningen: > myLM coef(myLM)

    (Intercept) gezondheid$duur

    97.203900 2.000725

    Om de predicties 𝑦 𝑖 op te vragen: fitted > fitted(myLM)

    1 2 3 4 5 6 7

    157.2257 147.2220 205.2431 155.2249 139.2191 153.2242 135.2177

    241 242 243 244 245 246 247

    115.2104 109.2083 115.2104 109.2083 113.2097 101.2054 115.2104

    249 250 251 252 111.2090 131.2162 127.2148 121.2126

    Om de residuen op te vragen: residuals > residuals(myLM)

    1 2 3 4 5

    -15.2256518 -52.2220266 -17.2430529 -39.2249268 -36.2191264

    247 248 249 250 251

    -18.2104258 -31.2082507 -49.2089757 -1.2162262 36.7852239

    Betrouwbaarheidsintervallen voor 𝛽0 en 𝛽1: confint > confint(myLM, level = 0.95)

    2.5 % 97.5 %

    (Intercept) 84.88996 109.51784

    gezondheid$duur 1.55357 2.44788

  • _

    De R functie summary - p. 155 Informatie over de residuen, 𝛽0 en 𝛽1, modelselectie.

    en de standaard en aangepaste R² en resultaat van de

    > myLM summary(myLM)

    Call:

    lm(formula = gezondheid$uitgaven ~ gezondheid$duur)

    Residuals:

    Min 1Q Median 3Q Max

    -98.220 -27.461 -1.725 26.538 108.774

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) 97.204 6.252 15.547 |t|)

    (Intercept) 18.824785 8.688771 2.167 0.0393 * = 𝛽0

    myData$iq 0.003209 0.062642 0.051 0.9595 = 𝛽1

    myData$gewicht -0.109157 0.069138 -1.579 0.1260 = 𝛽2 ---

    Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 5.29 on 27 degrees of freedom

    Multiple R-squared: 0.08455, Adjusted R-squared: 0.01674

    F-statistic: 1.247 on 2 and 27 DF, p-value: 0.3034

  • _

    DE FUNCTIE aggregate – P. 169 De personen in het data frame microbusiness zijn onderverdeeld in drie groepen: GeenMB,

    MBMetSteun en MBZonderSteun.

    > head(microbusiness)

    groep inkomenWijziging

    1 GeenMB 8940.664

    2 GeenMB -5798.128

    3 GeenMB 19239.644

    4 GeenMB -9745.702

    5 GeenMB 3023.336

    6 MBMetSteun 8199.519

    Om gemiddelde van elke groep te berekenen: FUN = mean > aggregate(formula=microbusiness$inkomenWijziging ~ microbusiness$groep,

    FUN = mean)

    microbusiness$groep microbusiness$inkomenWijziging

    1 GeenMB 8652

    2 MBMetSteun 5708

    3 MBZonderSteun 6455

    Om schatting van de variantie te berekenen: FUN = var

    Om mediaan te berekenen: FUN = median

    DE FUNCTIE aov – P.181 Om alle berekeningen m.b.t. de ANOVA in één keer uit te voeren.

    Net zoals bij de functie lm, berekent aov heel veel achter de schermen, maar je ziet ze niet allemaal.

    Je gebruikt het argument formula om R te zeggen welke variabelen je wil analyseren: > aov(formula = microbusiness$inkomenWijziging ~ microbusiness$groep)

    Call:

    aov(formula = microbusiness$inkomenWijziging ~ microbusiness$groep)

    Terms:

    microbusiness$groep Residuals

    Sum of Squares 493586939 67200630937

    Deg. of Freedom 2 294

    Residual standard error: 15118.65

    Estimated effects may be unbalanced

    Summary(myAOV) – p. 182 > myAOV summary(myAOV)

    Df Sum Sq Mean Sq F value Pr(>F)

    microbusiness$groep 2 4.936e+08 246793469 1.08 0.341

    Residuals 294 6.720e+10 228573575

  • _

    POST HOC MEERVOUDIGE VERGELIJKINGEN – P. 186 Pairwise.t.test om de techniek van de meervoudige vergelijkingen te gebruiken. Het aantal

    paarsgewijze vergelijkingen is 6, maar in plaats van 6 t-toetsen uit te voeren gebruiken we de functie

    pairwise.t.test die alle vergelijkingen in één keer doet.

    > pairwise.t.test(depressie$reactietijd, depressie$behandeling, p.adj =

    "bonf")

    Pairwise comparisons using t tests with pooled SD

    data: depressie$reactietijd and depressie$behandeling

    A B C

    B 0.2765 - -

    C 1.0e-07 2.8e-05 -

    D 0.0269 1.0000 0.0018

    P value adjustment method: bonferroni

    ENKELVOUDIGE VARIANTIE-ANALYSE ALS EEN LINEAIR MODEL – P. 194 Als we een variantie-analyse willen uitvoeren met behulp van lineaire regressie hoeven we eigenlijk

    niet zelf de hulpveranderlijken te definiëren. R doet het allemaal voor ons. Als we het commando

    lm(formula = depressie$reactietijd ~ depressie$behandeling) typen dan

    gaat R zien dat behandeling een factor is en R gaat dus automatisch hulpveranderlijken definieren.

    R gaat ervan uit dat je de GLM-restrictie wenst te gebruiken, met het eerste niveau als referentie, en

    R gaat dus Dummy-codering gebruiken, ook met het eerste niveau als referentie.

    > myAOV summary(myAOV)

    Call:

    lm(formula = depressie$reactietijd ~ depressie$behandeling)

    Residuals:

    Min 1Q Median 3Q Max

    -0.15812 -0.04550 -0.01611 0.05889 0.13050

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) 0.91111 0.02744 33.207 < 2e-16 ***

    depressie$behandelingB 0.07839 0.03782 2.073 0.04608 *

    depressie$behandelingC 0.27939 0.03782 7.387 1.74e-08 ***

    depressie$behandelingD 0.12201 0.04000 3.051 0.00448 **

    --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 0.08231 on 33 degrees of freedom

    Multiple R-squared: 0.6418, Adjusted R-squared: 0.6093

    F-statistic: 19.71 on 3 and 33 DF, p-value: 1.674e-07

  • _

    PEARSON’S CHI-SQUARED TEST – P. 203 Om de Pearson’s chi-squared test in een keer uit te voeren: chisq.test

    x = een tabel met de geobserveerde frequenties

    p = een vector met theoretische proporties

    > kans chisq.test(x=table(dobbelsteen), p=kans)

    Chi-squared test for given probabilities

    data: table(dobbelsteen)

    X-squared = 6.2, df = 5, p-value = 0.2872

    EFFECTGROOTTE W – P. 206 ES.w1

    Staat in package “pwr”

    > dagen kans kans1 library("pwr")

    > ES.w1(P0 = kans, P1 = kans1)

    [1] 0.3827301