Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of...

13
Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek Peter de Waal (gebaseerd op slides Marjan van den Akker, Peter de Waal) Departement Informatica Beta-faculteit, Universiteit Utrecht Lecture 1: 1 / 49 00394756520584654261849505028761647595030. . . Joepie, ons computerprogramma levert output. . . Joepie, we hebben gegevens uit onze enquete. . . Q: Wat doen we hiermee? Lecture 1: 2 / 49 Output gegevens 1 Valideren 2 Ordenen: 1 Tabellen 2 Grafieken 3 ‘Statistieken’ 3 Mogelijke conclusie definieren: 1 Relaties en verschillen 2 Gebaseerd op je onderzoeksvraag, maar eventueel andere interessante fenomenen. 4 Hypotheses toetsen en analyseren mbv. Statistiek. Lecture 1: 3 / 49 Kansrekening en statistiek in de informatica Randomized algorithms Data-mining Bayesiaanse netwerken voor medische diagnose Planning met verstoringen Modellen voor bewegende karakters in spellen Testen computer-games Lecture 1: 4 / 49

Transcript of Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of...

Page 1: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Onderzoeksmethoden:Statistiek 1: Beschrijvende statistiek

Peter de Waal(gebaseerd op slides Marjan van den Akker, Peter de Waal)

Departement InformaticaBeta-faculteit, Universiteit Utrecht

Lecture 1: 1 / 49

00394756520584654261849505028761647595030. . .

Joepie, ons computerprogramma levert output. . .

Joepie, we hebben gegevens uit onze enquete. . .

Q: Wat doen we hiermee?

Lecture 1: 2 / 49

Output gegevens

1 Valideren2 Ordenen:

1 Tabellen

2 Grafieken

3 ‘Statistieken’3 Mogelijke conclusie definieren:

1 Relaties en verschillen

2 Gebaseerd op je onderzoeksvraag, maar eventueel andereinteressante fenomenen.

4 Hypotheses toetsen en analyseren mbv. Statistiek.

Lecture 1: 3 / 49

Kansrekening en statistiek in de informatica

Randomized algorithms

Data-mining

Bayesiaanse netwerken voor medische diagnose

Planning met verstoringen

Modellen voor bewegende karakters in spellen

Testen computer-games

Lecture 1: 4 / 49

Page 2: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Materiaal

Nel Verhoeven. Statistiek instappen. Boom LemmaUitgevers, 2013. ISBN 978 905931 9639.Gedeeltelijk gebaseerd opslides van WetenschappelijkeOnderzoeksmethoden (INKUBachelor)

Lecture 1: 5 / 49

Wat is statistiek?

‘Leer en methode om door middel van cijfers inzicht te krijgen inmassale verschijnselen, .. (van Dale)

‘De wetenschap, de methodiek en de techniek van hetverzamelen, bewerken, interpreteren en presenteren vangegevens. (Wikipedia)

Lecture 1: 6 / 49

Kansrekening en Statistiek

Kansrekening:I Theoretische basis: Hoofdstuk 4

Statistiek:I Theoretische basis: Hoofdstuk 4

I Beschrijvende statistiek: Hoofdstuk 2 + 3

I Toetsende statistiek: Hoofdstuk 5, 6, + 9

Lecture 1: 7 / 49

Vandaag: Beschrijvende statistiek

There are three kinds of lies: lies, damn lies, and statistics(Mark Twain)

Lecture 1: 8 / 49

Page 3: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Enquetes

Lecture 1: 9 / 49

Onderzoek

Bron: nos.nl

Lecture 1: 10 / 49

Onderzoek

Bron: De Pers, 19-09-2011

Lecture 1: 11 / 49

Definities

Lecture 1: 12 / 49

Page 4: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Vertekenende plaatsje

Bron: UU Jaarbeeld 2012

Lecture 1: 13 / 49

Statistiek kan veel. . .

Maar wees nauwkeurig!

Manieren om fouten te maken:

Garbage data

Slechte steekproef

Wisselende of onduidelijke definities

Vertekenende plaatjes

Verkeerde gevolgtrekkingen

. . .

Lecture 1: 14 / 49

DATA VERVALSEN IS FRAUDE

Lecture 1: 15 / 49

Definities: Populatie en steekproef

Populatie: verzameling van alle personen, objecten ofgebeurtenissen waar een vraagstelling of onderzoek betrekkingop heeft

Steekproef: selectie van elementen uit de populatie

Variabele: te meten/bepalen karakteristiek van persoon, object. . .

Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit?

Variabele: aantal uitgaansavonden per maand

Populatie: alle studenten ingeschreven voor de opleidingInformatica Utrecht.

Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram,Jona, Rutger

Lecture 1: 16 / 49

Page 5: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Definities: meetniveaus van variabelen

Nominaal

Ordinaal

Interval

Ratio

Lecture 1: 17 / 49

Meetniveau: nominaal

Nominaal meetniveau:

Indeling in categorieenIndeling:

I Uitsluitend (mutually exclusive)

I Uitputtend (exhaustive)

Voorbeeld:

of

Informatica of Gametechnologie

Lecture 1: 18 / 49

Meetniveau: ordinaal

Ordinaal meetniveau:

Indeling in rangorde

Voorbeeld: hoogste niveau van genoten vervolgopleiding:

1 Middelbare school2 HBO3 Universiteit

Lecture 1: 19 / 49

Meetniveau: interval

Interval meetniveau:

Rangorde, maar zegt ook iets over grootte van het verschil,afstand (geen natuurlijk nulpunt)

Voorbeeld: Temperatuur in Celsius

Lecture 1: 20 / 49

Page 6: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Meetniveau: ratio

Ratio meetniveau

rangorde, zegt iets over afstand en over verhouding,

Gevolg: Natuurlijk nulpunt, geen negatieve waarden.

Voorbeeld

Lichaamslengte

Gewicht

Looptijd algoritme

Lecture 1: 21 / 49

Welke schaal?

Likert schaal:

Op een bewering wordt gereageerd in termen van eens / oneens

Lecture 1: 22 / 49

Traveling Salesman probleem

Achtergrond voor pizza-koeriers.

Gegeven zijn N steden en hun onderlinge afstanden.

Vind de kortste route waarbij je elke stad precies n keer bezoekt.

Variabelen:

Looptijd algoritme

Lengte route

Vraag:

Welke schaal?

Nulpunt?

Lecture 1: 23 / 49

Descriptieve maten uit steekproef

Steekproef een variabele: X1, X2, X3, . . . , XN

Verhoudingsmaten

Centrummaten

Spreidingsmaten

Steekproef twee variabelen: X1, X2, X3, . . . , XN enY1, Y2, Y3, . . . , YN

Relatiematen

Lecture 1: 24 / 49

Page 7: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Verhoudingsmaten

Absolute frequenties:

7 (van de 12)

Relatieve frequenties:

3 op de 100

3%

0.03

Lecture 1: 25 / 49

Frequentietabel

Frequentie Percentage Cumul. perc.4 14 11.38 11.385 15 12.20 23.586 19 15.45 39.027 22 17.89 56.918 24 19.51 76.429 19 15.45 91.87

10 10 8.13 100.00totaal 123 100 100.00

Lecture 1: 26 / 49

Frequentieverdelingen: bar chart

Lecture 1: 27 / 49

Frequentieverdelingen: histogram

10 tot 20 groepen met even groot domein.

Lecture 1: 28 / 49

Page 8: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Scoreverdelingen: percentiel(score)

De score van het ne percentiel (Pn) is de score waarbij tenminste n% inde verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk.

Bijvoorbeeld P90 = 189 kan betekenen dat 90% van alleNederlanders een lengte ≤ 189 cm heeft.

Het meest gebruikte percentiel is de mediaan P50:50% van de observaties liggen links van de mediaan.Soms wordt ook nog gebruikt:

I P25 (heet ook eerste kwartiel),

I P75 (heet ook derde kwartiel).

Pas op bij frequenties groter dan 1.

Lecture 1: 29 / 49

Frequentietabel

Frequentie Percentage Cumul. perc.4 14 11.38 11.385 15 12.20 23.586 19 15.45 39.027 22 17.89 56.918 24 19.51 76.429 19 15.45 91.87

10 10 8.13 100.00totaal 123 100 100.00

Wat is de mediaan? 7

Wat is P25? 6

Lecture 1: 30 / 49

Centrummaten: modus

Modus (“Eng: Mode”):de waarde in de distributie die hetmeest voorkomt; de categorie metde hoogste frequentie

Ook mogelijk:Bimodaal (kameelverdeling)Multimodaal

Lecture 1: 31 / 49

Centrummaten: mediaan

Het punt dat de waarnemingen door midden deelt, of

De waarde die, in de ordening van laag naar hoog, hoort bij demiddelste, of

Het punt waarbij tenminste 50% lager of gelijk scoort, entenminste 50% hoger of gelijk scoort.

Voorbeeld A: 1, 2, 3, 5, 6

Voorbeeld B: 1, 2, 3, 5, 6, 7

Sorteer van klein naar groot:

Bij oneven aantal getallen: kies middelste

Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel)

Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan.Lecture 1: 32 / 49

Page 9: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Centrummaten: gemiddelde

Indicatie van het evenwichtspunt van de meetwaarden.

De som van alle waarden,gedeeld door het aantalwaardenPopulatie:

µ =

∑Ni=1 Xi

N

Steekproef:

X =

∑ni=1 Xi

n

Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2Gemiddelde X = 3

Als Xi heeft frequentie fi, dan

X =

∑fiXi

n

Lecture 1: 33 / 49

Test

Q: Op welk meetniveau kunnen de centrummaten toegepast worden?

MediaanModusGemiddelde

Nominaal? (Modus)Ordinaal? (Modus, mediaan)Interval? (Modus, mediaan,gemiddelde)Ratio? (Modus, mediaan,gemiddelde)

Q: Welke centrummaat is gevoelig voor outliers (uitbijters)?

Lecture 1: 34 / 49

Voorbeelden

Voorbeeld A: 1 2 2 3 5 6 7 8 11

Gemiddelde = ? 5

Mediaan = ? 5

Voorbeeld B: 1 2 2 3 5 6 7 8 20

Gemiddelde = ? 6

Mediaan = ? 5

Lecture 1: 35 / 49

Spreidingsmaten

Bereik

Variantie

Standaarddeviatie

Lecture 1: 36 / 49

Page 10: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Spreidingsmaat: bereik of “range”

Hoogste waarde minus laagste waarde in een distributie

Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik.

Lecture 1: 37 / 49

Spreidingsmaten: Populatievariantie

Gemiddelde kwadratischeafwijking van het gemiddelde

σ2 =

∑Ni=1(Xi − µ)2

N

Standaarddeviatie

σ =

√∑Ni=1(Xi − µ)2

N

Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2

Lecture 1: 38 / 49

Spreidingsmaten: Steekproefvariantie

Schatting voorpopulatievariantie σ2

Gemiddelde kwadratischeafwijking van het gemiddelde

s2 =

∑ni=1(Xi − X)2

n− 1

Standaarddeviatie

s =

√∑ni=1(Xi − X)2

n− 1

Vrijheidsgraden df = n− 1

Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2

s2 =(2−3)2+(4−3)2+(4−3)2+(3−3)2+(2−3)2

4 =

= 44 = 1

Lecture 1: 39 / 49

Spreidingsmaten: Interquartile range

Herinnering:

P25 = eerste kwartiel (Eng: quartile)

P75 = derde kwartiel

IQR = Interquartile range = P75 − P25.

Lecture 1: 40 / 49

Page 11: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Relaties tussen twee of meer variabelen

Voor twee nominale variabelen:

Kruistabel:Tweedimensionaal frequentiediagram.

Voorbeeld

Lecture 1: 41 / 49

Relatiematen

Twee variabelen: X en Y, metI Gemiddelden: X en Y

I Standaarddeviaties: sX en sY

Covariantie:

cov(x, y) =∑

(Xi − X)(Yi − Y)n− 1

Correlatie:

r =cov(x, y)

sX · sY, (−1 ≤ r ≤ 1)

Lecture 1: 42 / 49

Correlatie: voorbeeld

Student Blikjes Gevulde RegelsCola koeken Code

Jesse 3 2 153Jasper 4 4 196Jordy 1 4 52Jorrit 5 3 252Jarno 6 2 301

0

50

100

150

200

250

300

0 1 2 3 4 5 6

Reg

els

cod

e

Blikjes cola

Cola vs code

0

50

100

150

200

250

300

350

0 1 2 3 4 5

Reg

els

co

de

Gevulde koeken

Koeken vs code

Lecture 1: 43 / 49

Correlatiematrix uit Excel

0

50

100

150

200

250

300

0 1 2 3 4 5 6

Reg

els

cod

e

Blikjes cola

Cola vs code

0

50

100

150

200

250

300

350

0 1 2 3 4 5

Reg

els

co

de

Gevulde koeken

Koeken vs code

r Cola Koeken CodeCola 1Koeken -0.5198 1Code 0.9995 -0.5398 1

r dicht bij 1 of -1: lineair verband

Lecture 1: 44 / 49

Page 12: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Verband 6= correlatie

0

50

100

150

200

250

300

0 1 2 3 4 5 6

Reg

els

cod

e

Blikjes redbull

Redbull vs code

“Kwadratisch” verband.Correlatie r = 0.

Lecture 1: 45 / 49

Correlatie 6= Causaliteit

Lecture 1: 46 / 49

Correlatie 6= Causaliteit (2)

Figure 2: The relationship between broadband speed and household income

00

South Africa

40,00020,000 60,000

Annual household income (USD PPP)

Brazil China (urban)Mexico

Italy Spain

GermanyFrance

UKSweden

JapanUS

India

Broa

dban

d sp

eed

(Mbp

s)

8

10

6

4

2

Lecture 1: 47 / 49

Correlatie 6= Causaliteit (2)

Lecture 1: 48 / 49

Page 13: Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of Gametechnologie Lecture 1: 18 / 49 Meetniveau: ordinaal Ordinaal meetniveau: Indeling in

Samenvatting

Variabelen

Meetniveaus

Beschrijvende statistiek

Volgende keer:

Theoretische kansverdelingen

Z-scores

Normale verdeling

Steekproefverdeling

Centrale limietstelling

Lecture 1: 49 / 49