Het schrijven van een paper Hans Bodlaender Onderzoeksmethoden.
Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of...
Transcript of Onderzoeksmethoden: Statistiek 1: Beschrijvende statistiek · 2016-09-13 · Informatica of...
Onderzoeksmethoden:Statistiek 1: Beschrijvende statistiek
Peter de Waal(gebaseerd op slides Marjan van den Akker, Peter de Waal)
Departement InformaticaBeta-faculteit, Universiteit Utrecht
Lecture 1: 1 / 49
00394756520584654261849505028761647595030. . .
Joepie, ons computerprogramma levert output. . .
Joepie, we hebben gegevens uit onze enquete. . .
Q: Wat doen we hiermee?
Lecture 1: 2 / 49
Output gegevens
1 Valideren2 Ordenen:
1 Tabellen
2 Grafieken
3 ‘Statistieken’3 Mogelijke conclusie definieren:
1 Relaties en verschillen
2 Gebaseerd op je onderzoeksvraag, maar eventueel andereinteressante fenomenen.
4 Hypotheses toetsen en analyseren mbv. Statistiek.
Lecture 1: 3 / 49
Kansrekening en statistiek in de informatica
Randomized algorithms
Data-mining
Bayesiaanse netwerken voor medische diagnose
Planning met verstoringen
Modellen voor bewegende karakters in spellen
Testen computer-games
Lecture 1: 4 / 49
Materiaal
Nel Verhoeven. Statistiek instappen. Boom LemmaUitgevers, 2013. ISBN 978 905931 9639.Gedeeltelijk gebaseerd opslides van WetenschappelijkeOnderzoeksmethoden (INKUBachelor)
Lecture 1: 5 / 49
Wat is statistiek?
‘Leer en methode om door middel van cijfers inzicht te krijgen inmassale verschijnselen, .. (van Dale)
‘De wetenschap, de methodiek en de techniek van hetverzamelen, bewerken, interpreteren en presenteren vangegevens. (Wikipedia)
Lecture 1: 6 / 49
Kansrekening en Statistiek
Kansrekening:I Theoretische basis: Hoofdstuk 4
Statistiek:I Theoretische basis: Hoofdstuk 4
I Beschrijvende statistiek: Hoofdstuk 2 + 3
I Toetsende statistiek: Hoofdstuk 5, 6, + 9
Lecture 1: 7 / 49
Vandaag: Beschrijvende statistiek
There are three kinds of lies: lies, damn lies, and statistics(Mark Twain)
Lecture 1: 8 / 49
Enquetes
Lecture 1: 9 / 49
Onderzoek
Bron: nos.nl
Lecture 1: 10 / 49
Onderzoek
Bron: De Pers, 19-09-2011
Lecture 1: 11 / 49
Definities
Lecture 1: 12 / 49
Vertekenende plaatsje
Bron: UU Jaarbeeld 2012
Lecture 1: 13 / 49
Statistiek kan veel. . .
Maar wees nauwkeurig!
Manieren om fouten te maken:
Garbage data
Slechte steekproef
Wisselende of onduidelijke definities
Vertekenende plaatjes
Verkeerde gevolgtrekkingen
. . .
Lecture 1: 14 / 49
DATA VERVALSEN IS FRAUDE
Lecture 1: 15 / 49
Definities: Populatie en steekproef
Populatie: verzameling van alle personen, objecten ofgebeurtenissen waar een vraagstelling of onderzoek betrekkingop heeft
Steekproef: selectie van elementen uit de populatie
Variabele: te meten/bepalen karakteristiek van persoon, object. . .
Vraag: Hoe vaak gaan Utrechtse informatica-studenten uit?
Variabele: aantal uitgaansavonden per maand
Populatie: alle studenten ingeschreven voor de opleidingInformatica Utrecht.
Steekproef: Remco, Maxime, Jelle, Jeanine, Timo, Falco, Bram,Jona, Rutger
Lecture 1: 16 / 49
Definities: meetniveaus van variabelen
Nominaal
Ordinaal
Interval
Ratio
Lecture 1: 17 / 49
Meetniveau: nominaal
Nominaal meetniveau:
Indeling in categorieenIndeling:
I Uitsluitend (mutually exclusive)
I Uitputtend (exhaustive)
Voorbeeld:
of
Informatica of Gametechnologie
Lecture 1: 18 / 49
Meetniveau: ordinaal
Ordinaal meetniveau:
Indeling in rangorde
Voorbeeld: hoogste niveau van genoten vervolgopleiding:
1 Middelbare school2 HBO3 Universiteit
Lecture 1: 19 / 49
Meetniveau: interval
Interval meetniveau:
Rangorde, maar zegt ook iets over grootte van het verschil,afstand (geen natuurlijk nulpunt)
Voorbeeld: Temperatuur in Celsius
Lecture 1: 20 / 49
Meetniveau: ratio
Ratio meetniveau
rangorde, zegt iets over afstand en over verhouding,
Gevolg: Natuurlijk nulpunt, geen negatieve waarden.
Voorbeeld
Lichaamslengte
Gewicht
Looptijd algoritme
Lecture 1: 21 / 49
Welke schaal?
Likert schaal:
Op een bewering wordt gereageerd in termen van eens / oneens
Lecture 1: 22 / 49
Traveling Salesman probleem
Achtergrond voor pizza-koeriers.
Gegeven zijn N steden en hun onderlinge afstanden.
Vind de kortste route waarbij je elke stad precies n keer bezoekt.
Variabelen:
Looptijd algoritme
Lengte route
Vraag:
Welke schaal?
Nulpunt?
Lecture 1: 23 / 49
Descriptieve maten uit steekproef
Steekproef een variabele: X1, X2, X3, . . . , XN
Verhoudingsmaten
Centrummaten
Spreidingsmaten
Steekproef twee variabelen: X1, X2, X3, . . . , XN enY1, Y2, Y3, . . . , YN
Relatiematen
Lecture 1: 24 / 49
Verhoudingsmaten
Absolute frequenties:
7 (van de 12)
Relatieve frequenties:
3 op de 100
3%
0.03
Lecture 1: 25 / 49
Frequentietabel
Frequentie Percentage Cumul. perc.4 14 11.38 11.385 15 12.20 23.586 19 15.45 39.027 22 17.89 56.918 24 19.51 76.429 19 15.45 91.87
10 10 8.13 100.00totaal 123 100 100.00
Lecture 1: 26 / 49
Frequentieverdelingen: bar chart
Lecture 1: 27 / 49
Frequentieverdelingen: histogram
10 tot 20 groepen met even groot domein.
Lecture 1: 28 / 49
Scoreverdelingen: percentiel(score)
De score van het ne percentiel (Pn) is de score waarbij tenminste n% inde verdeling lager of gelijk scoort, en tenminste 100-n% hoger of gelijk.
Bijvoorbeeld P90 = 189 kan betekenen dat 90% van alleNederlanders een lengte ≤ 189 cm heeft.
Het meest gebruikte percentiel is de mediaan P50:50% van de observaties liggen links van de mediaan.Soms wordt ook nog gebruikt:
I P25 (heet ook eerste kwartiel),
I P75 (heet ook derde kwartiel).
Pas op bij frequenties groter dan 1.
Lecture 1: 29 / 49
Frequentietabel
Frequentie Percentage Cumul. perc.4 14 11.38 11.385 15 12.20 23.586 19 15.45 39.027 22 17.89 56.918 24 19.51 76.429 19 15.45 91.87
10 10 8.13 100.00totaal 123 100 100.00
Wat is de mediaan? 7
Wat is P25? 6
Lecture 1: 30 / 49
Centrummaten: modus
Modus (“Eng: Mode”):de waarde in de distributie die hetmeest voorkomt; de categorie metde hoogste frequentie
Ook mogelijk:Bimodaal (kameelverdeling)Multimodaal
Lecture 1: 31 / 49
Centrummaten: mediaan
Het punt dat de waarnemingen door midden deelt, of
De waarde die, in de ordening van laag naar hoog, hoort bij demiddelste, of
Het punt waarbij tenminste 50% lager of gelijk scoort, entenminste 50% hoger of gelijk scoort.
Voorbeeld A: 1, 2, 3, 5, 6
Voorbeeld B: 1, 2, 3, 5, 6, 7
Sorteer van klein naar groot:
Bij oneven aantal getallen: kies middelste
Bij even aantal getallen: kies gemiddelde van middelste 2 (Excel)
Of kies het hele interval ([3,5]) in Voorbeeld B als mediaan.Lecture 1: 32 / 49
Centrummaten: gemiddelde
Indicatie van het evenwichtspunt van de meetwaarden.
De som van alle waarden,gedeeld door het aantalwaardenPopulatie:
µ =
∑Ni=1 Xi
N
Steekproef:
X =
∑ni=1 Xi
n
Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2Gemiddelde X = 3
Als Xi heeft frequentie fi, dan
X =
∑fiXi
n
Lecture 1: 33 / 49
Test
Q: Op welk meetniveau kunnen de centrummaten toegepast worden?
MediaanModusGemiddelde
Nominaal? (Modus)Ordinaal? (Modus, mediaan)Interval? (Modus, mediaan,gemiddelde)Ratio? (Modus, mediaan,gemiddelde)
Q: Welke centrummaat is gevoelig voor outliers (uitbijters)?
Lecture 1: 34 / 49
Voorbeelden
Voorbeeld A: 1 2 2 3 5 6 7 8 11
Gemiddelde = ? 5
Mediaan = ? 5
Voorbeeld B: 1 2 2 3 5 6 7 8 20
Gemiddelde = ? 6
Mediaan = ? 5
Lecture 1: 35 / 49
Spreidingsmaten
Bereik
Variantie
Standaarddeviatie
Lecture 1: 36 / 49
Spreidingsmaat: bereik of “range”
Hoogste waarde minus laagste waarde in een distributie
Zegt niets over hoe het aantal scores verdeeld is binnen dat bereik.
Lecture 1: 37 / 49
Spreidingsmaten: Populatievariantie
Gemiddelde kwadratischeafwijking van het gemiddelde
σ2 =
∑Ni=1(Xi − µ)2
N
Standaarddeviatie
σ =
√∑Ni=1(Xi − µ)2
N
Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2
Lecture 1: 38 / 49
Spreidingsmaten: Steekproefvariantie
Schatting voorpopulatievariantie σ2
Gemiddelde kwadratischeafwijking van het gemiddelde
s2 =
∑ni=1(Xi − X)2
n− 1
Standaarddeviatie
s =
√∑ni=1(Xi − X)2
n− 1
Vrijheidsgraden df = n− 1
Student Gevulde koekenJesse 2Jasper 4Jordy 4Jorrit 3Jarno 2
s2 =(2−3)2+(4−3)2+(4−3)2+(3−3)2+(2−3)2
4 =
= 44 = 1
Lecture 1: 39 / 49
Spreidingsmaten: Interquartile range
Herinnering:
P25 = eerste kwartiel (Eng: quartile)
P75 = derde kwartiel
IQR = Interquartile range = P75 − P25.
Lecture 1: 40 / 49
Relaties tussen twee of meer variabelen
Voor twee nominale variabelen:
Kruistabel:Tweedimensionaal frequentiediagram.
Voorbeeld
Lecture 1: 41 / 49
Relatiematen
Twee variabelen: X en Y, metI Gemiddelden: X en Y
I Standaarddeviaties: sX en sY
Covariantie:
cov(x, y) =∑
(Xi − X)(Yi − Y)n− 1
Correlatie:
r =cov(x, y)
sX · sY, (−1 ≤ r ≤ 1)
Lecture 1: 42 / 49
Correlatie: voorbeeld
Student Blikjes Gevulde RegelsCola koeken Code
Jesse 3 2 153Jasper 4 4 196Jordy 1 4 52Jorrit 5 3 252Jarno 6 2 301
0
50
100
150
200
250
300
0 1 2 3 4 5 6
Reg
els
cod
e
Blikjes cola
Cola vs code
0
50
100
150
200
250
300
350
0 1 2 3 4 5
Reg
els
co
de
Gevulde koeken
Koeken vs code
Lecture 1: 43 / 49
Correlatiematrix uit Excel
0
50
100
150
200
250
300
0 1 2 3 4 5 6
Reg
els
cod
e
Blikjes cola
Cola vs code
0
50
100
150
200
250
300
350
0 1 2 3 4 5
Reg
els
co
de
Gevulde koeken
Koeken vs code
r Cola Koeken CodeCola 1Koeken -0.5198 1Code 0.9995 -0.5398 1
r dicht bij 1 of -1: lineair verband
Lecture 1: 44 / 49
Verband 6= correlatie
0
50
100
150
200
250
300
0 1 2 3 4 5 6
Reg
els
cod
e
Blikjes redbull
Redbull vs code
“Kwadratisch” verband.Correlatie r = 0.
Lecture 1: 45 / 49
Correlatie 6= Causaliteit
Lecture 1: 46 / 49
Correlatie 6= Causaliteit (2)
Figure 2: The relationship between broadband speed and household income
00
South Africa
40,00020,000 60,000
Annual household income (USD PPP)
Brazil China (urban)Mexico
Italy Spain
GermanyFrance
UKSweden
JapanUS
India
Broa
dban
d sp
eed
(Mbp
s)
8
10
6
4
2
Lecture 1: 47 / 49
Correlatie 6= Causaliteit (2)
Lecture 1: 48 / 49
Samenvatting
Variabelen
Meetniveaus
Beschrijvende statistiek
Volgende keer:
Theoretische kansverdelingen
Z-scores
Normale verdeling
Steekproefverdeling
Centrale limietstelling
Lecture 1: 49 / 49