Willem J. Heiser: Evolutie van de Statistiek · 2016. 3. 16. · ”Populatie” als concept duikt...
Transcript of Willem J. Heiser: Evolutie van de Statistiek · 2016. 3. 16. · ”Populatie” als concept duikt...
09/10/2012 1
De Evolutie van de Statistiek
Willem J. Heiser
Universiteit Leiden
(1) Wat is Statistiek (en Wat Niet)?
(2) Een Paar Mijlpalen in de Tijd
(3) Hoezo Evolutie & Waar Gaat die Naartoe?
09/10/2012 2
Wat is Statistiek (Niet)?
Er zijn nogal wat verschillende definities. Twee extremen:
•••• Breed: “Alle methoden om kennis te vergaren zijn in
essentie statistiek” (Rao, 1989);
•••• Smal: “Statistiek is de studie van onzekerheid”
(Lindley, 2000).
Vaak treffen we één van de woorden “onzekerheid”,
“kans” of “toeval” aan.
Lange tijd had toeval een heel andere betekenis
09/10/2012 3
Vrouwe Fortuna en Vrouwe Sapientia
Symboliseren twee tegen-
gestelde wegen naar kennis:
Fortuna raadpleegt het rad
van fortuin, gezeten op
bol ➠ onzekerheid.
Sapientia raadpleegt de
spiegel, gezeten op
kubus ➠ zekerheid.
Bron van embleem:
Petrarca, 1524.
09/10/2012 4
Waar & Wanneer Viel voor het Eerst
de Term Statistiek?
In Italië (Venetië, Florence), halverwege de 16e eeuw.
Komt voort uit “stato” = staat.
Verspreidde zich naar Frankrijk,
Nederland en Duitsland, voor de
studie van staten, populaties, en de
toestand van de staatshuishouding.
09/10/2012 5
Opkomst van Prudentia: Praktische Wijsheid
Renaissance begint zich te
realiseren dat het toeval geen
boodschap van God brengt.
De mens moet voor zichzelf
onderscheid maken tussen
echte oorzaken en
incidentele oorzaken.
Op de woelige baren van het
leven maakt Prudentia haar
eigen afweging tussen de
kubus en de bol.
09/10/2012 6
Praktische Oplossingen voor Meetproblemen
Meten is tellen van meeteenheden, maar hoe kom je aan een
meeteenheid die stabiel en
moeilijk te betwisten is?
���� Ziehier de “voet” als
het gemiddelde van 16
willekeurig gekozen
individuele voeten.
Steeds opnieuw
blijken meetproblemen
statistisch op te lossen.
09/10/2012 7
Statistiek Is de Studie van Populaties
Deze definitie (van Fisher, 1925) verenigt
•••• Oude oorsprong: Tellen van volkeren;
•••• Basisconcept: Collectief met willekeurige individuen
Focus is op eigenschappen van het collectief, niet van de
individuen. Populaties kunnen
•••• Van alles zijn (burgers, dieren, patiënten, fouten,
leerlingen, percelen, atomen of sterren…);
•••• Kenmerken hebben en met elkaar vergeleken worden;
•••• Veranderen: eigen dynamiek in reactie op omgeving.
”Waarom?” vragen behoren tot de wetenschap,
“Hoe?” vragen zijn voor de statistiek.
09/10/2012 8
John Graunt’s Sterfteregisters (1662) Na een pest epidemie in 1538 was Londen begonnen aan
het bijhouden van sterftegegevens en dood door de pest.
09/10/2012 9
Analyse van Graunt’s Sterfteregisters door Lodewijk & Christiaan Huygens (1669)
Lodewijk destilleerde uit Graunt’s data een tabel van het
verwachte aantal nog te leven jaren voor 10 leeftijdgroepen.
Overlevings-
kans
Leeftijd
AC = Mediane
resterende
levensduur voor
���� 20-jarige
Christiaan bedacht deze curve:
09/10/2012 10
17e-18e Eeuw: Eerste Voetstappen
1657 Huygens: Verwachte waarde
1710 Arbuthnott: Significantietest
Sterfteregisters: Graunt 1662
1e Controle groep: Lind 1747 (scheurbuik)
1669 Huygens: Plot van over- levingskans
Triangulatie Holland: Snellius 1617
(hoekmetingen) 1628 Galilei: Foutentheorie
Gokspelen: Pascal & Fermat 1654
1733 de Moivre: Normale ver- deling als benadering
1774-1814 Laplace en Gauss: Grondslag theorie Statistiek
1764 Bayes: Inductieve bewijs- voering
Politieke anatomie: Petty 1672
(Ierland)
Triangulatie van de Pacific: Captain Cook 1770
Demografie: Süssmilch 1741
09/10/2012 11
19e-begin 20e Eeuw: Hoogtij van Populaties
1809 Gauss: Kleinste Kwadraten 1e Opinie onderzoek:
Harrisburg, PA 1824
Quota steekproeven: Gallup 1936 1925 Fisher: Statistical Methods for Research Workers
1857 Nightingale: Pooldiagram & case-control studie
1888 Galton: Correlatie
1888 Edgeworth: Stats of Exams
1900 Pearson: Chi-kwadraat 1897 Yule: Multipele correlatie
UK Testbatterijen voor India 1833
L’Homme Moyenne: Quetelet 1835
Snow en Farr: 1853 Epidemiologie (cholera)
Representatieve
steekproeven: Kiaer 1895
Psychometrisch Lab: Galton 1879
09/10/2012 12
Wordt Ontwikkeling van de Statistiek
Gedreven door Evolutie?
Dan zou sprake moeten zijn van:
1. Fylogenetische stamboom (Tree-of-Life Hypothesis)
2. Natuurlijke selectie (Survival of the Fittest)
Darwin’s visioen van de
Tree-of-Life:
Zo hebben kennisgebieden
zich misschien wel, maar
heeft de statistiek zich niet
ontwikkeld. Hoe dan wel?
09/10/2012 13
Statistiek als Multidisciplinair Stroomgebied
We zagen dat altijd “toepassing” eerst kwam, en daarna
pas een theoretische rechtvaardiging. Nieuwe problemen
ontstaan upstream en kunnen mainstream worden.
Dus ik denk:
Epidemiologie
Demografie
Geodesie
Psychometrie Mainstream
Statistics
09/10/2012 14
Zelfde Problemen ➨➨➨➨ Zelfde Oplossingen
In biologische evolutie kunnen ongerelateerde soorten door
selectieve druk van de omgeving toch hetzelfde biologische
kenmerk ontwikkelen: convergente evolutie.
➨➨➨➨ Statistiek vertoont dit verschijnsel ook
09/10/2012 15
Uitdagingen van Deze Tijd
Actuele ontwikkelingen zijn:
•••• “Evidence-Based” diagnoses,
interventies en beleidsmaat-
regelen (E-B medisch handelen,
E-B didaktiek, E-B recht, E-B
organisatieverandering,…)
•••• “Big data”, bijv. hele populaties,
of heel veel variabelen (fMRI data, micro-array data),
of allebei (streaming video recording).
Convergente evolutie impliceert dat nieuwe statistische
uitdagingen in veld A misschien al opgelost zijn in veld B.
09/10/2012 16
IBM Watson Defeats Humans in “Jeopardy”
09/10/2012 17
Next Project: Instant Medical Diagnosis
Los AngelesTimesLos AngelesTimesLos AngelesTimesLos AngelesTimes , 11 september 2011:
“That’s the idea behind a new partnership between insurance
giant WellPoint Inc. and IBM. Watson supercomputer will
diagnose medical illnesses and recommend treatment options for
patients within seconds in a new system that will debut at several
cancer centers early next year. Watson will be able to analyze 1
million books, or roughly 200 million pages of information.”
09/10/2012 18
Wat Kan en Wat niet Kan
Al 50 jaar worden er studies gedaan naar dilemma
“Klinisch Oordeel versus Statistische Predictie”.
Meta-analyse van Ægisdóttir et al. (2006) laat zien dat:
•••• Professionele gebieden waar Klinisch Oordeel wint:
Academische studiekeuze: 0.70 ─ 0.46
Hersenbeschadiging (1981): 0.79 ─ 0.72
•••• Professionele gebieden waar Statistische Predictie wint:
Academische slaagkans: 0.53 ─ 0.64
Moorddadigheid: 0.50 ─ 0.83
Jeugdcriminaliteit: 0.65 ─ 0.90
Prognose psychose: 0.43 ─ 0.78
(Hit
rates)
(idem)
09/10/2012 19
Concluderend
1. ”Populatie” als concept duikt op in bijna alle empirische
wetenschappen, en ook in de praktijk (vgl. “generiek”).
2. ” Toeval” is geen orakel, maar staat ons ten dienste als
garantie tegen vooringenomenheid—geeft ons aselecte
uitspraken over populaties, aselecte steekproeven,
aselecte toewijzing aan experimentele behandelingen, …
3. Statistiek wordt voortgedreven door oplossingen voor
problemen uit diverse disciplines, met bestaansrecht.
4. Kwantitatieve aanpak heeft zijn beperkingen:
misschien is de juiste variabele niet (nooit?)
voorhanden.