Big Data - Piet Daas (CBS)

24
Statistiek en Big Data: De kracht van datavisualisaties Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Symposium, 27 September Nyenrode

Transcript of Big Data - Piet Daas (CBS)

Page 1: Big Data - Piet Daas (CBS)

Statistiek en Big Data:De kracht vandatavisualisaties

Piet Daas, Martijn Tennekes, Edwin de Jonge,Alex Priem en Merijn van Pelt

Centraal Bureau voor de Statistiek

Big Data Symposium, 27 September Nyenrode

Page 2: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Centraal Bureau voor de Statistiek

• Taak: “het publiceren van betrouwbare ensamenhangende statistische informatie, dieinspeelt op de behoefte van de samenleving”.• in 2012 zo’n kleine 5000 officiële publicaties & tabellen

• Doel: maximale vermindering van administratievelasten• Door bestaande administratieve bestanden te

hergebruiken.• Kijken naar de nieuwe bronnen van informatie: Big Data!

1

Page 3: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

CBS en gegevens

Flinke verandering in gebruik beschikbare informatie voorstatistiekproductie:

1. Enquêtegegevens (steeds minder) Per enquête tot max. 100.000 records per jaar

2. Administratieve bronnen (steeds meer) Per bron tot 20 miljoen records per maand

3. Ook steeds meer ‘nieuwe’ bronnen (Big Data) Per bron zo’n ~80 miljoen records per dag

2

Page 4: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

• Er is steeds meer en steeds vaker data beschikbaar:

• Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’• Steeds grotere hoeveelheden data moeten snel

gecontroleerd, verwerkt en geanalyseerd worden• Meer aandacht voor selectiviteit en datatransformatie• Meer mogelijkheden voor snelle cijfers (‘real-time

statistics’)

• Behoefte aan nieuwe methoden en tools• Statistische methoden geschikt voor grote datasets• Denk aan: visualisatie methoden en data-, tekst- en

stream-mining technieken

CBS en gegevens (2)

3

Page 5: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Nieuwe ontwikkelingen

• Voorbeelden uit de praktijk1) Visualisatie-methoden om snel inzicht te krijgen

in grote hoeveelheden gegevensa. Virtuele Volkstelling (17 miljoen records)b. Polisadministratie (20 miljoen records)

2) Bevindingen van onderzoek gebruik Big Databronnen

c. Verkeerslusgegevens (80 miljoen records)d. Mobiele telefonie (~500 miljoen records)e. Sociale media (12 milj. - 1 miljard records)

4

Page 6: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Voorbeeld a. Virtuele Volkstelling

• Volkstelling is verplicht, eens in 10-jaar• In Nederland niet meer met vragenlijsten• Laatste traditionele volkstelling in 1971

• Nu door (her)gebruik van reeds verzameldeinformatie• Grootschalig koppelen van administratieve bronnen en

enquêtegegevens• Controleren en bijschatten• Hoe controleren?• Met een visualisatiemethode: Tableplot

5

Page 7: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Uitleg maken Tableplot

1. Bestand laden 17 miljoen records2. Records sorteren op waarde 17 miljoen records

van sleutelvariabele• in dit geval leeftijd

3. Samenvoegen records 100 groepen (elk 170.000 records)• Numerieke variabelen

• Bereken gemiddelde (gem. leeftijd)• Categoriale variabelen

• Verhouding aanwezige categorieën (man vs vrouw)

4. Plaatje ‘plotten’ van geselecteerd aantal variabelen• Kleurgebruik belangrijk

6

Page 8: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode Een tableplot van het testbestand

Page 9: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens vanalle banen, uitkeringen en pensioenen inNederland• Verzameld door Belastingdienst en UWV• Elke maand 20 miljoen records

• Hoe krijgen we inzicht in deze enorme bakdata?• Met een visualisatie: heat map

8

Page 10: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Heatmap: Leeftijd, ‘Inkomen’

9

Page 11: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

leeftijd

In 3D heatmap: Leeftijd, Inkomen, AantalNa ‘indikken’

leeftijd

10

Page 12: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen• Elke minuut (24/7) wordt het aantal

passerende voertuigen op ~10.000meetpunten in Nederland geteld• Totaal en in verschillende lengtecategorieën

• Mooie bron om verkeer- en vervoerstatistiekenmee te maken• Veel data, zo’n 80 miljoen records per dag

11

Page 13: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Aantal gedetecteerde voertuigen op één dag in NL

Alle locaties

12

Page 14: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Registratie activiteit verkeerslussen (eerste 10 min)

13

Page 15: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Aantal gedetecteerde voertuigen op één dag in NL

Alle locaties

14

Totaal = ~ 295 miljoen

Page 16: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Grote voertuigen vs alle voertuigen

Wagens > 5.6 m(vrachtwagens)

Alle voertuigen

Na normaliseren

15

Page 17: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode 16

Op niveau van de afzonderlijke lussen

Page 18: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Voorbeeld d: Mobiele telefoon

• Vrijwel elke Nederlander heeft een ‘mobieltje’• Bijna altijd bij zich en staat vrijwel altijd aan• Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:• Met behulp van registraties van providers:• Verplaatsingsgedrag (‘Dag’-populatie)• Toerisme (nieuwe aanmeldingen op netwerk)• Mensenmassa’s (bijv. bij evenementen)

• Als meetinstrument te gebruiken voor:• Vragenlijsten (via App, SMS of browser)• Maken van foto’s van producten, kassabonnen en streepjescodes• Doorgeven exacte locatie (GPS)• Etc.

17

Page 19: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Verplaatsingsgedrag mobiele telefoons

18

Verplaatsingen van zeeractieve mobiele gebruikers

- gedurende 14 dagen- van één provider

Gebaseerd op:- Bel- en SMS-activiteit

meer dan 1x / dag- Locatie telefoonmasten

Duidelijk selectief:- Wel de grote steden- Nauwelijks ‘t noordenen Zeeland

Page 20: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Voorbeeld e: Sociale media

• Nederlanders zijn erg actief op sociale media• Bijna altijd bij zich en staat vrijwel altijd aan• Steeds meer mensen hebben een smartphone!

• Mogelijke informatiebron voor:• Welke onderwerpen zijn actueel:• Aantal berichten en sentiment hierover

• Als meetinstrument te gebruiken voor:• .

Map by Eric Fischer (via Fast Company)

19

Page 21: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Sociale media: Nederlandstalige berichten

Database met meer dan een miljard openbare Nederlandstalige berichten

• Nederlanders zijn erg actief op sociale media• Mogelijke informatiebron:• Aantal berichten over en sentiment t.a.v. bepaalde

onderwerpen (snel beschikbaar!)• Testen om het nut te controleren

20

Page 22: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Sociale media: Twitter onderwerpenOnderwerpen Twitter

Bijdrage (%)

0 10 20 30 40 50

Thema's

OverigeMediaSport

Cultuur/eventsVakantieVrije tijdVervoer

VeiligheidPolitiek

OnderwijsGezondheid

ICTWeerMilieu

EconomieWonen

RelatiesWerk

21

(46%)

(10%)

(7%)

(3%)

(5%)

12 miljoen berichten

Page 23: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode

Afsluitend: Statistiek en ‘Big Data’• Geschikt maken voor statistisch gebruik is veel werk• Vooronderzoek nodig, kost veel tijd• Informatiereductie nodig (‘indikken’; ‘small’ data)• Risico: ‘garbage in’ ‘garbage statistics out’

• Traditionele aanpak schiet te kort• Het zijn geen steekproefgegevens meer• Betreft vaak een selectief maar groot deel van de populatie• Soms te veel data (overdekking & teveel detail)• Bij standaard analyses wordt alles significant!

• Meer behoefte aan:• Visualisatiemethoden (om snel inzicht te krijgen)• Snelle methoden en niet-lineaire schatters• ‘Computational statistics’ (& snelle hardware)• Privacy-eisen worden hoger!

22

Page 24: Big Data - Piet Daas (CBS)

Big Data Symposium 27 Sept. Nyenrode De toekomst van het CBS?