Big Data - Piet Daas (CBS)

Click here to load reader

  • date post

    13-May-2015
  • Category

    Business

  • view

    1.141
  • download

    0

Embed Size (px)

Transcript of Big Data - Piet Daas (CBS)

  • 1.Statistiek en Big Data:De kracht vandatavisualisaties Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Symposium, 27 September Nyenrode

2. Centraal Bureau voor de Statistiek Taak: het publiceren van betrouwbare ensamenhangende statistische informatie, dieinspeelt op de behoefte van de samenleving. in 2012 zon kleine 5000 officile publicaties & tabellen Doel: maximale vermindering van administratievelasten Door bestaande administratieve bestanden tehergebruiken. Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Symposium 27 Sept. Nyenrode 1 3. CBS en gegevensFlinke verandering in gebruik beschikbare informatie voorstatistiekproductie: 1. Enqutegegevens (steeds minder)Per enqute tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)Per bron tot 20 miljoen records per maand 3. Ook steeds meer nieuwe bronnen (Big Data)Per bron zon ~80 miljoen records per dagBig Data Symposium 27 Sept. Nyenrode 2 4. CBS en gegevens (2) Er is steeds meer en steeds vaker data beschikbaar: Van Data schaarste (steekproef-) naar Data overdaad Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden Meer aandacht voor selectiviteit en datatransformatie Meer mogelijkheden voor snelle cijfers (real-time statistics) Behoefte aan nieuwe methoden en tools Statistische methoden geschikt voor grote datasets Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Symposium 27 Sept. Nyenrode3 5. Nieuwe ontwikkelingenVoorbeelden uit de praktijk1) Visualisatie-methoden om snel inzicht te krijgenin grote hoeveelheden gegevensa. Virtuele Volkstelling (17 miljoen records)b. Polisadministratie(20 miljoen records)2) Bevindingen van onderzoek gebruik Big Databronnenc. Verkeerslusgegevens (80 miljoen records)d. Mobiele telefonie (~500 miljoen records)e. Sociale media (12 milj. - 1 miljard records)Big Data Symposium 27 Sept. Nyenrode4 6. Voorbeeld a. Virtuele Volkstelling Volkstelling is verplicht, eens in 10-jaar In Nederland niet meer met vragenlijsten Laatste traditionele volkstelling in 1971 Nu door (her)gebruik van reeds verzameldeinformatie Grootschalig koppelen van administratieve bronnen en enqutegegevens Controleren en bijschatten Hoe controleren? Met een visualisatiemethode: TableplotBig Data Symposium 27 Sept. Nyenrode5 7. Uitleg maken Tableplot1.Bestand laden 17 miljoen records2.Records sorteren op waarde17 miljoen recordsvan sleutelvariabelein dit geval leeftijd3.Samenvoegen records 100 groepen (elk 170.000 records)Numerieke variabelen Bereken gemiddelde (gem. leeftijd)Categoriale variabelen Verhouding aanwezige categorien (man vs vrouw)4.Plaatje plotten van geselecteerd aantal variabelen Kleurgebruik belangrijk Big Data Symposium 27 Sept. Nyenrode6 8. Big Data Symposium 27 Sept. Nyenrode Een tableplot van het testbestand 9. Voorbeeld b: Polisadministratie Bestand met de financile gegevens vanalle banen, uitkeringen en pensioenen inNederland Verzameld door Belastingdienst en UWV Elke maand 20 miljoen records Hoe krijgen we inzicht in deze enorme bakdata? Met een visualisatie: heat mapBig Data Symposium 27 Sept. Nyenrode8 10. Heatmap: Leeftijd, InkomenBig Data Symposium 27 Sept. Nyenrode 9 11. In 3D heatmap: Leeftijd, Inkomen, AantalNa in dikkenl eeftijd l eef tijdBig Data Symposium 27 Sept. Nyenrode10 12. Voorbeeld c: Verkeerslusgegevens Verkeerslussen Elke minuut (24/7) wordt het aantalpasserende voertuigen op ~10.000meetpunten in Nederland geteld Totaal en in verschillende lengtecategorien Mooie bron om verkeer- en vervoerstatistiekenmee te maken Veel data, zon 80 miljoen records per dagBig Data Symposium 27 Sept. Nyenrode11 13. Aantal gedetecteerde voertuigen op n dag in NL Alle locatiesBig Data Symposium 27 Sept. Nyenrode 12 14. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Symposium 27 Sept. Nyenrode13 15. Aantal gedetecteerde voertuigen op n dag in NLAlle locaties Totaal = ~ 295 miljoenBig Data Symposium 27 Sept. Nyenrode14 16. Grote voertuigen vs alle voertuigenWagens > 5.6 m(vrachtwagens)Alle voertuigen Na normaliserenBig Data Symposium 27 Sept. Nyenrode15 17. Op niveau van de afzonderlijke lussenBig Data Symposium 27 Sept. Nyenrode16 18. Voorbeeld d: Mobiele telefoon Vrijwel elke Nederlander heeft een mobieltje Bijna altijd bij zich en staat vrijwel altijd aan Steeds meer mensen hebben een smartphone! Ideale informatiebron om: Met behulp van registraties van providers: Verplaatsingsgedrag (Dag-populatie) Toerisme (nieuwe aanmeldingen op netwerk) Mensenmassas (bijv. bij evenementen) Als meetinstrument te gebruiken voor: Vragenlijsten (via App, SMS of browser) Maken van fotos van producten, kassabonnen en streepjescodes Doorgeven exacte locatie (GPS) Etc.Big Data Symposium 27 Sept. Nyenrode 17 19. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers- gedurende 14 dagen- van n provider Gebaseerd op:- Bel- en SMS-activiteitmeer dan 1x / dag- Locatie telefoonmasten Duidelijk selectief:- Wel de grote steden- Nauwelijks t noordenen ZeelandBig Data Symposium 27 Sept. Nyenrode 18 20. Voorbeeld e: Sociale media Nederlanders zijn erg actief op sociale media Bijna altijd bij zich en staat vrijwel altijd aan Steeds meer mensen hebben een smartphone! Mogelijke informatiebron voor: Welke onderwerpen zijn actueel: Aantal berichten en sentiment hierover Als meetinstrument te gebruiken voor: .Map by Eric Fischer (via Fast Company)Big Data Symposium 27 Sept. Nyenrode 19 21. Sociale media: Nederlandstalige berichten Nederlanders zijn erg actief op sociale media Mogelijke informatiebron: Aantal berichten over en sentiment t.a.v. bepaaldeonderwerpen (snel beschikbaar!) Testen om het nut te controlerenDatabase met meer dan een miljard openbare Nederlandstalige berichtenBig Data Symposium 27 Sept. Nyenrode 20 22. Sociale media: Twitter onderwerpen Onderwerpen Twitter Werk(5%) Relaties Wonen EconomieMilieu Weer ICT Gezondheid Onderwijs (3%) PolitiekVeiligheidThemasVervoerVrije tijd (10%) Vakantie Cultuur/events Sport(7%)MediaOverige(46%) 0 10203040 50Bijdrage (%)12 miljoen berichtenBig Data Symposium 27 Sept. Nyenrode 21 23. Afsluitend: Statistiek en Big Data Geschikt maken voor statistisch gebruik is veel werk Vooronderzoek nodig, kost veel tijd Informatiereductie nodig (indikken; small data) Risico: garbage in garbage statistics out Traditionele aanpak schiet te kort Het zijn geen steekproefgegevens meer Betreft vaak een selectief maar groot deel van de populatie Soms te veel data (overdekking & teveel detail) Bij standaard analyses wordt alles significant! Meer behoefte aan: Visualisatiemethoden (om snel inzicht te krijgen) Snelle methoden en niet-lineaire schatters Computational statistics (& snelle hardware) Privacy-eisen worden hoger!Big Data Symposium 27 Sept. Nyenrode22 24. Big Data Symposium 27 Sept. Nyenrode De toekomst van het CBS?