Post on 16-Apr-2017
Presentatie 29 september 2016Provincie Noord-Holland
Erik van der Zee (Geodan)
'Big Data’ dit toverwoord zoomt al tijden rond. Maar wat is het nu precies? En wat kunnen we er nu wel en niet mee binnen de overheid? En specifiek bij de provincie? Wat zijn de voordelen? En toch de ‘gevaren’?
Tijdsduur 90 minuten
Locatie Claus
Max 40 deelnemers
Drs. Erik van der Zee◦ Fysisch Geograaf and Bedrijfseconoom
◦ Senior Consultant Geo-ICT en GIS bij Geodan
◦ PhD Kandidaat “Added value of Location in Smart Cities”
◦ E-mail Erik.van.der.Zee@geodan.nl
◦ Twitter @erikvanderzee
Input Barteld Braaksma (CBS) voorbeelden Big Data gebruik CBS
Input Dick Eertink (Kadaster) voorbeelden Big Data gebruik Kadaster
Wat is Big Data
Big Data Opslag
Big Data Analyse
Big Data Analyse Tools
Big Data en Artificial Intelligence
Big Data en Smart Cities
Voorbeelden gebruik Big Data NL overheid
Big Data “Kwesties”
Samenvatting en Conclusies
Quiz! Kilobyte 103
Megabyte 106
Gigabyte 109
Terabyte 1012
Petabyte 1015
Exabyte 1018
Zettabyte 1021
Yottabyte 1024
Brontobyte 1027
Gegobyte 1030 ( = 1.000.000.000.000.000.000.000.000.000.000 byte…)
Wat is Big Data
IBM “Any data that cannot be captured, managed, and/or processed using traditional data management components and techniques”
Gartner “High-Volume, high-Velocity and high-Variety information that demands innovative forms of information processing for enhanced insight and decision making”
450 Exabyte shipped in 2011 (Seagate)
7000 Exabyte opslagcapaciteit vraag in 2020
Steeds meer data creators (mensen + smart things “IoT”) Steeds meer content soorten (gestructureerd en ongestructureerd) Steeds meer variabelen (“phenomena”) Steeds meer delen via social networks (data duplicatie) Steeds meer bewaren (data, logfiles, “omdat het kan”) Steeds meer data combineren (“data met data” bvb output GIS analyse) Steeds meer voorspellen (extrapoleren, model output, scenarios)
Steeds hogere resoluties Ruimtelijke resolutie xy(z)
Tijd(sinterval) resolutie van snapshots (“pictures”) naar continuous streams (“movies”)
Meetspectrum (“banden”) van Multi-spectral naar Hyper-spectral (“data cubes”) Denk bvb Foto’s/Video’s maar ook aan AHN1, AHN2, AHN3, …
Steeds minder analoge data
Steeds meer ongestructureerde data
Veel Big Data heeft een locatie component◦ Direct Lat,Long of x,y,(z)
◦ Indirect Joinen met geospatial objects bvb BAG Panden of Adressen via bvb PC6+Huis# of BAG ID
Voorbeelden Spatial Big Data
EU Copernicus programma
Sentinel Satellites (open remote sensing data)
3.000 TB/year (~8 TB/day) raw data
Zeer hoge resolutie images die grote gebieden afdekken
http://www.gigapan.com/galleries/11203/gigapans/152220 (demo)
DARPA’s big eye: ARGUS-IS 1.8-Gigapixel camera for air surveillance◦ Clear images of objects as small as 15 centimeters from
an altitude of six kilometers◦ One gigapixel is equal to 1,000 megapixels. For
comparison: Modern professional digital cameras have a resolution of about 20 megapixels
1.000.000TB per day…
City Wide Video Surveillance… http://youtu.be/6VkKeM-OK6g?t=8m6s
Selfdriving Cars / Drones (laserscanners)
1 Gigabyte every second = 2 Petabyte data per auto per jaar…
Google Tango
Georeferenced Social Media Content
Voorbeeld http://onemilliontweetmap.com
Internet of Things &
Smart Cities
Smart Internet Connected devices Thing
+Micro computer (Arduino / Raspberry Pi / MEMS)
+ Sensors en Actuators
+ Internet connection
+ Digital identity (avatar + interactie mogelijkheden via API)
= “Smart” Thing
Héél veel Smart Things = “Internet of Things”
Héél veel Smart Things = Héél veel Data…
+ + + +Thing Computer
Sensor(s) and/or
Actuator(s)
InternetConnection
Digital Identity
(“avatar”)
=Smart Thing
Things…
Arduino
Raspberry Pi
Netduino Waspmote
Beagleboard Smart Citizen
Kit
Facebook of Things…
* US Billion = NL Miljard ** US Trillion = NL Biljoen = 1000 Miljard
* ** * **
SensingAnalysis andPrediction
Act(uat)ingraw events meaningful
events
Waarnemen
(data creatie)
Aansturen / notificeren /
routeren van objecten en
subjecten
Beschikbaarstelling
Open sensor data
Beschikbaarstelling
Analyses
Beschikbaarstelling
Acties
Sensing Analysis Act(uat)ing
Complex Event Processing (CEP)
Event processing
Complex Event Processing (CEP)(meerdere sensor streams)
“Temp. > 30°C”
“Wind < 5km/u”
“Temp. > 30°C” AND “Wind < 5km/u”
Alarmmelding “Smog risico”(“meaningful event”)
“Temp. > 30°C”
Alleen overgangen meten
Big Data Storage
Big Data Analysis
Steeds meer data leidt niet noodzakelijkerwijs tot informatie (inzicht) …
Big Data Analyse + Visualisatie nodig
Analyse van Verleden (historische data) Heden(real-time data) en Toekomst (model output)
Gestructureerde data vs Ongestructureerde data
Steeds meer informatie uit ongestructureerde data door slimme algoritmes (tekst / gezicht / object herkenning, ...) “convert to structured”
Visualisatie hoort ook bij analyse “een kaart meer zegt dan 1000 woorden” Voor Big Data nieuwe visualisaties, bvb “event
tunnels”, dynamische spider diagrammen (grafen) (zie bvb www.d3js.org)
Big Data Analytics Tools
“Traditional” BI tools (Tableau / Qlik etc.)
Big IT providers MS Azure / IBM / Amazon
Palantir
Synerscope (NL - Helvoirt)
Hadoop Ecosystem of Tools
Apache Hadoop is “An open-source software framework for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware”◦ HDFS Hadoop Distributed File System is a file
system designed for storing very large files
◦ MapReduce Processing and computing the data
Big Data & Artificial Intelligence…
(deep learning)
Narrow AI◦ Virtual Personal Assistants Siri, Google Now, Cortana, etc.◦ Gedrag van virtuele spelers in Video Games◦ Self Driving (smart) Cars◦ Purchase Prediction (bvb welke boodschappen je nodig hebt o.b.v.
koelkast inhoud en agenda;"morgen feestje voor x people")◦ Fraud Detection (monitoren mogelijk misbruik creditcards)◦ Online Customer Support (chat bots)◦ News Generation (automatisch schrijven van teksten)◦ Security Surveillance (monitoring of 1000s of cameras)◦ Music and Movie Recommendation Services◦ Smart Home Management (based on behavior patterns)◦ Computer Aided Diagnostics and Advice (medical, law)
General AI◦ Kijk “Ex Machina”, Kijk “HER” (films over AI)◦ Musk|Hawking AI Open Letter http://futureoflife.org/ai-open-letter/
Gebruik van Big Data
(Voorbeelden uit Nederland)
Rijk◦ Politie en Inlichtingendiensten◦ Diverse Landelijke Meetnetten (KNMI, RWS, RIVM, NSO/ESA)
KNMI Meteorologie, Seismiek
RWS NDW Netwerk + LM Water + Zwemwater
RIVM LM Lucht, Bodem, Grondwater, Radioactiviteit, Mest, Hemelhelderheid, Geluid (Schiphol)
◦ Grote admin. gegevensverzamelingen o.a. Belastingdienst, CBS, …◦ Smart City werkgroepen bij Ministeries (EZ/IenM/…)◦ NS/ProRail projecten Virtuele Trein / Virtuele Infra◦ RWS Strategische visie op Big Data
Waterschappen (meet- en regelsystemen water management) Milieudiensten / RUDs Meetnetten luchtkwaliteit Provincies (…) Gemeenten (“Living Labs” in diverse steden, parkeersensoren, tracking &
tracing informatie stad- en streekvervoer, smart bins, …) Onderwijs (universiteiten) en onderzoeksinstituten (LOFAR meetnet) Geonovum Platform MS4S
Handhaving luchtkwaliteitsnormen
Handhaving geluidsnormen
Clean-up (cars) Event start
End of
event
Eindhoven (crowd control pilot)
3D modellen bomen o.b.v. AHN2/3 point clouds + satellietbeelden
Boomspecificaties afleiden (stam- en kruinhoogte, stam- en kruinbreedte, boom type etc.)
Exacte aantallen + type bomen in NL
Efficiëntere routeringen
Minder uitstoot Nox/fijnstof
Vermindering uitstoot door efficiënter parkeren (minder rondjes rijden Minder NOx uitstoot)
Landelijke meetnetten (GW/OW/Meteo)
Water Management en Modellering
Sensing – Analysis – Acting (sluizen)
Nationaal Datawarehouse Wegverkeergegevens (NDW) Dynamisch verkeersmanagement bijsturen
verkeersstromen bij files en overschrijding van normen (geluid/luchtkwaliteit) in bepaald gebied
Airquality Egg (www.airqualityegg.com)
SmartCitizen Kit (www.smartcitizen.me)
ISPEX (crowd sourcing)
Meting aerosols met smart phones
Citizen Science project RIVM (crowd sourcing)
Verdichting landelijke meetnetten
Schepen http://www.marinetraffic.com/ais/
Vliegtuigen http://radar.vlieghinder.nl◦ Geluidsensors (meting geluidsoverlast Schiphol)
◦ Realtime informatie vliegtuigen (snelheid, locatie, type, etc.)
Treinen
…
Verkeerslussen naar reguliere productie
115 miljard metingen
80TB aan data
• Statistieken gepubliceerd op 8 januari; zelfde week al (!)
• Op basis van verkeerslusdata
Analyse: CBS
Dataleverancier: Coosto
• Dichtbij reguliere productie
• Alleen nog Vodafone cijfers
• Diverse toepassingen
• Gesprekken met mogelijke gebruikers lopen
Wat is de toekomstige rol van officiële statistiek?◦ Vraag naar real-time, hoog-frekwente en ruimtelijk
gedetailleerde informatie◦ Informatie vs. interpretatie/voorspellingen/advies◦ Wat moeten we aan de markt overlaten?◦ Time-to-market moet korter
Aandachtspunt: privacy van individuen en groepen◦ Wettelijke eisen en ethische principes ◦ Wat vindt het publiek acceptabel gebruik van data?◦ Europese Praktijkcode voor Statistiek is ons richtsnoer ◦ Transparantie is essentieel!
90.000 nieuwe percelen per jaar
600.000 KLIC-meldingen
800.000 inschrijvingen openbaar register
22.600.000 inzagen Kadaster-on-line
1.700.000.000 web service requests PDOK
Mini-Brainstorm
Heeft de Provincie NH Big Data?
Doet de Provincie NH iets met Big Data?
Heeft de Provincie ambities o.h.g.v. Big Data?
Big Data Kwesties
Privacy en Security (wetgeving|hacking)
Standaarden (interoperability)
Visie en Strategie (beleid)
Architectuur (systeem integratie)
Kennis en Vaardigheden (opleiding)
Gesloten vs Open data (Eigendom)
Beheer (data kwantiteit en kwaliteit)
Verzameling van data vaak gekoppeld aan publieke taken gezondheidsgegevens, verkeersdoorstroming. Vaak ook bijproduct (telecom gegevens)
Niet alle data mogen zo maar verzameld, bewerkt en verspreid worden
Rekening houden met Privacy, (Staats)veiligheid, Doelbinding, Bewaartermijnen, en Intellectueel Eigendom
Wet en regelgeving loopt vaak achter de feiten aan
Smart Things hebben vendor specifieke datamodellen + API protocols + applicaties (“een app
voor ieder thing…”)
Standaarden zijn er inmiddels wel… maar worden niet gebruikt
◦ Awareness ontbreekt bij gemeenten
◦ Vendor Lock-in (gaan voor de snelle oplossing)
Lastig om een overall (city scale) geïntegreerd beeld te krijgen
Sensor data delen met buurgemeenten
API1 API2 API3 API…
Syst.Vendor1
Syst.Vendor2
Syst.Vendor3
Syst.Vendor
Sensor Data 1
Sensor Data 2
Sensor Data 3
Sensor Data …
App 1 App 2 App 3 App …
Energy Water Transport Environment
API1
Syst.Vendor1
Sensor Data 1
App 1
API2
Syst.Vendor2
Sensor Data 2
App 2
API3
Syst.Vendor3
Sensor Data 3
App 3
API…
Syst.Vendor
Sensor Data …
App …
OGC SWE / Sensor Things
Standaarden
◦ Bieden standaard datamodel en API
beschrijvingen voor Smart Things
◦ Integratie informatie afkomstig van
verschillende vendors
◦ Interoperability tussen systemen in
/ tussen Smart Cities mogelijk
Smart City Interoperability
API1 API2 API3 API…
Syst.Vendor1
Syst.Vendor2
Syst.Vendor3
Syst.Vendor
Sensor Data 1
Sensor Data 2
Sensor Data 3
Sensor Data …
Smart City Informatie
model (IMSC)
Real-Time Datamodel Transformation
Smart City SensorThings
API
Smart City SDKs
Smart City A Smart City B
Standaard APIs
Standaard APIs
City Applicaties
API1
Syst.Vendor1
Sensor Data 1
API2
Syst.Vendor2
Sensor Data 2
API3
Syst.Vendor3
Sensor Data 3
API…
Syst.Vendor
Sensor Data …
Data standaarden (semantiek)
Uitwisselingsstandaarden◦ OGC SensorThings API / Datamodel
Samenvatting en Conclusies
Big Data◦ Big Raster data (VHR images, video)◦ Big Vector data (point clouds)◦ Real-Time Sensor data (Internet of Things)
Big Data Analyse◦ Heden-Verleden-Toekomst◦ Image Processing (Object/Beeld/Tekst herkenning)
Artificial Intelligence◦ Big Data + Feedback = Deep Learning
Voorbeelden Big Data analyse in Nederland◦ Banken, Verzekeringen, Security, Kritische Infrastructuur
(transport, energy, water, oil&gas, telecommunication)◦ Rijkswaterstaat Nationaal Datawarehouse Wegverkeer (NDW)◦ Experimenten bij CBS|Kadaster◦ Provincies… (not so much yet)
Big Data zinvol in Fysieke Leefomgeving◦ Real-Time VTH (toetsing op normen uit de
omgevingswet m.b.v. sensoren: geluidsbelasting / lucht- & waterkwaliteit / etc.)
◦ Gebruik van satelliet data (near real-time beelden van Nederland)
Huidige Meetnetten beter gebruiken◦ Beschikbaar stellen Open Sensor Data APIs
◦ Verdichting meetnetten d.m.v. crowd sourcing
Uitdaging Big Data Analytics koppelen aan VTH processen
1. Verdiepen in het onderwerp Theoretische aspecten big data
2. Inventariseer welke Big Data een provincie heeft en wat je daarmee
zou kunnen doen (“aan de slag” testbeds, pilots Smart Provincie)
3. Visie ontwikkelen (provincies) op Big Data (inspiratie RWS)
gekoppeld aan provinciale thema’s en Smart City ambities van
gemeenten
4. Kennis delen en ervaring opdoen o.h.g.v. Big Data (bvb Prov.
Wegen), Smart Environments en IoT via bvb Geonovum Platform
MS4S
5. Voortrekkersrol nemen o.h.g.v. ontwikkeling van smart cities in de
eigen provincie
Nederland volledig 3D gefotografeerd en laserscanned
Continue bijhouding 3D model via drones /self-driving cars
Gecombineerd met continue real-time data van smart things
Now THATs Big…
Vragen?
Drs. Erik van der Zee
T +31 (0)20 5711 311M +31 (0) 6 1009 9691E erik.van.der.zee@geodan.nlI www.geodan.nlT @erikvanderzee
President Kennedylaan 11079MB AmsterdamThe Netherlands