Presentatie big data provincie Noord-Holland (concern dag)

Post on 16-Apr-2017

92 views 0 download

Transcript of Presentatie big data provincie Noord-Holland (concern dag)

Presentatie 29 september 2016Provincie Noord-Holland

Erik van der Zee (Geodan)

'Big Data’ dit toverwoord zoomt al tijden rond. Maar wat is het nu precies? En wat kunnen we er nu wel en niet mee binnen de overheid? En specifiek bij de provincie? Wat zijn de voordelen? En toch de ‘gevaren’?

Tijdsduur 90 minuten

Locatie Claus

Max 40 deelnemers

Drs. Erik van der Zee◦ Fysisch Geograaf and Bedrijfseconoom

◦ Senior Consultant Geo-ICT en GIS bij Geodan

◦ PhD Kandidaat “Added value of Location in Smart Cities”

◦ E-mail Erik.van.der.Zee@geodan.nl

◦ Twitter @erikvanderzee

Input Barteld Braaksma (CBS) voorbeelden Big Data gebruik CBS

Input Dick Eertink (Kadaster) voorbeelden Big Data gebruik Kadaster

Wat is Big Data

Big Data Opslag

Big Data Analyse

Big Data Analyse Tools

Big Data en Artificial Intelligence

Big Data en Smart Cities

Voorbeelden gebruik Big Data NL overheid

Big Data “Kwesties”

Samenvatting en Conclusies

Quiz! Kilobyte 103

Megabyte 106

Gigabyte 109

Terabyte 1012

Petabyte 1015

Exabyte 1018

Zettabyte 1021

Yottabyte 1024

Brontobyte 1027

Gegobyte 1030 ( = 1.000.000.000.000.000.000.000.000.000.000 byte…)

Wat is Big Data

IBM “Any data that cannot be captured, managed, and/or processed using traditional data management components and techniques”

Gartner “High-Volume, high-Velocity and high-Variety information that demands innovative forms of information processing for enhanced insight and decision making”

450 Exabyte shipped in 2011 (Seagate)

7000 Exabyte opslagcapaciteit vraag in 2020

Steeds meer data creators (mensen + smart things “IoT”) Steeds meer content soorten (gestructureerd en ongestructureerd) Steeds meer variabelen (“phenomena”) Steeds meer delen via social networks (data duplicatie) Steeds meer bewaren (data, logfiles, “omdat het kan”) Steeds meer data combineren (“data met data” bvb output GIS analyse) Steeds meer voorspellen (extrapoleren, model output, scenarios)

Steeds hogere resoluties Ruimtelijke resolutie xy(z)

Tijd(sinterval) resolutie van snapshots (“pictures”) naar continuous streams (“movies”)

Meetspectrum (“banden”) van Multi-spectral naar Hyper-spectral (“data cubes”) Denk bvb Foto’s/Video’s maar ook aan AHN1, AHN2, AHN3, …

Steeds minder analoge data

Steeds meer ongestructureerde data

Veel Big Data heeft een locatie component◦ Direct Lat,Long of x,y,(z)

◦ Indirect Joinen met geospatial objects bvb BAG Panden of Adressen via bvb PC6+Huis# of BAG ID

Voorbeelden Spatial Big Data

EU Copernicus programma

Sentinel Satellites (open remote sensing data)

3.000 TB/year (~8 TB/day) raw data

Zeer hoge resolutie images die grote gebieden afdekken

http://www.gigapan.com/galleries/11203/gigapans/152220 (demo)

DARPA’s big eye: ARGUS-IS 1.8-Gigapixel camera for air surveillance◦ Clear images of objects as small as 15 centimeters from

an altitude of six kilometers◦ One gigapixel is equal to 1,000 megapixels. For

comparison: Modern professional digital cameras have a resolution of about 20 megapixels

1.000.000TB per day…

City Wide Video Surveillance… http://youtu.be/6VkKeM-OK6g?t=8m6s

Selfdriving Cars / Drones (laserscanners)

1 Gigabyte every second = 2 Petabyte data per auto per jaar…

Google Tango

Georeferenced Social Media Content

Voorbeeld http://onemilliontweetmap.com

Internet of Things &

Smart Cities

Smart Internet Connected devices Thing

+Micro computer (Arduino / Raspberry Pi / MEMS)

+ Sensors en Actuators

+ Internet connection

+ Digital identity (avatar + interactie mogelijkheden via API)

= “Smart” Thing

Héél veel Smart Things = “Internet of Things”

Héél veel Smart Things = Héél veel Data…

+ + + +Thing Computer

Sensor(s) and/or

Actuator(s)

InternetConnection

Digital Identity

(“avatar”)

=Smart Thing

Things…

Arduino

Raspberry Pi

Netduino Waspmote

Beagleboard Smart Citizen

Kit

Facebook of Things…

* US Billion = NL Miljard ** US Trillion = NL Biljoen = 1000 Miljard

* ** * **

SensingAnalysis andPrediction

Act(uat)ingraw events meaningful

events

Waarnemen

(data creatie)

Aansturen / notificeren /

routeren van objecten en

subjecten

Beschikbaarstelling

Open sensor data

Beschikbaarstelling

Analyses

Beschikbaarstelling

Acties

Sensing Analysis Act(uat)ing

Complex Event Processing (CEP)

Event processing

Complex Event Processing (CEP)(meerdere sensor streams)

“Temp. > 30°C”

“Wind < 5km/u”

“Temp. > 30°C” AND “Wind < 5km/u”

Alarmmelding “Smog risico”(“meaningful event”)

“Temp. > 30°C”

Alleen overgangen meten

Big Data Storage

Big Data Analysis

Steeds meer data leidt niet noodzakelijkerwijs tot informatie (inzicht) …

Big Data Analyse + Visualisatie nodig

Analyse van Verleden (historische data) Heden(real-time data) en Toekomst (model output)

Gestructureerde data vs Ongestructureerde data

Steeds meer informatie uit ongestructureerde data door slimme algoritmes (tekst / gezicht / object herkenning, ...) “convert to structured”

Visualisatie hoort ook bij analyse “een kaart meer zegt dan 1000 woorden” Voor Big Data nieuwe visualisaties, bvb “event

tunnels”, dynamische spider diagrammen (grafen) (zie bvb www.d3js.org)

Big Data Analytics Tools

“Traditional” BI tools (Tableau / Qlik etc.)

Big IT providers MS Azure / IBM / Amazon

Palantir

Synerscope (NL - Helvoirt)

Hadoop Ecosystem of Tools

Apache Hadoop is “An open-source software framework for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware”◦ HDFS Hadoop Distributed File System is a file

system designed for storing very large files

◦ MapReduce Processing and computing the data

Big Data & Artificial Intelligence…

(deep learning)

Narrow AI◦ Virtual Personal Assistants Siri, Google Now, Cortana, etc.◦ Gedrag van virtuele spelers in Video Games◦ Self Driving (smart) Cars◦ Purchase Prediction (bvb welke boodschappen je nodig hebt o.b.v.

koelkast inhoud en agenda;"morgen feestje voor x people")◦ Fraud Detection (monitoren mogelijk misbruik creditcards)◦ Online Customer Support (chat bots)◦ News Generation (automatisch schrijven van teksten)◦ Security Surveillance (monitoring of 1000s of cameras)◦ Music and Movie Recommendation Services◦ Smart Home Management (based on behavior patterns)◦ Computer Aided Diagnostics and Advice (medical, law)

General AI◦ Kijk “Ex Machina”, Kijk “HER” (films over AI)◦ Musk|Hawking AI Open Letter http://futureoflife.org/ai-open-letter/

Gebruik van Big Data

(Voorbeelden uit Nederland)

Rijk◦ Politie en Inlichtingendiensten◦ Diverse Landelijke Meetnetten (KNMI, RWS, RIVM, NSO/ESA)

KNMI Meteorologie, Seismiek

RWS NDW Netwerk + LM Water + Zwemwater

RIVM LM Lucht, Bodem, Grondwater, Radioactiviteit, Mest, Hemelhelderheid, Geluid (Schiphol)

◦ Grote admin. gegevensverzamelingen o.a. Belastingdienst, CBS, …◦ Smart City werkgroepen bij Ministeries (EZ/IenM/…)◦ NS/ProRail projecten Virtuele Trein / Virtuele Infra◦ RWS Strategische visie op Big Data

Waterschappen (meet- en regelsystemen water management) Milieudiensten / RUDs Meetnetten luchtkwaliteit Provincies (…) Gemeenten (“Living Labs” in diverse steden, parkeersensoren, tracking &

tracing informatie stad- en streekvervoer, smart bins, …) Onderwijs (universiteiten) en onderzoeksinstituten (LOFAR meetnet) Geonovum Platform MS4S

Handhaving luchtkwaliteitsnormen

Handhaving geluidsnormen

Clean-up (cars) Event start

End of

event

Eindhoven (crowd control pilot)

3D modellen bomen o.b.v. AHN2/3 point clouds + satellietbeelden

Boomspecificaties afleiden (stam- en kruinhoogte, stam- en kruinbreedte, boom type etc.)

Exacte aantallen + type bomen in NL

Efficiëntere routeringen

Minder uitstoot Nox/fijnstof

Vermindering uitstoot door efficiënter parkeren (minder rondjes rijden Minder NOx uitstoot)

Landelijke meetnetten (GW/OW/Meteo)

Water Management en Modellering

Sensing – Analysis – Acting (sluizen)

Nationaal Datawarehouse Wegverkeergegevens (NDW) Dynamisch verkeersmanagement bijsturen

verkeersstromen bij files en overschrijding van normen (geluid/luchtkwaliteit) in bepaald gebied

Airquality Egg (www.airqualityegg.com)

SmartCitizen Kit (www.smartcitizen.me)

ISPEX (crowd sourcing)

Meting aerosols met smart phones

Citizen Science project RIVM (crowd sourcing)

Verdichting landelijke meetnetten

Schepen http://www.marinetraffic.com/ais/

Vliegtuigen http://radar.vlieghinder.nl◦ Geluidsensors (meting geluidsoverlast Schiphol)

◦ Realtime informatie vliegtuigen (snelheid, locatie, type, etc.)

Treinen

Verkeerslussen naar reguliere productie

115 miljard metingen

80TB aan data

• Statistieken gepubliceerd op 8 januari; zelfde week al (!)

• Op basis van verkeerslusdata

Analyse: CBS

Dataleverancier: Coosto

• Dichtbij reguliere productie

• Alleen nog Vodafone cijfers

• Diverse toepassingen

• Gesprekken met mogelijke gebruikers lopen

Wat is de toekomstige rol van officiële statistiek?◦ Vraag naar real-time, hoog-frekwente en ruimtelijk

gedetailleerde informatie◦ Informatie vs. interpretatie/voorspellingen/advies◦ Wat moeten we aan de markt overlaten?◦ Time-to-market moet korter

Aandachtspunt: privacy van individuen en groepen◦ Wettelijke eisen en ethische principes ◦ Wat vindt het publiek acceptabel gebruik van data?◦ Europese Praktijkcode voor Statistiek is ons richtsnoer ◦ Transparantie is essentieel!

90.000 nieuwe percelen per jaar

600.000 KLIC-meldingen

800.000 inschrijvingen openbaar register

22.600.000 inzagen Kadaster-on-line

1.700.000.000 web service requests PDOK

Mini-Brainstorm

Heeft de Provincie NH Big Data?

Doet de Provincie NH iets met Big Data?

Heeft de Provincie ambities o.h.g.v. Big Data?

Big Data Kwesties

Privacy en Security (wetgeving|hacking)

Standaarden (interoperability)

Visie en Strategie (beleid)

Architectuur (systeem integratie)

Kennis en Vaardigheden (opleiding)

Gesloten vs Open data (Eigendom)

Beheer (data kwantiteit en kwaliteit)

Verzameling van data vaak gekoppeld aan publieke taken gezondheidsgegevens, verkeersdoorstroming. Vaak ook bijproduct (telecom gegevens)

Niet alle data mogen zo maar verzameld, bewerkt en verspreid worden

Rekening houden met Privacy, (Staats)veiligheid, Doelbinding, Bewaartermijnen, en Intellectueel Eigendom

Wet en regelgeving loopt vaak achter de feiten aan

Smart Things hebben vendor specifieke datamodellen + API protocols + applicaties (“een app

voor ieder thing…”)

Standaarden zijn er inmiddels wel… maar worden niet gebruikt

◦ Awareness ontbreekt bij gemeenten

◦ Vendor Lock-in (gaan voor de snelle oplossing)

Lastig om een overall (city scale) geïntegreerd beeld te krijgen

Sensor data delen met buurgemeenten

API1 API2 API3 API…

Syst.Vendor1

Syst.Vendor2

Syst.Vendor3

Syst.Vendor

Sensor Data 1

Sensor Data 2

Sensor Data 3

Sensor Data …

App 1 App 2 App 3 App …

Energy Water Transport Environment

API1

Syst.Vendor1

Sensor Data 1

App 1

API2

Syst.Vendor2

Sensor Data 2

App 2

API3

Syst.Vendor3

Sensor Data 3

App 3

API…

Syst.Vendor

Sensor Data …

App …

OGC SWE / Sensor Things

Standaarden

◦ Bieden standaard datamodel en API

beschrijvingen voor Smart Things

◦ Integratie informatie afkomstig van

verschillende vendors

◦ Interoperability tussen systemen in

/ tussen Smart Cities mogelijk

Smart City Interoperability

API1 API2 API3 API…

Syst.Vendor1

Syst.Vendor2

Syst.Vendor3

Syst.Vendor

Sensor Data 1

Sensor Data 2

Sensor Data 3

Sensor Data …

Smart City Informatie

model (IMSC)

Real-Time Datamodel Transformation

Smart City SensorThings

API

Smart City SDKs

Smart City A Smart City B

Standaard APIs

Standaard APIs

City Applicaties

API1

Syst.Vendor1

Sensor Data 1

API2

Syst.Vendor2

Sensor Data 2

API3

Syst.Vendor3

Sensor Data 3

API…

Syst.Vendor

Sensor Data …

Data standaarden (semantiek)

Uitwisselingsstandaarden◦ OGC SensorThings API / Datamodel

Samenvatting en Conclusies

Big Data◦ Big Raster data (VHR images, video)◦ Big Vector data (point clouds)◦ Real-Time Sensor data (Internet of Things)

Big Data Analyse◦ Heden-Verleden-Toekomst◦ Image Processing (Object/Beeld/Tekst herkenning)

Artificial Intelligence◦ Big Data + Feedback = Deep Learning

Voorbeelden Big Data analyse in Nederland◦ Banken, Verzekeringen, Security, Kritische Infrastructuur

(transport, energy, water, oil&gas, telecommunication)◦ Rijkswaterstaat Nationaal Datawarehouse Wegverkeer (NDW)◦ Experimenten bij CBS|Kadaster◦ Provincies… (not so much yet)

Big Data zinvol in Fysieke Leefomgeving◦ Real-Time VTH (toetsing op normen uit de

omgevingswet m.b.v. sensoren: geluidsbelasting / lucht- & waterkwaliteit / etc.)

◦ Gebruik van satelliet data (near real-time beelden van Nederland)

Huidige Meetnetten beter gebruiken◦ Beschikbaar stellen Open Sensor Data APIs

◦ Verdichting meetnetten d.m.v. crowd sourcing

Uitdaging Big Data Analytics koppelen aan VTH processen

1. Verdiepen in het onderwerp Theoretische aspecten big data

2. Inventariseer welke Big Data een provincie heeft en wat je daarmee

zou kunnen doen (“aan de slag” testbeds, pilots Smart Provincie)

3. Visie ontwikkelen (provincies) op Big Data (inspiratie RWS)

gekoppeld aan provinciale thema’s en Smart City ambities van

gemeenten

4. Kennis delen en ervaring opdoen o.h.g.v. Big Data (bvb Prov.

Wegen), Smart Environments en IoT via bvb Geonovum Platform

MS4S

5. Voortrekkersrol nemen o.h.g.v. ontwikkeling van smart cities in de

eigen provincie

Nederland volledig 3D gefotografeerd en laserscanned

Continue bijhouding 3D model via drones /self-driving cars

Gecombineerd met continue real-time data van smart things

Now THATs Big…

Vragen?

Drs. Erik van der Zee

T +31 (0)20 5711 311M +31 (0) 6 1009 9691E erik.van.der.zee@geodan.nlI www.geodan.nlT @erikvanderzee

President Kennedylaan 11079MB AmsterdamThe Netherlands