Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems...

25
Delen van milieudata met nieuwe technologie Wies Vullings, Jandirk Bulens 2 oktober 2019

Transcript of Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems...

Page 1: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Delen van milieudata met nieuwe technologie

Wies Vullings, Jandirk Bulens

2 oktober 2019

Page 2: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

§ Introductie, Environmental Information systems (EIS)

● Wat vinden we hiervan voor NL?

§ ‘State of play’ in Europa, de evaluatie van EIS-sen per land en data delen

● Moeten we data wel of niet zomaar delen?

§ Nieuwe technologie, met de ’roadmap’

● Hype of werkelijkheid?

Agenda

2

Page 3: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Wat is een ‘Environmental Information system’?

3

DEFINITION

An Environmental Information System (EIS) is defined as a coordinated assemblage of people, devices or other resources designed to exchange data or knowledge concerning any aspect of the ecosystem, the natural resources within or, more generally, the external factors surrounding and affecting human life.

[source: GEMET, General Multilingual Environmental Thesaurus]

Page 4: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

4

Doel:

De algemene doelstelling van de studie is het definiëren, identificeren en presenteren van ‘Good Practice’ uit EU- en nationale ‘milieu-informatiesystemen’ en portals die bijdragen aan een actieve verspreiding in de EU en de lidstaten door het verkennen, ontwikkelen en testen van tools om openbaar beschikbare gegevens te gebruiken om gegevens, geautomatiseerd, te verzamelen en te mijnen.

PROMOTION OF GOOD PRACTICES FOR NATIONAL ENVIRONMENTAL INFORMATION SYSTEMS AND TOOLS FOR DATA HARVESTING AT EU LEVEL

Page 5: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Project rationale

5

MS1 MS2 MS3

> 20

0

Vele EISs (PAEI/PSI/INSPIRE)

Harvest/Extract

EU/MS burgers t/m overheidsorganisaties

rapporteren

Page 6: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Governance van informatie

6

Page 7: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Discussie stelling 1

7

Zijn EIS-sen, milieuportalen samenhangend georganiseerd in Nederland?

A) Ja

B) Nee

Page 8: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Inventarisatie

8

Page 9: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

§ 4 categorieën

● Governance (2 criteria)

● Inhoud: 6 milieu domeinen (content, 50 criteria)

● Delen (sharing, 6 criteria)

● Bruikbaarheid (usability, 10 criteria)

Er zijn 68 criteria gedefinieerd op basis van eerdere rapporten zoals de Fitness Check, SEIS-kookboek enz.

Evaluatie criteria

9

Page 10: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

governance Inhoud

Delenbruikbaarheid

Evaluatie criteria

10

• Toegang tot• Rapporten van de SoE?• vergunningen & licenties?• Domeinen

• Luchtkwaliteit?• Biodiversiteit?• Water?• Chemicalien?• Emissies?• Afval?

• View/download services?• Formaten?• Contact informatie?• Condities?• Open toegang?• Kosten?

• Nationale opzet• Gelinkt met INSPIRE?

• Indicatoren gegeven?• Support aangeboden?• Overall ervaringen?• uitstraling?• Complexiteit?• Compleetheid?

Page 11: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Algemeen overzicht score Europa

governance Inhoud

DelenBruikbaarheidJ 65%

K 25%

L 10%

47% J38% K15% L

37% J37% K26% L

J 40%K 24%

L 37%

Page 12: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

12

Page 13: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Richtlijnen ‘good practice’

§ Aanbevelingen hoe een goed portaal opgezet kan worden

§ Methode voor evaluatie, matrix met criteria aanpak

13

Page 14: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Data delen

14

CriterionJ K L

3.1 Is it possible to view the data?

Presence of view services presence of links to view services

Not found

3.2 Is it possible to download the data in most commonly used file formats?

Downloads in common file formats possible

- Not found

3.3 What communication possibilities are available?

Possibility to communicate with the owner/administrator or with other users through interactive form

Possibility to communicate with the owner/administrator (e-mail address or contact form)

Not found

3.4 Is the license to re-use data published?

Clear licensing for data re-use per dataset

Clear licensing policy for data re-use not indicated for each dataset, but on an organisational level

Not found

3.5 Is access to registers or lists open? (catalogues, thesaurus, vocabularies)

Access to registers is open Access to registers only to registered users

Not open

3.6 Is environmental data freely available (free of charge)?

Data is open free of charge Data is reasonably charged: add INSPIRE definition

Data is available on a commercial basis

Page 15: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Data delen

15

Page 16: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Discussie stelling 2

16

Data gerealiseerd met publiek geld (in beide gevallen)

A) Er zijn geen knelpunten, data delen moet altijd, tenzij dat wettelijk niet mag

B) Er zijn wel degelijk knelpunten, data delen kan niet zomaar.

Page 17: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Nieuwe technologiën

Page 18: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Nieuwe technologiën

§ Data harvesting met

● OGC webservices

● RestFul web service

§ Web crawling/web scraping

§ Semantisch web/linked data

● SPARQL endpoints

● Microformats and RDFa

§ Artificial Intelligence (AI)

● Computational linguistics,

● natural languageprocessing (NLP)

● language engineering

● text mining

● machine learning

● Deep learning

18

Page 19: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

SWOT analysis (AI)

§ Computational linguistics,

§ natural languageprocessing (NLP)

§ language engineering

§ text mining

§ machine learning

STRENGTHS

•Data does not have to be structured

•Can process large/huge amounts of

data

•If there is a lot of data from various

sources, useful information can be

extracted in an automated way

•Possible correlations which have not

been identified beforehand, can be

discovered using these techniques

WEAKNESSES

•Needs a lot of computing

power

•The relevance of the

results is not always clear,

the results might not

always meaningful

OPPORTUNITIES

•Most data available on the web is still

unstructured, the techniques

mentioned can make this data and

information usable/reusable in ways

which have never been thought

possible

•Large datasets can be analysed

without an initial hypothesis on

possible correlations.

•This can lead to new (scientific)

insights which could be used for the

purpose of e-reporting

THREATS

•N/a

Page 20: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Technologiën – bevindingen 1

§ Hergebruik van gegevens via services en gedistribueerde databases is vrij algemeen (IPCHEM)

§ Hergebruik van ruimtelijke gegevens via OGC-webservices komt veel voor, maar meestal WMS (alleen voor weergave, niet opvraagbaar)

§ Vooraf gedefinieerde formaten (≈standaarden) voor gegevensbeschrijving en vergelijkbaarheid erg belangrijk (E-PRTR)

§ De meeste tools zijn toegewijd aan een enkel doel, geen hergebruik van tool mogelijk, maar hergebruik van concepten wel

Page 21: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Technologiën – bevindingen 2

§ Slechts 1 state-of-the-art (NLP / text scraping) geïdentificeerd ‘harvestings’ mechanisme (EMM)

§ Gebruik van semantiek bij het beschrijven van data ‘evoluerende’ techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

§ Het leveren van inline metadata via annotaties in micro-formaat (JSON-LD, RDF-a) lijkt veelbelovend

Page 22: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Technologiën – aanvullend

§ Het landschap is zeer divers, vooral de governance varieert sterk in de lidstaten

§ Weinig ervaring met AI (EU-niveau)

§ Het draait meestal om afstemming en harmonisatie

● Juridisch, inhoud, governance, normen en technologie

§ Meer ondersteuning is nodig !!

Page 23: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Road map

23

Page 24: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Discussie item 3

24

We kijken 5 jaar vooruit:

Is nieuwe technologie:

A) Een hype die overwaait

B) Nee, wordt werkelijkheid

Page 25: Wies Vullings, Jandirk Bulens 2 oktober 2019 · § Introductie, Environmental Information systems (EIS) ... techniek. Gebruik van RDF- en SPARQL-eindpunten groeit

Bedankt!

Project resultaten op:

https://www.eis-data.eu

25