Download - Publicatie van Linked Open Overheids Data

Transcript
Page 1: Publicatie van Linked Open Overheids Data

Publicatie van Linked Open Overheidsdata

Rinke Hoekstra

Semantic Web Rubik's Cube by dullhunk at flickr under a cc-license. Thanks!

Page 2: Publicatie van Linked Open Overheids Data

Vragen

• Wat is linked data, en hoe ziet het eruit?• Wat heeft de overheid eraan?• Op welke manier kan het ontsloten worden?• Wat zijn openstaande problemen?

Page 3: Publicatie van Linked Open Overheids Data

De Semantic Web Ideologie

• Identiteit is het allerbelangrijkst• Gedeeltelijke oplossingen zijn prachtig• Layer cake

04/10/2023 3

Page 4: Publicatie van Linked Open Overheids Data

Linked Data/Semantic Web• Identificatie

– Uniform Resource Identifier (URI) – Globale identifier (NB: persistent!)– Heeft de syntactische verschijningsvorm van een URL– Vaak: Internationalized Resource Identifier (IRI)

• Beschrijving– Resource Description Framework (RDF)– RDF Schema (RDFS)– Simple Knowledge Organization System (SKOS)– Web Ontology Language (OWL)

• Bevragen– RDF Triple stores– SPARQL Query Language

Page 5: Publicatie van Linked Open Overheids Data

Hoe ziet RDF eruit?

• Datamodel is een (directed) graph• Elk data-item is een ‘resource’ met een URI als

identifier• Elke eigenschap is een binaire relatie:– ‘triple’– Tussen resources:

<subjectURI, predicateURI, objectURI>

– Tussen een resource en een ‘literal’<subjectURI, predicateURI, “literal value”>

Page 6: Publicatie van Linked Open Overheids Data

Gerechtelijke Uitspraken

Page 7: Publicatie van Linked Open Overheids Data

Gerechtelijke Uitspraken

Page 8: Publicatie van Linked Open Overheids Data

Waarom linked data?

• Globaal unieke identifiers• Hergebruik van identifiers in andere datasets– Op datum niveau

(bijv. twee bronnen die iets over ‘Groningen’ zeggen)

– Op schema niveau(bijv. twee bronnen die elk het zelfde begrip ‘Stad’ gebruiken)

• In feite dus ‘linked data sets’

Page 9: Publicatie van Linked Open Overheids Data

Linked Open Data

04/10/2023 9

Page 10: Publicatie van Linked Open Overheids Data

04/10/2023 10

November 2009: 13.1 Miljard triples, 142 Miljoen links

Page 11: Publicatie van Linked Open Overheids Data

In 2010?

• New York Times subject catalog• Data.gov.uk• Linked Life Data (4 miljard triples)• FreeBase is gekocht door Google• FaceBook publiceert Open Graph protocol• ...

Page 12: Publicatie van Linked Open Overheids Data

Wat heeft de overheid eraan?

• Uniforme representatietaal voor zowel:– Schema informatie (begrippen), als– Gegevens (data)

• Gedistribueerd– Wederom zowel schema als gegevens

• De moeite waard?– Bevordert transparantie, herbruikbaarheid etc. – Maakt hergebruik zichtbaar (bijv. HTTP requests)

Page 13: Publicatie van Linked Open Overheids Data

Ontsluiten Overheidsdata

• Laagdrempelig• Transparant• Herbruikbaar• Multi-channel– Dezelfde content op verschillende manieren

aanbieden• Geïntegreerd– Ruwe data en begeleidende tekst

Page 14: Publicatie van Linked Open Overheids Data

Tim Berners-Lee: 5-sterren plan

★ Stel informatie beschikbaar op het Web★★ Stel het beschikbaar als gestructureerde data

(bijv. als Excel sheet ipv. een plaatje)

★★★ Gebruik een open formaat(bijv. CSV ipv. Excel)

★★★★ Gebruik een linked-data formaat(URI’s als id, en RDF als formaat)

★★★★★ Verbind je data aan dat van anderen (geef context)

Bron: http://inkdroid.org/journal/2010/06/04/the-5-stars-of-open-linked-data/

Page 15: Publicatie van Linked Open Overheids Data

Over de hele wereld…

15 of XYZ

Country Official? Rating DatasetsSweden N ★★ fewNew Zealand Y ★★ manyIreland Y ★★★ fewCanada Y ★★★ manyUnited States Y* ★★★★ manySpain N ★★★★★ fewUnited Kingdom Y ★★★★★ many*The Netherlands Y ★★( )★ few

Bron: o.a. http://www.slideshare.net/cygri/the-state-of-linked-government-data

Page 16: Publicatie van Linked Open Overheids Data

Verenigde Staten

• Data.gov– Nationale ruwe data en geodata catalogi

• Data-gov Wiki project bij RPI– “Triplifying” tabulaire datasets van Data.gov– Generieke services op RDF data– Wiki voor het vergaren van meer informatie over

de datasets– Demos

• Data.gov verwijst naar RPI’s RDF (2010)Bron: o.a. http://www.slideshare.net/cygri/the-state-of-linked-government-data

Page 17: Publicatie van Linked Open Overheids Data

Data-gov Wiki: kritiek

Is dit handiger dan een tabel?

<rdf:Description rdf:about="#entry9053451"> <rdf:type rdf:resource="http://data-gov.tw.rpi.edu/ 2009/data-gov-twc.rdf#DataEntry"/> <value>2.7</value> <period>M01</period> <year>1995</year> <series_id>SMU55225408000000001</series_id></rdf:Description>

Bron: Stefano Mazzocchi http://www.betaversion.org/~stefano/linotype/news/351/

Page 18: Publicatie van Linked Open Overheids Data

Verenigd Koninkrijk

• Grote hoeveelheid ruwe datasets op data.gov.uk

• Selectie als five-star Linked Data• Basis gelegd voor kwalitatief goede Linked Data

representatie– URI sets– Vocabulaires– Best Practices

• Opensource catalogus (CKAN)Bron: o.a. http://www.slideshare.net/cygri/the-state-of-linked-government-data

Page 19: Publicatie van Linked Open Overheids Data

Stap: Catalogus• Doorzoekbare catalogus van datasets• Catalogus verwijst:

– naar website waar data oorspronkelijk gepubliceerd is, of – naar data als bestand

• Eenvoudig voortborduren op Open Data – http://data.overheid.nl (?)– http://nl.ckan.net (grassroots)

• Relatief ‘standaard’ als oplossing– ... afgezien van organisatorische problematiek

• Weinig ‘semantic web’– Slechts downloadbare bestanden– Fulltext zoeken, geen ‘echte’ queries

• Geen integratie met ander materiaal

Page 20: Publicatie van Linked Open Overheids Data

Stap: URI dereferencing

• Wat is het?– “URI als URL”– Meest eenvoudige API

• Een HTTP request op het URI geeft ofwel:– Een RDF dump van de resource met het URI, ofwel– Een HTML pagina met een beschrijving van de resource

• Twee mogelijkheden:– Afhankelijk van de ‘agent’ (Content negotiation)– Extra informatie in de URL

Page 21: Publicatie van Linked Open Overheids Data

HTTP 303: SeeAlso

Page 22: Publicatie van Linked Open Overheids Data

Voorbeeld: LJN BJ3703

• Resource URIhttp://linkeddata.few.vu.nl/rechtspraak/uitspraak/BJ3703

• Accept text/html, verwijst door naar:http://www.rechtspraak.nl/ljn.asp?ljn=BJ3703

• Accept application/rdf+turtle verwijst naar:– Script dat een SPARQL query loslaat:

SELECT ?p ?o WHERE {

<http://linkeddata.../BJ3703> ?p ?o .}

Page 23: Publicatie van Linked Open Overheids Data

SPARQL output<http://linkeddata.few.vu.nl/rechtspraak/uitspraak/BJ3703> a rnl:Uitspraak;

rnlrdf:datum_gepubliceerd "24-07-2009";rnlrdf:datum_uitspraak "22-07-2009";rnlrdf:indicatie "Eiser wordt verondersteld de verwekker van gedaagde (nu 41 jaar oud) te zijn. Eiser vordert veroordeling van gedaagde tot medewerking aan DNA-onderzoek, ter verkrijging van zekerheid. De rechtbank wijst de vordering niet reeds af omdat de inzet daarvan louter emotioneel is. De rechtbank merkt het recht om te weten of een ander zijn kind is aan als een persoonlijkheidsrecht. Dit recht wordt afgewogen tegen het belang van gedaagde om de kwestie als afgedaan te beschouwen en vrede te hebben met wat zij weet. De vordering wordt afgewezen.";rnlrdf:instantie rnlrdf:Rechtbank_Groningen;rnlrdf:ljn "BJ3703";rnlrdf:procedure_soort rnlrdf:Eerste_aanleg_-_enkelvoudig;rnlrdf:rechtsgebied_rechtspraak rnlrdf:Handelszaak;rnlrdf:status rnlrdf:gepubliceerd;rnlrdf:zaaknummers "107402 / HA ZA 09-89";metalex:src "http://www.rechtspraak.nl/ljn.asp?ljn=BJ3703" .

Page 24: Publicatie van Linked Open Overheids Data
Page 25: Publicatie van Linked Open Overheids Data
Page 26: Publicatie van Linked Open Overheids Data

Stap: SPARQL Endpoint

• RESTful service– SPARQL queries geencodeerd in request URL– Normaal gesproken read-only– Zeer veel vrijheidsgraden om data uit te vragen

• SPARQL query language– SELECT, DELETE, UPDATE

• Elke RDF triple store ondersteunt SPARQL– Virtuoso, 4Store, OpenRDF Sesame, AllegroGraph

• Nadeel: vereist infrastructuur

Page 27: Publicatie van Linked Open Overheids Data

Stap: RDFa/GRDDL• RDFa: RDF annotations

– Metadata in HTML pagina’s– Manier om RDF triples te ‘verstoppen’ in HTML– Zichtbaar voor Google en Yahoo crawlers

• Voordeel:– Maakt client-side RDF applicaties mogelijk– Niet alle data hoeft in RDF te zijn

(bijv. copyright/license notice)

– Kan RDF produceren uit standaard databases– ... en dus ontlastend voor de server

• GRDDL: Gleaning Resource Descriptions from Dialects of Languages– Verwijzing naar transformatie service (bijv. XSLT)

Page 28: Publicatie van Linked Open Overheids Data

Voorbeeld<table xmlns:rnl="http://linkeddata.few.vu.nl/rechtspraak/resource/"

about="http://linkeddata.few.vu.nl/rechtspraak/uitspraak/BJ3703" typeof="rnl:Uitspraak”> <tbody><tr><td colspan="2">

<span rel="rnl:src" content="BJ3703”>LJN BJ3703</span></td></tr><tr>

<td class="result_attribute" style="width: 100px;">Datum</td><td rel="rnl:datum_uitspraak”>2009-07-22T00:00:00Z

</td></tr> <tr>

<td>Kenmerken</td><td>Uitspraak in <span rel="rnl:procedure_soort" href="http://linkeddata.few.vu.nl/rechtspraak/resource/Eerste_aanleg_-_enkelvoudig”>Eerste aanleg - enkelvoudig</span> van <span rel="rnl:instantie" href="http://linkeddata.few.vu.nl/rechtspraak/resource/Rechtbank_Groningen">Rechtbank Groningen</span> binnen het rechtsgebied <span rel="rnl:rechtsgebied_rechtspraak" href="http://linkeddata.few.vu.nl/rechtspraak/resource/Handelszaak">Handelszaak</span>

</td></tr> </tbody></table>

Page 29: Publicatie van Linked Open Overheids Data

Voorbeeld

Page 30: Publicatie van Linked Open Overheids Data

Reality check

• “Triplification” zelf is niet altijd nuttig• Linked Data gaat over syntax, data model, access,

maar lost niet automatisch de lastige problemen op– standaard classificatiesysteem; identifier management;

data provenance; versiebeheer; context; data discovery

• “LD removes some technical issues, giving us a better shot at solving the organizational/political ones” (Richard Cyganiak, DERI)

Bron: o.a. http://www.slideshare.net/cygri/the-state-of-linked-government-data

Page 31: Publicatie van Linked Open Overheids Data

Een olifant in de kamer?

Page 32: Publicatie van Linked Open Overheids Data

Openstaande Problemen

• (NB: “probleem” = nog geen standaard oplossing)• Provenance

– Herkomstinformatie van gegevens– Probleem:

• Individuele RDF triples zijn lastig adresseerbaar• Geen standaard vocabulair voor uitdrukken provenance

• Context– Lijkt op provenance, maar geeft interpretatie

• Waarom een probleem?– Het negeren van context leidt tot het op een hoop gooien van

mogelijk conflicterende gegevens• Versiebeheer & Onderhoud

Page 33: Publicatie van Linked Open Overheids Data

Context als Namespace

• De eigenaar van het domein van de URI wordt geacht deze te onderhouden

• Nadeel:– Namespaces zijn geheel transparant voor clients– Domein/eigenaar alleen te achterhalen door URI

parsing, dereferencing, of whois lookup

Page 34: Publicatie van Linked Open Overheids Data

Context in SKOS

• SKOS: Simple Knowledge Organization System– Lichtgewicht taal voor uitdrukken van taxonomische

informatie omtrent begrippen• skos:Concept• skos:broader, skos:narrower, skos:related

– Elk skos:Concept is gerelateerd aan een skos:ConceptScheme• Eenvoudige 1:1 mapping relaties mogelijk tussen concepten uit

verschillende schemes

– Uitgebreidere mappings mogelijk dmv gebruik OWL 2• Eenvoudig en vaak voldoende• Lang niet alle Linked Data is uitdrukbaar in SKOS

Page 35: Publicatie van Linked Open Overheids Data

Rinke Hoekstra - OWLED 2009 35

Mapping in SKOS

24 October 2009

Page 36: Publicatie van Linked Open Overheids Data

Rinke Hoekstra - OWLED 2009 36

BestPortal: Requirements

• Translate layman description to legal terms

• Search using fingerprints of legal terms

• Context in which layman concepts co-occur in a case determines the applicability of a legal concept

• A mapping is not the definition of a concept24 October 2009

Page 37: Publicatie van Linked Open Overheids Data

Rinke Hoekstra - OWLED 2009 37

Mappings as OWL Classes

• A mapping class:– Classifies resources annotated using one

vocabulary, and– Infers annotations using the other vocabulary– … it may be directed

24 October 2009

Page 38: Publicatie van Linked Open Overheids Data

Rinke Hoekstra - OWLED 2009 38

Example

24 October 2009

Page 39: Publicatie van Linked Open Overheids Data

Context als Named Graph

• RDF Triple stores zijn eigenlijk Quad stores:<subjectURI, predicateURI, objectURI, graphURI>

• Hergebruik URI’s van grafen in andere triples:<graphURI, dc:creator, “Rinke Hoekstra”, ...>

• SPARQL ondersteunt queries op grafen, dus:– Provenance kan worden achterhaald– Context kan expliciet worden gemaakt

• Maar:– Pragmatische oplossing– Nog steeds inconsistenties mogelijk– Er is nog geen officiële syntax voor

Page 40: Publicatie van Linked Open Overheids Data

The Construction of Social Reality

• Searle (1995): Institutional Facts– Intentional categories are social constructs,– they are subjective, relative to an observer, and– they are attributed to brute facts.– Brute facts are independent of human agreement

• Constitutive and regulative rules:

X counts as Y in context C

Page 41: Publicatie van Linked Open Overheids Data

Searle’s Rules

• Constitutive rule

• Why is counts-as not subsumption?– Counts-as is relative to a context– Counts-as does not permit substitution, and limits

inheritance:– Counts-as can connect anti-rigid with rigid classes

Bills issued by the Bureau of Engraving and Printing (X) count as money (Y) in the United States (C)

Money (Y) is the root of all evil

Page 42: Publicatie van Linked Open Overheids Data

Standard Practice

• Duality of roles is a well known problem

• Role as class: “Person plays Student”– Distinct classes for role and role player– But, rather verbose

• Role as relation: “Person student_at University”– Avoid tautology in definition of the role

– But, no way to incorporate contextual information

• Problem: cannot have both at the same time

Student equivalentClass student_at some University

Page 43: Publicatie van Linked Open Overheids Data

In short

• Focus either on relation or class oriented representation

• Observations– Reification makes knowledge about a relation explicit• e.g. the context of a role, the thematic roles of an action

– ... but comes at the cost of the relation itself, and– and is rather verbose

• Question: can’t we have both?

Page 44: Publicatie van Linked Open Overheids Data

Yes, we can

• Infer the relation from a reification– ... instead of the reification from the relation

• Example: definition of ‘student’

A person (X) counts as a student (Y) if enrolled at some university (C)

Page 45: Publicatie van Linked Open Overheids Data

Subjective Entity and Social Role

• A subjective entity is defined using counts-as

• Social roles are subjective entities

Page 46: Publicatie van Linked Open Overheids Data

Observer Relative & Institutional Facts

Page 47: Publicatie van Linked Open Overheids Data

Example: Propositional Attitudes

• A propositional attitude is anything held towards some proposition:

“Mary holds a belief towards the proposition ‘John killed Suzan’”

“Mary believes that John killed Suzan”

“‘John killed Suzan’ counts as a belief in the context of Mary”

Page 48: Publicatie van Linked Open Overheids Data

It’s like Lego™!

• Communicated attitudes• Actions

Page 49: Publicatie van Linked Open Overheids Data

Versiebeheer

• Eenvoudige oplossing:– Voor elke versie een nieuwe graaf

• Nadeel:– Applicaties kunnen afhankelijk zijn van oude versie

(bijv. URI dereferencing)

• Twee URI’s per resource:– ‘latest version’ URI– URI met versie-datum erin verwerkt

• Probleem: versies zijn niet altijd zo eenvoudig