Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

19
Hoe maken we semantische data? Ervaringen van Erfgoedplus.be en Europeana Informatie aan Zee, Oostende, 13 september 2013 Jef Malliet Erfgoedplus.be, Provincie Limburg

description

 

Transcript of Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

Page 1: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

Hoe maken we semantische data?

Ervaringen van Erfgoedplus.be en Europeana

Informatie aan Zee, Oostende, 13 september 2013

Jef MallietErfgoedplus.be, Provincie Limburg

Page 2: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

Inhoud

1. Semantisch web2. Kwaliteit van data3. Uitdagingen & Antwoorden4. Best practices

2013-09-13 IaZ 2013 - Jef Malliet

Page 3: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

1.1 Semantisch web

Web 3.0Semantic Web

Linked Data

RDF

2013-09-13 IaZ 2013 - Jef Malliet

Page 4: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

1.2 Semantisch WebSemantische data

Betekenissen i.p.v. woorden• Semantic web: netwerk van concepten i.p.v.

woorden Eigenschappen

• Links met concepten/objecten • Precisie• Redeneringen• Hergebruik• Eenduidigheid, ondubbelzinnigheid

Kwaliteitsvereisten???2013-09-13 IaZ 2013 - Jef Malliet

Page 5: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

Accuracy

Correctness

Currency

Completeness

Relevance

2.1 Kwaliteit van dataTheorieën: dimensies

Complete

Unambiguous

Meaningful

Correct

Integrity

Consistency

Timeliness

Completeness

Validity

Accuraatheid

Consistentie

Tijd

Volledigheid

Begrijpbaarheid

Veiligheid

Huang et al., 1999

Sebastian-Coleman, 2013

Dejaeger et al., 2009

Fouten

Ontbrekende gegevens

Onnauwkeurig of bedrieglijk exact

Inconsistentvan Keulen, 2010

+

_

2013-09-13 IaZ 2013 - Jef Malliet

Wang et al., 1993

Page 6: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

2.2 Kwaliteit van dataDimensies

2013-09-13 IaZ 2013 - Jef Malliet

Page 7: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

2.3 Kwaliteit van dataAfhankelijk van de context

Aard• Feiten, berichten, achtergrond, …• Onderzoeksdata, meetresultaten, statistische,

financiële data, …• Modellen, hypothesen, interpretaties, …•

Gebruik• Berichtgeving, recreatief, wetenschappelijk,

wettelijk, …• Hergebruik (meerdere gebruiken, contexten)• Duurzaamheid (technisch, inhoudelijk)

2013-09-13 IaZ 2013 - Jef Malliet

Checkland and Holwell, 1997

Datagegeven

Captaselectie

Informatiebetekenis

Kennis(re)constructie

Page 8: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

2.4 Kwaliteit van data Semantisch Web

AAA: ‘Anyone can say anything about anything’

Uitdagingen voor het Semantisch web: Omvang (vastness) Vaagheid (vagueness) Onzekerheid (uncertainty) Inconsistentie (inconsistency) Misleiding (deceit)

2013-09-13 IaZ 2013 - Jef Malliet

http://en.wikipedia.org/wiki/Semantic_web

Page 9: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.1 Omvang (vastness) Uitdagingen & Antwoorden

Duplicatie• Geen universele

identificatoren• Meerdere bronnen van

informatie over objecten – autoriteit?

• Meerdere publiatiekanalen voor dezelfde informatie

Relevantie• UGC: alle stadia van

verkeerde informatie, gemengd met goede

• Controle? = censuur!• tegen regels van Web 2,0• tegen rechten van de mens

• Kleinere gemeenschap= minder controle = meer gevaar voor vervuiling

Duplicatie controleren• PID (persistent

identifiers): begint bij collectiebeheer

• Opvolgen van secondary sources door primary sources

• Uniforme communicatie in alle gebruikte kanalen

Relevantie vergroten• UGC: we willen het want

het kan verrijkend zijn• Eigen data regelmatig

opvolgen: nalezen, controleren, corrigeren, aanvullen, incl. Reacties van gebruikers

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 10: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.2 Vaagheid (vagueness)Uitdagingen & Antwoorden

Betekenis• Behoefte aan goede,

meertalige authority files (thesauri)

Interpretatie• Verschillende bronnen /

contexten• Bron vs. Gebruiker

Volledigheid• Informatie ontstaan in

bepaalde context • Gemaakt voor specifieke

gebruikersgroep

Thesauri• Bestaande thesauri

gebruiken• Systematisch gebruik,

precisie

‘Verrijking’ a/d bron• Linking• Impliciete context

expliciteren Abstractie van specifieke

context en doelgroepen• Buiten eigen context

denken• Geen selectie van

informatie

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 11: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.3 Onzekerheid (uncertainty)Uitdagingen & Antwoorden

(On)Waarheid van feiten• Verschillende versies

Benaderingen• Schattingen vs.

Gemeten feiten• Observaties vs.

Voorspellingen of gissingen

Opinies

Mengeling

Bronvermelding• Betrouwbaarheid van

de bron Graad van

onzekerheid

Oorsprong van opinies• Verklaringen i.v.m.

uiteenlopende opinies

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 12: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.4 Inconsistentie (inconsistency)Uitdagingen & Antwoorden

Tegenstrijdige feiten• Vele bronnen• Andere interpretaties• Verschillende tijdstippen

Niet genormaliseerde data• Informatie in verkeerde

velden• Gemengde soorten

informatie in eenzelfde veld

Andere contexten• Ander woordgebruik

• Ander model van de realiteit

Bronvermelding

Standaarden gebruiken en strikt opvolgen

Contexten erkennen• Relateren aan concept-

gebaseerde thesaurus• Relateren aan

gemeenschappelijk ontologisch model

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 13: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.5 Misleiding (deceit)Uitdagingen & Antwoorden

Foute informatie• Te goeder trouw• Met slechte

bedoelingen Oude informatie Vervorming Gemengde precisie

/ kwaliteit

Controles achteraf • Feedback gebruiken• Interactie met

eindgebruiker Duiden en aanvullen

Bronaanduiding Aanduiding van

precisie

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 14: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

3.6 ConclusiesKwaliteit van semantische data

Weinig dat door techniek alleen kan opgelost worden• Techniek is noodzakelijk• Vereiste precisie moet door mensen geleverd worden

Verrijking aan kant van het portaal is moeilijk• Verhoogde risico’s op duplicatie, fouten en onzekerheid• Controle op kwaliteit kan slechts oppervlakkig

Meest betrouwbaar dichter bij de primaire bron• Aanmaken van data en informatie vraagt meer werk en

aandacht• Geen nieuwe vereisten: standaarden en voorschriften bestaan al

lang• Kwaliteitsverbetering vergroot herbruikbaarheid en

duurzaamheid

Hulp van de eindgebruiker (UGC- crowdsourcing)• Voorzichtig, risico op vervuiling• Vereist deelname door de ‘primaire bron’

2013-09-13 IaZ 2013 - Jef Malliet

AAA

Page 15: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

4.1 Europeana

Top-down model Grote instellingen Landelijke aggregatoren Geen direct contact met de bronnen

Cross-domain Digitale dimensie doet grenzen vervagen Naar mekaar toe groeien

Internationaal Dialoog Meertaligheid

Evolutie Sterke nadruk op kwantiteit (politieke redenen) Nu overschakeling naar semantisch datamodel Nog geen goed zicht op ‘kwaliteit’ Experimenten met crowdsourcing (vb. Europeana1914-1918)

2013-09-13 IaZ 2013 - Jef Malliet

Page 16: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

4.2 Erfgoedplus.be

Bottom-up model Ook kleine, lokale collecties moeten kunnen deelnemen ‘Aggregator’: positie tussen bron en www / Europeana

Draagvlakverbreding Provincie op de goede schaal (erkend in nieuw CE decreet) Lokaal erfgoed is opstap naar breder erfgoedbewustzijn

Begeleiding, ondersteuning, netwerk Direct contact met de (primaire) bronnen Kwaliteit is belangrijke bekommernis aan de bron Hergebruik en duurzaamheid Semantisch-web technologie toegepast van bij de

aanvang Complementair met Europeana

2013-09-13 IaZ 2013 - Jef Malliet

Page 17: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

4.3 AAT & AAT-Ned

Thesaurus AAT(-Ned) Ontstaan bij Getty AHIP einde jaren ‘70 (nu Research Institute) Oorsprong: trefwoorden voor bibliografische databases Sinds 1994: Nederlands vertalingsproject, met doorstart in 2007

Eigenschappen Neutrale context Meertalig (Engels, Nederlands, Frans, Spaans, Chinees, Duits, …) Semantische voorloper (onbewust) Vernieuwde interesse door semantisch web

Ontwikkeling en onderhoud Actieve samenwerking binnen de erfgoedsector Gedeelde verantwoordelijkheid Deelname: correctie van fouten en aanvullingen Erfgoedbeheerders zijn zelf de specialisten Dynamisch, is nooit af

2013-09-13 IaZ 2013 - Jef Malliet

Page 18: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

4.4 LoCloud

Verder bouwen op reeds ontwikkelde instrumenten en ervaring

Aandacht voor lokale erfgoedcollecties ‘Lightweight digital library’ Aggregatie, koppeling naar Europeana Linken met thesauri, plaatsnamenlijsten, …

Goede laagdrempelige instrumenten Cloud technologie ? Benodigde ondersteuning ? Opleiding ? Duurzaamheid van de infrastructuur ? Duurzaamheid van de organisatie ?

2013-09-13 IaZ 2013 - Jef Malliet

Page 19: Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana

Vragen ?Opmerkingen ?

Suggesties ?

[email protected]

2013-09-13 IaZ 2013 - Jef Malliet