Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana
-
Upload
vlaamse-vereniging-voor-bibliotheek-archief-documentatie-vzw -
Category
Documents
-
view
181 -
download
0
description
Transcript of Hoe maken we semantische data? Ervaringen in Erfgoedplus.be en Europeana
Hoe maken we semantische data?
Ervaringen van Erfgoedplus.be en Europeana
Informatie aan Zee, Oostende, 13 september 2013
Jef MallietErfgoedplus.be, Provincie Limburg
Inhoud
1. Semantisch web2. Kwaliteit van data3. Uitdagingen & Antwoorden4. Best practices
2013-09-13 IaZ 2013 - Jef Malliet
1.1 Semantisch web
Web 3.0Semantic Web
Linked Data
RDF
2013-09-13 IaZ 2013 - Jef Malliet
1.2 Semantisch WebSemantische data
Betekenissen i.p.v. woorden• Semantic web: netwerk van concepten i.p.v.
woorden Eigenschappen
• Links met concepten/objecten • Precisie• Redeneringen• Hergebruik• Eenduidigheid, ondubbelzinnigheid
Kwaliteitsvereisten???2013-09-13 IaZ 2013 - Jef Malliet
…
Accuracy
Correctness
Currency
Completeness
Relevance
2.1 Kwaliteit van dataTheorieën: dimensies
Complete
Unambiguous
Meaningful
Correct
Integrity
Consistency
Timeliness
Completeness
Validity
Accuraatheid
Consistentie
Tijd
Volledigheid
Begrijpbaarheid
Veiligheid
Huang et al., 1999
Sebastian-Coleman, 2013
Dejaeger et al., 2009
Fouten
Ontbrekende gegevens
Onnauwkeurig of bedrieglijk exact
Inconsistentvan Keulen, 2010
+
_
2013-09-13 IaZ 2013 - Jef Malliet
Wang et al., 1993
2.2 Kwaliteit van dataDimensies
2013-09-13 IaZ 2013 - Jef Malliet
2.3 Kwaliteit van dataAfhankelijk van de context
Aard• Feiten, berichten, achtergrond, …• Onderzoeksdata, meetresultaten, statistische,
financiële data, …• Modellen, hypothesen, interpretaties, …•
Gebruik• Berichtgeving, recreatief, wetenschappelijk,
wettelijk, …• Hergebruik (meerdere gebruiken, contexten)• Duurzaamheid (technisch, inhoudelijk)
2013-09-13 IaZ 2013 - Jef Malliet
Checkland and Holwell, 1997
Datagegeven
Captaselectie
Informatiebetekenis
Kennis(re)constructie
2.4 Kwaliteit van data Semantisch Web
AAA: ‘Anyone can say anything about anything’
Uitdagingen voor het Semantisch web: Omvang (vastness) Vaagheid (vagueness) Onzekerheid (uncertainty) Inconsistentie (inconsistency) Misleiding (deceit)
2013-09-13 IaZ 2013 - Jef Malliet
http://en.wikipedia.org/wiki/Semantic_web
3.1 Omvang (vastness) Uitdagingen & Antwoorden
Duplicatie• Geen universele
identificatoren• Meerdere bronnen van
informatie over objecten – autoriteit?
• Meerdere publiatiekanalen voor dezelfde informatie
Relevantie• UGC: alle stadia van
verkeerde informatie, gemengd met goede
• Controle? = censuur!• tegen regels van Web 2,0• tegen rechten van de mens
• Kleinere gemeenschap= minder controle = meer gevaar voor vervuiling
Duplicatie controleren• PID (persistent
identifiers): begint bij collectiebeheer
• Opvolgen van secondary sources door primary sources
• Uniforme communicatie in alle gebruikte kanalen
Relevantie vergroten• UGC: we willen het want
het kan verrijkend zijn• Eigen data regelmatig
opvolgen: nalezen, controleren, corrigeren, aanvullen, incl. Reacties van gebruikers
2013-09-13 IaZ 2013 - Jef Malliet
AAA
3.2 Vaagheid (vagueness)Uitdagingen & Antwoorden
Betekenis• Behoefte aan goede,
meertalige authority files (thesauri)
Interpretatie• Verschillende bronnen /
contexten• Bron vs. Gebruiker
Volledigheid• Informatie ontstaan in
bepaalde context • Gemaakt voor specifieke
gebruikersgroep
Thesauri• Bestaande thesauri
gebruiken• Systematisch gebruik,
precisie
‘Verrijking’ a/d bron• Linking• Impliciete context
expliciteren Abstractie van specifieke
context en doelgroepen• Buiten eigen context
denken• Geen selectie van
informatie
2013-09-13 IaZ 2013 - Jef Malliet
AAA
3.3 Onzekerheid (uncertainty)Uitdagingen & Antwoorden
(On)Waarheid van feiten• Verschillende versies
Benaderingen• Schattingen vs.
Gemeten feiten• Observaties vs.
Voorspellingen of gissingen
Opinies
Mengeling
Bronvermelding• Betrouwbaarheid van
de bron Graad van
onzekerheid
Oorsprong van opinies• Verklaringen i.v.m.
uiteenlopende opinies
2013-09-13 IaZ 2013 - Jef Malliet
AAA
3.4 Inconsistentie (inconsistency)Uitdagingen & Antwoorden
Tegenstrijdige feiten• Vele bronnen• Andere interpretaties• Verschillende tijdstippen
Niet genormaliseerde data• Informatie in verkeerde
velden• Gemengde soorten
informatie in eenzelfde veld
Andere contexten• Ander woordgebruik
• Ander model van de realiteit
Bronvermelding
Standaarden gebruiken en strikt opvolgen
Contexten erkennen• Relateren aan concept-
gebaseerde thesaurus• Relateren aan
gemeenschappelijk ontologisch model
2013-09-13 IaZ 2013 - Jef Malliet
AAA
3.5 Misleiding (deceit)Uitdagingen & Antwoorden
Foute informatie• Te goeder trouw• Met slechte
bedoelingen Oude informatie Vervorming Gemengde precisie
/ kwaliteit
Controles achteraf • Feedback gebruiken• Interactie met
eindgebruiker Duiden en aanvullen
Bronaanduiding Aanduiding van
precisie
2013-09-13 IaZ 2013 - Jef Malliet
AAA
3.6 ConclusiesKwaliteit van semantische data
Weinig dat door techniek alleen kan opgelost worden• Techniek is noodzakelijk• Vereiste precisie moet door mensen geleverd worden
Verrijking aan kant van het portaal is moeilijk• Verhoogde risico’s op duplicatie, fouten en onzekerheid• Controle op kwaliteit kan slechts oppervlakkig
Meest betrouwbaar dichter bij de primaire bron• Aanmaken van data en informatie vraagt meer werk en
aandacht• Geen nieuwe vereisten: standaarden en voorschriften bestaan al
lang• Kwaliteitsverbetering vergroot herbruikbaarheid en
duurzaamheid
Hulp van de eindgebruiker (UGC- crowdsourcing)• Voorzichtig, risico op vervuiling• Vereist deelname door de ‘primaire bron’
2013-09-13 IaZ 2013 - Jef Malliet
AAA
4.1 Europeana
Top-down model Grote instellingen Landelijke aggregatoren Geen direct contact met de bronnen
Cross-domain Digitale dimensie doet grenzen vervagen Naar mekaar toe groeien
Internationaal Dialoog Meertaligheid
Evolutie Sterke nadruk op kwantiteit (politieke redenen) Nu overschakeling naar semantisch datamodel Nog geen goed zicht op ‘kwaliteit’ Experimenten met crowdsourcing (vb. Europeana1914-1918)
2013-09-13 IaZ 2013 - Jef Malliet
4.2 Erfgoedplus.be
Bottom-up model Ook kleine, lokale collecties moeten kunnen deelnemen ‘Aggregator’: positie tussen bron en www / Europeana
Draagvlakverbreding Provincie op de goede schaal (erkend in nieuw CE decreet) Lokaal erfgoed is opstap naar breder erfgoedbewustzijn
Begeleiding, ondersteuning, netwerk Direct contact met de (primaire) bronnen Kwaliteit is belangrijke bekommernis aan de bron Hergebruik en duurzaamheid Semantisch-web technologie toegepast van bij de
aanvang Complementair met Europeana
2013-09-13 IaZ 2013 - Jef Malliet
4.3 AAT & AAT-Ned
Thesaurus AAT(-Ned) Ontstaan bij Getty AHIP einde jaren ‘70 (nu Research Institute) Oorsprong: trefwoorden voor bibliografische databases Sinds 1994: Nederlands vertalingsproject, met doorstart in 2007
Eigenschappen Neutrale context Meertalig (Engels, Nederlands, Frans, Spaans, Chinees, Duits, …) Semantische voorloper (onbewust) Vernieuwde interesse door semantisch web
Ontwikkeling en onderhoud Actieve samenwerking binnen de erfgoedsector Gedeelde verantwoordelijkheid Deelname: correctie van fouten en aanvullingen Erfgoedbeheerders zijn zelf de specialisten Dynamisch, is nooit af
2013-09-13 IaZ 2013 - Jef Malliet
4.4 LoCloud
Verder bouwen op reeds ontwikkelde instrumenten en ervaring
Aandacht voor lokale erfgoedcollecties ‘Lightweight digital library’ Aggregatie, koppeling naar Europeana Linken met thesauri, plaatsnamenlijsten, …
Goede laagdrempelige instrumenten Cloud technologie ? Benodigde ondersteuning ? Opleiding ? Duurzaamheid van de infrastructuur ? Duurzaamheid van de organisatie ?
2013-09-13 IaZ 2013 - Jef Malliet
Vragen ?Opmerkingen ?
Suggesties ?
2013-09-13 IaZ 2013 - Jef Malliet