OWD2012- 6- Samenwerking met scholen via live videolessen- Jan van der Meij
Interoperabiliteit in het Cultureel Erfgoed Domein Lourens van der Meij VU Amsterdam - KB October 3...
-
Upload
barbara-adam -
Category
Documents
-
view
216 -
download
1
Transcript of Interoperabiliteit in het Cultureel Erfgoed Domein Lourens van der Meij VU Amsterdam - KB October 3...
Interoperabiliteit in het Cultureel Erfgoed Domein
Lourens van der MeijVU Amsterdam - KB
October 3rd , 2008
Interoperabiliteit in het Cultureel Erfgoed Domein
Achtergrond
• CATCH (NWO) • Continuous Access To Cultural Heritage• Informatica onderzoeksprojecten• Toegepast op het Cultureel Erfgoed Domein (musea,
bibliotheken,..)
• STITCH• SemanTic Interoperability To access Cultural
Heritage• Interoperabiliteit:
• Uitwisselen tussen instellingen (standaardisatie)• Integratie (vertalen, verbinden)Van metadata
Interoperabiliteit in het Cultureel Erfgoed Domein
Rode draad
Aan de hand van voorbeelden aantonen dat• Integratie van data, collecties, diensten• Interoperabiliteit:
• Data inzetbaar los van applicatie• Functionaliteit herbruikbaar voor diverse
toepassingen via services.• Verbanden leggen, semantische verbanden tussen
data uit verschillende bronnen
belangrijk is binnen het Culturele Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Eerst
• Geïntegreerde toegang tot collecties in het CEdomein aan de hand van use case.
• Introductie van de use case• Over vocabulaires• Collecties introduceren• Faceted browsing• Wens, uitwerking• Demo• Voorwaarden, details
Interoperabiliteit in het Cultureel Erfgoed Domein
(Geïntegreerde) toegang tot collecties
• Collecties: (records) boeken, kunstwerken,…• Electronic access, web portal.• STITCH focus op de semantiek: gebruik van de beschikbare
gestructureerde vocabulaires t.b.v. gestructureerde toegang tot de collectie. Niet “full text search”
• Records: meta data, informatie over het object• Auteur• Datum• Onderwerp
• CE instituten beheren vaak verscheidene vocabulaires-knowledge structures(KOS), voor het toegankelijk maken opslaan en onderhoud van objecten.
• De focus van STITCH:onderwerpsontsluiting, toegang via gestructureerde vocabulaires.
Interoperabiliteit in het Cultureel Erfgoed Domein
Vocabulaires (Knowledge Structures, KOS)
• Thesauri, classificatiesystemen dienen tot het structureren van toegang tot collecties, ze beschrijven inhoud, vorm, verschillende aspecten van collectie objecten.
• Veel vocabulaires binnen de KB: het STITCH project is een samenwerking tussen VU Amsterdam (KRR group), Koninklijke Bibliotheek en MPI Nijmegen. De KB heeft circa 10 eigen vocabulaires in beheer, maar 20 of meer externe vocabulaires spelen een rol. Waarom?• Geschiedenis• Gespecialiseerde collecties, specifieke methodes van
ontsluiting,...• Voorbeelden van vocabulaires in de demos.
Interoperabiliteit in het Cultureel Erfgoed Domein
Vocabulaires
• Veel verschillende (soorten) vocabulaires• Veel verschillende representaties, data formats,
toegangsmethoden.
• Geïntegreerde toegang vereist :• standaarden voor representatie van vocabulaires en
collecties• Gestandaardiseerde toegang => services• Verbindingen tussen termen van betrokken
vocabulaires: alignments.
• Next: voorbeeld van integratie
Interoperabiliteit in het Cultureel Erfgoed Domein
Eerste use case, scenario voor STITCH
• Geïntegreerde toegang tot twee collecties• KB : geillumineerde manuscripten• BnF: Mandragore, manuscrits enluminés
• STITCH aspecten:• Integratie• Interoperabiliteit/Uitwisselbaarheid data en diensten.
• RDF, SKOS• Alignment, methodes en standaarden.
Na de demo over deze aspecten meer.
Interoperabiliteit in het Cultureel Erfgoed Domein
KB Illustrated Manuscripts
Interoperabiliteit in het Cultureel Erfgoed DomeinKB Illustrated Manuscripts: Iconclass
Interoperabiliteit in het Cultureel Erfgoed Domein
Mandragore
Interoperabiliteit in het Cultureel Erfgoed Domein
Mandragore
Interoperabiliteit in het Cultureel Erfgoed Domein
Faceted browsing
• Toegang tot de collectie gebruik makend van de structuur van de vocabulaires
• Selectie, verfijning langs verschillende dimensies: Onderwerp, auteur, periode, genre,..
• De structuur gebruiken voor het groeperen van objecten• Lions, Giraffes, Zebras -> animals. Distinguish them
as a group.
Interoperabiliteit in het Cultureel Erfgoed Domein
MDS 2- Field 1
- Field 1.1- Field 1.2
- Field 1.2.1- Field 1.3
- Field 2- …
MDS 1- Field 1
- Field 1.1- Field 2
- Field 2.1- Field 2.2- …
Wat er is:
Interoperabiliteit in het Cultureel Erfgoed Domein
Wat we willen:
Interoperabiliteit in het Cultureel Erfgoed Domein
Demo
• KB Middeleeuwse Verluchte Handschriften• manuscrits enluminés de la B.n.F.
• http://galjas.cs.vu.nl:33333/MANDRA-SV-ICE-mandraNewNONE , amphibians
• graan
Interoperabiliteit in het Cultureel Erfgoed Domein
Geïntegreerde semantische toegang
• Geïntegreerde semantische toegang vereist:• standaard representatie van vocabulaires en
collectiies• Standaard toegang => services• Alignments tussen de vocabulaires, verbindingen
tussen termen.
Interoperabiliteit in het Cultureel Erfgoed Domein
Representatie Standaarden
• Gebruik van semantic web techniekenRDF:• “Dingen” worden geidentificeerd d.m.v. “resources”,
URIs, geldig, uniek niet alllen binnen een applicatie, maar globaal.
• Waarden als strings, getallen(Literals), URIs• Eigenschappen als getypeerde, named links tussen
URIs en URIs of Literals (op laagste niveau alleen “triples”)
• + Theorie, redeneer methoden, query-talenleidt tot interoperabiliteit, standaardisatie• Daarbovenop standaarden voor vocabulaires en
collecties nodig.
Interoperabiliteit in het Cultureel Erfgoed Domein
http://www.iconclass.nl/s_11
http://www.iconclass.nl/s_11F
skos:Concept
rdf:type
skos:broader
skos:prefLabel“the Virgin Mary”@en
skos:prefLabel“la Vierge Marie”@fr
http://www.iconclass.nl/
skos:inScheme
skos:ConceptScheme
rdf:type
SKOS: Example
Interoperabiliteit in het Cultureel Erfgoed Domein
SKOS (Simple Knowledge Organization System)
• SKOS biedt bouwstenen om vocabulaires in RDF weer te geven• Objects: Concept and ConceptScheme• Lexical properties (multilingual)
• prefLabel• altLabel
• Semantic relations• broader, narrower• related
• Notes • scopeNote• definition
…
Interoperabiliteit in het Cultureel Erfgoed Domein
Vocabulary alignment
• Doel: vinden van semantische verbanden tussen vocabulaire termen• “klassieke ruïnes” ≈ “landschap met ruïnes”• “maagd Maria” = “Heilige Moeder”
• En wel (semi-) automatisch• Vocabulaires zijn groot (≈ 100.000)• Veranderen continu.
Interoperabiliteit in het Cultureel Erfgoed Domein
Automatic alignment techniques
• Lexical Labels of entities and textual definitions
• StructuralStructure of the vocabularies
• Background knowledge Using a shared conceptual reference to find links
• ExtensionalObject information (e.g. book indexing)
céréale, grain, blé blé
Interoperabiliteit in het Cultureel Erfgoed Domein
Automatic alignment techniques
• Lexical Labels of entities and textual definitions
• StructuralStructure of the vocabularies
• Background knowledge Using a shared conceptual reference to find links
• ExtensionalObject information (e.g. book indexing)
céréale, grain, blé blé
Interoperabiliteit in het Cultureel Erfgoed Domein
Extensional Statistical Alignment
• Object information (e.g. book indexing)
Thesaurus 1 Thesaurus 2
Collectionof books
“DutchLiterature”
“Dutch”
Interoperabiliteit in het Cultureel Erfgoed Domein
Resultaten
1: 9132.9 (1704 3479 976) Schilderijen - schilderkunst
2: 8088.5 (1204 2330 767) Kwaliteitszorg - kwaliteitsmanagement
3: 6232.7 (820 1572 543) Personeelsmanagement - personeelsbeleid
4: 5392.1 (1399 3271 622) Beeldende kunsten - beeldende kunst
5: 5063.1 (4951 1152 613) Nederlands - Nederlandse taalkunde
17: 3421.8 (280 714 243) Diabetes mellitus - suikerziekte
Interoperabiliteit in het Cultureel Erfgoed Domein
Verder
• Evaluatie, eerste lessen die we geleerd hebben• Hoe verder ->• Tweede voorbeeld: herindexering• Eventueel derde voorbeeld, service• Afsluiten
Interoperabiliteit in het Cultureel Erfgoed Domein
Evaluation Alignment: er is geen simpele oplossing
• Huidige alignment technieken niet voldoende betrouwbaar als enige bron voor het vinden van alignments
• Vraag blijft:Wat is een goede alignment?• Evaluatie criteria?• => Waarvoor zullen de alignments gebruikt
worden?Scenarios (toegespitst op bibliotheek-omgeving) • Geïntegreerd zoeken • herindexering• Thesaurus merging• Navigatie => faceted browsing
Interoperabiliteit in het Cultureel Erfgoed Domein
Waartoe gebruiksscenarios
• Evaluatie(waardering) van alignments hangt van het gebruiksdoel af.
• Real world applicaties bieden een real world test van de kwaliteit van alignments
• Eisen aan alignments hangen van gebruik af (soort en kwaliteit)
• Optional demo evaluatie:• http://localhost:33344/logineval• http://kits.cs.vu.nl:33344/logineval
• Nu, herindexeren, meest “real world” applicatie.
Interoperabiliteit in het Cultureel Erfgoed Domein
Situatie Nederlandse bibliotheken, KB
• KB: twee grote collecties:• DEPOT (bewaarplicht alle Nederlandstalige publicaties)• Wetenschappelijke collectie• Onderwerpsontsluiting d.m.v. twee
trefwoord/classificatiesystemen.
• Gemeenschappelijk automatiseringssysteem (OCLC-Pica)
• Meta data erg complex, vele velden• Een boek, publicatie door verschillende
bibliotheken voorzien van meta data, gebruik makend van vele verschillende vocabulaires. Maar alle meta data van 1 boek centraal beschikbaar!
Interoperabiliteit in het Cultureel Erfgoed Domein
Herindexering
• Op de KB werken circa 20 mensen aan het indexeren van boeken, circa 20000 boeken per jaar.
• Indexering zelfs intern volgens twee totaal verschillende indexeringssystemen (GOO, Brinkman) Indexeren: trefwoord en classificatie toekenning van boeken.
• Sommige boeken hebben al een indexering gedaan door een andere Bibliotheek maar volgens een ander indexeringssysteem (openbare bibliotheken, Biblion).
• Als Biblion trefwoorden of combinaties ervan vertaald zouden kunnen worden naar KB indexeringssysteem(Brinkman), zou dat minder werk voor de KB betekenen.
Interoperabiliteit in het Cultureel Erfgoed Domein
WinIBW
• OCLC (PICA) automatiseringssysteem voor bibliotheken in Nederland, ook gebruikt binnen Europa
• O.a. Online Public Access Catalogue (OPAC) • WinIBW internet toegang tot Pica system
(lokaal en centraal). Toevoegen records, wijzigen meta data, zoeken van records.
• Demo, maar eerst even..
Interoperabiliteit in het Cultureel Erfgoed Domein
Herindexing
• Biblion -> Brinkman Fietstochten, Kapellen, Beesel, Heiligenbeelden,
… -> Brinkman?Gebruik alignment..Bibl:Fietstochten -> Brinkman?Bibl:Kappellen -> Brinkman?DEMO(Voorbeeld z sel 3-10-2008 gd?79)
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Interoperabiliteit in het Cultureel Erfgoed Domein
Een van de resultaten
Interoperabiliteit in het Cultureel Erfgoed Domein
Herindexing
• Resultaten worden nu ge-evalueerd• Verbetering is mogelijk:
• Gebruik ook andere meta data• Pas scenario aan(stel grens 95% betrouwbaarheid)
• Betrouwbare herindexering meer plaatsen bruikbaar.• Vinden oude records,• Gedetailleerd zoeken..
Interoperabiliteit in het Cultureel Erfgoed Domein
Schets vocabulaires van belang voor de KB
Interoperabiliteit in het Cultureel Erfgoed Domein
Geïntegreerde toegang tot vocabulaires, objecten
• Internet services• Protocols, SOAP, REST,..• Vocabulary Access, Alignment access• Een redelijk functionele prototype is gemaakt.• http://eculture.cs.vu.nl:38080/vocreptags• http://localhost:8080/vocreptags
Interoperabiliteit in het Cultureel Erfgoed Domein
Lessons
• Using semantic web techniques interoperability and integration of collections can be made easier.
• Aligning vocabularies is of use in different situations. The alignment methods need to be fine-tuned to the application they are meant for.
• Introducing new techniques, interaction between field CH and scientific institutes very valuable.
• Standardization of access to collections and vocabularies should be dealt with (demo is demo).
Interoperabiliteit in het Cultureel Erfgoed Domein
Begrippen (wikipedia)
• An ontology in both computer science and information science is a formal representation of a set of concepts within a domain and the relationships between those concepts. It is used to reason about the properties of that domain, and may be used to define the domain.
• Metadata (meta data, or sometimes metainformation) is "data about data", of any sort in any media. An item of metadata may describe an individual datum, or content item, or a collection of data including multiple content items and hierarchical levels, for example a database schema.
Interoperabiliteit in het Cultureel Erfgoed Domein
begrippen
• A library classification is a system of coding and organizing library materials (books, serials, audiovisual materials, computer files, maps, manuscripts, realia) according to their subject and allocating a call number to that information resource. Similar to classification systems used in biology, bibliographic classification systems group entities that are similar together typically arranged in a hierarchical tree structure.
• In information technology, a thesaurus represents a database or list of semantically orthogonal topical search keys. In the field of Artificial Intelligence, a thesaurus may sometimes be referred to as an ontology.
Interoperabiliteit in het Cultureel Erfgoed Domein
Te vertellen
• Demo faceted browser• Demo vocabulary service• Demo winibw
• Verworvenheid STITCH• Linking between vocabularies defining and
measuring quality of major importance• Scenarios.• Using instances to find good mappings is productive.
• Boodschappen• Semantische web is van nut binnen CH• Contact, nauw contact CH-Universiteiten belangrijk.
• Facts• Thesaurus, ontologie, xml, rdf, standaarden, soorten
van mappings