Vinden dankzij / ondanks metadata
-
Upload
eric-sieverts -
Category
Education
-
view
1.093 -
download
2
description
Transcript of Vinden dankzij / ondanks metadata
Eric SievertsInstituut voor Media & informatie Management
Hogeschool van Amsterdam/
Universiteitsbibliotheek Utrechtsector Innovatie & Ontwikkeling
Vinden dankzij / ondanks metadata
Studiedag : Informatieontsluiting hic et nunc3 december 2008, Gent
metadata en ontsluiting
waarom “informatieontsluiting”?
we ontsluiten om te kunnen vinden
• dat is waar (want nodig) voor niet-digitaal materiaal
• dat is waar (want nodig?) voor digitaal niet-tekst materiaal
• is dat ook nog waar voor digitaal tekstmateriaal?
in een Google -maatschappij is het in elk geval niet altijd meer strikt nodig
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
filenaam: thesaurus.jpg
kun je zo makkelijk uit de voeten met thesauri?
waarop is deze foto in Google te vinden?
wat bedoelen we met “ontsluiting”?
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
• velen in Nederland vinden ontsluiting te duur • in bibliotheken doen we het vaak ook niet zo goed • misschien hoeft het ook niet meer zo nodig • of misschien toch wel?
• informatie vinden op internet wordt steeds lastiger• informatici komen achter belang van “betekenis”• informatici vinden dat ze metadata nodig hebben• monopoliseren informatici metadata en ontsluiting?
• informaticus en bibliothecaris moeten samenwerken• nieuwe technieken voor ontsluiting en metadata adopteren • automatische methoden en menselijke inbreng combineren
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
mijn drie verhaallijnen
zoek, zoek, zoek, zoek, zoek, ......
zoeker / zoekvraag documenten
match
basis-paradigma voor vinden van informatie
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zoek, zoek, zoek, zoek, zoek, ......
match
klassieke situatie bij ontsluiting
zoeker moet proberen “termen" te bedenken, waarmee onderwerp is ontsloten
ontsluiting:indexeerder moet “correcte” termen aan document toekennen
in principeperfecte match
mogelijk
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
klassieke ontsluiting
• gebruikersonvriendelijk dat zoeker zelf “correcte” termen moet ontdekken
• duur dat indexeerders documenten moeten analyseren om correcte termen te kunnen toekennen
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zoek, zoek, zoek, zoek, zoek, ......
zoeken in de wereld van
zoeker tikt maar wat woorden in (en vaak zelfs maar één woord)
zoeksysteem bevat alleen de woorden uit de documenten zelf
je vindt vaak niet (alles) wat je zoekt- toch tevreden ?
match
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zoeken in de wereld van .
zoeker mist relevante informatie (recall-probleem):– in tekst komen afwijkende spelling en woordvormen voor
– in tekst komen synoniemen en woorden in andere taal voor
– in tekst komen specifiekere begrippen voor
– ....
zoeker vindt niet-relevante informatie (precisie-probleem):– onvoldoende gespecificeerde vraag
– in tekst ontbreekt gewenste relatie tussen zoektermen
– in tekst komt zoekwoord in andere betekenis of context voor
– ....
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
waarom toch tevreden gebruikers ?
• zoeksysteem ziet er zo lekker (simpel) uit• zoeker vindt altijd wel wat (in 100 miljard webpagina's)• slimme ordening van resultaten,
zodat bij meeste vragen voor meerderheid van gebruikers altijd wel iets relevants bij de eerste 10 zit
en: who cares about lousy recall & precision (in the Google -world)?
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zoek, zoek, zoek, zoek, zoek, ......
taaltechnologie bij zoeker
simpele zoekvraag geëxpandeerd en gedisambigueerd; uit zoekresultaat aanvullende termen gegenereerd voor vraagverfijning
zoeksysteem bevat alleen de woorden uit de documenten zelf
door verbeterdezoekvraag een
beter antwoord ?
match
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
taaltechnologie voor betere "query"
door "word stemming" en "fuzzy zoeken" automatisch op meer woordvormen gezocht >> betere recall
semantisch netwerk (of ontologie) bevat relaties tussen begrippen waardoor inhoudelijk verwante termen aan vraag kunnen worden toegevoegd >> betere recall
semantisch netwerk (of ontologie) bevat voor verschillende betekenissen van woord ook verschillende relaties met andere woorden >> disambigueren >> betere precisie
geleerden zijn het er nog niet over eens hoeveel dit verbetert
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
visualisatie van semantisch netwerk
taaltechnologie voor betere "query"
• door statistische analyse van zoekresultaat, genereert software mogelijke kenmerkende zoektermen, waarmee gebruiker naar eigen inzicht zoekvraag kan verfijnen
• zulke woorden kunnen ook uit woordenlijstje, thesaurus, semantisch netwerk e.d. worden afgeleid
meestal >> betere precisie
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zoek, zoek, zoek, zoek, zoek, ......
taaltechnologie bij document
zoeken met "correcte" of “belangrijke” term
taaltechnologie verrijkt document met "correcte" term (uit thesaurus) of met meest kenmerkende termen uit de tekst
in principeperfecte match
mogelijk
match
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
documenten automatisch "verrijken"
na training van systeem op alle thesaurustermen kunnen documenten op basis van inhoudsanalyse van thesaurustermen worden voorzien
ondanks wat beperkingen gaat dat al steeds beter
op basis van woordlijsten en tekstanalyse kunnen bepaalde soorten woorden (persoonsnamen, plaatsnamen, producten, e.d.) als zodanig herkend en gemarkeerd worden
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
The Calais Web Serviceautomatically createsrich semantic metadata
Named Entities
Facts Events
geografische herkenning in Google Books
zoek, zoek, zoek, zoek, zoek, ......
taaltechnologie aan beide kanten
gebruiker tikt maar wat in, maar systeem zoekt toch op "goede" termen
computer kan documenten inhoudelijk karakteriseren (metadata toekennen)
beter zoekresultaat& lagere kosten ?
match
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
nut vangecontroleerdvocabulaire
free-textretrieval
problemen met recall:• door ontbreken van standaardisatie als retrieval software zelf te dom is• als er te weinig digitale tekst is
problemen met precisie:• als er te weinig digitale tekst is
OK door standaardisatie /autorisatie, maar toch:
problemen met recall:• als er te weinig trefwoorden zijn (wat bijna altijd geval zal zijn)
problemen met precisie:• bij specialistisch onderwerp
inhoudelijke ontsluiting
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden
met 21 hoofdstukken en 117 paragrafen
in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave
voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden
met 21 hoofdstukken en 117 paragrafen
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
de 21 hoofdstukken op de bijbehorende website
een paar van de 117paragrafen uit de TOC
• Roy Tennant : If your system is more difficult to search and less effective than Amazon.com (and whose isn't?), then you have work to do. Stop asking for minor tweaks from vendors. After all, you can put lipstick on a pig, but it's still very much a pig.
• Marshall Breeding [parafrase] : Terwijl de producten van commerciële leveranciers van bibliotheek-software niet meer aansluiten op de wensen van onze klanten, stoppen zij al hun energie in het overnemen van concurrenten, in plaats van in innovatie.
maar: het ligt niet alleen aan ontsluiting
iedereen denkt dat Google "de maat der dingen" is voor onze gebruikers
maar let op:
de Google paradox– met Google "kun je alles vinden"
maar – als echt "alles" in Google zit, is het
eigenlijk niet meer te vinden
the google experience
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
metadata algemeen• om selectiever te kunnen zoeken• mogelijkheid van faceted search• voor interoperabiliteit tussen systemen• voor realisatie van semantisch web
onderwerpsontsluiting• voor realisatie van semantisch web• voor interoperabiliteit tussen systemen• voor niet-tekstmateriaal• omdat “de informatici” het nodig hebben
waarom toch behoefte aan metadata?
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
voor moderne zoekfunctionaliteit - “faceted search” -is aanwezigheid van formele kenmerken erg handig
• gegevens over elk willekeurig aspect van een “object”
• welke soorten metadata? bijv.geordend naar doel:– voor ontdekking (vinden) en beschrijving (snel oordeel) – structurele (bijv. bij complexe digitale objecten)– technische (afmeting, format, benodigde software, ...)– administratieve (rechten, aanwezigheid, ...)
• eisen bepaald door gebruikstoepassingen en -doel– op basis van aard van objecten– voor gebruikers– voor beheerders
metadata
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
• conceptueel model, zoals bijv. FRBR
• (standaard voor) te gebruiken metadata-elementen, zoals bijv. Dublin Core, MARC, MODS, EAD, LOM, ...
• (standaard voor) opslag van metadata, zoals bijv. XML
• richtlijnen voor “vullen van velden”, zoals AACR of RDA
• standaarden voor vullen van specifieke velden, zoals:– iso8601 voor vullen van datumveld (in OAIster: >100 varianten!)– AAT, MeSH, DDC, ... voor inhoudelijke ontsluiting
• standaarden voor uitwisselen van metadata, zoals OAI-PMH, Z39.50, SRU
• ...
metadata-”modellen” op diverse niveaus
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
• conceptueel model met als doel beter aan wensen van gebruikers tegemoet te kunnen komen
• entity-relationship model, waarin werken opgesplitst in:– werk (het intellectuele product)
– expressie van een werk (bijv. NL-vertaling)
– manifestatie van een werk/expressie (bijv. 3de druk)
– individueel exemplaar (bijv. dat op de 3de plank links)
maar ook soorten entiteiten als:– personen (zoals “auteur”)– organisaties– onderwerpen, ....
waartussen getypeerde relaties gelegd kunnen worden
FRBR
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
Wstudy aboutthe opera
Борис Годунов
FRBNW006W
Борис Годунов:opera
FRBNW002W
Борис Годунов:libretto
FRBNW003W
Борис Годунов:tragedy
FRBNW004W
illustrations forthe play
Борис Годунов
FRBNW005W
introduction tothe play
Борис Годунов
FRBNW007
SADA COM
EFrench
translation
E001E
1869version
E001E
1872version
E002E
Rimsky-K'sarrangement
E003E
Frenchtransl. by
O. Lanceray
E002E
Englishtranslation
E003E
definitivestate
E001E
originaltext
E001
A1997
recording
A001
A1997
recording
A001
A1962
recording
A001
Mca. 1922
publication
FRBNM010
M1998
release
FRBNM002
M1996
re-release
FRBNM003
M1980
publication
FRBNM004
M1937
publication
FRBNM005
M1926
publication
FRBNM006
M1910
publication
FRBNM007
M1982 (Paris)publication
FRBNM008
M1927
publication
FRBNM011
M1982 (NYC)publication
FRBNM009
I
I001
I
I001
I
I001
I
I001
I
I001
I
I001
I
I001
I
I002
I
I001
I
I001
I
I001
REP
E002E
Russian text1872 version
E001E
Russian text1869 version
COM
ERussian text
ed. byP. Lamm
E003E
Frenchtransl. by
Lily Denis
E004E
French tr.by Delinesand Laloy
E005
COM
COM
EFrench
transl. byA. Baranoff
E004E001E
Russiantext
SUP
TRA
TRA
TRA
TRA
TRA
Patrick LeBoeuf (BNF)
"Boris Godunov" - the Pushkin play, the libretto, the opera, …
© Antony Pitts, Kal Ahmed, Royal Academy of Music
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
onafhankelijke evolutie . . . . (Dawkins?)
de Royal Academy of Music in London bedacht model om alles rondom muziek te kunnen beschrijven van “werk” tot “ervaring” van het bijwonen van een uitvoering
lijkt conceptueelerg op FRBR
maakt gebruik van“topic maps” uitde XML-wereld
en: ze zijn er nu wel achter dat FRBR ook bestaat
© Antony Pitts, Kal Ahmed, Royal Academy of Music
topic maps
zijn opgebouwd uit:• concepten (=topics)• die worden beschreven met
– “names” (kunnen alle woorden zijn die concept omschrijven (maar die zijn zelf ook weer topics!)
– “types” (die de aard van het betreffende concept omschrijven) (maar die zijn zelf ook weer topics!)
– “occurrences” (informatie-items die “over” het onderwerp gaan) (maar die zijn zelf ook weer topics!)
– “associations” (gespecificeerde soorten relaties tussen topics) (maar die zijn zelf ook weer topics!)
• dat alles beschreven in XML
dus heel netwerk doordat “de slang telkens in de eigen staart bijt”
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
gebruiksgemak thesaurus in een Google-wereld
probleem 1: gebruiker kent het voorkeursvocabulair niet (en wil zich daar ook niet in verdiepen)
oplossing: “vervangend zoeken” systeem probeert thesaurusterm(en) te vinden die het best corresponderen met ingetikte zoekwoorden
– via “user thesaurus” (heel veel synoniem-relaties, wellicht interactief opgebouwd op basis van log-files van zoekacties)
– mapping van termen uit de thesaurus op semantisch netwerk (lukt dat ook voor vak-jargon?)
– bij dubbelzinnige of onvolledige zoekvraag gaat systeem dialoog met gebruiker aan (ken ik zelf geen echte voorbeelden van)
– zoekresultaat van vrije zoekvraag wordt geanalyseerd op daarin (toevallig) voorkomen van termen uit de thesaurus
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
gebruiksgemak thesaurus in een Google-wereld
probleem 2: gebruiker realiseert zich niet (actief) dat gebruik van algemene zoekterm niet impliceert dat automatisch specifiekere begrippen worden gevonden
oplossing: “automatisch generiek zoeken”systeem voegt narrower terms van thesaurusterm aan zoekvraag toe
er is ook getest met een systeem dat verregaand “related terms” aan zoekvragen toevoegt en de “conceptuele afstand” tussen de aanvankelijke zoekterm en de termen waarop een document is gevonden als parameter voor relevance ranking gebruikt (Tudhope 2006)
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
diep in de thesaurus zelfin te stellen of je dit wilt
classificatie in een webomgeving
gebruikspraktijk leert dat het loont je aan enkele theoretische bouwregels te houden (Magrijn & van der Linden in IP) :
– eenheid van verdelingskarakteristiek onderverdeling van een klasse moet gebaseerd zijn op één en hetzelfde criterium
– co-extensie van een klasse met haar subklassengezamenlijke omvang van de subklassen moet gelijk zijn aan de omvang van de klasse die onderverdeeld is
– modulatie of gradatie verdeling van een klasse in subklassen moet geleidelijk verlopen
– collocatie rangschikkingsvolgorde van subklassen van dezelfde klasse (presentatie): naaste buren, naaste verwanten
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
classificatie in een webomgeving
zoeken en hyperlinking in een web-omgeving hebbenwel invloed op klassieke uitgangspunten:
• linking maakt presentatie en gebruik van classificaties en taxonomieën veel makkelijker
(gewoon links aanklikken)
• je hoeft niet zo streng te zijn met klassieke regels voor bouw van de systemen
(klasse kan op meer plaatsen in boomstructuur voorkomen: variabele combinatievolgorde, aanklikbare dwarsverbanden)
• zoekfunctie maakt het makkelijk te vinden waar gezochte rubriek zich bevindt
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
tagging
– iedereen bepaalt zelf hoe items te karakteriseren ("people powered“ , “user generated”)
– gebruiker kent eigen jargon het beste
– gericht op samenwerking in virtuele gemeenschappen ("collaboration, sharing, communities of practice, ...")
– visualisatie van gebruikte tags met "tag clouds“
– bijna 30% van internet-gebruikers “doet er intussen aan”
– maar: geen enkele standaardisatie en controle, dus alle problemen terug die gecontroleerd vocabulair oplost
– maar: tag clouds tonen alleen wat grote massa leuk vindt; is populariteit wel maat voor relevantie of belang?
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
tagging ook professioneel interessant ?
• binnen communities met zelfde woordgebruik• kan gebruikers bij de organisatie betrekken• als “advisering” belangrijker dan uitputtend zoeken (recall)• als informatie-professional supervisie houdt over
consistentie van gebruikte terminologie (maar staat dat niet haaks op idee van tagging?)
• als we tags kunnen organiseren (“bundles” bij delicious)• doordat computer ook relaties tussen tags kan leggen• als we tags kunnen “mappen” op thesaurus• tags in de catalogus als aanvulling op "echte" ontsluiting?• geo-tagging van in aanmerking komend materiaal
(mashup met Google Earth)
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
tags gebundeld op dewey-codes (ddc)
koppeling tussen klassieke bibliotheekcatalogus(UB Utrecht) en LibraryThingtoont gegevens uit LibraryThingvoorzover betrekking hebbendop materiaal uit Utrecht
interoperabiliteit
in netwerkomgeving is integratie van (vaak heterogene) bronnen van belang, hetgeen “interoperabiliteit” vereist
interoperabiliteit kan verschillende dingen inhouden, zoals:
– mogelijkheid om gegevens uit te wisselen tussen verschillende systemen
– mogelijkheid om in één keer te zoeken in gegevens van/uit meer verschillende systemen of daartussen relaties te leggen
daarbij gaat het vooral om de gebruikte metadata, zowel op syntactisch als op semantisch niveauzie: L.M. Chan, M.L. Zeng (2006) - Metadata interoperability and standardization: a study of methodology; Part I. Achieving interoperability at the schema level in: D-Lib Magazine 12, nr 6, http://dlib.org/dlib/june06/chan/06chan.html
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
interoperabiliteit
manieren om systemen interoperabel te maken:
• in verschillende systemen hetzelfde metadatasysteem gebruiken (zowel technisch, als structuur, zoals bijv. XML + DC bij OAI)
• in verschillende systemen dezelfde standaarden voor de inhoud van de metadata gebruiken (zoals bij GTT; niet bij OAI!)
• zorgen dat systemen elkaars metadata kunnen “begrijpen” op niveau van het systeem (bijv. via concordantie tussen de “velden”)
• zorgen dat systemen de betekenis van de inhoud van elkaars metadata kunnen “begrijpen” (bijv. via concordantie van vocabulair)
» problematiek ligt zowel op syntactisch als op semantisch niveau
» voor die laatste twee aanpakken is RDF te gebruiken (Resource Description Framework)
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
• RDF legt in XML de relatie vast tussen objecten, hun metadata en de daarvoor gebruikte metadata standaarden
• gebruikt “namespaces” om (via een URL) naar beschrijving van die standaarden te kunnen verwijzen
• is bedoeld om bestaande, elders ontwikkelde semantische systemen te kunnen (her)gebruiken en zonodig te combineren
• hoe de structuur van te gebruiken metadata in elkaar zit, is ook volgens het RDF-formalisme in XML uit te drukken
– daarvoor te gebruiken RDF-schema: RDFS – dat mag ook een “boomstructuur” zijn, in plaats van het lineaire
rijtje velden van Dublin Core– daarin kunnen ook klassen van objecten worden gedefinieerd
(bijv. veld “uitgever” behoort tot de klasse van “leveranciers”)
dit biedt eerste aanzet tot computerinterpreteerbaarheidEric Sieverts | [email protected] | http://www.library.uu.nl/medew/it/eric | [email protected]
resource description framework
interoperabiliteit op veldniveau
1: specificeer welke metadata op welke wijze in een bepaald systeem worden toegepast
– in application profile: specificatie welke elementen uit welke (verschillende) metadata standaarden in een specifieke situatie worden toegepast
– in metadata registry: gedetailleerde beschrijving
• van één specifiek metadata schema (zoals bijv. het Dublin Core Metadata Registry op DCMI-site)
• van de metadata schema’s die in bepaalde toepassing worden gecombineerd - en in application profile zijn gespecificeerd (zoals bijv. het TEL-registry van The European Library)
doel: daarnaar kunnen verwijzen (linken) ten behoeve van hergebruik, conversie of concordantie
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
interoperabiliteit op veldniveau
2: je kunt converteren van ene schema naar andere schema via “crosswalk” (veld-concordantie)
– één op één (zoals bij “MARC-DC crosswalk”)
– veel-op-veel via vaste tussenstap(zoals bij “Getty crosswalk”)
probleem als er verschil is in opzet, structuur en detail tussen verschillende schema’s
cdwa
cco
vra
marc
cimi
dc
mods
ead
fda
marc dc
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
interoperabiliteit op vocabulair-niveau
alleen “melden” welke vocabulair-standaard (scheme) wordt gebruikt (zoals bij DC) is natuurlijk nog niet genoeg voor interoperabiliteit ten behoeve van zoeksysteem
tot de oplossing behoren onder meer:
– klassieke concordanties
algemeen probleem ook hier: verschillen in opzet, specificiteit, granularity, mate van pre/postcoördinatie, hiërarchische structuur, culturele achtergrond, .... tussen verschillende vocabulaires
– terminology services
web-service met infrastructuur en functionaliteit voor bevragen van terminologie, bijvoorbeeld via Zthes-protocol (zowel Z39.50 als SRU)
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
als overlap tussen twee termen teklein is, vindt geen matching plaats
uit Catch-project STITCH:Koninklijke Bibliotheek,Vrije Universiteit - sectie AI
match op basis van materiaal dat met beide systemen is ontsloten
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
matchen van vocabulair uit 2 thesauri
SKOS
om interoperabiliteit via terminology services “automatisch” te kunnen laten verlopen is meer nodig:
standaard om computerleesbaar te beschrijven hoe een bepaald ontsluitingssysteem in elkaar zit en hoe onder meer de relaties tussen begrippen moeten worden geïnterpreteerd(bijv.: of iets een BT is, een scope note of .... )
dat kon al een beetje met RDFS
daarvoor is nu in ontwikkeling SKOS: Simple Knowledge Organisation System
daarbij wordt (ook) gebruik gemaakt van RDF
met SKOS kunnen ook verschillende ontsluitingssystemen (ontologieën) gecombineerd worden
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
SKOS-representatie vanthesaurusterm & -relatiesis in RDF te beschrijven
Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries.
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
uit Catch-project CHOICE:Beeld & Geluid (Hilversum),Vrije Universiteit - sectie BI
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
SKOS
in CATCH-project CHOICEkonden aanvullende relaties in een eigen thesaurus worden afgeleid uit relaties in een ander (extern) woordsysteem
OWL
om interoperabiliteit “automatisch” te kunnen laten verlopen is meer nodig:
standaard om computerinterpreteerbaar te beschrijven wat de betekenis is van de concepten in een ontsluitingssysteem (liefst een echte ontologie)
daarvoor is beschrijvingstaal ontwikkeld:
OWL: web ontology language
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
• begrip oorspronkelijk afkomstig uit de filosofie en later ook uit de wereld van de kunstmatige intelligentie:
• dient als "kennis-representatie“ waarin kennis van (stukje van) de wereld in vastgelegd
• kan veel vollediger en meer complexe representatie van de werkelijkheid geven dan een thesaurus
• met meer soorten relaties tussen begrippen• met vastgelegde rollen en eigenschappen van concepten• bestaan voor beperkte gebiedjes (“wijnontologie”)• veel breder is een zogenaamde “core ontology”
bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op terrein van cultureel erfgoed
• eerdere ”topic maps” legden in feite ook een ontologie vast
ontologieën
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
wat betekenen “ontologieën” in relatie tot het semantisch web
• begrip wordt in dat kader zeer ruim opgevat:
algemene aanduiding voor allerlei soorten ontsluitings-systemen (thesauri, classificaties, taxonomieën, namenlijsten, .....)
• wel essentieel daarvoor:
– ontologie moet beschikbaar zijn in computerleesbare, -interpreteerbare en -verwerkbare vorm
– er zijn dus formele beschrijvingstalen zoals OWL voor nodig
ontologieën
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
DC + XML + RDF(S) + SKOS + OWL
combinatie van methoden, standaarden en technieken voor opslaan, structureren, vullen, formaliseren, beschrijven en interpreteren van metadata
– wordt gebruikt voor verdere ontwikkeling van interoperabiliteit
– ligt ook aan de basis van het semantisch web
[zie ook serie “De Standaard” uit InformatieProfessional 2006-2007]
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
semantisch web
• ultieme toepassing van interoperabiliteit
• door toepassing van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantische netwerken,
…) – formele beschrijvingstalen (zoals OWL)– annotaties van objecten (=ontsluiting)
• kan computerinterpreteerbaar betekenis worden toegekend
• zullen systemen elkaar kunnen begrijpen
• en zullen zij kennis en betekenis kunnen combineren
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
© Guus Schreiber UvA / VU
rdf annotatie van web-bron
Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008
de iconclass annotatie
Eric Sieverts | [email protected] | http://www.library.uu.nl/medew/it/eric | [email protected]
© Guus Schreiber UvA / VU
de "species ontology"
zoek, zoek, zoek, zoek, zoek, ......
match
voor interoperabiliteit en voor het semantisch web zal dus ook nog volop moeten worden "ontsloten", maar met slimme systemen:
• die domme documenten (helpen) ontsluiten • en die betekenissen kunnen achterhalen• en die heterogene metadata kunnen matchen• en die domme zoekvragen (kunnen) verbeteren
zal zelfs een aap correcte informatie kunnen vindenEric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008