Vinden dankzij / ondanks metadata

Post on 17-Jan-2015

1.093 views 2 download

description

Lezing op de studiedag "Informatieontsluiting Hic et Nunc", 3 december 2008, Gent, België

Transcript of Vinden dankzij / ondanks metadata

Eric SievertsInstituut voor Media & informatie Management

Hogeschool van Amsterdam/

Universiteitsbibliotheek Utrechtsector Innovatie & Ontwikkeling

Vinden dankzij / ondanks metadata

Studiedag : Informatieontsluiting hic et nunc3 december 2008, Gent

metadata en ontsluiting

waarom “informatieontsluiting”?

we ontsluiten om te kunnen vinden

• dat is waar (want nodig) voor niet-digitaal materiaal

• dat is waar (want nodig?) voor digitaal niet-tekst materiaal

• is dat ook nog waar voor digitaal tekstmateriaal?

in een Google -maatschappij is het in elk geval niet altijd meer strikt nodig

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

filenaam: thesaurus.jpg

kun je zo makkelijk uit de voeten met thesauri?

waarop is deze foto in Google te vinden?

wat bedoelen we met “ontsluiting”?

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

• velen in Nederland vinden ontsluiting te duur • in bibliotheken doen we het vaak ook niet zo goed • misschien hoeft het ook niet meer zo nodig • of misschien toch wel?

• informatie vinden op internet wordt steeds lastiger• informatici komen achter belang van “betekenis”• informatici vinden dat ze metadata nodig hebben• monopoliseren informatici metadata en ontsluiting?

• informaticus en bibliothecaris moeten samenwerken• nieuwe technieken voor ontsluiting en metadata adopteren • automatische methoden en menselijke inbreng combineren

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

mijn drie verhaallijnen

zoek, zoek, zoek, zoek, zoek, ......

zoeker / zoekvraag documenten

match

basis-paradigma voor vinden van informatie

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zoek, zoek, zoek, zoek, zoek, ......

match

klassieke situatie bij ontsluiting

zoeker moet proberen “termen" te bedenken, waarmee onderwerp is ontsloten

ontsluiting:indexeerder moet “correcte” termen aan document toekennen

in principeperfecte match

mogelijk

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

klassieke ontsluiting

• gebruikersonvriendelijk dat zoeker zelf “correcte” termen moet ontdekken

• duur dat indexeerders documenten moeten analyseren om correcte termen te kunnen toekennen

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zoek, zoek, zoek, zoek, zoek, ......

zoeken in de wereld van

zoeker tikt maar wat woorden in (en vaak zelfs maar één woord)

zoeksysteem bevat alleen de woorden uit de documenten zelf

je vindt vaak niet (alles) wat je zoekt- toch tevreden ?

match

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zoeken in de wereld van .

zoeker mist relevante informatie (recall-probleem):– in tekst komen afwijkende spelling en woordvormen voor

– in tekst komen synoniemen en woorden in andere taal voor

– in tekst komen specifiekere begrippen voor

– ....

zoeker vindt niet-relevante informatie (precisie-probleem):– onvoldoende gespecificeerde vraag

– in tekst ontbreekt gewenste relatie tussen zoektermen

– in tekst komt zoekwoord in andere betekenis of context voor

– ....

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

waarom toch tevreden gebruikers ?

• zoeksysteem ziet er zo lekker (simpel) uit• zoeker vindt altijd wel wat (in 100 miljard webpagina's)• slimme ordening van resultaten,

zodat bij meeste vragen voor meerderheid van gebruikers altijd wel iets relevants bij de eerste 10 zit

en: who cares about lousy recall & precision (in the Google -world)?

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie bij zoeker

simpele zoekvraag geëxpandeerd en gedisambigueerd; uit zoekresultaat aanvullende termen gegenereerd voor vraagverfijning

zoeksysteem bevat alleen de woorden uit de documenten zelf

door verbeterdezoekvraag een

beter antwoord ?

match

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

taaltechnologie voor betere "query"

door "word stemming" en "fuzzy zoeken" automatisch op meer woordvormen gezocht >> betere recall

semantisch netwerk (of ontologie) bevat relaties tussen begrippen waardoor inhoudelijk verwante termen aan vraag kunnen worden toegevoegd >> betere recall

semantisch netwerk (of ontologie) bevat voor verschillende betekenissen van woord ook verschillende relaties met andere woorden >> disambigueren >> betere precisie

geleerden zijn het er nog niet over eens hoeveel dit verbetert

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

visualisatie van semantisch netwerk

taaltechnologie voor betere "query"

• door statistische analyse van zoekresultaat, genereert software mogelijke kenmerkende zoektermen, waarmee gebruiker naar eigen inzicht zoekvraag kan verfijnen

• zulke woorden kunnen ook uit woordenlijstje, thesaurus, semantisch netwerk e.d. worden afgeleid

meestal >> betere precisie

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie bij document

zoeken met "correcte" of “belangrijke” term

taaltechnologie verrijkt document met "correcte" term (uit thesaurus) of met meest kenmerkende termen uit de tekst

in principeperfecte match

mogelijk

match

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

documenten automatisch "verrijken"

na training van systeem op alle thesaurustermen kunnen documenten op basis van inhoudsanalyse van thesaurustermen worden voorzien

ondanks wat beperkingen gaat dat al steeds beter

op basis van woordlijsten en tekstanalyse kunnen bepaalde soorten woorden (persoonsnamen, plaatsnamen, producten, e.d.) als zodanig herkend en gemarkeerd worden

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

The Calais Web Serviceautomatically createsrich semantic metadata

Named Entities

Facts Events

geografische herkenning in Google Books

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie aan beide kanten

gebruiker tikt maar wat in, maar systeem zoekt toch op "goede" termen

computer kan documenten inhoudelijk karakteriseren (metadata toekennen)

beter zoekresultaat& lagere kosten ?

match

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

nut vangecontroleerdvocabulaire

free-textretrieval

problemen met recall:• door ontbreken van standaardisatie als retrieval software zelf te dom is• als er te weinig digitale tekst is

problemen met precisie:• als er te weinig digitale tekst is

OK door standaardisatie /autorisatie, maar toch:

problemen met recall:• als er te weinig trefwoorden zijn (wat bijna altijd geval zal zijn)

problemen met precisie:• bij specialistisch onderwerp

inhoudelijke ontsluiting

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

de 21 hoofdstukken op de bijbehorende website

een paar van de 117paragrafen uit de TOC

• Roy Tennant : If your system is more difficult to search and less effective than Amazon.com (and whose isn't?), then you have work to do. Stop asking for minor tweaks from vendors. After all, you can put lipstick on a pig, but it's still very much a pig.

• Marshall Breeding [parafrase] : Terwijl de producten van commerciële leveranciers van bibliotheek-software niet meer aansluiten op de wensen van onze klanten, stoppen zij al hun energie in het overnemen van concurrenten, in plaats van in innovatie.

maar: het ligt niet alleen aan ontsluiting

iedereen denkt dat Google "de maat der dingen" is voor onze gebruikers

maar let op:

de Google paradox– met Google "kun je alles vinden"

maar – als echt "alles" in Google zit, is het

eigenlijk niet meer te vinden

the google experience

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

metadata algemeen• om selectiever te kunnen zoeken• mogelijkheid van faceted search• voor interoperabiliteit tussen systemen• voor realisatie van semantisch web

onderwerpsontsluiting• voor realisatie van semantisch web• voor interoperabiliteit tussen systemen• voor niet-tekstmateriaal• omdat “de informatici” het nodig hebben

waarom toch behoefte aan metadata?

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

voor moderne zoekfunctionaliteit - “faceted search” -is aanwezigheid van formele kenmerken erg handig

• gegevens over elk willekeurig aspect van een “object”

• welke soorten metadata? bijv.geordend naar doel:– voor ontdekking (vinden) en beschrijving (snel oordeel) – structurele (bijv. bij complexe digitale objecten)– technische (afmeting, format, benodigde software, ...)– administratieve (rechten, aanwezigheid, ...)

• eisen bepaald door gebruikstoepassingen en -doel– op basis van aard van objecten– voor gebruikers– voor beheerders

metadata

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

• conceptueel model, zoals bijv. FRBR

• (standaard voor) te gebruiken metadata-elementen, zoals bijv. Dublin Core, MARC, MODS, EAD, LOM, ...

• (standaard voor) opslag van metadata, zoals bijv. XML

• richtlijnen voor “vullen van velden”, zoals AACR of RDA

• standaarden voor vullen van specifieke velden, zoals:– iso8601 voor vullen van datumveld (in OAIster: >100 varianten!)– AAT, MeSH, DDC, ... voor inhoudelijke ontsluiting

• standaarden voor uitwisselen van metadata, zoals OAI-PMH, Z39.50, SRU

• ...

metadata-”modellen” op diverse niveaus

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

• conceptueel model met als doel beter aan wensen van gebruikers tegemoet te kunnen komen

• entity-relationship model, waarin werken opgesplitst in:– werk (het intellectuele product)

– expressie van een werk (bijv. NL-vertaling)

– manifestatie van een werk/expressie (bijv. 3de druk)

– individueel exemplaar (bijv. dat op de 3de plank links)

maar ook soorten entiteiten als:– personen (zoals “auteur”)– organisaties– onderwerpen, ....

waartussen getypeerde relaties gelegd kunnen worden

FRBR

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Wstudy aboutthe opera

Борис Годунов

FRBNW006W

Борис Годунов:opera

FRBNW002W

Борис Годунов:libretto

FRBNW003W

Борис Годунов:tragedy

FRBNW004W

illustrations forthe play

Борис Годунов

FRBNW005W

introduction tothe play

Борис Годунов

FRBNW007

SADA COM

EFrench

translation

E001E

1869version

E001E

1872version

E002E

Rimsky-K'sarrangement

E003E

Frenchtransl. by

O. Lanceray

E002E

Englishtranslation

E003E

definitivestate

E001E

originaltext

E001

A1997

recording

A001

A1997

recording

A001

A1962

recording

A001

Mca. 1922

publication

FRBNM010

M1998

release

FRBNM002

M1996

re-release

FRBNM003

M1980

publication

FRBNM004

M1937

publication

FRBNM005

M1926

publication

FRBNM006

M1910

publication

FRBNM007

M1982 (Paris)publication

FRBNM008

M1927

publication

FRBNM011

M1982 (NYC)publication

FRBNM009

I

I001

I

I001

I

I001

I

I001

I

I001

I

I001

I

I001

I

I002

I

I001

I

I001

I

I001

REP

E002E

Russian text1872 version

E001E

Russian text1869 version

COM

ERussian text

ed. byP. Lamm

E003E

Frenchtransl. by

Lily Denis

E004E

French tr.by Delinesand Laloy

E005

COM

COM

EFrench

transl. byA. Baranoff

E004E001E

Russiantext

SUP

TRA

TRA

TRA

TRA

TRA

Patrick LeBoeuf (BNF)

"Boris Godunov" - the Pushkin play, the libretto, the opera, …

© Antony Pitts, Kal Ahmed, Royal Academy of Music

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

onafhankelijke evolutie . . . . (Dawkins?)

de Royal Academy of Music in London bedacht model om alles rondom muziek te kunnen beschrijven van “werk” tot “ervaring” van het bijwonen van een uitvoering

lijkt conceptueelerg op FRBR

maakt gebruik van“topic maps” uitde XML-wereld

en: ze zijn er nu wel achter dat FRBR ook bestaat

© Antony Pitts, Kal Ahmed, Royal Academy of Music

topic maps

zijn opgebouwd uit:• concepten (=topics)• die worden beschreven met

– “names” (kunnen alle woorden zijn die concept omschrijven (maar die zijn zelf ook weer topics!)

– “types” (die de aard van het betreffende concept omschrijven) (maar die zijn zelf ook weer topics!)

– “occurrences” (informatie-items die “over” het onderwerp gaan) (maar die zijn zelf ook weer topics!)

– “associations” (gespecificeerde soorten relaties tussen topics) (maar die zijn zelf ook weer topics!)

• dat alles beschreven in XML

dus heel netwerk doordat “de slang telkens in de eigen staart bijt”

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

gebruiksgemak thesaurus in een Google-wereld

probleem 1: gebruiker kent het voorkeursvocabulair niet (en wil zich daar ook niet in verdiepen)

oplossing: “vervangend zoeken” systeem probeert thesaurusterm(en) te vinden die het best corresponderen met ingetikte zoekwoorden

– via “user thesaurus” (heel veel synoniem-relaties, wellicht interactief opgebouwd op basis van log-files van zoekacties)

– mapping van termen uit de thesaurus op semantisch netwerk (lukt dat ook voor vak-jargon?)

– bij dubbelzinnige of onvolledige zoekvraag gaat systeem dialoog met gebruiker aan (ken ik zelf geen echte voorbeelden van)

– zoekresultaat van vrije zoekvraag wordt geanalyseerd op daarin (toevallig) voorkomen van termen uit de thesaurus

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

gebruiksgemak thesaurus in een Google-wereld

probleem 2: gebruiker realiseert zich niet (actief) dat gebruik van algemene zoekterm niet impliceert dat automatisch specifiekere begrippen worden gevonden

oplossing: “automatisch generiek zoeken”systeem voegt narrower terms van thesaurusterm aan zoekvraag toe

er is ook getest met een systeem dat verregaand “related terms” aan zoekvragen toevoegt en de “conceptuele afstand” tussen de aanvankelijke zoekterm en de termen waarop een document is gevonden als parameter voor relevance ranking gebruikt (Tudhope 2006)

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

diep in de thesaurus zelfin te stellen of je dit wilt

classificatie in een webomgeving

gebruikspraktijk leert dat het loont je aan enkele theoretische bouwregels te houden (Magrijn & van der Linden in IP) :

– eenheid van verdelingskarakteristiek onderverdeling van een klasse moet gebaseerd zijn op één en hetzelfde criterium

– co-extensie van een klasse met haar subklassengezamenlijke omvang van de subklassen moet gelijk zijn aan de omvang van de klasse die onderverdeeld is

– modulatie of gradatie verdeling van een klasse in subklassen moet geleidelijk verlopen

– collocatie rangschikkingsvolgorde van subklassen van dezelfde klasse (presentatie): naaste buren, naaste verwanten

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

classificatie in een webomgeving

zoeken en hyperlinking in een web-omgeving hebbenwel invloed op klassieke uitgangspunten:

• linking maakt presentatie en gebruik van classificaties en taxonomieën veel makkelijker

(gewoon links aanklikken)

• je hoeft niet zo streng te zijn met klassieke regels voor bouw van de systemen

(klasse kan op meer plaatsen in boomstructuur voorkomen: variabele combinatievolgorde, aanklikbare dwarsverbanden)

• zoekfunctie maakt het makkelijk te vinden waar gezochte rubriek zich bevindt

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

tagging

– iedereen bepaalt zelf hoe items te karakteriseren ("people powered“ , “user generated”)

– gebruiker kent eigen jargon het beste

– gericht op samenwerking in virtuele gemeenschappen ("collaboration, sharing, communities of practice, ...")

– visualisatie van gebruikte tags met "tag clouds“

– bijna 30% van internet-gebruikers “doet er intussen aan”

– maar: geen enkele standaardisatie en controle, dus alle problemen terug die gecontroleerd vocabulair oplost

– maar: tag clouds tonen alleen wat grote massa leuk vindt; is populariteit wel maat voor relevantie of belang?

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

tagging ook professioneel interessant ?

• binnen communities met zelfde woordgebruik• kan gebruikers bij de organisatie betrekken• als “advisering” belangrijker dan uitputtend zoeken (recall)• als informatie-professional supervisie houdt over

consistentie van gebruikte terminologie (maar staat dat niet haaks op idee van tagging?)

• als we tags kunnen organiseren (“bundles” bij delicious)• doordat computer ook relaties tussen tags kan leggen• als we tags kunnen “mappen” op thesaurus• tags in de catalogus als aanvulling op "echte" ontsluiting?• geo-tagging van in aanmerking komend materiaal

(mashup met Google Earth)

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

tags gebundeld op dewey-codes (ddc)

koppeling tussen klassieke bibliotheekcatalogus(UB Utrecht) en LibraryThingtoont gegevens uit LibraryThingvoorzover betrekking hebbendop materiaal uit Utrecht

interoperabiliteit

in netwerkomgeving is integratie van (vaak heterogene) bronnen van belang, hetgeen “interoperabiliteit” vereist

interoperabiliteit kan verschillende dingen inhouden, zoals:

– mogelijkheid om gegevens uit te wisselen tussen verschillende systemen

– mogelijkheid om in één keer te zoeken in gegevens van/uit meer verschillende systemen of daartussen relaties te leggen

daarbij gaat het vooral om de gebruikte metadata, zowel op syntactisch als op semantisch niveauzie: L.M. Chan, M.L. Zeng (2006) - Metadata interoperability and standardization: a study of methodology; Part I. Achieving interoperability at the schema level in: D-Lib Magazine 12, nr 6, http://dlib.org/dlib/june06/chan/06chan.html

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

interoperabiliteit

manieren om systemen interoperabel te maken:

• in verschillende systemen hetzelfde metadatasysteem gebruiken (zowel technisch, als structuur, zoals bijv. XML + DC bij OAI)

• in verschillende systemen dezelfde standaarden voor de inhoud van de metadata gebruiken (zoals bij GTT; niet bij OAI!)

• zorgen dat systemen elkaars metadata kunnen “begrijpen” op niveau van het systeem (bijv. via concordantie tussen de “velden”)

• zorgen dat systemen de betekenis van de inhoud van elkaars metadata kunnen “begrijpen” (bijv. via concordantie van vocabulair)

» problematiek ligt zowel op syntactisch als op semantisch niveau

» voor die laatste twee aanpakken is RDF te gebruiken (Resource Description Framework)

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

• RDF legt in XML de relatie vast tussen objecten, hun metadata en de daarvoor gebruikte metadata standaarden

• gebruikt “namespaces” om (via een URL) naar beschrijving van die standaarden te kunnen verwijzen

• is bedoeld om bestaande, elders ontwikkelde semantische systemen te kunnen (her)gebruiken en zonodig te combineren

• hoe de structuur van te gebruiken metadata in elkaar zit, is ook volgens het RDF-formalisme in XML uit te drukken

– daarvoor te gebruiken RDF-schema: RDFS – dat mag ook een “boomstructuur” zijn, in plaats van het lineaire

rijtje velden van Dublin Core– daarin kunnen ook klassen van objecten worden gedefinieerd

(bijv. veld “uitgever” behoort tot de klasse van “leveranciers”)

dit biedt eerste aanzet tot computerinterpreteerbaarheidEric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

resource description framework

interoperabiliteit op veldniveau

1: specificeer welke metadata op welke wijze in een bepaald systeem worden toegepast

– in application profile: specificatie welke elementen uit welke (verschillende) metadata standaarden in een specifieke situatie worden toegepast

– in metadata registry: gedetailleerde beschrijving

• van één specifiek metadata schema (zoals bijv. het Dublin Core Metadata Registry op DCMI-site)

• van de metadata schema’s die in bepaalde toepassing worden gecombineerd - en in application profile zijn gespecificeerd (zoals bijv. het TEL-registry van The European Library)

doel: daarnaar kunnen verwijzen (linken) ten behoeve van hergebruik, conversie of concordantie

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

interoperabiliteit op veldniveau

2: je kunt converteren van ene schema naar andere schema via “crosswalk” (veld-concordantie)

– één op één (zoals bij “MARC-DC crosswalk”)

– veel-op-veel via vaste tussenstap(zoals bij “Getty crosswalk”)

probleem als er verschil is in opzet, structuur en detail tussen verschillende schema’s

cdwa

cco

vra

marc

cimi

dc

mods

ead

fda

marc dc

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

interoperabiliteit op vocabulair-niveau

alleen “melden” welke vocabulair-standaard (scheme) wordt gebruikt (zoals bij DC) is natuurlijk nog niet genoeg voor interoperabiliteit ten behoeve van zoeksysteem

tot de oplossing behoren onder meer:

– klassieke concordanties

algemeen probleem ook hier: verschillen in opzet, specificiteit, granularity, mate van pre/postcoördinatie, hiërarchische structuur, culturele achtergrond, .... tussen verschillende vocabulaires

– terminology services

web-service met infrastructuur en functionaliteit voor bevragen van terminologie, bijvoorbeeld via Zthes-protocol (zowel Z39.50 als SRU)

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

als overlap tussen twee termen teklein is, vindt geen matching plaats

uit Catch-project STITCH:Koninklijke Bibliotheek,Vrije Universiteit - sectie AI

match op basis van materiaal dat met beide systemen is ontsloten

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

matchen van vocabulair uit 2 thesauri

SKOS

om interoperabiliteit via terminology services “automatisch” te kunnen laten verlopen is meer nodig:

standaard om computerleesbaar te beschrijven hoe een bepaald ontsluitingssysteem in elkaar zit en hoe onder meer de relaties tussen begrippen moeten worden geïnterpreteerd(bijv.: of iets een BT is, een scope note of .... )

dat kon al een beetje met RDFS

daarvoor is nu in ontwikkeling SKOS: Simple Knowledge Organisation System

daarbij wordt (ook) gebruik gemaakt van RDF

met SKOS kunnen ook verschillende ontsluitingssystemen (ontologieën) gecombineerd worden

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

SKOS-representatie vanthesaurusterm & -relatiesis in RDF te beschrijven

Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries.

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

uit Catch-project CHOICE:Beeld & Geluid (Hilversum),Vrije Universiteit - sectie BI

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

SKOS

in CATCH-project CHOICEkonden aanvullende relaties in een eigen thesaurus worden afgeleid uit relaties in een ander (extern) woordsysteem

OWL

om interoperabiliteit “automatisch” te kunnen laten verlopen is meer nodig:

standaard om computerinterpreteerbaar te beschrijven wat de betekenis is van de concepten in een ontsluitingssysteem (liefst een echte ontologie)

daarvoor is beschrijvingstaal ontwikkeld:

OWL: web ontology language

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

• begrip oorspronkelijk afkomstig uit de filosofie en later ook uit de wereld van de kunstmatige intelligentie:

• dient als "kennis-representatie“ waarin kennis van (stukje van) de wereld in vastgelegd

• kan veel vollediger en meer complexe representatie van de werkelijkheid geven dan een thesaurus

• met meer soorten relaties tussen begrippen• met vastgelegde rollen en eigenschappen van concepten• bestaan voor beperkte gebiedjes (“wijnontologie”)• veel breder is een zogenaamde “core ontology”

bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op terrein van cultureel erfgoed

• eerdere ”topic maps” legden in feite ook een ontologie vast

ontologieën

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

wat betekenen “ontologieën” in relatie tot het semantisch web

• begrip wordt in dat kader zeer ruim opgevat:

algemene aanduiding voor allerlei soorten ontsluitings-systemen (thesauri, classificaties, taxonomieën, namenlijsten, .....)

• wel essentieel daarvoor:

– ontologie moet beschikbaar zijn in computerleesbare, -interpreteerbare en -verwerkbare vorm

– er zijn dus formele beschrijvingstalen zoals OWL voor nodig

ontologieën

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

DC + XML + RDF(S) + SKOS + OWL

combinatie van methoden, standaarden en technieken voor opslaan, structureren, vullen, formaliseren, beschrijven en interpreteren van metadata

– wordt gebruikt voor verdere ontwikkeling van interoperabiliteit

– ligt ook aan de basis van het semantisch web

[zie ook serie “De Standaard” uit InformatieProfessional 2006-2007]

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

semantisch web

• ultieme toepassing van interoperabiliteit

• door toepassing van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantische netwerken,

…) – formele beschrijvingstalen (zoals OWL)– annotaties van objecten (=ontsluiting)

• kan computerinterpreteerbaar betekenis worden toegekend

• zullen systemen elkaar kunnen begrijpen

• en zullen zij kennis en betekenis kunnen combineren

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

© Guus Schreiber UvA / VU

rdf annotatie van web-bron

Eric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

de iconclass annotatie

Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@mim.hva.nl

© Guus Schreiber UvA / VU

de "species ontology"

zoek, zoek, zoek, zoek, zoek, ......

match

voor interoperabiliteit en voor het semantisch web zal dus ook nog volop moeten worden "ontsloten", maar met slimme systemen:

• die domme documenten (helpen) ontsluiten • en die betekenissen kunnen achterhalen• en die heterogene metadata kunnen matchen• en die domme zoekvragen (kunnen) verbeteren

zal zelfs een aap correcte informatie kunnen vindenEric Sieverts | e.g.sieverts@uu.nl | e.g.sieverts@hva.nl | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008