Vinden dankzij / ondanks metadata

72
Instituut voor Media & informatie Manage Hogeschool van Amsterdam / Universiteitsbibliotheek Utrecht sector Innovatie & Ontwikkeling Vinden dankzij / ondanks metadata Studiedag : Informatieontsluiting hic et nun 3 december 2008, Gent

description

Lezing op de studiedag "Informatieontsluiting Hic et Nunc", 3 december 2008, Gent, België

Transcript of Vinden dankzij / ondanks metadata

Page 1: Vinden dankzij / ondanks metadata

Eric SievertsInstituut voor Media & informatie Management

Hogeschool van Amsterdam/

Universiteitsbibliotheek Utrechtsector Innovatie & Ontwikkeling

Vinden dankzij / ondanks metadata

Studiedag : Informatieontsluiting hic et nunc3 december 2008, Gent

Page 2: Vinden dankzij / ondanks metadata

metadata en ontsluiting

waarom “informatieontsluiting”?

we ontsluiten om te kunnen vinden

• dat is waar (want nodig) voor niet-digitaal materiaal

• dat is waar (want nodig?) voor digitaal niet-tekst materiaal

• is dat ook nog waar voor digitaal tekstmateriaal?

in een Google -maatschappij is het in elk geval niet altijd meer strikt nodig

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 3: Vinden dankzij / ondanks metadata

filenaam: thesaurus.jpg

kun je zo makkelijk uit de voeten met thesauri?

waarop is deze foto in Google te vinden?

Page 4: Vinden dankzij / ondanks metadata

wat bedoelen we met “ontsluiting”?

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 5: Vinden dankzij / ondanks metadata

• velen in Nederland vinden ontsluiting te duur • in bibliotheken doen we het vaak ook niet zo goed • misschien hoeft het ook niet meer zo nodig • of misschien toch wel?

• informatie vinden op internet wordt steeds lastiger• informatici komen achter belang van “betekenis”• informatici vinden dat ze metadata nodig hebben• monopoliseren informatici metadata en ontsluiting?

• informaticus en bibliothecaris moeten samenwerken• nieuwe technieken voor ontsluiting en metadata adopteren • automatische methoden en menselijke inbreng combineren

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

mijn drie verhaallijnen

Page 6: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

zoeker / zoekvraag documenten

match

basis-paradigma voor vinden van informatie

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 7: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

match

klassieke situatie bij ontsluiting

zoeker moet proberen “termen" te bedenken, waarmee onderwerp is ontsloten

ontsluiting:indexeerder moet “correcte” termen aan document toekennen

in principeperfecte match

mogelijk

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 8: Vinden dankzij / ondanks metadata

klassieke ontsluiting

• gebruikersonvriendelijk dat zoeker zelf “correcte” termen moet ontdekken

• duur dat indexeerders documenten moeten analyseren om correcte termen te kunnen toekennen

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 9: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

zoeken in de wereld van

zoeker tikt maar wat woorden in (en vaak zelfs maar één woord)

zoeksysteem bevat alleen de woorden uit de documenten zelf

je vindt vaak niet (alles) wat je zoekt- toch tevreden ?

match

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 10: Vinden dankzij / ondanks metadata

zoeken in de wereld van .

zoeker mist relevante informatie (recall-probleem):– in tekst komen afwijkende spelling en woordvormen voor

– in tekst komen synoniemen en woorden in andere taal voor

– in tekst komen specifiekere begrippen voor

– ....

zoeker vindt niet-relevante informatie (precisie-probleem):– onvoldoende gespecificeerde vraag

– in tekst ontbreekt gewenste relatie tussen zoektermen

– in tekst komt zoekwoord in andere betekenis of context voor

– ....

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 11: Vinden dankzij / ondanks metadata

waarom toch tevreden gebruikers ?

• zoeksysteem ziet er zo lekker (simpel) uit• zoeker vindt altijd wel wat (in 100 miljard webpagina's)• slimme ordening van resultaten,

zodat bij meeste vragen voor meerderheid van gebruikers altijd wel iets relevants bij de eerste 10 zit

en: who cares about lousy recall & precision (in the Google -world)?

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 12: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie bij zoeker

simpele zoekvraag geëxpandeerd en gedisambigueerd; uit zoekresultaat aanvullende termen gegenereerd voor vraagverfijning

zoeksysteem bevat alleen de woorden uit de documenten zelf

door verbeterdezoekvraag een

beter antwoord ?

match

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 13: Vinden dankzij / ondanks metadata

taaltechnologie voor betere "query"

door "word stemming" en "fuzzy zoeken" automatisch op meer woordvormen gezocht >> betere recall

semantisch netwerk (of ontologie) bevat relaties tussen begrippen waardoor inhoudelijk verwante termen aan vraag kunnen worden toegevoegd >> betere recall

semantisch netwerk (of ontologie) bevat voor verschillende betekenissen van woord ook verschillende relaties met andere woorden >> disambigueren >> betere precisie

geleerden zijn het er nog niet over eens hoeveel dit verbetert

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 14: Vinden dankzij / ondanks metadata

visualisatie van semantisch netwerk

Page 15: Vinden dankzij / ondanks metadata

taaltechnologie voor betere "query"

• door statistische analyse van zoekresultaat, genereert software mogelijke kenmerkende zoektermen, waarmee gebruiker naar eigen inzicht zoekvraag kan verfijnen

• zulke woorden kunnen ook uit woordenlijstje, thesaurus, semantisch netwerk e.d. worden afgeleid

meestal >> betere precisie

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 16: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie bij document

zoeken met "correcte" of “belangrijke” term

taaltechnologie verrijkt document met "correcte" term (uit thesaurus) of met meest kenmerkende termen uit de tekst

in principeperfecte match

mogelijk

match

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 17: Vinden dankzij / ondanks metadata

documenten automatisch "verrijken"

na training van systeem op alle thesaurustermen kunnen documenten op basis van inhoudsanalyse van thesaurustermen worden voorzien

ondanks wat beperkingen gaat dat al steeds beter

op basis van woordlijsten en tekstanalyse kunnen bepaalde soorten woorden (persoonsnamen, plaatsnamen, producten, e.d.) als zodanig herkend en gemarkeerd worden

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 18: Vinden dankzij / ondanks metadata
Page 19: Vinden dankzij / ondanks metadata

The Calais Web Serviceautomatically createsrich semantic metadata

Named Entities

Facts Events

Page 20: Vinden dankzij / ondanks metadata
Page 21: Vinden dankzij / ondanks metadata
Page 22: Vinden dankzij / ondanks metadata

geografische herkenning in Google Books

Page 23: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

taaltechnologie aan beide kanten

gebruiker tikt maar wat in, maar systeem zoekt toch op "goede" termen

computer kan documenten inhoudelijk karakteriseren (metadata toekennen)

beter zoekresultaat& lagere kosten ?

match

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 24: Vinden dankzij / ondanks metadata

nut vangecontroleerdvocabulaire

free-textretrieval

problemen met recall:• door ontbreken van standaardisatie als retrieval software zelf te dom is• als er te weinig digitale tekst is

problemen met precisie:• als er te weinig digitale tekst is

OK door standaardisatie /autorisatie, maar toch:

problemen met recall:• als er te weinig trefwoorden zijn (wat bijna altijd geval zal zijn)

problemen met precisie:• bij specialistisch onderwerp

inhoudelijke ontsluiting

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 25: Vinden dankzij / ondanks metadata

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 26: Vinden dankzij / ondanks metadata

zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 27: Vinden dankzij / ondanks metadata

de 21 hoofdstukken op de bijbehorende website

een paar van de 117paragrafen uit de TOC

Page 28: Vinden dankzij / ondanks metadata

• Roy Tennant : If your system is more difficult to search and less effective than Amazon.com (and whose isn't?), then you have work to do. Stop asking for minor tweaks from vendors. After all, you can put lipstick on a pig, but it's still very much a pig.

• Marshall Breeding [parafrase] : Terwijl de producten van commerciële leveranciers van bibliotheek-software niet meer aansluiten op de wensen van onze klanten, stoppen zij al hun energie in het overnemen van concurrenten, in plaats van in innovatie.

maar: het ligt niet alleen aan ontsluiting

Page 29: Vinden dankzij / ondanks metadata

iedereen denkt dat Google "de maat der dingen" is voor onze gebruikers

maar let op:

de Google paradox– met Google "kun je alles vinden"

maar – als echt "alles" in Google zit, is het

eigenlijk niet meer te vinden

the google experience

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 30: Vinden dankzij / ondanks metadata

metadata algemeen• om selectiever te kunnen zoeken• mogelijkheid van faceted search• voor interoperabiliteit tussen systemen• voor realisatie van semantisch web

onderwerpsontsluiting• voor realisatie van semantisch web• voor interoperabiliteit tussen systemen• voor niet-tekstmateriaal• omdat “de informatici” het nodig hebben

waarom toch behoefte aan metadata?

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 31: Vinden dankzij / ondanks metadata

voor moderne zoekfunctionaliteit - “faceted search” -is aanwezigheid van formele kenmerken erg handig

Page 32: Vinden dankzij / ondanks metadata

• gegevens over elk willekeurig aspect van een “object”

• welke soorten metadata? bijv.geordend naar doel:– voor ontdekking (vinden) en beschrijving (snel oordeel) – structurele (bijv. bij complexe digitale objecten)– technische (afmeting, format, benodigde software, ...)– administratieve (rechten, aanwezigheid, ...)

• eisen bepaald door gebruikstoepassingen en -doel– op basis van aard van objecten– voor gebruikers– voor beheerders

metadata

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 33: Vinden dankzij / ondanks metadata

• conceptueel model, zoals bijv. FRBR

• (standaard voor) te gebruiken metadata-elementen, zoals bijv. Dublin Core, MARC, MODS, EAD, LOM, ...

• (standaard voor) opslag van metadata, zoals bijv. XML

• richtlijnen voor “vullen van velden”, zoals AACR of RDA

• standaarden voor vullen van specifieke velden, zoals:– iso8601 voor vullen van datumveld (in OAIster: >100 varianten!)– AAT, MeSH, DDC, ... voor inhoudelijke ontsluiting

• standaarden voor uitwisselen van metadata, zoals OAI-PMH, Z39.50, SRU

• ...

metadata-”modellen” op diverse niveaus

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 34: Vinden dankzij / ondanks metadata

• conceptueel model met als doel beter aan wensen van gebruikers tegemoet te kunnen komen

• entity-relationship model, waarin werken opgesplitst in:– werk (het intellectuele product)

– expressie van een werk (bijv. NL-vertaling)

– manifestatie van een werk/expressie (bijv. 3de druk)

– individueel exemplaar (bijv. dat op de 3de plank links)

maar ook soorten entiteiten als:– personen (zoals “auteur”)– organisaties– onderwerpen, ....

waartussen getypeerde relaties gelegd kunnen worden

FRBR

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 35: Vinden dankzij / ondanks metadata

Wstudy aboutthe opera

Борис Годунов

FRBNW006W

Борис Годунов:opera

FRBNW002W

Борис Годунов:libretto

FRBNW003W

Борис Годунов:tragedy

FRBNW004W

illustrations forthe play

Борис Годунов

FRBNW005W

introduction tothe play

Борис Годунов

FRBNW007

SADA COM

EFrench

translation

E001E

1869version

E001E

1872version

E002E

Rimsky-K'sarrangement

E003E

Frenchtransl. by

O. Lanceray

E002E

Englishtranslation

E003E

definitivestate

E001E

originaltext

E001

A1997

recording

A001

A1997

recording

A001

A1962

recording

A001

Mca. 1922

publication

FRBNM010

M1998

release

FRBNM002

M1996

re-release

FRBNM003

M1980

publication

FRBNM004

M1937

publication

FRBNM005

M1926

publication

FRBNM006

M1910

publication

FRBNM007

M1982 (Paris)publication

FRBNM008

M1927

publication

FRBNM011

M1982 (NYC)publication

FRBNM009

I

I001

I

I001

I

I001

I

I001

I

I001

I

I001

I

I001

I

I002

I

I001

I

I001

I

I001

REP

E002E

Russian text1872 version

E001E

Russian text1869 version

COM

ERussian text

ed. byP. Lamm

E003E

Frenchtransl. by

Lily Denis

E004E

French tr.by Delinesand Laloy

E005

COM

COM

EFrench

transl. byA. Baranoff

E004E001E

Russiantext

SUP

TRA

TRA

TRA

TRA

TRA

Patrick LeBoeuf (BNF)

"Boris Godunov" - the Pushkin play, the libretto, the opera, …

Page 36: Vinden dankzij / ondanks metadata

© Antony Pitts, Kal Ahmed, Royal Academy of Music

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

onafhankelijke evolutie . . . . (Dawkins?)

de Royal Academy of Music in London bedacht model om alles rondom muziek te kunnen beschrijven van “werk” tot “ervaring” van het bijwonen van een uitvoering

lijkt conceptueelerg op FRBR

maakt gebruik van“topic maps” uitde XML-wereld

en: ze zijn er nu wel achter dat FRBR ook bestaat

Page 37: Vinden dankzij / ondanks metadata

© Antony Pitts, Kal Ahmed, Royal Academy of Music

Page 38: Vinden dankzij / ondanks metadata

topic maps

zijn opgebouwd uit:• concepten (=topics)• die worden beschreven met

– “names” (kunnen alle woorden zijn die concept omschrijven (maar die zijn zelf ook weer topics!)

– “types” (die de aard van het betreffende concept omschrijven) (maar die zijn zelf ook weer topics!)

– “occurrences” (informatie-items die “over” het onderwerp gaan) (maar die zijn zelf ook weer topics!)

– “associations” (gespecificeerde soorten relaties tussen topics) (maar die zijn zelf ook weer topics!)

• dat alles beschreven in XML

dus heel netwerk doordat “de slang telkens in de eigen staart bijt”

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 39: Vinden dankzij / ondanks metadata

gebruiksgemak thesaurus in een Google-wereld

probleem 1: gebruiker kent het voorkeursvocabulair niet (en wil zich daar ook niet in verdiepen)

oplossing: “vervangend zoeken” systeem probeert thesaurusterm(en) te vinden die het best corresponderen met ingetikte zoekwoorden

– via “user thesaurus” (heel veel synoniem-relaties, wellicht interactief opgebouwd op basis van log-files van zoekacties)

– mapping van termen uit de thesaurus op semantisch netwerk (lukt dat ook voor vak-jargon?)

– bij dubbelzinnige of onvolledige zoekvraag gaat systeem dialoog met gebruiker aan (ken ik zelf geen echte voorbeelden van)

– zoekresultaat van vrije zoekvraag wordt geanalyseerd op daarin (toevallig) voorkomen van termen uit de thesaurus

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 40: Vinden dankzij / ondanks metadata
Page 41: Vinden dankzij / ondanks metadata

gebruiksgemak thesaurus in een Google-wereld

probleem 2: gebruiker realiseert zich niet (actief) dat gebruik van algemene zoekterm niet impliceert dat automatisch specifiekere begrippen worden gevonden

oplossing: “automatisch generiek zoeken”systeem voegt narrower terms van thesaurusterm aan zoekvraag toe

er is ook getest met een systeem dat verregaand “related terms” aan zoekvragen toevoegt en de “conceptuele afstand” tussen de aanvankelijke zoekterm en de termen waarop een document is gevonden als parameter voor relevance ranking gebruikt (Tudhope 2006)

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 42: Vinden dankzij / ondanks metadata

diep in de thesaurus zelfin te stellen of je dit wilt

Page 43: Vinden dankzij / ondanks metadata

classificatie in een webomgeving

gebruikspraktijk leert dat het loont je aan enkele theoretische bouwregels te houden (Magrijn & van der Linden in IP) :

– eenheid van verdelingskarakteristiek onderverdeling van een klasse moet gebaseerd zijn op één en hetzelfde criterium

– co-extensie van een klasse met haar subklassengezamenlijke omvang van de subklassen moet gelijk zijn aan de omvang van de klasse die onderverdeeld is

– modulatie of gradatie verdeling van een klasse in subklassen moet geleidelijk verlopen

– collocatie rangschikkingsvolgorde van subklassen van dezelfde klasse (presentatie): naaste buren, naaste verwanten

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 44: Vinden dankzij / ondanks metadata

classificatie in een webomgeving

zoeken en hyperlinking in een web-omgeving hebbenwel invloed op klassieke uitgangspunten:

• linking maakt presentatie en gebruik van classificaties en taxonomieën veel makkelijker

(gewoon links aanklikken)

• je hoeft niet zo streng te zijn met klassieke regels voor bouw van de systemen

(klasse kan op meer plaatsen in boomstructuur voorkomen: variabele combinatievolgorde, aanklikbare dwarsverbanden)

• zoekfunctie maakt het makkelijk te vinden waar gezochte rubriek zich bevindt

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 45: Vinden dankzij / ondanks metadata
Page 46: Vinden dankzij / ondanks metadata
Page 47: Vinden dankzij / ondanks metadata
Page 48: Vinden dankzij / ondanks metadata

tagging

– iedereen bepaalt zelf hoe items te karakteriseren ("people powered“ , “user generated”)

– gebruiker kent eigen jargon het beste

– gericht op samenwerking in virtuele gemeenschappen ("collaboration, sharing, communities of practice, ...")

– visualisatie van gebruikte tags met "tag clouds“

– bijna 30% van internet-gebruikers “doet er intussen aan”

– maar: geen enkele standaardisatie en controle, dus alle problemen terug die gecontroleerd vocabulair oplost

– maar: tag clouds tonen alleen wat grote massa leuk vindt; is populariteit wel maat voor relevantie of belang?

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 49: Vinden dankzij / ondanks metadata

tagging ook professioneel interessant ?

• binnen communities met zelfde woordgebruik• kan gebruikers bij de organisatie betrekken• als “advisering” belangrijker dan uitputtend zoeken (recall)• als informatie-professional supervisie houdt over

consistentie van gebruikte terminologie (maar staat dat niet haaks op idee van tagging?)

• als we tags kunnen organiseren (“bundles” bij delicious)• doordat computer ook relaties tussen tags kan leggen• als we tags kunnen “mappen” op thesaurus• tags in de catalogus als aanvulling op "echte" ontsluiting?• geo-tagging van in aanmerking komend materiaal

(mashup met Google Earth)

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 50: Vinden dankzij / ondanks metadata
Page 51: Vinden dankzij / ondanks metadata
Page 52: Vinden dankzij / ondanks metadata

tags gebundeld op dewey-codes (ddc)

Page 53: Vinden dankzij / ondanks metadata

koppeling tussen klassieke bibliotheekcatalogus(UB Utrecht) en LibraryThingtoont gegevens uit LibraryThingvoorzover betrekking hebbendop materiaal uit Utrecht

Page 54: Vinden dankzij / ondanks metadata

interoperabiliteit

in netwerkomgeving is integratie van (vaak heterogene) bronnen van belang, hetgeen “interoperabiliteit” vereist

interoperabiliteit kan verschillende dingen inhouden, zoals:

– mogelijkheid om gegevens uit te wisselen tussen verschillende systemen

– mogelijkheid om in één keer te zoeken in gegevens van/uit meer verschillende systemen of daartussen relaties te leggen

daarbij gaat het vooral om de gebruikte metadata, zowel op syntactisch als op semantisch niveauzie: L.M. Chan, M.L. Zeng (2006) - Metadata interoperability and standardization: a study of methodology; Part I. Achieving interoperability at the schema level in: D-Lib Magazine 12, nr 6, http://dlib.org/dlib/june06/chan/06chan.html

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 55: Vinden dankzij / ondanks metadata

interoperabiliteit

manieren om systemen interoperabel te maken:

• in verschillende systemen hetzelfde metadatasysteem gebruiken (zowel technisch, als structuur, zoals bijv. XML + DC bij OAI)

• in verschillende systemen dezelfde standaarden voor de inhoud van de metadata gebruiken (zoals bij GTT; niet bij OAI!)

• zorgen dat systemen elkaars metadata kunnen “begrijpen” op niveau van het systeem (bijv. via concordantie tussen de “velden”)

• zorgen dat systemen de betekenis van de inhoud van elkaars metadata kunnen “begrijpen” (bijv. via concordantie van vocabulair)

» problematiek ligt zowel op syntactisch als op semantisch niveau

» voor die laatste twee aanpakken is RDF te gebruiken (Resource Description Framework)

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 56: Vinden dankzij / ondanks metadata

• RDF legt in XML de relatie vast tussen objecten, hun metadata en de daarvoor gebruikte metadata standaarden

• gebruikt “namespaces” om (via een URL) naar beschrijving van die standaarden te kunnen verwijzen

• is bedoeld om bestaande, elders ontwikkelde semantische systemen te kunnen (her)gebruiken en zonodig te combineren

• hoe de structuur van te gebruiken metadata in elkaar zit, is ook volgens het RDF-formalisme in XML uit te drukken

– daarvoor te gebruiken RDF-schema: RDFS – dat mag ook een “boomstructuur” zijn, in plaats van het lineaire

rijtje velden van Dublin Core– daarin kunnen ook klassen van objecten worden gedefinieerd

(bijv. veld “uitgever” behoort tot de klasse van “leveranciers”)

dit biedt eerste aanzet tot computerinterpreteerbaarheidEric Sieverts | [email protected] | http://www.library.uu.nl/medew/it/eric | [email protected]

resource description framework

Page 57: Vinden dankzij / ondanks metadata

interoperabiliteit op veldniveau

1: specificeer welke metadata op welke wijze in een bepaald systeem worden toegepast

– in application profile: specificatie welke elementen uit welke (verschillende) metadata standaarden in een specifieke situatie worden toegepast

– in metadata registry: gedetailleerde beschrijving

• van één specifiek metadata schema (zoals bijv. het Dublin Core Metadata Registry op DCMI-site)

• van de metadata schema’s die in bepaalde toepassing worden gecombineerd - en in application profile zijn gespecificeerd (zoals bijv. het TEL-registry van The European Library)

doel: daarnaar kunnen verwijzen (linken) ten behoeve van hergebruik, conversie of concordantie

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 58: Vinden dankzij / ondanks metadata

interoperabiliteit op veldniveau

2: je kunt converteren van ene schema naar andere schema via “crosswalk” (veld-concordantie)

– één op één (zoals bij “MARC-DC crosswalk”)

– veel-op-veel via vaste tussenstap(zoals bij “Getty crosswalk”)

probleem als er verschil is in opzet, structuur en detail tussen verschillende schema’s

cdwa

cco

vra

marc

cimi

dc

mods

ead

fda

marc dc

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 59: Vinden dankzij / ondanks metadata

interoperabiliteit op vocabulair-niveau

alleen “melden” welke vocabulair-standaard (scheme) wordt gebruikt (zoals bij DC) is natuurlijk nog niet genoeg voor interoperabiliteit ten behoeve van zoeksysteem

tot de oplossing behoren onder meer:

– klassieke concordanties

algemeen probleem ook hier: verschillen in opzet, specificiteit, granularity, mate van pre/postcoördinatie, hiërarchische structuur, culturele achtergrond, .... tussen verschillende vocabulaires

– terminology services

web-service met infrastructuur en functionaliteit voor bevragen van terminologie, bijvoorbeeld via Zthes-protocol (zowel Z39.50 als SRU)

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 60: Vinden dankzij / ondanks metadata

als overlap tussen twee termen teklein is, vindt geen matching plaats

uit Catch-project STITCH:Koninklijke Bibliotheek,Vrije Universiteit - sectie AI

match op basis van materiaal dat met beide systemen is ontsloten

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

matchen van vocabulair uit 2 thesauri

Page 61: Vinden dankzij / ondanks metadata

SKOS

om interoperabiliteit via terminology services “automatisch” te kunnen laten verlopen is meer nodig:

standaard om computerleesbaar te beschrijven hoe een bepaald ontsluitingssysteem in elkaar zit en hoe onder meer de relaties tussen begrippen moeten worden geïnterpreteerd(bijv.: of iets een BT is, een scope note of .... )

dat kon al een beetje met RDFS

daarvoor is nu in ontwikkeling SKOS: Simple Knowledge Organisation System

daarbij wordt (ook) gebruik gemaakt van RDF

met SKOS kunnen ook verschillende ontsluitingssystemen (ontologieën) gecombineerd worden

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 62: Vinden dankzij / ondanks metadata

SKOS-representatie vanthesaurusterm & -relatiesis in RDF te beschrijven

Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries.

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 63: Vinden dankzij / ondanks metadata

uit Catch-project CHOICE:Beeld & Geluid (Hilversum),Vrije Universiteit - sectie BI

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

SKOS

in CATCH-project CHOICEkonden aanvullende relaties in een eigen thesaurus worden afgeleid uit relaties in een ander (extern) woordsysteem

Page 64: Vinden dankzij / ondanks metadata

OWL

om interoperabiliteit “automatisch” te kunnen laten verlopen is meer nodig:

standaard om computerinterpreteerbaar te beschrijven wat de betekenis is van de concepten in een ontsluitingssysteem (liefst een echte ontologie)

daarvoor is beschrijvingstaal ontwikkeld:

OWL: web ontology language

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 65: Vinden dankzij / ondanks metadata

• begrip oorspronkelijk afkomstig uit de filosofie en later ook uit de wereld van de kunstmatige intelligentie:

• dient als "kennis-representatie“ waarin kennis van (stukje van) de wereld in vastgelegd

• kan veel vollediger en meer complexe representatie van de werkelijkheid geven dan een thesaurus

• met meer soorten relaties tussen begrippen• met vastgelegde rollen en eigenschappen van concepten• bestaan voor beperkte gebiedjes (“wijnontologie”)• veel breder is een zogenaamde “core ontology”

bijvoorbeeld: CIDOC-CRM (conceptual reference model) voor concepten, relaties en eigenschappen op terrein van cultureel erfgoed

• eerdere ”topic maps” legden in feite ook een ontologie vast

ontologieën

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 66: Vinden dankzij / ondanks metadata

wat betekenen “ontologieën” in relatie tot het semantisch web

• begrip wordt in dat kader zeer ruim opgevat:

algemene aanduiding voor allerlei soorten ontsluitings-systemen (thesauri, classificaties, taxonomieën, namenlijsten, .....)

• wel essentieel daarvoor:

– ontologie moet beschikbaar zijn in computerleesbare, -interpreteerbare en -verwerkbare vorm

– er zijn dus formele beschrijvingstalen zoals OWL voor nodig

ontologieën

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 67: Vinden dankzij / ondanks metadata

DC + XML + RDF(S) + SKOS + OWL

combinatie van methoden, standaarden en technieken voor opslaan, structureren, vullen, formaliseren, beschrijven en interpreteren van metadata

– wordt gebruikt voor verdere ontwikkeling van interoperabiliteit

– ligt ook aan de basis van het semantisch web

[zie ook serie “De Standaard” uit InformatieProfessional 2006-2007]

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 68: Vinden dankzij / ondanks metadata

semantisch web

• ultieme toepassing van interoperabiliteit

• door toepassing van – RDF(S) – ontologieën (ook thesauri, taxonomieën, semantische netwerken,

…) – formele beschrijvingstalen (zoals OWL)– annotaties van objecten (=ontsluiting)

• kan computerinterpreteerbaar betekenis worden toegekend

• zullen systemen elkaar kunnen begrijpen

• en zullen zij kennis en betekenis kunnen combineren

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 69: Vinden dankzij / ondanks metadata

© Guus Schreiber UvA / VU

rdf annotatie van web-bron

Eric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008

Page 70: Vinden dankzij / ondanks metadata

de iconclass annotatie

Page 71: Vinden dankzij / ondanks metadata

Eric Sieverts | [email protected] | http://www.library.uu.nl/medew/it/eric | [email protected]

© Guus Schreiber UvA / VU

de "species ontology"

Page 72: Vinden dankzij / ondanks metadata

zoek, zoek, zoek, zoek, zoek, ......

match

voor interoperabiliteit en voor het semantisch web zal dus ook nog volop moeten worden "ontsloten", maar met slimme systemen:

• die domme documenten (helpen) ontsluiten • en die betekenissen kunnen achterhalen• en die heterogene metadata kunnen matchen• en die domme zoekvragen (kunnen) verbeteren

zal zelfs een aap correcte informatie kunnen vindenEric Sieverts | [email protected] | [email protected] | http://www.library.uu.nl/medew/it/eric | Gent 03-12-2008