Zin en onzin van metadata

33
DEN-studiedag : Baas over eigen meta data? 28 juni 2012 photo by Shira Goldin

Transcript of Zin en onzin van metadata

DEN

-studiedag:

Baas over eigen metadata?

28 juni 2012

photo by Shira Golding

eric sieverts

• docent zoeken, vinden, ontsluiten [bij HVA, GO, VOGIN]

• [voorheen] innovatie & ontwikkeling [bij UB Utrecht]

Eric Sieverts, DEN, 28 juni 2012

• metadata in de bibliotheek• zin en onzin van metadata om te zoeken

– de catalogus– faceted search

• zin en onzin van standaarden voor metadata– OAI repositories– semantiek op het web

• noodzaak voor metadata

maar eerst een quizje ....

agenda

Eric Sieverts, DEN, 28 juni 2012

filename: thesaurus.jpg

metadata waren hier nuttig geweest

op welke zoekvraagwas dit het antwoordvan Google ?

metadata in de bibliotheek

• ik kijk vooral naar metadata als zoekhulpmiddel• metadata in catalogus normaliter veel te beknopt om

zinnig zoekhulpmiddel te zijn

de mythe van de

catalogus >>

Eric Sieverts, DEN, 28 juni 2012

onderwerps-

zoeken in de

catalogus ?

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

in een catalogus beschrevenmet 1 onderwerpscategorieen 1 (daaraan identiek!) trefwoord

Eric Sieverts, DEN, 28 juni 2012

zelfs user-tags in Librarything bieden maar weinig meer zinvolle ingangen vergeleken met die inhoudsopgave

voorbeeld: een boek van 480 bladzijdenmet een onderwerpsindex van 14 dichtbedrukte bladzijdenmet een inhoudsopgave van 5 bladzijden

met 21 hoofdstukken en 117 paragrafen

Eric Sieverts, DEN, 28 juni 2012

de 21 hoofdstukken op de bijbehorende website

een paar van de 117paragrafen uit de TOC

• (non-fictie) boeken gaan vaak over veel dingen / onderwerpen / deelonderwerpen

• andere situatie dan bij erfgoed-objecten

.... hmmm .... hoewel .... how about videos?

metadata in de bibliotheek

metadata in de bibliotheek

• ik kijk vooral naar metadata als zoekhulpmiddel

• metadata in catalogus normaliter veel te beknopt om zinnig zoekhulpmiddel te zijn

– daardoor niet zo gek dat gebruik van GOO trefwoorden niet wordt voortgezet

Eric Sieverts, DEN, 28 juni 2012

metadata in de bibliotheek

• ik kijk vooral naar metadata als zoekhulpmiddel

• metadata in catalogus normaliter veel te beknopt om zinnig zoekhulpmiddel te zijn

• digitaal meegeleverde verrijking die meer zoekingangen oplevert? zelfs bij e-books (studieboeken, wetenschap) vaak nog geen (of heel summiere) inhouds-opgave, samenvatting o.i.d.

[ook als metadata beschouwd !]

Eric Sieverts, DEN, 28 juni 2012

vergelijk dat eens met Google Books'

full-text zoekmogelijkheden!

metadata in de bibliotheek

• ik kijk vooral naar metadata als zoekhulpmiddel

• metadata in catalogus normaliter veel te beknopt om zinnig zoekhulpmiddel te zijn

• zelfs bij e-books (studieboeken, wetenschap) vaak nog geen (of heel summiere) inhouds-opgave, samenvatting o.i.d.

• formele metadata: goed hulpmiddel voor facetzoeken = uitsplitsen/filteren van verkregen zoekresultaat, zoals in de nieuwe "webscale discovery systems"

Eric Sieverts, DEN, 28 juni 2012

Eric Sieverts, NVBA, Deventer, 10 mei 2012

2011

year of the webscale discovery tools

Eric Sieverts, NVBA, Deventer, 10 mei 2012

2011

year of the webscale discovery tools

metadata in de bibliotheek

• ik kijk vooral naar metadata als zoekhulpmiddel

• metadata in catalogus normaliter veel te beknopt om zinnig zoekhulpmiddel te zijn

• zelfs bij e-books (studieboeken, wetenschap) vaak nog geen (of summiere) inhoudsopgave, samenvatting o.i.d. meegeleverd

• formele metadata: goed hulpmiddel voor facetzoeken

– maar dat vereist wel dat ze consistent en consequent zijn toegekend (om geen resultaten kwijt te raken)

Eric Sieverts, DEN, 28 juni 2012

standaardisatie

+ bijna iedereen gebruikt MARC format

- toch geen echte standaard wat betreft toepassing en interpretatie

uitwisseling van metadata+ ja, want iedereen wil kunnen ontlenen

(immers weinig unica)

- vaak doet men het zelf toch nog weer dunnetjes over, vanwege lokale idiosyncrasies

metadata in de bibliotheek

Eric Sieverts, DEN, 28 juni 2012

wat mag je met die metadata uit GGC /PICA / Worldcat?

disclaimer: ik ben geen expert op dit gebied

• vroeger alleen intern je eigen metadata gebruiken, maar ze waren niet zo echt van jezelf, dat je ze ook aan anderen mocht geven

• nu zijn metadata uit GGC en WorldCat "open data" volgens de Open Data Commons Attribution License (her)gebruiker moet dus wel vermelden dat ze

(eigenlijk?) van OCLC zijn

metadata in de bibliotheek

Eric Sieverts, DEN, 28 juni 2012

metadata in de bibliotheek

Eric Sieverts, DEN, 28 juni 2012

noodzaak voor metadata?

• nog altijd veel materiaal(soorten) waar niet automatisch computerleesbare tekst bij zit en dus alleen middels metadata vindbaar (en herkenbaar) te maken is:

– gedigitaliseerd erfgoed– video's (weblectures)– datasets– .....

• formele metadata voor (o.a.) facetzoeken (filteren)

OAI in institutionele repositories (IR's)• metadata schema = Dublin Core• standaard harvesting protocol (OAI PMH)

maar in OAIster (zoekmachine met metadata uit >1100 lokale IR's) zeer veel variatie in

– aan-/afwezigheid van DC-velden– mate van vulling van die velden– wijze van vulling van die velden

geen echte standaardisatie nogal onvolledige zoekresultaten

standaardisatie van metadata

Eric Sieverts, DEN, 28 juni 2012

semantisch web• gebaseerd op standaarden• maar dat is veelheid aan verschillende

gestandaardiseerde metadata-modellen en semantische standaarden

• vereist dus extra kennis van de wereld– ontologieën

– concordanties

standaardisatie van metadata

Eric Sieverts, DEN, 28 juni 2012

in semantisch web wordt van "alles" betekenis vastgelegd(als metadata,computerleesbaar)

Eric Sieverts, DEN, 28 juni 2012

door standaard semantiekkan Google eenreceptenzoekmachinemaken"embedded metadata"

standaardisatie van eigenschappen/kenmerken

in beschrijving van recepten met"microformats"/"rich snippets markup"

beschrijving van metadata in RDFa; weergave van RDFa in (X)HTML

toevoegen van semantiek:• helemaal handmatig (oeps …)• automatisch als informatie toch al uit een database

of cms komt• door geautomatiseerde herkenning van "entiteiten"

in de tekst >>• welke standaard(en)?

Eric Sieverts, DEN, 28 juni 2012

semantische metadata

example:article from NYTimesanalysed by….. >>

example:article from NYTimesanalysed by"Open Calais"

example:article from NYTimesanalysed by "Zemanta"

the "linked open data cloud" - september 2011 - 31 billion data onlineby standardisation of dataformats and metadata,

computers can "understand" (look-up) the meaning of these data & use them

soms onzinnig

vaak zinnigmits:• rijk• consistent• (semi)automatisch

- inclusief TOC's, OCR, spraakherkenning, ...

• standaarden• open metadata• …

metadatazin of onzin?