Anet, WorldCat en Open Data

31
OCLC, Anet en Open Data Jan Corthouts Informatie aan zee 18 september 2015

Transcript of Anet, WorldCat en Open Data

OCLC, Anet en Open Data

Jan CorthoutsInformatie aan zee18 september 2015

Webstrategie

• Diversiteit van Anet partners = diversiteit van web strategieën• Discovery systemen

• Levering metadata in MARCXML• Platform onafhankelijk

• EDS voor UAntwerpen, KdG, AP• Summon voor UHasselt

• Institutional repository• Zichtbaarheid van wetenschappelijke output d.m.v.

• Harvesting van metadata OAI-PMH• Indexering van metadata in search engines m.b.v.

schema.org microtags

Webstrategie

• Online catalogus overbodig?• Ja (misschien) voor universiteitsbibliotheek• Nee voor

• Erfgoedbibliotheek: goede metadata noodzakelijk i.f.v. identificatie en digitalisering

• Museumbibliotheek: ontsluiting m.b.v. AAT, apparaat waarmee de conservatoren vertrouwd zijn

• Specifieke collecties zoals tentoonstellingscatalogi, veilingcatalogi, oude drukken, partituren, …

• Hoe onze lokale metadata verrijken / beter contextualiseren, gebruik makend van Open Data• Maak gebruik van wat beschikbaar is• Doe het niet allemaal zelf

Open Data

• Publicatie van eigen metadata• File dump MARC Antilope catalogus• OAI-PMH (harvesting metadata)

• MARC XML (catalogus)• EAD XML (ISAD archiefbeschrijvingen)• EAC XML (ISAAR archiefactoren)• DC XML (erfgoedobjecten)• OAI-DC (repository)

• Z39.50 server• Overname externe metadata in eigen toepassingen• Z39.50 client in catalografie• Overname/updating AAT thesaurus termen

• Individueel• In bulk

OCLC WorldCat

Overeenkomst Anet – OCLC Financiering door UAntwerpen en Stad Antwerpen Levering metadata aan OCLC Zichtbaar in worldcat.org

Deep link naar online catalogus Anet Operationeel 1/1/2015 Overeenkomst heeft enkel betrekking op worldcat.org NIET op copy cataloguing

Open Data via OCLC

Na opladen ontvangt Anet concordantietabel Anet recordid versus OCLC recordid OCLC recordid wordt toegevoegd

Verrijking eigen metadata

• Vertrekkend van OCLC recordid• Twee terreinen

• Catalografgische records• Authority records

http://anet.ua.ac.be/record/opacuantwerpen/c:lvd:7051715/N

http://worldcat.org/oclc/901642424

http://worldcat.org/oclc/901642424

http://worldcat.org/oclc/901642424.rdf

WorldCat Works

WorldCat Works 197 miljoen beschrijvingen van werken .… authoritative work descriptions for bibliographic

resources found in WorldCat, bringing together multiple manifestations of a work into one logical authoritative entity …

Work URI’s zijn persistent Open Data licentie ODC-BY

WorldCat Works

Uitgewerkte procedure• Automatisch processen• Proces 1

• Overloopt de catalogus• Heeft record een OCLC nummer maar geen WorkID?• Work ID wordt opgehaald en weggeschreven

• Proces 2• Opbouw van een afzonderlijke catalogus met metadata OCLC Works in zoverre

relevant voor Anet• Overloopt de catalogus• Heeft record een WorkID en bestaat er nog geen metadatarecord voor OCLC

Work?• Metadata Work wordt opgehaald en er wordt een metadata record

weggeschreven in afzonderlijke dataset• Proces 3:

• Tussen catalogus record en overeenkomstig Work record wordt een relatie gelegd

WorldCat Works

Resultaat: clusters van gerelateerde edities

Work record

Catalogus record

Catalogus record

Catalogus record

Authority records in Anet

• Eigen authority records verrijken met interne en externe identifiers• Betere identificatie• Betere contextualisering

• Levensdata• Situeringen• Samenbrengen van bibliotheek en archief metadata

• Voorbeelden van authority records in Brocade• Personen• Organisaties• Geografische omschrijvingen• Kunstwerken

VIAF

• The VIAF® (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

• http://viaf.org

VIAF

• Probleemstelling• OCLC record bevat naam gekoppeld aan VIAF identifier• Anet record bevat naam gekoppeld aan lokale identifier• Anet hanteert thans geen VIAF identifier• Zoek voor de naam in Anet record een VIAF

recordnummer dat met deze naam overeenstemt• Naamsvormen zoals gehanteerd in Anet zijn niet

identiek aan naamsvormen gehanteerd door WorldCat

VIAF

• Jaro–Winkler distance • is a measure of similarity between two strings. • is designed and best suited for short strings such as

person names. • The score is normalized such that 0 equates to no

similarity and 1 is an exact match

https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

VIAFjwindex stringa stringb80 JACOBUS DE VARAGGIO Jacobus80 RAES KOEN Raes, K.84 Fierens, Alfons Fierens, Alphonse87 ALENE Alene, Ludwig87 SABBE ETIENNE Sabbe, Etienne Émile Maria92 Gaidoz, H. Gaidoz, Henri92 Gautier, Théophile Gautier, Theophile92 Gerven, van, Walter Van Gerven, W.92 Gieck, Kurt Gieck, K.92 Gilliodts-Van Severen, Louis Gilliodts van Severen, Louis92 Giraudoux, Jean Giraudoux, Jean-Pierre92 Glucksmann, A. Glucksmann, André92 Golding, William G. Golding, William92 Goscinny, René Goscinny, ..92 Grauhan, Rolf Richard Grauhan, Rolf-Richard92 Grinten, van der, Wim Grinten, W. C. L. van der92 Grinten, van der, Wim Grinten, W.C.L. van der92 HAEGENDOREN VAN MAURITS Haegendoren, M. van92 HERCKENRATH ADOLF Herckenrath, Adolf Polydoor92 Haegendoren, van, Maurits Haegendoren, M. van92 Hakenbeck, Regine Hakenbeck, R.92 Herckenrath, Adolf Herckenrath, Adolf Polydoor92 ITTERBEEK VAN EUGENE Itterbeek, Eugéne van92 ITTERBEEK VAN EUGENE Van Itterbeek, Eugène92 Janssen, Tjitte H. Janssen, T. H.92 Jensen, Stefan Jensen, Stefan N.92 KILIAAN CORNELIS Kiel, Cornelis92 KLOOS WILLEM [MEVR ] Kloos, Willem

VIAF

• Jaro–Winkler distance • <80

• Buiten beschouwing• 81-91

• Wacht• >91

• Automatische toekenning VIAF nummer aan Anet authority

• Inconsistenties• Verschillende levensdata• Multiple VIAF identifiers voor dezelfde persoon

http://viaf.org/viaf/71391324

http://viaf.org/viaf/71391324.rdf

http://dbpedia.org/resource/Mahatma_Gandhi

VIAF

• Resultaat• authority code van Anet verrijkt met

• VIAF identifier• dbpedia identifier

• Open Data Harvester• on-the-fly harvesting van metadata• Inbedding in online catalogus

Online catalogus

Online catalogus

30

Online catalogus

31

Online catalogus