Metadata is een netwerk

Click here to load reader

  • date post

    16-Jan-2017
  • Category

    Technology

  • view

    315
  • download

    0

Embed Size (px)

Transcript of Metadata is een netwerk

Metadata is een netwerk

Metadata is een netwerk Een blik achter de schermen van het bibliografische databeheer in Bibliotheekportalen

18 september 2015, Informatie aan zee Lisbeth Vandoorne

2 jaar geleden was ik op een tentoonstelling, daar zal ik dit werk van een Finse kunstenaar, antti laitinen.

Hij kapte 10m bos, bracht dit naar een hangar en bracht vervolgens 6 maanden door met sorteren. Naalden bij naalden, schors bij schors, hout bij hout, en daarbinnen alles per kleur. Verzamelen, vergelijken, sorteren en presenteren: dat deed me heel erg denken aan wat wij doen met data in bibliotheekportalen, en vormt dan ook de metafoor doorheen mijn verhaal.

1 min 1

Bibliotheekportalen

Unable to compute

Ik zou willen beginnen met een uitgelaten mededeling eindelijk weten we alles, of tenminste, zijn er weinig dingen die we niet meer kunnen te weten komen!

Het is te zeggen: door de aansluiting van intussen bijna alle bibliotheken op bibliotheekportalen, en doordat we de data van al die bronnen gemapt hebben op een gemeenschappelijk formaat, is het mogelijk om alle bibliografische beschrijvingen en al het bezit dat daar aan hangt in BP aan analyses te onderwerpen.

Zo zijn er een hoop leuke en nuttige dingen die we te weten kunnen komen, ik geef er een paar mee als opwarmer.

1,5M 2

Van welk werk zijn er het meeste edities in BP ? JaneEyreBrontCharlotteA212WutheringHeightsBrontEmilyA197OliverTwistDickensCharlesA181LepetitprinceDeSaintExupryAntoineA161PrideandprejudiceAustenJaneA153

197

212

181

Wat is het werk, dus intellectueel werk, welke TITEL heeft het meest editites in bibportalen, dus over alle bibs en alle edities heen, Vlacc en lokale beschrijvingenNiet zo geheel verrassend eigenlijk3

Welke records uit Vlacc hebben bezit in alle bibliotheken?

Welke records uit ons centrale bestand OpenVlacc wordt in alle bibs gebruikt, met andere woorden: welke records zijn nuttig geweest voor alle bibliotheken? Nou dat is een beetje een teleurstelling, dat is er namelijk geen enkel

Maaaar er zijn er een paar die in BIJNA alle bibs gebruikt zijn: ons meest renderende Vlaccrecord, alleen Staden, St-J-T-N en Vorst gebruiken het niet.

Tara, het is niet 50 tinten grijs en ook geen aspe. Die twee zie je wel opduiken als je kijkt waarvan er het meeste exemplaren zijn in de bib maar dat is hier niet de vraag. Dat is ripper van allende en die drie bibs die het niet hebben hebben het ook niet in een andere editie !!

Dit is een heel opvallend gegeven: de aankopen van bibs zijn zeer divers; de overlap is eigenlijk echt veel kleiner dan vaak wordt aangenomen. 4

Wie heeft er meer exemplaren in de bib : Pascale Naessens of Jeroen Meus ?

Wie denkt naessensWie denkt meus

5

en is dat veel ?

Vergeleken met een paar andere referentiepunten is dat allemaal nog niet zo indrukwekkend. Genoeg gespeeld! even terug naar het begin. Dit is wat we allemaal kunnen weten, maar hoe weten we het?

6

de voorkant is eenvoudig

7

. een gemeenschappelijke, gebruiksvriendelijke en herkenbarezoekomgeving die toegang biedt tot bibliotheekcollecties in Vlaamse Openbare Bibliotheken.

8

de achterkant is ingewikkeld

Maar om iets eenvoudigs te maken, heb je vaak iets behoorlijk ingewikkelds nodig. En bij BP is dat niet anders.

En ik zou met jullie vandaag eens een duik willen nemen in het systeem dat het mogelijk maakt om gegevens tevoorschijn te halen over de hele sector heen,Om zo inzicht te geven in de machinerie,9

Er wordt data verzameldZe wordt verwerktEn ze wordt getoond in de verschillende instanties van BP: lokaal provinciaal en Vlaams

Ik wil in wat volgt vooral inzoomen in wat er daar in het midden gebeurt: de verwerking van die verzamelde data wat wij het matchen en mergen noemen, En dat gaat dan met name de verhouding tussen lokaal en centraal, en inzoomen op wat OpenVlacc doet En kijken wat er goed gaat, wat er beter kan, en wat we daar samen aan kunnen doen.

HIER 8 MINUTEN

10

28 databronnen = 283 bibliotheken 12,3 miljoen bibliografische records

Zonder artikels & tracks : 7,7 M bibliografische records= 0,9 M Vlaccrecords en 6,8 M lokale records

= 28 M exemplaren

Data verzamelen 12,3 M

7,7 M

= OpenVlacc 6 PBSen 21 lokale bronnen

Toch eerst even zicht geven in dat verzamelen van die data BP wordt gevoed met gegevens vanuit 28 databronnen van verschillende grootte: openvlacc, 6 prov syst, 21 lokale bronnen dwz erfgoedbestanden, losse aansluitingen.En die leveren gegevens aan uit samen 283 bibliotheekinstellingen aan nu, als we eind dit jaar rond zijn met aansluitingen, worden dat 292 bibliothekenZonder de PBSen waren er dus 283 databronnen geweest die data aanleverden,

Goed. Van al deze databronnen die bezit van al deze bibliotheken bevatten, krijgen we 12,3 miljoen bibliografische records aangeleverd. Nu, voor alles wat er volgt zal ik een deel van deze records niet bespreken, nl de beschrijvingen van tracks en artikels. Om verschillende redenen, maar vooral omdat deze bijzonder zijn en de resultaten te veel vervormen.

Zonder tracks en artikels, is de massa data die we verzamelen 7,7 miljoen records. Ik deel deze hier even op naar databron: 900duizend uit vlacc, en 6,8 M lokale nrsMet lokaal bedoel ik hier dus : uit een pbs, uit een losse Vubisbib, En lokaal wil niet per se zeggen dat het record door een catalograaf lokaal is ingetypt maar daar kom ik op terug

Ook nog even meegeven dat deze 7,7 M records 28 M exemplaren in de bibs beschrijven. Dus, ik weet niet of hier mensen van de ugent zitten, maar die befaamde boekentoren, dat zijn 3 miljoen dingen, wij beheren er samen bijna 10 zo van die torens vol.

Nu dan we hebben onze data verzameld nu gaan we ermee aan de slag,

11

= opsporen en samenvoegen van gelijke records

Sleutels: - Vlaccnummer- ISBN + jaar- EAN

Sleutel gelijk= MATCH = records samenvoegen = MERGE

Matching? Merging?

Hier begint de verwerking van de gegevens. En daarmee dat zgn matchen en mergen.

Dat is eigenlijk eenvoudigweg : in die berg van 7,7 milj beschrijvingen gaan kijken: wat beschrijft hier eigenlijk hetzelfde, is hier dus eigenlijk dubbel. En dan gaan we de dubbels samenvoegen en het beste naar voor schuiven

en dubbels hebben dezelfde sleutel

Sleutels: VlaccnummerISBN + jaarEAN

Sleutel gelijk= MATCH = records samenvoegen = MERGE

Tot hier 12 minuten

12

Waarom zijn er zoveel dubbels? Veel kopien van Vlaccrecords[match op vlaccid]

Al heel veel dubbels weggewerkt door PBSen

Vele lokale beschrijvingen worden later nog in OpenVlacc beschreven [match op andere sleutel]

.

Maar waarom al dat werk, hoe komen we aan al die dubbels?

Voor contrapunt van Anna Enquist Als je de editie van 2008 opzoekt, zie je dat er eigenlijk 30 lokale nummers zijn die allemaal deze editie beschrijven, daar merkt yu en het publiek verder overigens helemaal niks van, en die allemaal gematcht en gemerged zijn met n vlaccnr

Dan moeten we eigenlijk eens gaan kijken hoe biblio records ontstaan.

Wat er in zeer veel gevallen gebeurt, is dat men zijn recs niet zelf maakt, maar kopieert uit Vlacc. De lokale nummers zijn dus in feite kopien van vlacc die een lokaal nr hebben gekregen en zo bestaan in het eigen systeem, maar dus niet door de bib zelf zijn gemaakt maar door Vlacc.

Ten tweede moeten we even beklemtonen dat er eigenlijk heel wat minder dubbel zijn dan vroeger; de PBSen hebben al een hoop consolidatiewerk gedaan er zijn nog wel een paar dubbels, maar in vb deze twee gevallen, een in pbs vlabra en brussel, gaat het om terug ontstane dubbels door pas aangesloten bibs in het pbs, Keerbzergen en Watermaal-bosvoorde. Dit verdwijnt dus wel weer.

En dan zijn er dus de records die vermoedelijk zijn onstaan in de lokale systemen, omdat Vlacc ze niet op tijd had maar later wel in vlacc beschreven zijn geraakt, of, simpelweg, omdat het oude records zijn van voor de tijd dat we met Vlaccnrs werkten,

Ter illustratie: dit is de verdeling, over alle matches heen, van welke sleutels we gebruikt hebben om de match te maken.

13

Heel de theorie hier nog eens in de praktijk: in antwerpen zijn er 6 lokale beschrijvingen. Uit het PBS, uit de oba die een aparte bron is, uit bidoc-bibs, uit losse vubis 5 van de 6 hebben vlaccnr in hun beschrijving en zijn vermoedelijk kopieen van vlacc;ntje is lokaal aangemaakt (geen vlaccnr)

Allemaal zijn ze op dat ene vlaccnr gematcht en ermee gemerged; al het bezit wordt dus bij dat ene vlaccnr getoond14

Wat betekent dat voor de presentatie ? Start:7,7 M records waarvan 6,8 M lokale records

Na de matching / merging :

4,5 M lokale records gematcht op 0,9 M Vlaccrecords

0,3 M lokale records matchen op elkaar maar niet op vlacc

2 M lokale records zijn niet gematcht

7,7 M = 2,9 M

Even recapituleren: we zijn vertrokken met 6,8 M lokale records. Eenmaal we alles verwerkt hebben , dus dat proces doorlopen hebben van vergelijken matchen mergen tonen, is dit het resultaat:

4,5 M van de records zijn op 0,9 M vlaccrecords gematcht, waarvan 77% dus eigenlijk kopieen van vlacc zijn Nog een deel is op elkaar

En dan 2 M die Niet gematcht zijn. Die zweven, die alleen maar in n databron bestaan.

7,7 M is terug te brengen tot 2,9M!!

Maar belangrijkste dat je hier ziet is dat 2/3 van het werk door Vlacc wordt gedaan.

ER VALT DUS ECHT VEEL TE WINNEN BIJ SCHAALVERGROTING

En die 66% is een lastig getal omdat dat e