Matthias Vandermaesen - De datahub
-
Upload
packed -
Category
Art & Photos
-
view
27 -
download
0
Embed Size (px)
Transcript of Matthias Vandermaesen - De datahub

M A T T H I A S V A N D E R M A E S E N
S T U D I E D A G D U U R Z A A M D I G I T A L I S E R E N
1 6 D E C E M B E R 2 0 1 6
De Datahub

Vlaamse Kunstcollectie
Samenwerkingsverband van:
Groeningemuseum Brugge
Museum voor Schone Kunsten Gent
Koninklijk Museum voor Schone Kunsten Antwerpen
Doelstelling: de schone kunsten collecties en de expertise bundelen om de internationale uitstraling van de drie musea te vergroten.
Hoe? Promotie via digitale kanalen.

Diverse digitale kanalen

Opbouw van catalogi
Publicatie van dezelfde informatie via meerdere kanalen. Beter: ter beschikking stellen binnen diverse contexten. Diverse doelgroepen, Locatie, Onderwijs,…
Registratiegegevens – metadata – die vervat en beheerd worden in collectieregistratiesystemen Groeningemuseum & MSK Gent: Adlib (Axiell / Erfgoed Inzicht) KMSKA: The Museum System (The Gallery Systems / CiT)
Uitwisseling van gegevens tussen systemen is noodzakelijk Geautomatiseerd Flexibel inzetbaar (nieuwe digitale kanalen) Gecontroleerd (nieuwe data, aangepaste data)

De spoorweg analogie
Wikipedia CC BY 2.5 User:Geographer

Het VKC digitale ecosysteem

PACKED doorlichting (2013)
Sterk verouderde architectuur Niet schaalbaar naar hedendaagse noden
Duur om te onderhouden
Sterk gebonden aan technische leveranciers Licentie gebaseerde software
Niet transparant (“black box”)
Geen ruimte om over te stappen of aan te sluiten
Geen duurzame uitwisseling van gegevens Manuele i.p.v. automatische uitwisseling
Veel extra moeite in “massage” van gegevens naar een gemeenschappelijke vorm
Impact op de kwaliteit van gegevens

Aanbevelingen
Aanbevelingen
Automatisering van uitwisseling
Introductie van standaarden voor uitwisseling
Normaliseren van gegevens
Identificeren en linken van gegevens
Concretisering:
Nieuwe infrastructuur met centraal: de datahub

Automatische uitwisseling
Door middel van API’s
Application Programming Interfaces

Open standaard formaten en protocollen
Wat is een formaat? Formele definitie van de velden in een record (titel, vervaardiger,…) De technische uitwisselvorm van gegevens (XML, JSON,…)
Wat is een protocol? Een set van regels die bepalen hoe computersystemen met elkaar
communiceren. Voorbeeld: HTTP protocol = gebruik je om te surfen via een browser
Wat is een open standaard? Open = Een definitie die onafhankelijk van één of enkele producenten is
opgesteld. Standaard = Algemeen geaccepteerd.
Waarom belangrijk? Gestandaardiseerde open formaten en protocollen is het niet mogelijk om
omvangrijke, complexe netwerken die toch flexibel zijn, aan te leggen.

LIDO uitwisselformaat
LIDO = Lightweight Information Describing Ojects
Ontworpen door ICOM Working Group
Kandidaat standaard voor de uitwisseling van museale data.
Goed gedocumenteerd
Gebaseerd op XML formaat
Focus op beschrijvende informatie
Ondersteuning meertalige data
http://www.lido-schema.org

Normalisering van data
Gestandaardiseerde thesauri helpen kunst eenduidig te beschrijven.
Personen & organisaties VIAF (Virtual International Authority File)
RKD Artists (Rijksbureau voor Kunsthistorische Documentatie)
ODIS (Online Database voor Intermedaire Structuren)
Iconografische termen AAT (Arts and Architecture Thesaurus)
ICONCLASS (Iconographic Classification)

Linken van gegevens
Collectie informatie koppelen met “persistente links”
https://www.projectcest.be/wiki/Publicatie:Project_Persistente_identificatie
Théo Van RysselbergheDe lezing door Emile Verhaeren
1906-R (MSK Gent)
http://mskgent.be/collection/work/id/1906-Rhttp://mskgent.be/collection/work/data/1906-Rhttp://mskgent.be/collection/work/representation/1906-R

Sluitsteen
De datahub

De datahub
Projectomschrijving Ontwerp & bouw van een softwarecomponent die de uitwisseling van
museale registratiegegevens vereenvoudigt en standaardiseert.
Projectsubsidie voor internationaal cultureel-erfgoedproject (aanvraag in 2015)
Doorlooptijd: Januari – december 2016
Project partners VKC, PACKED, DEN (NL), CAHf
Doelstellingen Datahub als een open source software project
Datahub als platform voor schone kunsten collecties: de Arthub

Wat is een datahub?
“Een virtuele overslag- of transitlocatie die geautomatiseerde, gecontroleerde uitwisseling van al
dan niet verrijkte data tussen systemen, instellingen en mensen mogelijk maakt.”

Wat is een datahub?
Erie Railway Company – Public domain

Wat doet een datahub?
Automatische uitwisseling van data tussen registratie systemen en hergebruiktoepassingen op basis van open standaarden
Aggregatie van data uit verschillende bronnen in een gemeenschappelijke vorm en structuur
Gecontroleerd en flexibele publicatie van data voor breed hergebruik.

Projectverloop
Januari – juni 2016
Definiëren van een referentiearchitectuur
Definitie van de API’s
Definitie van de vereiste interne functionaliteit
Toetsen aan verwachtingen, haalbaarheid,…
Opstellen van alle documentatie
Uitwerken van een primitief prototype om ideeën te testen
Start mapping oefening van data naar LIDO
Juli – september 2016
Afwerken aanbestedingsprocedure
Aanstellen van een opdrachtnemer: Inuits BVBA

Projectverloop
September 2016 – December 2016
Ontwikkeling van een eerste versie van de Datahub software
Uitrol van een eerste versie van het Arthub platform
Start implementatie van koppelingen:
Automatische transformatie van data naar LIDO
Automatische ingest (opvoer) van data naar de Datahub in bulk

Voorlopig resultaat
Eerste ruwe versie van de datahub component Ontwikkeling door Inuits BVBA
Eerste ruwe versie van het Arthub platform Ontwikkeling door Inuits BVBA Hosting bij VIAA
Een verzameling van softwaretools om koppelingen te realiseren: Data te transformeren naar LIDO XML ongeacht het bronformaat Data op te voeren naar de Datahub
Disclaimer: Wat volgt is nog steeds in volle opbouw.

De datahub component
Opzet
Gebaseerd op Open Source technologieën
Bewust eenvoudig gehouden > robuuste tool
Focus op publicatie van gegevens in machineleesbarestandaard formaten via API’s
Demo

De datahub component

De datahub component
Beschikbaar via Github als een Open Source project
https://github.com/thedatahub
Vrij herbruikbaar onder een Open Source licentie (GPL v3)
Nog niet geschikt voor gebruik in productie omgevingen!!
Verder uitwerking in 2017

De Arthub
Doelstellingen Ontsluiten van registratiegegevens uit Schone Kunsten collecties:
De VKC partners
De CAHf partners (2017)
Vlaamse Kunstcollectie (verrijkte data)
LUKAS Arts in Flanders
Gericht op hergebruikers van museale gegevens
De instellingen zelf
Derden, hergebruikers
Rekening houdende met het gelaagd licentiemodel
Bestaat uit twee componenten Een installatie van de datahub voor aggregatie van data
Een zoekmachine om de data te ontsluiten voor mensen

De Arthub
* Disclaimer: voorlopig ontwerp

De Arthub zoekmachine
Opzet Mogelijk maken om gericht gegevens op te zoeken in de
datahub component
Hoe? Via een gebruiksvriendelijke zoekinterface
Gericht op hergebruikers van gegevens
Waarom niet geïntegreerd in de datahub? Deze functionaliteit is specifiek voor de VKC use case
De datahub component is een generieke component
Demo

De Arthub zoekmachine

De Arthub zoekmachine
Gebaseerd op Project Blacklight Een open source project, dus vrij bruikbaar.
http://www.project-blacklight.org
Ontwikkeld in de bibliotheekwereld
Customisatie door Inuits BVBA voor VKC
Automatische koppeling met de datahub Harvesting van data uit de datahub via het OAI-PMH protocol
Verwerking van de opgehaalde LIDO gegevens
Opvoer in de onderliggende zoekindex van Project Blacklight
Koppeling is nog in volle ontwikkeling

Koppelingen
Hoe realiseren we de koppelingen tussen de verschillende systemen nu concreet?
Adlib naar de Datahub?
TMS naar de Datahub?
De datahub naar Project blacklight?

Koppelingen
We maken gebruik van Catmandu / Librecat
Een data ETL toolkit
Universiteitsbibliotheek Gent
Open source software
Zeer flexibel
Relatief “eenvoudig” in gebruik.
http://www.librecat.org
Demo

Koppelingen

Koppelingen
Softwaretools vrij beschikbaar:
Catmandu LIDO integratie:https://github.com/librecat/Catmandu-LIDO
Catmandu Datahub integratie:https://github.com/thedatahub/Datahub-Factoryhttps://github.com/thedatahub/Catmandu-Store-Datahub
Definities van de mapping voor de VKC musea in Catmandu:https://github.com/VlaamseKunstcollectie/Datahub-Fixes
Ontsluiting van data uit TMS:https://github.com/VlaamseKunstcollectie/tmssync

Koppelingen
Dit is specialistenwerk! Nauwe kennis van de data in de registratiesystemen is noodzakelijk.
Datamodellen & thesauri
Hoe voeren registratoren informatie in? Interpretatie van de velden!
Technische kennis om met data processing tools om te gaan.
Vertalen van de mapping in een Catmandu configuratie
Opschonen (“masseren”) van data met Catmandu, Excel, Refine,…
Programmeren van ontbrekende functionaliteit in Catmandu was noodzakelijk
Terug koppelen feedback naar de musea
Verbeteren van de kwaliteit van de gegevens in de registratiesystemen
Projectmatige aanpak i.s.m. registratoren, publieksmedewerkers,…

Koppelingen
Een data conservator (of gelijkaardige rol) beheert idealiter dergelijke koppelingen.
Noodzakelijke, specifieke domeinkennis verwerft men slechts door in de musea hands-on met de registratiesystemen te werken & met de registratoren te communiceren op dagelijkse basis.
Een externe technische leverancier eerder inschakelen voor de bouw en het operationeel stellen van complexe systemen.
Een data conservator rol is de go-between tussen de musea en de technische bouwers van digitale projecten.
Samenwerking is belangrijk!!
Delen & inbedden van ervaring en kennis op de museumvloer
Delen van mensen met relevante kennis & ervaring.

Vervolg in 2017
Afwerking van de datahub component
Herlancering van het Open Source project
Verdere uitwerking van de Arthub
Verder verbeteren van de koppelingen
Uitwerken van de zoekmachine
Aansluiting van schone kunsten collecties
Inzetten op hergebruik van de gegevens
Ontsluiting via de VKC catalogus & thematische collecties
Ontsluiting via Europeana
Op zoek naar andere vormen van hergebruik