Matthias Vandermaesen: De Datahub

37
MATTHIAS VANDERMAESEN STUDIEDAG DUURZAAM DIGITALISEREN 16 DECEMBER 2016 De Datahub

Transcript of Matthias Vandermaesen: De Datahub

Page 1: Matthias Vandermaesen: De Datahub

M A T T H I A S V A N D E R M A E S E N

S T U D I E D A G D U U R Z A A M D I G I T A L I S E R E N

1 6 D E C E M B E R 2 0 1 6

De Datahub

Page 2: Matthias Vandermaesen: De Datahub

Vlaamse Kunstcollectie

Samenwerkingsverband van:

Groeningemuseum Brugge

Museum voor Schone Kunsten Gent

Koninklijk Museum voor Schone Kunsten Antwerpen

Doelstelling: de schone kunsten collecties en de expertise bundelen om de internationale uitstraling van de drie musea te vergroten.

Hoe? Promotie via digitale kanalen.

Page 3: Matthias Vandermaesen: De Datahub

Diverse digitale kanalen

Page 4: Matthias Vandermaesen: De Datahub

Opbouw van catalogi

Publicatie van dezelfde informatie via meerdere kanalen. Beter: ter beschikking stellen binnen diverse contexten. Diverse doelgroepen, Locatie, Onderwijs,…

Registratiegegevens – metadata – die vervat en beheerd worden in collectieregistratiesystemen Groeningemuseum & MSK Gent: Adlib (Axiell / Erfgoed Inzicht) KMSKA: The Museum System (The Gallery Systems / CiT)

Uitwisseling van gegevens tussen systemen is noodzakelijk Geautomatiseerd Flexibel inzetbaar (nieuwe digitale kanalen) Gecontroleerd (nieuwe data, aangepaste data)

Page 5: Matthias Vandermaesen: De Datahub

De spoorweg analogie

Wikipedia CC BY 2.5 User:Geographer

Page 6: Matthias Vandermaesen: De Datahub

Het VKC digitale ecosysteem

Page 7: Matthias Vandermaesen: De Datahub

PACKED doorlichting (2013)

Sterk verouderde architectuur Niet schaalbaar naar hedendaagse noden

Duur om te onderhouden

Sterk gebonden aan technische leveranciers Licentie gebaseerde software

Niet transparant (“black box”)

Geen ruimte om over te stappen of aan te sluiten

Geen duurzame uitwisseling van gegevens Manuele i.p.v. automatische uitwisseling

Veel extra moeite in “massage” van gegevens naar een gemeenschappelijke vorm

Impact op de kwaliteit van gegevens

Page 8: Matthias Vandermaesen: De Datahub

Aanbevelingen

Aanbevelingen

Automatisering van uitwisseling

Introductie van standaarden voor uitwisseling

Normaliseren van gegevens

Identificeren en linken van gegevens

Concretisering:

Nieuwe infrastructuur met centraal: de datahub

Page 9: Matthias Vandermaesen: De Datahub

Automatische uitwisseling

Door middel van API’s

Application Programming Interfaces

Page 10: Matthias Vandermaesen: De Datahub

Open standaard formaten en protocollen

Wat is een formaat? Formele definitie van de velden in een record (titel, vervaardiger,…) De technische uitwisselvorm van gegevens (XML, JSON,…)

Wat is een protocol? Een set van regels die bepalen hoe computersystemen met elkaar

communiceren. Voorbeeld: HTTP protocol = gebruik je om te surfen via een browser

Wat is een open standaard? Open = Een definitie die onafhankelijk van één of enkele producenten is

opgesteld. Standaard = Algemeen geaccepteerd.

Waarom belangrijk? Gestandaardiseerde open formaten en protocollen is het niet mogelijk om

omvangrijke, complexe netwerken die toch flexibel zijn, aan te leggen.

Page 11: Matthias Vandermaesen: De Datahub

LIDO uitwisselformaat

LIDO = Lightweight Information Describing Ojects

Ontworpen door ICOM Working Group

Kandidaat standaard voor de uitwisseling van museale data.

Goed gedocumenteerd

Gebaseerd op XML formaat

Focus op beschrijvende informatie

Ondersteuning meertalige data

http://www.lido-schema.org

Page 12: Matthias Vandermaesen: De Datahub

Normalisering van data

Gestandaardiseerde thesauri helpen kunst eenduidig te beschrijven.

Personen & organisaties VIAF (Virtual International Authority File)

RKD Artists (Rijksbureau voor Kunsthistorische Documentatie)

ODIS (Online Database voor Intermedaire Structuren)

Iconografische termen AAT (Arts and Architecture Thesaurus)

ICONCLASS (Iconographic Classification)

Page 13: Matthias Vandermaesen: De Datahub

Linken van gegevens

Collectie informatie koppelen met “persistente links”

https://www.projectcest.be/wiki/Publicatie:Project_Persistente_identificatie

Théo Van RysselbergheDe lezing door Emile Verhaeren

1906-R (MSK Gent)

http://mskgent.be/collection/work/id/1906-Rhttp://mskgent.be/collection/work/data/1906-Rhttp://mskgent.be/collection/work/representation/1906-R

Page 14: Matthias Vandermaesen: De Datahub

Sluitsteen

De datahub

Page 15: Matthias Vandermaesen: De Datahub

De datahub

Projectomschrijving Ontwerp & bouw van een softwarecomponent die de uitwisseling van

museale registratiegegevens vereenvoudigt en standaardiseert.

Projectsubsidie voor internationaal cultureel-erfgoedproject (aanvraag in 2015)

Doorlooptijd: Januari – december 2016

Project partners VKC, PACKED, DEN (NL), CAHf

Doelstellingen Datahub als een open source software project

Datahub als platform voor schone kunsten collecties: de Arthub

Page 16: Matthias Vandermaesen: De Datahub

Wat is een datahub?

“Een virtuele overslag- of transitlocatie die geautomatiseerde, gecontroleerde uitwisseling van al

dan niet verrijkte data tussen systemen, instellingen en mensen mogelijk maakt.”

Page 17: Matthias Vandermaesen: De Datahub

Wat is een datahub?

Erie Railway Company – Public domain

Page 18: Matthias Vandermaesen: De Datahub

Wat doet een datahub?

Automatische uitwisseling van data tussen registratie systemen en hergebruiktoepassingen op basis van open standaarden

Aggregatie van data uit verschillende bronnen in een gemeenschappelijke vorm en structuur

Gecontroleerd en flexibele publicatie van data voor breed hergebruik.

Page 19: Matthias Vandermaesen: De Datahub

Projectverloop

Januari – juni 2016

Definiëren van een referentiearchitectuur

Definitie van de API’s

Definitie van de vereiste interne functionaliteit

Toetsen aan verwachtingen, haalbaarheid,…

Opstellen van alle documentatie

Uitwerken van een primitief prototype om ideeën te testen

Start mapping oefening van data naar LIDO

Juli – september 2016

Afwerken aanbestedingsprocedure

Aanstellen van een opdrachtnemer: Inuits BVBA

Page 20: Matthias Vandermaesen: De Datahub

Projectverloop

September 2016 – December 2016

Ontwikkeling van een eerste versie van de Datahub software

Uitrol van een eerste versie van het Arthub platform

Start implementatie van koppelingen:

Automatische transformatie van data naar LIDO

Automatische ingest (opvoer) van data naar de Datahub in bulk

Page 21: Matthias Vandermaesen: De Datahub

Voorlopig resultaat

Eerste ruwe versie van de datahub component Ontwikkeling door Inuits BVBA

Eerste ruwe versie van het Arthub platform Ontwikkeling door Inuits BVBA Hosting bij VIAA

Een verzameling van softwaretools om koppelingen te realiseren: Data te transformeren naar LIDO XML ongeacht het bronformaat Data op te voeren naar de Datahub

Disclaimer: Wat volgt is nog steeds in volle opbouw.

Page 22: Matthias Vandermaesen: De Datahub

De datahub component

Opzet

Gebaseerd op Open Source technologieën

Bewust eenvoudig gehouden > robuuste tool

Focus op publicatie van gegevens in machineleesbarestandaard formaten via API’s

Demo

Page 23: Matthias Vandermaesen: De Datahub

De datahub component

Page 24: Matthias Vandermaesen: De Datahub

De datahub component

Beschikbaar via Github als een Open Source project

https://github.com/thedatahub

Vrij herbruikbaar onder een Open Source licentie (GPL v3)

Nog niet geschikt voor gebruik in productie omgevingen!!

Verder uitwerking in 2017

Page 25: Matthias Vandermaesen: De Datahub

De Arthub

Doelstellingen Ontsluiten van registratiegegevens uit Schone Kunsten collecties:

De VKC partners

De CAHf partners (2017)

Vlaamse Kunstcollectie (verrijkte data)

LUKAS Arts in Flanders

Gericht op hergebruikers van museale gegevens

De instellingen zelf

Derden, hergebruikers

Rekening houdende met het gelaagd licentiemodel

Bestaat uit twee componenten Een installatie van de datahub voor aggregatie van data

Een zoekmachine om de data te ontsluiten voor mensen

Page 26: Matthias Vandermaesen: De Datahub

De Arthub

* Disclaimer: voorlopig ontwerp

Page 27: Matthias Vandermaesen: De Datahub

De Arthub zoekmachine

Opzet Mogelijk maken om gericht gegevens op te zoeken in de

datahub component

Hoe? Via een gebruiksvriendelijke zoekinterface

Gericht op hergebruikers van gegevens

Waarom niet geïntegreerd in de datahub? Deze functionaliteit is specifiek voor de VKC use case

De datahub component is een generieke component

Demo

Page 28: Matthias Vandermaesen: De Datahub

De Arthub zoekmachine

Page 29: Matthias Vandermaesen: De Datahub

De Arthub zoekmachine

Gebaseerd op Project Blacklight Een open source project, dus vrij bruikbaar.

http://www.project-blacklight.org

Ontwikkeld in de bibliotheekwereld

Customisatie door Inuits BVBA voor VKC

Automatische koppeling met de datahub Harvesting van data uit de datahub via het OAI-PMH protocol

Verwerking van de opgehaalde LIDO gegevens

Opvoer in de onderliggende zoekindex van Project Blacklight

Koppeling is nog in volle ontwikkeling

Page 30: Matthias Vandermaesen: De Datahub

Koppelingen

Hoe realiseren we de koppelingen tussen de verschillende systemen nu concreet?

Adlib naar de Datahub?

TMS naar de Datahub?

De datahub naar Project blacklight?

Page 31: Matthias Vandermaesen: De Datahub

Koppelingen

We maken gebruik van Catmandu / Librecat

Een data ETL toolkit

Universiteitsbibliotheek Gent

Open source software

Zeer flexibel

Relatief “eenvoudig” in gebruik.

http://www.librecat.org

Demo

Page 32: Matthias Vandermaesen: De Datahub

Koppelingen

Page 33: Matthias Vandermaesen: De Datahub

Koppelingen

Softwaretools vrij beschikbaar:

Catmandu LIDO integratie:https://github.com/librecat/Catmandu-LIDO

Catmandu Datahub integratie:https://github.com/thedatahub/Datahub-Factoryhttps://github.com/thedatahub/Catmandu-Store-Datahub

Definities van de mapping voor de VKC musea in Catmandu:https://github.com/VlaamseKunstcollectie/Datahub-Fixes

Ontsluiting van data uit TMS:https://github.com/VlaamseKunstcollectie/tmssync

Page 34: Matthias Vandermaesen: De Datahub

Koppelingen

Dit is specialistenwerk! Nauwe kennis van de data in de registratiesystemen is noodzakelijk.

Datamodellen & thesauri

Hoe voeren registratoren informatie in? Interpretatie van de velden!

Technische kennis om met data processing tools om te gaan.

Vertalen van de mapping in een Catmandu configuratie

Opschonen (“masseren”) van data met Catmandu, Excel, Refine,…

Programmeren van ontbrekende functionaliteit in Catmandu was noodzakelijk

Terug koppelen feedback naar de musea

Verbeteren van de kwaliteit van de gegevens in de registratiesystemen

Projectmatige aanpak i.s.m. registratoren, publieksmedewerkers,…

Page 35: Matthias Vandermaesen: De Datahub

Koppelingen

Een data conservator (of gelijkaardige rol) beheert idealiter dergelijke koppelingen.

Noodzakelijke, specifieke domeinkennis verwerft men slechts door in de musea hands-on met de registratiesystemen te werken & met de registratoren te communiceren op dagelijkse basis.

Een externe technische leverancier eerder inschakelen voor de bouw en het operationeel stellen van complexe systemen.

Een data conservator rol is de go-between tussen de musea en de technische bouwers van digitale projecten.

Samenwerking is belangrijk!!

Delen & inbedden van ervaring en kennis op de museumvloer

Delen van mensen met relevante kennis & ervaring.

Page 36: Matthias Vandermaesen: De Datahub

Vervolg in 2017

Afwerking van de datahub component

Herlancering van het Open Source project

Verdere uitwerking van de Arthub

Verder verbeteren van de koppelingen

Uitwerken van de zoekmachine

Aansluiting van schone kunsten collecties

Inzetten op hergebruik van de gegevens

Ontsluiting via de VKC catalogus & thematische collecties

Ontsluiting via Europeana

Op zoek naar andere vormen van hergebruik

Page 37: Matthias Vandermaesen: De Datahub

Dank!

Matthias Vandermaesen

[email protected]

Twitter: @netsensei