Geschiedenisvanzuidholland nl semantisch web (2)
-
Upload
erfgoedhuis-zuid-holland -
Category
Documents
-
view
1.146 -
download
2
description
Transcript of Geschiedenisvanzuidholland nl semantisch web (2)
Instituut voor Media, Informatie en Communicatie
Geschiedenisvanzuidholland.nl & Semantisch web
Wat kan het semantisch web betekenen voor een webportal?
Afstudeeropdracht
Frans van der Horst, student Informatie en Media (IV5)
Docent: Susanne Neugebauer
Praktijkbegeleider: Tamara van Zwol
In opdracht van het Erfgoedhuis Zuid-Holland
2 november 2010
Voorwoord
In dit adviesrapport is de uitwerking te vinden van de opdracht van het Erfgoedhuis
Zuid-Holland om te onderzoeken wat het semantisch web kan betekenen voor de
website www.geschiedenisvanzuidholland.nl.
Het rapport is samengesteld door Frans van der Horst, student Informatie en Media
aan de Hogeschool van Amsterdam (domein: Media, Creatie en Informatie /
opleiding: Media, Informatie en Communicatie).
Deze rapportage is bedoeld voor archivarissen, museum- en andere
erfgoedspecialisten, IT-specialisten, (wetenschappelijke) onderzoekers en andere
belanghebbenden of geïnteresseerden.
Graag wil ik mijn dank betuigen aan: Tamara van Zwol, Susanne Neugebauer, Ivo
Zandhuis, Marloes Wellenberg, Kirsten de Vries, Tim Veken, Geert-Jan van Bussel,
Peter Horsman, Raf Guns, Jef Malliet, Michiel Hildebrand, Marco Streefkerk, Laura
Hollink en Hans Waalwijk.
Inhoud
Managementsamenvatting 9
1 Inleiding 11
1.1 Erfgoedhuis Zuid-Holland 11
1.2 Probleemstelling en deelvragen 12
1.3 Afbakening onderzoek 12
1.4 Onderzoeksdoelstelling en onderzoeksopzet 13
1.4.1 Onderzoeksdoelstelling 13
1.4.2 Onderzoeksopzet 13
2 Semantisch Web 15
2.1 Wat is het semantisch web? 16
2.2 De techniek achter het semantisch web 17
2.3 Waarom het semantisch web? 19
2.4 Erfgoedsector en semantisch web 19
2.5 Argumenten van voorstanders 20
2.6 Argumenten van critici 21
2.7 Analyse argumenten voorstanders en critici 22
2.8 Conclusie 23
3 Standaardisatie en semantisch web 25
3.1 Toegankelijkheid 25
3.2 Standaardisatie en erfgoedsector 26
3.3 Standaardisatie en semantisch web 28
3.4 Conclusie 29
4 Geschiedenisvanzuidholland.nl 31
4.1 Doelstelling 31
4.2 Functie 31
4.3 Zoekfunctie en techniek (ontsluitingsstandaarden) 33
4.4 Conclusie 34
5 Ontsluitingsprojecten 37
5.1 Analyse Erfgoedplus.be 37
5.1.1 Doelgroep 37
5.1.2 Verleden, heden, toekomst 37
5.1.3 Techniek 38
5.1.4 Beschrijven erfgoedinformatie 39
5.1.5 Presenteren erfgoedcollecties 40
5.1.6 Erfgoedplus.be en semantisch web 40
5.2 Analyse Europeana project 41
5.2.1 Europeana en semantiek 41
5.2.2 Europeana.eu versus Europeana‟s semantic search engine 42
5.2.3 Technische versus semantische interoperabiliteit 43
5.3 Analyse Agrippa catalogus Vlaamse literatuur 44
5.3.1 Techniek 45
5.4 Analyse CHIP project 46
5.5 Conclusie 47
6 Gebruiker, context en semantisch web 49
6.1 Gebruiker 49
6.2 Context 50
6.2.1 Context van archieven 50
6.2.2 Context van museale collecties 51
6.2.3 Context en het semantisch web 52
6.3 Gezamenlijke context 53
6.4 Conclusie 55
7 Toepassing semantisch web 57
7.1 Toekomstige rollen PHC en website 57
7.2 Conclusie 57
8 Conclusies en aanbevelingen 59
8.1 Conclusies 59
8.1.1 Semantisch web 59
8.1.2 Standaardisatie en semantisch web 59
8.1.3 Geschiedenisvanzuidholland.nl 60
8.1.4 Ontsluitingsprojecten 60
8.1.5 Context 60
8.1.6 Toepassing semantisch web 60
8.2 Aanbevelingen 60
Notenapparaat 61
Interviews 65
Literatuurlijst 67
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 9
Managementsamenvatting
Het internet ontwikkelt zich razend snel. Het World Wide Web bestaat inmiddels al
bijna 20 jaar. In die tijd is er veel veranderd, zowel voor mensen die informatie
structuren en publiceren als de gebruikers van informatie die het consumeren. De
volgende ontwikkelingsfase van het web staat alweer voor de deur, namelijk het
semantisch web (web 3.0). Het semantisch web is een technologie om datastructuren
op het web te publiceren, waardoor betekenisvolle relaties kunnen ontstaan tussen
concepten die uit verschillende bronnen (bijvoorbeeld erfgoedbronnen) afkomstig
zijn. Dit betekent concreet dat het semantisch web betekenisvolle relaties (die voor
mensen logisch zijn) begrijpelijk kan maken voor het web. Op deze manier wordt de
context en betekenis achter die relatie behouden en tevens verrijkt. In dit onderzoek is
bestudeerd of deze ontwikkeling iets kan bijdragen aan de (digitale) ontsluiting van
cultureel erfgoed en wat dit kan betekenen voor een webportal.
Aan dit vraagstuk is de volgende probleemstelling gekoppeld:
Welke ontwikkelingen en mogelijkheden biedt het semantisch web voor de website
www.geschiedenisvanzuidholland.nl?
Uit onderzoek bleek dat er nog een hoop onwetendheid bestaat rondom het begrip
semantisch web. IT-specialisten kijken met andere bril naar de materie dan
erfgoedspecialisten dit doen. Er kan in dit verband gezegd worden dat enige vorm van
standaardisatie noodzakelijk is als men erfgoedinformatie op het semantisch web
zinvol wil kunnen gebruiken. Het is daarom aan te raden dat men binnen de
erfgoedsector vanuit één gemeenschappelijk metadatamodel werkt waardoor de
gebruiker overal op dezelfde manier benaderd kan worden.
Het semantisch web verrijkt de context van erfgoedinformatie. Een van de uitkomsten
van dit onderzoek laat zien dat het semantisch web ervoor zorgt dat de context van
erfgoedinformatie wordt verrijkt door diverse concepten (persoon, plaats, gebeurtenis,
objecten) met elkaar te verbinden en vast te leggen, waardoor verschillende contexten
gezamenlijk gepresenteerd kunnen worden.
Op dit moment is het voor de website www.geschiedenisvanzuidhollnd.nl helaas niet
mogelijk om verschillende erfgoedcollecties van de deelnemende instellingen in één
context te presenteren omdat de techniek tekort schiet. Implementatie van
semantische webtechnologie kan dit probleem verhelpen.
Het Provinciaal Historisch Centrum (PHC) kan overwegen haar diensten af te
stemmen op het gebruik en de toepassing van het semantisch web. Zij zou kunnen
kiezen voor een rol als data-intermediair of serviceprovider. Als serviceprovider
publiceert ze de data van (deelnemende) erfgoedinstellingen via een nieuwe website
die gebaseerd is op semantische webtechnologie.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 10
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 11
1 Inleiding
Met de komst van internet is er het een en ander veranderd. Digitale toegangen
kunnen binnen de erfgoedsector met behulp van hyperlinks en metadata met elkaar
verbonden worden. Samenwerking op dit gebied is noodzakelijk geworden met het
oog op de toegankelijkheid richting de gebruiker. Men maakt dan ook steeds vaker
gebruik van uniforme (digitale) beschrijvingsstandaarden om de toegankelijkheid van
archieven, bibliotheken en musea te verbeteren. In dit rapport wordt gekeken in welke
mate het semantisch web (web 3.0) kan bedragen aan een betere toegankelijkheid van
verschillende erfgoedcollecties. Er wordt hierbij specifiek gekeken naar archieven en
museale collecties. Internetontwikkelingen als het semantisch web bieden wellicht
nieuwe mogelijkheden om erfgoedcollecties met elkaar te verbinden en in één
gezamenlijke context te presenteren. Webportals kunnen baat hebben bij zulke
ontwikkelingen. Het rapport geeft dan ook antwoord te geven op de vraag: Wat kan
het semantisch web betekenen voor de website www.geschiedenisvanzuidholland.nl?
1.1 Erfgoedhuis Zuid-Holland
Het Provinciaal Historisch Centrum van het Erfgoedhuis Zuid-Holland draagt het
cultureel erfgoed van de provincie een warm hart toe. Zij adviseert erfgoedinstellingen
en andere organisaties bij het in stand houden van het erfgoed en biedt het publiek
(inwoners van Zuid-Holland) de mogelijkheden om kennis te maken met het erfgoed
dat de provincie rijk is. Archieven vormen ook een belangrijk onderdeel van dat
erfgoed. Dit wordt uitstekend verwoord in de hieronder omschreven visie/missie.
„Het Erfgoedhuis helpt archieven bij het vergroten van hun publieksbereik. Door
voorlichting over nieuwe, open manieren van digitalisering, of door hen te koppelen
aan het onderwijs of samen te laten werken met andere erfgoedinstellingen.‟
(Erfgoedhuis Zuid-Holland, 2010, website)
„Wij ondersteunen archieven bij hun streven naar een groter publieksbereik. Daarbij
zetten wij vooral in op samenwerking tussen archieven en musea, historische
verenigingen en bibliotheken.‟ (Erfgoedhuis Zuid-Holland, 2010, website)
Samenwerking tussen de verschillende erfgoedinstellingen komt naar voren in de
webportal van het Provinciaal Historisch Centrum van het Erfgoedhuis Zuid-Holland.
De website www.geschiedenisvanzuidholland.nl biedt het publiek de (digitale)
mogelijkheid om door diverse archieven/collecties die de provincie rijk is heen te
zoeken. Het doel van de website is als volgt geformuleerd: „de website heeft tot doel
de geschiedenis van Zuid-Holland en de daarmee verbonden archiefcollecties onder
de aandacht te brengen van een breed publiek‟ (Erfgoedhuis Zuid-Holland, 2007, p.1).
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 12
1.2 Probleemstelling en deelvragen
In dit rapport is onderzocht wat het schematisch web kan betekenen voor de website
www.geschiedenisvanzuidholland.nl. Hierbij is de volgende probleemstelling
gehanteerd:
Welke ontwikkelingen en mogelijkheden biedt het semantisch web voor de website
www.geschiedenisvanzuidholland.nl?
Om antwoord te geven op de probleemstelling is er gebruik gemaakt van een achttal
deelvragen, te weten:
Wat is het semantisch web?
Hoe verhoudt standaardisatie zich met het semantisch web?
Welke ontsluitingsstandaarden gebruiken de deelnemende
erfgoedinstellingen van de website www.geschiedenisvanzuidholland.nl?
Welke ontsluitingsprojecten (best practices) lopen er op dit moment?
Hoe zoeken gebruikers naar informatie op een erfgoedwebsite?
Wat is de functie van context voor de gebruiker bij archieven en museale
collecties in relatie tot het semantisch web?
Is het voor de website www.geschiedenisvanzuidholland.nl mogelijk om
de verschillende erfgoedcollecties van alle deelnemende instellingen gezamenlijk
in hun context te presenteren?
Hoe kan het semantisch web kan worden toegepast op de website
www.geschiedenisvanzuidholland.nl?
1.3 Afbakening onderzoek
De ontwikkelingen en mogelijkheden van het semantisch web zijn in dit onderzoek
uiteengezet. In hoofdstuk 2 wordt er uitgelegd wat het semantisch web betekent,
welke techniek hier achter schuil gaat en waarom het semantisch web kan bijdragen
aan de toegankelijkheid van erfgoedcollecties. Voorstanders en critici komen aan het
woord om een helder beeld van deze materie te scheppen. Hoe standaardisatie zich
verhoudt met het semantisch web komt in hoofdstuk 3 aan de orde. Er wordt
gekeken naar de toegankelijkheid van erfgoedcollecties, naar standaardisatie in de
erfgoedsector en naar standaardisatie bij het semantisch web. In hoofdstuk 4 en 5
wordt er ingezoomd op de praktijk. Er lopen op dit moment een aantal interessante
projecten die van grote waarde kunnen zijn om de toegankelijkheid van de
www.geschiedenisvanzuidholland.nl (structureel) te verbeteren. De toegankelijkheid
richting de gebruiker is eveneens van belang. Hoofdstuk 6 gaat in op de vraag hoe
gebruikers naar informatie zoeken, of de functie van context bij archieven en museale
collecties voor hen een rol speelt en hoe context zich verhoudt tot het semantisch
web. Tot slot wordt er in hoofdstuk 7 gekeken naar de mogelijke toepassing van het
semantisch web op de website www.geschiedenisvanzuidholland.nl.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 13
De ontwikkeling van het semantisch web kan voor de website
www.geschiedenisvanzuidholland.nl belangrijk zijn. Dit is onderzocht met behulp van
een concrete casus. In België maakt men gebruik van de website www.erfgoedplus.be,
waar informatie rondom cultureel erfgoed te vinden is, en via semantische
webtechnologie toegankelijk wordt gemaakt. Erfgoedplus.be is (net als
geschiedenisvanzuidholland.nl) bedoeld voor iedereen die geïnteresseerd is in of op
zoek is naar (informatie over) cultureel erfgoed. Men kan bijvoorbeeld denken aan de
erfgoedsector zelf, leerkrachten, scholieren, studenten, wetenschappers, toeristische
diensten of andere geïnteresseerden. Kortom, het is belangrijk dat het project van
onze Belgische collega‟s extra aandacht verdient bij dit onderzoek, om antwoord te
geven op de probleemstelling en deelvragen.
1.4 Onderzoeksdoelstelling en onderzoeksopzet
1.4.1 Onderzoeksdoelstelling
Het doel van dit onderzoek is om het Erfgoedhuis Zuid-Holland een adviesrapport te
overhandigen waar deze ontwikkelingen en mogelijkheden (genoemd in de
probleemstelling) besproken worden. Wellicht kan de opdrachtgever bepaalde
conclusies en aanbevelingen meenemen voor nader onderzoek en toekomstig beleid.
1.4.2 Onderzoeksopzet
De hierboven genoemde onderzoeksdoelstelling is met behulp van
literatuuronderzoek en kwalitatief onderzoek tot stand gebracht. Het kwalitatief
onderzoek bestond uit een viertal onderzochte en vergeleken projecten (best
practices), en een tiental interviews met experts uit de praktijk, al dan niet verbonden
met een van de hieronder genoemde projecten. (Erfgoedplus.be, Europeana, CHIP
project, Agippa). Op deze wijze is het onderzoek inhoudelijk en op actuele wijze
verduidelijkt en onderbouwd.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 14
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 15
2 Semantisch Web
Vooruitgang gaat gepaard met ontwikkelingen en nieuwe uitdagingen. Als er een
sector is waar deze uitspraak van toepassing is dan is het wel in de
informatietechnologie (IT). In Nederland wordt er in dit verband ook wel over
informatie- en communicatietechnologie (ICT) gesproken. De ontwikkeling van het
World Wide Web maakt hier als internettechnologie onderdeel van uit. Sinds haar
ontstaan in 1991 (uitgevonden door Sir Tim Berners-Lee) heeft het web een enorme
vlucht genomen en maken er nu mensen van over de hele wereld gebruik van het web.
Eerst was het web vooral bedoeld om kennis en datasets tussen wetenschappers uit te
wisselen. Al snel werd het gebruik beperkt tot het publiceren van informatie door
instellingen aan de ene kant en het consumeren van informatie door eindgebruikers
aan de andere kant. Men zou dit achteraf kunnen kwalificeren als het stadium Web 1.0.
In 2007 werd de consument van informatie in de ontwikkeling van het web betrokken
door de gebruiker actief te laten reageren op aangeboden informatie, waardoor er
binnen het web tweerichtingsverkeer ontstond tussen producent en consument.
(Zandhuis, 2010). Tevens werd het mogelijk om als gebruiker zelf informatie te
publiceren. Het web kreeg door deze vorm van interactiviteit een „sociaal‟ gezicht.
Sociale netwerken als Hyves, Myspace, Facebook, Twitter en vele anderen zijn inmiddels
niet meer weg te denken. Men noemt deze fase van het web ook wel Web 2.0 of Social
Web, waar de gebruiker centraal staat. Nu staat er alweer een nieuwe ontwikkelingsfase
voor de deur, namelijk het semantisch web (Web 3.0).
Het fundament van het semantisch web is gelegd door Sir Tim Berners-Lee, de
uitvinder van het World Wide Web, en directeur van de organisatie W3C. In een
artikel in de Scientific American uit 2001 laten Berners-Lee en medeauteurs hun visie
schijnen op functioneren van World Wide Web in de toekomst, waarbij machines zelf
data gaan begrijpen door betekenisvolle relaties te leggen tussen verschillende items.
De gebruikers worden volgens hen op deze wijze adequaat geholpen bij het vinden
van materiaal en helpt het ze bij het uitvoeren en voltooien van bepaalde taken. Het
begrip semantisch web werd in het artikel uit 2001 als volgt onder woorden gebracht:
The semantic web will bring structure to the meaningful content of Web pages,
creating an environment where software agents roaming from page to page can
readily carry out sophisticated tasks for users… The semantic web is not a separate
Web but an extension of the current one, in which information is given well-defined
meaning, better enabling computers and people to work in cooperation… To date,
the Web has developed most rapidly as a medium of documents for people rather
than for data and information that can be processed automatically. The semantic
web aims to make up for this… The real power of the semantic web will be realized
when people create many programs that collect Web content from diverse sources,
process the information and exchange the results with other programs.
Citaat uit rapport: The Fate of the Semantic Web (Anderson & Rainie, 2010, p.7)
Als men deze uitleg leest weet men nog steeds niet wat het semantisch web exact
betekent of inhoud, mede omdat er nogal een abstracte voorstelling van zaken
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 16
gegeven wordt. Sir Tim Berners-Lee heeft eigenlijk meer zijn visie verwoordt dan een
concrete definitie gegeven. Het bestaat louter uit een aantal losse (hetzij belangrijke)
feiten en ideeën. Desondanks is één uitspraak wel zinvol om gelijk te onderschrijven,
namelijk: dat men het semantisch web niet moet zien als een nieuw soort web, maar
dat het een uitbreiding is van het bestaande web. (Anderson & Rainie, 2010). In de
volgende paragrafen wordt een precieze betekenis van het begrip gegeven.
2.1 Wat is het semantisch web?
Het semantisch web is een technologie om datastructuren op het web te publiceren,
waardoor betekenisvolle relaties kunnen ontstaan tussen concepten die uit
verschillende bronnen (bijvoorbeeld erfgoedbronnen) afkomstig zijn. Een concept
vormt een denkbeeldige voorstelling over een zaak of toestand met vastliggende
kenmerken, zoals objecten, personen, organisaties of gebeurtenissen. Een
datastructuur representeert de manier waarop gegevens in een computer worden
opgeslagen, met elkaar samenhangen en hoe ze teruggevonden kunnen worden.
Datastructuren komen in datamodellen van een database naar voren. Ze zijn van
technische aard en zijn alleen bedoeld voor computers en niet voor mensen. Men
dient in dit verband onderscheid te maken tussen logische taal en natuurlijke taal
(mensentaal). Logische taal is de taal die computers gebruiken om iets te „begrijpen‟.
Mensen maken juist gebruik van semantisch taalgebruik en gebruiken concepten om
betekenis te geven aan objecten, personen, organisaties of gebeurtenissen. Semantiek
is gerelateerd aan syntax. Syntax is de manier waarop mensen iets zeggen, terwijl
semantiek de betekenis daarvan aangeeft. (Intro to the Semantic Web, 2010). Als men
zegt: „Ik houd van klassieke muziek‟ dan is de syntax de opbouw van de zin bestaande
uit letters en woorden. De semantiek is de betekenis achter deze desbetreffende zin,
namelijk dat men graag naar klassieke muziek luistert.
Het doel van het semantisch web is om datastructuren betekenis te geven door ze met
elkaar te verbinden (linken) en te publiceren op het web, zodat deze structuren voor
computers verwerkt kunnen worden. (Zandhuis, 2010). De computer leert zo de
„betekenis‟ van een webpagina kennen. Een computer weet bijvoorbeeld niet dat de
Nachtwacht door Rembrandt geschilderd is, dat Rembrandt in de leer is gegaan bij
Pieter Lastman, en geboren is in Leiden. Dit dienen mensen aan te geven, door relaties
tussen concepten vast te leggen in triples. Triples zijn (gecodeerde) uitspraken die
computersystemen nodig hebben om menselijke informatie te begrijpen. In deze
triples komen specifieke semantische relaties naar voren, en deze relaties samen
vormen het semantisch web. Een triple bestaat uit een relatie tussen twee concepten,
en die verhouding wordt uitgedrukt in het soort relatie. Bijvoorbeeld: persoon X kent
persoon Y, dan vormt het begrip „kennen‟ ansich de typering van die relatie, en
tezamen vormen deze 3 onderdelen (persoon X + persoon Y + „kennen‟) een triple.
Elk concept heeft dan een unieke identifier (URI1), om verwarring met andere
concepten te voorkomen. Wanneer je veel van dit soort triples verzamelt ontstaat er
vanzelf een netwerk tussen personen, organisaties, objecten, onderwerpen en andere
concepten. Een schematische weergave van een drietal triples is hieronder te vinden.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 17
Afbeelding 1: Schematische weergave van datastructuren, vastgelegd in „triples‟.
Het semantisch web is per definitie technisch van aard. Het is daarom buitengewoon
handig om enig zicht te krijgen in de techniek die achter het semantisch web schuil
gaat. In §2.2 wordt hier uitgebreid aandacht aan besteed.
2.2 De techniek achter het semantisch web
Er zijn voor de publicatie van triples (binnen een webomgeving) technische
standaarden beschikbaar. Het idee van de triples is vastgelegd en opgeslagen in het
standaardformaat Resource Description Framework2 (RDF). In RDF staat beschreven
hoe een computerbestand eruitziet waarin triples zijn vastgelegd, zodat andere
computers ze kunnen herkennen. De triples worden uitgedrukt in XML en kunnen
hierdoor (net als HTML-bestanden) direct gepubliceerd worden op een website.
Complexe dataverzamelingen (van triples) worden zo op een uniforme manier
aangeboden en doorzoekbaar gemaakt. Over sommige relaties of predicaten (die in
triples naar voren komen) is reeds nagedacht. Deze standaardpredicaten zijn dan als
een verzameling op een centrale plaats terug te vinden, in bijvoorbeeld Dublin Core3.
Dublin Core is een standaard voor het beschrijven van online bronnen door deze van
metadata4 te voorzien, wordt over heel de wereld erkend en door vele systemen
begrepen. Het standaardformaat is niet gebonden aan specifieke erfgoedsectoren
(archieven, bibliotheken en musea), waardoor het kan dienen als uitwisselingsformaat
tussen samenwerkende erfgoedinstellingen. Door het maken van „mappings‟ in een
metadataschema5 wordt het mogelijk om bepaalde relaties tussen verschillende
beschrijvingsstandaarden te leggen. De predicaten die in Dublin Core beschreven
worden (creator etc.) kunnen in RDF gebruikt worden om triples definiëren, zoals
hieronder in een voorbeeld wordt weergegeven. In een triple kan men aangeven waar
het predicaat precies vandaan komt, vandaar de afkorting met een dubbele punt (dc:).
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 18
<Rembrandt> <dc:creator> <Nachtwacht>
Een relatie (triple) met behulp van Dublin Core
Naast Dublin Core zijn er nog meer standaardpredicaten beschikbaar, zoals Simple
Knowledge Organization System (SKOS). SKOS biedt een basisstructuur om de
inhoud van terminologiebronnen6 zoals thesauri (Art & Architecture Thesaurus7
(AAT), Thesaurus of Geographical Names8 (TGN), Union List of Artists Names9
ULAN)), trefwoordlijsten, classificatieschema‟s en taxonomieën vast te leggen, te
representeren (via een eenvoudige publicatie) en met elkaar te verbinden. Het is de
bedoeling dat inhoud van informatie en objecten vindbaar wordt gemaakt door het
gebruik van toegekende termen uit de terminologiebronnen, om bijvoorbeeld de
(inhoudelijke) toegankelijkheid van erfgoedcollecties te verbeteren. Hierbij worden de
termen zelf niet meer als uitgangspunt beschouwd, maar als abstracte concepten die in
de termen besloten liggen. De betekenis van een concept kan worden uitgelegd met de
woorden in zijn oorspronkelijke taal, maar ook door ze te koppelen met andere
concepten. De structuur van deze concepten is hiërarchisch van aard en wordt
aangeduid door „broader-narrower‟ relaties of door ze te verbinden met niet-
hiërarchische gerelateerde termen. SKOS zorgt er uiteindelijk voor dat conceptuele
schema‟s afkomstig uit diverse erfgoedbronnen met elkaar verbonden worden.
Associatieve en semantische relaties krijgen codes mee om het soort relatie aan te
duiden. Semantische relaties dient men echter nog steeds manueel te leggen, waardoor
expertise op het vlak van conceptuele woordenlijsten (terminologiebronnen) gewenst
is. In het voorbeeld hieronder wordt een hiërarchische relatie binnen dezelfde
thesaurus gedefinieerd, met behulp van een predicaat uit SKOS. Tevens ziet men hier
dat de concepten zelf (schilderij, kunstwerk) ook uit terminologiebronnen (in dit geval
de thesaurus AAT) afkomstig kunnen zijn.
<AAT:schilderij> <skos:narrower> <AAT:kunstwerk>
Een relatie (triple) met behulp van SKOS
Daarnaast zijn er ook standaardpredicaten beschikbaar om datastructuren in het
semantisch web te verrijken. Deze modellen bevatten triples die een computer
uitleggen hoe de informatie het beste gebruikt kan worden. Het zoekresultaat van de
gebruiker wordt hierdoor verbeterd. Samen vormen deze uitspraken dan een
ontologie, waardoor de betekenis (semantiek) achter een concept (zoals persoon of
plaats) verrijkt wordt. Een ontologie is een formele beschrijving van een domein en is
het beste te vergelijken met een datamodel of metadataschema. Deze formele
beschrijving kan worden vastgelegd met behulp van RDFS en/of OWL10.
Het pakket aan predicaten wordt op deze manier steeds uitgebreider, waardoor men
ook steeds meer semantische structuren kan vastleggen. Standaardpredicaten helpen
ons dus uiteindelijk bij het maken van datastructuren. Het leggen van semantische
relaties is (net als het maken van een thesaurus of het vullen van een database)
overigens nog steeds manueel werk. Enige voorkennis van betekenis en taal van de
gebruikte terminologie is dan ook gewenst bij het tot stand brengen van deze relaties.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 19
Het is uiteindelijk de bedoeling dat triples een steeds uitgebreider netwerk gaan
vormen. Dit netwerk kent geen grenzen, het is altijd uitbreidbaar. Triples worden door
een zoekmachine centraal opgeslagen in een triplestore, en hier haalt de zoekmachine
van de toekomst dan (zinvolle) resultaten uit. Dit gebeurt door een zoekvraag op te
stellen met bepaalde selectievoorwaarden (query). SPARQL Protocol and RDF Query
Language11 (SPARQL) is de taal om een zoekvraag voor triples op te stellen. Op deze
wijze wordt het vinden van relevant materiaal geoptimaliseerd.
2.3 Waarom het semantisch web?
Het „gewone‟ web kan in tegenstelling tot het semantisch web geen betekenisvolle
relaties leggen zoals hierboven is beschreven. Alleen (digitale) documenten worden
met elkaar verbonden, de semantiek (betekenis) achter het document ontbreekt. Het
voordeel van het semantisch web is wanneer eigen datastructuren van bijvoorbeeld
erfgoedinstellingen eenmaal zijn vastgelegd in triples de computer betekenisvolle
relaties kan gaan leggen met datastructuren van andere instellingen die ook via het
semantisch web gepubliceerd worden. Dit maakt dat het handmatig linken van
verschillende concepten maar een keer hoeft te gebeuren voor de hele wereld. Een
erfgoedinstelling publiceert haar data (via een metadataschema) op het semantisch
web en er kunnen relaties worden gelegd, zonder dat de context en betekenis verloren
gaan. Integendeel, context en betekenis van de gepubliceerde data worden juist verrijkt
door de koppeling met andere erfgoedbronnen.
2.4 Erfgoedsector en semantisch web
Binnen de erfgoedsector lopen er op dit moment een aantal projecten waar gekeken
wordt in welke mate semantische webtechnologie kan bijdragen aan
informatieontsluiting. Het is hierbij zinvol een onderscheid te maken tussen de
projecten die gebruik maken van semantische webtechnologie en het semantisch web
zelf. In het begin van dit hoofdstuk gaf ik al aan dat het semantisch web puur van
technische aard is. Een webtechniek als RDF zorgt dat er een semantisch web kan
ontstaan. Bij de projecten wordt er gebruik gemaakt van die techniek, maar zij maken
nog geen onderdeel uit van het semantisch web omdat men haar materiaal (nog) niet
deelt met andere projecten en/of erfgoedinstellingen. In hoofdstuk 5 worden er
verschillende projecten onder de loep genomen. Twee van deze projecten
(Erfgoedplus.be en Europeana) zijn wellicht het vooruitstrevendst als het gaat om de
(eventuele) toepassing van semantische webtechnologie binnen de erfgoedsector. In
de dagelijkse praktijk komen medewerkers die in de erfgoedsector werkzaam zijn niet
of nauwelijks in aanraking met semantisch webtechnologieën, louter insiders of andere
belanghebbenden. Elke (technologische) verandering gaat gepaard met een zekere
onwetendheid, zo ook in de erfgoedsector. Kritische geluiden van sceptici dienen dan
ook serieus genomen te worden. In §2.5 en §2.6 worden de uitspraken van experts
behandeld en komen de argumenten van voorstanders en critici aan bod.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 20
2.5 Argumenten van voorstanders
Overeenkomstigheid in structuur
Zandhuis (2010) vindt dat het semantisch web perfect aansluit bij erfgoed en de
hieruit voortvloeiende informatieontsluiting, want men heeft juist binnen het erfgoed
te maken met informatiestructuren. Zandhuis wil hiermee zeggen dat de hierboven
besproken datastructuren van het semantisch web juist aansluiten bij de
informatiestructuren die erfgoedsector gebruikt worden. De structuren die in
metadataschema‟s en terminologiebronnen (thesauri en andere gecontroleerde
woordenlijsten) naar voren komen blijven behouden op het semantisch web.
Toegankelijkheid van erfgoedcollecties wordt verbeterd
Hildbrand (2010) denkt dat het semantisch web op twee manieren kan bijdragen aan
de toegankelijkheid van erfgoedcollecties. In eerste instantie blijft de data die men wil
delen/publiceren via het semantisch web behouden. Hildebrand geeft namelijk aan
dat elk concept (bijvoorbeeld Rembrandt of Nachtwacht) een unieke identifier (URI)
krijgt. De data die een erfgoedinstelling beschikbaar wil stellen wordt dus vastgelegd
door het toekennen van uniciteit aan deze concepten.
De tweede vorm van toegankelijkheid komt volgens hem tot uiting in het linken van
verschillende schema‟s (van standaardpredicaten) en terminologiebronnen, waardoor
er hele specifieke en betekenisvolle relaties ontstaan tussen verschillende concepten.
Inhoudelijke beschrijvingen gaan niet verloren
Volgens Hildebrand (2010) is informatieverlies van inhoudelijke beschrijvingen niet
aan de orde als je op de juiste manier je data op het semantisch web brengt. Het idee
van het semantisch web is dat men het allemaal kan behouden. Het is juist mogelijk
om data te delen binnen het eigen model, zonder dat er iets verloren gaat. En op deze
wijze kan men steeds weer opnieuw linken naar een ander model. Informatie kan dus
behouden blijven en verrijkt worden wanneer er verschillende modellen met elkaar
verbonden worden.
----------------------------------------------------------------------------------------------------------
Zandhuis (2010) zegt ook dat de inhoudelijke ontsluiting behouden kan blijven
omdat zowel archieven, bibliotheken en musea hun eigen modellen kunnen
behouden. Hierbij hoeven ze niet af te wijken van hun eigen werkzaamheden of
praktijk, en op die manier wordt het ook beschikbaar gesteld. Wanneer men de
beschrijvingen in triples uit de bestaande database heeft geëxporteerd dan is het
mogelijk om het op het semantisch web te brengen.
Géén gestandaardiseerd formaat nodig
Volgens Hildebrand (2010) bestaat er zoiets als een „pre-semantische‟ visie op het
semantisch web, namelijk: het unificeren van informatie en inter-operabel maken op
het web. De eerste gedachte die hieruit voortvloeide was dat we het allemaal in een
gestandaardiseerd formaat dienen te doen. Terwijl men het volgens Hildebrand
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 21
(2010) juist meer moet zien vanuit het oogpunt dat je een database hebt, en die je op
het web kan zetten. En vervolgens gaat men kijken welke andere databases of
vocabulaires (thesauri en andere terminologiebronnen red.) interessant zijn om met
elkaar te linken. Hierdoor wordt je eigen database verrijkt en beter toegankelijk.
----------------------------------------------------------------------------------------------------------
Hildebrand (2010) is zijdelings betrokken bij Europeana en probeert juist duidelijk te
maken dat men helemaal niet moet proberen om „dingen‟ te unificeren, maar met
elkaar moet linken. Als je volgens hem via een bepaald model (bijvoorbeeld
Europeana Local12) gaat werken moet er informatie platgeslagen worden, waardoor er
informatie verloren gaat. Het standaardformaat RDF zorgt er juist voor dat eigen
informatie behouden blijft, en triples geven aan hoe deze informatie gerelateerd is aan
standaardpredicaten als Dublin Core of SKOS.
2.6 Argumenten van critici
Teveel vertrouwen in de ontwikkeling, techniek en gebruik van het semantisch web
Malliet (2010) spreekt over een langzame ICT ontwikkeling, aangezien er in de
praktijk geen semantisch web beschikbaar is. De techniek is bekend, maar de
inhoudelijke invulling van semantisch web ontbreekt. Daarnaast spreekt hij over een
zeker wantrouwen wat er bestaat in de techniek, omdat er gesuggereerd wordt dat je
het wel allemaal aan elkaar kan knopen. Hij zegt dat er op het punt van het ophalen
van informatie (retrieval) via een „semantische‟ zoekmachine nog een hoop te
verbeteren valt. De automatisch gegeneerde en verkregen zoekresultaten leveren
namelijk teveel ruis op. Malliet (2010) pleit daarom voor grootschalige menselijke
inbreng bij de inhoudelijke invulling van het semantisch web.
Semantisch web is taalgevoelig
Horsman (2010) zegt dat ook het semantisch web staat of valt bij de kwaliteit van de
beschrijving. Het vormt een verrijking van de metadata, maar het is tegelijkertijd
ontzettend taalgevoelig.
Gebruiker of onderzoeker wordt buitenspel gezet
Horsman (2010) denkt dat de interpretatie van de gebruiker of onderzoeker verloren
zal gaan met het semantisch web. Hij spreekt over een zekere vorm van betutteling
als het semantisch web zelf betekenissen gaat toekennen, en het te bewandelen pad al
voor je uit gaat leggen.
Eerst uniformering, dan het semantisch web
Van Bussel (2010) zegt dat er altijd (eerst) uniformering plaats moet vinden wil men
archief- en andere erfgoedinformatie naar het semantisch web converteren. Er kan
binnen de erfgoedsector alleen gewerkt worden met het semantisch web als er enige
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 22
vorm van standaardisatie onderling is afgesproken. Dit alles om de beheersbaarheid
van de (geconverteerde) informatie te kunnen garanderen.
----------------------------------------------------------------------------------------------------------
Volgens Wyns (2009) wordt het delen van cultureel erfgoed bemoeilijkt door de
verschillende afspraken die er in de erfgoedsector gemaakt zijn. Er dient daarom een
gemeenschappelijk metadatamodel ontwikkeld te worden. Hierdoor herkent de
machine de betekenis van de data en komt deze data terecht bij de desbetreffende
„respository‟ (titel bij titel of auteur bij creator) in de database.
2.7 Analyse argumenten voorstanders en critici
Uit de hierboven genoemde argumenten blijkt dat voorstanders en critici er
tegengestelde opvattingen op na houden. Op het punt van standaardisatie valt hier
zeker het een en ander op aan te merken. Voorstanders zeggen dat standaardisatie niet
nodig is. Critici wijzen er op dat enige vorm van standaardisatie belangrijk is. Laten we
zeggen dat voor beide uitgangspunten iets te zeggen valt. Het is inderdaad mogelijk
om de data van een willekeurige erfgoedinstelling op het semantisch web te brengen.
De inhoudelijke structuren die in metadataschema‟s naar voren komen blijven
behouden en worden verrijkt door ze te koppelen met andere metadataschema‟s en
terminologiebronnen. Maar ook critici hebben gelijk als ze zeggen dat we niet zomaar
alles in een keer kunnen delen wanneer we data op het semantisch web brengen.
Laten we nu de argumenten van zowel voorstanders als critici eens tegen het licht
houden. De voorstanders geven aan dat de structuren (inhoudelijke beschrijvingen)
die in metadataschema‟s naar voren komen behouden kunnen blijven. Hierbij hoeft
men niet af te wijken van dagelijkse werkzaamheden of praktijk. Naar mijn oordeel is
dit correct. Inhoudelijke structuren worden vastgelegd in triples en worden zo
gepubliceerd op het semantisch web. Maar hier dient wel vermeld te worden dat juist
het semantisch web afhankelijk is van deze structuur. Critici beamen dit ook door te
stellen dat het semantisch web staat of valt bij de kwaliteit van de (inhoudelijke)
beschrijving. In hoofdstuk 3 (§3.3) wordt dieper op deze materie ingegaan. Verder
wordt er door de voorstanders gesuggereerd dat er niet direct een gestandaardiseerd
formaat nodig is om data op het semantisch web te brengen. Dit is technisch gezien
zeker waar, maar is op inhoudelijke gronden niet te billijken. Critici merken op dat de
hoeveelheid (geconverteerde) informatie naar het semantisch web wel beheersbaar
moet zijn. Daarnaast wordt het delen van erfgoedinformatie bemoeilijkt door de
verschillende afspraken die in de erfgoedsector gemaakt zijn. Mijn inziens dienen er
binnen de erfgoedsector afspraken gemaakt te worden over enige vorm van
onderlinge standaardisatie. Een gemeenschappelijk metadatamodel is in ieder geval
een stap in de goede richting. Het voordeel hiervan is ook dat de gebruiker op één en
dezelfde manier benaderd wordt. Grootschalige menselijke inbreng bij de inhoudelijke
invulling van het semantisch web kan op deze punten uitkomst bieden. In hoofdstuk 3
(§3.2) wordt er nader ingegaan in hoeverre standaardisatie binnen de erfgoedsector
nodig zal zijn. Tot slot nog een opmerking over de „retrieval‟ via een „semantisch‟
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 23
zoekmachine. Er zijn hier nog kanttekeningen bij te plaatsen, de bestaande
zoekmachines zijn niet optimaal.
2.8 Conclusie
Het semantisch web is een technologie om datastructuren te publiceren op het web,
waardoor betekenisvolle relaties kunnen ontstaan tussen concepten die uit
verschillende erfgoedbronnen (uit metadataschema‟s en terminologiebronnen)
afkomstig zijn. Een metadataschema van elke willekeurige erfgoedinstelling kan
zonder verlies van inhoudelijke beschrijvingen op het semantisch web geplaatst
worden. De inhoudelijke relaties binnen het schema gaan niet verloren, maar worden
juist verrijkt door de informatie uit andere erfgoedbronnen. Dit is realiseerbaar door
het feit dat de structuur van het metadataschema in triples wordt vastgelegd. De
techniek achter het semantisch web zorgt dat deze inhoudelijke structuur behouden
blijft en verrijkt wordt door erfgoedbronnen met elkaar te verbinden. Dit alles draagt
bij aan de toegankelijkheid van erfgoedcollecties. Hierbij hoeven erfgoedinstellingen
niet af te wijken van hun dagelijkse werkzaamheden of praktijk.
Toch zijn er hier en daar (volgens critici) kanttekeningen te plaatsen bij de
implementatie van erfgoedinformatie op het semantisch web. Op het punt van het
ophalen van informatie (retrieval) via een „semantische‟ zoekmachine valt er nog een
hoop te verbeteren. De automatisch gegeneerde en verkregen zoekresultaten leveren
teveel ruis op. Er dient daarom gepleit te worden voor grootschalige menselijke
inbreng bij de inhoudelijke invulling van het semantisch web. Hieruit blijkt dat
kwaliteit van de beschrijving ook bij het semantisch web wel degelijk van belang is. De
angst bestaat dat het semantisch web een zoektraject gaat uitstippelen doordat
verschillende erfgoedbronnen met elkaar verbonden worden die wellicht voor de
gebruiker niet interessant (genoeg) zullen zijn. Kortom, de gebruiker en/of
onderzoeker worden buitenspel gezet. In hoofdstuk 6 wordt er uitgebreid stilgestaan
bij de vraag hoe de gebruiker naar informatie zoekt en of deze bewering al dan niet
terecht is.
Tot slot is er nog een algemene opmerking te plaatsen als het gaat om het converteren
van erfgoedinformatie naar het semantisch web. Er kan binnen de erfgoedsector
alleen gewerkt worden met het semantisch web als er enige vorm van standaardisatie
onderling is afgesproken. Dit alles om de beheersbaarheid van de (geconverteerde)
informatie te kunnen garanderen. Daarnaast maken verschillende afspraken die er in
de erfgoedsector gemaakt zijn het vaak onmogelijk om cultureel erfgoed te delen. In
hoofdstuk 3 wordt er uitgebreid stilgestaan bij het vraagstuk over standaardisatie in
relatie tot het semantisch web. Enige vorm van standaardisatie is naar mijn mening
noodzakelijk als men erfgoedinformatie op het semantisch web zinvol wil kunnen
gebruiken.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 24
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 25
3 Standaardisatie en semantisch web
In dit hoofdstuk wordt er besproken hoe standaardisatie binnen de erfgoedsector zich
verhoudt met het semantisch web. Zoals in het vorige hoofdstuk al te sprake kwam is
enige vorm van standaardisatie nodig om (geconverteerde) informatie beheersbaar te
houden. Er wordt hier ingegaan op de toegankelijkheid van erfgoedcollecties, welke
rol standaardisatie in dit alles speelt en hoe dit zich verhoudt met het semantisch web.
3.1 Toegankelijkheid
In de loop van tijd is de gebruiker in de erfgoedsector steeds meer centraal komen te
staan. Hier liggen een aantal oorzaken aan ten grondslag, die niet allemaal stuk voor
stuk behandeld zullen worden, maar men kan stellen dat twee oorzaken hier de
boventoon voeren. De eerste oorzaak ligt besloten in het gegeven dat er een
verschuiving heeft plaatsgevonden van collectie naar klant en/of gebruiker, mede
geïnsisteerd door de Rijksoverheid. Men is dus klantgerichter gaan werken, waardoor
het noodzakelijk werd dat erfgoedinstellingen hun diensten meer naar de wensen van
de gebruiker moesten inrichten dan ze in het verleden deden. Er ontstaat hierdoor een
totaal andere benadering op welke manier collecties toegankelijk worden gemaakt, hoe
er binnen een organisatie gewerkt wordt, en hoe er met gebruikers wordt omgegaan.
De tweede oorzaak heeft te maken met het digitaliseringproces van de afgelopen twee
decennia. Tegenwoordig vormt de digitalisering van erfgoedcollecties een van de
kerntaken van erfgoedinstellingen. (Wyns, 2009). Met de komst van het internet is het
digitaal uitwisselen, publiceren en consumeren van informatie gemeengoed geworden
en zijn sociale netwerken niet meer weg te denken uit onze informatiemaatschappij.
Nieuwe informatietechnologieën zorgen voor groeiende kwantiteit aan informatie.
Informatie die door middel van gegevensbanken voor een groter publiek op het web
beschikbaar wordt gesteld. Met als gevolg dat erfgoedinstellingen in de loop van tijd
ook nog eens te maken hebben gekregen met anonieme gebruikers. De bezoekers van
deze instellingen zijn niet meer direct te vinden binnen de muren van de organisatie,
waardoor het lastig is om te bepalen wie de bezoekers nou eigenlijk zijn en wat ze
willen.
In een digitale wereld zoals wij die vandaag de dag kennen groeien organisaties naar
elkaar toe. Organisaties gebruiken internet en netwerktechnologieën om bepaalde
werkzaamheden elektronisch uit te voeren, en om zowel intern als extern informatie
uit te wisselen. Dit noemt men digitale integratie. Hierdoor worden organisaties
afhankelijker van elkaar, en zijn ze genoodzaakt om samen te werken. Dat geldt voor
erfgoedinstellingen eigenlijk precies hetzelfde. Je kunt je het als archiefinstelling
tegenwoordig niet meer permitteren om gewoon op dezelfde voet verder te gaan met
het beschikbaar stellen van materiaal binnen de eigen omgeving. Als men dit blijft
doen wordt mogelijkheid tot digitale integratie alleen maar beperkter in de toekomst.
Een erfgoedinstelling dient over haar muren heen te kijken, wil men voorkomen dat
men zichzelf buiten de markt plaatst. De neuzen dienen dus binnen de erfgoedsector
dezelfde kant op te staan, wil men digitale integratie mogelijk maken. En hier ligt gelijk
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 26
het daadwerkelijke probleem. De verschillende sectoren binnen de erfgoedsector
(archieven, bibliotheken, musea) kennen ieder een eigen organisatiestructuur en
culturele geschiedenis. Men zou in dit verband kunnen spreken over unieke
brancheculturen. Elke erfgoedinstelling kent op zijn beurt weer een unieke
organisatiecultuur. Dit betekent overigens niet dat deze organisatieculturen opgegeven
hoeven te worden. Wel is het belangrijk dat er op het punt van standaardisatie enige
consensus bestaat.
Het verdere vraagstuk over organisatorische veranderingen en welke problemen dit
met zich mee kan brengen zal ik vanwege haar complexiteit in deze rapportage buiten
beschouwing laten. Wel is het interessant, zo niet noodzakelijk om te kijken of het
standaardiseren van archief- en andere erfgoedinformatie de toegankelijkheid in een
digitale omgeving ten goede zal komen. Aan de hand van toegankelijkheidsvraagstuk
vanuit het archiefwezen zal er in §3.2 en §3.3 bestudeerd worden in welke mate
verdere standaardisatie in de erfgoedsector nodig is. Tevens wordt er gekeken hoe
standaardisatie zich verhoudt met het semantisch web.
3.2 Standaardisatie en erfgoedsector
Het vraagstuk van toegankelijkheid in de archiefsector is niet van heden ten dage. Al
sinds het verschijnen van de Handleiding van Muller, Feith en Fruin (1898) wordt er
aandacht besteed aan toegankelijke status van een archief en in welke staat deze dient
te verkeren bij overdracht. De toegankelijkheid van archiefbescheiden dient zo goed
mogelijk te zijn willen onderzoekers of andere belanghebbenden deze kunnen
raadplegen. In de archiefsector spreekt men echter niet direct over toegankelijkheid,
maar over de „toegankelijke staat‟. Dit begrip wordt volgens Archiefterminologie
(Teuling, 2003) als volgt gedefinieerd: ‘toestand van een archief, archiefafdeling of
archiefbestanddeel, waarin de archiefbescheiden en de gegevens in de archiefbescheiden binnen redelijke
tijd gevonden en raadpleegbaar gemaakt kunnen worden’. Naast deze definitie kent het begrip
toegankelijkheid een archiefwettelijke context. In artikel 3 van de Archiefwet (1995)
wordt er gesproken over de verplichting van overheidsorganen om hun
archiefbescheiden in goede, geordende en toegankelijke staat te brengen en te
bewaren. De wet spreekt echter niet over wat er precies onder het begrip
„toegankelijke staat‟ verstaan dient te worden. De kern van toegankelijkheid is volgens
Karsch en Keuning (2007) de intellectuele toegang tot archiefmaterialen.
Karsch en Keuning (2007) stellen verder vast dat zowel in een analoge of digitale
omgeving de toegankelijkheid van archieven staat of valt bij een begrijpelijke structuur
van de bron zelf en de omgeving van die bron. De begrijpelijke structuur is met de
komst van het web gefragmenteerd geraakt door het grootschalig aanbod van
heterogene informatie, en ook archiefinstellingen hebben een informatieaanbod wat
hier onderdeel van uitmaakt. Om de begrijpelijke structuur van archieven te
behouden, en zo toegankelijkheid te waarborgen, is het noodzakelijk geworden om te
standaardiseren. Het standaardiseren van archiefinformatie kan geschieden met behulp
van datastructuurstandaarden, zoals Encoded Archival Description1 (EAD) en
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 27
Encoded Archival Context2 (EAC). In de praktijk maakt men overigens op dit
moment al veelvuldig gebruik van EAD. Alleen dan is het volgens Karsch en Keuning
(2007) mogelijk om tot uniforme (inhoudelijke) beschrijvingen te komen. Om de
communicatie tussen verschillende standaarden in de erfgoedsector te bewerkstelligen
worden er gebruik gemaakt van „mappings‟. Mappings zorgen ervoor dat
overeenkomstige elementen van verschillende beschrijvingsstandaarden met elkaar
verbonden worden. In hun onderzoek pleiten Karsch en Keuning (2007) dan ook
voor het standaardiseren binnen de archiefsector, als men het uitwisselen van archief-
en andere erfgoedinformatie en samenwerking op nationaal en internationaal niveau
mogelijk wil maken. Het dus belangrijk dat er binnen archieven, bibliotheken en
musea gewerkt wordt met dezelfde standaarden. Op deze wijze wordt de
communicatie tussen deze drie verschillende sectoren vergemakkelijkt, waardoor het
mogelijk wordt om zowel archief als andere erfgoedinformatie uit te wisselen. Ook
Horsman (2010) pleit voor een gestandaardiseerd metadataschema per sector.
Van Bussel (2010) gaat nog een stapje verder en stelt: „als je de gebruiker overal op
dezelfde manier wilt benaderen, betekent dat ook dat je overal dezelfde standaarden
moet gebruiken voor die beschrijvingen‟ (interview). Kortom, een pleidooi voor één
beschrijvingsstandaard. Dit betekent volgens Van Bussel (2010) overigens niet dat de
beschrijvingen hetzelfde moeten zijn, maar wel dat de beschrijvingen moeten voldoen
aan hetzelfde model. Dit heeft twee voordelen. Ten eerste wordt de
gebruiksvriendelijkheid verbeterd. De gebruiker hoeft bij de presentatie van het
materiaal niet steeds weer opnieuw te wennen aan de manier waarop het materiaal
toegankelijk is gemaakt. Ten tweede biedt het gebruik van één technische standaard
voor het vastleggen van de beschrijving (bijvoorbeeld XML of RDF schema) de
mogelijkheid aan om de menselijke inbreng (wellicht) terug te brengen. Men kan dan
bij het gebruik van XML gemakkelijker links aanbrengen tussen verschillende
beschrijvingen, ook de beschrijvingen die op een andere plek vervaardigd zijn.
Uit het voorafgaande blijkt dat één technische standaard voor het vastleggen van
beschrijvingen en één gemeenschappelijk metadatamodel in de erfgoedsector gewenst
zijn, wanneer men de gebruiker naar dezelfde informatie toe wil verwijzen. Diverse
erfgoedobjecten kunnen ook over een bepaalde overeenkomstigheid beschikken of
hebben direct een onderling verband met elkaar. Hierbij maakt het de gebruiker
overigens niets uit, uit welke bron de informatie komt. Het uniformeren van
beschrijvingsstandaarden vergt volgens Van Bussel (2010) serieus overleg tussen de
verschillende sectoren, om concrete stappen te kunnen nemen. Er zal binnen de
sector zelf gewerkt moeten worden met geüniformeerde beschrijvingsstandaarden, en
vervolgens dient men deze op een adequate manier met elkaar te vergelijken. Welke
beschrijvingselementen zijn specifiek uniek, welke elementen kunnen we in
overeenstemming brengen en hoe bouwen we een model waar we de drie
beschrijvingsstandaarden kunnen verenigen?
Naast de toepassing van de hierboven besproken werkwijze kan men er ook voor
kiezen om een aantal unieke (overeenkomstige) beschrijvingselementen met elkaar te
verbinden. Deze werkwijze ligt volgens Van Bussel (2010) waarschijnlijk het dichtst bij
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 28
de werkelijkheid. Hij vindt dat men uiteindelijk moet streven naar het gebruik van
hetzelfde XML schema met een aantal variëteiten, waardoor de communicatie
onderling vergemakkelijkt wordt.
3.3 Standaardisatie en semantisch web
De techniek achter het semantisch web vormt niet echt een probleem als men archief-
en andere erfgoedinformatie wil publiceren op het web. Heeft het semantisch web als
techniek dan niet te maken met enige vorm van standaardisatie? Ja, op technisch
niveau. Triples dienen te worden gepubliceerd in een algemeen geaccepteerd formaat.
Zoals gezegd is RDF standaardformaat om triples in vast te kunnen leggen. Er zijn
andere standaarden voorhanden, maar aangezien RDF als opslagmodel binnen de
erfgoedsector tegenwoordig als gemeengoed beschouwd wordt (zie projectbanken
Digitaal Erfgoed Nederland3 (DEN)), kan men op dit moment spreken over een vaste
standaard. RDF is volgens Guns (2010) als model zodanig breed, flexibel en
uitbreidbaar dat verschillende modellen, standaarden of manieren van denken binnen
de erfgoedsector vrij gemakkelijk te vertalen zijn naar de RDF standaard. En vanuit
hier zou men gelijk een aansluitende vraag kunnen stellen: Is er enige vorm van
standaardisering nodig om de toegankelijkheid van verschillende erfgoedcollecties op
het semantisch web te realiseren? Zandhuis (2010) vindt standaardiseren binnen de
erfgoedsector essentieel, als het gaat om de omschrijving van de syntax (de structuur
en vorm van informatie). Men dient het technisch allemaal op dezelfde manier te
beschrijven. Dat wordt gerealiseerd door RDF. Daarnaast is het van belang dat er een
standaard metadataschema/model (zoals EAD/EAC) gebruikt wordt, anders is het
niet mogelijk om materiaal met elkaar te verbinden. De computer kan namelijk pas
redeneren wanneer er structuur is aangereikt, zodat de computer (de door mensen
aangegeven) structuur in het materiaal kan vinden. Een deel van het materiaal dient
dus in ieder geval gestructureerd ontsloten te zijn, dan pas kan de computer
redeneren.
Encoded Archival Description (EAD) is een XML coderingsstandaard. De
standaard is ontwikkeld om archiefbeschrijvingen te maken, op te slaan, te
publiceren, te koppelen en uit te wisselen. Het is mogelijk om een EAD
metadataschema (bestand) direct op het semantisch web te publiceren. Er dienen dan
triples aangemaakt te worden.
Encoded Archival Context (EAC) kan (wellicht) bijdragen om toegankelijkheid van
verschillende erfgoedcollecties te verbeteren. Maar welke rol speelt EAC als het gaat
om het semantisch web? Zandhuis (2010) is hier heel duidelijk over: „EAC heeft niets
met het semantisch web te maken‟ (interview). Het zijn volgens hem twee losse
ontwikkelingen. Archiefdiensten realiseren zich dat ze contextinformatie moeten
normaliseren. Ze halen de context eruit en maken het op één plek toegankelijk. Het is
een beweging die volgens hem zorgt dat de inhoudelijke ontsluiting van materiaal
verbeterd wordt, ongeacht of dit wel of niet met semantische webtechnologie
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 29
gebeurd. EAC ligt namelijk veel dichter bij de organisatie dan het semantisch web.
Zandhuis (2010) zegt wel dat als een specifieke datastructuur (zoals EAC) eenmaal
wordt toegepast, dat het semantisch web daar „blij‟ van wordt.
Hildebrand (2010) vindt dat men standaardisering in dit verband tweeledig kunt
opvatten. Men kan het zien als een soort keurslijf waarin alle beschrijvingen in dienen
te passen of je kunt het zien als een gemeenschappelijke deler, wanneer er wordt
gekeken naar bepaalde overeenkomsten. Als voorbeeld in dit verband draagt Hilbrand
(2010) het gebruik van SKOS aan. In hoofdstuk 2 kwam het datamodel SKOS al ter
sprake. SKOS zorgt ervoor dat terminologiebronnen met elkaar verbonden kunnen
worden. Dat wil niet zeggen dat men deze bronnen via de structuur van SKOS zelf
dient te publiceren. SKOS kent maar een beperkt aantal (hiërarchische/associatieve)
relaties. Een ontologie als Word Net 4 heeft bijvoorbeeld veel rijke relaties. Het
beschikt over hele specifieke (hiërarchische) relaties. Het is daarom verstandig de
relaties enkel te verbinden met een SKOS predicaat (<skos: same as>), om zo
waardvolle relaties uit andere terminologiebronnen te behouden. Concluderend stelt
Hildebrand (2010) vast dat standaardisering voor het semantisch web in zekere mate
nodig is, maar het is wel raadzaam om niet vanuit een bepaald keurslijf te gaan werken.
Guns (2010) ziet de noodzaak van standaardisatie vooral terug in het toepassen van
gecontroleerde woordschatten (terminologiebronnen). Men stapt af van het gebruik
van natuurlijke taal, en de mogelijke problemen die hieruit kunnen voortkomen. En
men stapt over naar het gebruik van concepten. Het voordeel hiervan is dat
semantische problemen worden vermeden en verwarring doet voorkomen
(synoniemen, homoniemen), wat ook bijdraagt aan de verbetering van
zoekmogelijkheden. Met behulp van thesauri is het bijvoorbeeld mogelijk om bij
bepaalde concepten (hiërarchische) relaties aan te leggen, en verwantschap aan te
tonen. Wanneer je de relaties in concepten wil uitdrukken om de mogelijkheid tot
verwarring (ambiguïteit) te voorkomen, dan is er volgens Guns (2010) altijd een vorm
van standaardisatie nodig.
3.4 Conclusie
Standaardisatie in de erfgoedsector is nodig om toegankelijkheid van verschillende
erfgoedcollecties (in een digitale omgeving) te kunnen garanderen. Dit houdt in dat er
binnen archieven, bibliotheken of musea gewerkt dient te worden met dezelfde
standaarden. Op deze wijze wordt de communicatie tussen de verschillende sectoren
vergemakkelijkt, waardoor het mogelijk wordt om zowel archief- als andere
erfgoedinformatie uit te wisselen. Nog beter zou zijn om vanuit één
gemeenschappelijk metadatamodel te werken. De gebruiker wordt zo overal op
dezelfde manier benaderd. Er dienen in dit verband serieuze afspraken gemaakt te
worden om tot een gemeenschappelijk model te komen.
Standaardisatie is ook wanneer men archief- en andere erfgoedinformatie op het
semantisch web wil publiceren wel zeker van belang, aangezien een computer
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 30
structuur nodig heeft om te kunnen redeneren. Het is van belang dat er een standaard
(gemeenschappelijk) metadatamodel gebruikt wordt, anders is het niet mogelijk om
materiaal met elkaar te verbinden. De computer kan namelijk pas redeneren wanneer
er structuur is aangereikt, zodat de computer (de door mensen aangegeven) structuur
in het materiaal (terug) kan vinden. Naast dat de aangereikte structuur is vastgelegd in
een standaard (gemeenschappelijk) metadatamodel kan deze ook afkomstig zijn uit
terminologiebronnen. In de erfgoedsector worden verschillende (standaard)
terminologiebronnen gebruikt. Het semantisch web biedt technische mogelijkheden
om deze met elkaar te verbinden, zodat waardevolle relaties behouden blijven. Enige
vorm van standaardisatie is dus gewenst wil men op inhoudelijk niveau betekenisvolle
relaties leggen tussen verschillende erfgoedbronnen.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 31
4 Geschiedenisvanzuidholland.nl
In dit hoofdstuk wordt nader ingegaan op het doel en de functie van de website
www.geschiedenisvanzuidholland.nl. Verder worden de zoekfunctie en techniek
(ontsluitingsstandaarden) van de website voor het voetlicht gebracht, en de manier
waarop erfgoedinformatie toegankelijk wordt gemaakt.
4.1 Doelstelling
Geschiedenisvanzuidholland.nl kent een heldere doelstelling, namelijk: „de website
heeft tot doel de geschiedenis van Zuid-Holland en de daarmee verbonden (…)
collecties onder de aandacht te brengen van een breed publiek‟ (Erfgoedhuis Zuid-
Holland, 2007, p. 1). De website is het resultaat van een samenwerking tussen het
Nationaal Archief, de Kring van Zuid-Hollandse Archivarissen en het Erfgoedhuis
Zuid-Holland. Aanvankelijk werden vooral de Zuid-Hollandse archiefcollecties onder
de aandacht gebracht, maar inmiddels wordt ook nadrukkelijk samenwerking gezocht
met musea, historische verenigingen en (Historische Informatiepunten in)
bibliotheken. Op de website worden verhalen, foto‟s, afbeeldingen van archiefstukken
en museale objecten gepubliceerd, om zo inzicht te geven in de geschiedenis van
Zuid-Holland. Op het gebied van cultureel erfgoed worden er in de provincie vele
activiteiten ondernomen, en dit wordt op de site weergeven door een nieuws- en
activiteitenoverzicht (agenda). Tevens toont de site verwijzingen (links) naar websites
over genealogie en stamboomonderzoek, en andere „historische‟ websites.
Daarnaast beschikt de website over een zoekmachine die het mogelijk maakt om de
collecties van deelnemende erfgoedinstellingen te doorzoeken. Het voordeel hiervan is
dat er meerdere collecties tegelijk kunnen worden gezocht. De website is sinds de
lancering in 2007 al ruim 250.000 keer bezocht. (Erfgoedhuis Zuid-Holland, 2007) De
deelnemende partners van de website hebben de ambitie om het herhalingsbezoek te
verhogen en de site een begrip te laten worden voor mensen die geïnteresseerd zijn in
de lokale en regionale geschiedenis van de provincie. Het Provinciaal Historisch
Centrum van het Erfgoedhuis Zuid-Holland beheert de website. Zij genereert nieuwe
content voor de site en zet in op samenwerking met de Zuid-Hollandse
erfgoedinstellingen.
4.2 Functie
De bezoekers van de website kunnen meer te weten komen over de geschiedenis van
Zuid-Holland door de verhalen te lezen die per tijdvak (“wanneer”), plaats (“waar”) en
thema (“wat”) aangeboden worden. Het tijdvak 1000-1500 (Steden en staten) is hier
een voorbeeld van. Er wordt in het kort een beeld geschetst over dit tijdvak en
verwezen naar gebeurtenissen die zich in de provincie Zuid-Holland in die tijd
afspeelden. Met de komst van het christendom in de provincie werden er vele kerken,
kapellen en kloosters gesticht en beheerst. Dit is een relevante gebeurtenis en is als
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 32
zodanig in vorm van een verhaal opgenomen in dit tijdvak. Het interessante van deze
verhalende content is dat het is verbonden met archiefstukken en/of collecties van de
deelnemende erfgoedinstellingen, zoals een akte van de paus ter bescherming van de
Abdij Rijnsburg uit 1179. Het verhaal wordt dus gekoppeld aan een beschrijving van
een „tastbaar‟ object (cultureel erfgoed). Daarnaast wordt er verwezen naar de
geschiedenis van de plaatsen (geografische locaties) Dordrecht, Leiden, Delft,
Vlaardingen en Oegstgeest die een belangrijke rol hebben gespeeld bij die specifieke
gebeurtenis in de geschiedenis van de provincie Zuid-Holland.
Zoals gezegd biedt de website naast verhalende content ook een zoekfunctie om door
verschillende archieven en/of collecties van deelnemende erfgoedinstellingen heen te
zoeken. In het kader hieronder worden de 38 erfgoedinstellingen weergegeven
waarvan de collectie te doorzoeken is en/of verhalende content hebben geleverd.
Het aantal verwijzingen naar de erfgoedbronnen verschilt per erfgoedinstelling. Zo
kent het Nationaal Archief 609270, Erfgoed Delft 50320, het Hoogheemraadschap
van Rijnland 36127 en het Stadsarchief Vlaardingen 4959 bronnen.
Nationaal Archief
Haags Gemeentearchief
Gemeentearchief Rotterdam
Erfgoedcentrum DiEP
Streekarchief Voorne-Putten en Rozenburg
Regionaal Archief Leiden
Hoogheemraadschap van Delfland
Erfgoed Delft
Hoogheemraadschap van Rijnland
Hoogheemraadschap van Schieland en de Krimpenerwaard
Gemeentearchief Schiedam
Groene Hart Archieven
Gemeente Wassenaar
Stadsarchief Vlaardingen
Zuid-Hollandse musea
Streekarchief Goeree-Overflakkee
Belasting en Douane Museum
Gemeentearchief Oegstgeest
Koninklijk Oudheidkundig Genootschap / Rijksmuseum
Gemeentearchief Leidschendam-Voorburg
Gemeentearchief Zoetermeer
Historisch Archief Westland
Archief Gemeente Boskoop
Huygensmuseum Hofwijck
Koninklijk Huisarchief
Regionaal Archief Gorinchem
Technische Universiteit Delft
Archief gemeente Hillegom
Gemeente Oud-Beijerland
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 33
Gemeentearchief Voorschoten
Historische Vereniging Ameide en Tienhoven
Historische Vereniging Nieuwerkerk aan den IJssel
Kasteel Duivenvoorde, Voorschoten
Koninklijke Bibliotheek, Den Haag
Museum Rijswijk
Museum Simon van Gijn, Dordrecht
Stedelijk Museum De Lakenhal, Leiden
museumgoudA
Deelnemende erfgoedinstellingen website www.geschiedenisvanzuidholland.nl
4.3 Zoekfunctie en techniek (ontsluitingsstandaarden)
Het doel van de zoekfunctie is het op laagdrempelige wijze toegankelijk maken van de
Zuid-Hollandse erfgoedcollecties. Als er via de website gezocht wordt krijgt de
gebruiker een korte omschrijving van het zoekresultaat. Klikt men verder dan belandt
men in de achterliggende inventaris van de gevonden bron. Dit kunnen specifieke
archiefstukken zijn, zoals stukken betreffende de planning van de te geven vakken bij
de Kweekschool van Rotterdam, maar ook het complete inventaris van een
schaakbond. In het kader van de toegankelijkheid richting de gebruiker wordt er
getracht zoveel mogelijk relevante informatie te tonen. Dit is niet altijd gemakkelijk,
omdat de informatie uit verschillende bronnen (deelnemende erfgoedinstellingen)
komt, die ook qua opbouw van elkaar verschillen.
De reden waarom er zoveel informatie tegelijk (na een zoekactie) bij elkaar komt is
omdat de organisatie achter de website tracht alle collecties tegelijk doorzoekbaar te
maken. Het voordeel hiervan is dat de vangst na een zoekactie ruim voldoende
zoekresultaten oplevert. Het aantal zinvolle zoekresultaten na een zoekactie (precisie)
is wisselend. Dit is afhankelijk van de gebruikte zoekterm(en). Er is uiteraard een
duidelijk verschil aan te tonen in zoekresultaten wanneer men de zoekterm Rotterdam
(459620 resultaten) of waterlinie (81 resultaten) gebruikt. Gelukkig zijn er opties
aanwezig om het zoekresultaat zowel voor- als achteraf op type (archiefstuk, beeld,
museum collectie etc.) als op bronnen (deelnemende erfgoedinstellingen) te filteren,
waardoor het zoekresultaat geoptimaliseerd kan worden. Daarnaast is het mogelijk om
zowel voor- als achteraf een periode van jaren (datering) in te vullen.
De informatie van de deelnemende erfgoedinstellingen wordt op verschillende
manieren aangeleverd. Een deel van de collecties wordt als XML geëxporteerd door
de softwareleveranciers van de desbetreffende instellingen en kunnen op deze manier
geharvest worden, via een Open Archives Initiative Protocol1 (OAI) harvester. De
gevonden erfgoedinformatie wordt geïndexeerd en toegevoegd aan de zoekfunctie van
de website. Elke nacht wordt er dan een nieuwe index gedraaid. Een aantal collecties
(project Zuid-Hollandse collecties digitaal) worden direct door de archiefinstellingen
geupload en op de website geplaatst via een zogeheten „updexer‟, die het mogelijk
maakt om XML direct op de website te publiceren zonder tussenkomst van
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 34
softwareleveranciers. Deze zijn toegankelijk gemaakt via EAD. De updexer is in 2008
ontwikkeld in opdracht van het Erfgoedhuis Zuid-Holland. De volgende deelnemende
erfgoedinstellingen maken hier gebruik van, namelijk: Stadsarchief Vlaardingen,
Gemeente Schiedam, Nationaal Archief en Erfgoed Delft.
Het technische aspect van de website wordt verzorgd door een internetbureau (Q42).
Er vindt afstemming plaatst met Q42 als het gaat om indexering en presentatie van de
collecties. Hieronder is een overzicht te vinden van de gebruikte
ontsluitingsstandaarden voor de website. Het is hierbij zinvol om een onderscheid te
maken tussen het ontsluiten aan de hand van theoretische (conceptuele) standaarden
en standaarden die geschikt zijn voor digitale implementatie. Theoretische
(conceptuele) standaarden worden gebruikt wanneer erfgoedinformatie op analoge
wijze ontsloten dient te worden en later nog (eventueel) digitaal geconverteerd kan
worden. Standaarden voor digitale implementatie zijn al geschikt om
erfgoedinformatie direct digitaal te ontsluiten of beschikbaar te stellen.
Archieven Museale collecties Beeld-
materiaal
Gezamenlijk
Conceptuele
standaarden
Klassiek
inventaris
ISAD(G)2
ISAAR (CPF)3
Spectrum4
(richtlijn)
Standaarden
voor digitale
implementatie
EAD (project
Zuid-Hollandse
collecties digitaal)
MusIP5 (richtlijn)
Adlib Museum
(collectieregistratie-
systeem musea)
OAI
(harvester)
Overzicht van gebruikte standaarden voor de website www.geschiedenisvanzuidholland.nl.
Op de website worden voornamelijk archieven gepresenteerd, maar ook museale
collecties via een verbinding met de database MUSIP (Museum Inventarisatie Project).
MUSIP is toegevoegd aan de zoekfunctie van de website. Er kan echter alleen maar in
deelcollecties worden gezocht omdat deze database niet op objectniveau is ontsloten.
Tevens wordt musea aangeraden de (niet verplichte) aanbevelingen van Spectrum te
volgen. Alle processen over het handelen van een museum worden dan door middel
van collectiemanagement vastgelegd. Verder zijn er al een groot aantal beeldbanken
doorzoekbaar via website. In het najaar van 2010 zal ook de archeologische collectie
van de Provincie Zuid-Holland als bron doorzoekbaar worden gemaakt.
4.4 Conclusie
In dit hoofdstuk zijn het doel en de functie van de website
www.geschiedenisvanzuidholland.nl besproken, en zijn de techniek en standaarden
vastgesteld die dit erfgoedportaal inzet om het materiaal van de deelnemende
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 35
erfgoedinstellingen te ontsluiten. De website beschikt over verhalende content die per
tijdvak (“wanneer”), plaats (“waar”) en thema (“wat”) aan de bezoeker gepresenteerd
wordt. Het verhaal is gekoppeld aan specifieke archiefstukken en/of collecties, zodat
de context van de gevonden erfgoedbronnen in tijd, ruimte en plaats gedefinieerd
worden. Daarnaast wordt de zoekfunctie van de website gebruikt om de Zuid-
Hollandse erfgoedcollecties gelijk doorzoekbaar te maken en op zo laagdrempelige
manier beschikbaar te stellen aan de doelgroep. Met als gevolg dat er veel informatie
tegelijk bij elkaar komt. Om het zoekresultaat te specificeren is het mogelijk om zowel
voor- als achteraf het zoekresultaat op type, bronnen (deelnemende
erfgoedinstellingen) en datering te filteren. De context die wordt aangeboden is
beperkt, maar dient wel het doel om de collecties tegelijk doorzoekbaar te maken. Het
semantisch web zorgt ervoor dat er betekenisvolle relaties tussen concepten
(personen, plaatsen, gebeurtenissen, objecten) kunnen ontstaan, zodat de context van
de gevonden erfgoedbronnen verrijkt kan worden. In hoofdstuk 6 wordt er gekeken
hoe gebruikers die geïnteresseerd zijn in het verleden of cultureel erfgoed naar
informatie zoeken op een erfgoedwebsite, of zij de context al dan niet belangrijk
vinden bij hun zoektocht en in hoeverre het semantisch web kan bijdragen aan de
(inhoudelijke) verrijking van de context bij een zoekactie.
Daarnaast is het interessant om te bestuderen of de toepassing van het semantisch
web überhaupt zinvol of mogelijk is. In hoofdstuk 7 wordt er op dit aspect nader
ingegaan. De toepassing van het semantisch web staat nog in haar kinderschoenen.
Wel zijn er praktijkvoorbeelden te noemen die zich bezig houden met semantische
webtechnologie. In hoofdstuk 5 (zie §5.1) wordt het project Erfgoedplus.be tegen het
licht gehouden. Zij maken reeds gebruik van semantische webtechnologie. Dit
betekent dat Erfgoedplus.be ontsluitingsstandaarden inzet die voor het semantisch
web geschikt zijn en tevens gebruik maakt van instrumenten om haar data te verrijken.
De standaarden die op dit moment bij de website www.geschiedenisvanzuidholland.nl
gebruikt worden bieden echter onvoldoende mogelijkheden om semantische
webtechnologie toe te passen. Toch is het interessant om te kijken naar de
ontwikkelingen en mogelijkheden op dit gebied, aangezien de website praktisch
dezelfde doelen nastreeft als Erfgoedplus.be. De website Erfgoedplus.be tracht
namelijk ook een breed publiek te bereiken door op een laagdrempelige manier
erfgoedcollecties beschikbaar te stellen.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 36
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 37
5 Ontsluitingsprojecten
Er lopen anno 2010 een aantal interessante projecten als het gaat om de toepassing
van semantische webtechnologie in de erfgoedsector. Bij sommige projecten staat de
toepassing centraal (hetzij in de testfase), bij andere projecten gaat het meer om het
uitwisselen en delen van kennis. In het kader van dit onderzoek is er gekeken naar
welke projecten het beste aansloten bij de ontwikkeling en mogelijkheden van het
semantisch web en wat dit kan betekenen voor een webportal. Uiteindelijk spraken
een viertal projecten het meest tot de verbeelding. Europeana tracht haar digitale
content semantisch te verrijken via een zoekrobot en heeft een semantische search
engine ontwikkeld om archief- en andere erfgoedinformatie gezamenlijk in één
gezamenlijke context te presenteren. Het CHIP project heeft als doel de
toegankelijkheid van digitale collecties van het Rijksmuseum te verbeteren door het
inzetten van semantische en interactieve webtechnologieën. Agrippa wil op termijn
naast bibliografische ook archivistische collecties presenteren. Erfgoedplus.be sluit het
beste aan bij de doelen van de website www.geschiedenisvanzuidholland.nl en biedt
interessante mogelijkheden en uitdagingen op het gebied van toegankelijkheid. Beide
webportals trachten ook de collecties van lokale en regionale erfgoedinstellingen op
het web te publiceren. In dit hoofdstuk worden de vier projecten besproken.
5.1 Analyse Erfgoedplus.be
5.1.1 Doelgroep
Erfgoedplus.be is voor een ruim publiek toegankelijk. Toch geeft Erfgoedplus.be een
indicatie welk publiek zij probeert te bereiken. Zij richt zich op een vijftal groepen, te
weten:
de erfgoedsector
toeristische diensten en gidsen
leerkrachten, studenten, scholieren
wetenschappers, professoren, studenten (wetenschappelijk onderzoek)
individuele geïnteresseerden
5.1.2 Verleden, heden, toekomst
Erfgoedplus.be is initiatief van de provincie Limburg (België) en is bedoeld voor
iedereen die geïnteresseerd is in of op zoek is naar (informatie over) lokaal en
regionaal cultureel erfgoed. De provincies Limburg, Vlaams-Brabant en de stad
Leuven in België werken samen met verschillende erfgoedinstellingen om het erfgoed
te bewaken en toegankelijk te maken voor een ruim publiek. De organisatie achter de
website stelt zich ten doel om het erfgoed van de deelnemende erfgoedinstellingen in
kaart te brengen. Hiervoor verbindt zij bestaande erfgoeddatabases met elkaar door
onderlinge relaties te leggen. Verder tracht zij een platform te zijn voor studie en
ontsluiting van erfgoed. Zowel erfgoedbeheerders, geïnteresseerden en publiek maken
onderdeel uit van het netwerk. Erfgoedplus.be gaat ervan uit dat kennis over erfgoed
bijdraagt aan de waardering hiervan. Kennis over erfgoed is verspreid. Daarom is het
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 38
van belang dat erfgoedcollecties worden samengebracht en op een systematische en
homogene manier worden aangeboden.
Bij aanvang van het project was de hoofddoelstelling om bestaande digitale
erfgoedinformatie in de provincie Limburg en Vlaams-Brabant te verzamelen.
Erfgoedinstellingen en andere collectiebeheerders dienden wel hun eigen
inventarisatiesysteem te blijven gebruiken. Op deze manier werd de aangeleverde
informatie hergebruikt voor ontsluiting. Dit heeft als bijkomend voordeel opgeleverd
dat collectiebeheerders hun inventaris goed dienen te onderhouden. Tevens wordt
hun informatie verrijkt doordat ze in verband gebracht worden met andere (verwante)
erfgoedbronnen. Er kwamen tijdens de opbouw van Erfgoedplus een aantal zaken aan
het licht. Wanneer inventarissen werden voorbereid voor conversie naar
Erfgoedplus.be stuitte men op het gebrek aan interne consistentie van de
inventarissen, waardoor conversie en publicatie van deze bemoeilijkt werd. Het is
zinvol dat collectiebeheerders de algemene kwaliteit van hun inventaris (niet specifiek
voor Erfgoedplus.be) verbeteren, om ervoor te zorgen dat de inhoudelijke
duurzaamheid van de gegevens versterkt wordt.
Daarom heeft de organisatie vanaf het begin gebruik gemaakt van een invoermodule
(erfgoedregister) die voldoet aan de gangbare museumstandaarden. Hierdoor kunnen
ook kleinere erfgoedinstellingen op een eenvoudige manier een kwaliteitsvolle
inventaris maken. In de loop van tijd is het erfgoedregister enorm populair geworden.
Er is geen conversie nodig, aangezien Erfgoedplus.be deze invoermodule zelf beheert.
De opgenomen informatie is tevens geschikt om naar Europeana te converteren. In
de toekomst wil het project naast museale erfgoedobjecten ook andere soorten
erfgoed beschrijven en ontsluiten. Het gaat hierom documentair erfgoed (bibliotheken
en archieven), onroerend erfgoed (monumenten, landschappen) en immaterieel
erfgoed. Dit brengt automatisch nieuwe uitdagingen en kansen met zich mee. Toch
ziet Erfgoedplus.be het aanpassen van de navigatie voor eindgebruikers als de grootste
uitdaging. Het is volgens Malliet (2010) „de bedoeling dat alle soorten erfgoed
naadloos in één kennislandschap gepresenteerd worden.‟ (interview).
Erfgoedplus.be wekt zowel op nationaal als internationaal niveau interesse. Twee
basiskenmerken liggen hieraan ten grondslag. Ten eerste maakt Erfgoedplus.be meer
gebruik van XML en RDF technologie dan andere soortgelijke websites. Ten tweede
zorgt Erfgoedplus.be ervoor dat ook kleine/lokale erfgoedinstellingen of verenigingen
hun collectie kunnen toevoegen en publiceren op het web. De drempel om de
collectie te presenteren wordt op deze manier aantrekkelijk gemaakt. Verder richt
Erfgoedplus.be zich op de mogelijkheid om in de toekomst via semantische
webtechnologie informatie uit verschillende systemen met elkaar te kunnen verbinden,
zo dat deze informatie uitgewisseld kan worden.
5.1.3 Techniek
Erfgoedplus.be werkt vanuit een conceptmodel. In dit model wordt een traject
weergegeven hoe inventarissen (erfgoedbronnen) via mapping worden geconverteerd
en gepubliceerd. De erfgoedbank (database) is gebaseerd op codetaal XML en
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 39
verzamelt bestaande erfgoedinformatie en herkent de relaties ertussen. Informatie van
de gehele erfgoedsector kan worden vastgelegd en de originele inventarissen blijven in
tact. Verder zorgen open standaarden als RDF ervoor dat erfgoedinformatie gedeeld
kan worden. De erfgoedbank bestaat uit een „Spil‟ database en een „Product‟ database.
Alle informatie wordt in de „Spil‟ verzameld. De „Spil‟ is een XML dataformaat, op
basis van Spectrum ontworpen. Het dataformaat zorgt ervoor dat informatie uit de
brongegevens op betrouwbare en uniforme wijze verzameld wordt. De „Product‟
database is gericht is op het navigeren, en wordt via conversie (van XML naar RDF)
van de „Spil‟ database afgeleid. Het navigeerbaar formaat (zoals de „Product‟ database
ook wel wordt genoemd) zorgt ervoor dat bijvoorbeeld het zoeken van tekst, het
leggen van relaties, grafische en geografische navigatie mogelijk wordt. De reden
waarom Erfgoedplus.be gekozen heeft voor de opsplitsing van de database is dat bij
aanpassing of toevoeging van informatie voor de ontsluiting, niet alle
conversieprocessen (van erfgoedbronnen) herzien hoeven te worden. Tevens kunnen
andere dataformaten (bijvoorbeeld van Europeana) afgeleid worden van de „Spil‟.
Erfgoedinformatie wordt via twee kanalen aangeleverd. De eerste weg houdt in dat
collectiebeheerders een XML export van hun inventaris op afgesproken tijdstippen en
afhankelijk van de activiteit van de desbetreffende inventaris afleveren. Vervolgens
wordt de inventaris geconverteerd naar het „Spil‟ formaat. Daarnaast vraagt
Erfgoedplus.be aan beheerders of zij een mappingtabel kunnen aanleveren om eigen
trefwoorden en termen uit de AAT-Ned1 thesaurus te koppelen, mochten er
trefwoorden ontbreken. Een tweede mogelijkheid om erfgoedinformatie aan te
leveren is door gebruik te maken van het hierboven besproken erfgoedregister.
Erfgoedinstellingen en andere erfgoedbeheerders die beschikken over kleinere
collecties kunnen gebruik maken van dit erfgoedregister. Op deze manier kunnen
inventarisgegevens direct opgenomen worden in het „Spil‟ formaat en beschikbaar
gesteld via de XML database. Het erfgoedregister zorgt er tevens voor dat
trefwoorden vanuit de desbetreffende inventaris gelijk met AAT-Ned termen zijn in te
vullen, waardoor deze fungeert als gecontroleerde woordenlijst.
5.1.4 Beschrijven erfgoedinformatie
Erfgoedplus.be maakt bij de beschrijving van erfgoedobjecten gebruik van een
context-onafhankelijke thesaurus AAT-Ned, om objecttypen, materialen, stijlen en
periodes zo volledig mogelijk te omschrijven. Deze Nederlandstalige thesaurus kan
men direct koppelen aan de Engelstalige variant. Koppeling tussen beide versies is
nodig omdat de Engelstalige versie in tegenstelling tot de Nederlandse versie voor alle
opgenomen concepten beschrijvingen bevat. AAT-Ned wordt door Erfgoedplus.be
als een dynamisch instrument gezien, omdat het de mogelijkheid biedt voor gebruikers
om inhoud aan de thesaurus toe te voegen. De organisatie stimuleert dit gegeven door
actief te kijken naar de mogelijkheden van de thesaurus. Bij de beschrijving van
contextelementen zoals plaatsen, personen, instellingen en gebeurtenissen gaat de
organisatie haar woordenlijsten op den duur verder uitbreiden. Bestaande
woordenlijsten schieten op dit moment tekort om de lokale contexten van
brongegevens te beschrijven. AAT-Ned en de referentie CIDOC (CRM)2 zijn de
instrumenten die gebruikt worden voor standaardisatie, zowel bij de invoer als bij de
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 40
conversie van erfgoedinformatie. CIDOC (CRM) wordt als formeel referentiekader
gebruikt om relaties tussen verschillende soorten erfgoedobjecten (op het niveau van
navigatie) te structureren.
5.1.5 Presenteren erfgoedcollecties
Erfgoedplus.be legt de nadruk op het erfgoed zelf en spreekt minder snel over
collecties, aangezien een specifiek erfgoedobject tegelijk kan behoren tot meerdere
collecties. Een collectie vormt in die zin één facet van informatie en legt relaties tussen
objecten, maar kent bij de organisatie geen prioriteit boven het object zelf. Zij dragen
alleen bij aan het beheer en de documentatie van erfgoed. Wel is het mogelijk om met
behulp van een zoekingang door collecties heen te zoeken, omdat het vermoeden
bestaat dat hier door de doelgroep veel gebruik van wordt gemaakt. Naast het zoeken
door collecties kan men via de homepage van de website ook zoeken op personen,
plaatsen, objecten en bestaat er de mogelijkheid om „vrij‟ te zoeken. (zie afbeelding 2)
Afbeelding 2: Erfgoedplus.be - zoekingangen (persoon, plaats, collectie, object, vrij zoeken)
5.1.6 Erfgoedplus.be en semantisch web
De website maakt gebruikt van een centrale database waar informatie over erfgoed
(metadata) terecht komt. Informatie wordt op een gelijkwaardige, gestandaardiseerde
manier beschreven, zodat er onderlinge relaties gelegd kunnen worden. Om dit te
bereiken maakt Erfgoedplus.be gebruik van de kennis over semantische
webtechnologieën om haar informatie te ontsluiten, zodat zij de beschikbare
erfgoedcollecties op een uniforme en gezamenlijke manier kan presenteren.
De afbeelding hieronder toont een „contextueel‟ zoekresultaat van de schilder Rubens.
Dit zoekresultaat is verkregen door bij de zoekingang van Erfgoedplus.be op een
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 41
persoon te zoeken, in dit geval de persoon die naam Rubens draagt. Contextgegevens
vloeien hier samen omdat er suggesties getoond worden aangaande andere
contextuele concepten, zoals object, materiaal, vervaardiger of collectie. Op deze
wijze kan men de zoekvraag verfijnen en specificeren.
Afbeelding 3: Erfgoedplus.be - zoekresultaat Rubens, via zoekingang „persoon‟
De integratie en combinatie van open standaarden en internettechnologieën draagt bij
aan het gebruik van het semantisch web binnen de erfgoedsector. Erfgoedplus.be is in
die zin uniek, omdat zij semantische webtechnologie als leidraad gebruikt.
5.2 Analyse Europeana project
Het project Europeana biedt door middel van een webportal (Europeana.eu) de
mogelijkheid om door vele soorten meertalige content van Europese landen te
zoeken. Aan het project werken verschillende grote culturele organisaties (waaronder
het Nationaal Archief en de Koninklijke Bibliotheek) samen om collecties op
Europees niveau (internationaal) toegankelijk te maken. Het doel van Europeana „is de
meertalige content afkomstig uit verschillende culturele organisaties, bibliotheken,
archieven, musea, film- en audio archieven, semantisch met elkaar te verbinden en ze
zo toegankelijker te maken voor een groot publiek‟ (Wyns, 2010, p.2).
5.2.1 Europeana en semantiek
Als men kijkt naar het gestelde doel van Europeana dan kan semantische
webtechnologie een belangrijke bijdrage leveren. In de praktijk is Europeana bezig
met het project Europeana Connect. Hier probeert men een meertalige zoekrobot te
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 42
ontwikkelen en digitale content semantisch te verrijken. Tevens heeft Europeana
Thought Lab een protype van een semantische search engine ontwikkeld. Tot op heden
ondersteunt de search engine alleen de talen, Engels, Frans en Nederlands en biedt het
data afkomstig uit het Rijksmuseum Amsterdam, „Musee du Louvre‟ en het
Rijksbureau voor Kunsthistorische Documentatie (RKD). Verder is Europeana bezig
met de ontwikkeling van een gemeenschappelijk model, genaamd Europeana Data
Model (EDM) (zie voor uitleg §5.2.3). Bij dit model wordt er gekozen voor een CRM
object-georiënteerde benadering, en men gebruikt hiervoor CIDOC (CRM).
5.2.2 Europeana.eu versus Europeana’s semantic search engine
Op dit moment is Europeana.eu nog een protype zoekmachine. In de loop van het
jaar 2010 gaat Europeana Versie 1.0 de lucht in. De hoeveelheid benaderbare (digitale)
content van Europeana.eu wordt dan enorm. Als de webportal start verwacht men
links van 10 miljoen digitale objecten te kunnen presenteren. Europeana.eu biedt
toegang tot een variëteit van objecten, zoals schilderijen, sculpturen of boeken. Deze
objecten worden beschreven aan de hand van metadata. Het is lastig om een
zoekmachine op metadata te bouwen. Dit kan kwaliteitsproblemen opleveren als het
gaat om de precisie en de vangst van de zoekresultaten. De heterogeniteit van de
beschikbare data is namelijk te divers, mede veroorzaakt door de vele modellen
waarmee men werkt (Isaac, 2010). Volgens Isaac (2010) is het beter om de metadata
van erfgoedinstellingen zelf te gebruiken, zorgen voor de juiste accommodatie
(structuur en semantiek), en toegang verschaffen tot objecten via concepten als
onderwerpen, personen of plaatsen. En hier komt de semantische zoekmachine
(prototype) om de hoek kijken. Met deze zoekmachine is het mogelijk om rechtstreeks
via verschillende concepten als collectie, persoon of locatie te zoeken. Op het moment
dat de term Rembrandt wordt ingetikt is verschijnt er lijst met relevante zoekingangen
(Semantic auto-completion). De context van zoekvraag wordt zo verrijkt. Men kan
dan direct naar de collectie van Museum het Rembrandthuis gaan. (zie afbeelding 4)
Afbeelding 4: zoekingang Europeana‟s semantic search engine
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 43
Het zoekresultaat van Museum het Rembrandthuis toont 20 digitale objecten
(schilderijen), waarvan 17 direct gerelateerd aan het museum. Een van de objecten is
het schilderij „Het offer van Manoah‟ van Pieter Lastman. Lastman? Welke relatie met
Rembrandt wordt hier bedoeld? Antwoord: Pieter Lastman was de leermeester van
Rembrandt. Bij de beschrijving van het object (relaties) wordt dit ook benoemd,
„Pieter Lastman, leermeester van Rembrandt‟ (zie afbeelding 5).
Afbeelding 5: zoekresultaat – „Het offer van Manoah‟ (Pieter Lastman)
De relatie van Rembrandt en Lastman uit zich in leerling en leermeester. Dit is een
betekenisvolle relatie (zie afbeelding 6). Op deze manier komen verschillende
contexten bij elkaar en wordt het zoekresultaat gespecificeerd en verrijkt.
Afbeelding 6: zoekresultaat – Lastman, Pieter; Teacher of…
Het verschil tussen Europeana.eu en Europeana‟s search engine komt tot uidrukking
in (respectievelijk) technische en semantische interoperabiliteit. In de volgende
paragraaf wordt er stilgestaan bij dit onderscheid en de consequenties als men zich
alleen maar bezighoudt met technische i.p.v. semantische interoperabiliteit.
5.2.3 Technische versus semantische interoperabiliteit
Er dient volgens Streefkerk (2010) bij standaarden voor interoperabiliteit een
onderscheid gemaakt te worden tussen technische en semantische interoperabiliteit.
Technische interoperabiliteit betekent dat systemen met elkaar kunnen praten en
formaten onderling uitwisselbaar zijn. Semantische interoperabiliteit houdt in dat de
structuur van verschillende standaarden wel in overeenstemming is te brengen, maar
dat de inhoud van die structuur (inhoud van velden) ook uitwisselbaar dient te zijn.
Streefkerk (2010) zegt dat het hier vaak aan schort. Als bepaalde velden een totaal
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 44
andere betekenis (inhoud) kennen dan zijn deze niet te combineren. Er zal altijd een
gemeenschappelijke deler moeten zijn, zoals Dublin Core.
Europeana.eu krijgt net als andere webportals een hoeveelheid data aangeleverd van
collectiebeherende instellingen. De data is beschreven in een
collectieregistratiesysteem en de metadata wordt vervolgens geëxporteerd naar Dublin
Core wat op meerdere collecties toepasbaar is. Europeana maakt tevens gebruik van
Search and Retrieve URL Service3 (SRU) om bepaalde collectie-object-beschrijvingen
(van bijvoorbeeld een museum) op te halen, zodat ze ook via Europeana bereikbaar
zijn. En op gezette tijden wordt er gekeken of er iets veranderd is en op deze manier
wordt het ook in Europeana geactualiseerd. In de praktijk blijkt echter dat het
actualiseren weerbarstiger blijkt. Meestal blijft het bij een eenmalige actie. Er wordt
door de erfgoedinstelling op een schijfje een set van data aangeleverd volgens een
gevraagd formaat. Vervolgens wordt er door Europeana gekeken of de aangeleverde
data wel of niet in haar model past. Het nadeel van deze werkwijze is dat de
semantische interoperabiliteit verloren gaat. Dit houdt in dat de structuur van de
standaarden wel in overeenstemming is te brengen (in dit geval volgens het model van
Europeana), maar dat de inhoud van die structuur niet meer goed uitwisselbaar is.
Hierdoor komt de aangeleverde data wel in de webportal staan, maar wat er precies
staat weten erfgoedinstellingen al niet meer en ook niet of het nog actueel is. Om
ervoor te zorgen dat de semantische interoperabiliteit kan slagen werkt Europeana aan
één gemeenschappelijk model, namelijk: Europeana Data Model (EDM). Dit
datamodel richt zich op het verzamelen, verbinden en verrijken van inhoudelijke
beschrijvingen van alle contentleveranciers van Europeana. Het doel is om de
inhoudelijke beschrijvingen van elke leverancier te behouden, zodat deze
beschrijvingen ook gedeeld kunnen worden met derden.
5.3 Analyse Agrippa catalogus Vlaamse literatuur
Het AMVC-Letterenhuis heeft in samenwerking met Universiteit Antwerpen een
catalogus ontwikkeld over de Vlaamse literatuur. De catalogus is sinds 1996 online en
biedt de mogelijkheid om met behulp van 56.500 trefwoorden (personen,
verenigingen, tijdschriften, uitgeverijen etc.) dossiers te vinden. Een dossier kan
informatie over brieven, affiches, documenten, foto‟s of handschriften bevatten, met
hieraan gekoppeld een digitale presentatie van het specifieke object. De databank
beschikt over gedetailleerde beschrijvingen. Jaarlijks worden er 20.000 nieuwe
beschrijvingen toegevoegd. (Letterenhuis, 2010)
De organisatie achter Agrippa is op dit moment achter de schermen bezig met het
opzetten van Agrippa II, een archiefbank voor het literaire erfgoed. Het is de
bedoeling dat internationale archiefstandaarden voor archiefbeschrijvingen een
onderdeel gaan vormen van de catalogus. Een globaal archievenoverzicht dient bij
Agrippa II als vertrekpunt. Op termijn wil de organisatie Agrippa II volledig laten
samenvloeien met de huidige Agrippa catalogus. (Letterenhuis, 2010)
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 45
5.3.1 Techniek
Het is binnen Agrippa mogelijk om (verder) te zoeken via contextelementen
(personen, verenigingen, tijdschriften, uitgeverijen etc.). Door het zoeken op één
willekeurige term (dit is op dit moment overigens nog een vereiste) komt de
eindgebruiker direct terecht bij een bepaald dossier of er wordt een lijstje weergegeven
met naverwante termen, om vervolgens naar een dossier te gaan. Een dossier bevat
zoals gezegd (informatie over) bepaalde materialen, brieven bijvoorbeeld. Een brief
kent natuurlijk een afzender en een geadresseerde. Agrippa toont de beschrijving van
deze brieven als verwijzing op de volgende manier:
Afbeelding 7: zoekresultaat – Hubert Lampo (brieven) (Guns, 2008)
Achter deze verwijzingen schuilen personen of organisaties. Deze hebben ook brieven
gestuurd of ontvangen van derden, vervolgens zij ook weer. En zo ontstaat er een
netwerk van verschillende contexten, zoals hieronder schematisch is weergegeven. Dit
netwerk is overigens niet met behulp van semantische webtechnologie tot stand
gekomen, maar toont hoe een semantisch netwerk eruit kan zien. (zie afbeelding 8).
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 46
Afbeelding 8: Schematische weergave „verbonden‟ contextelementen (Guns, 2008)
5.4 Analyse CHIP project
Het Rijksmuseum Amsterdam beschikt binnen haar muren over een grote
kunstcollectie. Op de website van het museum (www.rijksmuseum.nl) is nog veel meer
kunst te bewonderen. De website beschikt inmiddels over 131.934 digitale
kunstwerken. Het Cultural Heritage Information Personalization (CHIP) project is
opgezet om de bezoeker van de website ook op een virtuele en interactieve manier te
laten kennismaken met de collectie. Aan het project werken de Technische
Universiteit Eindhoven, de Vrije Universiteit Amsterdam en Telematica Instituut. Het
Rijksmuseum Amsterdam fungeert in deze als culturele partner. Het project heeft als
doel te demonstreren in hoeverre de ontwikkeling van semantische (Web 3.0) en
interactieve webtechnologieën (Web 2.0) kunnen bijdragen aan de toegankelijkheid te
verbeteren van de digitale collecties van het museum. (Aroyo, Hollink & Schreiber
et.al., 2009). Semantische webtechnologie wordt gebruikt om de vocabulaires van het
museum te verrijken en doorzoekbaar te maken. Binnen het project gaat men uit van
twee soorten semantische relaties, namelijk: relaties binnen één metadata vocabulaire
en relaties tussen meerdere metadata vocabulaires. Er is onderzoek gedaan naar welke
semantische relaties de gebruiker zinvol acht. Men heeft hierbij de gebruiker laten
zoeken en het navigatietraject in kaart gebracht. Uit het onderzoek bleek dat
gebruikers bijvoorbeeld veel meer waarde hechten aan de gebruikte techniek van een
schilder dan de plaats waar hij of zij geboren is. In de toekomst kan het gebruik van
semantische relaties hier op afgestemd worden. Daarnaast heeft men ook waardevolle
informatie weten te halen uit het navigatietraject zelf, om de gebruiken bij verdergaand
onderzoek.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 47
5.5 Conclusie
Nu de vier projecten besproken zijn kunnen we kijken in hoeverre deze projecten iets
kunnen betekenen voor de website www.geschiedenisvanzuidholland.nl.
Erfgoedplus.be is net als de website www.geschiedenisvanzuiholland.nl toegankelijk
voor een brede doelgroep, is gericht op lokale en regionale erfgoedcollecties en maakt
erfgoedcollecties afkomstig uit verschillende erfgoedbronnen toegankelijk.
Desondanks zijn er een aantal essentiële verschillen te benoemen op het gebied van
presentatie, navigatie en de techniek waarop deze toegankelijk gemaakt worden.
Presentatie Navigatie Techniek
Erfgoedplus.be Gezamenlijke
context, uniforme
manier van
presenteren
Zoeken via
concepten als
persoon en plaats,
filterfunctie achteraf
Semantische
webtechnologie
Geschiedenis v. Z-H Verschillende
soorten context
Full text zoeken,
filterfunctie voor- en
achteraf
OAI (harvester)
EAD updexer
Tabel 1: Verschillen in presentatie, navigatie en techniek
De hierboven genoemde verschillen staan niet op zich zelf. Het draait uiteindelijk
allemaal om de context waarin de erfgoedcollecties worden gepresenteerd. Elke soort
collectie kent een specifieke context. De gegevens van een collectie zijn geformuleerd
vanuit die context. Erfgoedplus.be tracht context te presenteren door gebruik te
maken van schematische webtechnologie. Hierdoor is het mogelijk om verschillende
erfgoedcollecties van alle deelnemende erfgoedinstellingen in één gezamenlijke
context te presenteren. In hoofdstuk 6 zal er nader ingegaan worden op dit vraagstuk
en of dit ook voor de website www.geschiedenisvanzuidholland.nl mogelijk zal zijn.
Europeana is door zijn grootschalige opzet niet te vergelijken met de website
www.geschiedenisvanzuidholland.nl. Desondanks is het interessant eens te kijken naar
een aantal zaken die van belang kunnen zijn. Op de eerste plaats maakt Europeana
gebruik van een collectieregistratiesysteem om collecties van (kleine) deelnemende
instellingen op Europena.eu beschikbaar te stellen. Het actualiseren van het
aangeleverd materiaal blijkt in de praktijk vaak weerbarstiger te zijn. Inhoudelijke
beschrijvingen kunnen verloren gaan, omdat het huidige model van Europeana niet
allesomvattend is. Het is namelijk lastig om een zoekmachine op metadata te bouwen.
Er kunnen kwaliteitsproblemen ontstaan als het gaat om de precisie en de vangst van
zoekresultaten. Het is beter om de metadata van de erfgoedinstellingen zelf te
gebruiken, zorgen voor de juiste accommodatie, en toegang te verschaffen tot
objecten via concepten als onderwerpen, personen of plaatsen. Om
kwaliteitsproblemen te vermijden experimenteert Europeana ook met semantische
webtechnologie door gebruik te maken van een semantische zoekmachine. In de
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 48
nabije toekomst gaat Europeana gebruik maken van Europeana Data Model (EDM),
waarbij het mogelijk wordt om de inhoudelijke beschrijvingen van contentleveranciers
te behouden, te delen met derden en „semantisch‟ te verrijken.
Agrippa maakt in tegenstelling tot Erfgoedplus.be niet gebruik van semantische
webtechnologie. Wel heeft de catalogus een zodanige infrastructuur dat het wel als
voorbeeld kan dienen. De verschillende verbonden contextelementen laten zich het
beste vergelijken met een semantisch netwerk.
Bij het CHIP project heeft men gekeken naar de bruikbaarheid van semantische
relaties. Ze hebben de feedback van potentiële gebruikers hierbij als uitgangspunt
genomen. Onderzoeksresultaten kunnen van belang zijn bij de implementatie van het
semantisch web en de relaties die hieruit voortvloeien.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 49
6 Gebruiker, context en semantisch web
In dit hoofdstuk wordt besproken hoe gebruikers naar informatie zoeken en of ze
contextuele informatie hierbij belangrijk vinden. Daarnaast wordt er nader ingegaan
op de functie van context voor de gebruiker bij archieven en museale collecties in
relatie tot het semantisch web. Verder wordt er gekeken of het voor de website
www.geschiedenisvanzuidholland.nl mogelijk is om verschillende erfgoedcollecties
gezamenlijk in hun context te presenteren.
6.1 Gebruiker
Internetgebruikers zijn dagelijks op zoek naar informatie. Ze kunnen daarbij op zoek
zijn naar informatie over het verleden of (specifieker gesteld) op zoek zijn naar
informatie over cultureel erfgoed. De reden om bijvoorbeeld een archiefsite te
bezoeken kan mede door deze factoren ingegeven zijn. In de praktijk zal men niet
gauw geïnteresseerd zijn in een archief als zondanig, maar alleen in een stukje
informatie waar het archief toevalligerwijs over beschikt (Wubs en Huysmans, 2006).
Bestaande cognities (kennis, opvattingen en verwachtingen) over objecten en
personen bepalen (op basis van eerdere leerervaringen) waarom men tot nieuwe
kennis wil komen. De reden waarom mensen tot deze nieuwe kennis willen komen
wordt (mede) veroorzaakt doordat ze „gaten‟ in hun kennis willen opvullen, conflicten
tussen kenniselementen willen oplossen of hun reeds aanwezige kennis willen
uitbreiden door zich in de materie te verdiepen en bestaande opvattingen ter discussie
te stellen (Wubs & Huysmans, 2006). Daarnaast hangt de manier waarop men zoekt
naar informatie samen met de ervaringen die mensen in de loop van de tijd op doen
bij het zoeken naar informatie. Men abstraheert deze ervaringen tot gedragregels
(zoekmethoden) die bij de eerstvolgende zoekactie worden ingezet. Gevonden
informatie wordt vervolgens door de gebruiker geïnterpreteerd. Dit houdt in dat een
gegeven „tekst‟ in een „context‟ geplaatst wordt, waarbij de nieuwe en de reeds
aanwezige kennis met elkaar in verband worden gebracht en een plaats krijgt binnen
die aanwezige kennis (Wubs & Huysmans, 2006). Hoe men deze informatie precies
verwerkt is afhankelijk van de betrokkenheid van de gebruiker. Is er een sterke
betrokkenheid bij een object of persoon te bespeuren dan zal de gebruiker
ruimschoots nadenken over de gegeven informatie. Is de informatie consistent en zijn
de argumentaties aannemelijk? Heeft de gebruiker een zwakke betrokkenheid bij een
object of persoon dan zal men de informatie niet gauw verwerken en erover
nadenken. Aan de informatie zelf wordt weinig aandacht besteed. Als de bron
betrouwbaar overkomt en de tekst er ordentelijk uitziet dan is deze gebruiker al snel
tevreden. De interpretatie van informatie (hoe deze in een context geplaatst wordt)
hangt dus mede af van het type gebruiker. In §6.2 wordt de betekenis en het belang
van context voor de gebruiker onder woorden gebracht.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 50
6.2 Context
6.2.1 Context van archieven
Bij gebruikers zien we een verschil in behoeften als het gaat om de presentatie van
bronnen op een archiefsite. Een digitale afbeelding van het origineel is altijd gewenst.
Sommige gebruikers hechten waarde aan een transscriptie (van een archiefdocument),
anderen verlangen extra informatie als het gaat om de herkomst van het object, met
verwijzingen naar soortgelijke objecten. Dat metadata opvraagbaar zijn is hooguit
voor een enkeling van belang. Een combinatie van deze drie mogelijkheden verdient
hier uiteindelijk de voorkeur (Wubs & Huysmans, 2006). Men kan hieruit opmaken
dat de gebruiker waarde hecht aan context (betekenisgevend kader) omtrent
gevonden objecten. Uit de context kan men namelijk oorspronkelijke betekenis en
betekenisverandering van procesgebonden informatie (documenten in archieven) en
cultuurhistorische objecten (in collecties) reconstrueren.
Een archief vormt de neerslag van een werkproces en is procesgebonden informatie.
Procesgebonden informatie is in de loop van de duur van een werkproces bij elkaar
gebracht en bestaat uit verschillende archiefdocumenten en hun onderlinge
samenhang. Wil men archieven en archiefbescheiden op de juiste wijze kunnen
interpreteren is het van belang dat de relatie tussen archiefbescheiden en de
omgeving waarin ze zijn ontstaan bekend zijn.
Wat betekent procesgebonden informatie?
Het begrip (archivistische) context kan op meerdere manieren worden uitgelegd. Ik ga
uit van deze definitie, te weten: „de omgevingselementen die bepalen hoe en waar het
archief wordt gevormd, gestructureerd en bevraagd.‟ (Stichting Archiefpublicaties,
2010, website). Kennis van context stelt de gebruiker in staat om archiefdocumenten
te interpreteren. Om dit te kunnen bewerkstelligen heeft men contextgegevens nodig.
Contextgegevens (ook wel contextinformatie genoemd) zijn nodig om betekenis te
geven aan archiefdocumenten. Ze geven de relatie binnen en tussen de documenten
weer en kunnen als archivistische metadata gekoppeld worden aan (digitale)
archiefdocumenten. Dit om de gegevens in een digitale (web)omgeving leesbaar en
begrijpelijk te maken voor de gebruiker.
Bij de beschrijving van de context is het van belang te bepalen naar welk object
(archiefniveau, serieniveau of archiefdocument) het contextbegrip verwijst. Ten eerste
is er de klassieke manier om context te beschrijven. Een traditionele archivistische
beschrijving bevat veel contextinformatie. Deze is verweven in grote lappen tekst die
in verhalende passages naar voren komen, waardoor het niet mogelijk is om
gestructureerd te zoeken. Men zou dit kunnen typeren als de klassieke benadering
voor het beschrijven van contextinformatie in archieven. De context wordt
beschreven op archiefniveau in de inleiding van een klassiek inventaris. Ten tweede is
er de meer gestandaardiseerde en contextgerichte manier van beschrijven voorhanden,
namelijk via ISAG(G) en/of ISAAR(CPF). Hier worden de contextbeschrijvingen ook
op serieniveau gestimuleerd. Ten derde staat in een digitaal archief het
archiefdocument centraal. Met context bedoelt men dan doorgaans de context van het
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 51
archiefdocument zelf. Thomassen (2000) raad aan het begrip context van een archief
op te vatten als procesgebonden informatie, ongeacht welk niveau van beschrijven van
toepassing is. Wanneer context gebruikt gaat worden in specifieke zin dan is het zinvol
om aan te geven over welk object men het heeft.
6.2.2 Context van museale collecties
Musea hebben ook contextuele informatie nodig om objecten te verduidelijken,
oftewel betekenis te geven aan het object. De contextuele informatie die erover het
museumobject bekend is bepaald (mede) de waarde van het object. Het zegt dan iets
over het object zelf (authenticiteit), de herkomst van het object, de relaties met andere
objecten, over de manier waarop het object wordt beheerd, de voorwaarden (rechten)
omtrent de toegankelijkheid, en de voorwaarden die het object zelf beschrijven.
Musea dienen volgens de Vries (2010) bijvoorbeeld „te kunnen aantonen dat zij op een
legale manier aan een object zijn gekomen en van wie/welke instelling‟. (interview). In
de museumwereld noemt men dit ook wel de pedigree (stamboom) van een object.
Om museale collecties te beschrijven wordt er vaak gebruik gemaakt van de standaard
Spectrum, waar onder andere het systeem Adlib Museum gebruik van maakt.
Spectrum is geen software, maar is louter bedoeld om op een gestructureerde manier
museumcollecties te documenteren en te beheren. Het biedt een set van afspraken om
op de juiste manier een collectie te beschrijven en te beheren. Alle processen over het
handelen van een museum worden dan door middel van collectiemanagement
vastgelegd. Hierbij gaat men uit van een objectbeschrijving. Musea worden aangeraden
de (niet verplichte) aanbevelingen van Spectrum te volgen. De beschrijving van
museale objecten dienen aan een aantal voorwaarden te voldoen. Hiervoor is een
minimale registratie van museumobjecten noodzakelijk. De acht velden (metadata) van
de internationale CIDOC-richtlijnen1 zijn nodig en verplicht voor registratie en
digitale ontsluiting. Deze richtlijnen vormen geen eindstation voor collectiebeheer,
maar zijn alleen bedoelt voor basisregistratie. Afspraken hierover verschillen per
doelgroep en/of museum. Het Move Invulboek kan helpen bij het noteren van
objectgegevens. Er worden richtlijnen en voorbeelden getoond. De contextuele
beschrijving van museale objecten maakt hier eveneens onderdeel van uit. Om de
beschrijving te converteren wordt er in de museumwereld vaak gebruik gemaakt van
Dublin Core. Er dient hier overigens wel eerst een „mapping‟ plaats te vinden.
De context wordt gebruikt om de cultuurhistorische waarde van museale objecten te
bepalen en of ze al dan niet in een bepaalde collectie worden opgenomen. Objecten
en/of collecties worden dan gewaardeerd in immateriële, niet-financiële zin. De
waardebepaling is hierbij subjectief, aan verandering onderhevig en van vele factoren
afhankelijk, zoals de beschikbare kennis, het gehanteerde perspectief, de heersende
opvattingen en smaak. Deze bepaling dient zo objectief mogelijk te geschieden. Het
bepalen van de context vormt een onderdeel van de collectiewaardering. (Leistra &
Luger, 2008). De context is belangrijk omdat het vergeleken wordt met andere
(soortgelijke) objecten en/of collecties. Men maakt een vergelijking vanuit een
bepaald referentiekader. Men vergelijkt bijvoorbeeld de collectie moderne kunst met
een vergelijkbare collectie ergens anders in het land.
Context als cultuurhistorische waardebepaling van museumobjecten
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 52
6.2.3 Context en het semantisch web
Ondanks dat archieven en musea andere methoden gebruiken om de context te
beschrijven is het doel gelijk. Men tracht door context toe te voegen betekenis te
geven aan archiefdocumenten of museumobjecten en de samenhang tussen deze
afzonderlijke documenten of objecten weer te geven. In een digitale omgeving wordt
er bij de beschrijving vaak uitgegaan van het object zelf (documenten of
museumobjecten). Europeana is hiervan het levende bewijs. De webportal
Europeana.eu is in haar oorspronkelijke opzet object-georiënteerd. Nu is het
beschrijven van individuele objecten voor archieven een lastige opgave vanwege de
omvang en de hoeveelheid tijd die dit gaat kosten. Bovendien krijgen gebruikers een
versnipperd beeld van de context aangezien zij bij de raadpleging van inventarissen
gedetailleerde informatie van individuele objecten verwachten. Een (digitaal)
museumobject (zoals de Nachtwacht) is iets wat de gebruiker direct zal aanspreken. Bij
archieven is het behoud van de structuur (samenhang) tussen de archiefdocumenten
onmisbaar. Toch kennen museale objecten ook een zekere samenhang tussen de
afzonderlijke objecten. Er wordt dan iets verteld (heden en verleden) over de
verzameling (collectie) of het gebruik, waardoor het erfgoed haar betekenis krijgt.
De samenhang tussen individuele objecten (archiefdocumenten of museumobjecten)
kan behouden blijven als men toegang verschaft tot objecten via concepten als
onderwerpen, collecties, gebeurtenissen, personen of plaatsen met behulp van het
semantisch web. Bij het semantisch web wordt er ook uitgegaan van een object-
georiënteerde benadering, waar alle contextinformatie gekoppeld wordt aan het
document of object. In hoofdstuk 5 zagen we dat het bij de semantische zoekmachine
van Europeana mogelijk is om (zowel voor- als achteraf) rechtstreeks in aangesloten
contexten van de gebruikte term te zoeken. Betekenisvolle relaties worden zo in één
context aan de gebruiker gepresenteerd. De context van het semantisch web uit zich
in de betekenisvolle relaties die tussen concepten gelegd kunnen worden. Hoe meer
van dit soort relaties, hoe meer context er met elkaar verbonden wordt.
De context rondom een persoon als Rembrandt van Rijn is enorm. Rembrandt heeft
de Nachtwacht geschilderd (1e relatie). Rembrandt is in Leiden geboren (2e relatie). En
Rembrandt‟s leermeester is Pieter Lastman geweest (3e relatie). Dit zijn op zich
„logische‟ relaties. Er zijn naast de bekende schilderwerken en etsen van Rembrandt
ook archiefdocumenten bekend over zijn leven. Dit wil ik illustreren aan de hand van
een voorbeeld. Het Nationaal Archief bezit een archiefstuk van Titus van Rijn uit
1665. Titus is de zoon van Rembrandt. In het dit verzoek vraagt hij de Staten van
Holland om een versnelde meerderjarigheidsverklaring. Hier zit natuurlijk een verhaal
achter. In 1656 is Rembrandt (door slecht financieel beheer) failliet verklaard. Zijn
vrouw Hendrickje Stoffels en zijn zoon Titus willen de zaken laten continueren door
een kunsthandel op te richten waarbij Rembrandt in dienst kwam. Titus wilde na het
overlijden van Hendrickje deze kunsthandel voortzetten. In die tijd ging
meerderjarigheid pas in bij het 24ste levensjaar. Helaas was Titus 23 jaar oud, waardoor
hij genoodzaakt was om een verzoek in te dienen voor een versnelde
meerderjarigheidsverklaring. Dit verzoek van Titus kan binnen het semantisch web
verbonden worden met de persoon Rembrandt. Stel een gebruiker zoekt via een
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 53
webportal naar Rembrandt omdat hij of zij iets te weten wil komen rondom het
faillissement van Rembrandt in 1656. De gebruiker komt er bij zijn zoekactie achter
dat Titus de zoon is van Rembrandt. Deze relatie kan in het semantisch web
vastgelegd worden (1e relatie). De gebruiker ziet dat Titus een verzoek heeft ingediend
bij de Staten van Holland voor een versnelde meerderjarigheidsverklaring en dat dit
verzoek bij het Nationaal Archief te vinden is. De persoon Titus van Rijn (zoon van)
en de archiefvormer Titus van Rijn, zoals deze bij het Nationaal Archief bekend is,
kunnen namelijk binnen het semantisch web ook met elkaar verbonden worden (2e
relatie). Archiefvormer Titus van Rijn kan dan weer gekoppeld worden aan het object,
namelijk het verzoek zelf (3e relatie).
Er worden op deze manier verschillende soorten context bij elkaar gebracht. Zonder
context zijn er überhaupt geen (betekenisvolle) relaties mogelijk. Deze relaties komen
tot stand vanuit de context waarin ze zijn ontstaan. Het semantisch web en context
zijn dus inherent met elkaar verbonden. Betekenisvolle relaties worden op het
semantisch web vastgelegd in triples. Elke relatie die in een archivistisch/museaal
metadataschema of gemeenschappelijke metadatamodel naar voren komt wordt dus
ook vastgelegd worden in triples. De context die achter deze relaties schuilt gaat, gaat
hierbij niet verloren, maar wordt eerder verrijkt door de vele relaties die er ontstaan
door de toepassing van het semantisch web. Het semantisch web geeft mogelijke
opties om verder te zoeken, niet een uitgestippeld pad. De gebruiker wordt dus niet
buitenspel gezet. (zie §2.6). Wil men verschillende contextelementen (concepten)
binnen de erfgoedsector met elkaar verbinden en presenteren in één gezamenlijke
context, dan is het noodzakelijk dat er gewerkt aan een gemeenschappelijk
metadatamodel. In §6.3 wordt er besproken of het vanuit het perspectief van de
gebruiker wel verstandig is om in één context te presenteren.
6.3 Gezamenlijke context
In hoofdstuk 3 kwam al aan de orde dat digitalisering tegenwoordig één van de
kerntaken vormt van een erfgoedinstelling. Door de digitalisering van het erfgoed zijn
de grenzen tussen collecties aan het vervagen. Met als gevolg dat collecties onderling
verbonden kunnen worden. Streefkerk (2010) spreekt in dit verband over: „Het idee,
dat het publiek primair geïnteresseerd is in plaats, in persoon en gebeurtenissen, en
niet in collecties. De instellingen moeten samenwerken, gezamenlijk presenteren om
antwoord te geven aan het publiek.‟ (interview). Het gezamenlijk presenteren via een
webportal of een andere presentatievorm kan plaatsvinden op verschillende niveaus,
zoals thematisch of geografisch (regionaal, landelijk, Europees). Bijvoorbeeld
respectievelijk de erfgoedportalen: Geschiedenis van Zuid-Holland, Geheugen van
Nederland en Europeana. De website www.geschiedenisvanzuidholland.nl zou
volgens Streefkerk (2010) als toeleverancier een hoger niveau kunnen bedienen,
nationaal of internationaal (Europees).
Verschillende erfgoedcollecties in één gezamenlijke context presenteren gaat niet
zomaar. Zoals Bussel (2010) al aangaf, „als je de gebruiker overal op dezelfde manier
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 54
wilt benaderen, betekent dat ook dat je overal dezelfde standaarden moet gebruiken
voor die beschrijvingen‟. Er dient dus gebruik te worden gemaakt van één
beschrijvingsstandaard voor de gehele erfgoedsector. De beschrijvingen hoeven niet
hetzelfde te zijn maar ze moeten wel voldoen aan hetzelfde model. De praktijk is
echter weerbarstiger. Op dit moment wordt Dublin Core vaak als gemeenschappelijke
deler gebruikt. Maar een vaste standaard om verschillende contextelementen te
verbinden ontbreekt, terwijl dit wel essentieel is voor de toegankelijkheid. De
mogelijkheid om contextelementen uit te wisselen met verschillende databases uit de
erfgoedsector draagt in positieve zin bij aan de toegankelijkheid richting de gebruiker.
In de archiefsector vindt hierover discussie plaats. Pitti (2004) zegt in dit verband
hierover het volgende: „A standaard also offers the potential for importing descriptive
information from sources outside of the archival community, and adapting enhancing
such information to meet descriptive objectives‟. Encoded Archival Context (EAC)
zou hier geschikt voor kunnen zijn. Daarnaast komen er ook andere modellen in
aanmerking, zoals CIDOC (CRM), in hoofdstuk 5 kwam dit model al ter sprake.
Erfgoedplus.be maakt gebruik van CIDOC (CRM) als referentiekader om relaties
tussen verschillende soorten erfgoedobjecten (op het niveau van navigatie) te
structureren. Het Europeana Data Model (EDM) is geïnspireerd door dit model.
De bedoeling van CIDOC (CRM) is om verschillende soorten erfgoed bij elkaar te
brengen en het gedeelde belang tussen cultureel erfgoed uit archieven, bibliotheken
en musea te benadrukken. Het is een semantisch model waar men alle
erfgoedinformatie onder kan brengen. Aan de hand van gebeurtenissen wordt een
informatieobject beschreven. Deze object-georiënteerde benadering zorgt ervoor dat
er semantisch (betekenisvol) gecommuniceerd kan worden tussen de verschillende
bronnen van culturele erfgoedinformatie binnen een digitale omgeving. Om de
communicatie tussen de bronnen te laten slagen maakt CIDOC (CRM) gebruik van
een aantal CRM elementen die beschikken over de nodige definities en codes. CRM
elementen kunnen verbonden worden door ze met elkaar te linken. Ondanks dat de
elementen verschillende metadata kennen zal de software toch in staat zijn om de
juiste elementen met elkaar ter verbinden en is het mogelijk om de exacte betekenis te
achterhalen en verbindingen te leggen tussen gerelateerde data. Het model kan
bijdragen aan digitale integratie omdat er gebruik wordt gemaakt van één standaard
waarin semantische en associatieve relaties tussen verschillende metadata gelegd
kunnen worden. Technisch gesproken is CIDOC (CRM) volledig vertaalbaar naar
XML en RDF, waardoor implementatie van het model realiseerbaar is. Het nadeel
van het model is dat het nogal uitgebreid en tijdrovend is. Kleinere
erfgoedinstellingen worden hiervan de dupe omdat ze vaak niet over voldoende
(financiële) middelen en capaciteiten beschikken om dit specifieke ontsluitingstraject
te doorlopen. (Wyns, 2009) (DEN, 2010)
De toepassing van CIDOC (CRM)
De discussie over een gemeenschappelijk metadatamodel zal onverminderd doorgaan,
mede veroorzaakt omdat er diverse belangen (zoals organisatiecultuur en afspraken op
het gebied van inhoudelijke ontsluiting) op het spel staan (zie hoofdstuk 3). Zoals
gezegd in de hoofdstukken 2 en 3 staat deze discussie los van de techniek achter het
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 55
semantisch web. Maar is het voor de beheerbaarheid van informatie van belang dat er
enige consensus bestaat, dat er op termijn daadwerkelijke afspraken worden gemaakt
over onderlinge standaardisatie, en er serieus gewerkt wordt aan een
gemeenschappelijk metadatamodel. Desondanks kan semantische webtechnologie ook
op dit moment zeker een bijdrage leveren om verschillende erfgoedcollecties in één
gezamenlijke context aan te bieden, zoals nu te zien is bij Erfgoedplus.be.
6.4 Conclusie
Archieven en musea gebruiken verschillende manieren om hun context beschrijven,
desondanks is het doel gelijk. Men tracht namelijk door context toe te voegen
betekenis te geven aan archiefdocumenten of museumobjecten en de samenhang
tussen deze afzonderlijke documenten of objecten weer te geven. Een archief- of
museumobject kan pas op de juiste wijze geïnterpreteerd worden als de context waarin
het is ontstaan voor de gebruiker bekend is. Het semantisch web zorgt ervoor dat
context van deze objecten wordt verrijkt door diverse concepten met elkaar te
verbinden en vast te leggen. Als men de gebruiker hierbij overal op dezelfde manier
wil benaderen dan dient men uit te gaan van een gemeenschappelijk metadatamodel.
Het is voor de website www.geschiedenisvanzuidholland.nl op dit moment niet
mogelijk om verschillende erfgoedcollecties van de deelnemende instellingen in één
context te presenteren, de techniek die gebruikt wordt schiet te kort. Semantische
webtechnologie zou hier wellicht uitkomst kunnen bieden. Dit betekent dat de
Geschiedenisvanzuidholland.nl zoekingangen op conceptniveau (persoon, plaats etc.) dient
aan te bieden. En de context verder dient te structureren en te verrijken door de inzet
van context-onafhankelijke instrumenten, zoals bij de bespreking van het project van
Erfgoedplus.be naar voren kwam (zie hoofdstuk 5). Als deze webtechnologie eenmaal
is geïmplementeerd op de website www.geschiedenisvanzuidholland.nl kan het
Provinciaal Historisch Centrum (PHC) zich als serviceprovider aanbieden. In het
volgende hoofdstuk wordt hier nader op in gegaan, evenals de andere (potentiële)
rollen die PHC in de toekomst zou kunnen vervullen.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 56
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 57
7 Toepassing semantisch web
In dit hoofdstuk wordt er antwoord gegeven of en hoe het semantisch web toegepast
kan worden op de website www.geschiedenisvanzuidholland.nl. Om deze vraag te
beantwoorden wordt gekeken naar de toekomstige rol en mogelijke taken die het
Provinciaal Historisch Centrum (PHC) zou kunnen uitvoeren.
7.1 Toekomstige rollen PHC en website
Wil de website www.geschiedenisvanzuidholland.nl het semantisch web in de praktijk
toepassen dan dient PHC haar rol opnieuw te definiëren. Resumé: PHC adviseert
erfgoedinstellingen en andere organisaties bij het in stand houden van het erfgoed en
biedt het publiek (inwoners van Zuid-Holland) de mogelijkheden om kennis te maken
met het erfgoed dat de provincie rijk is. De PHC zou zich in dit geval (naast haar
huidige dienstverlenende taken) kunnen richten op het faciliteren van diensten die met
het semantisch web te maken hebben en hier hun kracht in vinden. Door dit te doen
kan de PHC als intermediair ervoor zorgen dat informatie goed gestandaardiseerd
beschikbaar (zonder dat de context en betekenis van aangeleverde erfgoedinformatie
van de deelnemende instellingen verloren gaan) komt voor haar bezoekers. Een rol als
data-intermediair of service provider voor het semantisch web kan dus voor de
website interessant zijn. Mogelijke rollen en taken die voort kunnen vloeien zijn:
De rol als data-intermediair invullen door de deelnemende instellingen een dienst
te bieden, namelijk: „uw data op het semantisch web‟. Twee mogelijkheden voor
het aanbieden van een dienst komen hierbij in het vizier, te weten:
a) de eis stellen dat deelnemende instellingen hun data in de taal van het
semantisch web (triples) aanleveren, zodat het PHC (eventueel) ondersteuning kan
leveren bij de implementatie van het semantisch web bij de instellingen zelf.
b) niet de eis stellen dat deelnemende instellingen hun data in de taal van het
semantisch web (triples) aanleveren, maar PHC biedt een dienst aan om de
migratie van het semantisch web op te lossen.
De rol als service provider invullen door de deelnemende erfgoedinstellingen een
extra mogelijkheid aan te bieden om hun data onder aandacht te krijgen bij het
publiek van de website www.geschiedenisvanzuidholland.nl.
(a) PHC gebruikt de ontvangen taal van het semantisch web (triples) - die
deelnemende instellingen aanleveren - om een eigen website (op) te bouwen die
gebaseerd is op semantische webtechnologie (kijkend naar Erfgoedplus.be).
7.2 Conclusie
PHC zou zich (naast haar huidige dienstverlenende taken) kunnen richten op het
faciliteren van diensten die te maken hebben met het semantisch web. Zij zou kunnen
kiezen voor de rol als data-intermediair. Hierdoor kan PHC zich profileren als
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 58
autoriteit op het gebied van het semantisch web, en op deze manier ervoor kunnen
zorgen dat Zuid-Hollandse erfgoedinstellingen hun data op het semantisch web
kunnen publiceren. Daarnaast bestaat er de extra mogelijkheid om als serviceprovider
aan de slag te gaan door data van de deelnemende erfgoedinstellingen te publiceren via
een nieuwe website die gebaseerd is op semantische webtechnologie. Het is helaas niet
mogelijk op dit via de huidige website te bewerkstelligen.
De ontwikkeling van het semantisch web staat nog in haar kinderschoenen, het vormt
een onderdeel van het huidige web en dient dan ook opgebouwd te worden. PHC kan
hier een belangrijke bijdrage aan leveren als het gaat om de provincie Zuid-Holland.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 59
8 Conclusies en aanbevelingen
In dit onderzoek is in kaart gebracht welke mogelijkheden en ontwikkelingen het
semantisch web kan bieden in algemene zin en in het bijzonder voor een webportal als
www.geschiedenisvanzuidholland.nl. Er is gekeken naar rol van het semantisch web
zelf, welke implicaties en vooruitzichten deze internettechnologie heeft in de praktijk
en of het semantisch web iets kan betekenen voor een webportal. Nu volgen de
belangrijkste conclusies die uit de onderzoeksresultaten naar voren kwamen, en de
aanbevelingen die ik het Provinciaal Historistisch Centrum (PHC) wil bieden.
8.1 Conclusies
8.1.1 Semantisch web
Er bestaat de nodige onwetendheid over het (begrip) semantisch web. IT-
specialisten (voorstanders) kijken vaak met een andere bril naar de materie dan
erfgoedspecialisten (critici).
Een metadataschema van elke willekeurige erfgoedinstelling kan zonder verlies
van inhoudelijke beschrijvingen op het semantisch web geplaatst worden. De
inhoudelijke relaties binnen het schema gaan niet verloren, maar worden juist
verrijkt door de informatie uit andere erfgoedbronnen. De techniek achter het
semantisch web zorgt ervoor dat de inhoudelijke structuur behouden blijft en
verrijkt wordt door erfgoedbronnen met elkaar te verbinden. Erfgoedinstellingen
hoeven op deze wijze niet af te wijken van hun dagelijkse werkzaamheden of
praktijk.
Er kan binnen de erfgoedsector echter alleen gewerkt worden met het semantisch
web als er enige vorm van onderlinge standaardisatie is afgesproken. Dit alles om
de beheersbaarheid van de (geconverteerde) informatie te kunnen garanderen. Er
dient daarom (volgens critici) gepleit te worden voor grootschalige menselijke
inbreng bij de inhoudelijke invulling van het semantisch web. De kwaliteit van de
beschrijving is namelijk ook bij het semantisch web essentieel.
Enige vorm van standaardisatie is naar mijn mening noodzakelijk als men
erfgoedinformatie op het semantisch web zinvol wil kunnen gebruiken.
8.1.2 Standaardisatie en semantisch web
Standaardisatie in de erfgoedsector is noodzakelijk om toegankelijkheid van
verschillende erfgoedcollecties (in een digitale omgeving) te kunnen garanderen.
Dit houdt in dat er binnen archieven, bibliotheken of musea gewerkt dient te
worden met dezelfde standaarden.
Het is aan te raden dat men binnen de erfgoedsector vanuit één
gemeenschappelijk metadatamodel werkt waardoor de gebruiker overal op
dezelfde manier benaderd kan worden.
Standaardisatie is wanneer men data op het semantisch web wil publiceren wel
zeker van belang aangezien een computer structuur nodig heeft om te kunnen
redeneren. Enige vorm van standaardisatie is dus gewenst wil men op inhoudelijk
niveau betekenisvolle relaties leggen tussen verschillende erfgoedbronnen.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 60
8.1.3 Geschiedenisvanzuidholland.nl
De standaarden die op dit moment bij de website gebruikt worden bieden
onvoldoende mogelijkheden om semantische webtechnologie toe te passen.
8.1.4 Ontsluitingsprojecten
Erfgoedplus.be beschikt over de mogelijkheid om (met behulp van semantische
webtechnologie) verschillende erfgoedcollecties van alle deelnemende
erfgoedinstellingen in één gezamenlijke context te presenteren.
Het is lastig om een reguliere zoekmachine op metadata te bouwen, er kunnen zo
kwaliteitsproblemen ontstaan bij zoekresultaten. Het is beter om de metadata van
de erfgoedinstellingen zelf te gebruiken, te zorgen voor de juiste accommodatie en
toegang te verschaffen tot objecten via concepten als onderwerpen, personen of
plaatsen. Europeana experimenteert met een semantische zoekmachine om dit
soort kwaliteitsproblemen te vermijden.
8.1.5 Context
Het semantisch web zorgt ervoor dat de context van archiefdocumenten en
museumobjecten wordt verrijkt door diverse concepten (persoon, plaats,
gebeurtenis, objecten) met elkaar te verbinden en vast te leggen.
Het semantisch web legt betekenisvolle relaties tussen concepten waardoor
verschillende contexten gezamenlijk gepresenteerd kunnen worden.
Het is voor de website www.geschiedenisvanzuidhollnd.nl op dit moment niet
mogelijk om verschillende erfgoedcollecties van de deelnemende instellingen in
één context te presenteren omdat de techniek tekort schiet. Implementatie van
semantische webtechnologie kan dit probleem verhelpen.
8.1.6 Toepassing semantisch web
PHC kan overwegen haar diensten af te stemmen op het gebruik en de toepassing
van het semantisch web.
8.2 Aanbevelingen
PHC zou zich (naast haar huidige dienstverlenende taken) kunnen richten op het
faciliteren van diensten die te maken hebben met semantisch web. Zij zou kunnen
kiezen voor de rol als data-intermediair. PHC zou zich dan kunnen profileren als
een autoriteit op het gebied van het semantisch web, en op deze manier ervoor
kunnen zorgen dat Zuid-Hollandse erfgoedinstellingen hun data op het
semantisch web kunnen publiceren.
PHC kan als serviceprovider aan de slag te gaan door data van de deelnemende
erfgoedinstellingen te publiceren via een nieuwe website die gebaseerd is op
semantische webtechnologie (kijkend naar Erfgoedplus.be). Op dit moment is dit
via de huidige website (geschiedenisvanzuidholland.nl) helaas niet te realiseren.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 61
Notenapparaat
Semantisch Web
1. Een Uniform Resource Identifier (URI) is een unieke verwijzing naar digitale objecten. Dit kunnen tekst-, beeld-, of
geluidsbestanden zijn, maar ook metadata-records in een collectieregistratiesysteem. Er dient onderscheid te worden gemaakt tussen
twee soorten URI‟s, namelijk: Uniform Resource Locators (URL) en Uniform Resource Names (URN). Een URL verwijst naar een
bepaalde plaats (bijvoorbeeld een netwerkserver) waar het bestand zich bevindt en is opgeslagen. Een URN verwijst in tegenstelling
tot een URL niet naar een fysieke plaats, maar verwijst naar een tabel. De inhoud van de tabel bijgehouden door een instelling die
nagaat welke bestanden zij beheert. Bij verplaatsing van het bestand hoeft alleen de tabel aangepast te worden. De externe links naar
de bestanden zelf blijven ongewijzigd en behouden. Een URN bestaat uit een „identifier‟ (toegekende code) en een naam. Binnen de
naamruimte is de „identifier‟ uniek en de beherende instelling is de autoriteit die hier op toeziet. In dagelijks praktijk hebben we
rechtstreeks te maken met URI‟s. Het Internationaal Standaard Boeknummer (ISBN) is hier een voorbeeld van. Naast dat URI‟s
direct kunnen verwijzen naar bepaalde digitale objecten (boek), kunnen ze ook verwijzen naar bepaalde concepten, zoals personen,
organisaties en andere contextuele eigenschappen van een informatieobject. Semantische webtechnologie gaat bijvoorbeeld uit van
deze object-georiënteerde benadering. (DEN, 2010) (Hermans, 2009)
2. Resource Description Framework (RDF) is een standaardmodel voor het coderen van metadata binnen een webomgeving. Het
model wordt uitgedrukt in XML en is bedoelt om relaties te leggen tussen bepaalde bronnen en de eigenschappen die deze bronnen
kenmerken. RDF gaat hierbij uit van de onderdelen: object, eigenschap en waarde, oftewel een triple. De bron is een object (citroen)
dat beschreven dient te worden. De generieke kenmerken van die bron vormen de eigenschappen (smaak) van het object en de
waarde (zuur) geeft invulling aan die eigenschappen. In RDF staat beschreven hoe een computerbestand eruitziet waarin triples zijn
vastgelegd, zodat andere computers ze kunnen herkennen. De triples worden uitgedrukt in XML en kunnen hierdoor (net als
HTML-bestanden) direct gepubliceerd worden op een website. Complexe dataverzamelingen (van triples) worden zo op een
uniforme manier aangeboden en doorzoekbaar gemaakt. Veen (2007) definieert RDF (samengevat) als volgt: „in XML alleen
gestructureerd kan worden en dat RDF een aanvulling is om te groeperen en specifieke relaties te leggen ‟. (p. 17). Vaak wordt RDF
in verband gebracht met het semantisch web, aangezien triples gebruikt worden om bepaalde „menselijke‟ uitspraken in vast te
leggen. Een uitspraak in een natuurlijke taal kan zijn: De Nachtwacht werd geschilderd door de Rembrandt. In een RDF Triple Store
worden metadata die RDF zijn uitgedrukt (triples) opgeslagen.
3 Dublin Core is een sectoroverstijgende metadatastandaard voor het beschrijven van online bronnen door deze van metadata te
voorzien. In zijn meest eenvoudige vorm bevat deze standaard 15 elementen (velden) waar metadata aan toegekend kan worden
Het gaat hier om de volgende 15 elementen: title (titel), creator (auteur of maker), subject (onderwerp en trefwoorden), description
(omschrijving), publisher (uitgever), contributor (andere medewerkers), date (datum), type (bestandstype)
format (bestandsformaat), identifier (bestandsidentificatie), source (bron), language (taal), relation (relatie), coverage (dekking) en
rights (rechten). Dublin Core is niet gebonden aan specifieke erfgoedsectoren (archieven, bibliotheken en musea), waardoor het kan
dienen als uitwisselingsformaat tussen samenwerkende erfgoedinstellingen. Door het maken van „mappings‟ in een metadataschema
wordt het mogelijk om bepaalde relaties tussen verschillende beschrijvingsstandaarden te leggen. (DEN, 2010)
4. Metadata: „Gestructureerde gegevens over fysieke of digitale objecten. De drie belangrijkste soorten metadata zijn: beschrijvende
metadata (nodig voor het identificeren en vinden van objecten), structurele metadata (deze leggen de relatie vast tussen individuele
objecten die gezamenlijk een eenheid vormen) en administratieve metadata (deze richten zich op beheer en management van
objecten).‟ (Bron: ABC-DE, Woordenboek voor het Digitaal Erfgoed, DEN (Den Haag, december 2008))
5. Metadataschema: „Een groep bij elkaar horende metadata-beschrijvingselementen. Een veel gebruikt metadataschema is het Dublin
Core metadataschema dat bestaat uit 15 gestandaardiseerde beschrijvingselementen. Het schema bestaat uit de naam
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 62
van ieder element en de gebruikte semantiek.‟
(Bron: ABC-DE, Woordenboek voor het Digitaal Erfgoed, DEN (Den Haag, december 2008))
6 Terminologiebronnen worden in de erfgoedsector vaak gebruikt bij inhoudelijke ontsluiting van informatieobjecten en collecties. De
toegekende termen uit deze bronnen zorgen voor de uniformiteit van de beschrijvingen, wat de toegankelijkheid van de
informatieobjecten ten goede komt. Er bestaan verschillende soorten terminologiebronnen, zoals: thesauri, gecontroleerde
woordenlijsten, classificatieschema‟s, taxonomieën en andere gecontroleerde hulpmiddelen. Meestal beschikken erfgoedinstellingen
zelf over terminologiebronnen (al dan niet digitaal) die in de loop van de hun geschiedenis vorm hebben gekregen. Er zijn ook
bepaalde standaard terminologiebronnen die in de erfgoedsector gebruikt worden. Dit om de eenduidigheid van de beschrijvingen te
verbeteren. (DEN, 2010)
7. „De Art & Architecture Thesaurus (AAT) is een wereldwijd toegepast ontsluitingsmiddel voor het toegankelijk maken van
architectuur-, kunst- en cultuurhistorische collecties in musea, bibliotheken, diatheken, archieven en documentatie-instellingen.‟
(DEN, 2010, website)
8. Thesaurus of Geographical Names. „TGN is een thesaurus, gecontroleerde vocabulaire, van geografische termen onderhouden door
het Getty Instituut. De thesaurus is ontworpen om toegankelijkheid van kunst, architectuur en erfgoed te verbeteren in Musea,
bibliotheken en archieven. Geografische termen zijn volgens thesaurusregels vastgelegd in een hierarchie en verwijzingen naar
synoniemen.‟ (DEN, 2010, website)
9. Union List of Artists Names. „ULAN is een namen database onderhouden door het Getty Instituut. De database bevat namen van
kunstenaars, naast familienamen bevat deze database ook bijnamen en pseudonymen van kunstenaars. Namen kunnen op personen
betrekking hebben, maar ook op meerdere personen (bijvoorbeeld kunstenaarsbewegingen, bedrijven, samenwerkingsverbanden
etc.).‟ (DEN, 2010, website)
10. Web Ontology Language (OWL) is gebaseerd Resource Description Framework (RDF). Het is een semantische mark-up taal en het
wordt gebruikt om ontologieën te delen en te publiceren op het web. De taal is bedoeld om relaties te leggen tussen bepaalde
begrippen. OWL legt hierbij termen vast door te identificeren hoe deze termen zich tot elkaar weerhouden. Het voordeel van OWL
is dat het een taal is dat gebruikt kan worden door andere (soortgelijke) applicaties. De semantische taal die uitgedrukt wordt in
triples (zie beschrijving RDF) wordt hierdoor steeds omvangrijker. De onderdelven van een triple krijgen dus meer betekenis
(semantiek). Deze applicaties vullen elkaar aan en bouwen op elkaar voort. (Veen, 2007)
11. Protocol and RDF Query Language (SPARQL) is een standaard query zoektaal voor (RDF) triples en sluit aan bij de ontwikkeling
van het semantisch web. Het is de bedoeling dat een zoekmachine van de toekomst met behulp van SPARQL triples kan ophalen en
vast leggen in een „triplestore‟. Het stellen van een zoekvraag (query) levert onder bepaalde selectievoorwaarden dan een verzameling
triples als zoekresultaat op. SPARQL is ontwikkeld op webniveau, is niet gebonden aan een specifiek databaseformaat en kan over
verspreide bronnen zoekopdrachten uitvoeren. Eén enkele zoekopdracht over verschillende dataopslagplaatsen is hierdoor
gemakkelijker, levert rijke zoekresultaten op en kost minder. Een voordeel van SPARQL is dat het ook op niet-uniforme gegevens
kan zoeken, gegevens uit ongelijksoortige bronnen met andere eigenschappen. (Veen, 2007)
12. Europeana Local is een project om content van lokale en regionale erfgoedinstellingen en andere contenthouders samen te brengen
en toegankelijk te maken voor de webportal van Europeana.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 63
Standaardisatie en semantisch web
1. Encoded Archival Desciption (EAD) is een XML coderingsstandaard. De standaard is gebaseerd op de conceptuele standaard
ISAD(G) en is ontwikkeld om archiefbeschrijvingen te maken, op te slaan, te publiceren, te koppelen en uit te wisselen. In de
archiefsector worden bepaalde eisen gesteld aan het beschrijven van archiefstukken. EAD is ontworpen om deze eisen veilig te
stellen en te waarborgen. In EAD worden inventarissen op gestandaardiseerde manier beschreven, waardoor samenwerking en
uitwisseling van data tussen verschillende archieven mogelijk wordt. De reden voor deze ontwikkeling is dat er behoefte was aan een
onafhankelijke coderingsstandaard voor digitale archieftoegangen (inventarissen, registers, indexen). XML zorgt ervoor dat vorm en
inhoud gecombineerd worden, oftewel het coderen van informatie. Een van de voordelen van XML is dat het wordt opgeslagen in
tekstformaat waardoor informatie makkelijk geëmigreerd kan worden naar andere computersystemen en linken naar alle andere
digitale bestanden. EAD kan daarom beschouwt worden als een open standaard, platformonafhankelijke, applicatieonafhankelijk en
wordt in de internationale archiefwereld erkend, beheerd en toegepast in de praktijk. Verder is het mogelijk om EAD te koppelen
aan de standaarden Dublin Core, MARC en EAC (Encoded Archival Context). Het nadeel van EAD is dat de standaard wel erg
flexibel is, waardoor het een uniforme presentatie van de beschrijvingen in de weg staat. Tevens is vormt de flexibiliteit van EAD
een struikelblok, aangezien hierdoor het gestandaardiseerde karakter verloren kan gaan, en zo de samenwerking stroef zal verlopen
en de uitwisseling van data bemoeilijkt wordt. (DEN, 2010) (Karsch & Keuning, 2007)
2. Encoded Archival Context (EAC) is een XML coderingsstandaard. „EAC biedt de mogelijkheid tot het delen van beschrijvingen en
het combineren en aanvullen van archivistische informatie met informatie uit bronnen buiten de archiefwereld.‟ (Karsch & Keuning,
2007, p. 1)
3. Kennis over deze standaarden en de methoden die worden ingezet om erfgoedcollecties te ontsluiten komen samen op de website
van Digitaal Erfgoed Nederland (DEN). Stichting DEN (gefinancierd door het Ministerie van OCW) is een kenniscentrum waar
kennis omtrent ICT in het culturele erfgoed gedeeld wordt. DEN laat via een projectenbank voorbeelden uit de praktijk zien. In de
projectenbank worden (lopende) projecten getoond waar verschillende erfgoedinstellingen aan deelnemen. (DEN, 2010)
4. Wordnet (a lexical database for the English language) is Engelstalige lexicon voor het web. Hier worden Engelstalige werkwoorden,
zelfstandige/bijvoeglijke voornaamwoorden en bijwoorden georganiseerd in een systeem van „cognitive synonyms‟ (synsets), waar
een onderscheidend concept in wordt uitgedrukt. Synsets zijn onderling verbonden op basis van conptuele-semantisch en
lexicologische relaties. Wordnet zorgt ervoor dat logische en natuurlijke taal op deze wijze gestructureerd worden. De applicatie is
gratis te downloaden. (DEN, 2010)
Geschiedenisvanzuidholland.nl
1. Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) is een platform-, gegevens- en leveranciersonafhankelijk
protocol waarmee men verzamelde metadata uit diverse databases online beschikbaar kan stellen. De metadata worden op een
uniforme manier uit verschillende bronnen door het protocol vergaart (harvesten), in het eigen systeem opgeslagen en doorzoekbaar
gemaakt voor derden. OAI-PMH is geen zoekprotocol als bijvoorbeeld SRU (Search and Retrieve URL Service), aangezien het niet
mogelijk is om zoekopdrachten uit te voeren. De vergaarde metadata kan van ieder bestandsformaat zijn. En om de interoperabiliteit
met andere standaarden te bewerkstelligen is Dublin Core (unqualified) de minimale eis. De link tussen de metadata en het
beschreven object hoeft niet door OAI-PMH gedefinieerd te worden. (Veen, 2007)
2. „General International Standard Archival Description [ISAD(G)] is een standaard voor het structureren en beschrijven van
informatie over archieven. ISAD(G) definieert het concept van de hiërarchische structuur en bepaalt bij het beschrijven welke
gegevens op welk niveau moeten worden ingebracht. Als zodanig is het een structurele standaard, een blauwdruk die de elementen
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 64
opsomt, waaruit een beschrijving kan bestaan. Dat levert een schema op, dat internationaal gebruikt kan worden en aldus de
uitwisseling van informatie over archieven mogelijk maakt.‟ (ODIS, 2010, website)
3. „International Standard Archival Authority Record for Corporate Bodies, Persons, and Families (ISAAR(CPF)) verschaft richtlijnen
voor het maken van archivistische geautoriseerde beschrijvingen van entiteiten (organisaties, personen en families) betrokken bij de
vorming en het beheer van archieven. ISAAR(CPF) is primair ontwikkeld om informatie over de ontstaanscontext van archieven
vast te leggen, op een gestandaardiseerde manier en zelfstandig van de beschrijving van het archief. ISAAR(CPF) is daarmee te
beschouwen als een uitwerking van het contextveld in ISAD(G), de Algemene Internationale Norm voor Archivistisch beschrijven. ‟ (DEN, 2010, website)
4. „Het Museum Inventarisatie Project (MusIP) heeft ten doel deelcollecties van musea in kaart te brengen en zo toegankelijk te maken.
Door collecties op deelcollectieniveau te ontsluiten, kan men alvast een indruk krijgen van wat musea in huis hebben.‟ (DEN, 2010,
website)
5. Spectrum (The standard for collections management) is in het Verenigd Koninkrijk ontwikkeld en is bedoeld om op een
gestructureerde manier museumcollecties te documenteren en te beheren. De standaard kent opgestelde procedures en richtlijnen.
De procedures bestaan uit 21 processen voor collectiemanagement en het beheer van museumobjecten. De richtlijnen geven
informatie over de wijze van registratie ter ondersteuning van de processen in informatie-eenheden. Naast een Engelstalige versie is
er sinds 2008 ook een Nederlandstalige versie beschikbaar. De Nederlandse versie van Spectrum wordt beheerd door de Rijksdienst
voor Cultureel Erfgoed (RCE). (DEN, 2010)
Ontsluitingsprojecten
1. AAT-Ned is een vertaling en bewerking de Engelstalige AAT (zie boven).
2. CIDOC Conceptuel Reference Model (CIDOC) (CRM) is een model dat definities en een formele structuur biedt voor het
beschrijven van archief- en andere erfgoedinformatie en die hierin besloten relaties, waardoor ze uitwisselbaar zijn. Het is een
officiële ISO-standaard en ontwikkelt door de ICOM/CIDOC Documentation Group. (Wyns, 2009)
3. Search and Retrieve URL Service (SRU) is een protocol waarmee informatie gezocht en opgevraagd kan worden. Bij het stellen van
een zoekvraag via een gestandaardiseerde URL zorgt SRU ervoor dat het in een XML-schema getoond wordt. Het voordeel volgens
Veen (2007) „van een gestandaardiseerd zoekprotocol is dat met één interface verschillende bestanden kunnen worden doorzocht‟. (p. 9). SRU is de vervanger van Z39.50, een soortgelijke standaard die gebruikt werd in het tijdperk van vóór het web. Het op
webstandaarden gebaseerde SRU is in vergelijking met zijn vervanger helemaal afgestemd op een webomgeving, waardoor de
integratie met andere webapplicaties mogelijk wordt. Het protcol maakt gebruik van de zoektaal Common Query Language (CQL)
en het is voor alle websites met een zoekinterface zeer relevant. SRU wordt ook veel gebruikt bij het doorzoeken van bibliografische
gegevens. (Veen, 2007) Zo zorgt SRU ervoor dat erfgoedinstellingen hun digitale objecten en metadata kunnen terugvinden en dat
ze deze data in wisselende vormen aan de eindgebruiker kunnen presenteren. Bovendien kan informatie toegankelijk en hergebruikt
worden voor webportals. Verder hoeft men met SRU geen kennis te hebben over de data zelf en de techniek die achter deze
standaard schuilgaat. (Veen, 2007) (DEN, 2010)
Gebruiker, context en semantisch web
1. CIDOC-Richtlijnen; „De Committee on Documentation of the International Council of Museums (CIDOC) heeft richtlijnen
opgesteld met minimale eisen waaraan een museum moet voldoen bij registratie van museale objecten.‟ (DEN, 2010, website)
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 65
Interviews
In het kader van mijn onderzoek zijn in het voorjaar van 2010 de volgende personen
geïnterviewd:
Bussel, Geert-Jan van. Adviseur archiveringssystemen, docent/onderzoeker aan de
Archiefschool (HvA)
Datum/tijd/locatie: woensdag 12 mei 2010, 09:00 uur,
Van Bussel Document Services (Helmond)
Guns, Raf. Onderzoeker aan de Universiteit van Antwerpen
Datum/tijd/locatie: dinsdag 11 mei 2010, 12:00 uur, Universiteit van Antwerpen
Hildebrand, Michiel. Onderzoeker aan de Vrije Universiteit Amsterdam
Datum/tijd/locatie: woensdag 2 juni 2010, 11:00 uur, Vrije Universiteit
Horsman, Peter. Onderzoeker en docent aan de Universiteit van Amsterdam
Datum/tijd/locatie: woensdag 19 mei 2010, 13:30 uur,
Universiteit van Amsterdam
Malliet, Jef. Coördinator Erfgoedplus.be. (schriftelijk interview)
Streefkerk, Marco. Senior medewerker Digitaal Erfgoed Nederland
Datum/tijd/locatie: dinsdag 25 mei 2010, 13:00 uur,
Koninklijke Bibliotheek (Den Haag)
Veken, Tim. Medewerker/archivaris Groene Hart Archieven
Datum/tijd/locatie: maandag 3 mei 2010, 14:00 uur,
Groene Hart Archieven (Gouda)
Vries, Kirsten de. Consulent PHC, museumspecialist
Datum/tijd/locatie: donderdag 29 april 2010, 11:00 uur,
Erfgoedhuis Zuid-Holland (Delft)
Waalwijk, Hans. Docent en onderzoeker aan de Archiefschool (HvA)
Datum/tijd/locatie: woensdag 19 mei 2010, 10:30 uur,
Hogeschool van Amsterdam
Wellenberg, Marloes. Webredacteur v/d wensite www.geschiedenisvanzuidholland.nl
Datum/tijd/locatie: maandag 3 mei 2010, 11:00 uur,
Erfgoed Zuid-Holland (Delft)
Zandhuis, Ivo. Onderzoeker en adviseur voor digitale ontsluiting van culturele
informatie.
Datum/tijd/locatie: dinsdag 4 mei 2010, 14:30 uur,
Erfgoedhuis Zuid-Holland (Delft)
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 66
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 67
Literatuurlijst
Anderson, J.Q. & L. Rainie (2010). The Fate of the Semantic Web. [rapport]. Elon
University & Pew Research Center‟s Internet & American Life Project. Geraadpleegd
op: 20 juni 2010, van: http://pewinternet.org/~/media//Files/Reports/2010/PIP-
Future-of-the-Internet-Semantic-web.pdf
Aroyo, L. Hollink, L., G. Schreiber et.al. (2009) Using Semantic Relations for Content-based
Recommender Systems in Cultural Heritage. Eindhoven University of Technology,
Computer Science & VU University Amsterdam, Computer Science. Geraadpleegd
op: 23 juli 2010, van: http://www.chip-project.org/presentation/wangetal-wop.pdf
Bussel, G.J. van. [persoonlijk interview]. 12 mei 2010.
DEN (Digitaal Erfgoed Nederland). (2010) ICT-register. Geraadpleegd op: 9 augustus
2010, van:
http://matrix.den.nl/matrix.aspx?matrixid=register&view=Digitaal_Erfgoed
Erfgoedplus.be. (2010). Homepage. [schermvoorbeeld]. Geraadpleegd op: 8 september
2010, van:
http://www.erfgoedplus.be/erfgoedplus/index.jsp#sm=&page=homePage
Erfgoedplus.be. (2010) Technisch. Geraadpleegd op: 10 september 2010, van:
http://www.erfgoedplusinfo.be/technisch
Erfgoedplus.be. (2010). Wie kan Erfgoedplus.be gebruiken?. Geraadpleegd op: 8
september 2010, van: http://www.erfgoedplusinfo.be/wie-kan-erfgoedplusbe-
gebruiken
Erfgoedplus.be. (2010). Zoekresultaat. [schermvoorbeeld]. Geraadpleegd op: 8
september 2010, van:
http://www.erfgoedplus.be/erfgoedplus/index.jsp#sm=q41%3Berfgoedplus.project
PivotQuerySet.Artefacts5%3Btitleats20%3B2creator%2Cconservator6%3BRubens&p
age=resultsPage
Erfgoedhuis Zuid-Holland. Wat doen wij voor archieven. Geraadpleegd op: 15 april 2010,
van: http://www.erfgoedhuis-zh.nl/wat-doen-wij-voor/archieven
Erfgoedhuis Zuid-Holland. (2007). Visie en activiteitenplan; Hoe verder met
www.geschiedenisvanzuidholland.nl?. [rapport].
Europeana.eu. (2010) Hompage. Geraadpleegd op: 10 september 2010, van:
http://www.europeana.eu/portal/
Europeana Semantic Search Engine. (2010. [schermvoorbeelden] Geraadpleegd op: 10
september 2010, van: http://eculture.cs.vu.nl/europeana/session/search
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 68
Geschiedenis van Zuid-Holland. Geraadpleegd op: 14 september 2010, van:
http://www.geschiedenisvanzuidholland.nl/
Guns, R. [persoonlijk interview]. 11 mei 2010.
Guns, R. Social networks in Agrippa and semantic technology. Universiteit van Antwerpen.
Geraadpleegd op: 10 september 2010, van:
http://www.boekentoren.be/media/docs/GUNS_AS_MAY08.pdf
Guns, R. Social networks in Agrippa and semantic technology. Universiteit van Antwerpen.
[schermvoorbeelden]. Geraadpleegd op: 10 september 2010, van:
http://www.boekentoren.be/media/docs/GUNS_AS_MAY08.pdf
Hermans, P. (2009). Web 3.0, Linked Data en semantische technologie voor data-integratie en
mashups. [rapport]. Geraadpleegd op: 24 augustus 2010, van:
http://www.dbm.nl/dbm.nl/media/dbm.nl/Web3_Hermans.pdf
Hildebrand, M. [persoonlijk interview]. 2 juni 2010.
Horsman, P. [persoonlijk interview]. 19 mei 2010.
Intro to the Semantic Web. [online videoclip]. Geraadpleegd op: 19 juli 2010, van:
http://www.youtube.com/watch?v=OGg8A2zfWKg&feature=player_embedded
Isaac, A. (2010). Europeana and linked cultural heritage data. Geraadpleegd op: 24
september 2010, van: http://www.few.vu.nl/~aisaac/talks/Isaac-Talk-ICT10.pdf
Karsch, M. & J. Keuning. (2007). EAD en EAC - grensoverschrijdend en grensverleggend;
Het converteren van archivistische toegangen naar XML-standaarden. Hogeschool van
Amsterdam. Geraadpleegd op: 6 juli 2010, van:
http://resolver.sabinfo.nl/?method=c_sabportal.act_serve_doc&filename=/public/te
am_erfgoed/ead_en_eac.pdf
Leistra, J. & T. Luger, (red.). (2008). Handreiking voor het schrijven van een collectieplan (3e
herziene druk). Instituut Collectie Nederland/Stichting LCM, derde herziene druk,
Amsterdam. Geraadpleegd op: 1 oktober 2010, van:
http://www.museumconsulenten.nl/file.php?fileName=7KkF50mVpheH6EDKhaWl
45OrFqQDMT
Letterenhuis. (2010). Het geheugen van de Vlaamse literatuur. Geraadpleegd op: 10
september 2010, van:
http://www.letterenhuis.be/eCache/MDN/30/02/435.bWFpbj0zMDAyNDEw.htm
l
Malliet, J. [schriftelijk interview]. 20 mei 2010.
Geschiedenisvanzuidholland.nl & Semantisch web – Afstudeeropdracht 69
ODIS. (2010). ISAD (G). Geraadpleegd op: 12 augustus 2010, van:
http://www.odis.be/ned/dat/standaardnormen.htm
PHC. Geschiedenis van Zuid-Holland. Geraadpleegd op: 15 september 2010, van:
http://www.geschiedenisvanzuidholland.nl/
Pitti, Daniel V. (2004) Creator Description; Encoded Archival Context. University of
Virginia. Geraadpleegd op: 7 oktober 2010, van:
http://www.sba.unifi.it/ac/relazioni/pitti_eng.pdf
Stichting Archiefpublicaties. (2010). Publicaties. Geraadpleegd op: 14 oktober 2010,
van: http://www.archiefpublicaties.nl/publicaties_vervolg.php?id=7
Streefkerk, M. [persoonlijk interview]. 25 mei 2010.
Streefkerk, M. (2010). UNICUM. Geraadpleegd op: 20 oktober 2010, van:
http://www.digitaalallemaal.nl/?p=1843
Teuling, A.J.M. den. (2003). Archiefterminologie voor Nederland en Vlaanderen. Den Haag:
Stichting Archiefpublicaties.
Thomassen, T. (2000). Context, Interpretatiekaders in de archivistiek. Het begrip context in de
archiefwetenschap. Den Haag: Stichting Archiefpublicaties. p. 15-28.
Veen, T.M. van. (maart 2007) Standaarden voor gegevensuitwisseling.
Informatiewetenschap www.factomedia.nl. Geraadpleegd op: 24 augustus 2010, van:
http://www.factomagazinesubsite.nl/iwabase/downloads/informatiewetenschap.pdf
Wellenberg, M. [persoonlijk interview]. 3 mei 2010.
Vries, K. de. [persoonlijk interview]. 29 april 2010.
Wubs, H. & F. Huysmans. (2006) Snuffelen en graven; Over doelgroepen van digitaal
toegankelijke archieven. Sociaal en Cultureel Planbureau Den Haag.
Wyns R. (2009) Workshop ‘Metadata, Ontologieën en het Semantisch Web. Athena; Access to
cultural heritage networks across Europe. Geraadpleegd op: 3 juni 2010, van:
http://www.kunstenenerfgoed.be/ake/download/nl/2975152/file/reader_semantiek.
Zandhuis, I. [persoonlijk interview]. 4 mei 2010.
Zandhuis, I. (juni 2010). Fundamenten in verandering; archieven op het Semantisch Web.
Archievenblad, 5, p. 10-14. Geraadpleegd op: 20 juni 2010, van:
http://www.kvan.nl/beheer/_openwysiwyg/popups/upload/AB%202010%2005%2
0Semantisch%20web.pdf