Scriptie Hoe Tagt u Ons Cultureel Erfgoed - B_Klein

Hoe tagt u ons cultureel erfgoed?

Tagging als aanvulling op traditionele onderwerpsontsluiting.

Bart Klein B*art

2

COLOFON

Hoe tagt u ons cultureel erfgoed?

Tagging als aanvulling op traditionele onderwerpsontsluiting.

“Classification is a way of seeing.” B.H. Kwasnik (1999)

Auteur:

Bart Klein [0629952]

Master scriptie Documentaire Informatiewetenschap (DIW)

Scriptiebegeleider:

Prof. dr. J.S. Mackenzie Owen

Referent:

Dr. Ir. J. Kamps

Universiteit van Amsterdam (UvA)

Leerstoelgroep Archief- en Informatiewetenschap

17 juli 2009

Foto titelblad:

Word Cloud gemaakt met Wordle.net.

Tags:

Scriptie, The Commons, tagging, folksonomie, Library of Congress, Information Retrieval, thesis, vocabulaires,

indexen, social classification, Flickr, IR, foto’s, ontsluiting, web 2.0, democratic indexing.

3

INHOUDSOPGAVE

Colofon ............................................................................................................................................................ 2

Lijst met figuren, tabellen en grafieken ............................................................................................................ 5

Voorwoord ....................................................................................................................................................... 6

Samenvatting ................................................................................................................................................... 7

1 Inleiding.................................................................................................................................................... 8

1.1 Een foto zegt meer dan duizend woorden ............................................................................................ 8

1.2 Interactie met de gebruiker ................................................................................................................... 8

1.3 Library of Congress en Flickr .................................................................................................................. 8

1.4 Onderzoeksvraag ................................................................................................................................... 9

1.5 Leeswijzer ............................................................................................................................................ 10

2 Image retrieval ....................................................................................................................................... 11

2.1 Concept- of text-based retrieval .......................................................................................................... 11

2.2 Content-based image retrieval (CBIR) ................................................................................................. 12

3 Indexeren ............................................................................................................................................... 14

3.1 Information Retrieval .......................................................................................................................... 14

3.2 Indexeringsproces ................................................................................................................................ 14

3.3 Classificaties en indexen ...................................................................................................................... 15

3.4 Trefwoordensystemen en thesauri ..................................................................................................... 16

3.5 Effectiviteit van gecontroleerde vocabulaires ..................................................................................... 17

4 Conceptanalyse ...................................................................................................................................... 19

5 Tagging: indexeren door de gebruiker .................................................................................................... 22

5.1 Tagging als concept ............................................................................................................................. 22

5.2 Relatie met Web 2.0 en het semantic web ......................................................................................... 22

5.3 De architectuur van een taggingsysteem ............................................................................................ 23

5.3.1 Gebruiker......................................................................................................................................... 24

5.3.2 Tags ................................................................................................................................................. 25

5.3.3 Systeem ........................................................................................................................................... 26

5.4 Zoeken met tags .................................................................................................................................. 29

5.5 Tagging en gecontroleerde vocabulaires ............................................................................................. 31

6 Onderzoek naar het taggebruik op Flickr The Commons ......................................................................... 34

6.1 Flickr .................................................................................................................................................... 35

4

6.2 Gerelateerd tagging onderzoek ........................................................................................................... 35

6.3 Op weg naar een tag-raamwerk .......................................................................................................... 36

6.4 Classificeren van tags ........................................................................................................................... 40

6.5 Datacollectie verzamelen .................................................................................................................... 41

6.6 Wie is de gebruiker? ............................................................................................................................ 42

6.7 Hoe is het vocabulair opgebouwd? ..................................................................................................... 43

6.7.1 Overzicht resultaten ........................................................................................................................ 43

6.7.2 Perceptuele attributen .................................................................................................................... 44

6.7.3 Interpretatieve attributen ............................................................................................................... 45

6.7.4 Creativiteit met tags ........................................................................................................................ 46

6.8 Beperkingen ......................................................................................................................................... 47

7 Conclusie ................................................................................................................................................ 48

7.1 Culturele instellingen op zoek naar nieuwe vormen van ontsluiting .................................................. 48

7.2 Taggingsystemen als snelle laag .......................................................................................................... 48

7.3 Tagginsystemen met hulp van onderaf ............................................................................................... 49

7.4 Hoe ver moet je gaan? ......................................................................................................................... 50

7.5 Waarom is tagging een aanvulling? ..................................................................................................... 50

Literatuur ....................................................................................................................................................... 51

5

LIJST MET FIGUREN, TABELLEN EN GRAFIEKEN

Figuur 1. Leeswijzer theoretisch kader ................................................................................................................. 10

Figuur 2. CBIR Zoekmachine .................................................................................................................................. 12

Figuur 3. Information retrieval paradigma ............................................................................................................ 14

Figuur 4. Stappen in subject indexing ................................................................................................................... 15

Figuur 5. Categorie 200: Religion uit de DDC ........................................................................................................ 16

Figuur 6. Foto Ignore door joey Lawrence ( http://www.joeyl.com/)................................................................. 19

Figuur 7. Taggingsysteem ...................................................................................................................................... 23

Figuur 8. Narrow en broad folksonomy ................................................................................................................ 27

Figuur 9. Vorm van Viewable tagging ................................................................................................................... 28

Figuur 10. Mijn Flickr contacten ............................................................................................................................ 29

Figuur 11. Flickr Tagcloud van de Library of Congress .......................................................................................... 30

Figuur 12. Grafiek van representatie systemen uit (Weller 2007) ........................................................................ 32

Figuur 13. Onderzoeksopzet ................................................................................................................................. 34

Figuur 14. Piramide model van Jaimes en Chang .................................................................................................. 37

Figuur 15. Uitsnede uit tag analyse ....................................................................................................................... 41

Tabel 1. Panofsky's levels of meaning ................................................................................................................... 20

Tabel 2. Opties in Flickr ......................................................................................................................................... 35

Tabel 3. Levels of meaning .................................................................................................................................... 38

Tabel 4. Modellen samengevat ............................................................................................................................. 39

Tabel 5. Tag-raamwerk t.b.v. onderzoek .............................................................................................................. 40

Tabel 6. Metadata van API flickr.favorites.getlist ................................................................................................. 41

Tabel 7. Uitwerking van tag-raamwerk ................................................................................................................. 44

Grafiek 1. Datacollectie ......................................................................................................................................... 42

Grafiek 2. Aantal tags geplaatst per gebruiker...................................................................................................... 42

Grafiek 3. Frequentie van getagte foto's .............................................................................................................. 43

6

VOORWOORD

Deze scriptie is geschreven vanuit mijn passie voor fotografie. De fotocamera gaat moet elke vakantie mee op

zware bergtochten waar ook ter wereld. Ondanks het feit dat mijn rugzak al zwaar genoeg is met een tent,

slaapzak, kleding, water en eten voor een week (zo’n 17 kilo) tors ik met alle plezier ook nog eens twee kilo aan

fotomateriaal mee de berg op. Elk avontuur moet op het digitale negatief worden vastgelegd en bij thuiskomst

gedeeld worden met familie en vrienden. In het begin waren vrienden en familie ontzettend enthousiast en

luisterden aandachtig en vol bewondering naar onze avontuurlijke bergtochten. Maar na een paar vakanties

verder waren de foto’s in hun ogen allemaal hetzelfde. Veel gevallen uitspraken zijn: “Ja, alle bergen zijn

hetzelfde.”, “Berggeiten heb je ook in Artis.” of “ Ja leuk, maar hebben jullie niet iets cultureels gedaan?” Het

werd dus hoog tijd om op zoek te gaan naar nieuwe vakantieactiviteiten (verhalen en foto’s die wel weer

indruk maken) of nieuwe vrienden en familie. De voorliefde voor de bergen zal altijd blijven bestaan, dus koos

ik voor het laatste. Niet letterlijk natuurlijk, maar de fotowebsite Flickr bracht wel uitkomst.

Met Flickr kon ik eindelijk al mijn berg foto’s delen met de rest van de wereld zonder commentaar te krijgen

dat de diashow veel te lang en te saai is. Op Flickr vond ik gelijkgestemden die ook verslaafd zijn aan de bergen

en fotografie. De Flickr leden namen zelfs de tijd om te reageren op mijn foto’s. Enthousiast als ik werd ging ik

op zoek naar informatie voor volgende bergtochten. Met behulp van tags zoek ik tegenwoordig naar foto’s,

landkaarten en verhalen over mijn nieuwe reis bestemmingen. Deze tags zijn door de gebruikers geplaatst bij

de foto wat het voor mij mogelijk maakt de foto terug te kunnen vinden. Soms plaats ik een berichtje bij een

foto of vraag ik waar de foto gemaakt is en vraag ik naar informatie over het gebied om goed voorbereid op

stap te gaan.

Culturele instellingen hebben inmiddels ook de website Flickr ontdekt en vragen andere gebruikers ook om

hulp. In dit geval niet naar hulp over nieuwe reisbestemmingen, maar hulp in het mee beschrijven van foto’s uit

hun collecties. Gebruikers krijgen de mogelijkheid om in hun eigen woorden tags en commentaar te leveren bij

een foto. Een geweldig avontuur voor de culturele sector waarin nog vele bergen verzet moeten worden. Maar

de eerste stap is gezet!

B*art

7

SAMENVATTING

Tagging is een nieuwe vorm van information retrieval waarbij een gebruiker een bepaald object labelt met

trefwoorden. Een verzameling van deze trefwoorden wordt een folksonomie genoemd. Culturele instellingen

zien deze nieuwe vorm van retrieval als interessante optie als aanvulling op traditionele ontsluitingsmethoden.

In de scriptie is te lezen hoe tagging zich verhoudt tegenover andere systemen voor onderwerpsontsluiting bij

het indexeren van foto’s en hoe gebruikers foto’s taggen op de fotowebsite Flickr.

Tagging is een nieuwe vorm van concept-based retrieval. Concept-based image retrieval maakt gebruik van een

tekstuele expressie van de foto. Deze tekstuele expressie resulteert in een lijst met woorden die gecontroleerd

of ongecontroleerd zijn. Een folksonomie is ook zo’n woordenlijst waaraan verschillende gebruikers woorden

(tags) hebben toegevoegd. Eén van de belangrijkste eigenschappen van een folksonomie is dat gebruikers

geheel vrij zijn in het toekennen van tags. Nadelen van een taggingsysteem is dat er geen rekening wordt

gehouden met synoniemen, homoniemen, spellingsvarianten en dergelijke. Het grote voordeel van een

taggingsysteem ten opzichte van gecontroleerde vocabulaires is dat het breed toepasbaar is, eenvoudig werkt

en zich aanpast aan de vocabulaires van de gebruikers.

Het onderzoek richt zich op het taggebruik van foto’s in The Commons op Flickr. The Commons is een omgeving

waarin culturele instellingen foto’s kunnen plaatsen. Gebruikers hebben de mogelijkheid om niet alleen de

foto’s te kunnen bekijken, maar kunnen ook actief commentaar leveren en tags plaatsen bij de foto’s. Zo werkt

het ook met de twee collecties van de Library of Congress welke de basis zijn voor het onderzoek. 50 foto’s met

de daarbij behorende tags uit de collectie zijn geanalyseerd op basis van een tag-raamwerk. Dit tag-raamwerk

bestaat uit 15 attributen welke zijn onderverdeeld in twee semantische niveaus, het perceptuele en

interpretatieve niveau. Het raamwerk vindt zijn oorsprong in de conceptanalyse welke door Panofsky en

Shatford grotendeels is vormgegeven.

Uit de analyse blijkt dat 24,4% perceptuele tags zijn. Perceptuele tags vragen niet om specifieke kennis van de

gebruiker en hoeven alleen af te gaan op de visuele kenmerken van een foto. 63,97% van de tags zijn

interpretatieve tags. Deze tags vragen om specifieke kennis van de gebruiker. 17,86% van de tags geven een

beschrijving van objecten. Daarna volgt met 12,28% tags gerelateerd aan menselijke attributen. Veel tags zijn

gericht op een locatie of vertellen de content/verhaal/scene van een foto. Heel weinig tags hebben betrekking

op de visuele kenmerken van een foto.

Taggingsystemen functioneren het beste als aanvulling op bestaande gecontroleerde vocabulaires. De

systemen hebben op deze manier een toegevoegde waarde op elkaar. Om dit te verduidelijk is het pace-

layering model gebruikt. Taggingsystemen zijn in dit model de buitenste snelle flexibelere laag terwijl

gecontroleerde vocabulaires de langzame, binnenste laag zijn. Gecontroleerde vocabulaires zijn de fundering

van een huis en taggingsystemen het interieur welke mee veranderd met de mode. Eventuele aanpassingen

aan taggingsystemen ter verbetering van de retrieval moeten voorzichtig genomen worden. Tenslotte bepalen

de gebruikers de inhoud van het taggingsysteem. Aanpassingen zijn mogelijk door de gebruiker op te leiden en

meer input te vragen. Ook wel tagondersteuning genoemd. Of tekortkomingen in een systeem kunnen

automatisch herkend en opgelost worden.

8

1 INLEIDING

1.1 EEN FOTO ZEGT MEER DAN DUIZEND WOORDEN

Als een foto1 meer dan duizend woorden zegt, dan zou iedere beschrijving van een foto ook uit meer dan

duizend woorden moeten bestaan. Misschien is dit wat overdreven, maar zonder een gedegen beschrijving is

een foto niet vindbaar voor een gebruiker. Een foto op zichzelf is namelijk maar beperkt terug te vinden.

Anders dan bij tekstuele documenten, waarbij de inhoud van de tekst gebruikt wordt voor de ontsluiting, heeft

een foto (bijna) geen inhoudelijke kenmerken op basis waarmee een zoeksysteem de foto terug kan vinden.

Een foto kan alleen worden teruggevonden als er tekstuele informatie gekoppeld wordt aan de foto. Culturele

instellingen, zoals musea, bibliotheken en foto- en audiovisuelearchieven, ontwikkelden systemen voor de

onderwerpsontsluiting van foto’s en gaven hiermee toegang tot hun fotocollecties. Daarbij spanden de culture

instellingen zich in voor het digitaliseren van grote hoeveelheden foto’s. Miljoenen foto’s werden online

beschikbaar gesteld, maar de toegankelijkheid naar deze foto’s is in veel gevallen erg beperkt. Beschrijvingen

van foto’s zijn beperkt omdat culturele instellingen beperkt budget hebben en de foto’s niet te diep ontsluiten.

1.2 INTERACTIE MET DE GEBRUIKER

Culturele instellingen zagen ook deze beperkingen en zochten naar nieuwe mogelijkheden om hun foto’s

beschikbaar te stellen. Een mogelijke oplossing zagen de culturele instellingen in nieuwe ontwikkelingen op het

web die het mogelijk maken om foto’s in een socialere en flexibelere omgeving te presenteren en actief te

delen met de gebruiker2. Het actief delen van foto’s kan resulteren in een open instelling waarin niet alleen

specialisten zich bezighouden met de collectie maar juist de bezoeker gemotiveerd wordt om foto’s te verrijken

en toegankelijk te maken. Het grote publiek kan een actieve rol spelen bij de verrijking van foto’s door hun

kennis, ervaring, mening en verhalen hieraan toe te voegen. Een mogelijke manier om dit te doen is door

reacties te plaatsen of de foto’s te voorzien van trefwoorden. Het labelen van foto’s met trefwoorden, die op

het internet tags worden genoemd, verrijken de huidige, veelal beperkte, beschrijving en vormen nieuwe

zoekingangen voor gebruikers. Het plaatsen van de tags wordt op het web tagging genoemd.

1.3 LIBRARY OF CONGRESS EN FLICKR

Culturele instellingen zien interessante mogelijkheden in het gebruik van tagging en experimenteren, naast hun

traditionele manier van indexeren, hier volop mee. Tagging wordt door Sterling (2005) zelfs gezien als “a

revolution in the art and science of categorization”. Of taggingsystemen de aloude classificatie standaarden

zullen vervangen is nog maar sterk de vraag. Maar het idee dat iedereen een bijdrage kan leveren aan de

beschrijving van een object door tagging wordt in de culturele sector zeker gezien als een mogelijkheid om de

huidige objecten te verrijken met reacties zonder hoge kosten.

“Tagging represents an investment in the museum’s collection by an individual. The visitor adds value

for themselves, for the museum, and for other visitors by revealing different perspectives and

contexts.”(Trant 2006, 86)

Voorbeelden van culturele instellingen die op hun eigen website experimenteren met taggingsystemen zijn het

Powerhouse Museum3, Smithsonian Photography Initiative

4, Steve.Museum

5 en het Brooklyn Museum

6. Het

1 De letterlijke definitie van een foto is een opname of afdruk van een fotografische opname. Een ruimere betekenis van een foto is een

afbeelding welke gedefinieerd kan worden als een beeld van iets dat in de werkelijkheid of gedachte bestaat, voorbeelden hiervan zijn

landkaarten, prenten of tekeningen. Er is gekozen voor de term foto omdat het merendeel van het beeldmateriaal op Flickr bestaat uit

fotografisch materiaal. 2 Paragraaf 5.3.1 gaat verder in op de verschillende type gebruikers.

3 http://www.powerhousemuseum.com

4 http://photography.si.edu/

5 http://www.steve.museum

6 http://www.brooklynmuseum.org

9

nadeel van deze projecten is dat bezoekers specifiek de website van het desbetreffende instelling moet

bezoeken. Een goed alternatief hiervoor is om als instelling te participeren in reeds bestaande sociale websites.

De samenwerking tussen de fotowebsite Flickr en enkele culturele instellingen is hier een goed voorbeeld van.

Flickr is een fotowebsite opgericht in 2004 waarop mensen hun foto’s kunnen delen met anderen. Inmiddels

staan er zo’n 2,3 miljard foto’s op Flickr en komen er per dag 1 miljoen foto’s bij. De kracht van Flickr is de

interactie tussen de leden van de Flickr gemeenschap. 20 miljoen mensen zijn actief op Flickr om hun foto’s te

delen met iedereen. Op 16 januari 2008 startten de Amerikaanse Library of Congress (LOC) en Flickr een

samenwerking onder de naam Flickr The Commons7. The Commons biedt culturele instellingen de mogelijkheid

om foto’s uit hun collectie online op Flickr te plaatsen en te presenteren aan de Flickr gemeenschap. De Flickr

gemeenschap heeft de mogelijkheid om te reageren op deze foto’s door ze toe te voegen aan hun favorieten,

commentaar te leveren of te voorzien van tags. Het project is een groot succes, binnen twee dagen werden

zo’n 20.000 tags toegevoegd aan de collectie. Inmiddels zijn er 23 instellingen, waaronder het Nederlandse

Nationaal Archief, aangesloten bij The Commons.

1.4 ONDERZOEKSVRAAG

Culturele instellingen zoeken naar nieuwe mogelijkheden om hun objecten te presenteren en proberen de

bezoeker hier actief bij te betrekken. Het is niet meer alleen de professional, zoals de bibliothecaris, die

objecten indexeert, maar ook de gebruiker. Er vindt als het ware een verschuiving plaats van een monologe

naar een dialoge methode van indexeren (Rafferty en Hidderley 2007, 398). Deze scriptie onderzoekt de

nieuwe mogelijkheden die tagging biedt voor het indexeren van foto’s wat resulteert in de volgende

onderzoeksvraag:

Hoe verhoudt tagging zich tegenover andere systemen van onderwerpontsluiting in algemene zin en hoe wordt

er getagt in The Commons op Flickr.com in specifieke zin?

Het onderzoek richt zich op drie doelstellingen. Deze doelstellingen worden bereikt door beantwoording van de

deelvragen.

Doelstelling A: Begrip van tagging en de mogelijkheden hiervan.

1. Wat is image retrieval?

2. Wat is onderwerpontsluiting en hoe werken indexeersystemen?

3. Hoe indexeer je een foto?

4. Wat is tagging?

5. Wat is de relatie tussen tagging met andere systemen voor onderwerpsontsluiting?

Doelstelling B: Inzicht in het taggedrag in The Commons op Flickr.

1. Wat is de input van gebruikers:

Wie en hoe vaak taggen gebruikers foto’s in the Commons?

2. Hoe is het vocabulaire van het taggingsysteem opgebouwd?

Doelstelling C: Oriëntatie naar de positie van taggingsystemen ten opzichte van andere vormen van

onderwerpsontsluiting.

1. Zijn taggingsystemen een aanvulling op traditionele vormen van onderwerpsontsluiting?

2. Hoe kunnen huidige tagsystemen verbeterd worden?

7 http://flickr.com/commons

1.5 LEESWIJZER

De scriptie is opgedeeld in twee delen, het eerste deel is het theoretisch kader (hoofdstuk 2 t/m 5) en legt de

basis voor het empirisch onderzoek welke in het tweede deel (hoofdst

leeswijzer voor het theoretisch kader

indexeringsproces, welke uitgesplitst kan worden in

wordt nader uitgewerkt in hoofdstuk 3. De fase va

betekenis (Hoofdstuk 4) en vormt de basis voor het onderzoeksmodel (

conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (

t/m §3.5) of met behulp van folksonomieën (hoofdstuk 5).

naar het taggedrag in Flickr The Commons.

onderzoeksresultaten vertaald naar conclusies en aanbevelingen voor de culturele sector.

FIGUUR 1. LEESWIJZER THEORETISCH KADER

Information Retrieval

Image RetrievalH2 +

CBIR§2.1

ConceptanalyseH4

Levels of MeaningH4 + §6.2


onderzoek welke in het tweede deel (hoofdstuk 6) wordt behandeld.

wijzer voor het theoretisch kader. Hoofdstuk 2 behandelt de retrieval mogelijkheden voor

indexeringsproces, welke uitgesplitst kan worden in een fase van conceptanalyse en

wordt nader uitgewerkt in hoofdstuk 3. De fase van conceptanalyse gaat in op de verschillende vormen van

en vormt de basis voor het onderzoeksmodel (§6.2). De representatie van de

conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (

folksonomieën (hoofdstuk 5). Hoofdstuk 6 is de uitwerking van het onderzoek

naar het taggedrag in Flickr The Commons. In hoofdstuk 7 wordt de relatie tussen de theorie en de

vertaald naar conclusies en aanbevelingen voor de culturele sector.

THEORETISCH KADER

Information Retrieval≥

Image RetrievalH2 + §3.1

Concept based retrieval

§2.2

IndexeringsprocesH3

Levels of Meaning

RepresentatieH3

Gecontroleerdevocabulaires§3.3 t/m §3.5

FolksonomieënH5

Overeenkomsten

10


uk 6) wordt behandeld. Figuur 1 dient als

. Hoofdstuk 2 behandelt de retrieval mogelijkheden voor foto’s. Het

conceptanalyse en een representatiefase,

n conceptanalyse gaat in op de verschillende vormen van

6.2). De representatie van de

conceptanalyse kan plaatsvinden door gebruik te maken van bijvoorbeeld gecontroleerde vocabulaires (§3.3

Hoofdstuk 6 is de uitwerking van het onderzoek

wordt de relatie tussen de theorie en de

vertaald naar conclusies en aanbevelingen voor de culturele sector.

Overeenkomsten

&

Verschillen

§5.5

11

2 IMAGE RETRIEVAL

Naast spraak is tekst al vele eeuwen het meest gebruikte middel om te communiceren. De behoefte om te

communiceren via geluid, foto en video is de afgelopen jaren sterk toe genomen. Bibliotheken en andere

informatie-instellingen ontwikkelen systemen voor het opslaan, verwerken en terugvindbaar maken van deze

multimediale informatie. Systemen ontwikkeld voor het indexeren, beschrijven en terugvindbaar maken van

foto’s wordt image retrieval genoemd. In de literatuur wordt onderscheid gemaakt tussen twee vormen (Enser

2000; Trant 2004; Goodrum 2000):

1. Concept- of text-based retrieval

2. Content-based image retrieval (CBIR)

Concept- of text-based retrieval is gebaseerd op een zoeksysteem welke met behulp van tekstuele context

zoeken mogelijk maakt. CBIR richt zich op technische oplossingen op basis van de kenmerken van een foto. In

de volgende paragrafen worden deze twee systemen nader uitgewerkt.

2.1 CONCEPT- OF TEXT-BASED RETRIEVAL

Concept- of text-based retrieval systemen maken gebruik van een catalogus van de fotocollectie. Iedere foto

heeft een eigen record met een identificatiecode eventueel aangevuld met een tekstuele beschrijving van het

object. Zo’n record is een tekstuele surrogaat van de foto. De vastgelegde gegevens over een foto worden

metadata genoemd. Simpel gezegd is metadata data over data. Complexer gezien is metadata informatie over

fysieke of digitale bronnen zoals boeken, documenten, foto’s, standbeelden, enz. Baca e.a. (2000) beschrijven

metadata als:

“The sum total of what one can say about any information object at any level of aggregation.”

Een informatieobject is in deze context iets dat herkend en gemanipuleerd kan worden door mens of machine

als een entiteit. Het object kan bestaan uit één item of een verzameling van meerdere items als in een collectie

of zelfs een complete database. Met andere woorden, er wordt informatie vastgelegd niet alleen over het

digitale surrogaat van het originele object maar ook over de gerelateerde objecten en collecties. De

vastgelegde metadata van een informatieobject kan op verschillende manieren worden ingedeeld. De NISO

(2004) hanteert de volgende indeling van verschillende vormen van metadata:

1. Beschrijvende metadata

2. Structurele metadata

3. Administratieve metadata

4. User metadata

Beschrijvende metadata vertelt iets over de content van het object. Het maakt het mogelijk om het object te

identificeren. Beschrijvende metadata bevat bijvoorbeeld de titel, auteur, samenvatting en trefwoorden. De

structurele metadata beschrijft de relaties tussen de individuele informatieobjecten, zoals de verschillende

hoofdstukken in een boek. De administratieve metadata, zoals de datum van creatie en het file-type, maakt het

mogelijk de objecten te beheren. De user-metadata legt gegevens vast over de patronen van de gebruiker. Wat

zoekt de gebruiker? Welke objecten bekijkt de gebruiker? De vier vormen van metadata zijn geen afzonderlijke

aspecten, de beschrijvende metadata kan ook deel uitmaken van de administratieve metadata. Naast het

toekennen van verschillende vormen van metadata moet een informatiespecialist overwegen op welk niveau

de toegekende metadata moet worden vastgelegd. Een optie is om bij iedere foto afzonderlijk metadata toe te

kennen of de informatiespecialist kan besluiten op het niveau van de collectie gegevens vast te leggen. De keus

ligt in de hand van de specialist en hangt af van beschikbare tijd, geld en kennis. Veelal worden er standaarden

en richtlijnen opgesteld voor de metadata beschrijvingen om er voor te zorgen dat de gebruikers consequent

en eenduidig werken en dat de beschrijvingen uitwisselbaar zijn tussen meerdere instellingen. Culturele

12

instellingen werken met regels voor het opstellen van catalogi zoals de Anglo-American Cataloguing Rules

(AACR)8 en standaarden voor de structuur van de data zoals Encoded Archival Description (EAD)

9 als wel met

standaarden voor het beschrijven van objecten (Baca e.a. 2000). Het toekennen van tags aan een foto kan over

het algemeen gezien worden als beschrijvende metadata. Het geeft tenslotte een beschrijving van het object.

2.2 CONTENT-BASED IMAGE RETRIEVAL (CBIR)

CBIR is volgens Datta e.a. (2008) een technologie die op basis van de visuele content van een foto een bijdrage

levert aan de organisatie van een grote collectie met foto’s. Het vinden van de ‘juiste’ foto gebeurt aan de hand

van primitieve kenmerken van een foto, zoals de kleur of de vorm. De techniek van een foto moet ervoor

zorgen dat de ‘juiste’ foto gevonden kan worden. Door software te ontwikkelen die het mogelijk maakt om

automatisch verschillende vormen en kleuren te identificeren en te indexeren, is het mogelijk voor de

gebruiker hier op te zoeken. Het gaat bij CBIR dus echt om een techniek die een foto kan analyseren en

indexeren op basis van de karakteristieke eigenschappen van een foto zonder gebruik te maken van externe

content.

FIGUUR 2. CBIR ZOEKMACHINE

Eén van de eerste onderzoeken op het gebied van CBIR is terug te vinden in de literatuur van Kato (1992). In de

jaren daarna heeft CBIR veel aandacht gekregen en is er veel energie gestoken in de ontwikkeling van diverse

systemen. Op dit moment komen veel systemen op de markt die gebruik maken van beeld en

gezichtsherkenning, zoals Multicolr Search Lab10

(Figuur 2). Multicolr Search Lab heeft tien miljoen foto’s

geïndexeerd en doorzoekbaar gemaakt met een kleurenpalet. Andere websites die gebruik maken van CBIR zijn

Like.com11

, Polar Rose12

, Tineye13

en Picasa14

. Een systeem als ALIPR15

(Automatic Linguistic Indexing of Pictures

Real-Time) maakt op een andere manier gebruik van CBIR technieken. ALIPR maakt gebruik van een

annotatiesysteem dat vormen herkent en vervolgens hierbij trefwoorden (tags) toevoegt. Een foto met een wit

strand, zee en een palmboom wordt herkend door het systeem als sky, water, plant, beach. De afgelopen jaren

8 http://www.aacr2.org/

9 http://www.loc.gov/ead/

10 http://labs.ideeinc.com/multicolr

11 http://www.like.com

12 http://www.polarrose.com

13 http://www.tineye.com

14 http://Picasaweb.google.com

15 http://ALIPR.com

13

zijn veel succesvolle systemen ontwikkeld en zal het onderzoeksgebied van CBIR zich verder ontwikkelen. Tot

nu toe ligt de nadruk van CBIR-systemen op het niveau van low-level content. Low-level content is de visuele

informatie van een foto zoals vorm, kleur en textuur.

Het higher-level concept, waar op basis van eigen context associaties worden gegeven aan de betekenis, is het

niveau waar de meeste gebruikers hun queries uitvoeren (Eakins 2002). Daarom worden er op tekst

gebaseerde indexeringssystemen gebruikt die het wel mogelijk maken om foto’s te indexeren op het niveau

van higher-level concept, dit zijn concept- of text-based retrieval systemen. In het volgende hoofdstuk komen

standaarden aan bod voor het beschrijven van objecten op basis van concept- of text based retrieval systemen.

14

3 INDEXEREN

Voor bibliotheken en andere culturele instellingen roept het toegang geven tot hun collecties al vele jaren veel

vragen op. De grote hoeveelheden objecten geven problemen in het terugvinden van het gewenste object door

een gebruiker. Een query kan geen resultaten opleveren of juist duizenden treffers. Veel van deze problemen

worden door professionals opgelost door het creëren van classificatie systemen, trefwoordenlijsten, thesauri of

andere vormen van indexen. Deze systemen, gebaseerd op natuurlijke talen, numerieke reeksen en codes om

objecten te beschrijven, bieden een gestructureerde methode om de collectie doorzoekbaar te maken. In dit

hoofdstuk wordt het proces van indexeren en de verschillende indexeringssystemen besproken.

3.1 INFORMATION RETRIEVAL

Information Retrieval (IR) kan beschreven worden als de zoektocht naar relevante informatieobjecten die

overeenkomen aan de informatiebehoefte, welke in een vraag worden vormgegeven. Het onderstaande figuur

geeft het information retrieval paradigma weer (Bruza en Huibers 1996).

FIGUUR 3. INFORMATION RETRIEVAL PARADIGMA

Het information retrieval paradigma beschrijft een persoon (de zoeker) met een bepaalde informatiebehoefte

(N) die hij/zij graag beantwoord wilt hebben. De informatiebehoefte wordt door de zoeker uitgedrukt in de

vorm van een vraag (q), welke vervolgens aan een information retrieval systeem, of een menselijke

tussenpersoon, zoals een bibliothecaris, wordt gesteld. De vraag dient een zo goed mogelijke beschrijving te

zijn van de informatiebehoefte. Tegenover de persoon met zijn/haar vraag staan de informatieobjecten die

gezocht worden. De informatieobjecten zijn bijvoorbeeld documenten, tekeningen of foto’s. Elk

informatieobject is op een bepaalde manier gekenmerkt zodat deze gevonden kunnen worden. De kenmerken

beschrijven een deel van de inhoud van een informatieobject gebaseerd op een specifieke informatietaal. Het

kenmerken van de informatieobjecten wordt het indexeerproces genoemd. Een verzameling kenmerken is een

index. Wanneer de informatiebehoefte is vertaald in een vraag kan deze via een information retrieval systeem

vergeleken worden met de kenmerken van een object. Dit proces wordt matching genoemd. De kenmerken die

het meest relevant zijn voor de specifieke informatiebehoefte worden gepresenteerd.

3.2 INDEXERINGSPROCES

Zoals uit de vorige paragraaf is gebleken worden tijdens het indexeerproces aan ieder informatieobject

bepaalde kenmerken gekoppeld. Wanneer deze kenmerken betrekking hebben op het onderwerp van het

object wordt het indexeerproces ook wel onderwerpontsluiting (subject indexing) genoemd. Het proces van

onderwerpontsluiting verloopt in twee stappen: 1) conceptanalyse en 2) representatie ( Figuur 4).

15

FIGUUR 4. STAPPEN IN SUBJECT INDEXING

De conceptanalyse is het proces waarin besloten wordt waar een object over gaat en wat hier relevant is. Het

resultaat van de conceptanalyse is sterk afhankelijk van de behoeftes en interesses van de gebruiker. 16

Representatie is het proces van het vinden van een set van geschikte indextermen dat de hoofdzaak van de

conceptanalyse weergeeft (Lancaster 2003). De indextermen worden vervolgens vertaald in het vocabulaire en

volgens een vastgestelde syntaxis van een informatietaal. Een informatietaal is een kunstmatige taal voor het

ontsluiten van de inhoud en bepaalde formele aspecten van documenten. Een kunstmatige taal, gebaseerd op

een natuurlijke taal, is een taal specifiek ontwikkeld door iemand of een groep mensen voor een bepaald doel.

De taal die mensen onderling gebruiken om met elkaar te communiceren is een natuurlijke taal. Riesthuis

(1998) hanteert de volgende definitie voor een informatietaal:

"Een informatietaal is een geheel van tekens, een vocabulaire, met de daarbij behorende grammatica,

dat zijn de regels en hulpmiddelen voor de vorming en het gebruik ervan, welke in een bepaalde

omgeving afgesproken zijn voor het analyseren van inhouden van documenten, het vastleggen van de

resultaten van de analyse in een documentatiesysteem en/of het formuleren van vragen aan het

documentatiesysteem."

Het vocabulaire kan bestaan uit een selectie van woorden en woordgroepen, notaties of codes of een

combinatie hiervan. De grammatica is opgebouwd uit semantiek (betekenisleer), morfologie (vormleer), de

syntaxis (leer van de woordvorming/zinsbouw) en de fonologie (klankleer). De fonologie is bij informatietalen

minder van belang. Het vocabulaire en de grammatica bepalen samen de inrichting van het

indexeringssysteem. Informatietalen kunnen traditioneel gezien onderverdeeld worden in een aantal

gecontroleerde vocabulaires: classificatie, indexen, trefwoordensystemen en thesauri. In de volgende

paragrafen volgt een nadere beschrijving van enkele gecontroleerde vocabulaires.

3.3 CLASSIFICATIES EN INDEXEN

Traditionele classificatiesystemen zijn ontwikkeld om bibliotheken op een logische manier te ordenen op basis

van de inhoud van een boek. Het onderwerp van het boek bepaalt waar en op welke plank het fysiek komt te

staan. Classificatiesystemen zijn gecontroleerde informatietalen welke zijn opgebouwd uit notaties die een

algemeen onderwerp beschrijven naar notaties die betrekking hebben op een specifiek aspect. Hiermee

ontstaat een hiërarchische structuur waarin tussen de notaties relaties worden gelegd. Er zijn veel

verschillende classificatieschema’s beschikbaar, zoals de Universal Decimal Classification (UDC)17

en de Dewey

Decimal Classification System (DDC) (Chowdhury 2004, 57-61). Groot nadeel van classificatieschema’s is de

starheid, waardoor het moeilijk is in een steeds maar veranderende wereld nieuwe classificaties toe te voegen.

Een sprekend voorbeeld hiervan haalt Clay Shirky (2005) aan in een artikel op zijn weblog over de waarden van

classificatieschema’s. Shirky refereert naar een categorie (200: Religion) uit de Dewey Decimal Classification

System om hiermee boeken of andere informatieobjecten te kunnen classificeren naar de verschillende

wereldreligies. In deze categorie wordt heel sterk de nadruk gelegd op het christelijke geloof terwijl in de

16

Hoofdstuk 4 gaat verder in op het proces van conceptanalyse. 17

http://www.udcc.org

Feedback Representatie

Conceptanalyse

16

huidige realiteit andere vormen van religie een zeer belangrijke rol spelen. Shirkey toont hiermee de starheid

van de Dewey Decimal System aan (Figuur 5).

Dewey Decimal Classification System

200: Religion

210 Natural theology

220 Bible

230 Christian theology

240 Christian moral & devotional theology

250 Christian orders & local church

260 Christian social theology

270 Christian church history

280 Christian sects & denominations

290 Other religions

FIGUUR 5. CATEGORIE 200: RELIGION UIT DE DDC

Een van de oudste indexen is het iconografische indexsysteem Index of Christian Art18

ontwikkeld door

Professor Charles Rufus Morey, kunsthistoricus aan Princeton University. Vanaf 1917 ontwikkelde de index zich

verder als het systeem voor iconografische beschrijvingen van middeleeuwse kunstvoorwerpen. Deels

overeenkomstig met de index of Christian Art is ICONCLASS19

. ICONCLASS is een onderwerp specifiek

classificatiesysteem voor iconografische beschrijvingen van met name westerse kunst. Het systeem ontwikkeld

door Professor Henri van Waal in Nederland in begin jaren 50 is een hiërarchisch gestructureerde lijst met

definities van objecten, personen, gebeurtenissen en abstracties. Na het overlijden van van Waal in 1972 bleef

de index onafgemaakt achter, echter in de jaren 80 werd ICONCLASS verder afgemaakt en is nu in beheer bij

het Rijksbureau voor Kunsthistorische Documentatie.

3.4 TREFWOORDENSYSTEMEN EN THESAURI

Veel bibliotheken maken gebruik van trefwoordenlijsten en thesauri voor de ontsluiting van hun collecties.

Zowel een trefwoordenlijst als een thesaurus bestaan uit een lijst met alfabetisch gerangschikte termen,

eventueel met kruisverwijzingen en opmerkingen. In de praktijk worden trefwoordenlijsten en thesauri

veelvuldig door elkaar gebruikt, er zijn dan ook overeenkomsten. Een overeenkomst is dat beide systemen

gebruik maken van geordende verzamelingen woorden of woordgroepen, waarvan de vorm en onderlinge

relaties zijn vastgelegd. De trefwoordensystemen bevatten over het algemeen brede onderwerpen omdat ze

oorspronkelijk gebruikt worden als onderwerpscatalogus. Een thesaurus wordt vaak ontwikkeld in een specifiek

domein waarbij de verschillende representaties van een term (synoniemen, homoniemen, spellingsvarianten,

enz.) worden beschreven. Daarbij worden de onderlinge relaties tussen de trefwoorden weergegeven om te

kunnen bepalen hoe een trefwoord zich verhoudt ten opzichte van een ander trefwoord. Dit wordt mogelijk

door bovengeschikte (broader), ondergeschikte (narrow) en gerelateerde termen met elkaar te verbinden

(Chowdhury 2004, 26-27). Het verschil tussen trefwoordsystemen en thesauri is met name het al dan niet

verwerken van de syntaxis ook wel het toepassen van het pre- of postcoördinatie genoemd (Magrijn 2000).

Thesauri werken met termen die tijdens de zoekfase gecombineerd kunnen worden (postcoördinatie). De

termen in een thesaurus bestaan dan ook uit enkelvoudige begrippen, wat wil zeggen dat termen die het

resultaat zijn van het indexeren als losse termen worden opgeslagen. Trefwoordsystemen werken met vaste

combinaties van termen in een voorgeschreven volgorde die door de indexeerder wordt bepaald

(precoördinatie) .

18

http://ica.princeton.edu 19

http://www.iconclass.nl

17

Er zijn initiatieven genomen voor het ontwikkelen van thesauri die aansluiten bij het indexeren van foto’s.

Twee veel gebruikte thesauri zijn de Art and Architecture Thesaurus (AAT)20

en de Library of Congress

Thesaurus of Graphic Materials (LCTGM)21

. De Art and Architecture Thesaurus heeft zijn oorsprong in de jaren

80 bij het Rensselaer Polytechnic Institute en wordt nu onderhouden door het Getty Research Institute. De AAT

is de thesaurus voor het beschrijven van architectonische objecten en onderwerpen. Andere thesauri in beheer

bij het Getty Research Institute zijn de Union List of Artists Names (ULAN22

) en de Thesaurus of Geographic

Names (TGN)23

. De Thesaurus for Graphic Materials (TGM) van de Library of Congress is een tool voor het

indexeren van visuele materialen op object niveau en genre/format. De thesaurus welke afstamt van de Library

of Congress Subject Heading (LCSH)24

, is ontwikkeld door Elisabeth Betz Parker voor de Print en Fotografie

Divisie van de Libary of Congress en bevat meer dan 7000 object termen en 650 genre/format termen om

foto’s, prints en tekeningen mee te indexeren.

3.5 EFFECTIVITEIT VAN GECONTROLEERDE VOCABULAIRES

Indexeersystemen, zoals gecontroleerde vocabulaires, brengen veel voordelen met zich mee. Het is mogelijk

om bijna elk aspect van een foto te beschrijven op elk niveau van complexiteit. Daarbij zijn de

indexeersystemen flexibel en redelijk eenvoudig uit te breiden, echter vraagt dit wel om consistentie tussen

alle gebruikers van de systemen (Eakins en Graham 1999, 21). De norm ANSI/NISO Z39.19 van 2005 draagt bij

aan deze consistentie en bepaalt richtlijnen en overeenkomsten voor het formaat, bouw, het testen,

onderhoud en beheer van gecontroleerde vocabulaires met inbegrip van lijsten, synoniemringen, taxonomieën,

en thesauri (NISO 2005).

Het grootste voordeel is dat de systemen opgebouwd zijn op basis van semantische en hiërarchische relaties.

Dit resulteert in een aantal belangrijke functies van vocabulaire systemen die een sterk positief effect hebben

op de retrieval van objecten. Macgregor & McCulloch (2006) hebben de voordelen van indexeersystemen als

volgt samengevat:

• Het geeft controle aan het gebruik van synoniemen. Eén woord is gekoppeld aan meerdere termen,

bijvoorbeeld ‘auto’, ‘automobiel’ of ‘motorvoertuig’. Het positieve gevolg is dat indexeerders dezelfde

term kiezen voor het beschrijven van een object.

• Het discrimineert tussen homoniemen, wat voor de indexeerder een oplossing geeft voor dezelfde

woorden met een andere betekenis, bijvoorbeeld ‘Java’ als programmeertaal en ‘Java’ van de koffie.

• Het geeft controle over lexicale anomalieën, dat wil zeggen dat het grammaticale variaties voorkomt,

zoals spellingsvarianten, meervoud/enkelvoud, werkwoordconstructies en andere grammaticale

verschillen.

• Het zorgt dat dezelfde of gerelateerde termen worden samengevoegd. Dit wordt ook wel

Genus/Species genoemd, bijvoorbeeld ‘Leninisme’ is een species van ‘communisme’, wat weer een

species is van ‘politieke ideologieën’.

• Het maakt het mogelijk om syntactische relaties te leggen tussen termen, zoals ‘taal’ is gerelateerd

aan ‘indexing’. Deze termen zijn niet hiërarchisch met elkaar verbonden, maar hebben wel een heel

duidelijke relatie met elkaar.

• De structuur biedt mogelijkheden voor het gebruiken van codes en annotaties die gekoppeld worden

aan termen. Het voordeel is dat deze termen voorspelbaar en taal onafhankelijk zijn.

20

http://www.getty.edu/research/conducting_research/vocabularies/aat/index.html 21

http://www.loc.gov/rr/print/tgm1/ 22

http://www.getty.edu/research/conducting_research/vocabularies/ulan/ 23

http://www.getty.edu/research/conducting_research/vocabularies/tgn/ 24

http://www.loc.gov/catdir/cpso/lcc.html

18

Maar om deze vocabulaires te creëren, te gebruiken en te onderhouden wordt veel tijd en energie gevraagd

van de professionele indexeerder. Veel kennis van het onderwerp is noodzakelijk om de index te creëren en te

onderhouden. Naast de totstandkoming van de vocabulaires, is het gebruik ervan een zeer arbeidsintensieve

bezigheid. Eakins & Graham (1999, p.21) verwijzen naar onderzoeken waarin de tijdsduur voor het beschrijven

van een foto is gemeten. Hieruit blijkt dat het beschrijven van een stock foto bij Getty Images ongeveer 7

minuten kost. Maar liefst 40 minuten is gemiddeld nodig om bij Rensselaer Polytechnic een foto te beschrijven

op basis van de AAT.

Een ander belangrijk nadeel van het gebruik van gecontroleerde vocabulaires is de onbetrouwbaarheid. Bij het

indexeren van foto’s bestaat er onder indexeerders een bepaalde spanning, ze willen de uniekheid van de foto

bewaren, maar moeten tegelijkertijd toegang geven op verschillende acces points van waaruit de gebruiker een

foto wilt vinden. Foto’s zijn rijk en bevatten informatie welke bruikbaar is voor onderzoekers van verschillende

disciplines. Vaak is het van tevoren niet duidelijk welk doel de gebruiker voor ogen heeft met de foto, dit doel

kan zelfs volledig anders zijn dan de oorspronkelijke maker voor ogen had (Besser 1990). Choi en Rasmussen

(2003) concluderen dit ook en vatten dit als volgt samen:

“Indeed, describing the subject matter of images is problematic, because the words used to describe

images vary and cannot represent an image entirely. The same visual information might mean

something different to the same person at different times. In addition, different individuals often

interpret the same images differently.”

Om deze reden zijn veel foto’s in collecties minimaal geïndexeerd. Besser (1990) concludeert dan ook dat het

complexer is om een foto te beschrijven dan een boek:

“Two interrelated aspects that make the cataloging of images different from that of books are the

deliberateness in their creation, and their richness and complexity. Most books are written with clearly

defined purposes in mind, and catalogers can expect that most potential users of these books will

approach them from that standpoint.”

Bij een boek is het duidelijk wat de auteur voor bedoelingen heeft. Het boek zelf vertelt het verhaal aan de

hand van de introductie, de achterflap van het boek of de samenvatting. Met dit in het achterhoofd is het

bepalen van het standpunt van de auteur eenvoudiger.25

Bij een foto ontbreekt dit alles en is het moeilijker om

de intenties van de maker vast te stellen en daarbij de intenties van de potentiële gebruiker. Vaak gebeurt het

dat de toegang tot de objecten, die op zich wel goed zijn beschreven, niet nuttig zijn voor de zoeker, omdat zij

om de simpele reden gewoon niet zoeken op die toegang. Het is volgens Enser (2000): “Difficult in determining

the appropriate level of indexing.” Wat er eigenlijk aan de hand is is dat het vocabulaire van de zoeker niet

overeen komt met het vocabulaire van het indexeringssysteem, dit gat wordt ook wel het semantic gap

genoemd. Smeulders e.a. (2000) zien de semantic gap als:

“The lack of coincidence between the information that one can extract from the visual data and the

interpretation that the same data have for a user in a given situation.”

Met andere woorden, de persoon die een bepaalde foto zoekt kan een geheel andere interpretatie hiervan

hebben dan de documentalist die de foto heeft beschreven. Een goede analyse van de inhoud is van groot

belang. Het volgende hoofdstuk gaat nader in op de conceptanalyse van een foto waarin duidelijk wordt dat er

verschillende niveaus van ontsluiting mogelijk zijn.

25

De gemaakte vergelijking tussen boeken en foto’s is in de werkelijkheid wat genuanceerder. Bijvoorbeeld het beschrijven van poëzie is

waarschijnlijk complexer dan een journalistieke foto beschrijven waarbij vooral wie, wat, waar en wanneer van belang is.

19

4 CONCEPTANALYSE

“Een foto zegt meer dan 1000 woorden”, een veelgebruikte uitdrukking om de kracht van een foto ten opzichte

van een tekstuele expressie aan te geven. Maar wat zegt een foto nou echt? Wat ziet de aanschouwer nou echt

in die foto? Het beeld wordt bepaald door allerlei factoren, zoals de context, het humeur en de kennis van de

gebruiker. Het vaststellen van dé betekenis van een foto is ontzettend complex al dan niet onmogelijk. Dit

proces wordt de conceptanalyse genoemd en is de eerste fase van het indexeringsproces.26

Shatford (1986) ziet de subjectiviteit van de indexeerder als het grootste probleem bij het beschrijven van een

foto. Daarbij is de behoefte van iedere gebruiker verschillend. De ene persoon zoekt naar specifieke gebouwen

uit Parijs en de andere gebruiker zoekt ook gebouwen in Parijs maar dan wel de foto’s die specifiek betrekking

hebben op een bepaalde sfeer. De semantische inhoud van een foto is gelaagd en heeft dus meerdere

betekenissen, zelfs voor één persoon op verschillende tijdstippen.

FIGUUR 6. FOTO IGNORE DOOR JOEY LAWRENCE ( HTTP://WWW.JOEYL.COM/)

Zoals al eerder is besproken is de meest belangrijkste methode om toegang te geven tot een foto de

onderwerpontsluiting. Dit lijkt op het eerste gezicht eenvoudig, maar het tegendeel blijkt al snel uit

bovenstaande foto van Joey Lawrence. De eenvoudige vraag wat deze foto beschrijft, ook wel ‘of’ genoemd,

laat al meerdere opties zien. De foto is ‘of’ een man, is ‘of’ een dakloze, dit is wat de foto je vertelt. Mensen en

objecten zijn de eerste laag van of-ness dat op een foto wordt gezien. Maar ook activiteiten, plaats en tijd

beschrijven heel duidelijk een foto. Bij deze foto is het onderwerp bedelen een duidelijke activiteit. Al deze

onderwerpen kunnen vervolgens ook ruimer of juist specifieker worden beschreven. De persoon op de foto is

een man (breed), maar ook een dakloze (heel specifiek), en ook Amerikaan (specifiek). Nog specifieker zou de

naam van deze zwerver zijn indien bekend.

Minder duidelijk dan de of-ness van een foto, maar eigenlijk interessanter, is dat waar het object over gaat. De

about-ness. Het is niet altijd even duidelijk waar een foto over gaat, of soms kan een foto ook over meerdere

dingen gaan. Bovenstaande foto is ‘about’ het zwervend bestaan, maar ook het negeren van de zwerver door

de omstanders. Nog breder kan deze foto gaan over de gevolgen van de kredietcrisis. Aboutness is al vele jaren

een belangrijk begrip in de Information Retrieval. Hutchins (1978) schreef een bekend artikel over dit

26

Paragraaf 3.2 besteed aandacht aan de tweede fase van het indexeringsproces, de representatie van de conceptanalyse.

20

onderwerp. Hij definieerde aboutness op basis van een analyse van de taal en discours van een tekst. Het

uitgangspunt van aboutness is volgens Hutchins dat indexeerders in staat zijn om aan te geven waar een

document of foto over gaat middels het formuleren van een expressie welke de inhoud samenvat.

Eén van de eerste die getracht heeft de verschillende niveaus van aboutness van een foto in kaart te brengen is

de kunsthistoricus Erwin Panofsky (1962; 1982). Het Panofsky’s ‘levels of meaning’-model beschrijft drie

niveaus in de kunst van de Renaissance: de ‘pre-iconografische beschrijving’, de ‘iconografische analyse’ en de

‘iconologische interpretatie’ (Tabel 1).

Object of interpretation Act of interpretation Equipment for interpretation Corrective principle of

interpretation (History of

tradition)

I. Primary or natural subject

matter:

A. Factual

B. Expressional

Constituting the World of

artistic motifs.

Pre-iconographical description

(and pseudo-formal analysis)

Practical experience (familiarity

with objects and events)

History of style (insight into the

manner in which, under varying

historical conditions, objects

and events were expressed by

forms).

II.Secondart or conventional

subject matter, constituting the

world of images, stories and

allegories.

Iconographical analysis Knowledge of literacy sources

(familiarity with specific themes

and concepts).

History of types (insight into

the manner in which, under

varying historical conditions,

specific themes or concepts

were expressed by objects and

events).

III. Intrinsic meaning or content,

constituting the world of

“symbolical” values

Iconological interpretation Synthetic intuition (familarity

with the essential tendencies of

the human mind), conditioned

by personal psychology and

“Weltanschauung.”

History of cultural symptoms or

“symbols” in general (insight

into the manner in which,

under varying historical

conditions, essential tendencies

of the human mind were

expressed by specific themes

and concepts).

TABEL 1. PANOFSKY'S LEVELS OF MEANING

Het pre-iconografische niveau geeft een generieke/algemene beschrijving van de objecten en acties. De

beschrijvingen zijn feitelijk en expressief. Het iconografische niveau is sterk analytisch en beschrijft specifiek

objecten en acties. Het derde niveau is iconologisch en is interpretatief van aard. Van een foto wordt de

intrinsieke waarde benoemd. Bij het beschrijven van een foto op dit niveau is interpretatie van de foto nodig en

deze interpretatie wordt gevoed door kennis en sociale achtergrond.

Shatford (1986) bouwt voort op deze drie niveaus en toont aan dat het model niet alleen van waarde is voor de

kunst van de Renaissance, maar voor alle foto’s. Shatford categoriseert de onderwerpen van een foto in

Generic Of, Specific Of en About. Op het niveau van Generic Of worden algemene objecten en acties

beschreven, zoals auto, lopen, gebouw. Het Specific Of niveau beschrijft de individuele objecten en acties

specifiek, zoals de Westerkerk, Dagboek van Anne Frank. Het About-niveau gaat in op de gevoelswaarde en

symboliek, bijvoorbeeld blij, verdrietig, eerlijkheid en de kerkelijke symboliek van brood en wijn. Shatford voegt

vervolgens nog vier facetten toe aan de drie niveaus: Wie? Wat? Waar? Wanneer? Dit resulteert in een 3x4

matrix wat tegenwoordig het Panofsky/Shatford model wordt genoemd. De matrix is vaak de basis voor het

beschrijven van foto’s en wordt veelvuldig gebruikt in onderzoeken.

Iedere foto heeft zo zijn eigen kenmerken. Om te bepalen welke kenmerken belangrijk zijn voor het

terugvinden van de foto is het volgens Shatford-Layne (1994) belangrijk om deze kenmerken te plaatsen in vier

algemene categorieën. De Biographical attributes bevatten kenmerken over de geboorte van een foto, zoals de

fotograaf, tijd en lokatie en de titel. Ook gegevens over de ‘reis’ van de foto worden hierin opgenomen. Waar is

de foto nu, welke weg heeft de foto afgelegd en wie is de eigenaar? De Subject attributes hebben te maken

met de betekenis van de objecten, mensen, activiteiten of tijd in een foto. Dit attribuut is van een abstracter

karakter dan de andere attributen en heeft betrekking op thema’s en concepten die in een foto worden

21

uitgedrukt. Exemplified attributes gaan over de fysieke eigenschappen van een foto, zoals een ets, foto of

poster. De Relationship attributes refereren naar andere foto of bronnen.

Geconcludeerd kan worden dat foto’s op verschillende niveaus van subjectiviteit en objectiviteit kunnen

worden beschreven. Door de kenmerken van de objecten, de mensen en de evenementen van een foto op

deze verschillende niveaus te ontsluiten wordt het mogelijk om via verschillende wegen en op diverse niveaus

toegang te verlenen tot een foto. In het vorige hoofdstuk zijn verschillende methoden van

onderwerpsontsluiting beschreven welke op basis van de conceptanalyse, beschreven in dit hoofdstuk, vorm

hebben gekregen. Het principe van conceptanalyse heeft ook betrekking op andere methoden van

onderwerpsontsluiting, zoals tagging. De benadering van Panofsky’s ‘levels of meaning’-model vormt de basis

van het onderzoek naar het taggebruik op de fotowebsite Flickr.

22

5 TAGGING: INDEXEREN DOOR DE GEBRUIKER

Tot nu toe is het indexeerproces beschreven vanuit het idee dat culturele instellingen professionele mensen

inhuren voor het beschrijven van culturele objecten. Maar in de huidige online wereld is het ook mogelijk dat

de gebruiker zelf een bijdrage levert aan het indexeerproces. Het online ‘indexeren’ van objecten is een vorm

van labelen en wordt collaborative tagging genoemd. In dit hoofdstuk wordt het concept tagging behandeld

waarbij tagging ten eerste wordt geplaatst in de context van de ontwikkelingen op het internet (§5.2) en ten

tweede wordt beschreven op basis van zijn architectuur (§5.3). Paragraaf 5.4 gaat in op de zoekmogelijkheden

van taggingsystemen. De laatste paragraaf (§5.5) geeft een analyse van de overeenkomsten en verschillen

tussen gecontroleerde vocabulaires en taggingsystemen.

5.1 TAGGING ALS CONCEPT

Collaborative tagging, of simpel gezegd tagging, wordt als dé oplossing gezien voor het organiseren van de

steeds maar groeiende hoeveelheid informatie op het web. Iedereen is het er wel over eens dat professionals

alleen niet meer in staat zijn om alle content op internet te indexeren. Tagging biedt de gebruiker de

mogelijkheid om dit op een eenvoudige manier zelf te doen. Tagging is eigenlijk niet anders dan ‘keywording’,

de gebruiker kan met vrij gekozen trefwoorden (labels of tags) metadata toekennen aan een digitaal object

(Weinberger 2005). Het grote verschil tussen tagging en traditionele keywording systemen is de mogelijkheid

om de tags, gebruikers en bronnen met elkaar te laten interacteren in een social tagging systeem. Dit soort

systemen worden ook wel folksonomieën genoemd. De term, voor het eerst geopperd door Thomas van der

Wal (2007), bestaat uit het woord ‘folk’ en ‘taxonomy’. Eigenlijk is de term niet geheel correct, want de kracht

van een tagging systeem is juist het ontbreken van een vooraf vastgestelde taxonomie. Wel is het zo dat een

tagging systeem afhankelijk is van zijn ‘folks’, omdat zij door hun sociale gedrag en hun taalgebruik bepalen hoe

de tagstructuur eruit komt te zien (Marlow e.a. 2006). Tagging wordt ook wel grassroots classification (Mathes

2004), ethnoclassification (Merholz 2004) of social classification (Hammond e.a. 2005) genoemd.

Folksonomieën zien Al-Khalifa & Davis (2007) als user-generated labeling systems waar het vocabulaire van de

gebruiker wordt gebruikt en niet die van een bibliothecaris. Het is het uitgangspunt geworden voor het zoeken

naar digitale bronnen op het web.

5.2 RELATIE MET WEB 2.0 EN HET SEMANTIC WEB

Tagging is op social websites de standaard methode geworden om online objecten te kunnen managen. Social

websites (bijvoorbeeld YouTube voor video, Delicious voor bookmarks en Flickr voor foto’s) maken het mogelijk

om digitale objecten op te slaan, te beheren en te delen met anderen. Social websites zijn ontstaan uit de

behoefte om online informatie met elkaar te delen, deze nieuwe ontwikkeling op internet wordt web 2.0

genoemd. De term ‘web 2.0’ is ontstaan uit een brainstormsessie tussen O’Reilly en MediaLive International

waaruit geconcludeerd werd dat het web -het web 1.0 van vóór de internethype- alles behalve dood was, maar

levendiger dan ooit (O'Reilly 2005b). De waarde en betekenis van de term web 2.0 is onduidelijk (O'Reilly

2005a). De één ziet web 2.0 als een marketing buzzword en de ander ziet de term als een nieuw tijdperk.

O’Reilly, bedenker van de term, definieert web 2.0 als volgt:

“Web 2.0 is a set of economic, social, and technology trends that collectively form the basis for the next

generation of the Internet — a more mature, distinctive medium characterized by user participation,

openness, and network effects.” (Musser en O'Reilly 2006, 4)

Web 2.0 staat tegenwoordig voor de samensmelting van de woorden producent en consument in prosumers,

waarbij iedereen op het web helemaal vrij en open oneindige mogelijkheden heeft om met elkaar te

communiceren, samen te werken en te creëren.

Tegenover de ontwikkelingen op het gebied van web 2.0 staat de introductie van het Semantic Web. Het

Semantic Web is een vastgelegd raamwerk dat het mogelijk maakt om data te delen en her te gebruiken tussen

applicaties, bedrijven en communities.

presenteren, maar hier ook een waarde en betekenis aan te geven. Mensen én computers moeten de

mogelijkheid krijgen om informatie te genereren en te interpreteren.

volgens Tim Berners-Lee (2001):

“The creation of machine consumable knowledge.”

Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd.

formele conceptualisatie van een specifiek kennisdomein en

relaties tussen deze termen (Gruber 1993)

Tot nu toe is het succes van het Semantic W

zeer complex is. Aan de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler

(2007), een gerenommeerd Semant

”A little semantics goes a long way.

needed to go a long way on something as mind

Web 2.0 is volgens Hendler het middel om meer toegepast en op een lager niveau om te gaan met de

mogelijkheden van een Semantic Web

en het Semantic Web geen afzonderlijke onderdelen zijn, maar elkaar op veel gebieden kunnen verrijken. De

combinatie van het sociale en gebruiksvriendelijke web 2.0 met het sterk ge

gezamenlijke mash-ups mogelijk ter bevordering van de kennisdeling.

5.3 DE ARCHITECTUUR VAN E

In een taggingsysteem zijn vier elementen

bij een object (3) binnen een systeem

volgende paragrafen nader toegelicht.

FIGUUR 7. TAGGINGSYSTEEM

mmunities. Het Semantic Web maakt het mogelijk om niet alleen de informatie te


mogelijkheid krijgen om informatie te genereren en te interpreteren. Het succes voor het Semantic Web is

he creation of machine consumable knowledge.”

Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd.

eptualisatie van een specifiek kennisdomein en bestaat uit een eindige lijst

(Gruber 1993).

is het succes van het Semantic Web nog erg beperkt omdat het ontwikkelen van deze o

de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler

, een gerenommeerd Semantic Web wetenschapper, in zijn artikel The Dark Side of the Semantic Web:

A little semantics goes a long way. In fact, I’m just now beginning to understand exactly how little is

needed to go a long way on something as mind-bogglingly huge and unorganized


een Semantic Web. Ankolekar e.a. (2008) benadrukken nogmaals in hun artikel dat web 2.0


combinatie van het sociale en gebruiksvriendelijke web 2.0 met het sterk gestructureerde Semantic

ups mogelijk ter bevordering van de kennisdeling.

E ARCHITECTUUR VAN EEN TAGGINGSYSTEEM

elementen (Figuur 7) te onderscheiden. De gebruiker (1)

binnen een systeem (4) (Smith 2008; Marlow e.a. 2006). Deze vier elementen worden in de

volgende paragrafen nader toegelicht.

23

ijk om niet alleen de informatie te


Het succes voor het Semantic Web is

Om dit mogelijk te maken is een conceptueel raamwerk vereist, een ontologie genoemd. Een ontologie is een

eindige lijst van termen en de

t omdat het ontwikkelen van deze ontologieën

de andere kant wordt er langzaam vooruitgang geboekt, zo suggereert, James Hendler

ic Web wetenschapper, in zijn artikel The Dark Side of the Semantic Web:

In fact, I’m just now beginning to understand exactly how little is

bogglingly huge and unorganized as the Web.”


benadrukken nogmaals in hun artikel dat web 2.0


structureerde Semantic Web maakt

(1) die een tag (2) plaatst

Deze vier elementen worden in de

24

5.3.1 GEBRUIKER

De gebruikers van een taggingsysteem worden in het algemeen taggers genoemd. Eigenlijk is dit onterecht,

want niet iedere gebruiker van een taggingsysteem is een tagger. Dat blijkt wel uit een onderzoek uitgevoerd

door Pew Internet & American Life Project in 2006 naar het gebruik van tagging in de Verenigde Staten27

.

Hieruit blijkt dat 28% van de internet gebruikers wel eens een foto, nieuwsbericht of blogpost heeft getagt.

Daarnaast zegt 7% van de internet gebruikers op een normale dag online content te taggen. Het merendeel van

de internet gebruikers tagt zelf niet maar maakt wel gebruik van taggingsystemen. Voss (2007) suggereert dan

ook om het systeem niet vanuit één soort gebruiker te zien, maar vanuit vier verschillende gebruikers met

ieder een eigen rol en functie:

1. Resource author: persoon dat een object creëert of wijzigt.

2. Resource collector: persoon dat een object toevoegt aan een taggingsysteem.

3. Indexer of tagger: persoon die de objecten tagt.

4. Searcher: Persoon die zoekt naar objecten met behulp van tags.

In de meeste systemen is het mogelijk dat er overlap is tussen deze rollen en mensen kunnen op verschillende

momenten verschillende rollen vervullen. Op de fotosite Flickr kan iemand zijn eigen gemaakte foto uploaden,

voorzien van tags en op een later tijdstip deze foto zoeken. Ook kan deze gebruiker foto’s van anderen taggen

of alleen zoeken. Het gedrag van de gebruiker is grotendeels afhankelijk van de mogelijkheden die het systeem

toelaat, de persoonlijke en de sociale motivatie om input te leveren aan het taggingsysteem, zo concluderen

Marlow e.a. (2006):

“Incentives and motivations for users also play a significant role in affecting the tags that emerge from

social tagging systems.”

Maar wat beweegt een gebruiker om tags te plaatsen? Het taggen van objecten door internetgebruikers kan

zijn om hun eigen verzameling objecten te organiseren of het taggen kan fungeren als een publieke en sociale

activiteit. Daarbij kunnen tags die in eerste instantie als privé geplaatst zijn bij een object een belangrijke rol

spelen voor het terugvinden van dezelfde objecten door andere gebruikers. De motivaties om te taggen

kunnen gecategoriseerd worden volgens twee aspecten: organisatorisch en sociaal. Deze aspecten kunnen

nader worden onderverdeeld in zes motivaties om te taggen (Marlow e.a. 2006):

1. Future retrieval

Het taggen van bronnen voor persoonlijk retrieval. Bijvoorbeeld

voor het schrijven van een scriptie het verzamelen en beheren

van referenties. De tags kunnen ook gebruikt worden als

herinnering of activiteit, met tags als “toread”.

2. Contribution and sharing

Het toevoegen van bronnen met daarbij tags voor bekend en

onbekend publiek.

3. Attract attention

Het trekken van de aandacht met populaire tags. Het gebruik van

tagclouds is een middel om dit te realiseren.

4. Play and competition

Het gebruik van tags op basis van een aantal regels. Een

voorbeeld is de ESP game28

waarbij tags bij een foto van

meerdere personen moeten matchen om punten te verdienen.

5. Self presentation

Het taggen om de eigen identiteit van de tagger uit te dragen,

zoals “seenlive”.

6. Opinion expression

Het gebruik van tags om een bepaalde waarde te hechten aan

een object en dit willen delen met anderen.

27

http://tinyurl.com/226loq 28

Presentatie@google: http://video.google.com/videoplay?docid=-8246463980976635143&q=google+tech+talks

ESP Game: http://images.google.com/imagelabeler/

25

De redenen om te taggen komen voort uit organisatorische redenen en uit sociale overwegingen. Uit

bovenstaande overzicht blijkt dat dit invloed heeft op de type tags die worden geplaatst. De tags kunnen

anders zijn wanneer iemand tagt voor eigen gebruik of juist de tags wilt delen met anderen. Maar die tags

kunnen ook weer nuttig zijn voor andere gebruikers. Welke typen tags gebruikers plaatsen is te lezen in de

volgende paragraaf.

5.3.2 TAGS

Uit de vorige paragraaf is gebleken dat gebruikers verschillende rollen en motivaties hebben bij het gebruik van

tagggingsystemen. Dit heeft invloed op welke tags er worden toegekend door de verschillende gebruikers. In

deze paragraaf staat de vraag centraal hoe de structuur van de tags in een taggingsysteem is opgebouwd.

Een van de bekendste onderzoeken naar de structuur van collaborative taggingsystemen is die van Golder en

Huberman (2006). Voor hun onderzoek maakten ze gebruik van populaire tags en 229 random gebruikers uit de

social bookmarking site Delicious29

. Zij keken naar het dynamische karakter van tags en hun gebruikers over

een bepaalde periode en concludeerden dat het taggebruik bij een bookmark naar verloop van tijd stabiel

werd. Dit kan duiden op een gedeelde overeenkomst van het vocabulaire van een bepaald object. Het resultaat

kan beïnvloed zijn omdat Delicious aanbevelingen geeft voor het taggen gebaseerd op tags van andere

gebruikers. De gebruikers verschillen sterk in taggebruik. De ene gebruiker heeft veel tags in zijn folksonomie

en anderen maar een paar. Volgens de onderzoekers is het taggebruik over het algemeen bedoeld voor

persoonlijk gebruik. Dit neemt niet weg dat tags voor persoonlijk gebruik ook nuttig zijn voor andere

gebruikers. Tags als toread kunnen een mate van populariteit aangeven als gebruikers hetzelfde object

veelvuldig taggen. Golder en Huberman concluderen terecht dat dit voor anderen alleen nuttig is als deze

mensen de betekenis van de tag begrijpen. In totaal definiëren de onderzoekers zeven functies die een tag

kunnen hebben voor bookmarks:

1. Identifying what it is about

Voor het overgrote deel bestaan de tags uit termen van het

onderwerp van de bookmark.

2. Identifying what it is

Tags identificeren wat voor ding de bookmark is, dus een

artikel, blog of boek.

3. Identifying who owns it Tags identificeren wie de content van het getagte object

heeft gemaakt.

4. Refining categories

Deze tags staan niet op zichzelf, maar zijn een verfijning of

een kwalificatie van een bestaande categorie.

5. Identifying qualities or characteristics

Bijvoeglijke naamwoorden zoals scary, funny of stupid geven

de mening over de content van de bookmark.

6. Self reference

Tags beginnend met my kunnen geïdentificeerd worden met

de content van de tagger.

7. Task organizing

Tags bestaan uit een bepaalde opdracht, zoals toread of

jobsearch.

Sen e.a. (2006) verdelen deze zeven categorieën in drie meer algemene categorieën. Ten eerste, Personal tags,

voor eigen gebruik. Meestal worden deze tags gebruikt voor het organiseren van de eigen bronnen (zoals

taken, verwijzingen en tijdmanagement). Subjective tags geven de mening van de tagger over een bepaalde

bron op het web , bijvoorbeeld de tag cool. De derde categorie is factual tags, deze tags beschrijven de

feitelijkheden van een bron zoals mensen, plaatsen of dingen, bijvoorbeeld de tag tutorial. Uit hun analyse van

3263 tags uit de database van MovieLens.com blijkt 63% factual tags, 29% subjective tags en 3% personal tags

te zijn. Al-Khalifa en H. C. Davis (2007) hebben met dezelfde indeling dit onderzoek uitgevoerd met tags van de

29

Social Bookmarking is een methode om via internet bladwijzers of favorieten op te slaan en te delen.

26

social bookmarking website Delicious. Het gebruik van de factual tags kwam in beide taggingsystemen

ongeveer overheen, maar bij Delicious zijn 34% van de tags voor persoonlijk gebruik en maar 4% zijn subjective

tags. De onderzoekers geven zelf al aan dat er een andere classificatie is gebruikt, maar het grootste verschil zit

waarschijnlijk in het soort systeem dat geanalyseerd werd. Op MovieLens.com kunnen gebruikers een film

beoordelen (veelal gebaseerd op subjectiviteit), op Delicious worden bookmarks getagt waar waarschijnlijk

actiever mee wordt omgegaan (bijvoorbeeld als bron bij het schrijven van een scriptie). Hieruit kan

geconcludeerd worden dat de dynamische structuur van de tags enorm kan verschillen per taggingsysteem.

Uit meerdere onderzoeken blijkt dat de tags in een taggingsysteem een vast patroon volgen, de power law

genoemd (Mathes 2004; Guy en Tonkin 2006; Golder en Huberman 2005; Noll en Meinel 2007). Een power law

wil zeggen dat een klein deel van de tags veelvuldig gebruikt wordt, terwijl een grote hoeveelheid tags erg

weinig worden gebruikt. De bekendste power law curve is een wetmatigheid uit de economie en wordt pareto

analyse, of de ’20/80-regel’ genoemd. George Zipf ontdekte in de taalwetenschap dezelfde curve. Woorden

zoals ‘de’ worden veelvuldig gebruikt, terwijl andere woorden veel minder worden gebruikt. De power law

wordt daarom ook vaak Zipf’s law genoemd (Furnas e.a. 1987). Chris Anderson noemde deze power law curve

de longtail en verklaarde hiermee de nieuwe webeconomie.

Het onderhouden van tags op lange termijn is een nog weinig verkend gebied. Medeiros (2008) stipt in zijn

artikel dit probleem aan en citeert Joyce Ogburn die zich tijdens een toespraak afvraagt: 'How tags will age?'

Bates (2006) onderkent hetzelfde probleem en vindt het vreemd dat onderzoekers geen rekening houden met

tags die na verloop van jaren een andere betekenis krijgen. De meeste onderzoeken op het gebied van tagging

richten zich voornamelijk op de opbouw van een folksonomie. De reden waarom wetenschappers dit probleem

nog niet sterk hebben opgepakt ligt waarschijnlijk in het feit dat tagging een recent fenomeen is en weinig

duidelijk is over de ontwikkelingen op lange termijn. De wetenschappers Peters en Weller (2008) signaleren

ook dit probleem en komen met een oplossing. Het goed onderhouden van tags, tag gardening genoemd, is

volgens hun de oplossing voor de verrijking van de folksonomie en een verbreding van gecontroleerde

vocabulaires. Tag gardening is een activiteit die bestaat uit het editen, herontwikkelen, manipuleren en

organiseren van tags. Tag gardening vindt plaats bovenop de huidige folksonomie en wordt achteraf pas

uitgevoerd om de folksonomie te verbeteren. Peters en Weller onderscheiden vier mogelijkheden van tag

gardening:

1. Verwijderen van 'slechte' tags.

2. Verrijken van de folksonomie met weinig gebruikte tags als de tags met hoge frequentie de bronnen niet

voldoende filteren.

3. Combineren van tags die een relatie met elkaar hebben.

4. Combineren van folksonomieën met gecontroleerde vocabulaires en ontologieën.

Tagging is een recent fenomeen waarbij de lange termijn effecten van een taggingsysteem nog maar beperkt

bekend zijn. Maar omdat de tags ongecontroleerd kunnen worden toegekend aan objecten is het noodzakelijk

om een bepaalde mate van controle erop los te laten. Dit kan zowel vooraf waarbij de gebruiker getraind wordt

in het toekennen van tags of achteraf waarbij de tags nader worden geanalyseerd.

5.3.3 SYSTEEM

De vorige paragraaf heeft aandacht besteed aan het ‘gedrag’ van tags. Hoe tags zijn opgebouwd hangt nauw

samen met de inrichting van het systeem. Hieronder wordt toegelicht hoe taggingsystemen opgebouwd

worden en welke factoren hier invloed op hebben (Marlow e.a. 2006). Voorbeelden van websites die gebruik

maken van tagging illustreren de verschillende inrichtingsmogelijkheden.

Tag rechten

Een van de grootste effecten op het tagproces in een taggingsysteem is of de gebruiker alleen zijn eigen

objecten kan taggen of dat men elkaars objecten mag taggen. In een self-tagging systeem, ook wel ‘narrow’

27

folksonomie genoemd, heeft alleen de persoon die een object op de website plaatst de mogelijkheid om tags

te plaatsen bij dit object. Objecten geplaatst door andere gebruikers kunnen niet getagt worden. Een

voorbeeld van zo’n systeem is Flickr. In een free-for-all taggingsysteem, ook wel ‘broad’ folksonomie genoemd,

kunnen veel verschillende personen dezelfde objecten taggen (Figuur 8). Dit kunnen zowel de eigen geplaatste

objecten zijn of objecten geplaatst door anderen. De personen beschrijven de objecten vanuit hun eigen

gezichtspunt door gebruik te maken van dezelfde of compleet andere tags. De website Delicious maakt gebruik

van een ‘broad’ Folksonomie.

FIGUUR 8. NARROW EN BROAD FOLKSONOMY30

Tag ondersteuning

De manier waarop systemen helpen bij het toekennen van tags heeft invloed op de tags die worden toegekend.

Over het algemeen kunnen drie mogelijke manieren van tag-ondersteuning plaatsvinden. De eerste

mogelijkheid is blind tagging waarbij de gebruiker geen andere tags van andere gebruikers te zien krijgt. De

gebruiker bepaalt naar eigen inzicht welke tags toegekend worden. Viewable tagging geeft de tagger

ondersteuning bij het toekennen van tags door de reeds toegekende tags te tonen (Figuur 9). Als laatste optie

is er suggestive tagging waarbij systemen bepaalde tags suggereren om te gebruiken. De gesuggereerde tags

kunnen gebaseerd zijn op reeds gebruikte tags van de gebruiker of reeds gebruikte tags van andere gebruikers

bij het object. De tags kunnen ook op basis van automatische verzamelde contextuele tags worden

gesuggereerd. Het Powerhouse Museum31

experimenteert uitgebreid met de mogelijkheden van automatisch

tags genereren met behulp van Open Calais. Met dit systeem worden gestructureerde tags gegenereerd voor

personen, plaatsnamen, technologieën en bedrijfsnamen.

30

Bron: http://www.vanderwal.net/random/category.php?cat=132 31

http://www.powerhousemuseum.com/dmsblog/index.php/2008/03/31/opac20-opencalais-meets-our-museum-collection-auto-tagging-

and-semantic-parsing-of-collection-data/

28

FIGUUR 9. VORM VAN VIEWABLE TAGGING32

Aggregatie

Het bag-model is een methode die het mogelijk maakt om dezelfde tags van verschillende gebruikers bij één

object te plaatsen. Een voorbeeld hiervan is Delicious waar elke gebruiker kan bepalen welke tags worden

toegekend aan een bookmark (ook al zijn de tags ‘dubbel’). Een voordeel van het bag-model is dat op basis van

het gebruik van dezelfde tags statistische modellen ontwikkeld kunnen worden welke iets zeggen over

bijvoorbeeld de gelijkgestemdheid van de tag bij een object. Als een tag bij een object veelvuldig wordt

gebruikt is de kans groter dat de tag ‘goed’ is. Websites als Flickr en YouTube gebruiken een ander model,

namelijk het set-model. Dit model vraagt de gebruiker om gezamenlijk de tags van een object te bepalen.

Hierbij is het dus niet mogelijk om dezelfde tags te herhalen.

Objecttype

Het ontwikkelen van een taggingsysteem hangt sterk af van welk type objecten er getagt worden. Op dit

moment zijn er systemen te vinden voor het taggen van bookmarks (Delicious), bibliografisch materiaal

(CiteULike), foto’s (Flickr), video (YouTube) en nog andere digitale objecten. Voor de culturele sector zijn

taggingsystemen, zoals Steve.Museum, ontwikkeld voor het taggen van museale objecten33

. Steve.Museum is

een experiment waarbij het mogelijk is om kunstobjecten vanuit verschillende musea te voorzien van tags. De

bezoeker krijgt een foto te zien met een korte beschrijving en wordt gevraagd om tags te plaatsen die

betrekking hebben op het object.

Herkomst van objecten

Objecten kunnen op verschillende manieren toegevoegd worden aan het systeem. Een gebruiker kan zelf

objecten plaatsen op een website, of bepaalt welke objecten beschikbaar worden gesteld of het systeem laat

het vrij welke objecten er getagt kunnen worden.

Connectiviteit van objecten

De manier waarop objecten met elkaar verbonden zijn kan via links of groepen. Webpagina’s zijn bijvoorbeeld

gelinkt met behulp van hyperlinks. Flickr verbindt foto’s met elkaar op basis van groepen. Een groep heeft vaak

betrekking op één onderwerp, bijvoorbeeld Flowers.

32

http://calibrate.eun.org 33

http://www.steve.museum

29

Sociale connectiviteit

De meeste tagsystemen bevatten ook een vorm van sociale connectiviteit. Het is vaak mogelijk om de objecten

geplaatst of getagt door anderen te volgen door elkaars vriend te worden. Het principe is gebaseerd op social

networks zoals Hyves. Het voorbeeld hiernaast (Fout! Verwijzingsbron niet gevonden.) geeft een overzicht van

mijn Flickr contacten. Onderaan staan de nieuwe foto’s van mijn contacten en bovenaan de reacties die mijn

contacten hebben geplaatst bij mijn foto’s.

FIGUUR 10. MIJN FLICKR CONTACTEN

Deze aspecten van een taggingsystemen hebben een sterke invloed op hoe tags worden gebruikt en welke tags

er worden toegekend. Bij de analyse van taggingsystemen dienen deze aspecten meegenomen te worden.

Resultaten van een onderzoek uitgevoerd naar het taggedrag in Delicious kunnen niet geëxtrapoleerd worden

naar bijvoorbeeld Flickr. Ieder systeem heeft zijn eigen type gebruikers, zijn eigen type objecten en een eigen

architectuur.

5.4 ZOEKEN MET TAGS

Er zijn verschillende methoden om te zoeken naar foto’s met behulp van tags. Het is mogelijk om full-text te

zoeken naar tags of men kan zoeken op verschillende visuele manieren. Hieronder wordt een aantal van deze

mogelijkheden die bij Flickr worden gebruikt opgesomd.

Pivot browsing

Pivot browsing is de natuurlijke

bijvoorbeeld verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een g

verschijnt de fotocollectie van deze gebruiker. De

hetzelfde onderwerp. Als gebruiker krijg je de mogelijkheid om op een e

op tags, gebruikers en groepen te klikken.

maakt om iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken.

2006).

Clustering

Flickr probeert met clustering een verzameling soortgelijke

met elkaar hebben. Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties.

zoekt op de tag ‘mountain’ krijgt hij de keus uit twee

Cluster 1: snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white

Cluster 2: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel

Het grote voordeel is dat het systeem extra tags toevoegt aan de tag

oplevert. In dit voorbeeld richt cluster 1 zich meer op een echt berglandschap zoals de Alpen en lijkt cluster 2

zich meer te richten op heuvels aan de kust.

Tagclouds en andere tag visualisatie

Eén van de meest toegepaste method

verscheen (waarschijnlijk) als eerste in het boek Microserfs van Douglas Coupland

lijst van (de populairste) tags, meestal in alfabetische volgorde, die visueel

grootte van de tag (lettertype formaat) de populariteit bepaalt.

Voor een gebruiker wordt het zo eenvoudiger om een grote collectie van informatie te begrijpen en de tags op

waarde te kunnen inschatten. Net als bij hypertext browsing surft de gebruiker door de collectie, met als grote

verschil dat visuele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel

weergeven waardoor een contextuele weergave ontstaat.

FIGUUR 11. FLICKR TAGCLOUD VAN DE LIBRARY OF CONG

34

http://www.flickr.com/photos/tags/mountain/clusters/

manier van zoeken in systemen die gebaseerd zijn op tags.

verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een g

collectie van deze gebruiker. De tags bij de foto’s zijn ook weer gelinkt aan andere foto’s met

Als gebruiker krijg je de mogelijkheid om op een eenvoudige manier rond te kijken door

op tags, gebruikers en groepen te klikken. Alle elementen op een webpagina zijn hyperlinks wat het m

iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken.

Flickr probeert met clustering een verzameling soortgelijke tags bij elkaar te brengen die onderling een relatie

Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties.

krijgt hij de keus uit twee clusters waar hij de beste cluster voor hem kan kiezen

snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white

: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel

Het grote voordeel is dat het systeem extra tags toevoegt aan de tag mountain en betere zoekresultaten


zich meer te richten op heuvels aan de kust.

clouds en andere tag visualisatie

methoden voor het weergeven van tags is de tagcloud. Het idee van tag

verscheen (waarschijnlijk) als eerste in het boek Microserfs van Douglas Coupland (1995)

lijst van (de populairste) tags, meestal in alfabetische volgorde, die visueel wordt weergegeven waarbij de

te van de tag (lettertype formaat) de populariteit bepaalt. (Hassan-Montero en He



suele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel

weergeven waardoor een contextuele weergave ontstaat.

N DE LIBRARY OF CONGRESS

http://www.flickr.com/photos/tags/mountain/clusters/

30

anier van zoeken in systemen die gebaseerd zijn op tags. Op Flickr

verschijnen de namen van gebruikers als hyperlinks. Wanneer geklikt wordt op een gebruiker

gelinkt aan andere foto’s met

envoudige manier rond te kijken door

Alle elementen op een webpagina zijn hyperlinks wat het mogelijk

iedere keer vanuit een ander gezichtspunt naar de Flickr collectie te kijken. (Millen en Feinberg

engen die onderling een relatie

Dit maakt het mogelijk om te zoeken naar specifieke tag combinaties. Dus als de gebruiker

waar hij de beste cluster voor hem kan kiezen34

:

snow, nature, clouds, trees, mountains, blue, tree, sun, forest, white

: sky, landscape, water, green, cloud, sunset, sea, rock, winter, travel

en betere zoekresultaten


Het idee van tagclouds

(1995). Een tagcloud is een

wordt weergegeven waarbij de

Montero en Herrero-Solana 2006)



suele interfaces, als de tagcloud, een tag wegen en dit op basis van locatie/kleur/grootte visueel

31

Bovenstaande tagcloud (Figuur 11) geeft de top 150 meest populaire tags weer van de fotocollectie van de

Library of Congress op Flickr. De tags zijn alfabetisch gerangschikt en de grootte van de tags geeft de

populariteit aan. De tag ‘Libraryofcongress’ is het populairst, gevolgd door ‘Historicalphotographs’,

‘jackdelano’, ‘largeformat’, en wordt dus het meest gebruikt bij de foto’s. Tagclouds zijn een veelgebruikte

toepassing op de verschillende social software websites (Delicious, Flickr, Technorati en Librarything) en er

wordt ook veelvuldig mee geëxperimenteerd. Er wordt gespeeld met de dikte, grootte of kleur van het

lettertype. Een andere mogelijkheid is de lokatie van de woorden. De tags kunnen alfabetisch, op frequentie of

op een vooraf bepaalde algoritme worden gesorteerd. Ook is het mogelijk om tags op een bepaalde plek in de

cloud te plaatsen (Rivadeneira e.a. 2007, 996).

Ondanks de toenemende populariteit van tagclouds wordt er sterk getwijfeld aan de effectiviteit. Vreemd

genoeg is daar weinig onderzoek naar verricht. Onderzoek van Rivadeneira et al. (2007) wijst uit dat de grote

tags en de tags linksboven in de cloud de hoogste recall hebben. Halvey en Keane (2007) ontdekten dat

alfabetisch gerangschikte trefwoordenlijsten effectiever zijn dan tagclouds. Uit een onderzoek door Kuo et al.

(2007) wordt dit bevestigt. Tagclouds krijgen volgens het onderzoek een hogere ‘satisfaction’ dan de standaard

lijst. De huidige onderzoeken hebben zich vooral gericht op het gebruik van tagclouds als echte zoekmachine

en niet als middel om te browsen. Tagclouds zijn echter zeer geschikt om een eerste indruk te krijgen van de

toegekende tags aan een verzameling afbeeldingen, links of objecten. Verder onderzoek is noodzakelijk om de

ware effectiviteit van een tagcloud aan te tonen.

5.5 TAGGING EN GECONTROLEERDE VOCABULAIRES

In de vorige paragrafen is aandacht besteed aan de architectuur van taggingsystemen. In hoofdstuk 3 is een

beschrijving gegeven van de verschillende soorten gecontroleerde vocabulaires. Het vergelijken van deze twee

systemen voor het beschrijven van foto’s is een logische volgende stap. Tagging en gecontroleerde

vocabulaires kunnen gezien worden als elkaars tegenpolen, maar hebben zeker ook overeenkomsten. Deze

paragraaf gaat hierop verder in en beschrijft de voor- en nadelen van taggingsystemen tegenover die van

gecontroleerde vocabulaires.

De belangrijkste eigenschap van een folksonomie, een verzameling tags, is dat deze is opgebouwd uit een

platte structuur. Er is geen hiërarchie en er zijn geen relaties onderling tussen de termen. Het is wel mogelijk

om gerelateerde tags met elkaar te combineren. Dit is onder andere mogelijk bij Flickr waarbij tags op basis van

een algoritme automatisch worden geclusterd of bij Delicious waar gebruikers zelf tags kunnen bundelen. Bij

gecontroleerde vocabulaires worden termen van tevoren bepaald en de relaties tussen de termen worden

door professionele indexeerders vastgesteld. Figuur 12 toont het verschil in complexiteit van de verschillende

systemen. De mogelijkheid om complexe relaties te leggen tussen termen (kennis) wordt afgezet tegen de

complexiteit van het systeem. In de tabel zijn folksonomieën en ontologieën elkaars uitersten. Ontologieën als

een zeer complex systeem waarin het mogelijk is om tussen termen specifieke relaties te leggen en

folksonomieën als een open simpel systeem zonder relaties tussen de termen. Classificatiesystemen en

thesauri staan tussen deze systemen in.

32

FIGUUR 12. GRAFIEK VAN REPRESENTATIE SYSTEMEN UIT (WELLER 2007)

De eenvoud van het taggingsysteem brengt nadelige consequenties met zich mee. Vooral als je deze nadelen

tegen de sterk gestructureerde gecontroleerde vocabulaires reflecteert (zie de eigenschappen van

gecontroleerde vocabulaires in hoofdstuk 3). Mogelijke nadelen van taggingsystemen zijn (Furnas e.a. 1987;

Guy en Tonkin 2006; Mathes 2004; Golder en Huberman 2006):

• Geen controle over synoniemen. Dit leidt tot tags die allemaal hetzelfde object beschrijven, maar niet

gerelateerd zijn, zoals ‘mac’, ‘macintosh’, ’apple’. Deze woorden zijn synoniemen voor de ‘Apple

Macintosh Computer’.

• Het systeem maakt geen onderscheid in spellingsvarianten of foutieve spelling van één woord.

Woorden in enkelvoud en meervoud kunnen gewoon door elkaar heen worden gebruikt.

• Geen semantische niveaus. Woorden kunnen heel specifiek zijn of juist heel abstract.

• Veelal worden woorden achter elkaar geplakt (gecombineerd) omdat het systeem alleen enkele

woorden als tags accepteert, zoals ‘newyorkcity’ of ‘blackandwhite’.

• Tags kunnen gebruikt worden voor persoonlijk gebruik, zonder dat de betekenis bij overige gebruikers

bekend is. Bij gebruik binnen een community kan het een nuttig middel zijn om objecten onderling te

delen. Zoals bijvoorbeeld de tag ‘toread’ voor interessante bronnen of ‘code4lib’ voor bronnen die

interessant voor een bepaalde community (Tonkin e.a. 2008).

Naast bovenstaande tekortkomingen van een taggingsysteem ten opzichte van gecontroleerde vocabulaires

zijn er ook belangrijke sterktes te noemen. Mathes (2004) ziet twee belangrijke voordelen van een

taggingsysteem: 1) serendipiteit en 2) vocabulaire gebruiker. Deze twee aspecten worden hieronder nader

toegelicht.

Serendipiteit is het vinden van iets onverwachts en bruikbaars terwijl je op zoek bent naar iets totaal anders.

Doordat alle tags, sets, collecties en gebruikers in een systeem als Flickr met elkaar gelinkt zijn ontstaat er een

omgeving waarin het mogelijk is om te browsen en de fotocollectie te exploreren. In het wetenschappelijk

onderzoek naar de kwaliteit van taggingsystemen wordt dit vaak niet als aspect onderzocht. Veelal wordt er

alleen gekeken naar de kwaliteit van de taggingsystemen bij directe zoekopdrachten.

Ondanks het feit dat een verzameling tags bestaat uit synoniemen, homoniemen, spellingsvarianten en

codewoorden, ook wel ‘sloppy’ tags genoemd, zijn deze tags waardevol omdat ze dicht bij het taalgebruik van

de gebruiker staan (Guy en Tonkin 2006). De tags worden bepaald door de gebruiker en niet door professionals

waardoor een vocabulaire ontstaat die zich snel kan aanpassen aan veranderlijk taalgebruik.

33

Uit deze twee sterkten blijkt dat een taggingsysteem anders werkt dan een standaard gecontroleerde

vocabulaire. De gecontroleerde vocabulaire is een systeem welke een traditionele classificatie hanteert en

dwingt de gebruiker een object in een bepaald onderwerp onder te verdelen. Taggingsystemen werken niet

volgens strakke regels waardoor ze de flexibiliteit en creativiteit bieden om foto’s vanuit verschillende

manieren te benaderen. Stewart Butterfield, één van de oprichters van Flickr, ziet de eenvoud van

folksonomieën als grote pluspunt en vergelijkt dit met de complexiteit van een taxonomie:

“I think the lack of hierarchy, synonym control and semantic precision are precisely why it works. Free

typing loose associations is just a lot easier than making a decision about the degree of match to a

predefined category (especially hierarchical ones). It’s like 90% of the value of a ‘proper’ taxonomy but

10 times simpler.” (Butterfield 2004)

Met deze uitspraak van Butterfield wordt precies duidelijk wat het voordeel is. Misschien zijn de percentages

wat overdreven, maar met weinig inspanning kom je een heel eind in de richting van een professionele

taxonomie.

6 ONDERZOEK NAAR HET TA

In de vorige hoofdstukken is een theoretische basis gelegd voor

In hoofdstuk 2 heeft u kunnen lezen welke mogelijkheden er zijn voor de retrieval van

vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval

gebruik van een tekstuele omschrijving van een

conceptanalyse (lees hoofdstuk 4

hoofdstuk 3). Deze representatie kan pla

verschil tussen gecontroleerde vocabulaires en folksonomieën is beschreven in

Dit hoofdstuk beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifie

onderdeel van de fotowebsite Flickr

tags:

1. Wie en hoe vaak taggen geb

2. Hoe is het vocabulaire van

Op basis van deze resultaten wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags

zijn geplaatst. De resultaten geven mogelijk aanleiding voor het verder ontwikkelen van tagsystemen en geven

inzicht in de verschillen en overeenko

Figuur 13 geeft schematisch de onderzoeksopzet weer.

werkt. Paragraaf 6.2 gaat dieper in op

hiervan de resultaten zijn. De andere

is een analyse van 50 foto’s welke door d

foto’s zijn door bezoekers van de website voorzien van tags. Met behulp van software is het mogelijk om de

gegevens uit het Flickr systeem te halen en te importeren in Excel voor

excellijst geanalyseerd op basis van

raamwerk vindt zijn oorsprong in de conceptanalyse bes

de ontwikkelingsfase van het gebruikte tag

van methoden van onderwerpsontsluiting en l

laatste hoofdstuk worden de resultaten uitg

onderzoeksvragen.

FIGUUR 13. ONDERZOEKSOPZET

NDERZOEK NAAR HET TAGGEBRUIK OP FLICKR THE COMMONS

eoretische basis gelegd voor nader onderzoek naar het taggebruik op

heeft u kunnen lezen welke mogelijkheden er zijn voor de retrieval van foto’s

vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval

gebruik van een tekstuele omschrijving van een foto. Deze tekstuele omschrijving komt tot stand middels een

4) en wordt volgens een afgesproken methode gerepresenteerd (lees

). Deze representatie kan plaatsvinden via gecontroleerde vocabulaires of via folksonomieën.

verschil tussen gecontroleerde vocabulaires en folksonomieën is beschreven in hoofdstuk 5.

beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifie

onderdeel van de fotowebsite Flickr. Het onderzoek geeft op een aantal manieren inzic

Wie en hoe vaak taggen gebruikers foto’s in the Commons?

het taggingsysteem opgebouwd?

wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags


inzicht in de verschillen en overeenkomsten tussen traditionele ontsluitingsmethoden en taggingsystemen.

onderzoeksopzet weer. Paragraaf 6.1 beschrijft hoe het systeem van Flickr

per in op welke gerelateerde tagging onderzoeken er zijn uitgevoerd en wat

De andere paragrafen zijn een verdere uitwerking van het onderzoek.

van 50 foto’s welke door de Library of Congress op de fotowebsite Flickr zijn geplaatst. Deze


het Flickr systeem te halen en te importeren in Excel voor verdere bewerking.

xcellijst geanalyseerd op basis van een analyse met behulp van een zogenaamde t

raamwerk vindt zijn oorsprong in de conceptanalyse beschreven in hoofdstuk 4. Paragraaf

de ontwikkelingsfase van het gebruikte tag-raamwerk. Zo’n raamwerk is veelvuldig gebruikt voor de analyse

onderwerpsontsluiting en lijkt een goede methode te zijn voor de analyse van tags.

stuk worden de resultaten uitgewerkt en gekoppeld met de voorgaande theorie en

34

OMMONS

k naar het taggebruik op Flickr.

foto’s. In deze scriptie is

vervolgens de nadruk gelegd op de mogelijkheden van concept based retrieval. Concept based retrieval maakt

foto. Deze tekstuele omschrijving komt tot stand middels een

) en wordt volgens een afgesproken methode gerepresenteerd (lees

via gecontroleerde vocabulaires of via folksonomieën. Het

hoofdstuk 5.

beschrijft het onderzoek uitgevoerd naar het taggedrag in The Commons, een specifiek

inzicht in het gebruik van

wordt het duidelijk wie wat heeft getagt en op welk semantisch niveau de tags


msten tussen traditionele ontsluitingsmethoden en taggingsystemen.

Paragraaf 6.1 beschrijft hoe het systeem van Flickr

zijn uitgevoerd en wat

paragrafen zijn een verdere uitwerking van het onderzoek. Het onderzoek

e Library of Congress op de fotowebsite Flickr zijn geplaatst. Deze


ewerking. Vervolgens is deze

tag-raamwerk. Dit tag-

. Paragraaf 6.3 gaat nader in op

raamwerk. Zo’n raamwerk is veelvuldig gebruikt voor de analyse

voor de analyse van tags. In het

werkt en gekoppeld met de voorgaande theorie en

35

6.1 FLICKR

George Oates, projectleider van Flickr The Commons, ziet de wereld van Flickr als: “A great place to be a

photo.35

” De website is een wereld waarin een foto zich volledig thuis moet voelen en overal en op allerlei

manieren te vinden en te bekijken is. Het is mogelijk om als gebruiker één of meerdere foto’s te uploaden naar

zijn account. Bij iedere foto is het mogelijk om metadata toe te voegen. De mogelijkheden zijn zeer uitgebreid

en worden hieronder in Tabel 2 gepresenteerd.

Titel Titel bij de foto

Description Mogelijkheid tot het geven van een beschrijving onder iedere foto.

Set Een foto kan behoren tot één of meerdere sets. Als het ware een verzameling foto’s in

een album.

Comments Bevat commentaar van bezoekers, waarbij ze kritiek, opmerkingen, links, e.d. kunnen

leveren bij een foto.

Tags De mogelijkheid om tags te plaatsen bij een foto.

Machine tags Deze tags worden automatisch gegenereerd door het systeem.

Add note De mogelijkheid om in de foto een selectie te maken en hierbij commentaar te

plaatsen.

Groups Groepen van mensen met een gedeelde interesse. Een foto over de “bergen” kan

bijvoorbeeld worden toegevoegd aan de groep “Mountains of USA”.

Members De persoon die het account beheert.

Extra informatie

Toevoegen van extra informatie, zoals:

- Copyright (Creative Commons licentie)

- EXif data (date, time, camera, enz.)

- Viewed x times

- Geo-tag (geo-informatie van de lokatie waar de foto is gemaakt.)

TABEL 2. OPTIES IN FLICKR

Een gebruiker kan zoeken, browsen en sociaal netwerken binnen de community van Flickr. Het eenvoudigste

om een foto te zoeken is via full text search. De functie full text search maakt gebruik van de titel, beschrijving

en de tags om de foto’s te doorzoeken. De full text search kan nader verfijnd worden. De Flickr website is

vooral ontwikkeld als een community om foto’s te ontdekken, het moet als het ware een beleving zijn. Dit

heeft Flickr gerealiseerd doordat iedere tag, gebruiker, e.d. gelinkt zijn, waardoor het mogelijk is om door de

pagina’s heen te surfen en op ontdekkingsreis te gaan.

Een specifiek onderdeel op Flickr is The Commons. The Commons werd geïntroduceerd op 16 januari 2008 als

een pilot project in samenwerking met de Library of Congress waarbij 3000 foto’s uit de collectie op Flickr werd

geplaatst. Het project heeft twee belangrijke doelstellingen. Ten eerste het vergroten van de toegang tot

publiekelijke fotocollecties en ten tweede de gebruiker de mogelijkheid geven om informatie en kennis bij te

dragen. Dit bleek zo’n groot succes dat inmiddels 23 instellingen zich hebben aangesloten bij The Commons.

6.2 GERELATEERD TAGGING ONDERZOEK

In de wetenschappelijke literatuur is een bescheiden aantal onderzoeken terug te vinden naar het gebruik van

tags. Nog minder onderzoek is terug te vinden over de analyse van de tags zelf, dus de kwaliteit en betekenis

van het gebruikte woord.

De meeste onderzoeken over tagsystemen komen uit de hoek van de Information Retrieval. Het zou dan ook

een logische stap zijn om het taggingproces in The Commons als zoeksysteem te beschouwen en deze zo ook te

beoordelen op zijn kwaliteit. In de Information Retrieval wordt bij tekstsystemen de kwaliteit gemeten door de

Precision en de Recall te meten. Precision verwijst naar het percentage relevante documenten ten opzichte van

het totale zoekresultaat. Recall verwijst naar het percentage relevante gevonden documenten ten opzichte van

35

http://www.slideshare.net/kennisland/the-commons-on-filckr-a-primer-presentation

36

het totaal aantal relevante documenten in de collectie. Chowdhury (2004, p.73) definieert twee belangrijke

redenen waarom het Precision/Recall-principe bij image-retrieval systemen een mindere meet methode is. Ten

eerste is het niet duidelijk welk niveau van Recall een gebruiker wenst. Een gebruiker is tevreden wanneer

hij/zij uit een set van foto’s browsend de juiste foto kan kiezen. Recall wordt pas belangrijk als de juiste foto

niet wordt gevonden. Ten tweede hebben niet alle relevante items dezelfde waarde. Gevonden items hebben

verschillende niveaus van relevantie. Dit concludeert Fidel (1997) ook,

“precision and recall as used for text retrieval might not be adequate test in image retrieval.”

Zij ziet het meten van de tijd en inspanning die wordt geleverd bij het browsen naar de juiste foto in een set

van foto’s als een goed alternatief voor Precision. Dit gebeurt ook op Flickr. Mensen zoeken niet specifiek naar

één foto, maar naar een foto over een specifiek onderwerp. Zoals bijvoorbeeld een foto over Parijs. Het maakt

niet uit welke, als die maar over Parijs gaat. Al klikkend komen ze op desgewenste foto terecht, pivot browsing

wordt dat genoemd en is reeds besproken in hoofdstuk 5.

Een geheel andere benadering om de kwaliteit van het tagsysteem te onderzoeken is om naar de inhoud van

de tags te kijken. Tags kunnen geëvalueerd worden aan de hand van de National Information Standards

Organization (NISO). Deze richtlijnen worden gebruikt voor de constructie van gecontroleerde vocabulaires. De

vergelijking van tagging met het NISO geeft aan dat de gebruikte tags deels overeenkomen met de richtlijnen.

Aspecten die niet voldoen aan de richtlijnen zijn enkelvoud/meervoud, gekoppelde woorden, homoniemen en

synoniemen (Spiteri 2007). De tags worden zo vergeleken met een traditionele manier van beschrijven. De

tekortkoming hierbij is dat tags maar tot op zekere hoogte vergeleken kunnen worden met professionele

indexen. Aan tags worden totaal geen restricties opgelegd over de te gebruiken trefwoorden.

Het gebruik van spellingcontrole-software voor het controleren van de kwaliteit van tags is een andere optie. In

het onderzoek van Guy & Tonkin (2006) naar het taggebruik op Flick en Delicious wordt spellingcontrole-

software gebruikt. Zij concludeerden dat 40% van de Flickr tags en 28% van de Delicious tags verkeerd gespeld

zijn, een taal gebruikt wordt die niet herkend wordt of gecombineerde woorden zijn. Echter, hierbij is het

probleem dat er meerdere talen worden gebruikt, woorden kunnen niet voorkomen in het woordenboek maar

wel een betekenis hebben en het is de vraag of de spellingcontrole culturele variaties herkent. Een foutieve

spelling hoeft nog niet meteen te betekenen dat een tag nutteloos is.

6.3 OP WEG NAAR EEN TAG-RAAMWERK

Een andere mogelijkheid, welke in deze paragraaf verder wordt uitgewerkt, is het gebruik van een raamwerk

waarin de tags op basis van hun semantische waarde onderverdeeld kunnen worden. Voor deze methode is in

dit onderzoek gekozen. Het voordeel van deze methode is dat de tags onderverdeeld worden in een model op

basis van verschillende semantische niveaus en op onderwerp. Het raamwerk waarin de verschillende tags

onderverdeeld worden is van groot effect op de resultaten van het onderzoek. Om de juiste informatie te

kunnen verzamelen is het dan ook noodzakelijk om dit goed te onderzoeken en bestaande modellen met elkaar

te vergelijken. Er zijn verschillende onderzoeken uitgevoerd die een linguïstisch raamwerk hebben gebruikt om

het zoekgedrag van gebruikers naar foto’s onder te verdelen. Gudivada en Raghavan (1995) maken

onderscheid in de retrieval van foto’s in primitieve (kleur, vorm, textuur) en semantische aspecten (type object

of evenement). Dit onderscheid in het zoekgedrag van gebruikers breidt Eakins (1998) verder uit in drie type

queries: primitive features, logical features en abstract features. Primitieve kenmerken zijn aspecten zoals

kleur, vorm en textuur. Logische kenmerken in queries van een gebruiker zijn gericht op bekende aspecten van

de objecten in de foto. Zoals bijvoorbeeld “Vind een foto met bergbeklimmers die een top beklimmen met

pikkels in hun hand.” Queries op basis van abstracte kenmerken gaan in op de diepere betekenis van objecten

of gebeurtenissen. Bijvoorbeeld een afbeelding over het laatste avondmaal.

37

Jaimes & Chang (2000) stellen een conceptueel piramide model (Zie Figuur 14) voor als middel om alle

verschillende aspecten van visuele informatie te kunnen indexeren. Het model is gebaseerd op gerelateerd

onderzoek uit verschillende onderzoeksrichtingen zoals de psychologie, kunst, bibliotheekwetenschap en

content-based retrieval. De indexing structuur wordt weergegeven als een piramide en bevat tien niveaus voor

visuele en niet visuele informatie. Het model is uitgesplitst in twee delen. De Syntax beschrijft de manier

waarop visuele elementen zijn samengesteld (kleur, textuur). De Semantics beschrijven de betekenis en de

samenhang van deze elementen (objecten, gebeurtenissen). Deze tweedeling is overeenkomstig met het

model van Gudivada en Raghavan (1995) . De eerste vier niveaus beschrijven de syntax van een foto en zijn

waarnemend van aard en specifieke kennis van de wereld is niet noodzakelijk. De resterende zes niveaus

hebben betrekking op de semantiek en vragen wel degelijk om specifieke kennis. Op deze niveaus wordt verder

onderscheid gemaakt in algemene, specifieke en abstracte beschrijvingen. Hoe hoger het niveau hoe meer

kennis er nodig is om een beschrijving te kunnen maken.

FIGUUR 14. PIRAMIDE MODEL VAN JAIMES EN CHANG

Hollink et al. (2004) ontwikkeld een model op basis van verschillende classificatie modellen uit bestaande

literatuur (Jaimes en Chang 2000; Shatford 1986; J.P. Eakins 2002; Armitage en Peter G.B. Enser 1997). Het

model is opgedeeld in drie top levels: Het non-visuele niveau, het perceptuele niveau en het conceptuele

niveau. Op zich gelijk aan bovenstaande modellen, alleen wordt er een non-visuele niveau hieraan toegevoegd.

Binnen deze drie top levels worden classes benoemd voor de verschillende categorieën van de beschrijvingen.

Op het non-visuele niveau worden de classes ingericht op basis van de VRA elementen set. Deze elementen

beschrijven de context van een foto, zoals de datum, lokatie en vervaardiger. Het perceptuele niveau bestaat

uit elementen die direct zijn af te leiden uit de visuele karakteristieken van een foto, zoals kleur en vorm. Op dit

niveau is geen algemene kennis van de wereld of specifieke kennis van het onderwerp noodzakelijk. Het

conceptuele niveau beschrijft de semantische inhoud van een foto. Hollink maakt een onderscheid in drie

subniveaus: een algemene, specifieke en abstracte subniveau. Daarnaast gaat Hollink in op de searcher die de

beschrijvingen gebruikt bij het zoeken naar het object. Het is volgens Hollink belangrijk om de eigenschappen

van de searcher te bestuderen om erachter te komen welke classes van beschrijvingen worden gebruikt. Drie

factoren spelen hierbij een rol: 1) Het domein waarin de gebruiker zoekt. 2) De expertise van de gebruiker. 3)

De taak die de gebruiker uitvoert.

Jörgensen (1996) zag ook het belang in van het zoekgedrag van de gebruiker en liet de gebruiker foto’s

beschrijven voor in een indexeringssysteem. Het onderzoek naar het zoekgedrag van gebruikers leverde een

model op van 12 specifieke attributen voor het beschrijven van foto’s. Attributen zijn bijvoorbeeld objecten,

38

kleur, mensen, lokatie en content/story. Deze attributen kunnen onderverdeeld worden in drie verschillende

types, namelijk Perceptual (P), Interpretive (I) and Reactive (R) attributen. Per attribuut deelt Jörgensen deze

verder in op classes. Perceptuele attributen kunnen direct in relatie worden gebracht met de visuele weergave.

Wat je ziet, beschrijf je direct. Interpretive attributen daarentegen vragen om interpretatie van de perceptuele

attributen en specifieke kennis van of bekendheid met het object om het te kunnen benoemen. Reactieve

attributen geven gebruikers als ze een eigen sterke mening of emotie hebben over de foto of de objecten op de

foto.

Rafferty en Hidderley (2007) exploreren de verschuiving van een monologe naar een dialoge manier van

indexeren in relatie met Flickr. Zij beschrijven in hun artikel obstakels die kunnen ontstaan bij de retrieval van

foto’s door het gebruik van ongecontroleerde tags in Flickr. Zij wijzen op problemen die reeds eerder zijn

beschreven, zoals synoniemen, ambiguïteiten, vaag taalgebruik en persoonlijke tags. De auteurs zien een

democratische benadering als de juiste methode om antwoord te geven op bovenstaande problemen en de

gebruiker zijn vrijheid in het taggen te laten behouden. Het principe van de Democratic Indexing is gebaseerd

op het idee dat individuen een eigen interpretatie van een foto kunnen hebben. Deze eigen interpretatie komt

tot stand door een verschillende focus op delen van de foto en verschillend gebruik van het vocabulaire om een

foto te beschrijven. Elke foto kan beschreven worden op verschillende levels uitgewerkt in Tabel 3. Levels of

meaning. Het model is deels gebaseerd op Panofsky’s manier van foto interpreteren.

Level en categorie Beschrijving Voorbeelden

1.1 Biographical Information about the image as a

document

Photographer/artist, date and

time of creation, color/B&W, size,

title

1.2 Structural contents Significant objects and their

physical relationship within the

picture

Object types, position of object,

relative size (or importance) within

the picture (e.g. car top right)

2.1 Overall content Overall classification of the image Type of image, “landscape”,

“portrait”

2.2 Object content Classification of each object

defined in 1.2

Precise name and details of each

object (if known), Margaret

Thatcher, Ford Orion

3.1 Interpretation of whole image Overall mood Words or phrases to summarize

the image, e.g. “happy”,

“shocking”

3.2 Interpretation of objects Mood of individual objects Margaret Thatcher triumphant,

defeated

TABEL 3. LEVELS OF MEANING

De belangrijkste overeenkomst tussen bovenstaande modellen is de twee- of driedeling tussen de verschillende

semantische niveaus (Zie de tweedeling Syntax/Semantics in Tabel 4). Het eerste semantische niveau is heel

beschrijvend van aard, de tweede vraagt al om meer kennis van de wereld en het derde niveau vraagt om grote

interpretatie van de gebruiker. Enkele modellen geven een vrij algemene indeling hoe een foto geïnterpreteerd

kan worden, de andere modellen zijn juist veel specifieker en geven meer mogelijkheden.

39

Uiteindelijk is gekozen om als basis voor het maken van het tag-raamwerk het model van Jörgensen te kiezen.

De belangrijkste redenen hiervoor zijn ten eerste dat het model duidelijk overlap vertoont met de andere

modellen en ten tweede omdat het model ook een duidelijk onderscheid maakt in de verschillende

onderwerpen in de vorm van attributen. De resultaten uit dit model kunnen geëxtrapoleerd worden naar de

overige modellen (zie Tabel 4) zodat er meerdere conclusies getrokken kunnen worden met behulp van de

andere modellen.

Jaimes & Chang

(2000)

Panofsky/

Shatford (1986)

Eakins (1998) Hollink et

al. (2004)

Jörgensen (1998) Hidderley &

Rafferty (1997)

Non-visual Non-visual 1.1 Bibliographical

Sy

nta

x

Type/technique Primitive

queries

Perceptual Interpretive Art Historical

information

1.2 Structural

content

Global

distribution

Perceptual Color, visual

elements

Local structure Color, visual

elements

Global

Composition

Color, visual

elements,

location

Se

ma

nti

cs

Generic objects Iconography /

generic “of”

Logical

queries

General

conceptual

Perceptual /

Interpretive

Objects,

people

Generic scene Interpretive Content /

Story

Specific objects Iconography /

specific “of”

Specific

conceptual

Interpretive Content /

Story

2.2 Object

content

Specific scene 2.1 Overall

content

Abstract objects Iconology /

“about”

Abstract

queries

Abstract

conceptual

Interpretive Abstract,

people-

related and

reactive

attributes

3.2 Interpretation

of objects

Abstract scene 3.1 Interpretation

of whole image

TABEL 4. MODELLEN SAMENGEVAT

40

6.4 CLASSIFICEREN VAN TAGS

Het tag-raamwerk voor dit onderzoek (Tabel 5) is gebaseerd op het model van Jörgensen maar is op een aantal

punten aangepast. Uit een testsessie waarbij vijf foto’s zijn gebruikt voor nadere analyse bleek dat het model

niet voldeed aan de verwachtingen. De attributen ANIMALS, OBJECT-RELATED ATTRIBUTES, LOCATION SPECIFIC

en LOCATION GENERAL zijn toegevoegd aan het model. De beschrijvingen van de attributen door Jörgensen

was te beperkt en diende voor het onderzoek verder uitgewerkt te worden. De lijst met attributen is met de

andere testpersoon besproken over onduidelijkheden in de terminologie. Dit om zoveel mogelijk eenduidigheid

te krijgen in de te maken keuzes.

PERCEPTUAL ATTRIBUTES Het perceptueel niveau

1. OBJECTS Attribuut objects gaat over objecten, zoals bijvoorbeeld ‘bloem’,

‘auto’, tekst, lichaamsdelen, kleding, e.d.

2. PEOPLE Onder het attribuut people valt bijvoorbeeld ‘man’, ‘woman’ of

‘child’. Maar beschrijft niet de sociale status of de namen van

mensen.

3. ANIMALS Attribuut voor het beschrijven van dieren.

4. COLOR

Color is het attribuut voor kleuren en tinten, zoals ‘blue’ of ‘red’.

5. VISUAL ELEMENTS

Visual elements is het attribuut voor visuele eigenschappen van de

foto. Zoals vorm, textuur, compositie of camerastand, maar

beschrijft niet of het een zwart/wit foto is, dit hoort bij Art

Historical Information.

6. DESCRIPTION Beschrijving van de objecten in de zin van aantal, afmetingen,

dimensie of ruimere beschrijving.

INTERPRETIVE ATTRIBUTES

Interpretive attributes zijn attributen van een hoger niveau. De

tags zijn interpreteerbaar en vragen om specifieke kennis van het

onderwerp op de foto.

7. PEOPLE-RELATED ATTRIBUTES Attribuut voor mensen gerelateerde eigenschappen, zoals relaties,

namen, sociale status of emoties. Bijvoorbeeld ‘dancer’, ‘sad’, ‘Bob

Marley’.

8. OBJECT-RELATED ATTRIBUTES Attribuut wat de objecten beschrijft, niet alleen op basis van de

vorm, maar ook de naam van het object. Bijvoorbeeld Ford voor

een auto.

9. LOCATION GENERAL Attribuut voor de lokatie in algemene zin, zoals bos.

10. LOCATION SPECIFIC Attribuut voor de lokatie in specifieke zin, zoals New York.

11. ART HISTORICAL INFORMATION

Attribuut voor alle tags die betrekking hebben op de historische

context van de foto, zoals de artiest, formaat, style, tijdsperiode,

techniek. Bijvoorbeeld ‘Rembrandt van Rijn’, ‘B&W’, ‘5X3’

12. ABSTRACT CONCEPTS

De attribuut wordt gekozen als de tag een algemene

sfeer/atmosfeer/thema beschrijft van de foto. Bijvoorbeeld

‘ordinair’ of ‘mystiek’.

13. TIME Attribuut geeft de periode aan waarin de foto zich heeft

afgespeeld, bijvoorbeeld 1910.

14. CONTENT/STORY/SCENE

Deze attribuut voor tags die de inhoud/het verhaal van de foto

vertellen. Dit gaat in op een activiteit, gebeurtenis en setting.

Bijvoorbeeld ‘springen’, ‘Nieuwjaarsavond’, ‘fietsen’.

15. EXTERNAL RELATION

External relation geeft de relatie aan met andere foto’s binnen of

buiten de collectie.

TABEL 5. TAG-RAAMWERK T.B.V. ONDERZOEK

Vervolgens kunnen de tags worden bekeken, beoordeeld en aan de hand van het raamwerk gekoppeld worden

aan een attribuut en het daarbij behorend semantisch niveau. Er is voor gekozen om de selectie van alle tags

door twee personen, waaronder de auteur, te laten uitvoeren. Door twee personen de indeling van de tags te

laten uitvoeren wordt het duidelijk waar verschillen in interpretatie van de tags liggen. Wanneer blijkt dat de

ene persoon voor een tag een ander attribuut heeft gekozen kan overlegt worden waarom voor die indeling is

gekozen. Voor een nog nauwkeurige indeling zou de indeling door meer dan twee personen uitgevoerd kunnen

worden, maar uit de resultaten blijkt dat de meeste tags niet tot discussie hebben geleid en hiermee voldoet

aan de gewenste nauwkeurigheid.

41

FIGUUR 15. UITSNEDE UIT TAG ANALYSE

De testpersonen krijgen 50 foto’s in Flickr met de bijbehorende tags te zien. Aan de hand van het raamwerk

selecteren de testpersonen per tag het bijbehorende attribuut (zie Figuur 15). Bij de foto’s krijgen de

testpersonen de titel en de beschrijving gegeven door de Library of Congress bijgevoegd om een beeld te

kunnen vormen van de foto. Vaak komt het voor dat gebruikers tags hebben toegevoegd die alleen te plaatsen

zijn wanneer het commentaar bekend is. De indeling van de ene persoon is verborgen voor de andere persoon.

Achteraf is er over de verschillende indeling gediscussieerd en een beslissing genomen onder welke attribuut

het valt.

6.5 DATACOLLECTIE VERZAMELEN

De fotocollectie van de Library of Congress in The Commons bestond op 23 oktober 2008 uit 4615 foto’s. Eind

2008 waren de foto’s al meer dan 10 miljoen keer bekeken, 67176 tags zijn geplaatst bij de foto’s en 2562 Flickr

leden plaatsten 7166 comments (Springer e.a. 2008). Uit al deze foto’s is op 20 november 2008 een

representatieve selectie gemaakt van 50 foto’s voor nadere analyse. De selectie bestaat uit 2 collecties (sets),

24 zwart-wit foto’s uit de George Grantham Bain News Service collection en 26 kleurenfoto’s uit de collectie

Farm Security Administration/Office of War Information (FSA/OWI) 36

. Deze foto’s zijn random geselecteerd uit

de sets op basis van diversiteit en hoeveelheid aan tags. De foto’s zijn een zo breed mogelijke selectie van

onderwerpen, van portretten tot landschapsfotografie en bevatten 5 tot 75 tags (maximum) per foto.

Van deze 50 foto’s is met behulp van de Flickr API alle metadata verzameld behorende bij die foto’s. Een

Application Programming Interface (API) is een verzameling definities op basis waarvan een

computerprogramma kan communiceren met een ander programma of onderdeel. Met behulp van de Flickr

API Explorer is via de API flickr.favorites.getList de metadata uit de database verkregen. De data gestructureerd

in een xml-bestand is vervolgens geëxporteerd naar Excel. Hierin zijn de volgende metadata beschikbaar (Tabel

6):

Metadata Omschrijving

ID De unieke ID van een foto

ID 2 De unieke ID voor een specifieke tag bij een

specifieke foto

Link Hyperlink naar de foto op de site van Flickr

Authorname Username van de persoon die de tag heeft geplaatst

Author De NSID (unieke ID) van de username

Titel Titel van de foto

Raw tag De originele versie van een tag van een gebruiker

Tag De schone versie van een tag bewerkt door Flickr

Machine tag Tags gebaseerd op speciale syntax

TABEL 6. METADATA VAN API FLICKR.FAVORITES.GETLIST

36

Op http://www.flickr.com/photos/bart3/favorites/ zijn deze foto’s te vinden.

42

6.6 WIE IS DE GEBRUIKER?

De 50 geanalyseerde foto's bevatten in totaal 1657 tags tegenover het totaal aantal tags van 67176 (op 23-10-

2008) in de gehele digitale collectie van de Library of Congress op Flickr. Van de 1657 tags zijn 104 machine

tags. Machine Tags zijn geproduceerd door de LOC zelf om het voor het systeem mogelijk te maken om de

foto's te linken tussen de database van Flickr en die van de LOC. 150 tags met de benaming Library of Congress

zijn door de LOC zelf toegekend. Deze tags zijn uit de dataset verwijderd. Zodoende blijven er 1403 tags over

die meegenomen zijn in de analyse (Grafiek 1).

GRAFIEK 1. DATACOLLECTIE

Wie zijn de mensen achter al deze tags? In totaal zijn er 292 unieke auteurs die de mogelijkheid hebben

genomen om tags te plaatsen bij één of meerdere foto's. Gemiddeld genomen plaatsten de taggers 5,67 tags

bij de foto's, dit varieert van 1 tot 102 tags per tagger. Twee taggers, Emily Barney37

en Marshall Astor –

FoodPornograher38

, plaatsten respectievelijk 102 en 74 tags. Deze taggers die ver boven het gemiddelde

taggen worden powertaggers genoemd. In Grafiek 2 worden de taggers (x-as gebruikers) afgezet tegen het

aantal tags (y-as).

GRAFIEK 2. AANTAL TAGS GEPLAATST PER GEBRUIKER

37

Lees hier haar profiel: http://www.flickr.com/people/ebarney/ 38

Lees hier zijn profiel: http://www.flickr.com/people/lifeontheedge/

6%

B. 9%

A.

85%

C.

Datacollectie

A. Machine tags

B. tags van de LOC

C. Tags voor analyse

0

20

40

60

80

100

120

140

160

Aa

nta

l ta

gs

Aantal taggers (=gebruiker)

Aantal tags geplaats per tagger

De eerste paar gebruikers plaatsen veel tags, de zogenoemde powertaggers, maar daarna neemt het aantal

tags snel af tot enkele tags per gebruiker. Het merendeel van de gebruikers plaatst één tag bij de foto’s

opgenomen in de datacollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.

Het valt op dat het overgrote deel van de gebruikers maar één foto hebben getagt

plaatsten bij één foto een tag. Enkele gebruikers

plaatste tags bij elf verschillende foto’s.

de genoemde powertaggers.

GRAFIEK 3. FREQUENTIE VAN GETAGTE FOTO'S

6.7 HOE IS HET VOCABULAIR

Voor de analyse van het vocabulair van

gebaseerd is op het model van Jörgensen en

perceptuele en het interpretatieve niveau.

met wat er op de foto staat. Attributen op het interpretatieve niveau vragen om een bepaalde mate van

interpretatie. Hierbij is specifieke kennis nodig van het object om deze te kunnen benoemen.

onderscheid gemaakt in 15 attributen.

6.7.1 OVERZICHT RESULTATEN

Uit de onderzoeksresultaten blijkt dat het merendeel van de tags zich op het interpretatieve niveau bevinden.

De resultaten van de indeling zijn te vinden in

tags zijn interpretatieve tags en

onderverdeeld in 6 attributen. Hiervan zijn de meeste tags (17,86

attributen mensen (2,32%), dieren (1,90

(0,75%) zijn erg beperkt gebleken. De interpre

63,97% van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,

mensen, activiteiten, tijdsperiode en lok

de mensgerelateerde attribuut (12,28%), kunst

(11,23%) en de content/story/scene

tijd (6,31%), object-gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie

(1,09%). 2,17% van de tags konden niet beoordeeld worden omdat de tags

onbekende woorden bevatten. Van veel onbekende woorden is

0

50

100

150

200

250

1 2 3 4

233

33

10 6

Aa

ntl

a g

eb

ruik

ers

getagte foto's

x gebruikers taggen



acollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.

Het valt op dat het overgrote deel van de gebruikers maar één foto hebben getagt (Grafiek

nkele gebruikers plaatsten (meerdere) tags bij meerdere foto’s.

foto’s. De personen die bij de meest verschillende foto’s

AGTE FOTO'S

OE IS HET VOCABULAIR OPGEBOUWD?

Voor de analyse van het vocabulair van het taggingsysteem wordt gebruik gemaakt van het tag

Jörgensen en maakt een hoofdindeling in twee semantische

nterpretatieve niveau. Attributen op het perceptuele niveau hebben een directe relatie


s specifieke kennis nodig van het object om deze te kunnen benoemen.

onderscheid gemaakt in 15 attributen.


ltaten van de indeling zijn te vinden in Tabel 7. Uitwerking van tag-raamwerk Tabel

24,45% van de tags zijn perceptuele tags. De perceptuele tags zijn

. Hiervan zijn de meeste tags (17,86%) object gerelateerd, daarna

dieren (1,90%) en kleur (1,27%). De visuele elementen (0,45%)

De interpretatieve tags zijn nader uitgewerkt in 9 attributen. Zoals gezegd is

van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,

, tijdsperiode en lokatie. Vier attributen springen boven de overige attributen uit. Dit zijn

e attribuut (12,28%), kunsthistorische attribuut (11,89%), lokatie specifieke attribuut

%) en de content/story/scene attribuut (10,62%). Daarna wordt het snel minder, en

gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie

(1,09%). 2,17% van de tags konden niet beoordeeld worden omdat de tags in een vreemde taal zijn of

. Van veel onbekende woorden is soms wel de betekenis achterhaald door

5 6 7 8 9 10 11

6 2 3 1 0 1 1 1

getagte foto's

gebruikers taggen x foto's

43



acollectie. Het lijkt erop dat deze groep het een keer probeert en er daarna bij laat zitten.

Grafiek 3). 233 personen

plaatsten (meerdere) tags bij meerdere foto’s. Eén gebruiker

De personen die bij de meest verschillende foto’s tags plaatsen zijn ook

wordt gebruik gemaakt van het tag-model welke

mantische niveaus, het

Attributen op het perceptuele niveau hebben een directe relatie


s specifieke kennis nodig van het object om deze te kunnen benoemen. Er wordt


Tabel 7. 63,97% van de

De perceptuele tags zijn

%) object gerelateerd, daarna volgen de

(0,45%) en beschrijvingen

tatieve tags zijn nader uitgewerkt in 9 attributen. Zoals gezegd is

van de tags interpretatief van aard en vraagt om specifieke kennis en/of ervaring van de objecten,

verige attributen uit. Dit zijn

atie specifieke attribuut

en volgen de attributen

gerelateerd (4,50%), abstractie (3,77%), generale locatie (2,29%) en de externe relatie

een vreemde taal zijn of

soms wel de betekenis achterhaald door

44

gebruik te maken van woordenboeken en encyclopedieën. De machine tags en de LOC-tags zijn niet

meegenomen in de beoordeling.

PERCEPTUAL ATTRIBUTES

1. OBJECTS 17,86%

2. PEOPLE 2,32%

3. ANIMALS 1,90%

4. COLOR 1,27%

5. VISUAL ELEMENTS 0,45%

6. DESCRIPTION 0,75%

Totaal 24,45%

INTERPRETIVE ATTRIBUTES

7. PEOPLE-RELATED ATTRIBUTES 12,28%

8. OBJECT-RELATED ATTRIBUTES 4,50%

9. LOCATION GENERAL 2,29%

10. LOCATION SPECIFIC 11,23%

11. ART HISTORICAL INFORMATION 11,89%

12. ABSTRACT CONCEPTS 3,77%

13. TIME 6,31%

14. CONTENT/STORY/SCENE 10,62%

15. EXTERNAL RELATION 1,09%

Totaal 63,97%

Overig 2,17%

Machine tags 6,28%

LOC 3,02%

TABEL 7. UITWERKING VAN TAG-RAAMWERK

6.7.2 PERCEPTUELE ATTRIBUTEN

Zoals gezegd zijn 24,45% van de tags gericht op perceptuele attributen. Deze attributen vragen geen specifieke

kennis van de gebruiker en kunnen alleen op basis van de visuele kenmerken van een foto worden beschreven.

De resultaten van deze attributen worden nader toegelicht.

Objects

Alleen het atrribuut objects scoort met 17,86% erg hoog bij de perceptuele attributen. Gebruikers taggen

bijvoorbeeld car, radio of bike. Gebruikers taggen over het algemeen eenvoudige zaken als objecten in een

foto. Dit is blijkbaar het eerste wat gebruikers opvallen in een foto. Een tagger plaatste een lijst met

fruitsoorten bij een foto die op het eerste niks gezicht niks te maken heeft met de foto. Is dit als grap of is zit er

een bedoeling achter?39

People

De attribuut people is betrekkelijk weinig gebruikt (2,32%), terwijl op bijna alle foto’s mensen zijn terug te

vinden. Een logische verklaring hiervoor is dat er minder kenmerken zijn voor het beschrijven van een mens ten

opzichte van een object.

Animals

Deze attribuut (1,90%) is erg weinig gebruikt, maar dit is te verklaren omdat er relatief weinig dieren op de

foto’s staan. Het percentage kan daarom ook meegenomen worden met de attributen objects of people.

39

http://www.flickr.com/photos/library_of_congress/2722109107

45

Color

De attribuut kleur (1,27%) beschrijft de kleurkenmerken in een foto. Bijvoorbeeld een foto met heel veel gele

kleuren krijgt de tag yellow. Gebruikers taggen weinig kleurkenmerken in een foto. CBIR zou een goede optie

zijn als aanvulling hierop. CBIR software maakt het mogelijk om automatisch kleuren te herkennen en

doorzoekbaar te maken.

Visual elements

Enkele tags (0,45%) geven de visuele elementen van een foto aan. Gebruikte tags hebben betrekking op de

camerastand en compositie van de foto.

Description

Enkele tags (0,75%) zijn blue sky, orange badge of Brown overalls. Eventueel zouden deze beschrijvingen ook

thuis kunnen horen bij de color attribuut. Maar omdat ze betrekking hebben op de beschrijving van een

specifiek object is ervoor gekozen om ze onder de description attribuut te verdelen. Andere gebruikte tags zijn

aantallen van objecten of mensen.

6.7.3 INTERPRETATIEVE ATTRIBUTEN

De meeste tags zijn geplaatst als interpretatieve attributen. 63,97% van de tags vallen onder dit semantische

niveau. Dit resultaat komt overeen met andere studies (Jörgensen 1998, 1999, Hasting 2004). De verschillende

attributen worden hieronder kort besproken.

People-related attributes

Een tag waaruit duidelijk blijkt dat tagging een grote meerwaarde kan hebben op traditionele

ontsluitingsmethode is de tag Rosie the Riveter40

. Rosie the Riveter is het symbool voor alle hardwerkende

Amerikaanse vrouwen in oorlogsfabrieken tijdens de tweede wereldoorlog. In de ontsluiting van de Library of

Congress wordt deze term niet gebruikt, maar bij het grote publiek is dit een bekende term voor vrouwen die

werkten in de oorlogsfabrieken tijdens de oorlog. Veel Flickr gebruiker hebben hun eigen Rosie the Riveter foto

gemaakt41

.

Object-related attributes

Een beperkt aantal tags (4,50%) is gebruikt om object gerelateerde attributen te beschrijven. Dit attribuut zegt

iets over het object, bijvoorbeeld het object auto en gerelateerd aan het object fiat. Het was af en toe erg

moeilijk om hier een eenduidig onderscheid in te maken, er is geprobeerd om object te kiezen als de tag een

algemene categorie beschrijft en object-gerelateerd wanneer een specifiek aspect van het object wordt

gegeven. Een interessante voorbeeld van een tag is birdsnest hat42

. Een tagger gebruikte deze term om zijn

perceptie te geven van een hoed die een mevrouw op heeft. Typisch een tag die de LOC absoluut niet zou

gebruiken, maar misschien wel een aparte zoekingang geeft.

Location general

De location general attribuut geeft de algemene locatie weer zoals Airport of Shipyard. Met 2,29% een beperkt

aantal vergeleken met de location specific attribuut.

Location specific

11,23% van de tags zijn location specific tags en geven een duidelijke locatie aan van waar de foto is gemaakt.

Tags geplaatst bij de foto’s hebben betrekking op een stad, land of streek. Opvallend bij deze tags is dat veel

gebruikers meerdere spellingen geven voor dezelfde stad.

40

Zie http://www.flickr.com/photos/library_of_congress/tags/rosietheriveter/ voor alle foto’s die voorzien zijn van de tag rosie the riveter. 41

http://www.flickr.com/search/?w=all&q=rosietheriveter&m=tags 42

http://flickr.com/photos/library_of_congress/2162932293

46

Art historical information

Dit attribuut is bestemd voor tags die betrekking hebben op de historische context van de foto zoals de

fotograaf, formaat, stijl of techniek. 11,89% van de tags hebben hierop betrekking. Een tagger plaatste

meerdere vertalingen van zwart/wit foto’s.

Abstract concepts

Met 3,77% een beperkte hoeveelheid tags welke een bepaalde sfeer van een foto beschrijven. Het ligt blijkbaar

voor een tagger niet meteen voor de hand om een sfeerimpressie te geven van een foto. Het is ook niet

eenvoudig om een emotie in een tag uit te drukken. In het commentaar op de foto’s gaven de gebruikers wel

regelmatig een algemene sfeer van een foto. Misschien leent deze plek zich hiervoor ook beter.

Time

Een redelijk aantal tags (6,31%) heeft betrekking op het tijdstip van de foto. Over het algemeen werd het

jaartal gebruikt welke bij de beschrijving was gegeven.

Content/Story/Scene

Dit attribuut richt zich op een bepaalde activiteit welke op de foto plaatsvindt. 10,62% van de geplaatste tags

heeft betrekking op de content/story/scene.

External relation

1,09% van de tags legt een relatie met andere foto’s buiten de collectie. De meeste relaties die worden gelegd

naar andere foto’s of informatie wordt meestal beschreven in de comments.

6.7.4 CREATIVITEIT MET TAGS

Eén van de meest opvallende tags die gebruikt worden zijn vertaalde tags. Bijvoorbeeld de tag Mexico wordt in

tien verschillende talen getagt. Dit is een grote verrijking op de beschrijvingen van LOC, deze beschrijving is

namelijk alleen in het Engels. Ook tags als hond en paard worden in meerdere talen vertaald.

Sommige tags waren wel onder een attribuut te plaatsen maar hadden naar de mening van de testpersonen

geen relatie met de foto. Zo was er een persoon die allerlei tags van fruitsoorten plaatsten bij een foto waar

geen fruit op stond. Misschien waren dit persoonlijke tags of gewoon lolligheid maar dit soort tags vervuilen

wel de folksonomie. Taggebruik voor eigen gebruik is bij persoonlijke Flickr pagina’s of bij Delicious natuurlijk

geen probleem, maar de tags in de The Commons dienen een sociaal belang. Echter, het systeem is simpel en

zonder beperkingen, dus zijn dit soort tags mogelijk.

Naast het taggen van een foto is het mogelijk om commentaar te leveren op een foto. Het commentaar wordt

chronologisch onder de foto vermeld. Gebruikers geven commentaar op de foto over hun ervaring met de foto

of geven specifieke informatie over de foto in zijn algemeen of specifieke objecten in de foto. Veelvuldig

plaatsen mensen links naar Wikipedia of specialistische websites om hun reacties met bewijs aan te vullen.

Een enkele keer worden de tags gebruikt als commentaar op een foto. In principe zou de tag thuishoren bij de

comments, maar mensen vinden het misschien juist wel een goede plek om het als tag toe te voegen. Mensen

plaatsen tags als “reminds me of a photo I took 10 years ago”43

en “what people did before TV and internet”.44

De gebruikers geven met deze tags hun mening en (emotionele) ervaring over de foto.

43

Geplaatst door Sebastian-Lewis bij de foto Lunch of a sugar worker on a plantation, vicinity of Puerto Rico? 44

Geplaatst door Firechick bij de foto Mountaineers and farmers trading mules and horses on "Jockey St.," near the Court House, Campton,

Wolfe County, Ky.

47

Ook spreken gebruikers via tags hun twijfels uit over de beschreven metadata van een foto. Zo is er een

gebruiker die de tag “uncertain location” heeft gebruikt om blijkbaar aan te geven dat hij vindt dat de locatie

welke vermeld staat in de beschrijving niet klopt. Een andere gebruiker doet een suggestie voor een locatie

door “maybe Florida?” als tag toe te voegen.

6.8 BEPERKINGEN

Het onderzoek kent enkele beperkingen. Deze worden hieronder nader uitgewerkt. Deze beperkingen hebben

invloed op de onderzoeksresultaten.

Het is complex om de tags in te delen in een tagraamwerk. Termen kunnen onder meerdere attributen worden

onderverdeeld. Dit bleek uit de test uitgevoerd door de twee testpersonen. Na overleg over de verschillen

bleken veel termen dubbel geplaatst te kunnen worden.

De beschrijving van de Library of Congress heeft grote invloed op het taggedrag van de Flickr leden. Uit

onderzoek van LOC blijkt dat 23%-45% van de tags rechtstreeks zijn overgenomen uit de beschrijving van LOC.

De overige tags zijn dus een aanvulling op de bestaande beschrijving. Als de tags alleen worden vergeleken met

de Library of Congress Subject Headings dan is het aantal heel erg toegenomen.

Van een aantal attributen was het moeilijk om voor de twee testpersonen eenduidigheid te krijgen. Dit zijn de

attributen objects, object-related en content/story/scene. Het probleem bij objects en object-related was dat

het moeilijk is om een verschil te maken tussen deze twee attributen. Ze beschrijven beidde objecten, maar op

een ander niveau. Objecten zijn die dingen die men zonder enige kennis van het object weet, bijvoorbeeld

‘bus’. Object-related zijn objecten die specifiek worden beschreven en om gedegen kennis van het object

vragen, zoals ‘seven ton bus’. Een ander voorbeeld ‘Vliegtuig’ als object en ‘Boeing 747’ als object related. De

content/story/scene attribuut is een attribuut die een activiteit omschrijft, dit kunnen zowel

werkwoordsvormen zijn of zijn tijdsgebonden tags. Dit maakt het moeilijk om onderscheid te maken met

andere attributen en is regelmatig gekozen voor andere attributen. De overige attributen zijn op enkele tags na

eenduidig beoordeeld en in dezelfde categorie geplaatst.

48

7 CONCLUSIE

De laatste doelstelling van de scriptie is tot nu toe (deels) onbeantwoord gebleven. In dit laatste hoofdstuk

wordt hier antwoord op gegeven. De doelstelling betreft het oriënteren naar de positie van taggingsystemen

ten opzichte van andere vormen van onderwerpsontsluiting van foto’s. Dit is belangrijk voor culturele

instellingen om hun positie te kunnen bepalen hoe ze in de toekomst taggingsystemen in moeten zetten.

De belangrijke vragen hierbij zijn hoe culturele instellingen in de toekomst om moeten gaan met de traditionele

vormen van onderwerpsontsluiting en tagging? Gaan folksonomieën de traditionele indexeermethodes

vervangen of voldoet de kwaliteit van tagging niet en moeten we toch vasthouden aan thesauri en indexen? Of

kunnen folksonomieën juist als een goede aanvulling hierop dienen?

7.1 CULTURELE INSTELLINGEN OP ZOEK NAAR NIEUWE VORMEN VAN ONTSLUITING

Ten tijde van de introductie van tagging rond 2005 waren de meningen verdeeld. De eerste reacties op de blog-

sites op het internet waren laaiend enthousiast. Folksonomieën zouden het gat opvullen waar traditionele

ontsluitingsmethoden, zoals gecontroleerde vocabulaires, het lieten afweten. De reacties van informatie

specialisten waren minder enthousiast. Dat is ook niet zo vreemd omdat taggingsystemen geen aspecten

bevatten die door informatie specialisten als essentieel worden beschouwd, zoals zorgvuldige hiërarchieën,

gestructureerde metadata en standaarden. Hun onderzoeken waren dan ook vooral gericht op de precision en

recall van de taggingsystemen en toonden daarmee aan dat de zoekfunctionaliteit van taggingsystemen

volgens hun beperkter zijn dan traditionele retrievalsystemen.

Maar langzaam aan neemt de sceptische houding tegenover taggingsystemen af. Culturele instellingen zijn

begonnen met het experimenteren met taggingsystemen op zoek naar nieuwe mogelijkheden om de

toegankelijkheid van hun collectie te vergroten. In een recent onderzoek naar nieuwe mogelijkheden van

bibliografische beschrijvingen en andere vormen van ontsluiting concludeerde De Library of Congress Working

Group on the Future of Bibliographic Control (2008) dan ook dat de strakke standaarden gebruikt in

bibliotheken in de toekomst niet meer gehandhaafd kunnen blijven. De werkgroep adviseerde om op zoek te

gaan naar nieuwe vormen van metadata die geschikt zijn voor een brede groep gebruikers. Zij zien tagging als

mogelijke verrijking op de huidige ontsluitingmethoden.

7.2 TAGGINGSYSTEMEN ALS SNELLE LAAG

Hoe moeten culturele instellingen gebruik gaan maken van taggingsystemen voor de ontsluiting van hun

fotocollecties? Moeten zij de gecontroleerde vocabulaires niet meer gebruiken en zich volledig richten op

tagging? Of kunnen verschillende systemen juist een meerwaarde voor elkaar betekenen? Het beste resultaat

wordt behaald wanneer taggingsystemen als aanvulling op gecontroleerde vocabulaires worden gebruikt en

hiermee een toegevoegde waarde op elkaar hebben.

Met behulp van de pace layering theorie wordt deze bewering beargumenteren. De theorie van pace layering

werd oorspronkelijk ontwikkeld door Stewart Brand om te kunnen verklaren hoe gebouwen zijn opgedeeld in

verschillende bouwlagen. Iedere bouwlaag kan onderverdeeld worden in de mate van snelheid waarin zo’n laag

verandert. Bij een gebouw verandert de fundering heel langzaam, de gevel verandert al iets sneller en het

interieur is nog sterker aan verandering onderhevig. Het achterliggende idee achter pace layering is dat het

goed is voor de ontwikkeling van een complex systeem als de verschillende lagen ieder in hun eigen tempo

veranderen. De snelle lagen veranderen continu en zorgen voor innovatie terwijl de langzame lagen zorgen

voor absorptie en stabiliteit. Door gebouwen op te splitsen in verschillende elementen, op basis van de

snelheid waarin deze veranderen, geeft de architect de mogelijkheid hier afgewogen oplossingen voor te

verzinnen.

49

Morville (2005) gebruikt het pace layering model om aan te tonen dat tagging een toevoeging is op traditionele

ontsluitingsmethoden in plaats van een vervanging van deze systemen. Taggingsystemen zijn in het model de

buitenste laag binnen de informatiearchitectuur, de snelle flexibele laag welke rust op de binnenste laag, de

stabiele fundering van traditionele systemen voor onderwerpsontsluiting. De stabiele binnenste laag draagt bij

aan de uniformiteit en standaardisering van beschrijvingen, terwijl de buitenste flexibele laag toch snel kan

anticiperen op een veranderlijke omgeving. Met andere woorden, de tags die geplaatst worden bij foto’s op

Flickr kunnen bijdragen aan de verbetering van gecontroleerde vocabulaires.

Een goede praktijkvoorbeeld van het doorzijpelen van informatie uit de buitenste laag naar de binnenste laag is

een discussie die werd gevoerd op Flickr over welk type bommenwerper er op de foto stond. Specialistische

kennis van bommenwerpers was in dit geval niet in huis bij het Nationaal Archief, maar een amateur op Flickr

had tot in de puntjes uitgezocht hoe het zat en kwam met bewijzen. Het Nationaal Archief kon na verificatie

van de gegevens hun professionele beschrijvingen verrijken met ‘amateuristiche’ kennis.

7.3 TAGGINSYSTEMEN MET HULP VAN ONDERAF

Een taggingsysteem kent zijn beperkingen qua nauwkeurigheid en eenduidigheid waardoor het zeker niet

voldoet aan de eisen die gesteld worden in traditionele methoden van onderwerpsontsluiting. Veel onderzoek

wordt er dan ook gedaan naar de verbetering van taggingsystemen. Er wordt veelvuldig gezocht naar

mogelijkheden om taggingsystemen bij te sturen vanuit de binnenste laag, de gecontroleerde vocabulaires. De

gecontroleerde vocabulaires en andere vormen van standaarden gaan dus een rol spelen bij het optimaliseren

van het tagproces. Twee manieren waarop de tekortkomingen van taggingsystemen te verhelpen zijn: 1. Door

de gebruiker op te leiden en om meer input te vragen. 2. De tekortkomingen automatisch te herkennen en op

te lossen.

Met de gebruiker opleiden wordt niet bedoeld dat hij een aparte cursus krijgt om als een professional objecten

te kunnen ontsluiten, maar dat de gebruiker wordt ondersteund tijdens het toekennen van tags. Dit wordt tag

ondersteuning genoemd. De gebruiker kan zien wat andere gebruikers hebben getagt of gebruikers kunnen

gebruik maken van thesauri en indexen die de culturele instelling ook gebruiken. Dit kan voor materiaal wat

nog niet ontsloten is een interessante methode zijn om met tagging toch het niveau van professionele

ontsluiting te benaderen. Voor reeds traditioneel ontsloten materiaal is tag ondersteuning minder nuttig

omdat er met de tags een grotere verscheidenheid van termen van onderwerpsontsluiting ontstaat.

De tweede mogelijkheid is een methode om de tekortkomingen van tags automatisch te herkennen en op te

lossen. Dit lijkt een goede methode omdat het de flexibiliteit van het taggen behoudt maar de kwaliteit

verbeterd. Uit het tagonderzoek op Flickr is gebleken dat 24,45% van de tags perceptueel van aard zijn. Deze

tags zouden aangevuld of aangepast kunnen worden met automatisch gegenereerde tags. Zoals in de theorie is

beschreven zijn er tal van systemen die op dit semantisch niveau een goed alternatief zijn op het taggen. Deze

CBIR systemen kunnen objecten, kleuren en vormen automatisch herkennen waardoor het mogelijk wordt om

hierop te zoeken. Een andere mogelijkheid is om het systeem kleurenfoto’s en zwart/wit-foto’s van elkaar te

laten onderscheiden. Uit de onderzoeksresultaten blijkt dat gebruikers vrij beperkt deze elementen taggen.

Veel tags geplaatst bij de foto’s op Flickr zijn overgenomen uit de beschrijving van de Library of Congress. De

Library of Congress constateerden in hun onderzoek dat 23% tot 45% van de tags zijn overgenomen uit deze

beschrijvingen. Het is de vraag of deze gegevens wel als tags moeten worden opgenomen of handmatig door

de gebruikers toegekend moeten worden. Het is mogelijk om deze tags te blokkeren uit de lijst of automatisch

te laten toekennen aan de tags. Het Powerhouse Museum heeft ervoor gekozen om automatisch tags uit de

beschrijvingen te filteren en op te nemen in de lijst van tags. Ze maken hiervoor gebruik van Open Calais, een

systeem dat automatisch belangrijke gegevens als namen, jaartallen en locaties kan filteren en dit vervolgens

als tags opnemen.

50

11% van de tags zijn locatie specifieke zo blijkt uit het tagraamwerk. Deze tags zijn omschrijvingen van locaties

zoals Rocky Mountains of San Francisco. Maar het is eenvoudiger om deze gegevens als geografische locatie op

te nemen. Flickr biedt deze mogelijkheid ook aan om foto’s te geotaggen waarmee het mogelijk is om de

locatie op een kaart te plaatsen. Het zoeken naar locaties is hiermee eenvoudiger en voorkomt je

spellingsvarianten.

7.4 HOE VER MOET JE GAAN?

Een van de grootste twijfels over tagging komt voort uit de angst van het oncontroleerbare. Ten opzichte van

traditionele ontsluitingsmethode heeft tagging weinig controle en heeft de gebruiker de macht over de

beschrijvingen. Gebruikers hebben waarschijnlijk goede bedoelingen, maar is het wel mogelijk voor de

gebruikers om zonder gedegen kennis en opleiding in representatie en ontsluiting foto’s betrouwbaar te

kunnen ontsluiten? Maar is dat wel nodig? Is het erg als er anders getagt wordt dat men verwacht?

Er moet zeer voorzichtig worden opgetreden met het bijsturen van het tagproces. Het taggen moet een simpel,

eenvoudig en doeltreffend systeem zijn wat niet gestuurd moet worden naar standaarden en gecontroleerde

vocabulaires. Het is belangrijk dat het sociale aspect van tagging bewaard blijft. ‘Power to the people’ is de

grootste kracht achter het taggingsysteem wat ten alle tijden gewaarborgd moet blijven. Als men op wat voor

manier dan ook probeert structuur te geven aan het taggen zonder de gebruiker hiervan op de hoogte te

stellen gaat het waarschijnlijk mis. Tagging bevindt zich niet voor niets in de buitenste laag van het pace

layering model, het is flexibel en kan zich snel aanpassen aan zijn omgeving. Bij gebrek aan bepaalde

zoekmogelijkheden ontwikkelen de gebruikers zelf nieuwe opties. Een goed voorbeeld hiervan is het initiatief

van enkele gebruikers op Flickr om bepaalde standaarden te ontwikkelen, zoals ‘me:’ voor tags van jezelf of

‘location:’ voor locatie specifieke tags. Het ontwikkelen van een nieuwe standaard moet vanuit de Flickr

gemeenschap komen en niet worden opgedrongen vanuit een culturele instelling.

7.5 WAAROM IS TAGGING EEN AANVULLING?

Het principe van serendipiteit, het vinden van iets waar niet op werd gezocht, is een belangrijk aspect in image

retrieval. Gebruikers hebben niet altijd een specifieke behoefte, maar bekijken voornamelijk foto’s voor een

bepaalde ervaring en emotie. Als ze al een specifieke wens hebben is dat over het algemeen ook niet één type

foto, maar kunnen meerdere foto’s hetzelfde verhaal vertellen waar de gebruiker naar op zoek was. Om die

reden lijkt het zinvol om gebruikers de mogelijkheid te geven om gebruik te laten maken van meerdere

ontsluitingsmethoden. Gecontroleerde vocabulaires kunnen voor een bepaalde vraag beter functioneren dan

tagging en andersom.

Men vergeet dat het zoeken naar foto’s voor de meeste gebruikers een ervaring is, ze zijn niet op zoek naar die

ene specifieke foto, maar de gebruiker is op zoek naar die ene beleving. Het beleven van het zien van iets

verrassend, iets wat ze nog niet eerder hebben gezien, of iets wat hun emotioneel raakt. Er moet dus een

bepaalde mate van verrassing inzitten en daarom is het sterk aanpassen van de tags aan traditionele

standaarden misschien wel niet noodzakelijk. De systemen gaan waarschijnlijk teveel op elkaar lijken en beperk

je juist de brede zoekmogelijkheden.

Terugkomend op de onderzoeksvraag van deze scriptie is het duidelijk geworden dat taggingsystemen een

nieuwe aanvulling zijn op traditionelere vormen van onderwerpsontsluiting. De kwaliteit van de tags blijkt lastig

te bepalen, maar de tags die worden gegeven bij de foto’s zijn van grote diversiteit en komen grotendeels

overeen met de semantische niveau’s waarop professionals foto’s ontsluiten. De verschillende methoden om

foto’s te ontsluiten bieden verschillende gebruikers met verschillende behoeftes de mogelijkheid om op hun

eigen manier te zoeken in verschillende fotocollecties. Tenslotte zegt één foto meer dan duizend woorden en

zijn er dus ook meer dan duizend woorden nodig om deze foto terug te vinden.

51

LITERATUUR

Al-Khalifa, H. S., en H. C. Davis. 2007. Towards better understanding of folksonomic patterns. In Proceedings of

the 18th conference on Hypertext and hypermedia, 163-166. ACM Press New York, NY, USA.

Ankolekar, A., M. Krötzsch, T. Tran, en D. Vrandecic. 2008. The two cultures: Mashing up Web 2.0 and the

Semantic Web. Web Semantics: Science, Services and Agents on the World Wide Web 6, no. 1

(Februari): 70-75. doi:10.1016/j.websem.2007.11.005.

Armitage, Linda H., en Peter G.B. Enser. 1997. Analysis of user need in image archives. Journal of Information

Science 23, no. 4 (Augustus 1): 287-299. doi:10.1177/016555159702300403.

Baca, M., T. Gill, A.J. Gilliland, M. Whalen, en M.S. Woodley. 2000. Introduction to Metadata: Pathways to

Digital Information. 1e ed. Getty Publications.

http://www.getty.edu/research/conducting_research/standards/intrometadata/.

Bates, M. 2006. Tag-You're It! ONLINE -WESTON THEN WILTON- 30, no. 1: 64.

Berners-Lee, T., J. Hendler, en O. Lassila. 2001. The Semantic Web. Scientific American 284, no. 5: 28-37.

Besser, H. 1990. Visual Access to Visual Images: The UC Berkeley Image Database Project. Status: published or

submitted for publication 38, no. 4: 787-798.

Bruza, P. D., en T. W. C. Huibers. 1996. A study of aboutness in information retrieval. Artificial Intelligence

Review 10, no. 5 (Oktober 1): 381-407. doi:10.1007/BF00130692.

Butterfield, S. 2004. Sylloge. Augustus 4. http://www.sylloge.com/personal/2004/08/folksonomy-social-

classification-great.html.

Choi, Y., en E.M. Rasmussen. 2003. Searching for images: The analysis of users' queries for image retrieval in

American history. Journal of the American Society for Information Science and Technology 54, no. 6:

498-511. doi:10.1002/asi.10237.

Chowdhury, G. 2004. Introduction to modern information retrieval. 2e ed. London: Facet.

Coupland, D. 1995. Microserfs. 1e ed. New York: ReganBooks.

Datta, R., D. Joshi, J. Li, en J. Z. Wang. 2008. Image retrieval: Ideas, influences, and trends of the new age. ACM

Computing Surveys 40, no. 2: 5:1-5:60.

Eakins, J. P., en M. E. Graham. 1999. Content-based Image Retrieval: A report to the JISC Technology

Applications Programme. Institute for Image Data Research, University of Northumbria at Newcastle,

January: 1-60.

Eakins, J.P. 1998. Techniques for image retrieval. Library & information briefings, no. 85: 1-15.

---. 2002. Towards intelligent image retrieval. Pattern Recognition 35, no. 1 (Januari): 3-14. doi:10.1016/S0031-

3203(01)00038-3.

Enser, P. 2000. Visual image retrieval: seeking the alliance of concept-based and content-based paradigms.

Journal of Information Science 26, no. 4 (Augustus 1): 199-210. doi:10.1177/016555150002600401.

Fidel, R. 1997. The image retrieval task: implications for the design and evaluation of image databases. New

Review of Hypermedia and Multimedia 3, no. 1: 181. doi:10.1080/13614569708914689.

Furnas, G. W., T. K. Landauer, L. M. Gomez, en S. T. Dumais. 1987. The vocabulary problem in human-system

communication. Commun. ACM 30, no. 11: 964-971. doi:10.1145/32206.32212.

Golder, S., en B. Huberman. 2006. Usage patterns of collaborative tagging systems. Journal of Information

Science 32, no. 2 (April 1): 198-208. doi:10.1177/0165551506062337.

52

Golder, S., en B. A. Huberman. 2005. The Structure of Collaborative Tagging Systems. Arxiv preprint

cs.DL/0508082. http://arxiv.org/ftp/cs/papers/0508/0508082.pdf.

Goodrum, A. A. 2000. Image Information Retrieval: An Overview of Current Research. Informing Science 3, no.

2: 63-67.

Gruber, T. R. 1993. A translation approach to portable ontology specifications. Knowledge Acquisition 5, no. 2:

199-220.

Gudivada, Venkat N., en Vijay V. Raghavan. 1995. Content-Based Image Retrieval Systems. Computer 28, no. 9:

18-22.

Guy, M., en E. Tonkin. 2006. Tidying up tags. D-Lib Magazine 12, no. 1.

http://www.dlib.org/dlib/january06/guy/01guy.html.

Halvey, Martin J, en Mark T Keane. 2007. An assessment of tag presentation techniques. In Proceedings of the

16th international conference on World Wide Web. Banff, Alberta, Canada: ACM.

Hammond, T., T. Hannay, B. Lund, en J. Scott. 2005. Social Bookmarking Tools (I). D-Lib Magazine 11, no. 4:

1082-9873.

Hassan-Montero, Y., en V. Herrero-Solana. 2006. Improving Tag-Clouds as Visual Information Retrieval

Interfaces. International Conference on Multidisciplinary Information Sciences and Technologies,

InScit2006. http://www.scopus.com/scopus/inward/record.url?eid=2-s2.0-

35948981019&partnerID=40&rel=R7.0.0.

Hendler, J. 2007. The Dark Side of the Semantic Web. IEEE Intelligent Systems 22, no. 1: 2-4.

Hollink, L., A. Th. Schreiber, B. J. Wielinga, en M. Worring. 2004. Classification of user image descriptions.

International Journal of Human-Computer Studies 61, no. 5 (November): 601-626.

doi:10.1016/j.ijhcs.2004.03.002.

Hutchins, W. J. 1978. The concept of ‘aboutness’ in subject indexing. In Aslib Proceedings, 30:172-181. MCB UP

Ltd.

Jaimes, A., en S. F. Chang. 2000. A Conceptual Framework for Indexing Visual Information at Multiple Levels.

IS&T/SPIE Internet Imaging 3964: 2-15.

Jörgensen, C. 1996. Indexing Images: Testing an Image Description Template. In Proceedings of the annual

meeting-American Society for Information Science, 33:209-213. http://www.asis.org/annual-

96/ElectronicProceedings/jorgensen.html.

Kato, T. 1992. Database architecture for content-based image retrieval. Proceedings of SPIE 1662: 112.

Kuo, B.Y.L., T. Hentrich, B.M. Good, en M.D. Wilkinson. 2007. Tag clouds for summarizing web search results. In

Proceedings of the 16th international conference on World Wide Web. Banff, Alberta, Canada: ACM.

Kwasnik, B. H. 1999. The role of classification in knowledge representation and discovery. Library Trends 48, no.

1: 22-47.

Lancaster, F. 2003. Indexing and abstracting in theory and practice. 3e ed. London: Facet.

Macgregor, G., en E. McCulloch. 2006. Collaborative tagging as a knowledge organisation and resource

discovery tool. Library Review 55, no. 5: 291 - 300. doi:10.1108/00242530610667558.

Magrijn, H. 2000. Woordsystemen : theorie en praktijk van thesauri en trefwoordsystemen. 2e ed. Den Haag:

Biblion.

53

Marlow, C., M. Naaman, D. Boyd, en M. Davis. 2006. HT06, tagging paper, taxonomy, Flickr, academic article, to

read. In HYPERTEXT '06: Proceedings of the seventeenth conference on Hypertext and hypermedia, 31-

40. ACM Press. http://dx.doi.org/10.1145/1149941.1149949.

Mathes, A. 2004. Folksonomies-Cooperative Classification and Communication Through Shared Metadata.

Computer Mediated Communication, LIS590CMC (Doctoral Seminar), Graduate School of Library and

Information Science, University of Illinois Urbana-Champaign, December: 1-13.

Medeiros, N. 2008. Screw cap or cork? Keeping tags fresh (and related matters). perspectives 24, no. 2: 77-79.

Merholz, P. 2004. Metadata for the masses. Oktober 19.

http://www.adaptivepath.com/ideas/essays/archives/000361.php.

Millen, D. R., en J. Feinberg. 2006. Using Social Tagging to Improve Social Navigation. In Workshop on the Social

Navigation and Community based Adaptation Technologies.

Morville, P. 2005. Ambient findability. Sebastopol Calif. ;;Farnham: O'Reilly.

Musser, J., en T. O'Reilly. 2006. Web 2.0: Principles and best practices. O'Reilly radar.

http://oreilly.com/catalog/web2report/chapter/web20_report_excerpt.pdf.

NISO. 2004. Understanding Metadata. Bethesda (USA): National Information Standards Organisation.

http://www.niso.org/publications/press/UnderstandingMetadata.pdf.

---. 2005. ANSI/NISO Z39.19 - Guidelines for the Construction, Format, and Management of Monolingual

Controlled Vocabularies . Bethesda: National Information Standards Organization.

Noll, M.G., en C. Meinel. 2007. Authors vs. readers: a comparative study of document metadata and content in

the www. In Proceedings of the 2007 ACM symposium on Document engineering, 177-186. Winnipeg,

Manitoba, Canada: ACM. doi:10.1145/1284420.1284465.

http://portal.acm.org/citation.cfm?id=1284420.1284465.

O'Reilly, T. 2005a. Not 2.0? - O'Reilly Radar. Augustus 5. http://radar.oreilly.com/archives/2005/08/not-

20.html.

---. 2005b. What Is Web 2.0 | O'Reilly Media. September 30.

http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html.

Panofsky, E. 1962. Studies in Iconology Humanistic Themes in the Art of the Renaissance. New York: Harper &

Row.

---. 1982. Meaning in the visual arts. Chicago, Ill.: University of Chicago Press.

Peters, I., en K. Weller. 2008. Tag Gardening for Folksonomy Enrichment and Maintenance. Webology 5, no. 3.

Rafferty, P., en R. Hidderley. 2007. Flickr and democratic indexing: Dialogic approaches to indexing. Aslib

Proceedings: New Information Perspectives 59, no. 4-5: 397-410.

Riesthuis, G. 1998. Zoeken met woorden : hergebruik van onderwerpsontsluiting. [Amsterdam]: Leerstoelgroep

Boek- Archief- en Informatiewetenchap van de Universiteit van Amesterdam.

Rivadeneira, A. W, D. M Gruen, M. J Muller, en D. R Millen. 2007. Getting our head in the clouds: toward

evaluation studies of tagclouds. In Proceedings of the SIGCHI conference on Human factors in

computing systems. San Jose, California, USA: ACM.

Sen, S., S.K. Lam, A.M. Rashid, D. Cosley, D. Frankowski, J. Osterhouse, F.M. Harper, en J. Riedl. 2006. tagging,

communities, vocabulary, evolution. In Proceedings of the 2006 20th anniversary conference on

Computer supported cooperative work, 181-190. Banff, Alberta, Canada: ACM.

doi:10.1145/1180875.1180904. http://portal.acm.org/citation.cfm?id=1180904.

54

Shatford, S. 1986. Analyzing the Subject of a Picture: A Theoretical Approach. Cataloging and Classification

Quarterly 6, no. 3: 39—61.

Shatford-Layne, S. 1994. Some issues in the indexing of images. Journal of the American Society for Information

Science 45, no. 8: 583-588. doi:10.1002/(SICI)1097-4571(199409)45:8<583::AID-ASI13>3.0.CO;2-N.

Shirky, C. 2005. Ontology is Overrated -- Categories, Links, and Tags.

http://shirky.com/writings/ontology_overrated.html.

Smeulders, A. W. M., M. Worring, S. Santini, A. Gupta, en R. Jain. 2000. Content-Based Image Retrieval at the

End of the Early Years. IEEE transactions on pattern analysis and machine intelligence 20, no. 12: 1349-

1380.

Smith, G. 2008. Tagging: People-Powered Metadata for the Social Web. Berkeley CA: New Riders.

Spiteri, L.F. 2007. Structure and form of folksonomy tags: The road to the public library catalogue. Webology

4(2), no. 41 (Juni 5). http://www.webology.ir/2007/v4n2/a41.html.

Springer, M., B. Dulabahn, P. Michel, B. Natanson, D. Reser, D. Woodward, en H. Zinkman. 2008. For the

Common Good:

The Library of Congress

Flickr Pilot Project. Oktober 30. http://www.loc.gov/rr/print/flickr_report_final.pdf.

Sterling, B. 2005. Order out of chaos: What is the best way to tag, bag, and sort data? Give it to the

unorganized masses. http://www.wired.com/wired/archive/13.04/view.html?pg=4.

Tonkin, E., E. M. Corrado, H. L. Moulaison, M. E. I. Kipp, A. Resmini, H. D. Pfeiffer, en Q. Zhang. 2008.

Collaborative and Social Tagging Networks. Ariadne 54. http://www.ariadne.ac.uk/issue54/tonkin-et-

al/.

Trant, J. 2004. Image Retrieval Benchmark Database Service: A Needs Assessment and Preliminary

Development Plan. Archives & Museum Informatics, Canada: 1-57.

---. 2006. Exploring the potential for social tagging and folksonomy in art museums: Proof of concept. New

Review of Hypermedia and Multimedia 12, no. 1: 83-105. doi:10.1080/13614560600802940.

Voss, J. 2007. Tagging, Folksonomy & Co - Renaissance of Manual Indexing? http://arxiv.org/abs/cs/0701072v2.

Wal, T. vander. 2007. Folksonomy. http://vanderwal.net/folksonomy.html.

Weinberger, D. 2005. Tagging and Why it Matters (Mei 13).

http://cyber.law.harvard.edu/sites/cyber.law.harvard.edu/files/07-WhyTaggingMatters.pdf.

Weller, K. 2007. Folksonomies and ontologies: two new players in indexing and knowledge representation. In ,

108-115. http://www.phil-fak.uni-

duesseldorf.de/infowiss/admin/public_dateien/files/35/1197280560weller009p.pdf.

Working Group on the Future of Bibliographic Control. 2008. On the Record: Report of The Library of Congress

Working Group on the Future of Bibliographic Control. Washington DC: Working Group on the Future

of Bibliographic Control, Januari 9. http://www.loc.gov/bibliographic-future/news/lcwg-ontherecord-

jan08-final.pdf.

Scriptie Hoe Tagt u Ons Cultureel Erfgoed - B_Klein

Documents

Transcript of Scriptie Hoe Tagt u Ons Cultureel Erfgoed - B_Klein