Digitalisering voor gebruik

Post on 14-Dec-2014

512 views 2 download

description

 

Transcript of Digitalisering voor gebruik

Digitalisering voor gebruik

Informatie aan Zee 2011

Trudi NoordermeerOostende, 16 september 2011

2

Programma

• 3 typen gebruikers

• Het gedigitaliseerde materiaal dat zij gebruiken- Projecten

• Tevredenheid, problemen en verbeterpunten

3

3 typen gebruikers

• De ‘recreatieve’ gebruiker en scholieren

• Bèta wetenschappers

• Wetenschappers in de humaniora

4

De recreatieve gebruikeren scholier

5

De recreatieve gebruiker & scholier

• Een breed publiek dat geïnteresseerd is in (gedigitaliseerd) cultureel erfgoed

- Brede, algemene (historische) belangstelling- Bezoekt de sites met presentatie topstukken,

interessante documenten, archivalia, foto’s, filmpjes, geluidsopnamen, documenten uit de lokale regio etc

- Scholieren die een werkstuk moeten maken

6

Digitalisering=toegang

• Nationale Bibliotheek Praag• 1994• Digitalisering topstukken• Publicatie op CD-ROM, distributie per post• Beoogd resultaat:

- minder gebruik van de orginelen

• Onverwacht effect:- méér vraag voor inzage originelen

7

1994-1996

• Honderd Hoogtepunten Koninklijke Bibliotheek Den Haag

• Boek + website- http://www.kb.nl/galerie/100hoogtepunten/van1to

t100.html

• Eén van de meest geraadpleegde webtentoonstellingen van de KB, nog altijd

8

Memory of The World

• Unesco• Topstukken uit bibliotheken, archieven, musea

conserveren, publiceren en digitaliseren• Vanaf 1992, wereldwijd• http://www.unesco.org/new/en/media-services/

multimedia/photos/photo-gallery-memory-of-the-world-items/

9

Nationale bibliotheken: projecten

• American Memory – USA, LoC- Brede selectie. Bijv. filmpje van aardbeving in San

Francisco, 1908

• The British Library Online - UK- Beowulf- Project Turning the Pages

• Gallica – Frankrijk, Bibliothèque Nationale

10

Nationale projecten/2

• Koninklijke Bibliotheek Den Haag- Geheugen van Nederland- Digitalisering collecties 80 instellingen

(bibliotheken, archieven, musea)- Aggregator

• Flandrica- 500 publicaties (2012)- 6 bibliotheken Vlaamse Erfgoedbibliotheek

11

Europeana

• Tegenhanger American Memory• Tientallen Europese bibliotheken, archieven,

musea• Zeer rijk Europees erfgoed• Aggregator

- Instellingen digitaliseren zelf: Europeana brengt samen

• Thematische website- Probleem: zoeken en vinden

12

De ‘recreatieve’ gebruiker, scholier

• Beleeft veel plezier aan het gedigitaliseerde materiaal

• Bezoekt sites met gedigitaliseerd materiaal uit eigen land en eigen regio

• Is niet erg kritisch

13

De bètawetenschapper

14

De bèta wetenschapper

• Biomedische informatie, scheikunde, natuurkunde, ingenieurswetenschappen, wiskunde en informatica

• Nieuwe wetenschappelijke informatie- Vrijwel geheel digitaal beschikbaar ‘digital born’

• Backfiles- Uitgevers scannen hun oude tijdschriften en verkopen

die als ‘backfiles’- Soms inferieure kwaliteit

15

Backfiles : een casus

• Reed Elsevier- Wetenschappelijke informatie (bèta)- Bijna alle publicaties van alle uitgevers die

Elsevier overnam- Re-scanning project: 600.000 scans van

onvoldoende kwaliteit worden opnieuw gescand- Vooral medische informatie

• http://www.info.sciverse.com/sciencedirect/content/backfiles/optimizing_backfiles

16

De bètawetenschapper/2

• Zeer kritisch• Eist topkwaliteit afbeeldingen

- Inferieure kwaliteit is onbruikbaar

• Meestal minder interesse in historisch materiaal

• Hoge kwaliteit materiaal is beschikbaar• Groot probleem

- kosten en de prijsstijgingen abonnementen

17

De onderzoeker in de humaniora

18

“Waar bètawetenschappers met een sport auto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora met een brik door een doolhof van websites en databanken”

Karel Berkhout

19

“Digitaal erfgoed is doolhof”

“ Wanhopig zoeken in digitale bronnen”

NRC Handelsblad, 10 september 2011, p.1.

20

Problemen

• Geheugen van Nederland• Hoogtepunten Nederlands gedrukt vaderlands erfgoed• Schitterende boeken, boekomslagen, cartoons,

affiches, foto’s etc• Maar:

- Het is moeilijk om te zoeken in de grote hoeveelheid documenten

- Zoeken binnen een document is niet mogelijk: er is geen OCR (Optical Charcter Recognition) toegepast

21

Problemen

• Mening over open access:Universiteiten bouwen voor een onbekend bedrag

databanken met hun proefschriften en andere publicaties van hun personeel. De inrichting van de repositories is zo knullig, dat de publicaties nagenoeg onvindbaar zijn. Alleen wie precies weet wat hij zoekt kan iets vinden in deze repositoria.

NRC handelsblad, 10 september 2011

22

Problemen

• Auteursrecht: - niet technisch, maar allesbepalend voor het

gebruik: beperkingen van het Auteursrecht- UvA scande 10.000 boeken uit periode 1900 –

1915- Collectie is onbereikbaar voor academici buiten de

universiteit

• Verweesde werken- Onbekend wie de maker is

23

Problemen

• Sommige boeken zijn 6 keer gedigitaliseerd en gepubliceerd op Internet

• Gebrek aan (internationale) afstemming en coördinatie

• Gebrek aan standaarden, standaarden en nog eens standaarden op gebied van digitalisering, ontsluiting, presentatie, zoekmogelijkheden

24

Wens onderzoeker in humaniora

• Tekst wordt gescand- boeken, tijdschriften, kranten- liefst ook manuscripten

• Resultaat- Afbeelding, ‘image’

25

Wens onderzoeker in humaniora/2

• OCR software - Optical Character Recognition- Tekenherkenning- Afbeelding wordt omgezet in tekst die je kunt

doorzoeken en bewerken• Metadata

- Bibliografisch: auteur, titel, onderwerp- Technisch- Structureel

26

Kwaliteit OCR

• Sterk verbeterd, maar nog steeds niet goed genoeg voor bepaalde soorten onderzoek

• Handmatig correcties nodig

• Zeer duur, wordt vaak in het verre oosten gedaan

27

Onderzoek naar betere OCR

• Europese Commissie• NWO Nederlands Wetenschappelijk Onderzoek

• Ook naar OCR voor handschriftelijk materiaal

28

Wens van de onderzoeker

• Digitale onderzoekscorpora

• In de geesteswetenschappen- Literatuur, kunst, muziek, taal- en letterkunde,

(cultuur)geschiedenis

• Digitale humaniora of ‘digital humanities’

29

• Voorbeelden onderzoek:

30

Afgunst in de Middeleeuwen“In veel onderzoek wordt vooral aandacht besteed

aan een specifieke tekst of hooguit een paar. Ik wilde zoveel mogelijk teksten integraal thematisch bekijken.

Ideaal voor mijn onderzoek was dat veel belangrijke Middelnederlandse teksten op cd-rom beschikbaar zijn. Ik heb dus zelf geen handschriften hoeven lezen.

Op die cd-rom zijn ze naar de gewone drukletter

overgezet, dus makkelijk leesbaar”.Laura van der

Wijden

31

Nieuw onderzoek door digitale data

• Digging into the data challenge

- Er zijn zeer veel digitale data beschikbaar

- Welke nieuwe onderzoeksmethoden en –technieken zijn mogelijk?

- Ontwikkeling van een nieuwe onderzoeksinfrastructuur voor de 21 eeuw

32

Digging into the data challenge

• Voorbeelden van genonoreerde projecten:- Digging into the Enlightenment: Mapping the

Republic of Letters

- Railroads and the making of Modern America: tools voor spatio-temporal correlation, analysis and visualisation

- Harvesting speech datasets for linguistic research on the web

33

Dataset: Project Google books

• Voordeel:- Miljoenen boeken (van voor 1900) komen

beschikbaar voor een groot publiek

• Nadeel:- Kwaliteit scans en OCR is niet al te best

• Academici zijn blij met het grote corpus maar dringen aan op kwaliteitsverbetering

34

Nieuw onderzoek door digitale data

• Google Grant Progam- Collaborative research program to explore the

digital humanities using the Google Books corpus- 50.000 euro per onderzoek- 15 projecten per jaar

35

Google grant program: projecten

• Software ontwikkelen voor ontwikkeling in taal door de tijd heen

• Zoeksoftware voor het vinden van boeken en passages uit boeken voor een specifieke discipline

• Ontwikkeling systemen voor crowd-sourced correcties in boeken en metadata

36

Samenvattend: verbeterpunten

• Afstemming selectie te scannen materiaal- denk aan kosten digitale duurzaamheid: vele

malen groter dan digitalisering

• Internationale standaarden mbt kwaliteit, digitaliseren, OCR, metadata- dus ook: zoekmogelijkheden in digitale corpora en

binnen documenten verbeteren

• Voor de onderzoekers- nieuwe onderzoeksvragen bedenken

37

Vragen?