Digitalisering voor gebruik

37
Digitalisering voor gebruik Informatie aan Zee 2011 Trudi Noordermeer Oostende, 16 september 2011

description

 

Transcript of Digitalisering voor gebruik

Page 1: Digitalisering voor gebruik

Digitalisering voor gebruik

Informatie aan Zee 2011

Trudi NoordermeerOostende, 16 september 2011

Page 2: Digitalisering voor gebruik

2

Programma

• 3 typen gebruikers

• Het gedigitaliseerde materiaal dat zij gebruiken- Projecten

• Tevredenheid, problemen en verbeterpunten

Page 3: Digitalisering voor gebruik

3

3 typen gebruikers

• De ‘recreatieve’ gebruiker en scholieren

• Bèta wetenschappers

• Wetenschappers in de humaniora

Page 4: Digitalisering voor gebruik

4

De recreatieve gebruikeren scholier

Page 5: Digitalisering voor gebruik

5

De recreatieve gebruiker & scholier

• Een breed publiek dat geïnteresseerd is in (gedigitaliseerd) cultureel erfgoed

- Brede, algemene (historische) belangstelling- Bezoekt de sites met presentatie topstukken,

interessante documenten, archivalia, foto’s, filmpjes, geluidsopnamen, documenten uit de lokale regio etc

- Scholieren die een werkstuk moeten maken

Page 6: Digitalisering voor gebruik

6

Digitalisering=toegang

• Nationale Bibliotheek Praag• 1994• Digitalisering topstukken• Publicatie op CD-ROM, distributie per post• Beoogd resultaat:

- minder gebruik van de orginelen

• Onverwacht effect:- méér vraag voor inzage originelen

Page 7: Digitalisering voor gebruik

7

1994-1996

• Honderd Hoogtepunten Koninklijke Bibliotheek Den Haag

• Boek + website- http://www.kb.nl/galerie/100hoogtepunten/van1to

t100.html

• Eén van de meest geraadpleegde webtentoonstellingen van de KB, nog altijd

Page 8: Digitalisering voor gebruik

8

Memory of The World

• Unesco• Topstukken uit bibliotheken, archieven, musea

conserveren, publiceren en digitaliseren• Vanaf 1992, wereldwijd• http://www.unesco.org/new/en/media-services/

multimedia/photos/photo-gallery-memory-of-the-world-items/

Page 9: Digitalisering voor gebruik

9

Nationale bibliotheken: projecten

• American Memory – USA, LoC- Brede selectie. Bijv. filmpje van aardbeving in San

Francisco, 1908

• The British Library Online - UK- Beowulf- Project Turning the Pages

• Gallica – Frankrijk, Bibliothèque Nationale

Page 10: Digitalisering voor gebruik

10

Nationale projecten/2

• Koninklijke Bibliotheek Den Haag- Geheugen van Nederland- Digitalisering collecties 80 instellingen

(bibliotheken, archieven, musea)- Aggregator

• Flandrica- 500 publicaties (2012)- 6 bibliotheken Vlaamse Erfgoedbibliotheek

Page 11: Digitalisering voor gebruik

11

Europeana

• Tegenhanger American Memory• Tientallen Europese bibliotheken, archieven,

musea• Zeer rijk Europees erfgoed• Aggregator

- Instellingen digitaliseren zelf: Europeana brengt samen

• Thematische website- Probleem: zoeken en vinden

Page 12: Digitalisering voor gebruik

12

De ‘recreatieve’ gebruiker, scholier

• Beleeft veel plezier aan het gedigitaliseerde materiaal

• Bezoekt sites met gedigitaliseerd materiaal uit eigen land en eigen regio

• Is niet erg kritisch

Page 13: Digitalisering voor gebruik

13

De bètawetenschapper

Page 14: Digitalisering voor gebruik

14

De bèta wetenschapper

• Biomedische informatie, scheikunde, natuurkunde, ingenieurswetenschappen, wiskunde en informatica

• Nieuwe wetenschappelijke informatie- Vrijwel geheel digitaal beschikbaar ‘digital born’

• Backfiles- Uitgevers scannen hun oude tijdschriften en verkopen

die als ‘backfiles’- Soms inferieure kwaliteit

Page 15: Digitalisering voor gebruik

15

Backfiles : een casus

• Reed Elsevier- Wetenschappelijke informatie (bèta)- Bijna alle publicaties van alle uitgevers die

Elsevier overnam- Re-scanning project: 600.000 scans van

onvoldoende kwaliteit worden opnieuw gescand- Vooral medische informatie

• http://www.info.sciverse.com/sciencedirect/content/backfiles/optimizing_backfiles

Page 16: Digitalisering voor gebruik

16

De bètawetenschapper/2

• Zeer kritisch• Eist topkwaliteit afbeeldingen

- Inferieure kwaliteit is onbruikbaar

• Meestal minder interesse in historisch materiaal

• Hoge kwaliteit materiaal is beschikbaar• Groot probleem

- kosten en de prijsstijgingen abonnementen

Page 17: Digitalisering voor gebruik

17

De onderzoeker in de humaniora

Page 18: Digitalisering voor gebruik

18

“Waar bètawetenschappers met een sport auto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora met een brik door een doolhof van websites en databanken”

Karel Berkhout

Page 19: Digitalisering voor gebruik

19

“Digitaal erfgoed is doolhof”

“ Wanhopig zoeken in digitale bronnen”

NRC Handelsblad, 10 september 2011, p.1.

Page 20: Digitalisering voor gebruik

20

Problemen

• Geheugen van Nederland• Hoogtepunten Nederlands gedrukt vaderlands erfgoed• Schitterende boeken, boekomslagen, cartoons,

affiches, foto’s etc• Maar:

- Het is moeilijk om te zoeken in de grote hoeveelheid documenten

- Zoeken binnen een document is niet mogelijk: er is geen OCR (Optical Charcter Recognition) toegepast

Page 21: Digitalisering voor gebruik

21

Problemen

• Mening over open access:Universiteiten bouwen voor een onbekend bedrag

databanken met hun proefschriften en andere publicaties van hun personeel. De inrichting van de repositories is zo knullig, dat de publicaties nagenoeg onvindbaar zijn. Alleen wie precies weet wat hij zoekt kan iets vinden in deze repositoria.

NRC handelsblad, 10 september 2011

Page 22: Digitalisering voor gebruik

22

Problemen

• Auteursrecht: - niet technisch, maar allesbepalend voor het

gebruik: beperkingen van het Auteursrecht- UvA scande 10.000 boeken uit periode 1900 –

1915- Collectie is onbereikbaar voor academici buiten de

universiteit

• Verweesde werken- Onbekend wie de maker is

Page 23: Digitalisering voor gebruik

23

Problemen

• Sommige boeken zijn 6 keer gedigitaliseerd en gepubliceerd op Internet

• Gebrek aan (internationale) afstemming en coördinatie

• Gebrek aan standaarden, standaarden en nog eens standaarden op gebied van digitalisering, ontsluiting, presentatie, zoekmogelijkheden

Page 24: Digitalisering voor gebruik

24

Wens onderzoeker in humaniora

• Tekst wordt gescand- boeken, tijdschriften, kranten- liefst ook manuscripten

• Resultaat- Afbeelding, ‘image’

Page 25: Digitalisering voor gebruik

25

Wens onderzoeker in humaniora/2

• OCR software - Optical Character Recognition- Tekenherkenning- Afbeelding wordt omgezet in tekst die je kunt

doorzoeken en bewerken• Metadata

- Bibliografisch: auteur, titel, onderwerp- Technisch- Structureel

Page 26: Digitalisering voor gebruik

26

Kwaliteit OCR

• Sterk verbeterd, maar nog steeds niet goed genoeg voor bepaalde soorten onderzoek

• Handmatig correcties nodig

• Zeer duur, wordt vaak in het verre oosten gedaan

Page 27: Digitalisering voor gebruik

27

Onderzoek naar betere OCR

• Europese Commissie• NWO Nederlands Wetenschappelijk Onderzoek

• Ook naar OCR voor handschriftelijk materiaal

Page 28: Digitalisering voor gebruik

28

Wens van de onderzoeker

• Digitale onderzoekscorpora

• In de geesteswetenschappen- Literatuur, kunst, muziek, taal- en letterkunde,

(cultuur)geschiedenis

• Digitale humaniora of ‘digital humanities’

Page 29: Digitalisering voor gebruik

29

• Voorbeelden onderzoek:

Page 30: Digitalisering voor gebruik

30

Afgunst in de Middeleeuwen“In veel onderzoek wordt vooral aandacht besteed

aan een specifieke tekst of hooguit een paar. Ik wilde zoveel mogelijk teksten integraal thematisch bekijken.

Ideaal voor mijn onderzoek was dat veel belangrijke Middelnederlandse teksten op cd-rom beschikbaar zijn. Ik heb dus zelf geen handschriften hoeven lezen.

Op die cd-rom zijn ze naar de gewone drukletter

overgezet, dus makkelijk leesbaar”.Laura van der

Wijden

Page 31: Digitalisering voor gebruik

31

Nieuw onderzoek door digitale data

• Digging into the data challenge

- Er zijn zeer veel digitale data beschikbaar

- Welke nieuwe onderzoeksmethoden en –technieken zijn mogelijk?

- Ontwikkeling van een nieuwe onderzoeksinfrastructuur voor de 21 eeuw

Page 32: Digitalisering voor gebruik

32

Digging into the data challenge

• Voorbeelden van genonoreerde projecten:- Digging into the Enlightenment: Mapping the

Republic of Letters

- Railroads and the making of Modern America: tools voor spatio-temporal correlation, analysis and visualisation

- Harvesting speech datasets for linguistic research on the web

Page 33: Digitalisering voor gebruik

33

Dataset: Project Google books

• Voordeel:- Miljoenen boeken (van voor 1900) komen

beschikbaar voor een groot publiek

• Nadeel:- Kwaliteit scans en OCR is niet al te best

• Academici zijn blij met het grote corpus maar dringen aan op kwaliteitsverbetering

Page 34: Digitalisering voor gebruik

34

Nieuw onderzoek door digitale data

• Google Grant Progam- Collaborative research program to explore the

digital humanities using the Google Books corpus- 50.000 euro per onderzoek- 15 projecten per jaar

Page 35: Digitalisering voor gebruik

35

Google grant program: projecten

• Software ontwikkelen voor ontwikkeling in taal door de tijd heen

• Zoeksoftware voor het vinden van boeken en passages uit boeken voor een specifieke discipline

• Ontwikkeling systemen voor crowd-sourced correcties in boeken en metadata

Page 36: Digitalisering voor gebruik

36

Samenvattend: verbeterpunten

• Afstemming selectie te scannen materiaal- denk aan kosten digitale duurzaamheid: vele

malen groter dan digitalisering

• Internationale standaarden mbt kwaliteit, digitaliseren, OCR, metadata- dus ook: zoekmogelijkheden in digitale corpora en

binnen documenten verbeteren

• Voor de onderzoekers- nieuwe onderzoeksvragen bedenken

Page 37: Digitalisering voor gebruik

37

Vragen?