ENP_Dutch_infoday_HCrijns

14
KRANTEN

Transcript of ENP_Dutch_infoday_HCrijns

Page 1: ENP_Dutch_infoday_HCrijns

KRANTEN

Page 2: ENP_Dutch_infoday_HCrijns
Page 3: ENP_Dutch_infoday_HCrijns

1883

Page 4: ENP_Dutch_infoday_HCrijns

10 miljoen krantenpagina’s

• 1 miljoen kranten (1618-1995)

• 10 miljoen pagina’s

• 90 miljoen artikelen

• 1500 krantentitels

• Van tientallen instellingen

Pas 10%

Page 5: ENP_Dutch_infoday_HCrijns

Selectie

• Adviescommissie

• Inhoudelijke criteria

- Pershistorisch belang

- Geografische spreiding

- Politieke/confessionele

spreiding

• Praktische criteria

• Metamorfoze

Page 6: ENP_Dutch_infoday_HCrijns

Meerwaarde digitale tekstcollecties

• Altijd en overal raadpleegbaar

• Zoeken in metadata én tekst

• Tijdwinst

• Collectiebehoud

• Nieuwe zoekvragen

• Nieuwe onderzoeksmogelijkheden

Page 7: ENP_Dutch_infoday_HCrijns

Digital humanities

• Harvesten mbv OAI-PMH of SRU

(In overleg met de KB)

• Eigen zoekopdrachten loslaten op metadata en full-text

Page 8: ENP_Dutch_infoday_HCrijns

OCR

Optical Character Recognition

Automatische tekenherkenning

Auto ongeval. Dokter Sikmans auto reed iv Batavia twee personen aan, die beiden geblesseerd werden. (1910)

Page 9: ENP_Dutch_infoday_HCrijns

OCR

VVt Venetien den 1.Junij, Anno 1618. DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /

Page 10: ENP_Dutch_infoday_HCrijns

OCR

Problemen:

• Oude lettertypes:

gotisch schrift

• Vergeeld papier

• Vervaagde of vlekkerig geworden inkt

• Kneepschaduw

Page 11: ENP_Dutch_infoday_HCrijns

Andere problemen

• Onvolledigheid

• Spellingsvarianten

• Historisch taalgebruik

• Beperkte mogelijkheden

interface

• Beperkte metadata

Page 12: ENP_Dutch_infoday_HCrijns

Nieuwe release - november

• Booleaans zoeken

• Stabiliteit

• Highlighting verbeteren

• Mobiele apparaten/grote schermen

• Meer informatie over collecties

• Gebruiksvriendelijkheid website

(o.a. zoekhulp, filmpjes)

Page 13: ENP_Dutch_infoday_HCrijns
Page 14: ENP_Dutch_infoday_HCrijns

In de toekomst:

• Nieuwe kranten

• OCR verbetering (17e eeuw)

• Named entity recognition