02 claeyssens het_kb-krantencorpus

14
Digitale historische kranten als ‘big data’ Steven Claeyssens, 24 maart 2015

Transcript of 02 claeyssens het_kb-krantencorpus

Page 1: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’

Steven Claeyssens, 24 maart 2015

Page 2: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het symposium praktisch

doel, programma, huishoudelijke punten

Het digitale krantencorpus

omvang, selectie, kwaliteit, …

Page 3: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het symposium praktisch (1)

Doelstellingen

1. Onderzoekservaringen uitwisselen

2. Mensen & wensen leren kennen

Programma

1. 10.15-12.10: onderzoekers

2. 13.10-14.40: KB-medewerkers

3. 15.10-16.30: onderzoekers

Page 4: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het symposium praktisch (2)

• Organisatie: oranje stippen op badge

• Sprekers: blauw stippen op badge

• Badge: graag inleveren na afloop

• Spreektijd: belsysteem

• Wifi: vergader | R@d1o#3aD

• Twitter: #KBdata

Page 5: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het digitale krantencorpus

- Krant: product van drukpers, verschijnt periodiek, actueel

- Periode: 1618-1995

- Eenheden: titels, afleveringen, artikelen, illustraties

- Tekst: automatische tekenherkenning

- Omvang: circa 9 miljoen pagina’s

- Metadata: bibliografisch, structureel, technisch, …

Page 6: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het digitale krantencorpus: het begin

2006-2012: project Databank Digitale Dagbladen

- Wetenschappelijke adviescommissie

- Selectiecriteria per historisch tijdvak

- Ook koloniale kranten

- 7.000 titels beschikbaar; 358 titels gedigitaliseerd

- Uit diverse Nederlandse instellingen

Aangevuld met 1.149 illegale kranten uit de collectie van het NIOD (project Erfgoed van de Oorlog)

Page 7: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het digitale krantencorpus: 2012

- Aantal krantentitels: 358

- Aantal afleveringen: 839.737

- Aantal pagina’s: 8.245.159

- Aantal artikelen: 80.764.452

+ Erfgoed van de Oorlog

- Aantal illegale krantentitels: 1.149

- Aantal afleveringen: 39.698

- Aantal pagina’s: 107.833

- Aantal artikelen: 370.537

Page 8: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het digitale krantencorpus: 2015

- Aantal afleveringen > 1 miljoen

- Aantal pagina’s > 9 miljoen

- Via Metamorfoze-programma meer op komst

- www.delpher.nl/kranten

- [email protected]

Page 9: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

Het digitale krantencorpus: 2015

Page 10: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

20E: afleveringen

0

5000

10000

15000

20000

25000

30000

1 11 21 31 41 51 61 71 81 91

Page 11: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

20E: afleveringen, illustraties (met tekst)

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

1 11 21 31 41 51 61 71 81 91

Page 12: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

20E: afleveringen, illustratie, pagina’s

0

20000

40000

60000

80000

100000

120000

140000

160000

180000

1 11 21 31 41 51 61 71 81 91

Page 13: 02 claeyssens het_kb-krantencorpus

Digitale historische kranten als ‘big data’ 24 maart 2015

20E: pagina’s & illustraties per aflevering

0

5

10

15

20

25

30

1 11 21 31 41 51 61 71 81 91

Page 14: 02 claeyssens het_kb-krantencorpus

@sclaeyssens

[email protected]