DE Conferentie 2006 Henny van Schie

14
SCRATCH duizend jaar geschiedenis ligt op honderd kilometer plank van het de geschiedenis dijt uit, jaarlijks met kilometers

description

 

Transcript of DE Conferentie 2006 Henny van Schie

Page 1: DE Conferentie 2006 Henny van Schie

SCRATCH

duizend jaar geschiedenis ligt op honderdkilometer plank van hetde geschiedenis dijt uit, jaarlijks met kilometers

Page 2: DE Conferentie 2006 Henny van Schie

Scratch

Doel

SCRipt Analysis Tools for the Cultural Heritage

"Googelen" in digitale afbeeldingen van handgeschreven archiefmateriaal ....

Page 3: DE Conferentie 2006 Henny van Schie

Scratch

.... ongeacht het handschrift.

19e eeuws handschrift 20e eeuws SütterlinschriftMAAR: de computer moet elk handschrift aanleren

Page 4: DE Conferentie 2006 Henny van Schie

Scratch

Methode

• patroonherkenning van woorden en delen van woorden• tekstuele regelmatigheden van de inhoud van teksten (statistische computerlinguistiek )

Page 5: DE Conferentie 2006 Henny van Schie

Scratch

Waarom archieven ?

• archieven zijn grotendeels chronologisch geordend

• inventarissen en catalogi bieden geen toegang

• digitalisering van de metadata in deze toegangen levert dus te weinig toegankelijkheid op

Page 6: DE Conferentie 2006 Henny van Schie

Scratch

Waarom archieven ?

• chronologische archieven zijn veelal zeer omvangrijk

• en bevatten heel veel verschillende handschriften, maar ...

Page 7: DE Conferentie 2006 Henny van Schie

Scratch

Waarom archieven ?

• ... chronologische archieven:

• zijn vaak wel voorzien van handgeschreven (alfabetische) indices, die

• de metadata bevatten van de documenten in die archieven opgeslagen

Page 8: DE Conferentie 2006 Henny van Schie

Scratch

dus ...

• de indices scannen• de digitale afbeeldingen “scratchen”

• de chronologische brievenseries scannen• GEEN metadata toekennen, behoudens een nummer

• linken van de “gescratchte” metadata van de indices aan de chronologisch geordende brieven

Page 9: DE Conferentie 2006 Henny van Schie

Scratch

Metadata ...

• ... elke afzonderlijke paragraaf (index entry) verwijst naar een document in de chronologische serie,• i.c. 1903 Maart 4, No. 13

Page 10: DE Conferentie 2006 Henny van Schie

Scratch

... gekoppeld aan het document

Page 11: DE Conferentie 2006 Henny van Schie

Scratch

Resultaat

•digitale afbeeldingen van originele documenten vindbaar met eigentijdse metadata

• één meter “gescratchte”indices biedt toegang tot 25 meter chronologisch geordende documenten

Page 12: DE Conferentie 2006 Henny van Schie

Scratch

Resultaat voor andere instellingen

• software voor doorzoekbaar maken van handgeschreven teksten, zonder volledige annotatie

• mits:• de bron in één of slechts enkele handschriften is

geschreven• de scans van goede kwaliteit zijn• de middelen aanwezig zijn om de computer het

handschrift “aan te leren”

Page 13: DE Conferentie 2006 Henny van Schie

Scratch

Archival system

•all laws, decrees and correspondence are kept:• in a chronological order

• and then in a numerical order

Page 14: DE Conferentie 2006 Henny van Schie

Scratch

Conclusion

• alphabetical and subject indexes of the Queen’s Cabinetare the central entrance to ALL archives of the Dutch national government

• these indexes are the best possible objects for the Scratch programme