KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie
-
Upload
kvandagen -
Category
Technology
-
view
716 -
download
2
Transcript of KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie
Catch+, Scratch+, … Scratch4All
duizend jaar geschiedenis ligt op honderdkilometer plank van hetde geschiedenis dijt uit, jaarlijks met kilometers
Catch+, Scratch+, ... Scratch4All
Doel
SCRipt Analysis Tools for the Cultural Heritage
"Googelen" in digitale afbeeldingen van handgeschreven archiefmateriaal ....
Catch+, Scratch+, ... Scratch4All
.... ongeacht het handschrift.
19e eeuws handschrift 20e eeuws Sütterlinschrift
MAAR: de computer moet elk handschrift aanleren
Catch+, Scratch+, ... Scratch4All
Methode
• patroonherkenning van woorden en delen van woorden
•maar ... computer moet handschriften “leren” lezen
• regelmatigheden van de inhoud van teksten (statistische computerlinguistiek )
• layout-analyse
Catch+, Scratch+, ... Scratch4All
Nuttig voor archieven ?
• archieven zijn grotendeels chronologisch geordend
• inventarissen en catalogi bieden geen toegang
• digitalisering van de metadata in deze toegangen levert dus te weinig toegankelijkheid op
Catch+, Scratch+, ... Scratch4All
... want ...
• chronologische archieven zijn veelal zeer omvangrijk
• en bevatten heel veel verschillende handschriften, maar ...
Catch+, Scratch+, ... Scratch4All
... en ...
• ... chronologische archieven:
• zijn vaak wel voorzien van handgeschreven (alfabetische) indices, die
• de metadata bevatten van de documenten in die archieven opgeslagen
Catch+, Scratch+, ... Scratch4All
dus ...
• de indices scannen
• de digitale afbeeldingen “scratchen”
• de chronologische brievenseries scannen
• GEEN metadata toekennen, behoudens een nummer
• linken van de “gescratchte” metadata van de indices aan de chronologisch geordende brieven
Catch+, Scratch+, ... Scratch4All
Metadata ...
• ... elke afzonderlijke paragraaf (index entry) verwijst naar een document in de chronologische serie,
• i.c. 1903 Maart 4, No. 13
Catch+, Scratch+, ... Scratch4All
... gekoppeld aan het document
Catch+, Scratch+, ... Scratch4All
Huidige situatie
• wetenschappelijke resultaten zeer succesvol
• patroonherkenningssysteem lokaal bij RuG (AI)
• verschillende soorten bronnen zijn bewerkt
• maar:
• geen mogelijkheid om nieuwe bronnen toe te voegen en te bewerken
Catch+, Scratch+, ... Scratch4All
Gewenste situatie
• systeem beschikbaar buiten RuG-AI-omgeving
• proces beheersbaar en aanstuurbaar door deelnemende erfgoedinstellingen
• “gescratchte” bestanden raadpleegbaar in een gebruikersvriendelijke interface
Catch+, Scratch+, ... Scratch4All
Belang
• belangrijk voor erfgoedsector:• het kunnen ontsluiten van handgeschreven materiaal, op een snellere, efficiëntere manier
• belangrijk voor “het publiek”: • handgeschreven materiaal kunnen raadplegen, als ware het gedrukt
• innovatief: • een nauwelijks bestaande techniek komt beschikbaar
Catch+, Scratch+, ... Scratch4All
Belang voor Nationaal Archief
• één meter
“gescratchte” indices biedt toegang tot bijna
• 40 meter
chronologisch geordende Koninklijke besluiten, wetten en
kabinetsbrieven
Catch+, Scratch+, ... Scratch4All
… en het archief van het Kabinet der Koningin
• heeft een omvang van
(periode 1798-1988):
- 3250 strekkende meter
• en bestaat uit:
- 28.000 dozen
- met ca. 1000 pagina’s per doos
•� 28.000.000 paginas (scans)
Catch+, Scratch+, ... Scratch4All
Resultaat voor andere instellingen
• software voor doorzoekbaar maken van handgeschreven teksten, zonder volledige annotatie
• mits:
• de bron in één of slechts enkele handschriften is geschreven
• de scans van goede kwaliteit zijn
• de middelen aanwezig zijn om de computer het handschrift “aan te leren”
Catch+, Scratch+, ... Scratch4All
Planning
• definiëren gebruiksspecificaties (2009)
• contractonderhandelingen, projectplan (2010 jan.-juni)
• bouw systeemomgeving (2010 juli-okt.)
• bouw beheersmodule (2010 okt.- 2011 feb.)
• aanpassing of bouw transcriptie en zoekmodule (2011 feb.-juni)
• testen en instructie gebruik (2011 juli-dec.)
• oplevering (2011 laatste kwartaal)