Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
-
Upload
netwerk-oorlogsbronnen -
Category
Data & Analytics
-
view
61 -
download
1
Transcript of Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
Workflow digitalisering
NOB Netwerkdag, 16 november 2017, Marian Hellema
Workflow digitaliseren
Nadruk op:
• archieven
• gedrukt en/of getypt materiaal
• “massa”-digitalisering
Workflow
1. Selecteren
2. Voorbereiden materiaal
3. Digitaliseren
4. Controleren
5. Verrijken
6. Opslaan
7. Beschikbaarstellen
Voorbereiding
Selectie
Beschikbaarstelling
Digitalisering
Controles
Verrijking
Opslag
Algemeen
• Goed registratiesysteem voor alle stappen
• Goed identificatiesysteem voor het materiaal (bv. identifiers / barcodes)
Stap 1: Selectie
Wat ga je wel en niet digitaliseren?
• Alles
• Wat er gevraagd wordt
• Wat je denkt dat belangrijkst is
• Waar je subsidie voor hebt
• Systematisch kast-voor-kast
Stap 2: Voorbereiding materiaal
• Ophalen en registreren
• Vouwen, beschadigingen
• Nietjes, paperclips e.d.
• Bijzonderheden noteren
Stap 3: Digitaliseren
• Scanning
• OCR
• Metadatering
Scanning
• kwaliteitsniveau (bv. Metamorfoze)
• afhankelijk van het doel
• nabewerking
• o.a. croppen, rechtzetten
OCR
• voorbewerking (binarisatie?)
• optical character recognition
• gebruik van woordenboeken
• eventueel handmatige correcties
Alternatief: transcriptie door mensen
ALTO
Formaat om de tekst vast te leggen plus layout-informatie
<TextBlock ID="P1_TB00078" WIDTH="2091" HEIGHT="202" VPOS="2222" HPOS="1248"
STYLEREFS="TXT_31 PAR_CENTER">
<TextLine ID="P1_TL00491" WIDTH="2089" HEIGHT="144" VPOS="2278" HPOS="1250">
<String ID="P1_ST02350" WIDTH="856" HEIGHT="130" VPOS="2278" HPOS="1250"
CC="75777660" WC="0.97" CONTENT="VROLIJKE"/>
<SP ID="P1_SP01830" WIDTH="81" VPOS="2408" HPOS="2106"/>
<String ID="P1_ST02351" WIDTH="1152" HEIGHT="124" VPOS="2298" HPOS="2187"
CC="8005074726" WC="0.99" CONTENT="FEESTDAGEN"/>
</TextLine>
</TextBlock>
Kwaliteit OCR
• heel divers, afhankelijk van
• staat van het origineel
• ouderdom van de tekst
• gedrukt vs. getypt materiaal
• hybride
• meten ocr-kwaliteit is arbeidsintensief
Lastig voor OCR
Lastig voor OCR
Metadatering
• Beschrijvende metadata
• vaak afkomstig uit collectiesysteem/catalogus
• Structuurmetadata
• onderlinge samenhang document
• Technische metadata
• kenmerken van de scans
Stap 4: Controles
Zo veel mogelijk geautomatiseerd:
• beeldkenmerken
• volledigheid
• xml-validatie
• checksumcontroles
• …..
• Steekproefsgewijs
• leesbaarheid
• ….
Stap 5: Verrijking
• OCR-correctie
• Extra metadata toevoegen, bv.
• NER en koppeling aan “authority files”
• automatische classificatie
• topic modeling
Named Entity Recognition
• herkennen van namen van personen, plaatsen, organisaties
• op basis van tekst
• op basis van bestaande namenlijsten
• identificeren (“welke Abraham Cohen”?)
• linken aan “authority files” / thesauri
• geocoderen
Thesauri
• wie: personen
• wat: begrippen
• waar: plaatsen
• wanneer: tijdstip, gebeurtenissen
Linked Open Data
• publiceren van de kennis in je collectie
• zodat het te koppelen is aan kennis in andere collecties
Linked Open Data
Arnold Smit(identifier)
Delft(identifier)
geb. 1910-10-27
Arnold Smit (identifier)
Oranjehotel(identifier)
gevangen 1942-12-02 tot 1943-02-01
Arnold Smit (identifier)
Mauthausen(identifier)
transport 1945-01-21
Jan de Boer(identifier)
Oranjehotel(identifier)
gevangen 1942-10-20 tot 1943-01-15
Linked Open Data
Arnold Smit(identifier)
Delft(identifier)
geboren 1910-10-27
Arnold Smit (identifier)
Oranjehotel(identifier)
gevangen 1942-12-02 tot 1943-02-01
Arnold Smit (identifier)
Mauthausen(identifier)
transport 1945-01-21
Jan de Boer(identifier)
gevangen 1942-10-20 tot 1943-01-15
Voorbeeld Personenportal WO2
Automatische classificatie
• herkennen van typen documenten (in vaste klassen)
• bijvoorbeeld:
• vonnissen, proces-verbaal etc. in CABR
• advertenties, sport etc. in krantenberichten
• gebruikmaken van overeenkomsten in tekst en/of layout
Topic modeling
• groeperen van teksten die verwant zijn (zonder vooropgestelde klassen)
• bijvoorbeeld:
• over welke onderwerpen schrijven dagboekschrijvers?
• waar gaan krantenberichten over?
Stap 6: Opslag
• Digitaal
• duurzaamheid
• Originelen
• Conservering
Stap 7: Beschikbaarstelling
Vindbaar en toegankelijk maken, bv.
• Via eigen Collectiesysteem
• Eigen website
• Aggregatie
• bv. Europeana, NOB, APE
• Linked Open Data
Stap 7: Beschikbaarstelling
• doorzoekbaar maken van metadata en tekst (zoekindex)
• liefst met persistente identifiers /URL’s
• evt. een API waarmee anderen de collectie geautomatiseerd kunnen gebruiken
Meer informatie
• DEN Kennisinstituut Digitale Cultuur (den.nl)
• Stadsarchief Amsterdam, digitaliseringsworkflow (www.amsterdam.nl/stadsarchief/organisatie/di
gitalisering/)
Marian Hellema, ICT-erfgoedspecialist, E: [email protected], W: marianhellema.nl