Netwerkdag 2017 | Marian Hellema | Workflow digitalisering

Workflow digitalisering

NOB Netwerkdag, 16 november 2017, Marian Hellema

Workflow digitaliseren

Nadruk op:

• archieven

• gedrukt en/of getypt materiaal

• “massa”-digitalisering

Workflow

1. Selecteren

2. Voorbereiden materiaal

3. Digitaliseren

4. Controleren

5. Verrijken

6. Opslaan

7. Beschikbaarstellen

Voorbereiding

Selectie

Beschikbaarstelling

Digitalisering

Controles

Verrijking

Opslag

Algemeen

• Goed registratiesysteem voor alle stappen

• Goed identificatiesysteem voor het materiaal (bv. identifiers / barcodes)

Stap 1: Selectie

Wat ga je wel en niet digitaliseren?

• Alles

• Wat er gevraagd wordt

• Wat je denkt dat belangrijkst is

• Waar je subsidie voor hebt

• Systematisch kast-voor-kast

Stap 2: Voorbereiding materiaal

• Ophalen en registreren

• Vouwen, beschadigingen

• Nietjes, paperclips e.d.

• Bijzonderheden noteren

Stap 3: Digitaliseren

• Scanning

• OCR

• Metadatering

Scanning

• kwaliteitsniveau (bv. Metamorfoze)

• afhankelijk van het doel

• nabewerking

• o.a. croppen, rechtzetten

OCR

• voorbewerking (binarisatie?)

• optical character recognition

• gebruik van woordenboeken

• eventueel handmatige correcties

Alternatief: transcriptie door mensen

ALTO

Formaat om de tekst vast te leggen plus layout-informatie

<TextBlock ID="P1_TB00078" WIDTH="2091" HEIGHT="202" VPOS="2222" HPOS="1248"

STYLEREFS="TXT_31 PAR_CENTER">

<TextLine ID="P1_TL00491" WIDTH="2089" HEIGHT="144" VPOS="2278" HPOS="1250">

<String ID="P1_ST02350" WIDTH="856" HEIGHT="130" VPOS="2278" HPOS="1250"

CC="75777660" WC="0.97" CONTENT="VROLIJKE"/>

<SP ID="P1_SP01830" WIDTH="81" VPOS="2408" HPOS="2106"/>

<String ID="P1_ST02351" WIDTH="1152" HEIGHT="124" VPOS="2298" HPOS="2187"

CC="8005074726" WC="0.99" CONTENT="FEESTDAGEN"/>

</TextLine>

</TextBlock>

Kwaliteit OCR

• heel divers, afhankelijk van

• staat van het origineel

• ouderdom van de tekst

• gedrukt vs. getypt materiaal

• hybride

• meten ocr-kwaliteit is arbeidsintensief

Lastig voor OCR

Metadatering

• Beschrijvende metadata

• vaak afkomstig uit collectiesysteem/catalogus

• Structuurmetadata

• onderlinge samenhang document

• Technische metadata

• kenmerken van de scans

Stap 4: Controles

Zo veel mogelijk geautomatiseerd:

• beeldkenmerken

• volledigheid

• xml-validatie

• checksumcontroles

• …..

• Steekproefsgewijs

• leesbaarheid

• ….

Stap 5: Verrijking

• OCR-correctie

• Extra metadata toevoegen, bv.

• NER en koppeling aan “authority files”

• automatische classificatie

• topic modeling

Named Entity Recognition

• herkennen van namen van personen, plaatsen, organisaties

• op basis van tekst

• op basis van bestaande namenlijsten

• identificeren (“welke Abraham Cohen”?)

• linken aan “authority files” / thesauri

• geocoderen

Thesauri

• wie: personen

• wat: begrippen

• waar: plaatsen

• wanneer: tijdstip, gebeurtenissen

Linked Open Data

• publiceren van de kennis in je collectie

• zodat het te koppelen is aan kennis in andere collecties

Linked Open Data

Arnold Smit(identifier)

Delft(identifier)

geb. 1910-10-27

Arnold Smit (identifier)

Oranjehotel(identifier)

gevangen 1942-12-02 tot 1943-02-01


Mauthausen(identifier)

transport 1945-01-21

Jan de Boer(identifier)


gevangen 1942-10-20 tot 1943-01-15

Linked Open Data

Arnold Smit(identifier)

Delft(identifier)

geboren 1910-10-27



gevangen 1942-12-02 tot 1943-02-01


Mauthausen(identifier)

transport 1945-01-21

Jan de Boer(identifier)

gevangen 1942-10-20 tot 1943-01-15

Voorbeeld Personenportal WO2

Automatische classificatie

• herkennen van typen documenten (in vaste klassen)

• bijvoorbeeld:

• vonnissen, proces-verbaal etc. in CABR

• advertenties, sport etc. in krantenberichten

• gebruikmaken van overeenkomsten in tekst en/of layout

Topic modeling

• groeperen van teksten die verwant zijn (zonder vooropgestelde klassen)

• bijvoorbeeld:

• over welke onderwerpen schrijven dagboekschrijvers?

• waar gaan krantenberichten over?

Stap 6: Opslag

• Digitaal

• duurzaamheid

• Originelen

• Conservering

Stap 7: Beschikbaarstelling

Vindbaar en toegankelijk maken, bv.

• Via eigen Collectiesysteem

• Eigen website

• Aggregatie

• bv. Europeana, NOB, APE

• Linked Open Data

Stap 7: Beschikbaarstelling

• doorzoekbaar maken van metadata en tekst (zoekindex)

• liefst met persistente identifiers /URL’s

• evt. een API waarmee anderen de collectie geautomatiseerd kunnen gebruiken

Meer informatie

• DEN Kennisinstituut Digitale Cultuur (den.nl)

• Stadsarchief Amsterdam, digitaliseringsworkflow (www.amsterdam.nl/stadsarchief/organisatie/di

gitalisering/)

Marian Hellema, ICT-erfgoedspecialist, E: [email protected], W: marianhellema.nl

Netwerkdag 2017 | Marian Hellema | Workflow digitalisering

Data & Analytics

Transcript of Netwerkdag 2017 | Marian Hellema | Workflow digitalisering