Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
of 28
/28
-
Author
netwerk-oorlogsbronnen -
Category
Data & Analytics
-
view
60 -
download
1
Embed Size (px)
Transcript of Netwerkdag 2017 | Marian Hellema | Workflow digitalisering
- 1. Workflow digitalisering NOB Netwerkdag, 16 november 2017, Marian Hellema
- 2. Workflow digitaliseren Nadruk op: archieven gedrukt en/of getypt materiaal massa-digitalisering
- 3. Workflow 1. Selecteren 2. Voorbereiden materiaal 3. Digitaliseren 4. Controleren 5. Verrijken 6. Opslaan 7. Beschikbaarstellen Voorbereiding Selectie Beschikbaarstelling Digitalisering Controles Verrijking Opslag
- 4. Algemeen Goed registratiesysteem voor alle stappen Goed identificatiesysteem voor het materiaal (bv. identifiers / barcodes)
- 5. Stap 1: Selectie Wat ga je wel en niet digitaliseren? Alles Wat er gevraagd wordt Wat je denkt dat belangrijkst is Waar je subsidie voor hebt Systematisch kast-voor-kast
- 6. Stap 2: Voorbereiding materiaal Ophalen en registreren Vouwen, beschadigingen Nietjes, paperclips e.d. Bijzonderheden noteren
- 7. Stap 3: Digitaliseren Scanning OCR Metadatering
- 8. Scanning kwaliteitsniveau (bv. Metamorfoze) afhankelijk van het doel nabewerking o.a. croppen, rechtzetten
- 9. OCR voorbewerking (binarisatie?) optical character recognition gebruik van woordenboeken eventueel handmatige correcties Alternatief: transcriptie door mensen
- 10. ALTO Formaat om de tekst vast te leggen plus layout-informatie
- 11. Kwaliteit OCR heel divers, afhankelijk van staat van het origineel ouderdom van de tekst gedrukt vs. getypt materiaal hybride meten ocr-kwaliteit is arbeidsintensief
- 12. Lastig voor OCR
- 13. Lastig voor OCR
- 14. Metadatering Beschrijvende metadata vaak afkomstig uit collectiesysteem/catalogus Structuurmetadata onderlinge samenhang document Technische metadata kenmerken van de scans
- 15. Stap 4: Controles Zo veel mogelijk geautomatiseerd: beeldkenmerken volledigheid xml-validatie checksumcontroles .. Steekproefsgewijs leesbaarheid .
- 16. Stap 5: Verrijking OCR-correctie Extra metadata toevoegen, bv. NER en koppeling aan authority files automatische classificatie topic modeling
- 17. Named Entity Recognition herkennen van namen van personen, plaatsen, organisaties op basis van tekst op basis van bestaande namenlijsten identificeren (welke Abraham Cohen?) linken aan authority files / thesauri geocoderen
- 18. Thesauri wie: personen wat: begrippen waar: plaatsen wanneer: tijdstip, gebeurtenissen
- 19. Linked Open Data publiceren van de kennis in je collectie zodat het te koppelen is aan kennis in andere collecties
- 20. Linked Open Data Arnold Smit (identifier) Delft (identifier) geb. 1910- 10-27 Arnold Smit (identifier) Oranjehotel (identifier) gevangen 1942-12-02 tot 1943-02-01 Arnold Smit (identifier) Mauthausen (identifier) transport 1945-01-21 Jan de Boer (identifier) Oranjehotel (identifier) gevangen 1942-10-20 tot 1943-01-15
- 21. Linked Open Data Arnold Smit (identifier) Delft (identifier) geboren 1910- 10-27 Arnold Smit (identifier) Oranjehotel (identifier) gevangen 1942-12- 02 tot 1943-02-01 Arnold Smit (identifier) Mauthausen (identifier) transport 1945- 01-21 Jan de Boer (identifier) gevangen 1942-10-20 tot 1943-01-15
- 22. Voorbeeld Personenportal WO2
- 23. Automatische classificatie herkennen van typen documenten (in vaste klassen) bijvoorbeeld: vonnissen, proces-verbaal etc. in CABR advertenties, sport etc. in krantenberichten gebruikmaken van overeenkomsten in tekst en/of layout
- 24. Topic modeling groeperen van teksten die verwant zijn (zonder vooropgestelde klassen) bijvoorbeeld: over welke onderwerpen schrijven dagboekschrijvers? waar gaan krantenberichten over?
- 25. Stap 6: Opslag Digitaal duurzaamheid Originelen Conservering
- 26. Stap 7: Beschikbaarstelling Vindbaar en toegankelijk maken, bv. Via eigen Collectiesysteem Eigen website Aggregatie bv. Europeana, NOB, APE Linked Open Data
- 27. Stap 7: Beschikbaarstelling doorzoekbaar maken van metadata en tekst (zoekindex) liefst met persistente identifiers /URLs evt. een API waarmee anderen de collectie geautomatiseerd kunnen gebruiken
- 28. Meer informatie DEN Kennisinstituut Digitale Cultuur (den.nl) Stadsarchief Amsterdam, digitaliseringsworkflow (www.amsterdam.nl/stadsarchief/organisatie/di gitalisering/) Marian Hellema, ICT-erfgoedspecialist, E: [email protected], W: marianhellema.nl