Netwerkdag 2017 | Marian Hellema | Workflow digitalisering

of 28 /28
Workflow digitalisering NOB Netwerkdag, 16 november 2017, Marian Hellema

Embed Size (px)

Transcript of Netwerkdag 2017 | Marian Hellema | Workflow digitalisering

  1. 1. Workflow digitalisering NOB Netwerkdag, 16 november 2017, Marian Hellema
  2. 2. Workflow digitaliseren Nadruk op: archieven gedrukt en/of getypt materiaal massa-digitalisering
  3. 3. Workflow 1. Selecteren 2. Voorbereiden materiaal 3. Digitaliseren 4. Controleren 5. Verrijken 6. Opslaan 7. Beschikbaarstellen Voorbereiding Selectie Beschikbaarstelling Digitalisering Controles Verrijking Opslag
  4. 4. Algemeen Goed registratiesysteem voor alle stappen Goed identificatiesysteem voor het materiaal (bv. identifiers / barcodes)
  5. 5. Stap 1: Selectie Wat ga je wel en niet digitaliseren? Alles Wat er gevraagd wordt Wat je denkt dat belangrijkst is Waar je subsidie voor hebt Systematisch kast-voor-kast
  6. 6. Stap 2: Voorbereiding materiaal Ophalen en registreren Vouwen, beschadigingen Nietjes, paperclips e.d. Bijzonderheden noteren
  7. 7. Stap 3: Digitaliseren Scanning OCR Metadatering
  8. 8. Scanning kwaliteitsniveau (bv. Metamorfoze) afhankelijk van het doel nabewerking o.a. croppen, rechtzetten
  9. 9. OCR voorbewerking (binarisatie?) optical character recognition gebruik van woordenboeken eventueel handmatige correcties Alternatief: transcriptie door mensen
  10. 10. ALTO Formaat om de tekst vast te leggen plus layout-informatie
  11. 11. Kwaliteit OCR heel divers, afhankelijk van staat van het origineel ouderdom van de tekst gedrukt vs. getypt materiaal hybride meten ocr-kwaliteit is arbeidsintensief
  12. 12. Lastig voor OCR
  13. 13. Lastig voor OCR
  14. 14. Metadatering Beschrijvende metadata vaak afkomstig uit collectiesysteem/catalogus Structuurmetadata onderlinge samenhang document Technische metadata kenmerken van de scans
  15. 15. Stap 4: Controles Zo veel mogelijk geautomatiseerd: beeldkenmerken volledigheid xml-validatie checksumcontroles .. Steekproefsgewijs leesbaarheid .
  16. 16. Stap 5: Verrijking OCR-correctie Extra metadata toevoegen, bv. NER en koppeling aan authority files automatische classificatie topic modeling
  17. 17. Named Entity Recognition herkennen van namen van personen, plaatsen, organisaties op basis van tekst op basis van bestaande namenlijsten identificeren (welke Abraham Cohen?) linken aan authority files / thesauri geocoderen
  18. 18. Thesauri wie: personen wat: begrippen waar: plaatsen wanneer: tijdstip, gebeurtenissen
  19. 19. Linked Open Data publiceren van de kennis in je collectie zodat het te koppelen is aan kennis in andere collecties
  20. 20. Linked Open Data Arnold Smit (identifier) Delft (identifier) geb. 1910- 10-27 Arnold Smit (identifier) Oranjehotel (identifier) gevangen 1942-12-02 tot 1943-02-01 Arnold Smit (identifier) Mauthausen (identifier) transport 1945-01-21 Jan de Boer (identifier) Oranjehotel (identifier) gevangen 1942-10-20 tot 1943-01-15
  21. 21. Linked Open Data Arnold Smit (identifier) Delft (identifier) geboren 1910- 10-27 Arnold Smit (identifier) Oranjehotel (identifier) gevangen 1942-12- 02 tot 1943-02-01 Arnold Smit (identifier) Mauthausen (identifier) transport 1945- 01-21 Jan de Boer (identifier) gevangen 1942-10-20 tot 1943-01-15
  22. 22. Voorbeeld Personenportal WO2
  23. 23. Automatische classificatie herkennen van typen documenten (in vaste klassen) bijvoorbeeld: vonnissen, proces-verbaal etc. in CABR advertenties, sport etc. in krantenberichten gebruikmaken van overeenkomsten in tekst en/of layout
  24. 24. Topic modeling groeperen van teksten die verwant zijn (zonder vooropgestelde klassen) bijvoorbeeld: over welke onderwerpen schrijven dagboekschrijvers? waar gaan krantenberichten over?
  25. 25. Stap 6: Opslag Digitaal duurzaamheid Originelen Conservering
  26. 26. Stap 7: Beschikbaarstelling Vindbaar en toegankelijk maken, bv. Via eigen Collectiesysteem Eigen website Aggregatie bv. Europeana, NOB, APE Linked Open Data
  27. 27. Stap 7: Beschikbaarstelling doorzoekbaar maken van metadata en tekst (zoekindex) liefst met persistente identifiers /URLs evt. een API waarmee anderen de collectie geautomatiseerd kunnen gebruiken
  28. 28. Meer informatie DEN Kennisinstituut Digitale Cultuur (den.nl) Stadsarchief Amsterdam, digitaliseringsworkflow (www.amsterdam.nl/stadsarchief/organisatie/di gitalisering/) Marian Hellema, ICT-erfgoedspecialist, E: [email protected], W: marianhellema.nl