Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

41
KWALITEITSCONTROLE BIJ DIGITALISERING VAN KRANTEN Tuur Van Hove Rony Vissers (PACKED vzw) 17/09/2015

Transcript of Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

Page 1: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

KWALITEITSCONTROLE BIJ DIGITALISERING VAN

KRANTEN

Tuur Van Hove Rony Vissers (PACKED vzw)

17/09/2015

Page 2: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

KWALITEITSCONTROLE

§ vooral gebaseerd op ervaringen project Nieuws van de Groote Oorlog

§ aangevuld met ervaringen andere digitaliseringsprojecten

§ Nieuws van de Groote Oorlog §  initiatief: VIAA, Vlaamse Erfgoedbibliotheek, FARO en PACKED vzw §  digitalisering van frontpers WO1 §  bijzondere aandacht voor zogenaamde frontblaadjes §  looptijd: 2013 - 2015 §  270.000 krantenpagina’s, uit 1.000-tal unieke titels en 52.000 verschillende

edities §  online toegankelijk via https://hetarchief.be/ §  (plus 90 000 krantenpagina’s uit 1914-1918 van CegeSoma, Studie- en

Documentatiecentrum Oorlog en Hedendaagse Maatschappij)

2

Page 3: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

NIEUWS VAN DE GROOTE OORLOG

3

Page 4: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

NIEUWS VAN DE GROOTE OORLOG

4

Page 5: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

WAT IS KWALITEITSCONTROLE?

§  integraal onderdeel van digitaliseringsproject § verifieert of opgeleverde digitale bestanden §  kwaliteit hebben die beantwoordt aan vooropgestelde eisen §  geschikt zijn voor opname in digitale archief voor langetermijnbewaring

(archiveringsbestanden) §  geschikt zijn voor gewenste vormen van ontsluiting

(raadplegingsbestanden)

§ ook belangrijk voor afronden betaling bij uitbesteding § veronderstelt vooropgestelde kwaliteitseisen (lastenboek) § kan gedeeltelijk manueel / geautomatiseerd gebeuren § wordt vaak verwaarloosd: vereist mankracht, kennis, tools en tijd!

5

Page 6: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

UITGEBREID PROCES

§ zijn ontvangen bestanden virusvrij? §  is alle materiaal gedigitaliseerd? zijn alle bestanden opgeleverd? § zijn alle ontvangen bestanden identiek aan die werden verstuurd? § dragen mappen en bestanden correcte benaming? §  is bestandsformaat juist en valide? § beantwoorden alle bestanden aan vooropgestelde kwaliteitseisen

(digitaliserinsgparameters)? § hebben alle bestanden gepaste metadata? § beantwoordt kwaliteit van OCR-tekst aan verwachtingen?

6

Page 7: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

VIRUSCONTROLE

§ zijn ontvangen bestanden virusvrij? § zeker belangrijk wanneer digitalisering extern gebeurt § vereist: §  bijgewerkte anti-virussoftware §  computer losgekoppeld van intern netwerk, maar met mogelijkheid tot

aansluiting op internet (voor update software)

§ best twee keer uitgevoerd, gemiddeld met maand tussenin (updates antivirusdefinities)

§  tussen twee anti-viruscontroles wel andere kwaliteitscontroles op bestanden, maar ze moeten in ‘quarantaine’ blijven

7

Page 8: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE OP VOLLEDIGHEID

§  is alle geselecteerde (kranten)materiaal terug ontvangen en gedigitaliseerd?

§ zijn alle digitale bestanden aanwezig: §  moederbestanden / archiveringsbestanden? §  afgeleide bestanden / raadplegingsbestanden? §  metadata (ingebed, METS XML)? §  OCR

§ uitgangspunt: lastenboek en lijst te digitaliseren materiaal § manueel of geautomatiseerd

8

Page 9: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE OP VOLLEDIGHEID

§ VIAA: §  gebruik van PIDs, ook te digitaliseren materiaal wordt vooraf geregistreerd

in databank §  nadien geautomatiseerde vergelijking van geregistreerde PID’s met

gearchiveerde PID’s § alternatief: voor elke batch CSV-bestand vragen §  inventarisnummer te digitaliseren object §  bestandsnaam moederbestand / archiveringsbestand §  netwerkpad van moederbestand / archiveringsbestand §  MD5-checksum moederbestand / archiveringsbestand §  bestandsnaam afgeleide bestand / raadplegingsbestand §  netwerkpad van afgeleide bestand / raadplegingsbestand §  MD5-checksum afgeleide bestand / raadplegingsbestand

9

Page 10: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

INTEGRITEITSCONTROLE

§ geen corrupte digitale bestanden? controle van integriteit van bestand (bitintegriteit)

§ waarom? uitsluiten dat bij verzending over netwerk of bij kopiëren iets is misgelopen

§ controle m.b.v. checksums of controlegetal §  unieke code berekend op waarde (bv. ander getal of bitstream) §  herhaalde berekening maakt duidelijk of oorspronkelijke waarde is

gewijzigd §  (laatste 2 cijfers van Belgische bankrekeningnummers en laatste cijfer van

ISBN-nummer zijn controlegetallen)

10

Page 11: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

INTEGRITEITSCONTROLE

§ bitintegriteit vaak gecontroleerd m.b.v. MD5-checksum

11

Page 12: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

INTEGRITEITSCONTROLE

§ nodig: §  ontvangen lijst met checksums §  software voor berekenen checksums (bv. Checksum Checker, Fsum

Frontend, Jacksum, Fixity)

§ VIAA: §  MD5-checksums in METS XML-bestand

12

Page 13: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE NAMEN MAPPEN EN BESTANDEN § uitgangspunt: voorschriften in het lastenboek §  Revue de la Mode (1899), no.3 >>> RM_1899_03_001.tif

§ hoofdzakelijk manuele controle § elk bestand uniek identificeren § enkel letters, cijfers, liggend streepje ( _ underscore) of

koppelteken (- "hyphen”) § vermijd speciale tekens zoals bv. haakjes, streepjes en

leestekens, alsook diakritische tekens (accenten, trema's). § betekenisloze structuur of betekenisvolle structuur met zo beperkt

mogelijk aantal onderdelen (bv. identificatienummer tekstdocument + volgnummer pagina)

13

Page 14: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE NAMEN MAPPEN EN BESTANDEN § kan worden achterhaald welke digitale bestanden

overeenstemmen met de analoge originelen? §  is samenhang tussen digitale bestanden en analoge originelen

helder? § zijn metadata en de gedigitaliseerde documenten op logische

wijze aan elkaar gerelateerd? § zijn bestandsnamen van digitale bestanden voorzien zijn van

correcte extensies?

§ VIAA: §  bij ingest validatie bestandsnamen aan hand van registratiegevens in AMS

database §  gebruik van PIDs (in elk VIAA-platform voor identificatie assets)

14

Page 15: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE BESTANDSFORMAAT

§ zijn bestanden in gevraagde bestandsformaat aangeleverd? § dient systematisch en voor alle aangeleverde bestanden te

gebeuren § onderscheid tussen bestandsidentificatie en bestandsvalidatie §  bestandsidentificatie: exact vaststellen van type en versie van

bestandsformaat van digitaal bestand, bv. DROID, EXIFTOOL, FITS §  bestandsvalidatie: vaststellen of de inhoud en structuur van bestand

beantwoorden aan eisen gesteld in specificatie van bestandsformaat, bv. JHOVE2

§ bestandsvalidatie is niet evident omdat JHOVE2 niet altijd voldoet, ook afwijking tussen JHOVE2 v2.0 en JHOVE v2.1

15

Page 16: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE BESTANDSFORMAAT

§ VIAA: §  wel bestandsidentificatie maar geen bestandsvalidatie (JPLYZER,

FFPROBE en EXIFTOOL) §  PACKED: bestandsvalidatie op ong. 12.000 TIFF-bestanden (JHOVE2:

Uncompressed Baseline IBM TIFF v6.0 RGB)

16

Page 17: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § uitgangspunt is lastenboek § bepalen van exacte digitaliseringsparameters is specialistenwerk

> teruggrijpen naar bestaande richtlijnen, bv. Metamorfoze of FADGI

§ parameters hebben betrekking op bv. belichting, witbalans, opnameresolutie en scherpte

§ stellen technische kwaliteit vast waaraan opgeleverde reproducties moeten voldoen

§  technische controle na ontvangst: nagaan of minimale parameters werden gerespecteerd

17

Page 18: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

18

Page 19: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § VIAA: §  lastenboek VIAA: Metamorfoze Light

> bepaalt reeks te meten waarden, maar ook gebruik testkaarten (welke en wanneer)

§  praktijk VIAA: Metamorfoze Extra Light, geen testkaart per individuele opname > wegknippen testkaart in raadplegingsbestand niet voorzien in workflow

§  kwaliteitscontrole op punt gesteld tijdens testfase §  cruciaal: zowel meetwaarden afspreken als welke testkaarten moeten

worden gebruikt, wanneer en ook hoe ze te meten § Metamorfoze legt uit welke testkaarten hoe en wanneer te

gebruiken, hoe ze te meten en welke meetwaarden dit moet opleveren

19

Page 20: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § gebruik testkaarten op drie momenten: §  bij opstart project bij instellen van camera / scanner §  bij begin van elke dag of ploegwissel om te verifiëren of camera /scanner

nog goed ingesteld staat §  bij eigenlijke opname van originelen §  (tijdens testfase controle van eerste; tijdens / na project tweede (en

eventueel derde))

§  twee types testkaarten: §  testkaarten voor controleren witbalans, belichting, uitlichting,

contrastoverdracht en ruis: Digital ColorChecker SG, Kodak of Tiffen Gray Scale (Q-13), (egaal) wit stuk karton

§  testkaarten voor controleren van opnameresolutie, scherpte, verscherping en geometrische vervorming: QA-62-SFR-P-RP en de QA-2

20

Page 21: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § benodigde software: Adobe Photoshop CC, Imcheck 3v8 en IQ

Analyzer V5.2.17 §  enkel Imcheck is gratis open source sofware

§ controle: §  witbalans §  belichtingstolerantie §  gain modulation (in de hoge lichten) §  uitlichting §  ruis §  kleurnauwkeurigheid §  gebruikte testkaarten: Digital ColorChecker SG en Kodak / Tiffen Gray

Scale (Q-13) en (egaal) wit stuk karton §  gebruikte software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer

V5.2.17

21

Page 22: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

22

Page 23: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

23

Page 24: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

24

Page 25: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

25

Venster – info (F8) Pipet 11 x 11 pixels Vakjes aflopen – 2 onderste negeren, worden niet meegenomen voor Metamorfoze Light – met pipet in midden van vakje en RGB waarden in Excel invullen

Page 26: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

26

Venster – histogram – uitgebreide weergave Selecteerraster Vakjes aflopen met selecteerraster en Standaard deviatie (Std. Deviatie) waarde in Excel invullen

Page 27: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: §  vereiste sampling rate §  verschil tussen claimed sampling rate en obtained sampling rate §  Sampling Efficiency, horizontaal en verticaal §  MTF50, horizontaal en verticaal §  maximale modulatie §  kleurmisregistratie per kleurkanaal §  gebruikte testkaarten: QA-62-SFR-P-RP en QA-2 §  gebruikte software: Imcheck 3v8

27

Page 28: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

28

Page 29: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

29

Page 30: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

30

Page 31: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS

31

Page 32: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: §  geometrische vervorming §  gebruikte testkaarten: QA-2 §  gebruikte software: Adobe Photoshop CC

§ controle: §  andere artefacten §  visuele inspectie

§  lessons learnt: §  vereist medewerker die zich hierin bekwaamd §  vereist veel tijd: ongeveer dag voor week productie §  belangrijk: niet te wachten tot op einde van project, maar regelmatige

oplevering af te spreken en dan meteen te controleren

32

Page 33: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § more lessons learnt: §  opdrachtnemer zelf verplichten tot kwaliteitscontrole en dwingen resultaten

samen met bestanden aan te leveren > maar er niet op vetrouwen! §  indien testresultaat onbevredigend blijkt, volledige batch afkeuren §  door controle worden schommelingen in kwaliteit beperkt / vermeden §  afwijkende resultaten als andere softwareversies worden gebruikt §  op voorhand afspreken wat referentiewaarden zijn: theoretische waarden

opgelijst in Metamorfoze, of waarden die fabrikant van testkaart meelevert? §  belangrijk dat gebruikte testkaarten in goede staat zijn §  opname testkaart per batch is louter indicatief voor kwaliteit individuele

opname §  ook visuele inspectie van individuele opnamen vereist om bv. onscherpe

opname te detecteren §  ook belangrijk om te verifiëren of opnamedatum van testkaart

welovereenkomt met die van opnamen: controle m.b.v. metadata van opnamedatum, gebruikte camera, …

33

Page 34: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE METADATA

§  ingebed in bestand zelf § gecodeerd in UTF-8? consistent? volledig? §  in lastenboek formuleren welke metadata ingebed moet zijn, bv. §  inventarisnummer §  copyright statement §  model en merk gebruikte scanner of camera §  tijdstip van creatie van bestand §  diafragma en sluitertijd (indien van toepassing) §  kleurprofiel §  kleurruimte §  sampling rate (pixels per inch) §  lengte en breedte in pixels §  bitdiepte

§ geautomatiseerd uitlezen met bv. FITS

34

Page 35: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE METADATA

§ VIAA: §  geen controle van ingebedde metadata §  focus op PREMIS metadata in de METS XML §  geen controle van overeenkomst tussen PREMIS metadata en ingebedde

metadata §  SIP (submission information package) met zip bestaande uit o.a.

archiveringsbestanden, raadplegingsbestanden, OCR-tekstbestanden vergezeld van METS XML

§  METS XML bevat beschrijvende metadata, technische metadata en MD-5 van elke individuele reproducties, en structurele metadata

§  METS XML bevat ook informatie over verschillende stappen die tijdens proces doorlopen werden > volgens PREMIS-standaard: stelt in staat levenscyclus te volgen

§  METS XML met PREMIS metadata wordt gevalideerd aan hand van XSD (XML Schema Definition) > zekerheid dat alle velden correct zijn ingevuld.

35

Page 36: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE KWALITEIT OCR

§ OCR: Optical Character Recognition § VIAA: §  OCR-tekst met ALTO XML Schema opgenomen in METS XML §  ALTO = Analyzed Layout and Text Object §  ALTO XML-bestand bevat niet alleen OCR-tekst, maar ook gegevens over

waar precies verschillende stukjes OCR-tekst moeten worden weergeven om gestructureerde tekst van fysieke pagina’s te representeren

§  PACKED: steekproef uitgevoerd van vijftal testbestanden met ocrevalUAtion 1.3.0: vergelijking platte tekst uit XML met ‘ground-thruth-tekst’ §  geschatte CER (character error rate) en WER (word error rate) voor

sample §  beste afstemming tussen ‘ground-truth-tekst’ en OCR-tekst §  gedetailleerde statistieken over aantal fouten voor elk karakter

36

Page 37: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE KWALITEIT OCR

37

Page 38: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE KWALITEIT OCR

38

Page 39: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE KWALITEIT OCR

§  met Quack enkele controles gedaan van ALTO XML §  Quack: open source programma om ALTO XML-bestanden weer te geven

en te controleren

39

Page 40: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

CONTROLE KWALITEIT OCR

40

Page 41: Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches

DANK U! Tuur Van Hove: [email protected]

Rony Vissers: [email protected]