Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches
-
Upload
vlaamse-vereniging-voor-bibliotheek-archief-documentatie-vzw -
Category
Technology
-
view
583 -
download
2
Transcript of Kwaliteitscontrole bij digitalisering van kranten en tekstaffiches
KWALITEITSCONTROLE BIJ DIGITALISERING VAN
KRANTEN
Tuur Van Hove Rony Vissers (PACKED vzw)
17/09/2015
KWALITEITSCONTROLE
§ vooral gebaseerd op ervaringen project Nieuws van de Groote Oorlog
§ aangevuld met ervaringen andere digitaliseringsprojecten
§ Nieuws van de Groote Oorlog § initiatief: VIAA, Vlaamse Erfgoedbibliotheek, FARO en PACKED vzw § digitalisering van frontpers WO1 § bijzondere aandacht voor zogenaamde frontblaadjes § looptijd: 2013 - 2015 § 270.000 krantenpagina’s, uit 1.000-tal unieke titels en 52.000 verschillende
edities § online toegankelijk via https://hetarchief.be/ § (plus 90 000 krantenpagina’s uit 1914-1918 van CegeSoma, Studie- en
Documentatiecentrum Oorlog en Hedendaagse Maatschappij)
2
NIEUWS VAN DE GROOTE OORLOG
3
NIEUWS VAN DE GROOTE OORLOG
4
WAT IS KWALITEITSCONTROLE?
§ integraal onderdeel van digitaliseringsproject § verifieert of opgeleverde digitale bestanden § kwaliteit hebben die beantwoordt aan vooropgestelde eisen § geschikt zijn voor opname in digitale archief voor langetermijnbewaring
(archiveringsbestanden) § geschikt zijn voor gewenste vormen van ontsluiting
(raadplegingsbestanden)
§ ook belangrijk voor afronden betaling bij uitbesteding § veronderstelt vooropgestelde kwaliteitseisen (lastenboek) § kan gedeeltelijk manueel / geautomatiseerd gebeuren § wordt vaak verwaarloosd: vereist mankracht, kennis, tools en tijd!
5
UITGEBREID PROCES
§ zijn ontvangen bestanden virusvrij? § is alle materiaal gedigitaliseerd? zijn alle bestanden opgeleverd? § zijn alle ontvangen bestanden identiek aan die werden verstuurd? § dragen mappen en bestanden correcte benaming? § is bestandsformaat juist en valide? § beantwoorden alle bestanden aan vooropgestelde kwaliteitseisen
(digitaliserinsgparameters)? § hebben alle bestanden gepaste metadata? § beantwoordt kwaliteit van OCR-tekst aan verwachtingen?
6
VIRUSCONTROLE
§ zijn ontvangen bestanden virusvrij? § zeker belangrijk wanneer digitalisering extern gebeurt § vereist: § bijgewerkte anti-virussoftware § computer losgekoppeld van intern netwerk, maar met mogelijkheid tot
aansluiting op internet (voor update software)
§ best twee keer uitgevoerd, gemiddeld met maand tussenin (updates antivirusdefinities)
§ tussen twee anti-viruscontroles wel andere kwaliteitscontroles op bestanden, maar ze moeten in ‘quarantaine’ blijven
7
CONTROLE OP VOLLEDIGHEID
§ is alle geselecteerde (kranten)materiaal terug ontvangen en gedigitaliseerd?
§ zijn alle digitale bestanden aanwezig: § moederbestanden / archiveringsbestanden? § afgeleide bestanden / raadplegingsbestanden? § metadata (ingebed, METS XML)? § OCR
§ uitgangspunt: lastenboek en lijst te digitaliseren materiaal § manueel of geautomatiseerd
8
CONTROLE OP VOLLEDIGHEID
§ VIAA: § gebruik van PIDs, ook te digitaliseren materiaal wordt vooraf geregistreerd
in databank § nadien geautomatiseerde vergelijking van geregistreerde PID’s met
gearchiveerde PID’s § alternatief: voor elke batch CSV-bestand vragen § inventarisnummer te digitaliseren object § bestandsnaam moederbestand / archiveringsbestand § netwerkpad van moederbestand / archiveringsbestand § MD5-checksum moederbestand / archiveringsbestand § bestandsnaam afgeleide bestand / raadplegingsbestand § netwerkpad van afgeleide bestand / raadplegingsbestand § MD5-checksum afgeleide bestand / raadplegingsbestand
9
INTEGRITEITSCONTROLE
§ geen corrupte digitale bestanden? controle van integriteit van bestand (bitintegriteit)
§ waarom? uitsluiten dat bij verzending over netwerk of bij kopiëren iets is misgelopen
§ controle m.b.v. checksums of controlegetal § unieke code berekend op waarde (bv. ander getal of bitstream) § herhaalde berekening maakt duidelijk of oorspronkelijke waarde is
gewijzigd § (laatste 2 cijfers van Belgische bankrekeningnummers en laatste cijfer van
ISBN-nummer zijn controlegetallen)
10
INTEGRITEITSCONTROLE
§ bitintegriteit vaak gecontroleerd m.b.v. MD5-checksum
11
INTEGRITEITSCONTROLE
§ nodig: § ontvangen lijst met checksums § software voor berekenen checksums (bv. Checksum Checker, Fsum
Frontend, Jacksum, Fixity)
§ VIAA: § MD5-checksums in METS XML-bestand
12
CONTROLE NAMEN MAPPEN EN BESTANDEN § uitgangspunt: voorschriften in het lastenboek § Revue de la Mode (1899), no.3 >>> RM_1899_03_001.tif
§ hoofdzakelijk manuele controle § elk bestand uniek identificeren § enkel letters, cijfers, liggend streepje ( _ underscore) of
koppelteken (- "hyphen”) § vermijd speciale tekens zoals bv. haakjes, streepjes en
leestekens, alsook diakritische tekens (accenten, trema's). § betekenisloze structuur of betekenisvolle structuur met zo beperkt
mogelijk aantal onderdelen (bv. identificatienummer tekstdocument + volgnummer pagina)
13
CONTROLE NAMEN MAPPEN EN BESTANDEN § kan worden achterhaald welke digitale bestanden
overeenstemmen met de analoge originelen? § is samenhang tussen digitale bestanden en analoge originelen
helder? § zijn metadata en de gedigitaliseerde documenten op logische
wijze aan elkaar gerelateerd? § zijn bestandsnamen van digitale bestanden voorzien zijn van
correcte extensies?
§ VIAA: § bij ingest validatie bestandsnamen aan hand van registratiegevens in AMS
database § gebruik van PIDs (in elk VIAA-platform voor identificatie assets)
14
CONTROLE BESTANDSFORMAAT
§ zijn bestanden in gevraagde bestandsformaat aangeleverd? § dient systematisch en voor alle aangeleverde bestanden te
gebeuren § onderscheid tussen bestandsidentificatie en bestandsvalidatie § bestandsidentificatie: exact vaststellen van type en versie van
bestandsformaat van digitaal bestand, bv. DROID, EXIFTOOL, FITS § bestandsvalidatie: vaststellen of de inhoud en structuur van bestand
beantwoorden aan eisen gesteld in specificatie van bestandsformaat, bv. JHOVE2
§ bestandsvalidatie is niet evident omdat JHOVE2 niet altijd voldoet, ook afwijking tussen JHOVE2 v2.0 en JHOVE v2.1
15
CONTROLE BESTANDSFORMAAT
§ VIAA: § wel bestandsidentificatie maar geen bestandsvalidatie (JPLYZER,
FFPROBE en EXIFTOOL) § PACKED: bestandsvalidatie op ong. 12.000 TIFF-bestanden (JHOVE2:
Uncompressed Baseline IBM TIFF v6.0 RGB)
16
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § uitgangspunt is lastenboek § bepalen van exacte digitaliseringsparameters is specialistenwerk
> teruggrijpen naar bestaande richtlijnen, bv. Metamorfoze of FADGI
§ parameters hebben betrekking op bv. belichting, witbalans, opnameresolutie en scherpte
§ stellen technische kwaliteit vast waaraan opgeleverde reproducties moeten voldoen
§ technische controle na ontvangst: nagaan of minimale parameters werden gerespecteerd
17
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
18
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § VIAA: § lastenboek VIAA: Metamorfoze Light
> bepaalt reeks te meten waarden, maar ook gebruik testkaarten (welke en wanneer)
§ praktijk VIAA: Metamorfoze Extra Light, geen testkaart per individuele opname > wegknippen testkaart in raadplegingsbestand niet voorzien in workflow
§ kwaliteitscontrole op punt gesteld tijdens testfase § cruciaal: zowel meetwaarden afspreken als welke testkaarten moeten
worden gebruikt, wanneer en ook hoe ze te meten § Metamorfoze legt uit welke testkaarten hoe en wanneer te
gebruiken, hoe ze te meten en welke meetwaarden dit moet opleveren
19
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § gebruik testkaarten op drie momenten: § bij opstart project bij instellen van camera / scanner § bij begin van elke dag of ploegwissel om te verifiëren of camera /scanner
nog goed ingesteld staat § bij eigenlijke opname van originelen § (tijdens testfase controle van eerste; tijdens / na project tweede (en
eventueel derde))
§ twee types testkaarten: § testkaarten voor controleren witbalans, belichting, uitlichting,
contrastoverdracht en ruis: Digital ColorChecker SG, Kodak of Tiffen Gray Scale (Q-13), (egaal) wit stuk karton
§ testkaarten voor controleren van opnameresolutie, scherpte, verscherping en geometrische vervorming: QA-62-SFR-P-RP en de QA-2
20
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § benodigde software: Adobe Photoshop CC, Imcheck 3v8 en IQ
Analyzer V5.2.17 § enkel Imcheck is gratis open source sofware
§ controle: § witbalans § belichtingstolerantie § gain modulation (in de hoge lichten) § uitlichting § ruis § kleurnauwkeurigheid § gebruikte testkaarten: Digital ColorChecker SG en Kodak / Tiffen Gray
Scale (Q-13) en (egaal) wit stuk karton § gebruikte software: Adobe Photoshop CC, Imcheck 3v8 en IQ Analyzer
V5.2.17
21
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
22
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
23
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
24
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
25
Venster – info (F8) Pipet 11 x 11 pixels Vakjes aflopen – 2 onderste negeren, worden niet meegenomen voor Metamorfoze Light – met pipet in midden van vakje en RGB waarden in Excel invullen
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
26
Venster – histogram – uitgebreide weergave Selecteerraster Vakjes aflopen met selecteerraster en Standaard deviatie (Std. Deviatie) waarde in Excel invullen
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: § vereiste sampling rate § verschil tussen claimed sampling rate en obtained sampling rate § Sampling Efficiency, horizontaal en verticaal § MTF50, horizontaal en verticaal § maximale modulatie § kleurmisregistratie per kleurkanaal § gebruikte testkaarten: QA-62-SFR-P-RP en QA-2 § gebruikte software: Imcheck 3v8
27
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
28
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
29
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
30
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS
31
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § controle: § geometrische vervorming § gebruikte testkaarten: QA-2 § gebruikte software: Adobe Photoshop CC
§ controle: § andere artefacten § visuele inspectie
§ lessons learnt: § vereist medewerker die zich hierin bekwaamd § vereist veel tijd: ongeveer dag voor week productie § belangrijk: niet te wachten tot op einde van project, maar regelmatige
oplevering af te spreken en dan meteen te controleren
32
CONTROLE CONFORMITEIT DIGITALISERINGSPARAMETERS § more lessons learnt: § opdrachtnemer zelf verplichten tot kwaliteitscontrole en dwingen resultaten
samen met bestanden aan te leveren > maar er niet op vetrouwen! § indien testresultaat onbevredigend blijkt, volledige batch afkeuren § door controle worden schommelingen in kwaliteit beperkt / vermeden § afwijkende resultaten als andere softwareversies worden gebruikt § op voorhand afspreken wat referentiewaarden zijn: theoretische waarden
opgelijst in Metamorfoze, of waarden die fabrikant van testkaart meelevert? § belangrijk dat gebruikte testkaarten in goede staat zijn § opname testkaart per batch is louter indicatief voor kwaliteit individuele
opname § ook visuele inspectie van individuele opnamen vereist om bv. onscherpe
opname te detecteren § ook belangrijk om te verifiëren of opnamedatum van testkaart
welovereenkomt met die van opnamen: controle m.b.v. metadata van opnamedatum, gebruikte camera, …
33
CONTROLE METADATA
§ ingebed in bestand zelf § gecodeerd in UTF-8? consistent? volledig? § in lastenboek formuleren welke metadata ingebed moet zijn, bv. § inventarisnummer § copyright statement § model en merk gebruikte scanner of camera § tijdstip van creatie van bestand § diafragma en sluitertijd (indien van toepassing) § kleurprofiel § kleurruimte § sampling rate (pixels per inch) § lengte en breedte in pixels § bitdiepte
§ geautomatiseerd uitlezen met bv. FITS
34
CONTROLE METADATA
§ VIAA: § geen controle van ingebedde metadata § focus op PREMIS metadata in de METS XML § geen controle van overeenkomst tussen PREMIS metadata en ingebedde
metadata § SIP (submission information package) met zip bestaande uit o.a.
archiveringsbestanden, raadplegingsbestanden, OCR-tekstbestanden vergezeld van METS XML
§ METS XML bevat beschrijvende metadata, technische metadata en MD-5 van elke individuele reproducties, en structurele metadata
§ METS XML bevat ook informatie over verschillende stappen die tijdens proces doorlopen werden > volgens PREMIS-standaard: stelt in staat levenscyclus te volgen
§ METS XML met PREMIS metadata wordt gevalideerd aan hand van XSD (XML Schema Definition) > zekerheid dat alle velden correct zijn ingevuld.
35
CONTROLE KWALITEIT OCR
§ OCR: Optical Character Recognition § VIAA: § OCR-tekst met ALTO XML Schema opgenomen in METS XML § ALTO = Analyzed Layout and Text Object § ALTO XML-bestand bevat niet alleen OCR-tekst, maar ook gegevens over
waar precies verschillende stukjes OCR-tekst moeten worden weergeven om gestructureerde tekst van fysieke pagina’s te representeren
§ PACKED: steekproef uitgevoerd van vijftal testbestanden met ocrevalUAtion 1.3.0: vergelijking platte tekst uit XML met ‘ground-thruth-tekst’ § geschatte CER (character error rate) en WER (word error rate) voor
sample § beste afstemming tussen ‘ground-truth-tekst’ en OCR-tekst § gedetailleerde statistieken over aantal fouten voor elk karakter
36
CONTROLE KWALITEIT OCR
37
CONTROLE KWALITEIT OCR
38
CONTROLE KWALITEIT OCR
§ met Quack enkele controles gedaan van ALTO XML § Quack: open source programma om ALTO XML-bestanden weer te geven
en te controleren
39
CONTROLE KWALITEIT OCR
40
DANK U! Tuur Van Hove: [email protected]
Rony Vissers: [email protected]