Presentatie Regionaal DIV overleg Tilburg

45
De praktijk van het scannen In de praktijk loop je bij het scannen van documenten nogal eens tegen praktische problemen aan die je vooraf met de meeste fantasie niet kon voorzien. Voetangels, klemmen en praktische tips vanuit de praktijk. Door Leon van Oosterom cdia+, Directeur Elveo B.V. 1

description

Presentation on imaging file format standards in relation to dutch archival rules & regulations

Transcript of Presentatie Regionaal DIV overleg Tilburg

Page 1: Presentatie Regionaal DIV overleg Tilburg

De praktijk van het scannen In de praktijk loop je bij het scannen van documenten nogal eens tegen praktische problemen aan die je vooraf met de meeste fantasie niet kon voorzien. Voetangels, klemmen en praktische tips vanuit de praktijk.

Door Leon van Oosterom cdia+, Directeur Elveo B.V.

1

Page 2: Presentatie Regionaal DIV overleg Tilburg

2

Page 3: Presentatie Regionaal DIV overleg Tilburg

3

Rosetta Stone

Gedurende 1400 jaar ( tot 1799) was het de mensheid onmogelijk de Egyptische hiëroglyfen te lezen.

Rosetta stone:drie talen één gebeurtenis •Egyptische hiëroglyfen, •Demotisch schrift•Grieks.

‘Jean Francois Champollion’ vertaalde gedurende 14 jaar de betekenis van de hiëroglyfen.

Twee zaken dus van belang:

1.De duurzaamheid van de materialen waarop de Egyptische hiëroglyfen waren opgetekend

2.De mogelijkheid om die gegevens correct te interpreteren.

Page 4: Presentatie Regionaal DIV overleg Tilburg

4

Page 5: Presentatie Regionaal DIV overleg Tilburg

Beleidsregels voor digitale vervanging archiefbescheiden

13 februari 2008 Op 31 januari 2008 is de nieuwe, door het Nationaal

Archief ontwikkelde beleidsregel van kracht geworden. Hierin wordt het wettelijk kader vastgelegd voor archiefbescheiden die naar een rijksarchiefbewaarplaats zullen worden overgebracht, dus voor alle organen die behoren tot de centrale overheid en de provincies.

Namens de minister van Onderwijs, Cultuur en Wetenschap wordt voor de archiefbescheiden die zij willen vervangen een machtiging afgegeven door het Nationaal Archief.

5

Page 6: Presentatie Regionaal DIV overleg Tilburg

http://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/

6

ParametersVoor gedrukte tekst worden de volgende parameters gebruikt:- indien kleur relevant is1: 300dpi met bitdiepte 24;- indien grijstinten relevant zijn: 300 dpi met bitdiepte 8;- indien kleur en grijstinten niet relevant zijn: 300 dpi met bitdiepte 1.

1 Scanning geschiedt in kleur, tenzij scanning in zwartwit geen informatieverlies oplevert.

Page 7: Presentatie Regionaal DIV overleg Tilburg

Bestandsformaat A. Ten aanzien van het bestandsformaat wordt gebruik

gemaakt van zogenoemde open standaarden2.

B. Indien bij het scanproces gebruik wordt gemaakt van een tussenformaat, dan mag geen kwaliteitsverlies optreden bij de omzetting van het tussenformaat naar het uiteindelijke formaat3.

3 Een omzetting van TIFF als tussenformaat naar JPEG als eindformaat is ongewenst, omdat die omzetting gepaard gaat met kwaliteitsverlies.

7

Page 8: Presentatie Regionaal DIV overleg Tilburg

Volgens de archiefinspectie beperkt de genoemde richtlijn zich tot het Rijk en “on the fly substitutie” en niet bulkscanning. De overige overheden richten zich op de Provinciale Beleidsregels.

Deze hanteren alleen de kwaliteitsindex en géén absolute waarden en spreken zich niet uit over compressie

8

Page 9: Presentatie Regionaal DIV overleg Tilburg

Ruime omschrijving “conversie” Conversie = om- of overzetten in een

ander opslagformaat. Bijvoorbeeld MSWord naar PDF.

Is scanning conversie of substitutie, oftewel machtiging vereist of niet???

9

In afwachting van goedkeuring Europese commissie, ingang wellicht december 2009, januari 2010?

Page 10: Presentatie Regionaal DIV overleg Tilburg

Artikel 26. Algemene eisen aan opslagformaten voor digitale archiefbescheiden

1. Digitale archiefbescheiden worden, uiterlijk op het tijdstip van overbrenging, opgeslagen in een valideerbaar en volledig gedocumenteerd bestandsformaat dat voldoet aan een open standaard, tenzij dit redelijkerwijs niet van de zorgdrager kan worden verlangd. Alsdan vindt met de beheerder van de voor overbrenging aangewezen archiefbewaarplaats overleg plaats over een alternatief bestandsformaat.

2. Voor zover op het tijdstip van overbrenging gebruik wordt gemaakt van encryptietechniek, wordt aan de beheerder van de archiefbewaarplaats de bijbehorende decryptiesleutel verstrekt.

3. Gebruikmaking van compressietechniek is slechts toegestaan, voor zover daarbij niet zodanig verlies van informatie optreedt, dat niet langer aan de bij deze regeling gestelde eisen ten aanzien van de toegankelijke en geordende staat van digitale archiefbescheiden kan worden voldaan.

10

Page 11: Presentatie Regionaal DIV overleg Tilburg

Artikel 20. Toegankelijke staatDe zorgdrager zorgt ervoor dat het archiveringssysteem de toegankelijke

staat van archiefbescheiden waarborgt, zodanig dat elk van de archiefbescheiden binnen een redelijke termijn

a. kan worden gevonden1°. aan de hand van de daaraan gekoppelde metagegevens; of2°. door middel van een andere ontsluitingsmethode; en

b. leesbaar of waarneembaar te maken is.

11

Page 12: Presentatie Regionaal DIV overleg Tilburg

Niet langer wordt voorgeschreven welke resolutie gescan moet worden.

Niet langer wordt compressie per definitie verboden.

12

Page 13: Presentatie Regionaal DIV overleg Tilburg

13

één pagina A4 op 300 DPI 24 bits kleur levert een bestand op van 25 Mb.

één productiescanner genereert per dag 1 tot 1½ Terabyte

voor 100 meter archief is bijna 10 Terabyte geheugenruimte nodig (1 meter = 100 Gbyte)

Page 14: Presentatie Regionaal DIV overleg Tilburg

14

Kies voor een eenduidige archiveringsstrategie en wanneer dat digitaal is, kies voor een standaard en open formaat.Zie: OS_lijst_open_standaarden_voor_pas_toe_of_leg_uit[1].pdf

Leg de organisatie simpel te volgen regels op ten aanzien van kwaliteit en conformiteit.

Office formaten zijn géén archieveringsformaten, ook Open Document Formats niet (ODF).

Page 15: Presentatie Regionaal DIV overleg Tilburg

15

Een ander en veel belangrijker probleem van het ODF-formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen.

Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts.

Doordat fonts niet ingebed kunnen worden in het ODF-formaat, is een eenduidige weergave -op computers waar het betreffende font niet aanwezig is- onmogelijk.

Page 16: Presentatie Regionaal DIV overleg Tilburg

16

Hoeveel bit?

a) Bilevel

b) Greyscale

c) Indexed color

d) Full color

Hoeveel DPI?

a) 100 DPI

b) 200 DPI

c) 300 DPI

d) Meer?

Welke samenstelling

a) Single page

b) Multipage

c) Bookmarks

d) OCR

Welke format

a) tiff

b) jpg

c) PDF

d) PDF/A-1b

e) ODF ????Indexering

a) Document

b) Zone OCR

c) Tagged Metadata

Page 17: Presentatie Regionaal DIV overleg Tilburg

17

1. Document analyse

2. Stel output structuur en vorm vast

3. Bepaal scannersoort

4. Kies juiste aansturing scanner

5. Bepaal en richt het imaging proces in

6. Validatie

7. Logprocedures

Page 18: Presentatie Regionaal DIV overleg Tilburg

18

1. Imaging post processing1. Logdata scanoutput2. Image enhancement3. QC image kwaliteit4. Herkennen barcodes/patchcodes5. Structureren output6. Vastleggen Metatags

1. Data extractie door OCR2. Data Entry

7. Full tekst OCR8. Volledigheidscontrole9. Definitieve Output

Page 19: Presentatie Regionaal DIV overleg Tilburg

19

Tiff groep 4 (ITU4-6) Tiff uncompressed PNG JPEG JPEG-2000 (wavelet) JPEG-2000 lossless JBIG JPEG XR

Hoge kwaliteit compressie.alleen binair

Hoge kwaliteit, geen compressie

Hoge kwaliteit, 30:1 compressie Redelijke kwaliteit 40:1 compressie

Goede kwaliteit 90:1 compressie

Hoge kwaliteit, 4:1 compressie

Hoge kwaliteit 20-40:1 compr. binair/ grijs

Goede kwaliteit 90:1 compressie

En PDF dan?

Page 20: Presentatie Regionaal DIV overleg Tilburg

Het verschil tussen PDF en PDF/A wordt gevormd door dat wat moet en niet mag

PDF/A-1 files moeten opgebouwd zijn inclusief: • Embedded fonts • Device-independent color • XMP metadata   PDF/A-1 files mogen niet bevatten: • Encryptie • LZW Compressie • Embedded files • Externe content referenties • PDF Transparantie • Multi-media • JavaScript

20

Page 21: Presentatie Regionaal DIV overleg Tilburg

PDF/A-1a PDF/A-1b

21

Page 22: Presentatie Regionaal DIV overleg Tilburg

Per de versie 1.7 (8) is PDF ISO genormeerd onder nummer: ISO 32000-1

Quote: ISO Secretary-General Alan Bryden comments: “As an ISO standard,

we can ensure that this useful and widely popular format is easily available to all interested stakeholders. The standard will benefit both software developers and users by encouraging the propagation and dissemination of a common technology that cuts across systems and is designed for long term survival.”

22

Page 23: Presentatie Regionaal DIV overleg Tilburg

JPEG 2000 image compressie Meer geavanceerde digital signature

support OpenType fonts 3D graphics Audio/video content Consistentie met andere op PDF-

gebaseerde standaarden

23

Page 24: Presentatie Regionaal DIV overleg Tilburg

Met ingang van PDF/A-2 zal Jpeg2000 toegepast kunnen worden als compressie methode binnen PDF/A.

Lossless JPEG 2000 verminderd de data met een factor 2 tot 4 !!

Lossy JPEG 2000 vertoont substantieel minder compressiefouten ten opzichte van JPEG en comprimeert daardoor 2 x zo sterk

24

Page 25: Presentatie Regionaal DIV overleg Tilburg

Tussen het scanmoment en de daadwerkelijke vorming van een PDF/A bestand kan veel misgaan! PDF/A voorschriften. Metadatavelden (XMP tags) Resolutie en compresssie?

Validatiecriteria vast?

25

Page 26: Presentatie Regionaal DIV overleg Tilburg

26

Page 27: Presentatie Regionaal DIV overleg Tilburg

Een zorgvuldige validatie van de output op PDF/A 1b is aan te bevelen.

Verschillende leveranciers leveren daartoe tools: Adobe Apagao Callas Software AG PDF Tools AG Intarsys Seal Systems AG Solid Documents

27

Page 28: Presentatie Regionaal DIV overleg Tilburg

28

Quality Index :3 = nauwelijks leesbaar3.6 = marginaal5 = goed8 = uitstekend

Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.

Doelstelling is een goede kwaliteit binaire scan te maken (Q1=5). Gewenste resolutie wordt dan:

3x5 / 0,039 x 2mm= 15 / 0,078 = 192dpi (200 dpi)

De Quality Index gebruiken bij binair scannen:• dpi = 3QI / (.039h)• QI = dpi x .039h)/3• h = 3QI / (.039dpi)

Page 29: Presentatie Regionaal DIV overleg Tilburg

29

Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.

Doelstelling is een goede kwaliteit scan met 256 grijswaarden te maken. Gewenste resolutie wordt dan:

2x5 / 0,039 x 2mm= 10 / 0,078 = 128dpi (150 dpi)Quality Index :3 = nauwelijks leesbaar3.6 = marginaal5 = goed8 = uitstekend

De Quality Index gebruiken bij grijs of kleur scannen:• dpi = 2QI / (.039h)• QI = dpi x .039h)/2• h = 2QI / (.039dpi)

Page 30: Presentatie Regionaal DIV overleg Tilburg

30

1. Zwart wit scannen documenten; 300DPI

2. Kleur scannen documenten; 200DPI

3. Scannen t.b.v. OCR; 300DPI

4. Zwart wit scannen tekeningen; 200DPI

5. Scannen voor internet; 100DPI

6. Historische documenten; grijs of kleur

7. Zwakke documenten; grijs of kleur

Page 31: Presentatie Regionaal DIV overleg Tilburg

31

1 bit (21) = 2 kleuren8 bits (28) = 256 grijstonen24 bits (224) = 16,7 miljoen kleurtonen

Page 32: Presentatie Regionaal DIV overleg Tilburg

32

het menselijk oog kan van elk van de drie basiskleuren 256 helderheidgradaties onderscheiden, wat overeen komt met 16,7 miljoen kleuren.

Niet elke kleur geeft ook werkelijk nieuwe informatie door. Sommige kleuren kunnen samengevoegd worden, zonder dat dit echt opvalt. In de praktijk blijkt dat het menselijk oog maar ongeveer 16 helderheidsgradaties kan waarnemen.

Kleuren die op elkaar lijken krijgen dezelfde kleurwaarde en men spreekt in dit geval van redundante (lees onnodige) kleuren. Redundante kleuren spelen in de compressietechnieken uiteraard een belangrijke rol.

Page 33: Presentatie Regionaal DIV overleg Tilburg

33

Resolutie 300 DPIVolledig in kleur

Page 34: Presentatie Regionaal DIV overleg Tilburg

34

Tiff (25MB)

JPG2000

JPG 12

JPF 70

JPG 7

JPF 2 (500Kb)

Page 35: Presentatie Regionaal DIV overleg Tilburg

35

Page 36: Presentatie Regionaal DIV overleg Tilburg

GEVOELGEVOEL

36

Kleur in documenten geeft het gevoel terug dat ook in de originele vorm aanwezig is. Draagt daarmee zeer bij aan de authenticiteit

Page 37: Presentatie Regionaal DIV overleg Tilburg

GEVOELGEVOEL

37

Kleur in documenten geeft het gevoel terug dat ook in de originele vorm aanwezig is. Draagt daarmee zeer bij aan de authenticiteit

Page 38: Presentatie Regionaal DIV overleg Tilburg

38

Page 39: Presentatie Regionaal DIV overleg Tilburg

39

Page 40: Presentatie Regionaal DIV overleg Tilburg

40

Page 41: Presentatie Regionaal DIV overleg Tilburg

41

Page 42: Presentatie Regionaal DIV overleg Tilburg

42

Tiff 11,3Mb JPEG 1,2Mb

200 DPI

JPEG 2000 223Kb

Page 43: Presentatie Regionaal DIV overleg Tilburg

1. Alle informatie in één keer vastgelegd en is ook na opslag nog ruim te beïnvloeden (lees: verbeteren)

2. Geen of zeer weinig herscans.

3. Meer toepassingsmogelijkheden.

4. Beter leesbaar dus minder fouten.• Voor de mens (data-entry)• Voor software (OCR, barcode, patchcode)

5. Snellere werkvoorbereiding door kleurcodering

43

Page 44: Presentatie Regionaal DIV overleg Tilburg

44

Cornell Universityhttp://www.library.cornell.edu/preservation/tutorial/contents.html

TMSSequoiahttp://www.tmsinc.com

Adobehttp://blogs.adobe.com/insidepdf/ http://blogs.adobe.com/insidepdf/2009/01/digital_signatures_the_europea.htmlhttp://blogs.adobe.com/insidepdf/2009/01/digital_signatures_pdf.html

Diversenhttp://www.ArchiveBuilders.comhttp://www.jpeg2000info.com/http://www.isit.comhttp://www.kb.nl/coop/metamorfoze/home.htmlhttp://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/

Page 45: Presentatie Regionaal DIV overleg Tilburg

45