Richtlijn Bestandsformaten (PDF, 233 kB)

31
Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam Datum: 24 november 2008 Versie: 0.9 Status: geredigeerd concept

Transcript of Richtlijn Bestandsformaten (PDF, 233 kB)

Page 1: Richtlijn Bestandsformaten (PDF, 233 kB)

Richtlijn Bestandsformaten

voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern

Amsterdam Datum: 24 november 2008 Versie: 0.9 Status: geredigeerd concept

Page 2: Richtlijn Bestandsformaten (PDF, 233 kB)

1

Inhoudsopgave Inhoudsopgave ...................................................................................................................................1 Versiegeschiedenis.............................................................................................................................2 Management samenvatting .................................................................................................................3 Inleiding..............................................................................................................................................4

Doel en scope van dit document .....................................................................................................4 Opzet van dit document ..................................................................................................................4 Doelgroep.......................................................................................................................................4 Herzienstermijn van dit document ...................................................................................................4 Vervolgonderzoek...........................................................................................................................4

1. Afbakening......................................................................................................................................5 1.1 Uitsluiting documenttypen .........................................................................................................5 1.2 Digitale tekstdocumenten..........................................................................................................5 1.3 Wettelijk kader ..........................................................................................................................5 1.4 Actieplan Nederland Open in Verbinding ...................................................................................5 1.5 Advies Testbed Digitale Bewaring Nationaal Archief..................................................................6

2. De selectie van te beoordelen bestandsformaten ............................................................................7 2.1 Geselecteerde bestandsformaten..............................................................................................7 2.2 Toelichting ................................................................................................................................7

3. Beoordeling van bestandsformaten .................................................................................................9 3.1 Criteria voor lange termijn behoud en de File Format Assessment Method ................................9 3.2 Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method....10 3.3 Overwegingen digitaal geboren tekstdocumenten....................................................................12 3.4 Overwegingen gedigitaliseerde tekstdocumenten....................................................................13

3.4.1 Bestandsformaten met compressie ..................................................................................13 3.5 Achterwaartse compatibiliteit...................................................................................................14

4. Geselecteerde bestandsformaten voor opslag in het SAA E-depot ................................................15 4.1 Digitaal geboren tekstdocumenten ..........................................................................................15 4.2 Gedigitaliseerde tekstdocumentenl..........................................................................................15

5. Beschrijving geselecteerde bestanden ..........................................................................................16 5.1 Digitaal geboren tekstdocumenten ..........................................................................................16

5.1.1 PDF/A-1...........................................................................................................................16 5.1.2 PDF.................................................................................................................................17

5.2 Gedigitaliseerde tekstdocumenten...........................................................................................18 5.2.1 PDF/A-1...........................................................................................................................18 5.2.2 JPEG 2000 ......................................................................................................................18 5.2.3 TIFF 6.0...........................................................................................................................19 5.2.4 JPEG...............................................................................................................................20

6. Advies bestandsformaat per documentsoort ..................................................................................21 6.1 Digitaal geboren tekstdocumenten ..........................................................................................21 6.2 Gedigitaliseerde tekstdocumenten...........................................................................................21

7. Literatuur- en internetbronnenlijst ..................................................................................................23 8. Begrippenlijst ................................................................................................................................26 Bijlage 1 Wettelijk kader....................................................................................................................30

Page 3: Richtlijn Bestandsformaten (PDF, 233 kB)

2

Versiegeschiedenis Huidige versie 0.9 Versie Versie datum Belangrijkste wijzigingen 0.1 2008 • Auteur: Robèrt Gillesse 0.7 10 oktober 2008 • Bouwtekeningen vallen buiten scope

• Toevoegen versiegeschiedenis • Toevoegen managementsamenvatting • Toevoegen herzieningstermijn document • Toevoegen vervolgonderzoek • Toevoegen overwegingen selectie JPEG en JPEG 2000

lossy (paragraaf 3.4.1) • Toevoegen paragraaf 3.5 Achterwaartse compatibiliteit • Inperken begrippenlijst

0.8 1 november 2008 • ODF afvoeren als archiefformaat • Tekstuele verbeteringen

0.9 24 november 2008 • Geredigeerd • Migratieadvies van PDF naar PDF/A omgezet in het

afraden van migratie van PDF naar PDF/A

Page 4: Richtlijn Bestandsformaten (PDF, 233 kB)

3

Managementsamenvatting Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam. Op basis van het wettelijk kader, het Actieplan Nederland Open in Verbinding, de publicaties van het Testbed Digitale Bewaring en literatuuronderzoek, is een selectie gemaakt van bestandsformaten die in aanmerking zouden kunnen komen voor de langetermijnarchivering van digitale tekstdocumenten. Daarbij is er een duidelijk onderscheid gemaakt tussen digitaal geboren en gedigitaliseerde tekstdocumenten. De geselecteerde bestandsformaten zijn vervolgens beoordeeld met de door de Koninklijke Bibliotheek ontwikkelde File Format Assessment Method. Met behulp van deze methode kunnen bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnarchivering. Elk bestandsformaat krijg daarbij een score. Op basis van deze scores en nadere overwegingen zijn door het SAA de volgende bestandsformaten geselecteerd voor langetermijnarchivering: Digitaal geboren

• PDF/A-1a en 1b • PDF 1.7 (en eerdere versies)

Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Tekstdocumenten gecreëerd in het MS Word formaat of andere tekstformaten moeten worden gemigreerd naar PDF/A-1. Gedigitaliseerd van origineel Opslag in PDF ‘schil’:

• PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur)

• TIFF 6.0 uncompressed • TIFF 6.0 Group 4 • JPEG 2000 part 1 lossless of lossy • JPEG 1.02 (is lossy)

Het SAA heeft geen voorkeur voor enerzijds de opslag van digitaliseerde documenten in een PDF ‘schil’ en anderzijds als losse afbeeldingen. Beide methodes hebben voor- en nadelen (zie daarvoor paragraaf 3.4). Ook spreekt het SAA geen voorkeur uit voor ongecomprimeerde of gecomprimeerde opslag. In hoofdstuk 5 van deze richtlijn zijn deze bestandsformaten uitgebreid beschreven. In hoofdstuk 6 zijn er aanbevelingen gedaan voor bestandsformaten per digitaal geboren brondocument (MS Word, RTF, TXT, reguliere PDF). Ook is er een aanbeveling gedaan voor verschillende soorten gedigitaliseerde documenten.

Page 5: Richtlijn Bestandsformaten (PDF, 233 kB)

4

Inleiding Doel en scope van dit document Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam.

Opzet van dit document Dit document kent de volgende opzet:

1. Afbakening: welke documenttypen worden wel en niet behandeld, het wettelijk kader, het Actieplan Nederland Open in Verbinding en het advies van het Testbed Digitale Bewaring (van het Nationaal Archief)

2. Selectie van bestandsformaten die in aanmerking komen voor langetermijnarchivering op basis van het bovengeschetste kader

3. Beoordeling van deze bestandsformaten met behulp van File Format Assessment Method (elk bestandsformaat krijgt een score die de geschiktheid voor langetermijnarchivering aangeeft) en overwegingen aangaande de scores

4. Definitieve lijst van de voor lange termijn geselecteerde bestandsformaten 5. Een korte en praktische beschrijving van de voor lange termijn geselecteerde formaten 6. Een advies welk bestandsformaat voor welke documentsoort te gebruiken 7. Een literatuur- en internetbronnenlijst 8. Een begrippenlijst waarin de belangrijkste begrippen worden gedefinieerd

Doelgroep Managementniveau: informatiemanagers, hoofden DIV en/of hoofden I&A binnen het concern Amsterdam.

Herzieningstermijn van dit document Gezien de snelle wijzigingen op technisch vlak en de nog vigerende situatie op wetgevend gebied, zal dit document op regelmatige basis moeten worden aangepast. De eerste update van dit document zal naar verwachting een half jaar na publicatie plaatsvinden (zomer 2009).

Gerelateerde documenten Aanbevelingen migratie naar PDF/A ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Aanbevelingen voor digitalisering van tekstdocumenten SAA ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Stadsarchief Amsterdam. Standaard metadata voor digitaal informatiebeheer. Stadsarchief Amsterdam 2008.

Vervolgonderzoek Op deze richtlijn zullen op korte termijn (begin 2009) twee publicaties volgen:

• Aanbevelingen voor digitalisering van tekstdocumenten • Aanbevelingen voor migratie naar PDF/A

Page 6: Richtlijn Bestandsformaten (PDF, 233 kB)

5

1. Afbakening 1.1 Uitsluiting documenttypen Deze richtlijn is gericht op bestandsformaten die geschikt zijn om digitale tekstdocumenten duurzaam toegankelijk te houden. Het gaat daarbij om documenten die zijn gecreëerd met tekstverwerkingssoftware. Buiten beschouwing gelaten zijn:

• Gedigitaliseerde foto’s, schilderijen, prenten, 3D objecten, bouwtekeningen, bewegend beeld en geluid

• Digitaal geboren foto’s, CAD/CAM bestanden, bewegend beeld en geluid, presentaties, rekenbladen (spreadsheets), databases en e-mail1.

• Niet of ten dele ‘kantoorgebonden’ tekstdocumenten als HTML en XML. • Niet of nauwelijks gebruikte of sterk verouderde tekstverwerkingsbestanden.

Deze documentsoorten zullen in volgende publicaties worden behandeld.

1.2 Digitale tekstdocumenten Digitale tekstdocumenten zijn er in twee varianten:

1. Tekst die digitaal is gecreëerd (digitaal geboren) in tekstverwerkingssoftware. 2. Tekst die is gedigitaliseerd van een papieren origineel. Dit kan door het document

(fotografisch) om te zetten naar een digitaal rasterbeeld, of de tekst over te zetten (overtypen) naar een door een machine leesbare tekst. In het laatste geval zal de opmaak van het originele formaat (grotendeels) verloren gaan. In de archiefcontext zal daarom meestal worden gekozen voor het scannen van documenten, al dan niet in combinatie met optische tekenherkenning (OCR) en/of metadata-invoer. Deze richtlijn gaat daarom uit van gescande of digitaal gefotografeerde documenten.

Deze richtlijn adviseert over beide soorten tekstdocumenten.

1.3 Wettelijk kader Het wettelijke kader wordt bepaald door drie documenten:

1. Artikel 6 van de ministeriële regeling Geordende en toegankelijke staat archiefbescheiden (2002). Deze regeling wordt momenteel herzien.

2. Artikel 25 van het concept van de nieuwe ministeriële regeling, gebaseerd op de evaluatiecommissie (augustus 2008) die de regeling uit 2002 heeft beoordeeld.

3. De LOPAI ED3 norm (mei 2008): Eisen Duurzaam Digitaal Depot. Zie bijlage 1 voor de complete tekst van de genoemde artikelen.

1.4 Actieplan Nederland Open in Verbinding Recente ontwikkelingen binnen de Nederlandse overheid en politiek zijn sterk gericht op het bereiken van interoperabiliteit binnen de ICT infrastructuur van de overheid door de toepassing van open standaarden (OS) en open source software (OSS). Het Actieplan en programmabureau Nederland Open in Verbinding (NOiV) van Economische Zaken uit september 2007 is daarvan het belangrijkste resultaat2.

1 Een e-mail client genereert natuurlijk wel tekstdocumenten. Het probleem van binaire bijlagen (afbeeldingen, spreadsheets, MS Word documenten etc.) maakt echter verder onderzoek naar de lange termijnbewaring van e-mail noodzakelijk. 2 Het programma Nederland Open in Verbinding (NOiV) informeert overheidsorganisaties over de mogelijkheden van open standaarden (OS) en open source software (OSS) en stimuleert hen deze waar mogelijk toe te passen in hun informatiesystemen. NOiV is de opvolger van het programma OSSOS en wordt uitgevoerd door Stichting ICTU (http://www.ictu.nl) die ICT projecten van de overheid ondersteunt. Het College en Forum Standaardisatie (http://www.forumstandaardisatie.nl/) is een ander belangrijk adviesorgaan op het gebied van open standaarden. Dit is op zijn beurt onderdeel van GBO.Overheid (http://gbo.overheid.nl/), dat als doel heeft overheidbreed ICT toepassingen te beheren en verder te ontwikkelen.

Page 7: Richtlijn Bestandsformaten (PDF, 233 kB)

6

Een belangrijk onderdeel van het actieplan is de invoering van ODF (Open Document Format) voor het lezen, schrijven en uitwisselen van documenten (actielijn 6)3. Het ODF formaat bevat alle gangbare Office mogelijkheden: dus naast tekstverwerking (file extensie .odt) is zijn er ook mogelijkheden voor rekenbladen (.ods), tekenen (.odg) en presentaties (.odp) aanwezig. Naar aanleiding van het Actieplan is het Forum Standaardisatie gekomen met een basislijst van open standaarden. Daar is voor tekstdocumenten, naast ODF voor uitwisseling van reviseerbare documenten, PDF-A-1a geselecteerd als formaat voor langetermijnarchivering. De Amsterdamse vertaling van het Actieplan is te vinden in het project Open.Amsterdam4.

1.5 Advies Testbed Digitale Bewaring Het Nationaal Archief (NA) heeft in 2003 de publicatie Testbed digitale bewaring, van vluchtigheid naar digitaal houvast, bewaren van tekstdocumenten uitgegeven. De hierin geschetste strategie voor langetermijnbehoud (langer dan 10 jaar), beschouwt migratie niet als een veilige methode. Migratie (in een of meerdere migratieslagen) zal over een dermate lange periode onherroepelijk leiden tot verlies aan informatie. Het gaat er dus om een bestandsformaat te kiezen dat de essentiële eigenschappen van een tekstdocument op de lange termijn kan representeren. Het NA adviseert, naast het bewaren van het originele document in de originele staat (dat zal meestal MS Word zijn), het document te bewaren in XML (structuur) en/of PDF (opmaak). XML wordt daarbij alleen aangeraden wanneer de documenten expliciet van opmaak en structuur zijn voorzien.

3 Ministerie van Economische Zaken Actielijn 6 ODF-invoering. Toelichting op het Actieplan Nederland Open in Verbinding http://www.ez.nl/Onderwerpen/Betrouwbare_telecom/Open_Standaarden_en_Open_Source_Software/Berichten_en_documenten/Actielijn_6_ODF_invoering_Toelichting_op_het_actieplan_Nederland_Open_in_Verbinding 4 Project Open.Amsterdam: http://amsterdam.nl/gemeente/open_amsterdam

Page 8: Richtlijn Bestandsformaten (PDF, 233 kB)

7

2. De selectie van te beoordelen bestandsformaten 2.1 Geselecteerde bestandsformaten Op basis van bovenstaande kaders en literatuuronderzoek heeft SAA de volgende bestandsformaten geselecteerd voor beoordeelding op geschiktheid voor duurzame opslag en toegankelijkheid: Digitaal geboren tekstdocumenten

• PDF 1.7 (ISO 32000) • PDF/A-1 (ISO 19005) • MS Word 97-2007 • ODF (versies 1.0 – ISO 26300:2006, 1.1, 1.2)

Gedigitaliseerde tekstdocumenten

• PDF 1.7 (ISO 32000) • PDF/A-1 (ISO 19005) • Baseline TIFF 6.0 Uncompressed • Baseline TIFF 6.0 met Group 4 • Baseline TIFF 6.0 met LZW compressie • Basic JFIF (JPEG) 1.02 • PNG 1.2 (ISO 15948) • JPEG 2000 part 1 (ISO 15444-1) • JPEG 2000 part 6 (ISO 15444-6)

2.2 Toelichting Uit het wettelijk kader (ministeriële regeling 2002) is op te maken dat voor digitaal geboren tekstdocumenten PDF of XML kan worden gebruikt en voor gedigitaliseerd materiaal TIFF of PDF. Wanneer dit kader wordt vertaald naar 2008 ligt het gebruik van PDF/A-1 (de archiefvariant van PDF uit 2005) en ODF (open XML bestandsformaat voor office documenten uit 2006) voor de hand. Uit de conceptherziening van deze regeling (augustus 2008) kunnen de volgende eisen worden opgemaakt: -gedocumenteerd open formaat -verbod op encryptie -verantwoord toepassen van compressie (zonder informatieverlies). Er worden geen specifieke bestandsformaten meer voorgeschreven. Uit het Actieplan Nederland Open in Verbinding en de daarmee verbonden (conceptuele) basislijst van open standaarden van het Forum Standaardisatie, wordt ODF gezien als een bestandsformaat voor ‘uitwisseling van reviseerbare documenten’ en PDF/A-1 als een formaat voor langetermijnarchivering. ODF wordt hierin dus niet gezien als een geschikt archiefformaat. De reden hiervoor is hoogstwaarschijnlijk dat dit bestand eenvoudig is te wijzigen en daarmee de authenticiteit van het document gevaar kan lopen. Echter, ook een PDF kan – met enige moeite – worden aangepast. Het is de vraag of de kwestie van authenticiteit op het niveau van het bestandsformaat moet worden gelegd. Een alternatief zou kunnen zijn om het advies van het Testbed digitale bewaring van het Nationaal Archief (uit 2003) toe passen: het bewaren van het bestand in XML en PDF (naast het originele formaat). Vertaald naar 2008 zou dat dan betekenen dat het bestand zowel in ODF als PDF/A-1 wordt bewaard. ODF zal daarom toch ook in de beoordeling voor langetermijnarchivering worden meegenomen. Wat in de basislijst van het Forum Standaardisatie ontbreekt, zijn de bestandsformaten voor gedigitaliseerde tekstdocumenten. Naast het voor de hand liggende PDF(/A) formaat, waarin de digitale afbeeldingen in het geval van gedigitaliseerde documenten op de juiste volgorde zijn opgenomen, kunnen gescande tekstdocumenten ook als losse rasterafbeeldingen worden opgeslagen. De documentstructuur wordt hierbij in de metadata5 vastgelegd (dit gebeurt bijvoorbeeld

5 Eventuele standaarden die daarvoor gebruikt kunnen worden zijn MPEG21/DIDL en METS.

Page 9: Richtlijn Bestandsformaten (PDF, 233 kB)

8

in de SAA Archiefbank). Het is daarom noodzakelijk dat ook de belangrijkste afbeeldingsformaten worden beoordeeld. De onderstaande selectie van bestanden is gemaakt op basis van de SAA publicatie M. Holtman e.a., Digitalisering ontrafeld en de KB publicatie R. Gillesse en J. Rog, Alternative File Formats for Storing Master Images of Digitisation Projects: TIFF uncompressed, TIFF LZW, TIFF Group 4, JPEG, JPEG 2000 part 1 (lossless en lossy) en part 6 en PNG. Uit de geraadpleegde literatuur en internetbronnen kunnen nog een aantal dingen worden opgemaakt: Een alternatief voor ODF is het Open Office XML (OOXML) van Microsoft dat in 2008, weliswaar na heftige strubbelingen, ISO is genormeerd (ISO 29500). Op moment van dit schrijven zijn de laatste protesten tegen de ISO normering verworpen en kan de standaard (meer dan 6000 pagina’s!) binnenkort worden gepubliceerd. Rekening houdend met de nog omstreden status van OOXML (met name in het vrij gebruiken van patenten en de werkelijke openheid van het formaat) en het feit dat de norm nog niet is gepubliceerd (en het .docx formaat dat nu door Office 2007 wordt gebruikt nog niet voldoet aan de ISO norm) maken dat het formaat in deze beoordeling niet zal worden meegenomen. Ook een moeilijk geval is het Microsoft Office Word bestandsformaat. Voorheen was dit een gesloten formaat, en voldeed in die zin op geen enkele zin aan de wens van openheid, maar dit lijkt per februari 2008 verleden tijd. Vallend onder de Open Specification Promise van Microsoft zijn de specificaties van het MS Word bestandsformaat beschikbaar gekomen.6 De precieze consequenties voor de langetermijnbewaring van deze nieuwe openheid zijn op dit moment lastig te overzien. Ook lijkt de Open Specification Promise van Microsoft in sommige kringen omstreden. Toch zal ondanks deze onduidelijkheid het MS Word formaat wel worden meegenomen in deze beoordeling. Een andere recente ontwikkeling die van belang is voor deze selectie is de ISO (ISO 32000) normering van het reguliere PDF 1.7 formaat (sinds februari 2008). Daarmee is ook het normale PDF formaat een open standaard geworden en zal het PDF 1.7 formaat dus ook worden beoordeeld.

6 IT bedrijven als SUN en IBM hebben ook Open Specification Promises uitgebracht.

Page 10: Richtlijn Bestandsformaten (PDF, 233 kB)

9

3. Beoordeling van bestandsformaten 3.1 Criteria voor lange termijn behoud en de File Format Assessment Method Om bestandsformaten te kunnen beoordelen op hun geschiktheid voor langetermijnbehoud zijn er zeven, internationaal algemeen aanvaarde criteria ontwikkeld:7

1. Openness 2. Adoption 3. Complexity 4. Technical Protection Mechanism 5. Self-documentation 6. Robustness 7. Dependencies

Met behulp van de File Format Assessment Method kunnen op basis van de bovenstaande criteria bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnbehoud. Deze methode is ontwikkeld door de Koninklijke Bibliotheek (KB). De methode is uitgebreid beschreven in het door Van Wijk en Rog geschreven artikel Evaluating File Formats for Long-term Preservation.8 In het kort komt de methode er op neer dat er een weging plaatsvindt van de bovenstaande zeven criteria. Elk criterium is opgedeeld in een aantal subcriteria (characteristics). Zo is bijvoorbeeld het criterium Openness onderverdeeld in drie subcriteria: Standardisation, Restrictions on the interpretation of the file format en Reader with freely available source. Aan elk van deze subcriteria is een score verbonden en een gewicht. De mogelijke scores staan beschreven in het hierboven genoemde artikel Evaluating File Formats for Long-term Preservation. De scores voor het subcriterium Standardisation zijn bijvoorbeeld:

De gewichten die aan de subcriteria zijn verbonden kunnen aan de eigen langetermijnstrategie van een instituut worden aangepast. In deze beoordeling van de bestandsformaten door het SAA worden de door de KB toegekende gewichten grotendeels aangehouden. De enige wijziging is het gewicht voor compressie dat stond op 6 en is veranderd in 3. Het SAA ziet compressie, mits gebaseerd op een open standaard, als minder groot probleem voor langetermijnarchivering. Uiteindelijk krijgt het beoordeeld bestandsformaat een totale score (absoluut en procentueel). Voor de betekenis en achtergrond van de in de File Format Assessment Method gebruikte begrippen wordt verwezen naar het artikel van Rog en Van Wijk.

7 Caroline van Wijk, Judith Rog, Evaluating File Formats for Long-term Preservation, p. 2. http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_27022008.pdf 8 Ibidem.

Score mogelijkheden Scores De jure standard 2 De facto standard, specifications made available by independent organisation

1,5

De facto standard, specifications made available by manufacturer only

1

De facto standard, closed specifications

0,5

No standard 0

Page 11: Richtlijn Bestandsformaten (PDF, 233 kB)

10

3.2 Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method De File Format Assessment Method scores van de geselecteerde bestandsformaten zijn als volgt: Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group

4 Basic JFIF (JPEG) 1.02

JPEG-2000 Part 1 lossy compressed

JPEG-2000 Part 1 lossless compressed

JPM (JPEG-2000 Part 6)

PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word 97-2007

Weight Score Total Score Total Score

Total Score Total Score Total Score Total Score Tot al Score Total Score Total Score Total Score Total Score Total

Openness 3

Standardisation 9 1 3 1 3 1 3 1,5 4,5 2 6 2 6 2 6 2 6 2 6 2 6 2 6 1 3

Restrictons on the interpretation of the file format

9 2 6 1 3 2 6 1 3 1 3 1 3 1 3 2 6 2 6 2 6 2 6 1 3

Reader with freely available source

7 2 4,7 2 4,7 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3

Adoption 2

World wide usage 4 1 2 1 2 1 2 2 4 1 2 1 2 0 0 1 2 2 4 2 4 1 2 2 4

Usage in the cultural heritage sector as archival format

7 2 7 0 0 2 7 0 0 0 0 1 3,5 0 0 1 3,5 2 7 2 7 1 3,5 0 0

Complexity 3

Human readability 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 0 0

Compression 3 2 2 1 1 1 1 0 0 0 0 1 1 0 0 1 1 2 2 2 2 1 1 0 0

Variety of functions 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0

Technical Protection Mechanism (DRM)

5

Password protection

3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 1 0,6 1 0,6

Copy protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6

Digital signature 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6

Printing protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 2 1,2

Content extraction protection

3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2

Self-documentation 2

Metadata 1 2 1 2 2 2 1 1 0,5 2 1 2 1 2 1 1 0,5 2 1 2 1 2 1 2 1

Technical description of format embeddeded

1 1 0,5 1 1 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0,5 0 0

Robustness 5

Format should be robust against single point of failure

2 1 0,4 0 0 0 0 1 0,4 2 0,8 2 0,8 2 0,8 1 0,4 0 0 0 0 1 0,4 0 0

File corruption detection

2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

File format stability 2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 1 0,4 1 0,4

Backward compatibilty

2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8

Forward compatibilty

2 2 0,8 2 0,8 2 0,8 0 0 0 0 0 0 0 0 0 0 1 0,4 1 0,4 1 0,4 0 0

Page 12: Richtlijn Bestandsformaten (PDF, 233 kB)

11

Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group 4

Basic JFIF (JPEG) 1.02

JPEG-2000 Part 1 lossy compressed

JPEG-2000 Part 1 lossless compressed

JPM (JPEG-2000 Part 6)

PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word 97-2007

Dependencies 4

Not dependent on specific hardware

8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2

Not dependent on specific operating systems

8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 0 0

Not dependent on one specific reader

8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2

Not dependent on other external resources (font + codecs)

8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2 2 4

Max Score 61,66666667 52 42 51 42 42 47 38 49 57 53 48 27

Percentage of 100 84 68 82 68 68 75 61 79 92 85 78 43

Page 13: Richtlijn Bestandsformaten (PDF, 233 kB)

12

Dit levert de volgende scorelijsten op: Digitaal geboren tekstdocumenten Rang Formaat Score 1 PDF/A-1 92 2 PDF 1.7 86 3 ODF 1.0 78 4 MS Word 97-2007 43

Gedigitaliseerde tekstdocumenten Rang Formaat Score 1 PDF/A-1 92 2 PDF 1.7 86 3 TIFF Uncompressed 84 4 TIFF Group 4 compressie 82 5 PNG 79 6 JPEG 2000 Part 1 Lossless compression 76

7 JPEG 68 8 JPEG 2000 part 1 Lossy compression 68 9 TIFF LZW 68 10 JPEG 2000 Part 6 61

PDF(/A) komt in beide lijsten voor omdat dit bestandsformaat zowel digitaal geboren tekstbestanden als gedigitaliseerde tekstbestanden kan bevatten.

3.3 Overwegingen digitaal geboren tekstdocumenten Uit de scorelijsten kan opgemaakt worden dat PDF/A als bestandsformaat verreweg het meest geschikt is voor lange termijnopslag van digitaal geboren materiaal. Het reguliere PDF formaat scoort lager, vanwege de vele gebruiksmogelijkheden van het bestand en de daardoor verhoogde complexiteit. Ook een belangrijk nadeel voor langetermijnarchivering en toegankelijkheid zijn de verschillende beveiligingsmogelijkheden van het reguliere PDF formaat. Het SAA spreekt daarom een sterke voorkeur uit voor het PDF/A formaat. Het reguliere PDF formaat wordt bij voorkeur alleen gebruikt wanneer PDF/A te weinig functionaliteit biedt om essentiële informatie uit het brondocument te kunnen weergeven. Het op XML gebaseerde ODF bestandsformaat scoort ook relatief hoog. Het verschil met PDF zit met name in het adoptie (adoption) criterium: het gebruik van het jonge ODF bestandsformaat is zowel wereldwijd als in de culturele erfgoed sector nog (relatief) gering. Vanuit de overheid is een sterke voorkeur ontstaan voor het gebruik van PDF/A als exclusief archiefformaat. ODF wordt in deze visie slechts als bestand gebruikt op het moment dat het document nog in bewerking is. Het is echter de vraag of deze visie niet te beperkt is. Het gevaar dat een bestand kan worden aangepast is, wanneer het eenmaal is opgeslagen in een duurzaam digitaal depot, immers afwezig. Een ander, en veel belangrijker probleem van het ODF formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen. Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts. Doordat fonts niet geïmplanteerd kunnen worden in het ODF formaat, is een eenduidige weergave onmogelijk op computers waar het betreffende font niet aanwezig is. Het probleem van een niet eenduidige documentweergave is voor overheidspublicaties natuurlijk onaanvaardbaar. ODF zal daarom niet worden geselecteerd als een geschikt formaat voor langetermijnarchivering. Langetermijnopslag van het MS Word bestand wordt gezien de lage score in de File Format Assessment Method ontraden. Al is het formaat niet langer gesloten, er zijn nog altijd beperkingen in

Page 14: Richtlijn Bestandsformaten (PDF, 233 kB)

13

verband met patenten. Daarnaast is de complexiteit van het formaat hoog, heeft het formaat veel mogelijkheden tot beveiliging (o.a. wachtwoord, kopieerbeveiliging) en is het gebruik als archiefformaat in de culturele erfgoedwereld zeer gering.

3.4 Overwegingen gedigitaliseerde tekstdocumenten Voor gedigitaliseerd materiaal scoort PDF(/A) ook het hoogste. Toch is PDF zeker niet altijd het meest aangewezen formaat als het gaat om de opslag van gedigitaliseerd tekstmateriaal. Zoals in het bovenstaande al is aangegeven kunnen tekstdocumenten ook als losse rasterafbeeldingen zijn opgeslagen, waarbij de documentstructuur in de metadata is vastgelegd. Het voordeel daarvan is dat de bestanden in het originele rasterformaat (bijvoorbeeld TIFF of JPEG) worden opgeslagen. Wanneer er om de, van origine, digitale beelden een PDF ‘schil’ wordt aangebracht, dan wordt daarmee een extra laag van complexiteit aangebracht. Dit is een duidelijk nadeel voor langetermijnarchivering. Een ander nadeel van de opname van afbeeldingen in een PDF schil is dat de PDF bestanden al snel vrij groot worden. Zeker wanneer de documenten grijswaarden of kleur bevatten of groter zijn dan A4. Er zijn echter wel weer mogelijkheden om de afbeeldingen binnen het PDF bestand te downsamplen (verlagen van de resolutie) en/of te comprimeren (zie onderstaande overzicht voor de verschillende mogelijkheden). Compressie doet echter de complexiteit van het bestand alleen maar toenemen en het te gretig toepassen van downsampling en/of compressie kan de informatieoverdracht van het document in de weg staan. Het nadeel van opslag van documenten als losse afbeeldingen, is dat ook de metadata die de structuur van het document bepalen duurzaam moet worden bewaard en aan de afbeeldingen gekoppeld moet blijven. Dit is natuurlijk het grote pré van het gebruik van PDF(/A): de structuur van het document zit ingebakken in het PDF bestand.9 Met betrekking tot de digitale duurzaamheid van gedigitaliseerde tekstdocumenten lijkt er dus sprake te zijn van het kiezen tussen twee “kwaden”: Opnemen van afbeeldingen in een PDF schil:

• Verhoogt de complexiteit van het te archiveren formaat • Kan een bestand erg zwaar maken

Opslaan van aparte afbeeldingen: • Maakt het noodzakelijk de metadata die de structuur bepalen ook duurzaam op te slaan • Maakt het noodzakelijk meer objecten te beheren

Het SAA kan op dit moment geen duidelijke voorkeur uitspreken voor één van de twee methodes. Er zal van geval tot geval moeten worden gekeken wat de doorslag geeft. Functionele eisen (bepaald door de archiefvormende dienst) zullen daarbij een belangrijke rol spelen.

3.4.1 Bestandsformaten met compressie Wanneer er wordt gekozen voor de opslag van losse afbeeldingen speelt er nog de keuze voor het al dan niet toepassen van lossless of lossy compressie.10 Afhankelijk van de functionele en kwalitatieve eisen en beschikbare opslagruimte zijn er serieuze alternatieven voor ongecomprimeerde afbeeldingen (alleen het TIFF uncompressed formaat is hiervoor geselecteerd) beschikbaar. Voor lossless compressie:

• JPEG 2000 part 1 lossless • PNG • TIFF 6.0 LZW • TIFF 6.0 Group 4 (lossless compressie van bitonale scans)

Voor lossy compressie: • JPEG 2000 part 1 lossy en part 6 • JPEG

9 Dit kan echter ook een nadeel blijken, wanneer op enig moment blijkt dat de volgorde niet klopt. 10 Lossless compressie betekent dat het bestand gecomprimeerd is zonder enig verlies van informatie. Bij lossy compressie gaat wel informatie verloren. De hoeveelheid compressie is vaak instelbaar. Door de hoeveelheid compressie in beperkte mate toe te passen, ontstaan vaak afbeeldingen die niet of nauwelijks van het ongecomprimeerde bestand zijn te onderscheiden (visual lossless). Lossy compressie levert veel meer opslagwinst op dan lossless compressie.

Page 15: Richtlijn Bestandsformaten (PDF, 233 kB)

14

TIFF LZW scoort relatief laag door de nog altijd onzekere situatie rondom de patenten van het LZW compressieformaat en het geringe gebruik van het formaat. Gebruik van TIFF LZW als lange termijn opslagformaat is daarom niet verstandig en niet geselecteerd voor duurzame opslag. JPEG 2000 part 6 scoort ook laag door onduidelijkheden rondom de patenten van deze compressietechniek en het eveneens geringe gebruik, ook al is dit voor een relatief nieuw formaat logisch. JPEG 2000 part 6 zal daarom voorlopig niet als lange termijn opslagformaat worden geselecteerd. JPEG 2000 part 1 lossless en PNG (is standaard lossless) hebben bijna een gelijke score (respectievelijk 76 en 79%). Het verschil zit in het geheel vrij zijn van patenten van het PNG formaat en enige, weinig risicovolle, restricties daarop in het JPEG 2000 formaat. Om het aantal geselecteerde bestanden enigszins in te perken is er, ondanks de hogere score van het PNG formaat, toch gekozen voor het JPEG 2000 part 1 lossless formaat. De voornaamste reden hiervoor is dat grote culturele instellingen wereldwijd beginnen JPEG 2000 te ondersteunen als archief formaat. PNG wordt daarentegen gering gebruikt. Daarbij heeft het JPEG 2000 formaat grote functionele voordelen, bijvoorbeeld multiresolutie, en gebruikt het een efficiëntere compressiemethode. Het JPEG formaat zal ondanks de relatief lage score toch worden geselecteerd voor duurzame opslag. Dit ligt vooral in de enorme verspreiding van dit bestandsformaat, de efficiënte compressietechniek en het feit dat het SAA zelf zijn digitale masters van gedigitaliseerd materiaal grotendeels opslaat in het JPEG formaat. Ook het eveneens relatief laag scorende JPEG 2000 lossy formaat zal worden geselecteerd voor opname in het E-depot. De reden hiervoor ligt in de bovengenoemde functionele voordelen en het gebruik van een verbeterde compressiemethode ten opzichte van JPEG.

3.5 Achterwaartse compatibiliteit In de File Format Assessment Method is een subcriterium Backward Compatibility opgenomen. Dat betekent dat oudere versies van het bestandsformaat altijd uitwisselbaar zullen blijven ten opzichte van een nieuwere versie. Alle geselecteerde bestandsformaten scoren hierin goed. Dat betekent dat ondanks veranderingen die de komende jaren ongetwijfeld zullen gaan plaatsvinden in een formaat als PDF/A, er geen reden is om de bestanden die in een oudere versie van dit bestandsformaat zijn opgeslagen te migreren naar een nieuwere versie.

Page 16: Richtlijn Bestandsformaten (PDF, 233 kB)

15

4. Geselecteerde bestandsformaten voor opslag in het SAA E-depot Op basis van de bovenstaande beoordeling en overwegingen zijn de volgende bestandsformaten geselecteerd voor opname in het SAA E-depot:

4.1 Digitaal geboren tekstdocumenten

• PDF/A-1a of 1b11 • PDF 1.7 (en eerder versies)

Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Zie voor de beperkingen van PDF/A-1 de onderstaande beschrijving.

4.2 Gedigitaliseerde tekstdocumenten Opslag in PDF schil:

• PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur)

• TIFF 6.0 uncompressed • TIFF 6.0 Group 4 • JPEG 2000 part 1 lossless of lossy • JPEG 1.02 (is lossy)

De beperkingen van het PDF/A bestand zullen voor gedigitaliseerde documenten geen problemen opleveren. Het reguliere PDF bestand wordt daarom voor digitaliseerde documenten afgeraden.

11 Zie voor het verschil tussen PDF/A-1a en 1b onderstaande paragraaf 5.1.1.

Page 17: Richtlijn Bestandsformaten (PDF, 233 kB)

16

5. Beschrijving geselecteerde bestanden In het onderstaande overzicht worden de geselecteerde bestanden beschreven op basis van duurzaamheid en functionaliteit.

5.1 Digitaal geboren tekstdocumenten

5.1.1 PDF/A-1 Naam (PDF/A-1) Portable File Format for Archiving Versie en standaardisering

Subset van het reguliere PDF formaat. Gebaseerd op PDF 1.4 en PDF/X-3. ISO norm 19005-1:2005. Een nieuwe versie is in de maak PDF/A-2 (ISO 19005-2).12

Omschrijving Bestandsformaat ontworpen voor langetermijnarchivering van elektronische tekstdocumenten, inclusief raster, vector en “andere data”. In tegenstelling tot het reguliere PDF formaat kent PDF/A-1 een aantal restricties waardoor het formaat minder complex wordt en zodoende eenvoudiger te bewaren. Doel van PDF/A-1 is:

• Onafhankelijk zijn van hard- en software (kan onafhankelijk van hard- of softwareplatform betrouwbaar en consistent worden weergegeven)

• Self-contained zijn (bevat alle bronnen, met name fonts, om betrouwbare weergave mogelijk te maken)

• Zelfbeschrijvend zijn (bevat eigen beschrijving) Er zijn twee conformance levels mogelijk:

1. PDF/A-1a: Voldoet aan volledige eisen van de standaard. De tekst is naast correcte weergave ook doorzoekbaar (tekst is gecodeerd als Unicode). De logische structuur (koppen, paragrafen etc) van tekst zijn bewaard. Ook wel ‘tagged PDF’.

2. PDF/A-1b: Voldoet aan minimale eisen van de standaard. Tekst (en andere content) worden correct weergegeven maar de tekst is soms niet doorzoekbaar. Dit formaat wordt gebruikt voor gescande documenten of elektronisch geboren tekst (zonder structuurelementen, tekst die is opgemaakt in oudere software of waar onbekende fonts zijn gebruikt). Wanneer PDF/A via een printer driver tool wordt gegenereerd is deze altijd PDF/A-1b.

Functionaliteit Restricties functionaliteit PDF/A-1 ten opzichte van het ‘normale’ PDF formaat: • Geen multimedia (audio, video, 3D) • Geen ingebedde bestanden13 • Geen transparantie of lagen • Beperkte kleurenruimtes14 • Geen beveiliging en encryptie • Geen externe referenties naar benodigde viewersoftware of fonts • Fonts moeten zijn ingebed • Geen Javascript • Geen interactiviteit (bijvoorbeeld ‘Form Fields’) • Hyperlinks wel opgeslagen maar niet aanklikbaar • Metadata gebaseerd op Adobe XMP • Geen LZW en JPEG 2000 compressie

Voor wel aanwezige functionaliteit, exclusief bovenstaande uitsluitingen, zie onderstaande PDF beschrijving. Zie PDF/A-1 tabel onder gedigitaliseerde originelen voor mogelijkheden compressie.

12 PDF/A-2 zal worden gebaseerd op PDF versie 1.6. Een ISO normering wordt verwacht in 2010. Nieuw daarin is o.a: JPEG 2000, PDF layers, verbeterde tagging, een nieuw Level U conformance (ergens tussen 1a en 1b in - zie: lezing Leonard Rosenthol, “PDF/A: IS0 19005-2 (PDF/A-2)”, Congresbundel First International PDF/A Conference 2008) p 116. 13 In een reguliere PDF kunnen bestanden van geheel andere aard (bijvoorbeeld spreadsheets) worden ingebed. Dit is voor de lange termijn houdbaarheid van een bestand natuurlijk uiterst problematisch.

Page 18: Richtlijn Bestandsformaten (PDF, 233 kB)

17

Documentatie • Formaat beschrijving op de website van de Library of Congress: Sustainability of Digital Formats Planning for Library of Congress Collections (voortaan: LOC): http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml

• Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html • ISO: http://www.iso.org/iso/catalogue_detail?csnumber=38920 • PDF/A Competence Centre http://www.pdfa.org/

Belangrijkste bezwaren voor langetermijn-archivering

Geen

Voorkeur SAA PDF/A-1 heeft sterk de voorkeur boven het reguliere PDF formaat. Aanbevolen wordt het reguliere PDF bestand alleen te gebruiken als de functionaliteit van PDF/A-1 tekort schiet. Voor documenten die direct in ODF zijn opgemaakt heeft ODF als archiefformaat de voorkeur.

5.1.2 PDF Naam (PDF) Portable File Format Versie en standaardisering

PDF 1.7 is de laatste versie en is sinds begin 2008 een open formaat: ISO 32000. Oudere versies zijn de facto standaarden die zijn gepubliceerd door Adobe. Versie 1.0 stamt uit 1993.

Omschrijving Bestandsformaat ontworpen voor elektronische distributie van documenten in hun ‘definitieve staat’. PDF is ontwikkeld door Adobe Systems Incorporated. Door Adobe omschreven als een ‘general document representation language’.

Gebruik Voor gebruik van gestructureerde tekst, al dan niet voorzien van afbeeldingen, audio-visuele en 3D content.

Functionaliteit Mogelijkheden naast tekst onder andere: • Multimedia (audio, video, 3D, CAD) • Metadata (XML, XMP standaard) • Bookmarks en annotaties • Interactieve formulieren (‘Form Fields’) • Mogelijkheid transparantie en lagen (bijvoorbeeld voor verschillende

vertalingen van een document) • Beveiliging (eventueel wachtwoord, kopieer- of printbeveiliging) en

authenticatie • Mogelijkheid tot plaatsen van een digitale handtekening • Mogelijkheid tot opname van andere (ook niet-PDF) bestanden in een

PDF file Documentatie LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml

Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html ISO: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=51502

Belangrijkste bezwaren voor langetermijnarchivering

• Complexiteit formaat - door vele gebruiksmogelijkheden – is hoog (dit is belangrijkste reden voor de creatie van PDF/A-1)

• Beveiligingsmogelijkheden

Voorkeur SAA • Wanneer er geen sprake is van functionaliteit die niet in PDF/A-1 wordt ondersteund (zie restricties PDF/A-1 in het onderstaande), heeft migratie naar PDF/A-1 sterk de voorkeur.

14 Zie voor een overzicht van toegestane kleurenruimtes op de PDF/A competence center website: http://www.pdfa.org/doku.php?id=artikel:en:pdfa_and_colors#pdf_color_spaces

Page 19: Richtlijn Bestandsformaten (PDF, 233 kB)

18

5.2 Gedigitaliseerde tekstdocumenten

5.2.1 PDF/A-1 Zie bovenstaande omschrijving. Onderstaande tabel is een aanvulling op de functionaliteit specifiek voor gedigitaliseerde tekst. Naam (PDF) Portable File Format Functionaliteit • Doorzoekbare OCR tekst (als ‘hidden text layer’)

• Compressiemogelijkheden o Voor kleur en grijswaardenafbeeldingen:

� JPEG (hoeveelheid compressie instelbaar) � MRC (Mixed Raster Content, ISO 16485) met JPEG

compressie � ZIP

o Voor bitonale afbeeldingen: � CITT Group 3 en 4 � JBIG2 lossy of lossless � ZIP

• Mogelijkheid tot downsampling op verschillende manieren. • Compressie en downsampling zijn ook uit te schakelen.

Documentatie Adobe documentatie betreft compressie en downsampling: http://help.adobe.com/nl_NL/Photoshop/10.0/help.html?content=WS4DE92D2D-5A4C-42a8-90E1-FD4E912A9BFD.html

Belangrijkste bezwaren voor langetermijnarchivering

• Het opnemen van digitale afbeeldingen in een PDF bestand voegt een extra laag van complexiteit aan het bestand toe.

• Het opnemen van digitale afbeeldingen in een PDF bestand kan een PDF bestand soms zwaar maken.

Voorkeur SAA Compressie: • LZW compressie wordt sterk afgeraden (in verband met onduidelijkheid

omtrent patenten) • CITT Group 3 compressie is verouderd en wordt daarom afgeraden • De efficiëntere JBIG2 compressie wordt aanbevolen boven CITT Group

4 compressie

5.2.2 JPEG 2000 Naam JPEG (Joint Photographic Experts Group) 2000 Versie en standaardisering

JPEG 2000 is een ISO standaard: ISO 15444-1:2004. Dit is de tweede versie van Part 1 (de eerste versie stamt uit 2000). JPEG 2000 bestaat uit 13 andere delen (voor onder andere bewegend beeld) die, behalve de laatste twee, allemaal ISO zijn genormeerd.15 Van belang voor stilstaand rasterbeeld is Part 1 ISO 15444-1 (bevat de basisfunctionaliteit van JPEG 2000, extensie .jp2), Part 2 ISO 15444-2 (bevat uitgebreide functionaliteiten op Part 1, extensie .jpx) en Part 6 ISO 15444-6 (voor documenten, gebruikt MRC compressie, extensie .jpm).

Omschrijving JPEG 2000 is een bestandsformaat voor rasterbeeld en bewegend beeld (Part 3). Het formaat is ontwikkeld door de Joint Photographic Experts Group met als doel een open en veelzijdig compressie formaat te creëren. JPEG 2000 is bedoeld als opvolger van het JPEG/JFIF formaat. JPEG 2000 Part 1 is vrij van royalty en licentiekosten, echter niet geheel vrij van patenten.

15 Deel 13 en 14 zijn zeer recente aanvullingen (zo recent dat ze niet worden genoemd op de jpeg.org website). Met name deel 14 is veelbelovend: dit behandelt de XML representatie van het JPEG 2000 formaat (jpxml). Dit is natuurlijk een interessante ontwikkeling in het kader van langetermijnarchivering.

Page 20: Richtlijn Bestandsformaten (PDF, 233 kB)

19

Functionaliteit • Geschikt voor grijswaarden, kleuren en bitonale beelden16 • Lossless en variabele lossy compressie is mogelijk • Verbeterde lossy (wavelet) compressie ten opzichte van het JPEG

formaat) • Uitgebreide mogelijkheden voor metadata • Multiresolutie mogelijkheden17 • Part 6 biedt ook de mogelijkheid van het opnemen van meerdere

pagina’s (zoals PDF). Documentatie • JPEG 2000 homepage: http://www.jpeg.org/jpeg2000/

• LOC JPEG 2000 Part 1: http://www.digitalpreservation.gov/formats/fdd/fdd000143.shtml

• LOC JPEG 2000 Part 2: http://www.digitalpreservation.gov/formats/fdd/fdd000141.shtml

• LOC JPEG 2000 Part 6: http://www.digitalpreservation.gov/formats/fdd/fdd000144.shtml

• ISO: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=37674

Belangrijkste bezwaren voor langetermijn-archivering

• Geringe adoptie, zowel wereldwijd als in erfgoedkring

Voorkeur SAA • Alleen het gebruik van JPEG 2000 Part 1 wordt op dit moment aangeraden.

• JPEG 2000 Part 2 en Part 6 wordt op dit moment niet aangeraden door de onduidelijkheden omtrent patenten.

5.2.3 TIFF 6.0 Naam TIFF (Tagged Image File Format) 6.0 Versie en standaardisering

Het baseline TIFF 6.0 stamt uit 1992 (de oudste versie stamt uit 1986). Versie 6.0 kent meerdere extensies: TIFF/EP (2001), TIFF/IT (2004), DNG (2005) and EXIF. Baseline TIFF 6.0 is geen ISO norm maar is wel een de facto standaard, gepubliceerd door Adobe.

Omschrijving Het idee achter TIFF was een file formaat te creëren voor het uitwisselen van rasterbeelden. Het formaat is zo opgezet (de basis zijn tags) dat het eenvoudig kan worden uitgebreid (de extensies) voor verschillende doeleinden. Het grote nadeel van deze opzet is dat de gebruikte extensies niet altijd worden ondersteund.

Functionaliteit • Geschikt voor grijswaarden, kleuren en bitonale beelden • Is zowel ongecomprimeerd als met lossless (LZW, ZIP en Group 4

compressie) en lossy (JPEG) compressie op te slaan • Uitgebreide metadata mogelijkheden, waaronder EXIF • Multiresolutie mogelijkheden (Image Pyramid)18 • Multi-page mogelijkheid19

Documentatie • TIFF 6.0 specifications: http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf

• LOC TIFF: http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml

16 Het is niet duidelijk of bitonale beelden alleen worden ondersteund in Part 2. Voor bitonale beelden ligt TIFF Group 4 of PDF JBIF2 ook meer voor de hand. 17 Multiresolutie houdt in dat in een afbeelding meerdere resoluties zijn opgeslagen. In de praktijk betekent het dat als eerste een lage resolutie afbeelding zal worden getoond, waarna de hogere resoluties volgen. Ook zijn er mogelijkheden het beeld op te bouwen vanuit kwaliteit, kleur en positie. Zie voor meer informatie Gillesse en Rog, Alternative File Formats p 16, 17. 18 Deze optie wordt nauwelijks gebruikt en ondersteund en wordt dus afgeraden. Een alternatief is JPEG 2000. 19 Ook deze optie wordt weinig gebruikt en ondersteund en dus afgeraden. Een beter alternatief is PDF(/A).

Page 21: Richtlijn Bestandsformaten (PDF, 233 kB)

20

Belangrijkste bezwaren voor langetermijn-archivering

• TIFF extensies kunnen langetermijnopslag extra complex maken. • Opslag van met name oversized originelen in ongecomprimeerde staat

kan grote consequenties hebben voor benodigde opslagruimte.

Voorkeur SAA • Gebruik van het Baseline TIFF 6.0 formaat (dus zonder de extensies) wordt, indien mogelijk, aangeraden.

• TIFF 6.0 met CITT Group 4 compressie voor bitonale beelden is toegestaan.

• Andere vormen van compressie binnen het TIFF formaat worden afgeraden (wegens gebrek aan ondersteuning).

• Gebruik van de multi-page functionaliteit wordt afgeraden.

5.2.4 JPEG Naam JPEG (Joint Photographic Expert Group) of JFIF (JPEG File Interchange

Format) Versie en standaardisering

De eerste versie stamt uit 1997 en versie 1.2 is ISO genormeerd: ISO 15948:2003.

Omschrijving De status van het JPEG ‘formaat’ is enigszins verwarrend. Wat JPEG wordt genoemd is, strikt genomen, de beschrijving van een compressiemethode (ISO 10918-1: 1994, de eerste versie stamt uit 1991). Een onderdeel van de JPEG standaard is een beschrijving van een file formaat voor uitwisseling. Deze beschrijving is vertaald en enigszins versimpeld in het JFIF (JPEG File Interchange Format) formaat. JFIF is een de facto standaard, gepubliceerd door de JPEG ontwikkelgroep. Om verwarring te voorkomen wordt in deze richtlijn ‘JPEG’ aangehouden als aanduiding voor het JFIF formaat.

Functionaliteit • Geschikt voor grijswaarden en kleurenbeelden • Maakt gebruik van variabele lossy compressie • Uitgebreide metadata mogelijkheden

Documentatie • JFIF standaard gepubliceerd door jpeg.org: http://www.jpeg.org/public/jfif.pdf

• LOC JPEG: http://www.digitalpreservation.gov/formats/fdd/fdd000153.shtml

Belangrijkste bezwaren voor langetermijn-archivering

• Gering gebruik als master formaat

Voorkeur SAA JPEG heeft de voorkeur voor afbeeldingen die met lossy compressie kleiner zijn dan A3. Bij oversized documenten kan beter de efficiëntere compressie van lossy JPEG 2000 worden gebruikt.

Page 22: Richtlijn Bestandsformaten (PDF, 233 kB)

21

6. Advies bestandsformaat per documentsoort 6.1 Digitaal geboren tekstdocumenten Om digitaal geboren tekstdocumenten qua inhoud en structuur op lange termijn toegankelijk te houden, zijn de volgende aanbevelingen van groot belang:

• Maak opmaakprofielen en/of bedrijfssjablonen en zorg ervoor dat iedereen die (op een juiste manier) gebruikt.

• Gebruik geen beveiliging of DRM (Digital Right Management) als wachtwoorden, print- of kopieerbeveiliging in het te archiveren formaat.

• Vermeld bij het gebruik van een URL ook de titel van de website of het document zodat bij het verloren gaan van de link de website of het document wellicht nog kan worden teruggevonden.

• Embed en subset20 fonts in het te archiveren formaat (dit gebeurt in PDF/A-1 automatisch). • Gebruik geen scripting, interactieve elementen en behaviour driven content (als automatische

datumvelden) in het te archiveren formaat. • Wees er van overtuigd dat er geen externe bronnen of software nodig zijn om de content van

het bestand goed weer te geven. Ingebedde multimedia wordt daarom afgeraden. Specifiek voor PDF/A-1

• Zorg ervoor dat er tags (in Adobe Acrobat: ‘bladwijzers’) worden toegevoegd bij het creëren van het PDF file. De tags zorgen voor de juiste structuur van het file en vergroten de toegankelijkheid.

• Wees zeer behoudend bij het toepassen van subsampling van afbeeldingen in het document. Voor de onderstaande brondocumenten wordt de volgende migratie aanbevolen: Bestandsformaat brondocument

Bestandsformaat lange termijn opslag

MS Word PDF/A-1a of -1b

ODF PDF/A-1a of -1b RTF PDF/A-1a of -1b TXT PDF/A-1b

Op dit moment (eind 2008) wordt migratie van reguliere PDF naar PDF/A afgeraden. Onderzoek heeft aangetoond dat deze migratieslag bijzonder moeizaam verloopt21. Met de nieuwste generatie PDF/A migratie en validatie tools blijkt dat PDF naar PDF/A nauwelijks mogelijk is.

6.2 Gedigitaliseerde tekstdocumenten Voor gedigitaliseerde documenten is er, zoals gezegd, de keuze tussen opname van de afbeeldingen in een PDF schil of opslag als losse afbeeldingen. Het SAA heeft geen duidelijk voorkeur voor een van deze twee methodes. De keuze voor één van deze twee methodes hangt af van functionele aspecten (zijn bij beschikbaarstelling losse afbeeldingen of PDF’s praktischer) en beheersaspecten (beschikbare opslagruimte, ICT beheer van afbeeldingen en structuur metadata). Omdat PDF´s gemaakt van afbeeldingen de neiging hebben vrij zwaar te worden (zeker bij omvangrijke documenten, full color en grijswaarden documenten of oversized documenten) is er de mogelijkheid de afbeeldingen (extra) te comprimeren en of te downsamplen (resolutie verlagen). Deze mogelijkheid moet echter met de nodige voorzichtigheid worden gebruikt, omdat bij al te voortvarend gebruik onomkeerbaar informatieverlies kan optreden.

20 Het ‘subsetten’ van een font betekent dat, naast het embedden, het font ook een unieke naam krijgt zodat dit niet wordt overruled op de computer van de gebruiker door een ander font met de zelfde naam. 21 Franks L.Walker ea, PDF File Migration To PDF/A: Technical Considerations IS&T Conference 2007. http://lhncbc.nlm.nih.gov/lhc/docs/published/2007/pub2007020.pdf Dit onderzoek lijkt echter al weer achterhaald omdat de PDF/A migratie tool die de onderzoekers hebben gebruikt (PDF Appraiser) volgens de Callas pdf/a Pilot 1.1 Validator geen valide bestanden produceert.

Page 23: Richtlijn Bestandsformaten (PDF, 233 kB)

22

Opname in PDF schil

• Formaat: PDF/A-1b • In grijswaarden of kleur gescande documenten:

o Geen compressie o Toegestane compressie: JPEG, MRC met JPEG compressie en ZIP

• Bitonaal gescande documenten: o Toegestane compressie CITT group 4, JBIG2 en ZIP

Losse afbeeldingen

• Kleur of grijswaarden: o Afbeeldingen zonder compressie kleur of grijswaarden: TIFF 6.0 baseline (exclusief

Image Piramid en multipage functionaliteit22) o Afbeeldingen met lossless compressie: JPEG 2000 part 1 lossless o Afbeeldingen met lossy compressie: JPEG, JPEG 2000 part 1 lossy

• Bitonaal: o TIFF CITT Group 4

Ingedeeld naar soort document wordt het volgende geadviseerd: Soort document Bitdiepte 23 Aanbevolen bestandsformaat (geen

volgorde van voorkeur) • Zonder

betekenisvolle kleur

• Niet vergeeld • Zonder foto’s of

fijne illustraties

Bitonaal (1 bit)

• TIFF CITT Group 4 • PDF/A-1b CITT Group 4 • PDF/A-1b JBIG2

• Zonder betekenisvolle kleur

• Vergeeld • Foto’s of fijne

illustraties

Grijswaarden (8 bits)

• TIFF uncompressed • JPEG compressie ratio 1:1024 • JPEG 2000 lossless of lossy

(compressie ratio 1:20)25 • PDF/A-1b JPEG • PDF/A-1b MRC met JPEG compressie • PDF/A-1b ZIP

Document met betekenisvolle kleurinformatie

RGB (24 bits) • TIFF uncompressed • JPEG compressie ratio 1:10 • JPEG 2000 lossless of lossy

(compressie ratio 1:20) • PDF/A-1b JPEG • PDF/A-1b MRC met JPEG compressie • PDF/A-1b ZIP

Oversized (>A3) grijs of kleur

Grijswaarden (8 bits) of kleur (24 bits)

• JPEG 2000 lossy (compressie ratio 1:20 of meer)26

• JPEG compressie ratio 1:10 of meer27 • PDF/A-1b JPEG • PDF/A-1b MRC met JPEG compressie

22 Een alternatief is respectievelijk JPEG 2000 en PDF 23 De hoeveelheid helderheids- of kleurwaarden per pixel. 1 bit bitonaal: zwart of wit. 8 bits grijswaarden: 256 grijswaarden. 24 bits RGB (Red, Green, Blue): 16.7 miljoen kleurwaarden. 24 Deze hoeveelheid compressie wordt beschouwd als visual lossless. Er is dus beeldinformatie verloren gegaan, maar dit is niet met het menselijk oog te onderscheiden. 25 Buckley, JPEG 2000, p 38, slide 76. 26 Extra compressie kan worden overwogen als het document op hoge resolutie moet worden gescand (door fijne detaillering) en de bestandsgrootte daardoor sterk toeneemt. Testen moeten dan uitwijzen of het verlies aan beeldinformatie door de lossy compressie geen betekenisvolle informatie in het document verminkt. 27 Ibidem. Lossy JPEG 2000 heeft bij deze grote originelen de voorkeur door de superieure compressie ten opzicht van het JPEG formaat.

Page 24: Richtlijn Bestandsformaten (PDF, 233 kB)

23

7. Literatuur- en internetbronnenlijst Afbakening Wettelijk kader

• Artikel 6 van de ministeriële regeling Geordende en toegankelijke staat archiefbescheiden (2002). http://wetten.overheid.nl/cgi-bin/deeplink/law1/title=Regeling%20geordende%20en%20toegankelijke%20staat%20archiefbescheiden

• Concept (versie 0.12) Regeling van de Minister van Onderwijs, Cultuur en Wetenschap van [DATUM], NR WJZ/200…/****(8189), tot vervanging van enkele uitvoeringsregelingen op archiefgebied (Archiefregeling 2008)

• Lopai ED3 norm (mei 2008) http://www.lopai.nl/pdf/ED3_v1.pdf Actieplan Nederland Open in Verbinding en aanverwante en betrokken organisaties

• Website NOIV bij OSSOS http://www.ososs.nl/noiv • Actieplan Nederland Open in Verbinding van Economische Zaken (EZ) september 2007

http://www.ez.nl/content.jsp?objectid=153181&rid=153180 • Publicatie Actielijn 6 ODF-invoering. Toelichting op het Actieplan Nederland Open in

Verbinding http://www.ez.nl/dsresource?objectid=158918&type=PDF. • ICTU http://www.ictu.nl • Website College en Forum Standaardisatie http://www.forumstandaardisatie.nl/ • Publicatie Forum Standaardisatie Open Standaarden. Een korte lijst voor het beproeven van

het ‘comply-or-explain and commit' principe’ http://www.forumstandaardisatie.nl/fileadmin/OVOS/VKA-rapport.pdf

• Website OpenDocSociety http://nl.opendocsociety.org/ • OpenDocSociety publicatie Handboek ODF (december 2007)

(http://nl.opendocsociety.org/images/handboek/Handboek_ODF_20080118.pdf) • Website Open.Amsterdam: http://www.open.amsterdam.nl/

Testbed digitale bewaring van het Nationaal Archief

• Website Testbed digitale bewaring of Digitale duurzaamheid http://www.digitaleduurzaamheid.nl/

• Testbed digitale bewaring, van vluchtigheid naar digitaal houvast, bewaren van tekstdocumenten (2003) http://www.digitaleduurzaamheid.nl/bibliotheek/docs/bewaren_van_tekstdocumenten.pdf

Verdere literatuur en internetbronnen gebruikt in afbakening

• Marc Holtman, Roberto Bourgonjen, Ellen Fleurbaay, Digitalisering ontrafeld, Technische aspecten van digitale reproductie van archiefstukken, Stadsarchief Amsterdam, 2004. http://stadsarchief.amsterdam.nl/stadsarchief/over_ons/projecten_en_jaarverslagen/digitalisering_ontrafeld_web.pdf

• Judith Rog en Robert Gillesse, Alternative File Formats for Storing Master Images of Digitisation Projects, Koninklijke Bibliotheek, 2007. http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/Alternative%20File%20Formats%20for%20Storing%20Masters%202%201.pdf.

• De Basis (Bouwen Aan Succesvolle ICT-Strategie) Digitaal Erfgoed Nederland (DEN) Basis 2008. http://www.den.nl/debasis/

• Library of Congres (LOC) Sustainability of Digital Formats website: http://www.digitalpreservation.gov/formats/intro/format_eval_rel.shtml

• Wikipedia lemma’s betreffende ODF (http://en.wikipedia.org/wiki/OpenDocument) en Open Office XML (http://en.wikipedia.org/wiki/Office_Open_XML)

Page 25: Richtlijn Bestandsformaten (PDF, 233 kB)

24

Selectie van bestandsformaten voor beoordeling

• Open Specification Promise Microsoft http://www.microsoft.com/interop/osp/default.mspx • Wikipedia lemma over Microsofts Open Specification Promise

http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise • Microsoft Office Word 97-2007 Binary File Format Specification (2007)

http://download.microsoft.com/download/0/B/E/0BE8BDD7-E5E8-422A-ABFD-4342ED7AD886/Word97-2007BinaryFileFormat(doc)Specification.pdf

• Persbericht ISO normering van PDF 1.7 op de NEN website PDF 1.7 wordt ISO 32000 http://www2.nen.nl/nen/servlet/dispatcher.Dispatcher?id=252444&parentid=000009

Beoordeling van bestandsformaten

• Caroline Van Wijk en Judith Rog Evaluating File Formats for Long-term Preservation (2007 ). http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/KB_file_format_evaluation_method_27022008.pdf

Beschrijving geselecteerde bestandsformaten

PDF/A-1

• Leonard Rosenthol, A Look Inside The Portable Document Format (PDF). Workshop IS&T Archiving 2008.

• LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml • Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html • ISO: http://www.iso.org/iso/catalogue_detail?csnumber=38920 • PDF/A Competence Centre http://www.pdfa.org/ • Congresbundel First International PDF/A Conference 2008 • Erika Hokke, Expertadvies NEN-ISO 19005-1:2005 (PDF/A-1). Forum Standaardisatie. 2008

http://www.forumstandaardisatie.nl/fileadmin/OVOS/2_Expertadvies_PDFA-1_v1.0.PDF PDF/A-2

• Leonard Rosenthol, “PDF/A: IS0 19005-2 (PDF/A-2). A look at the next generation of, “PDF for archiving” ”, Congresbundel First International PDF/A Conference 2008) p 112-119.

PDF/A specifiek voor gedigitaliseerd materiaal

• Ricardo de Queiroz, Robert Buckley e.a., Mixed Raster Content (MRC) Model for Compound Image Compression, http://image.unb.br/queiroz/papers/ei99mrc.pdf

PDF

• Overzicht verschillende versies van het PDF formaat en eventuele extensies PDF Reference and Adobe Extensions to the PDF Specification http://www.adobe.com/devnet/pdf/pdf_reference.html

• LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml PDF naar PDF/A migratie

• Franks L.Walker ea, PDF File Migration To PDF/A: Technical Considerations IS&T Conference 2007. http://lhncbc.nlm.nih.gov/lhc/docs/published/2007/pub2007020.pdf

ODF

• OASIS: http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=office • ODF handboek van OpenDoc Society Oplossing met ODF. Documenten in de praktijk, nu en

de toekomst OpenDoc Society (2008): http://be.opendocsociety.org/HandboekODF • Overzicht door OpenDocument Fellowship van applicaties die ODF ondersteunen:

http://www.opendocumentfellowship.com/applications • Publicatie Actielijn 6 ODF-invoering. Toelichting op het Actieplan Nederland Open in

Verbinding http://www.ez.nl/dsresource?objectid=158918&type=PDF. • René van Assem, e.a., ODF beleidsopties voor de Nederlandse overheid. Een verkenning.

2007

Page 26: Richtlijn Bestandsformaten (PDF, 233 kB)

25

www.forumstandaardisatie.nl/fileadmin/OVOS/CS_4apr07_doc07.2_ODF_Verkenning_1.01.pdf

PDF/A versus ODF

• Jon Bosak, NYS Open Records Discussion Must Recognize Technical Requirements, versie 26 juni 2008. http://www.ibiblio.org/bosak/pub/nys-open-records-policy.html

JPEG 2000

• JPEG 2000 website: http://www.jpeg.org/jpeg2000/ • LOC JPEG 2000 Part 1: http://www.digitalpreservation.gov/formats/fdd/fdd000143.shtml • LOC JPEG 2000 Part 2: http://www.digitalpreservation.gov/formats/fdd/fdd000141.shtml • LOC JPEG 2000 Part 6: http://www.digitalpreservation.gov/formats/fdd/fdd000144.shtml • ISO:

http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=37674 • Robert Buckley, Technology Watch Report. JPEG 2000 – A Practical Digital Preservation

Standard? 2008, p 5. http://www.dpconline.org/docs/reports/dpctw08-01.pdf • Robert Buckley, JPEG 2000 and Other Formats for Image Preservation, IS&T Archiving

workshop 2008. TIFF 6.0

• TIFF 6.0 specifications: http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf • LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml • TIFF extensies:

o TIFF/EP extensie (ISO 12234-2) voor digitale fotografie. Wikipedia lemma: http://en.wikipedia.org/wiki/ISO_12234-2

o TIFF/IT (ISO 12369) extensie voor prepress doeleinden. LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000072.shtml.

o DNG Adobe TIFF UNC extensie voor opslag van RAW images. LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000188.shtml.

o EXIF technical metadata of cameras and camera settings. LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000145.shtml.

JPEG

• JFIF standaard gepubliceerd door jpeg.org: http://www.jpeg.org/public/jfif.pdf • LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000153.shtml

Advies bestandsformaat per documentsoort

• Judith Rog, PDF Guidelines, Recommendations for the creation of PDF files for long-term preservation and access (2007). http://www.kb.nl/hrd/dd/dd_links_en_publicaties/PDF_Guidelines.pdf

Page 27: Richtlijn Bestandsformaten (PDF, 233 kB)

26

8. Begrippenlijst Archiefformaat Ook wel: master formaat, moederbestand. Bestandsformaat waarin digitale content voor de lange termijn wordt opgeslagen. In veel gevallen wordt er een kopie of een afgeleid bestand gebruikt voor beschikbaarstelling. Bestandsformaat Een bestandsformaat geeft betekenis en structuur aan een bit-stream (een ongestructureerde sequentie van bits)28 zodat het kan worden opgeslagen of verzonden. Bitdiepte De hoeveelheid helderheids- of kleurwaarden per pixel. Meest gebruikte bitdieptes: 1 bit bitonaal: zwart of wit. 8 bits grijswaarden: 256 grijs- of kleurwaarden. 24 bits RGB (Red, Green, Blue): 16.7 miljoen kleurwaarden. Brondocument In de context van een digitale omgeving: Het document in het bestandsformaat waarin het is gecreëerd (bijvoorbeeld MS Word). Comprimeren, compressie Het op een intelligente manier hergroeperen (encoderen) van computerdata waardoor een bestand in omvang afneemt. Om een gecomprimeerd bestand te kunnen lezen moet het worden gedecodeerd. Comprimeren kan op een lossless (zonder verlies van informatie) of lossy (met verlies van informatie) manier. In de context van digitale duurzaamheid kan compressie problematisch zijn in twee opzichten:

1. Bij lossy compressie kan essentiële informatie verloren gaan. 2. Compressie maakt een bestand complexer door de gebruikte encodering. Voor toekomstig

gebruik is altijd een decoder nodig om het bestand te kunnen lezen. Digitaal geboren Bestand dat origineel is gecreëerd in een digitale omgeving. Bijvoorbeeld een MS Word bestand. Digitale handtekening Wikipedia: ‘Een digitale handtekening is een methode voor het bevestigen van de juistheid van digitale informatie door middel van technieken van de asymmetrische cryptografie29, op een wijze vergelijkbaar met het ondertekenen van papieren documenten door middel van een geschreven handtekening.’ Een digitale handtekening wordt gebruikt voor drie zaken:

• Authenticatie: de afzender bevestigt dat hij opsteller is, ontvanger weet zeker wie verzender is.

• Integriteit: afzender en ontvanger weten zeker dat er tijdens het verzenden niets is veranderd. Hiertoe wordt een checksum van het bestand gemaakt.

• Onweerlegbaarheid: de verzender kan niet ontkennen dat hij het bericht heeft verzonden. DRM DRM = Digital Rights Management Rechtenbeheer van digitale content. Dit rechtenbeheer kan op verschillende niveaus plaatsvinden: vermelding toegangsrechten en copyright, gebruiksbeperkingen (bepaald aantal keer of bepaalde tijd

28 Bit-stream definitie: ‘The transmission of binary digits as a simple, unstructured sequence of bits’. http://www.answers.com/topic/bitstream 29 Hierbij wordt gebruik gemaakt van twee aparte sleutels: één sleutel wordt gebruikt om de informatie te coderen (vercijferen) en de tweede sleutel om de informatie weer te decoderen (ontcijferen). Dit in tegenstelling tot symmetrische cryptografie waarbij slechts sprake is van één sleutel voor coderen en decoderen. Voordeel van de asymmetrische cryptografie is dat men door het verstrekken van de ene dan wel de andere sleutel kan kiezen wie de versleutelde informatie kan lezen en ook wie informatie kan versleutelen.

Page 28: Richtlijn Bestandsformaten (PDF, 233 kB)

27

mogen raadplegen, of printbeveiliging) en het regelen van betalingen voor gebruik van content aan contentproviders en/of rechthebbenden.30 Met name de gebruiksbeperkingen kunnen schadelijk zijn voor de digitale duurzaamheid van een bestand. E-depot Een digitale archiefomgeving waarin de duurzaamheid en toegankelijkheid van digitale objecten en metadata langdurig is gegarandeerd. Dit gebeurt door een combinatie van hoogwaardige fysieke opslag en strategieën voor lange termijn behoud (migratie en/of emulatie). Forward compatibility Ook wel: Voorwaartse comptabiliteit Voorwaartse compatibiliteit is de mogelijkheid van een systeem of formaat om input te accepteren die bedoeld is voor nieuwere, recentere versies van zichzelf. Nieuwere elementen zullen in het oude formaat worden genegeerd. Licentie Een licentie is een formele of wettelijke toestemming om iets uit te voeren. Het kan ook het document zijn waarin die toestemming staat omschreven. Voor software, dat auteursrechtelijk is beschermd, bestaan zogenaamde softwarelicenties. In deze licenties staat omschreven onder welke voorwaarden de software mag worden gebruikt. Op dit moment is onduidelijk of bestandsformaten ook vallen onder het auteursrecht en er dus eventuele gebruiksvoorwaarden voor bestandsformaten zouden kunnen bestaan. Wel is duidelijk dat er patenten kunnen rusten op bestandsformaten (zie: patenten). Master formaat zie: archiefformaat OCR OCR = Optical Character Recognition. Een softwarematig proces waarbij van een gescand tekstdocument de tekst wordt herkend en omgezet in een door een machine leesbare tekst. Open standaard Dit is een lastig eenduidig te definiëren begrip. Zie hiervoor het Engelstalige Wikipedia lemma: http://en.wikipedia.org/wiki/Open_standard. In deze richtlijn wordt uitgegaan van de definitie zoals geformuleerd in Nederland Open in Verbinding (http://www.ez.nl/dsresource?objectid=153181&type=PDF pagina 27, 28) die is gebaseerd op de definitie van de Europese Commissie (iDABC31): “Open standaarden voldoen aan de volgende criteria:

• De standaard is goedgekeurd en zal worden gehandhaafd door een non-profit organisatie, en de lopende ontwikkeling gebeurt op basis van een open besluitvormingsprocedure die toegankelijk is voor alle belanghebbende partijen (consensus of meerderheidsbeschikking enz.).

• De standaard is gepubliceerd en over het specificatiedocument van de standaard kan vrijelijk worden beschikt of het is te verkrijgen tegen een nominale bijdrage. Het moet voor een ieder mogelijk zijn om het te kopiëren, beschikbaar te stellen en te gebruiken om niet of tegen een nominale prijs.

• Het intellectuele eigendom – m.b.t. mogelijk aanwezige patenten – van (delen) van de standaard is onherroepelijk ter beschikking gesteld op een ‘royalty-free’ basis.

• Er zijn geen beperkingen omtrent het hergebruik van de standaard. In aanvulling op deze definitie hanteert het Kabinet in de uitwerking van het Actieplan tevens de volgende twee specificaties:

30 Sam Michiels ea, Digital Rights Management. A Survey of Existing Technologies (2005). http://www.cs.kuleuven.be/publicaties/rapporten/cw/CW428.pdf 31 European interoperability framework for pan-European e-government services. http://ec.europa.eu/idabc/servlets/Doc?id=19528

Page 29: Richtlijn Bestandsformaten (PDF, 233 kB)

28

• Open Specificatie: een open specificatie is een specificatie die is gepubliceerd en over het document van deze specificatie kan vrijelijk worden beschikt. Of het is te verkrijgen tegen een nominale bijdrage. Het moet voor een ieder mogelijk zijn op het te kopiëren, beschikbaar te stellen en te gebruiken ‘om niet’ of tegen een nominale prijs.

• Vrije Specificatie: een vrije specificatie is een open specificatie die vrij is van juridische beperkingen die het gebruik en verspreiding bemoeilijken. Het intellectuele eigendom – met betrekking tot mogelijk aanwezige patenten – van (delen van) de standaard is onherroepelijk ter beschikking gesteld aan iedereen op een ‘royalty free’ basis.”

Belangrijk hierin is op te merken is dat er patenten mogen rusten op een standaard zolang die maar royalty vrij zijn. Open source software In deze richtlijn wordt uitgegaan van de definitie zoals geformuleerd in Nederland Open In Verbinding (http://www.ez.nl/dsresource?objectid=153181&type=PDF p. 28): “Open source software is software die een door het Open Source Initiative (OSI)32 goedgekeurde licentie heeft en daarmee voldoet aan twee kenmerken:

• de broncode van de software is vrij beschikbaar • in het licentiemodel is het intellectueel eigendom en het (her)gebruik van de software en

bijbehorende broncode dusdanig geregeld dat de licentienemer de broncode mag inzien, gebruiken, verbeteren, aanvullen en distribueren.”

Patent Ook wel: octrooi. Een patent is een set van exclusieve rechten toegekend door een staat aan een uitvinder of zijn vertegenwoordiger met betrekking tot het industrieel maken of verkopen van een product of het anderszins exploiteren van een uitvinding. Dit recht wordt toegekend voor een bepaalde tijd. Softwarepatenten hebben een aparte status en zijn sterk omstreden. Er zijn daarbij grote verschillen in wetgeving tussen de VS en Europa. Zie ook: http://nl.wikipedia.org/wiki/Octrooi_op_software In het kader van de duurzaamheid van bestandsformaten kunnen patenten op onderdelen van een formaat schadelijk zijn omdat ze spreiding en gebruik van het formaat bemoeilijken. Zie ook het lemma: ‘Open standaarden’ en daarin specifiek het onderdeel ‘vrije specificatie’’. Rasterafbeelding Een digitale afbeelding bestaande uit beeldpunten of pixels waarbij elke pixel een bepaalde bitdiepte heeft. RTF RTF = Rich Text Format Een door Microsoft ontwikkeld bestandsformaat voor de uitwisseling van tekstdocumenten over verschillende platforms. Royalty’s Betalingen die moeten worden gedaan bij het gebruik van bijvoorbeeld een patent of een auteursrechtelijk beschermd werk. In het kader van bestandsformaten kan het zijn dat een softwarebouwer die een (deels) gepatenteerd bestandsformaat wil gebruiken in zijn software daarvoor royalty’s moet betalen. In deze zin wordt verspreiding van het bestandsformaat bemoeilijkt en loopt daarmee de lange termijn duurzaamheid van het formaat ook gevaar. Standaardisering Met dit begrip wordt bedoeld in hoeverre een product voldoet aan een gepubliceerde standaard. Er zijn vier niveaus te onderscheiden (uitgaande van bestandsformaten):

32 OSI is opgericht ter promotie van open source software en uitgegroeid tot een organisatie die licenties goedkeurt op 10 criteria voor openheid. Zie http://www.opensource.org/.

Page 30: Richtlijn Bestandsformaten (PDF, 233 kB)

29

1. De jure standaard: de specificaties van een standaard is gepubliceerd bij een internationaal standaarden instituut als ISO

2. De facto standaard waarvan de specificaties zijn gespecificeerd door een onafhankelijk organisatie (bijvoorbeeld OASIS)

3. De facto standaard waarvan de specificaties alleen zijn gespecificeerd door de softwareontwikkelaar (bijvoorbeeld de specificaties van MS Word die zijn gepubliceerd door Microsoft)

4. De facto standaard met gesloten specificaties Met name de laatste situatie is in het zicht van lange termijn duurzaamheid onwenselijk.

Page 31: Richtlijn Bestandsformaten (PDF, 233 kB)

30

Bijlage 1 Wettelijk kader Artikel 6 van de ministeriële regeling Geordende en toegankelijke staat archiefbescheiden (2002). Digitale archiefbescheiden dienen, uiterlijk op het tijdstip van overbrenging, als bedoeld in de artikelen 12 en 13 van de Archiefwet 1995, te worden opgeslagen volgens de volgende standaarden:

a. voor character sets: ASCII (ISO/IEC 8859-1) of Unicode (ISO/IEC 10646-1);

b. voor tekstbestanden: Portable document format (PDF) of SGML dan wel XML vergezeld van een stylesheet (XSL, CSS) dan wel TIFF of PDF met de metadata in een XML-wrapper;

c. voor CAD/CAM bestanden; Portable document format (PDF) en STEP (Standard for the exchange of product data) als metadata standaard (ISO 10303);

d. voor images/beelden (bitmapped): Portable document format (PDF) en, indien gebruik gemaakt wordt van compressie: ITU T4 of ITU T6

e. voor databases: het oorspronkelijke opslagformaat of ASCII (flatfile, met veldscheidingstekens), vergezeld van documentatie bij voorkeur in XMLDTD over de structuur van de database, tenminste omvattende een compleet logisch datamodel met beschrijving van de entiteiten; queries dienen in de vraagtaal SQL (SQL2) te worden vastgelegd.

Bron: http://wetten.overheid.nl/cgi-bin/deeplink/law1/title=Regeling%20geordende%20en%20toegankelijke%20staat%20archiefbescheiden Artikel 25 van concept van de nieuwe ministeriële r egeling: Concept (versie 0.12) Regeling van de Minister van Onderwijs, Cultuur en Wetenschap van [DATUM], NR WJZ/200…/****(8189), tot vervanging van enkele uitvoeringsregelingen op archiefgebied (Archiefregeling 2008). 1. Digitale archiefbescheiden worden, uiterlijk op het tijdstip van overbrenging, opgeslagen in een gevalideerd en volledig gedocumenteerd open standaard formaat, tenzij dit redelijkerwijs niet van de zorgdrager kan worden verlangd. Alsdan vindt met de beheerder van de voor overbrenging aangewezen archiefbewaarplaats overleg plaats over een alternatief bestandsformaat. 2. Gebruikmaking van encryptietechniek is niet toegestaan. 3. Gebruikmaking van compressietechniek is slechts toegestaan, voor zover daarbij geen informatieverlies ontstaat. Bron: concept uitgereikt aan Stadsarchief Amsterdam ED3 Eisen Duurzaam Digitaal Depot. Toetsingskader vo or de beheersomgeving van blijvend te bewaren digitale informatie Lopai Versie 1 (mei 2008). Pagina 4: Identiek aan artikel 6 van bovenstaande ministeriële regeling uit 2002.

Criterium “B3.2: De dienst beschikt over mechanismen voor het toetsen en signaleren van het verouderen of onbruikbaar worden van representatie-informatie (inclusief bestandsformaten).” Dit kan betekenen dat een dienst niet in alles voldoet aan vigerende wet- en regelgeving, omdat het behoud van een geordende en toegankelijke staat van de archiefbescheiden voorop staat. De technologische ontwikkelingen kunnen bijvoorbeeld het gebruik van een bepaald bestandsformaat noodzakelijk maken, terwijl dit op basis van de huidige ministeriële regeling Geordende en toegankelijke staat archiefbescheiden nog niet mag. Bron: http://www.lopai.nl/pdf/ED3_v1.pdf