Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders

Post on 16-Jun-2015

261 views 0 download

description

Presentaties van sessie 5 & 6 van de reeks Aan de slag met archief en documentatie, georganiseerd door Heemkunde Vlaanderen ism PACKED vzw (Maasmechelen, maart 2014)

Transcript of Digitaliseren, archiveren en online publiceren voor lokale erfgoedbeheerders

Digitaliseren, digitaal bewaren en online

publicerenHenk Vanstappen

(PACKED vzw)

PACKED VZW

• EXPERTISECENTRUM DIGITAAL ERFGOED

• OPDRACHT• “Expertise rond digitalisering en digitale archivering

centraliseren en verspreiden”

• DOELGROEPEN• collectiebeherende organisaties• andere actoren in het ergoedveld

• MIDDELEN• Structurele werking Vlaamse Gemeenschap• Projectsubsidies• Onderaanneming

INHOUD

Dag 1: DIGITALISEREN• Planning• Bestandsformaten en parameters• Hardware• Registreren

Dag 2: ARCHIVEREN & PUBLICEREN• Scoremodel digitale duurzaamheid• Publiceren • Auteursrecht

Dag 1DIGITALISEREN

DIGITALISEREN?

• VAN ANALOOG NAAR BINAIR• beeld, audio, video, tekst

• WERKPROCES• voorbereiding• uitvoering• kwaliteitscontrole

• REGISTREREN (METADATA)• bestandsnaam• beschrijvende metadata• technische metadata

HARDWARE: SCANNERS

scanner

flatbed

documentscanner

transparant

camera

bookscanner

FLATBED

• PRO• Goedkoop• Aanvaardbare kwaliteit• Compact

• CONTRA• Traag• Schade aan origineel

DOCUMENT FEEDER

• PRO• Zeer snel• Aanvaardbare kwaliteit• Aanvaardbare prijs

• CONTRA• Enkel losse vellen• Schade aan origineel

DIA SCANNER

• PRO• Aanvaardbare kwaliteit• Aanvaardbare prijs

• CONTRA• Traag

BOEKSCANNER

• PRO• Sneller• Conservering• Intelligente software

• CONTRA• Duur• Geen transport

SELFMADE BOOKSCANNER

3D SCANNERS

TEST TARGET IMAGE

• TEST • kleurechtheid• scherpte• kleurgradaties

• DELT.AE• web based controle tool: http://www.delt.ae

AUDIO CONVERTORS

• PRO• goedkoop• eenvoudig gebruik

• CONTRA• lage kwaliteit• exportformaten

VIDEO CONVERTORS

• PRO• goedkoop• eenvoudig gebruik

• CONTRA• lage kwaliteit• exportformaten

BEELDSCHERM

• OPSTELLING• stabiele lichtomstandigheden• geen invallend licht

• KALIBRATIE• colorimeter• spectrophotometer

WORKFLOW MANAGEMENT

• SPREADSHEET• operator• datum creatie en controle• bestandsnaam• …

• PRO SOFTWARE• Goobi (Open Source)• OmniScan• …

WORKFLOW MANAGEMENT SOFTWARE

PARAMETERS

TOOL: VUESCAN

RESOLUTIE

• sample rate (“bemonsteringsfrequentie”)• uitgedrukt in PPI (beeld) of Hz (geluid)• bepalend voor bestandsgrootte:

• Audio: sample rate x2 bestand x2• 2D: resolutie x2 bestand x4

RESOLUTIE

• BEELD• Pixels per Inch (PPI)• Let op met interpolatie!

• VIDEO• lineaire pixels: 2K, 4K, 8K • originele frame rate

• AUDIO• Sample frequency: 48 tot 96 kHz

RESOLUTIE: BEREKENEN

• 1 inch = 2,56 cm• voorbeeld dia op A4:

21 cm x 300 dpi / 3,6 cm = 1750 ppi• voorbeeld poster op A4:

21 cm x 300 dpi / 70 cm = 90 ppi

breedte gewenste afdruk x gewenste resolutie afdruk

breedte origineel

RESOLUTIE: AANBEVELINGEN

• BEELD• foto’s, documenten: 300 ppi• dia’s, negatieven: 300 ppi * reductiefactor (1200 ppi)• affiches: <300 ppi• tekst: punt van de i moet herkenbaar zijn

• VIDEO• 16 en 35 mm film: 2K, resp. 4K

• AUDIO• 48 KHz

KLEUR & KLEURDIEPTE

RED GREEN BLUE000000000000000000000000000000000000000000000001000000000000000000000010…111111111111111111111111

256 * 256 * 256

= 16,7 miljoen combinaties

KLEURDIEPTE

• Aantal bits gebruikt om een kleur te bepalen

• Bepalend voor grootte bestand

DYNAMISCH BEREIK (RANGE)

• bepaald door bitdiepte en compressie

KLEURRUIMTE

• sRGB (IEC 61966-2.1)• AdobeRGB• ECI-RGB• ProPhotoRGB• MelissaRGB

KLEUR: AANBEVELINGEN

• KLEURDIEPTE• kleurorigineel: 24 bits of meer (nabewerking: 30 of 48 bits)• grijswaarden: 8 of 16 bit• zwartwit: 1 bit

• KLEURRUIMTE• preserveringsdoeleinden: ECIRGB of AdobeRGB• raadpleging: sRGB

COMPRESSIE

• Afhankelijk van bestandsformaat

• Lossless: geen informatieverlies (bv. LZW, ZIP)

• Lossy: artefacten, kleurverlies (JPEG)

BESTANDSFORMATEN

TYPES NAAR VORM

• BITMAP IMAGE (RASTER)

• VECTOR IMAGE

• TEKST

• AUDIO

• VIDEO

• … ARCHIEF, EXECUTABLE, DATA

TYPES NAAR FUNCTIE

• PRE-PROCESSING• unprocessed, uncompressed

• REPRODUCTIEBESTAND (MASTER)• hoogste vereiste kwaliteit

• ongewijzigd

• ARCHIVERINGSBESTAND• open formaat

• in eDepot

• RAADPLEGINGSBESTAND• webvriendelijk formaat

FORMATEN: AANBEVELINGEN

• OPEN FORMATEN• publiek beschikbaar, beheerd door non profit organisatie

• geen patenten

• voldoende gebruikers en software

• BEELD• Baseline TIFF v6 uncompressed, JPEG2000

• VIDEO• Container: MXF, AVI, MOV• Codec: MJPEG2000

• AUDIO• WAV, AIFF, FLAC

BESTANDSNAMEN

• BETEKENISVOL OF BETEKENISLOOS• kans op fouten• arbeidsintensief• betere alternatieven voor informatieopslag

• BASISREGELS:• Hou het simpel: max. 3 elementen• abcedfghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUV

WXYZ1234567890_• Gebruik punt enkel voor extensie

STRUCTUUR

• VASTLEGGEN• documenten• collecties, verzamelingen

• DON’T:• Multipage file format• Bestandsnaam• Mappenstructuur

• DO:• Structurele metadata

TOOL: XNVIEW

TOOL: XNVIEW

• FUNCTIES• Bestanden hernoemen• Bestandsformaten aanpassen• Bestanden wijzigen• Bestanden bewerken

• ALTERNATIEVEN• IrfanView, Adobe Photoshop, GIMP (open source), Corel Photo

paint….• ReName

TOOL: VLC

TOOL: VLC

• FUNCTIES• Bestanden transcoderen• Bestanden analyseren• Bestanden bewerken

• ALTERNATIEVEN• FFMPEG, MPEG streamclip (video)• Audacity (geluid)

OCR

OCR: TEKSTHERKENNING

Herkennen van tekst in beeld

OCR: KENMERKEN

• NIVEAUS• tekst• paragrafen• documentopmaak• structuur• named entity recognition

• TAAL

• EXPORTFORMAAT• PDF, DOC• RTF• XML

OCR: PARAMETERS

• ACCURAATHEID• nooit 100%• 99% correcte tekens = 95% correcte woorden

• controle: crowdsourcing & recaptcha

OCR: TOOLS

• PRO• Abby Finereader• Omnipage• Adobe Acrobat, NitroPDF (embedded text)

• FREEWARE/OPEN SOURCE• PDF OCR X (demo)• FreeOCR• OCRFeeder

• ON LINE• Google Drive, archive.org, PDFescape

TEKSTFORMATEN

• TEKENCODERING• ‘Codetabel waarmee binaire code omgezet wordt naar tekens’• ASCII: 7 en 8 bits• aanbeveling: UTF-8

• TEKSTFORMATEN• basis: TXT, RTF• document: PDF, Word, ODF• tagged: XML, HTML• opmaak en inhoud: METS/ALTO

DIGITALISEREN: BELEID

WAAROM DIGITALISEREN?

• VERVANGINGSKOPIE• origineel degradeert• origineel verloren of niet in bezit

• VEILIGHEIDSKOPIE• manipulatie minimaliseren

• RAADPLEGING• betere toegankelijkheid• doorzoekbaarheid

• BEWERKEN• OCR: tekstherkenning• Aanpassen: kleur, contrast, croppen, monteren, …

WAT DIGITALISEREN?

• RELEVANTIE• collectiebeleid• raadpleegfrequentie

• PRIORITEITEN• kwestbaarheid• tijdelijk beschikbaar

• RECHTEN• wat mag worden gedigitaliseerd• wat mag worden gepubliceerd

DIGITALISERINGSPLAN

• WAAROM?• Consensus en referentiedocument• Projectplanning en opvolging

• WAT?• Welke collecties• Hoe digitaliseren

• HOE?• Werkproces

• WIE?• Taken en verantwoordelijkheden

SELECTIE

• DOORLICHTING COLLECTIE• aantallen• soorten• eigendom• prioriteit

SELECTIE

• CRITERIA• onderwerp• materiaalsoort• prioriteit• beschikbaarheid (rechten!)

• OVERZICHTSLIJST• naam set• lokatie• aantallen• prioriteit

WERKPROCES PLANNEN

VOORBEREIDING

• FYSIEKE VOORBEREIDING• beschadigingen• uitvouwen, uitrollen• gebonden volumes losmaken• tape, nietjes…

goed plannen om vertragingen te vermijden

VOORBEREIDING

• PILOT• Problemen opsporen• Benodigde tijd inschatten• Werkproces op punt stellen

ORGANISATIE

• AFSPRAKEN VASTLEGGEN• Wie doet wat• Wanneer• Takenblad

KWALITEITSCONTROLE

• VOLLEDIGHEID• Takenblad

• KWALITEIT• Visuele controle• Test targets: controle via Deltae: delt.ae/

• VALIDATIE• Jhove: controle bestandsformaat, compressie, …• VLC: controle video-eigenschappen, codecs, …

JHOVE

TOOL: JHOVE

• IDENTIFICEREN• is dit het juiste bestandsformaat?

• KARAKTERISEREN• wat zijn de technische kenmerken van het bestand?

• VALIDEREN• beantwoordt het aan de specificatie?• zijn er fouten die de leesbaarheid bedreigen?

OPSLAG

• TIJDELIJKE KOPIE • interne of externe harde schijf• checksums creeren (zie deel 2)• zo snel mogelijk backup kopie

• PERMANENTE OPSLAG• vooraf plannen!• zie deel 2. Archiveren

REGISTREREN

WAAROM REGISTREREN?

• collectie vindbaar maken• collectie beheren• data hergebruiken• data uitwisselen • data publiceren• digitalisering plannen en uitvoeren

DATASTANDAARDEN

DATASTANDAARDEN

• datastructuur: welke gegevens?• data value: welke waarden?• data content: hoe noteren?

DATA STRUCTUUR STANDAARDEN

Een datastructuur legt een groep beschrijvingselementen vast die bij elkaar horen (schema).

DATA STRUCTURE STANDAARDEN

• generiek: Dublin Core• collecties Cometa• archieven: EAD, ISAD(G)• museumobjecten: CDWA, CIDOC• locaties: KLM, WGS84• personen: GEDCOM, ISAAR(CPF)

DUBLIN CORE METADATA SCHEMAelement betekenis

title titel

creator vervaardiger

subject onderwerp

description beschrijving

publisher uitgever

contributor andere bijdrager

date datum

type objecttype

format vorm of afmeting

identifier unieke code

source bron

language taal van het object

relation gerelateerde bron

coverage plaats of tijd

rights rechten

DATA VALUE STANDAARDEN

Een data value standaard legt vast welke waarden binnen een beschrijvingselement kunnen worden gebruikt.

DATA VALUE STANDAARDEN 1

• generiek: Wikipedia• personen: ULAN, RKDArtist, ODIS, VIAF• concepten: AAT, Iconclass, LCSH, Plan

Hoffman-Krayer, THB (Catteeuw)• locaties: TGN, Geonames, ISO 3166,

CRAB• Talen: ISO 639-x

DATA CONTENT STANDAARDEN

Een data content standaard legt vast hoe een waarde binnen een beschrijvingselement wordt genoteerd.

DATA CONTENT STANDAARDEN

• publicaties: AACR2, RDA, VLACC• archiefcollecties: DACS• museumobjecten: CCO, MovE Invulboek• datum & tijd: ISO 8601

MOVE INVULBOEK

TOOLS: DIY

• MAPPEN EN BESTANDSNAMEN

• EMBEDDED METADATA

• SPREADSHEET• Excel, LibreOffice Calc, …

• DATABASE• MS Access, FileMaker, MySQL, …

TOOLS: REGISTRATIESOFTWARE

• TYPES• commercieel of open source• objecten, archieven, digital assets, documenten• netwerk, standaloneof

• VOORBEELDEN• Collective Access (OSS, museum)• Adlib Museum , Adlib Light• ICA-Atom (OSS, archieven)• ACDSee, XnView (fotocollecties)• CollectionSpace: (OSS DAM)• Colibreo: SAAS

TOOLS: ADLIB LIGHT

TOOLS: COLLECTIVE ACCESS

DATAPROFIELEN

• ook: application profile• standaarddatastructuur

+ elementen uit andere schema’s+ standaardterminologie+ beschrijvingsregels

• terugwaarts compatibel• onmisbaar

4. BEWAREN

Foto: THE Holy Hand Grenade! CC BY-SA 2.0

Foto: portfolium CC BY-NC 2.0

BEWAARSTRATEGIE

• MISSIE• doelstellingen van de organisatie

• MIDDELEN• financiering• infrastructuur

• MENSEN• expertise• verantwoordelijkheden

• METHODEN• adequate procedures

BEWAREN: OPSLAG

• OFF LINE• goedkoop• kwetsbaar• eigen beheer• beperkte beschikbaarheid

• ON LINE• kwaliteit heeft prijs• betere beschikbaarheid• controle wordt uit handen gegeven

OFFLINE: CD, DVD

• PRO• goedkoop• compact

• CONTRA• zeer kwetsbaar• verouderde technologie• beperkte capaciteit

OFFLINE: SSD (SLC FLASH)

• PRO• robuuster dan HD• eenvoudig in gebruik

• CONTRA• geen netwerk• beperkt aantal schrijfacties• relatief duur

OFFLINE: USB FLASH (MLC)

• PRO• goedkoop• compact

• CONTRA• beperkte capaciteit• kwetsbaarder dan SLC

OFFLINE: EXTERNE HARDE SCHIJF

• PRO• goedkoop• eenvoudig in gebruik

• CONTRA• kwetsbaar• geen netwerk

OFFLINE: NAS

• PRO• veiliger met RAID-X• netwerk

• CONTRA• duurder• minder eenvoudig

ONLINE: CLOUD SERVICE

• PRO• goedkoop/gratis• eenvoudig• integratie in besturingssysteem

• CONTRA• beperkte capaciteit• beperkte aansprakelijkheid

• VOORBEELDEN• Google drive, Amazon Cloud, Box, Dropbox, iCould,

SugarSync, Skydrive

ON LINE: CLOUD STORAGE

• PRO• relatief veilig• toegevoegde services

• CONTRA• kostprijs

• VOORBEELDEN• Amazon Simple Storage web service (S3)• Windows Azure• Google Cloud storage• Belgie: Nomadesk, Amplidata, …• ISP (inbegrepen in abonnement)

ONLINE: DATA CENTER

• PRO• zeer veilig• hoog service level

• CONTRA• kostprijs• complexe formules en

contracten

BACKUP STRATEGIE

• COURANTE, KWALITATIEVE DRAGERS

• 3 KOPIEEN, WAARVAN 1 OP EXTERNE LOCATIE

• INCREMENTEEL

• VERSCHILLENDE TECHNOLOGIEEN

• DOCUMENTEER PROCEDURE

• CONTROLEER EN TEST

• HOU REKENING MET RELEVANTIE

PRIORITEITEN STELLEN

WELKE BESTANDEN BACK-UPPEN?

gemakkelijk vervangbaar

moeilijk vervangbaar

uniek

minder belangrijk

gratis software verslagen foto’s evenement

zeer belangrijk

thumbnails op website

eigen gedigitaliseerde collectie

gedigitaliseer-de bruikleen

CHECKSUMS

5. ON LINE PUBLICEREN

WEB HOSTING SERVICES

• PRO• eenvoudig• goedkoop of gratis• ondersteuning voor digital assets

• CONTRA• beperkte functionaliteit

• VOORBEELDEN• Google sites• Wordpress• Blogspot

WEB HOSTING SERVICES: VOORBEELD BLOGSPOT

MULTIMEDIA HOSTING SERVICE

• PRO• eenvoudig• goedkoop• embedding

• CONTRA• functionaliteit beperkt• ondersteuning en continuiteit• geen archivering

• VOORBEELDEN• Flickr, Picasa, YouTube, Vimeo, …

SAMENWERKINGSVERBANDEN

• PRO• veel expertise• niet zelf ontwikkelen• meer zichtbaarheid• kostprijs

• CONTRA• eigen vormgeving• volgens bestaand format• niet overal aanwezig

ERFGOEDINZICHT

ERFGOEDPLUS

EUROPEANA

ERFGOEDCEL WAASLAND

EIGEN WEBSITE MAKEN?

• PRO• alle controle• database koppelen

• CONTRA• complex• arbeidsintensief

• VOORBEELDEN• CollectiveAccess• Omeka• Wordpress

TOOLS

• bouwen website: Joomla, WordPress, Drupal

• bezoek: Google Analytics

• html-code: validator.w3.org

• toegankelijkheid: Anysurfer.be

OPEN CULTUUR DATA

6. RECHTEN

6. RECHTEN

• PRINCIPES AUTEURSRECHT• Auteursrecht is onvervreemdbaar• Auteursrecht ≠ eigendomsrecht• Claim geen rechten die je niet hebt• Geef geen rechten weg die je niet hebt

• FAIR USE

• PUBLIEK DOMEIN• 70 jaar na dood auteur • overlijden onbekend: pre ± 1873

VERWEESDE WERKEN

• DILIGENT SEARCH• voor gebruik• voor elk werk• publiek bekend• gedocumenteerd• alle relevante bronnen

• EXTENDED COLLECTIVE LICENSING• vergoeding• rechtszekerheid

CREATIVE COMMONS LICENTIES

• STANDAARD LICENTIES

• OPEN LICENTIES

• BEPERKINGEN• vermelding auteur• geen commercieel gebruik• geen afgeleiden• onder zelfde licentie verspreiden

RECHTEN

BIBLIOGRAFIE

henk@packed.be