Basisvorming digitaliseren, digitaal bewaren en online publiceren

Post on 27-Jun-2015

245 views 0 download

description

Slides van de Basisvorming digitaliseren, digitaal bewaren en online publiceren (sessie najaar 2014) Deze module biedt een instap in de wereld van het digitaliseren, digitaal bewaren en online publiceren van documentaire collecties. Steeds meer medewerkers in erfgoedinstellingen worden geconfronteerd met digitaliseren en het digitaal bewaren van collecties. Ook nieuwe medewerkers in erfgoedorganisaties zijn vaak niet zo vertrouwd met deze materie. Tijdens deze cursus worden volgende vragen behandeld: Hoe organiseert u een digitaliseringproject? Wat zijn standaarden en bestandsformaten? Daarbij komt ook de technische kant van digitaliseren aan bod: wat is het meest geschikte materiaal en hoe gaat u praktisch aan de slag? Er wordt ook aandacht besteed aan het archiveren, beschrijven en ontsluiten van digitale bestanden. Hierbij komen zowel technische aspecten als de problematiek van het auteursrecht aan bod. Met medewerking van het Huis van Alijn

Transcript of Basisvorming digitaliseren, digitaal bewaren en online publiceren

Digitaliseren, digitaal bewaren en online

publicerenHenk Vanstappen

(PACKED vzw)

PACKED VZW

• EXPERTISECENTRUM DIGITAAL ERFGOED

• OPDRACHT• “Expertise rond digitalisering en digitale archivering

centraliseren en verspreiden”

• DOELGROEPEN• collectiebeherende organisaties• andere actoren in het erfgoedveld

• MIDDELEN• Structurele werking Vlaamse Gemeenschap• Projectsubsidies• Onderaanneming

INHOUD

Deel 1: DIGITALISEREN• Registreren• Bestandsformaten en parameters• Planning• Hardware

Deel 2: BEWAREN & PUBLICEREN• Scoremodel digitale duurzaamheid• Publiceren • Auteursrecht

1REGISTREREN

WAAROM REGISTREREN?

• collectie vindbaar maken• collectie beheren• data hergebruiken en uitwisselen • data publiceren• digitalisering plannen en uitvoeren

DATASTANDAARDEN

• datastructuur: welke gegevens?• data value: welke waarden?• data content: hoe noteren?

DATA STRUCTUUR STANDAARDEN

Een datastructuurstandaard (schema) legt een groep beschrijvingselementen vast, waarmee een bepaald objecttype wordt beschreven.

DATA STRUCTUUR STANDAARDEN

Een datastructuurstandaard (schema) legt een groep beschrijvingselementen vast, waarmee een bepaald objecttype wordt beschreven.

Een beschrijvingselement bevat informatie over een bepaald aspect van een objectbeschrijving.

DATA STRUCTURE STANDAARDEN

• generiek: Dublin Core• collecties: Cometa• archieven: EAD, ISAD(G)• bibliotheken: MARC, MODS• museumobjecten: CDWA, CIDOC, LIDO• locaties: KLM• personen: ISAAR(CPF), MADS

DUBLIN CORE METADATA SCHEMAelement betekenis

title titel

creator vervaardiger

subject onderwerp

description beschrijving

publisher uitgever

contributor andere bijdrager

date datum

type objecttype

format vorm of afmeting

identifier unieke code

source bron

language taal van het object

relation gerelateerde bron

coverage plaats of tijd

rights rechten

TERMINOLOGIE IN XSD (MODS XML)

DATA VALUE STANDAARDEN

Een data value standaard legt vast welke waarden binnen een beschrijvingselement kunnen worden gebruikt.

DATA VALUE STANDAARDEN

• generiek: Wikipedia• personen: ULAN, RKDArtist, ODIS, VIAF• concepten: AAT, Iconclass, LCSH• locaties: TGN, Geonames, ISO 3166,

CRAB• Talen: ISO 639-x

VIAF

DATA CONTENT STANDAARDEN

Een data content standaard legt vast hoe een waarde binnen een beschrijvingselement wordt genoteerd.

DATA CONTENT STANDAARDEN

• publicaties: AACR2, RDA, VLACC• archiefcollecties: DACS• museumobjecten: CCO, MovE Invulboek• datum & tijd: ISO 8601 (YYYY-MM-DD)

MOVE INVULBOEK

GETTY DATE RULES

DATAPROFIELEN

• ook: application profile• standaarddatastructuur

+ elementen uit andere schema’s+ standaardterminologie+ beschrijvingsregels

• terugwaarts compatibel• onmisbaar

TOOLS: DIY

• MAPPEN EN BESTANDSNAMEN

• EMBEDDED METADATA

• SPREADSHEET• Excel, LibreOffice Calc, …

• DATABASE• MS Access, FileMaker, MySQL, …

TOOLS: REGISTRATIESOFTWARE

• TYPES• commercieel of open source• objecten, archieven, digital assets, documenten• netwerk, stand alone, cloud (SAAS)

• VOORBEELDEN• Collective Access (OSS, museum, bibliotheek)• Adlib, Adlib Light (museum, bibliotheek, archief)• ICA-Atom (OSS, archieven)• ACDSee, XnView (fotocollecties)• CollectionSpace: (OSS, museum)• Colibreo: SAAS (museum)

TOOLS: ADLIB

TOOLS: COLLECTIVE ACCESS

2DIGITALISEREN

DIGITALISEREN?

• VAN ANALOOG NAAR BINAIR• beeld, audio, video, tekst

• WERKPROCES• voorbereiding• uitvoering• kwaliteitscontrole

• REGISTREREN (METADATA)• bestandsnaam• beschrijvende metadata• technische metadata

ANALOOG >> DIGITAAL

PARAMETERS

RESOLUTIE

• sample rate (“bemonsteringsfrequentie”)• uitgedrukt in PPI (beeld) of Hz (geluid)• bepalend voor bestandsgrootte:

• Audio: sample rate x2 bestand x2• 2D: resolutie x2 bestand x4

RESOLUTIE

• BEELD• Pixels per Inch (PPI) of Samples per Inch (SPI)• Let op met interpolatie!

• VIDEO• lineaire pixels: 2K, 4K, 8K • originele frame rate

• AUDIO• Sample frequency: 48 tot 96 kHz

RESOLUTIE: BEREKENEN

• 1 inch = 2,56 cm• voorbeeld dia op A4:

21 cm x 300 dpi / 3,6 cm = 1750 ppi• voorbeeld poster op A4:

21 cm x 300 dpi / 70 cm = 90 ppi

breedte gewenste afdruk x gewenste resolutie afdruk

breedte origineel

RESOLUTIE: AANBEVELINGEN

• BEELD• foto’s, documenten: 300 ppi• dia’s, negatieven: 300 ppi * reductiefactor (1200 ppi)• affiches: <300 ppi• tekst: punt van de i moet herkenbaar zijn

• VIDEO• 16 en 35 mm film: 2K, resp. 4K

• AUDIO• 48 KHz

KLEUR & KLEURDIEPTE

Rood Groen Blauw000000000000000000000000000000000000000000000001000000000000000000000010…111111111111111111111111

256 * 256 * 256

= 16,7 miljoen combinaties

KLEURDIEPTE

• Aantal bits gebruikt om een kleur te bepalen

• Bepalend voor grootte bestand

KLEURRUIMTE

• sRGB (IEC 61966-2.1)• AdobeRGB• ECI-RGB• ProPhotoRGB• MelissaRGB

KLEUR: AANBEVELINGEN

• KLEURDIEPTE• kleurorigineel: 24 bits of meer (nabewerking: 30 of 48 bits)• grijswaarden: 8 of 16 bit• zwartwit: 1 bit

• KLEURRUIMTE• preserveringsdoeleinden: ECIRGB of AdobeRGB• raadpleging: sRGB

COMPRESSIE

• Afhankelijk van bestandsformaat

• Lossless: geen informatieverlies (bv. LZW, ZIP)

• Lossy: artefacten, kleurverlies (bv. JPEG)

DYNAMISCH BEREIK (RANGE)

• bepaald door bitdiepte en compressie

DIGITAAL BESTAND TIFF file structure

DIGITAAL BESTAND MP4 file structure

BESTANDSFORMATEN

TYPES NAAR VORM

• BITMAP IMAGE (RASTER)

• VECTOR IMAGE

• TEKST

• AUDIO

• VIDEO

• … ARCHIEF, EXECUTABLE, DATA

TYPES NAAR FUNCTIE

• PRE-PROCESSING• unprocessed, uncompressed (bv. RAW)

• REPRODUCTIEBESTAND (MASTER)• hoogste vereiste kwaliteit (bv. PSD, TIFF)

• ongewijzigd

• ARCHIVERINGSBESTAND• open formaat (bv. TIFF, JPG2000)

• in eDepot

• RAADPLEGINGSBESTAND• webvriendelijk, compact formaat (bv. JPEG/JFIF)

FORMATEN: AANBEVELINGEN

• OPEN FORMATEN• publiek beschikbaar, beheerd door non profit organisatie

• geen patenten

• voldoende gebruikers en software

• BEELD• Baseline TIFF v6 uncompressed, JPEG2000

• VIDEO• Container: MXF, AVI, MOV• Codec: MJPEG2000

• AUDIO• WAV, AIFF, FLAC

BESTANDSNAMEN

• BETEKENISVOL OF BETEKENISLOOS?• kans op fouten• arbeidsintensief• alternatieven voor informatieopslag

• BASISREGELS:• Hou het simpel: max. 3 elementen• abcedfghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUV

WXYZ1234567890_• Gebruik punt enkel voor extensie

STRUCTUUR

• VASTLEGGEN• documenten• collecties, verzamelingen

• DON’T:• TIFF Multipage file format• enkel bestandsnaam• enkel mappenstructuur

• DO:• Structurele metadata• METS

TOOL: XNVIEW

TOOL: XNVIEW

• FUNCTIES• Bestanden hernoemen• Bestandsformaten aanpassen• Bestanden wijzigen• Bestanden bewerken

• ALTERNATIEVEN• IrfanView, Adobe Photoshop, GIMP (open source), Corel Photo

paint….• ReName

TOOL: VLC

TOOL: VLC

• FUNCTIES• Bestanden transcoderen• Bestanden analyseren• Bestanden bewerken

• ALTERNATIEVEN• FFMPEG, MPEG streamclip (video)• Audacity (geluid)

OCR(OPTICAL CHARACTER RECOGNITION)

OCR: TEKSTHERKENNING

Herkennen van tekst in beeld

OCR: KENMERKEN

• NIVEAUS• tekst• paragrafen• documentopmaak• structuur• named entity recognition

• TAAL

• EXPORTFORMAAT• PDF, DOC• RTF• XML

OCR: PARAMETERS

• ACCURAATHEID• nooit 100%• 99% correcte tekens = 95% correcte woorden

• controle: crowdsourcing & recaptcha

OCR: TOOLS

• PRO• Abby Finereader• Omnipage• Adobe Acrobat, NitroPDF (embedded text)

• FREEWARE/OPEN SOURCE• PDF OCR X (demo)• FreeOCR• OCRFeeder

• ON LINE• Google Drive, archive.org, PDFescape

TEKSTCODERING: ASCII EN UNICODE

TEKSTFORMATEN

• TEKENCODERING• ‘Codetabel waarmee binaire code omgezet wordt naar tekens’• ASCII: 7 en 8 bits• aanbeveling: UTF-8

• TEKSTFORMATEN• basis: TXT, RTF• document: PDF, Word, ODF• tagged: XML, HTML• opmaak en inhoud: METS/ALTO

HARDWARE: SCANNERS

scanner

flatbed

documentscanner

transparant

camera

bookscanner

TOOL: VUESCAN

FLATBED

• PRO• Goedkoop• Aanvaardbare kwaliteit• Compact

• CONTRA• Traag• Schade aan origineel

DOCUMENT FEEDER

• PRO• Zeer snel• Aanvaardbare kwaliteit• Aanvaardbare prijs

• CONTRA• Enkel losse vellen• Schade aan origineel

DIA SCANNER

• PRO• Aanvaardbare kwaliteit• Aanvaardbare prijs

• CONTRA• Traag

BOEKSCANNER

• PRO• Sneller• Conservering• Intelligente software

• CONTRA• Duur• Geen transport

SELFMADE BOOKSCANNER

3D SCANNERS

AUDIO CONVERTORS

• PRO• goedkoop• eenvoudig gebruik

• CONTRA• lage kwaliteit• exportformaten

VIDEO CONVERTORS

• PRO• goedkoop• eenvoudig gebruik

• CONTRA• lage kwaliteit• exportformaten

BEELDSCHERM

• OPSTELLING• stabiele lichtomstandigheden• geen invallend licht

• KALIBRATIE• colorimeter• spectrophotometer

DIGITALISEREN: BELEID

WAAROM DIGITALISEREN?

• VERVANGINGSKOPIE• origineel degradeert• origineel verloren of niet in bezit

• VEILIGHEIDSKOPIE• manipulatie minimaliseren

• RAADPLEGING• betere toegankelijkheid• doorzoekbaarheid

• BEWERKEN• OCR: tekstherkenning• Aanpassen: kleur, contrast, croppen, monteren, …

WAT DIGITALISEREN?

• RELEVANTIE• collectiebeleid• raadpleegfrequentie

• PRIORITEITEN• kwestbaarheid• tijdelijk beschikbaar

• RECHTEN• wat mag worden gedigitaliseerd• wat mag worden gepubliceerd

DIGITALISERINGSPLAN

• WAAROM?• Consensus en referentiedocument• Projectplanning en opvolging

• WAT?• Welke collecties• Hoe digitaliseren, registreren en bewaren

• HOE?• Werkproces (selectie, uitvoering, controle)

• WIE?• Taken en verantwoordelijkheden

SELECTIE

• DOORLICHTING COLLECTIE• aantallen• soorten• eigendom• prioriteit

SELECTIE

• CRITERIA• onderwerp• materiaalsoort• prioriteit• beschikbaarheid (rechten!)

• OVERZICHTSLIJST• naam set• lokatie• aantallen• prioriteit

WERKPROCES PLANNEN

VOORBEREIDING

• FYSIEKE VOORBEREIDING• beschadigingen• uitvouwen, uitrollen• gebonden volumes losmaken• tape, nietjes…

goed plannen om vertragingen te vermijden

VOORBEREIDING

• PILOT• Problemen opsporen• Benodigde tijd inschatten• Werkproces op punt stellen

WORKFLOW MANAGEMENT

• AFSPRAKEN VASTLEGGEN• Wie doet wat• Wanneer

• TAAKOPVOLGING• operator• datum creatie en controle• bestandsnaam• …

• PRO SOFTWARE• Goobi (Open Source), OmniScan, …

KWALITEITSCONTROLE

• VOLLEDIGHEID• Takenblad

• KWALITEIT• Visuele controle• Test targets: controle via Deltae: delt.ae/

• VALIDATIE• Jhove: controle bestandsformaat, compressie, …• VLC: controle video-eigenschappen, codecs, …

JHOVE

TOOL: JHOVE

• IDENTIFICEREN• is dit het juiste bestandsformaat?

• KARAKTERISEREN• wat zijn de technische kenmerken van het bestand?

• VALIDEREN• beantwoordt het aan de specificatie?• zijn er fouten die de leesbaarheid bedreigen?

TEST TARGET IMAGE

• TEST • kleurechtheid• scherpte• kleurgradaties

• DELT.AE• web based controle tool: http://www.delt.ae

OPSLAG

• TIJDELIJKE KOPIE • interne of externe harde schijf• checksums creeren (zie deel 2)• zo snel mogelijk backup kopie

• PERMANENTE OPSLAG• vooraf plannen!• zie deel 2. Archiveren

3BEWAREN

Foto: THE Holy Hand Grenade! CC BY-SA 2.0

Foto: portfolium CC BY-NC 2.0

BEWAARSTRATEGIE

• MISSIE• doelstellingen van de organisatie

• MIDDELEN• financiering• infrastructuur

• MENSEN• expertise• verantwoordelijkheden

• METHODEN• adequate procedures

BEWAREN: OPSLAG

• OFF LINE• goedkoop• kwetsbaar• eigen beheer• beperkte beschikbaarheid

• ON LINE• kwaliteit heeft prijs• betere beschikbaarheid• controle wordt uit handen gegeven

OFFLINE: CD, DVD

• PRO• goedkoop• compact

• CONTRA• zeer kwetsbaar• verouderde technologie• beperkte capaciteit

OFFLINE: SSD (SLC FLASH)

• PRO• robuuster dan HD• eenvoudig in gebruik

• CONTRA• geen netwerk• beperkt aantal schrijfacties• relatief duur

OFFLINE: USB FLASH (MLC)

• PRO• goedkoop• compact

• CONTRA• beperkte capaciteit• kwetsbaarder dan SLC

OFFLINE: EXTERNE HARDE SCHIJF

• PRO• goedkoop• eenvoudig in gebruik

• CONTRA• kwetsbaar• geen netwerk

OFFLINE: NAS

• PRO• veiliger met RAID-X• netwerk

• CONTRA• duurder• minder eenvoudig

ONLINE: CLOUD SERVICE

• PRO• goedkoop/gratis• eenvoudig• integratie in besturingssysteem

• CONTRA• beperkte capaciteit• beperkte aansprakelijkheid

• VOORBEELDEN• Google drive, Amazon Cloud, Box, Dropbox, iCould,

SugarSync, Skydrive

ON LINE: CLOUD STORAGE

• PRO• relatief veilig• toegevoegde services

• CONTRA• kostprijs

• VOORBEELDEN• Amazon Simple Storage web service (S3)• Windows Azure• Google Cloud storage• Belgie: Nomadesk, Amplidata, …• ISP (inbegrepen in abonnement)

ONLINE: DATA CENTER

• PRO• zeer veilig• hoog service level

• CONTRA• kostprijs• complexe formules en

contracten

BACKUP STRATEGIE

• Courante, kwalitatieve dragers

• 3 kopieen, waarvan 1 op externe locatie

• Incrementeel

• Verschillende technologieen

• Documenteer procedure

• Controleer en test

• Hou rekening met relevantie

PRIORITEITEN STELLEN

WELKE BESTANDEN BACK-UPPEN?

gemakkelijk vervangbaar

moeilijk vervangbaar

uniek

minder belangrijk

gratis software verslagen foto’s evenement

zeer belangrijk

thumbnails op website

eigen gedigitaliseerde collectie

gedigitaliseer-de bruikleen

CHECKSUMS

4PUBLICEREN

WEB HOSTING SERVICES

• PRO• eenvoudig• goedkoop of gratis• ondersteuning voor digital assets

• CONTRA• beperkte functionaliteit

• VOORBEELDEN• Google sites• Wordpress• Blogspot

WEB HOSTING SERVICES: VOORBEELD BLOGSPOT

MULTIMEDIA HOSTING SERVICE

• PRO• eenvoudig• goedkoop• embedding

• CONTRA• functionaliteit beperkt• ondersteuning en continuiteit• geen archivering

• VOORBEELDEN• Flickr, Picasa, YouTube, Vimeo, …

SAMENWERKINGSVERBANDEN

• PRO• veel expertise• niet zelf ontwikkelen• meer zichtbaarheid• kostprijs

• CONTRA• eigen vormgeving• volgens bestaand format• niet overal aanwezig

ERFGOEDINZICHT

ERFGOEDPLUS

EUROPEANA

ERFGOEDCEL WAASLAND

EIGEN COLLECTIESITE MAKEN?

• PRO• alle controle• database koppelen

• CONTRA• complex• arbeidsintensief

• VOORBEELDEN• CollectiveAccess• Omeka• Wordpress

TOOLS

• bouwen website: Joomla, WordPress, Drupal• bezoek: Google Analytics• html-code: validator.w3.org• toegankelijkheid: Anysurfer.be

5 STARS OPEN DATA

OPEN CULTUUR DATA

5RECHTEN

6. RECHTEN

• PRINCIPES AUTEURSRECHT• Auteursrecht is onvervreemdbaar• Auteursrecht ≠ eigendomsrecht• Claim geen rechten die je niet hebt• Geef geen rechten weg die je niet hebt

• FAIR USE

• PUBLIEK DOMEIN• 70 jaar na dood auteur • overlijden onbekend: pre ± 1873

VERWEESDE WERKEN

• DILIGENT SEARCH• voor gebruik• voor elk werk• publiek bekend• gedocumenteerd• alle relevante bronnen

• EXTENDED COLLECTIVE LICENSING• vergoeding• rechtszekerheid

CREATIVE COMMONS LICENTIES

• STANDAARD LICENTIES

• OPEN LICENTIES

• BEPERKINGEN• vermelding auteur• geen commercieel gebruik• geen afgeleiden• onder zelfde licentie verspreiden

> Publiek domein

Some rights reserved

All rights reserved

VLAAMSE OPEN DATA LICENTIES

• 4 NIVEAU’S• Creative Commons Zero• Gratis Open Data: behoud intellectuele rechten• Open Data Licentie tegen Billijke Vergoeding• Gratis Open Data Licentie voor Niet-Commercieel Hergebruik /

Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik

VLAAMSE OPEN DATA LICENTIES

• 4 NIVEAU’S• Creative Commons Zero• Gratis Open Data: behoud intellectuele rechten• Open Data Licentie tegen Billijke Vergoeding• Gratis Open Data Licentie voor Niet-Commercieel Hergebruik /

Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik

RECHTEN

info@packed.be