Basisvorming digitaliseren, digitaal bewaren en online publiceren
-
Upload
packed-vzw -
Category
Technology
-
view
245 -
download
0
description
Transcript of Basisvorming digitaliseren, digitaal bewaren en online publiceren
Digitaliseren, digitaal bewaren en online
publicerenHenk Vanstappen
(PACKED vzw)
PACKED VZW
• EXPERTISECENTRUM DIGITAAL ERFGOED
• OPDRACHT• “Expertise rond digitalisering en digitale archivering
centraliseren en verspreiden”
• DOELGROEPEN• collectiebeherende organisaties• andere actoren in het erfgoedveld
• MIDDELEN• Structurele werking Vlaamse Gemeenschap• Projectsubsidies• Onderaanneming
INHOUD
Deel 1: DIGITALISEREN• Registreren• Bestandsformaten en parameters• Planning• Hardware
Deel 2: BEWAREN & PUBLICEREN• Scoremodel digitale duurzaamheid• Publiceren • Auteursrecht
1REGISTREREN
WAAROM REGISTREREN?
• collectie vindbaar maken• collectie beheren• data hergebruiken en uitwisselen • data publiceren• digitalisering plannen en uitvoeren
DATASTANDAARDEN
• datastructuur: welke gegevens?• data value: welke waarden?• data content: hoe noteren?
DATA STRUCTUUR STANDAARDEN
Een datastructuurstandaard (schema) legt een groep beschrijvingselementen vast, waarmee een bepaald objecttype wordt beschreven.
DATA STRUCTUUR STANDAARDEN
Een datastructuurstandaard (schema) legt een groep beschrijvingselementen vast, waarmee een bepaald objecttype wordt beschreven.
Een beschrijvingselement bevat informatie over een bepaald aspect van een objectbeschrijving.
DATA STRUCTURE STANDAARDEN
• generiek: Dublin Core• collecties: Cometa• archieven: EAD, ISAD(G)• bibliotheken: MARC, MODS• museumobjecten: CDWA, CIDOC, LIDO• locaties: KLM• personen: ISAAR(CPF), MADS
DUBLIN CORE METADATA SCHEMAelement betekenis
title titel
creator vervaardiger
subject onderwerp
description beschrijving
publisher uitgever
contributor andere bijdrager
date datum
type objecttype
format vorm of afmeting
identifier unieke code
source bron
language taal van het object
relation gerelateerde bron
coverage plaats of tijd
rights rechten
TERMINOLOGIE IN XSD (MODS XML)
DATA VALUE STANDAARDEN
Een data value standaard legt vast welke waarden binnen een beschrijvingselement kunnen worden gebruikt.
DATA VALUE STANDAARDEN
• generiek: Wikipedia• personen: ULAN, RKDArtist, ODIS, VIAF• concepten: AAT, Iconclass, LCSH• locaties: TGN, Geonames, ISO 3166,
CRAB• Talen: ISO 639-x
VIAF
VIAF
Links:
http://viaf.org/
http://viaf.org/viaf/95761864/
http://viaf.org/viaf/95761864/rdf.xml
http://viaf.org/viaf/95761864/viaf.xml
http://viaf.org/viaf/95761864/marc21.xml
http://viaf.org/viaf/95761864/justlinks.json
Queries:
http://viaf.org/viaf/search?query=cql.any+%3D+”Brueghel, Pieter”&httpAccept=application/rss%2bxml
DATA CONTENT STANDAARDEN
Een data content standaard legt vast hoe een waarde binnen een beschrijvingselement wordt genoteerd.
DATA CONTENT STANDAARDEN
• publicaties: AACR2, RDA, VLACC• archiefcollecties: DACS• museumobjecten: CCO, MovE Invulboek• datum & tijd: ISO 8601 (YYYY-MM-DD)
MOVE INVULBOEK
GETTY DATE RULES
DATAPROFIELEN
• ook: application profile• standaarddatastructuur
+ elementen uit andere schema’s+ standaardterminologie+ beschrijvingsregels
• terugwaarts compatibel• onmisbaar
DATAPROFIELEN
TOOLS: DIY
• MAPPEN EN BESTANDSNAMEN
• EMBEDDED METADATA
• SPREADSHEET• Excel, LibreOffice Calc, …
• DATABASE• MS Access, FileMaker, MySQL, …
TOOLS: REGISTRATIESOFTWARE
• TYPES• commercieel of open source• objecten, archieven, digital assets, documenten• netwerk, stand alone, cloud (SAAS)
• VOORBEELDEN• Collective Access (OSS, museum, bibliotheek)• Adlib, Adlib Light (museum, bibliotheek, archief)• ICA-Atom (OSS, archieven)• ACDSee, XnView (fotocollecties)• CollectionSpace: (OSS, museum)• Colibreo: SAAS (museum)
TOOLS: ADLIB
TOOLS: COLLECTIVE ACCESS
2DIGITALISEREN
DIGITALISEREN?
• VAN ANALOOG NAAR BINAIR• beeld, audio, video, tekst
• WERKPROCES• voorbereiding• uitvoering• kwaliteitscontrole
• REGISTREREN (METADATA)• bestandsnaam• beschrijvende metadata• technische metadata
ANALOOG >> DIGITAAL
PARAMETERS
RESOLUTIE
• sample rate (“bemonsteringsfrequentie”)• uitgedrukt in PPI (beeld) of Hz (geluid)• bepalend voor bestandsgrootte:
• Audio: sample rate x2 bestand x2• 2D: resolutie x2 bestand x4
RESOLUTIE
• BEELD• Pixels per Inch (PPI) of Samples per Inch (SPI)• Let op met interpolatie!
• VIDEO• lineaire pixels: 2K, 4K, 8K • originele frame rate
• AUDIO• Sample frequency: 48 tot 96 kHz
RESOLUTIE: BEREKENEN
• 1 inch = 2,56 cm• voorbeeld dia op A4:
21 cm x 300 dpi / 3,6 cm = 1750 ppi• voorbeeld poster op A4:
21 cm x 300 dpi / 70 cm = 90 ppi
breedte gewenste afdruk x gewenste resolutie afdruk
breedte origineel
RESOLUTIE: AANBEVELINGEN
• BEELD• foto’s, documenten: 300 ppi• dia’s, negatieven: 300 ppi * reductiefactor (1200 ppi)• affiches: <300 ppi• tekst: punt van de i moet herkenbaar zijn
• VIDEO• 16 en 35 mm film: 2K, resp. 4K
• AUDIO• 48 KHz
KLEUR & KLEURDIEPTE
Rood Groen Blauw000000000000000000000000000000000000000000000001000000000000000000000010…111111111111111111111111
256 * 256 * 256
= 16,7 miljoen combinaties
KLEURDIEPTE
• Aantal bits gebruikt om een kleur te bepalen
• Bepalend voor grootte bestand
KLEURRUIMTE
• sRGB (IEC 61966-2.1)• AdobeRGB• ECI-RGB• ProPhotoRGB• MelissaRGB
KLEUR: AANBEVELINGEN
• KLEURDIEPTE• kleurorigineel: 24 bits of meer (nabewerking: 30 of 48 bits)• grijswaarden: 8 of 16 bit• zwartwit: 1 bit
• KLEURRUIMTE• preserveringsdoeleinden: ECIRGB of AdobeRGB• raadpleging: sRGB
COMPRESSIE
• Afhankelijk van bestandsformaat
• Lossless: geen informatieverlies (bv. LZW, ZIP)
• Lossy: artefacten, kleurverlies (bv. JPEG)
DYNAMISCH BEREIK (RANGE)
• bepaald door bitdiepte en compressie
DIGITAAL BESTAND TIFF file structure
DIGITAAL BESTAND MP4 file structure
BESTANDSFORMATEN
TYPES NAAR VORM
• BITMAP IMAGE (RASTER)
• VECTOR IMAGE
• TEKST
• AUDIO
• VIDEO
• … ARCHIEF, EXECUTABLE, DATA
TYPES NAAR FUNCTIE
• PRE-PROCESSING• unprocessed, uncompressed (bv. RAW)
• REPRODUCTIEBESTAND (MASTER)• hoogste vereiste kwaliteit (bv. PSD, TIFF)
• ongewijzigd
• ARCHIVERINGSBESTAND• open formaat (bv. TIFF, JPG2000)
• in eDepot
• RAADPLEGINGSBESTAND• webvriendelijk, compact formaat (bv. JPEG/JFIF)
FORMATEN: AANBEVELINGEN
• OPEN FORMATEN• publiek beschikbaar, beheerd door non profit organisatie
• geen patenten
• voldoende gebruikers en software
• BEELD• Baseline TIFF v6 uncompressed, JPEG2000
• VIDEO• Container: MXF, AVI, MOV• Codec: MJPEG2000
• AUDIO• WAV, AIFF, FLAC
BESTANDSNAMEN
• BETEKENISVOL OF BETEKENISLOOS?• kans op fouten• arbeidsintensief• alternatieven voor informatieopslag
• BASISREGELS:• Hou het simpel: max. 3 elementen• abcedfghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUV
WXYZ1234567890_• Gebruik punt enkel voor extensie
STRUCTUUR
• VASTLEGGEN• documenten• collecties, verzamelingen
• DON’T:• TIFF Multipage file format• enkel bestandsnaam• enkel mappenstructuur
• DO:• Structurele metadata• METS
TOOL: XNVIEW
TOOL: XNVIEW
• FUNCTIES• Bestanden hernoemen• Bestandsformaten aanpassen• Bestanden wijzigen• Bestanden bewerken
• ALTERNATIEVEN• IrfanView, Adobe Photoshop, GIMP (open source), Corel Photo
paint….• ReName
TOOL: VLC
TOOL: VLC
• FUNCTIES• Bestanden transcoderen• Bestanden analyseren• Bestanden bewerken
• ALTERNATIEVEN• FFMPEG, MPEG streamclip (video)• Audacity (geluid)
OCR(OPTICAL CHARACTER RECOGNITION)
OCR: TEKSTHERKENNING
Herkennen van tekst in beeld
OCR: KENMERKEN
• NIVEAUS• tekst• paragrafen• documentopmaak• structuur• named entity recognition
• TAAL
• EXPORTFORMAAT• PDF, DOC• RTF• XML
OCR: PARAMETERS
• ACCURAATHEID• nooit 100%• 99% correcte tekens = 95% correcte woorden
• controle: crowdsourcing & recaptcha
OCR: TOOLS
• PRO• Abby Finereader• Omnipage• Adobe Acrobat, NitroPDF (embedded text)
• FREEWARE/OPEN SOURCE• PDF OCR X (demo)• FreeOCR• OCRFeeder
• ON LINE• Google Drive, archive.org, PDFescape
TEKSTCODERING: ASCII EN UNICODE
TEKSTFORMATEN
• TEKENCODERING• ‘Codetabel waarmee binaire code omgezet wordt naar tekens’• ASCII: 7 en 8 bits• aanbeveling: UTF-8
• TEKSTFORMATEN• basis: TXT, RTF• document: PDF, Word, ODF• tagged: XML, HTML• opmaak en inhoud: METS/ALTO
HARDWARE: SCANNERS
scanner
flatbed
documentscanner
transparant
camera
bookscanner
TOOL: VUESCAN
FLATBED
• PRO• Goedkoop• Aanvaardbare kwaliteit• Compact
• CONTRA• Traag• Schade aan origineel
DOCUMENT FEEDER
• PRO• Zeer snel• Aanvaardbare kwaliteit• Aanvaardbare prijs
• CONTRA• Enkel losse vellen• Schade aan origineel
DIA SCANNER
• PRO• Aanvaardbare kwaliteit• Aanvaardbare prijs
• CONTRA• Traag
BOEKSCANNER
• PRO• Sneller• Conservering• Intelligente software
• CONTRA• Duur• Geen transport
SELFMADE BOOKSCANNER
3D SCANNERS
AUDIO CONVERTORS
• PRO• goedkoop• eenvoudig gebruik
• CONTRA• lage kwaliteit• exportformaten
VIDEO CONVERTORS
• PRO• goedkoop• eenvoudig gebruik
• CONTRA• lage kwaliteit• exportformaten
BEELDSCHERM
• OPSTELLING• stabiele lichtomstandigheden• geen invallend licht
• KALIBRATIE• colorimeter• spectrophotometer
DIGITALISEREN: BELEID
WAAROM DIGITALISEREN?
• VERVANGINGSKOPIE• origineel degradeert• origineel verloren of niet in bezit
• VEILIGHEIDSKOPIE• manipulatie minimaliseren
• RAADPLEGING• betere toegankelijkheid• doorzoekbaarheid
• BEWERKEN• OCR: tekstherkenning• Aanpassen: kleur, contrast, croppen, monteren, …
WAT DIGITALISEREN?
• RELEVANTIE• collectiebeleid• raadpleegfrequentie
• PRIORITEITEN• kwestbaarheid• tijdelijk beschikbaar
• RECHTEN• wat mag worden gedigitaliseerd• wat mag worden gepubliceerd
DIGITALISERINGSPLAN
• WAAROM?• Consensus en referentiedocument• Projectplanning en opvolging
• WAT?• Welke collecties• Hoe digitaliseren, registreren en bewaren
• HOE?• Werkproces (selectie, uitvoering, controle)
• WIE?• Taken en verantwoordelijkheden
SELECTIE
• DOORLICHTING COLLECTIE• aantallen• soorten• eigendom• prioriteit
SELECTIE
• CRITERIA• onderwerp• materiaalsoort• prioriteit• beschikbaarheid (rechten!)
• OVERZICHTSLIJST• naam set• lokatie• aantallen• prioriteit
WERKPROCES PLANNEN
VOORBEREIDING
• FYSIEKE VOORBEREIDING• beschadigingen• uitvouwen, uitrollen• gebonden volumes losmaken• tape, nietjes…
goed plannen om vertragingen te vermijden
VOORBEREIDING
• PILOT• Problemen opsporen• Benodigde tijd inschatten• Werkproces op punt stellen
WORKFLOW MANAGEMENT
• AFSPRAKEN VASTLEGGEN• Wie doet wat• Wanneer
• TAAKOPVOLGING• operator• datum creatie en controle• bestandsnaam• …
• PRO SOFTWARE• Goobi (Open Source), OmniScan, …
KWALITEITSCONTROLE
• VOLLEDIGHEID• Takenblad
• KWALITEIT• Visuele controle• Test targets: controle via Deltae: delt.ae/
• VALIDATIE• Jhove: controle bestandsformaat, compressie, …• VLC: controle video-eigenschappen, codecs, …
JHOVE
TOOL: JHOVE
• IDENTIFICEREN• is dit het juiste bestandsformaat?
• KARAKTERISEREN• wat zijn de technische kenmerken van het bestand?
• VALIDEREN• beantwoordt het aan de specificatie?• zijn er fouten die de leesbaarheid bedreigen?
TEST TARGET IMAGE
• TEST • kleurechtheid• scherpte• kleurgradaties
• DELT.AE• web based controle tool: http://www.delt.ae
OPSLAG
• TIJDELIJKE KOPIE • interne of externe harde schijf• checksums creeren (zie deel 2)• zo snel mogelijk backup kopie
• PERMANENTE OPSLAG• vooraf plannen!• zie deel 2. Archiveren
3BEWAREN
Foto: THE Holy Hand Grenade! CC BY-SA 2.0
Foto: portfolium CC BY-NC 2.0
BEWAARSTRATEGIE
• MISSIE• doelstellingen van de organisatie
• MIDDELEN• financiering• infrastructuur
• MENSEN• expertise• verantwoordelijkheden
• METHODEN• adequate procedures
BEWAREN: OPSLAG
• OFF LINE• goedkoop• kwetsbaar• eigen beheer• beperkte beschikbaarheid
• ON LINE• kwaliteit heeft prijs• betere beschikbaarheid• controle wordt uit handen gegeven
OFFLINE: CD, DVD
• PRO• goedkoop• compact
• CONTRA• zeer kwetsbaar• verouderde technologie• beperkte capaciteit
OFFLINE: SSD (SLC FLASH)
• PRO• robuuster dan HD• eenvoudig in gebruik
• CONTRA• geen netwerk• beperkt aantal schrijfacties• relatief duur
OFFLINE: USB FLASH (MLC)
• PRO• goedkoop• compact
• CONTRA• beperkte capaciteit• kwetsbaarder dan SLC
OFFLINE: EXTERNE HARDE SCHIJF
• PRO• goedkoop• eenvoudig in gebruik
• CONTRA• kwetsbaar• geen netwerk
OFFLINE: NAS
• PRO• veiliger met RAID-X• netwerk
• CONTRA• duurder• minder eenvoudig
ONLINE: CLOUD SERVICE
• PRO• goedkoop/gratis• eenvoudig• integratie in besturingssysteem
• CONTRA• beperkte capaciteit• beperkte aansprakelijkheid
• VOORBEELDEN• Google drive, Amazon Cloud, Box, Dropbox, iCould,
SugarSync, Skydrive
ON LINE: CLOUD STORAGE
• PRO• relatief veilig• toegevoegde services
• CONTRA• kostprijs
• VOORBEELDEN• Amazon Simple Storage web service (S3)• Windows Azure• Google Cloud storage• Belgie: Nomadesk, Amplidata, …• ISP (inbegrepen in abonnement)
ONLINE: DATA CENTER
• PRO• zeer veilig• hoog service level
• CONTRA• kostprijs• complexe formules en
contracten
BACKUP STRATEGIE
• Courante, kwalitatieve dragers
• 3 kopieen, waarvan 1 op externe locatie
• Incrementeel
• Verschillende technologieen
• Documenteer procedure
• Controleer en test
• Hou rekening met relevantie
PRIORITEITEN STELLEN
WELKE BESTANDEN BACK-UPPEN?
gemakkelijk vervangbaar
moeilijk vervangbaar
uniek
minder belangrijk
gratis software verslagen foto’s evenement
zeer belangrijk
thumbnails op website
eigen gedigitaliseerde collectie
gedigitaliseer-de bruikleen
CHECKSUMS
4PUBLICEREN
WEB HOSTING SERVICES
• PRO• eenvoudig• goedkoop of gratis• ondersteuning voor digital assets
• CONTRA• beperkte functionaliteit
• VOORBEELDEN• Google sites• Wordpress• Blogspot
WEB HOSTING SERVICES: VOORBEELD BLOGSPOT
MULTIMEDIA HOSTING SERVICE
• PRO• eenvoudig• goedkoop• embedding
• CONTRA• functionaliteit beperkt• ondersteuning en continuiteit• geen archivering
• VOORBEELDEN• Flickr, Picasa, YouTube, Vimeo, …
SAMENWERKINGSVERBANDEN
• PRO• veel expertise• niet zelf ontwikkelen• meer zichtbaarheid• kostprijs
• CONTRA• eigen vormgeving• volgens bestaand format• niet overal aanwezig
ERFGOEDINZICHT
ERFGOEDPLUS
EUROPEANA
ERFGOEDCEL WAASLAND
EIGEN COLLECTIESITE MAKEN?
• PRO• alle controle• database koppelen
• CONTRA• complex• arbeidsintensief
• VOORBEELDEN• CollectiveAccess• Omeka• Wordpress
TOOLS
• bouwen website: Joomla, WordPress, Drupal• bezoek: Google Analytics• html-code: validator.w3.org• toegankelijkheid: Anysurfer.be
5 STARS OPEN DATA
OPEN CULTUUR DATA
5RECHTEN
6. RECHTEN
• PRINCIPES AUTEURSRECHT• Auteursrecht is onvervreemdbaar• Auteursrecht ≠ eigendomsrecht• Claim geen rechten die je niet hebt• Geef geen rechten weg die je niet hebt
• FAIR USE
• PUBLIEK DOMEIN• 70 jaar na dood auteur • overlijden onbekend: pre ± 1873
VERWEESDE WERKEN
• DILIGENT SEARCH• voor gebruik• voor elk werk• publiek bekend• gedocumenteerd• alle relevante bronnen
• EXTENDED COLLECTIVE LICENSING• vergoeding• rechtszekerheid
CREATIVE COMMONS LICENTIES
• STANDAARD LICENTIES
• OPEN LICENTIES
• BEPERKINGEN• vermelding auteur• geen commercieel gebruik• geen afgeleiden• onder zelfde licentie verspreiden
> Publiek domein
Some rights reserved
All rights reserved
VLAAMSE OPEN DATA LICENTIES
• 4 NIVEAU’S• Creative Commons Zero• Gratis Open Data: behoud intellectuele rechten• Open Data Licentie tegen Billijke Vergoeding• Gratis Open Data Licentie voor Niet-Commercieel Hergebruik /
Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik
VLAAMSE OPEN DATA LICENTIES
• 4 NIVEAU’S• Creative Commons Zero• Gratis Open Data: behoud intellectuele rechten• Open Data Licentie tegen Billijke Vergoeding• Gratis Open Data Licentie voor Niet-Commercieel Hergebruik /
Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik
RECHTEN