Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een...

8
INHOUD Gekaapte brieven en verhoren toegankelijk gemaakt voor onder- zoek. Ingrid Dillo The National Archives (TNA) in Kew (Londen) bewaart het archief van de High Court of Admiralty. Dit archief bevat naar schatting veer- tigduizend in het Nederlands ge- schreven brieven en documenten. Dat is een deel van de buit die En- gelse kapers in de zeventiende en achttiende eeuw veroverden op Ne- derlandse schepen. Die buit bevat brieven van en aan zeelieden en kooplieden en hun familieleden, scheepsjournalen, aanbevelings- brieven, ladingboekjes en kwitan- ties. Eeuwenlang lagen ze in de donkere kelders van het High Court of Admiralty, zonder dat iemand er- naar omkeek. Sommige brieven zijn tot op de dag van vandaag niet ge- opend. Papieren erfgoed Een klein deel van dit materiaal is in het kader van het nationale pro- gramma voor het behoud van het papieren erfgoed, Metamorfoze, ge- digitaliseerd. Dit heeft een kleine negenduizend scans opgeleverd. Taalkundige Nicoline van der Sijs heeft samen met het Meertens Insti- tuut en met subsidie van het Prins Bernard Cultuurfonds het initiatief genomen deze scans te ontsluiten en te transcriberen. “Het werk wordt uitgevoerd door een grote groep vrijwilligers. Een kleine honderd- vijftig enthousiaste medewerkers is inmiddels aan de slag.” VolgensVan der Sijs is deze vorm van crowd sourcing een groot suc- ces en zijn de resultaten van uitste- kende kwaliteit, mede doordat vrij- willigers elkaars werk controleren. “Om de scans te ontsluiten voor we- tenschappelijk onderzoek, worden ze in het project voorzien van in- houdelijke metadata. Daarnaast transcriberen de vrijwilligers zoveel mogelijk scans. Zo ontstaat er een interessant corpus voor onderzoek en wordt het bijvoorbeeld mogelijk het achttiende-eeuwse taalgebruik van de gewone man te vergelijken met de meer formele taal die werd gebezigd in bijvoorbeeld literaire teksten.” Waren de verschillen echt zo groot of hebben we dat wellicht altijd overschat? De waarheid kan bin- nenkort boven tafel komen”, zegt Van der Sijs. http://tinyurl.com/cmwnrtv Inscannen van oude handschriften maakt ze voor iedereen toe- gankelijk. Maar de computer kan er dan nog niet in zoeken. Honderden vrijwilligers die de documenten woord voor woord overtikken lossen dit probleem op. Twee praktijkvoorbeelden. De buit bestaat uit bits en bytes Handgeschreven Militie- registers worden thuis overgetikt. Erica Renckens De laatste jaren hebben archieven, bibliotheken en onderzoeksinstel- lingen veel tijd en geld gestoken in het digitaliseren van hun collecties. Hoewel de resultaten van Optical Character Recognition (OCR) lang niet perfect zijn, is veel van het ge- drukte materiaal al redelijk goed te doorzoeken met behulp van deze techniek. Voor oude drukken en handschriften is de situatie een stuk minder rooskleurig. Je kunt ze wel inscannen en daarna op een scherm bekijken, maar de computer kan er dan nog niet in zoeken. Verschil- lende nieuwe technieken en crowd- sourcing-projecten moeten hier ver- andering in brengen. Afgelopen november lanceerde het 3 Virtueel samenwerken steeds gemakkelijker 3 Loe de Jong binnenkort nog beter op het net 4 Een goede manier om data te bewaren is verboden 4 Oude korfbalclubs nu in handig register 5 Bas Savenije van de KB wil alles digitaal 6 De humanities slaan steeds meer het e-pad in 7 De hits van het Centraal Bureau voor de Statistiek 8 Ewoud Sanders wil iets doen voor de KB Zonder handwerk lukt het nog niet Jaargang 6 | nummer 3 Nieuwsbrief over data en onderzoek in de alfa- en gamma- wetenschappen. E-data & Research verschijnt drie keer per jaar en wordt mogelijk gemaakt door: DANS, CentERdata, CBS, CLARIN-NL, Huygens ING, Koninklijke Bibliotheek en de Vereniging voor Geschie- denis en Informatica E - DATA & RESEARCH E - DATA & RESEARCH februari 2012 1 Henny van Schie van het Nationaal Archief foto Leo van Velzen COLOFON Uitgever: Stichting Uitgeverij E-data & Research Den Haag Redactieadres: Postbus 93067, 2509 AB Den Haag, 070-3446484 [email protected] Redactie: Inge Angevaare, Eric Bal- ster, Heidi Berkhout, Ronald van der Bie, Peter Boot, Warna Oosterbaan (hoofd-/eindredacteur), Thijs Hermsen, René van Horik, Erica Renckens Redactiesecretariaat: Lucas Pasteuning Aan dit nummer werkten mee: Ingrid Dillo, Ilya van Marle, Ewoud Sanders, Steamwork Graphics, Maarten Streefkerk, Milja van Tielhof, Leo van Velzen, Rosa Vitalie Opmaak: Colette Sloots, Haarlem Productie: Amsterdam University Press Druk: Ten Brink, Meppel Oplage: 9100 ISSN: 1872-0374 E-data & Research is online te raadple- gen op www.edata.nl. Toezending is kosteloos aan relaties van de stake- holders en op verzoek aan studenten in de alfa- en gammarichtingen. Stadsarchief Amsterdam de website VeleHanden.nl. Via deze website kan iedereen helpen om de Militie- registers online doorzoekbaar te ma- ken. In deze handgeschreven regis- ters staan de namen en gegevens van alle dienstplichtige mannen van 1815 tot en met 1941. De gegevens van elke scan worden door twee vrijwilligers overgetypt, waarna een controleur zich ervan verzekert dat alles correct is overgenomen. Als dank krijgen de vrijwilligers toe- gang tot informatie uit de Militie- registers over hun eigen familie. Eind december, amper twee maan- den na lancering, had VeleHan- den.nl al bijna 800 leden die geza- menlijk bijna 150.000 scans hadden ingevoerd. Het Stadsarchief is over- weldigd door dit resultaat en is er van overtuigd dat deze vorm van crowd sourcing de toekomst is voor de culturele sector. Het Amster- damse archief is niet de enige die de crowd inzet om data te ontsluiten; aan het Meertens Instituut lopen geregeld vrijwilligersprojecten, mo- menteel rond de Gekaapte Brieven. Vrijwel foutloos Het grote voordeel van de inzet van een grote hoeveelheid vrijwilligers is dat de gegevens zonder veel kos- ten volledig beschikbaar worden, en toch vrijwel foutloos worden ge- transcribeerd. Nadeel van het woord voor woord overtypen is de grote in- spanning die geleverd moet wor- den: als ‘Jansen’ tienduizend keer voorkomt, zal hij ook tienduizend keer ingetypt moeten worden. “Die arbeidsintensieve aanpak is voor zulke projecten onvermijde- lijk, omdat je streeft naar volledig- heid”, aldus Henny van Schie, ar- chivaris bij het Nationaal Archief. Zelf werkt hij binnen het CATCH- Plus-project Scratch4All aan een computerprogramma dat digitale handschriften met een relatief ge- Het Prize Papers Project De Engelse kapers beperkten hun buit niet tot Hollandse schepen. In twee eeuwen zijn tienduizenden Franse, Spaanse, Portugese, Deense, Zweedse, Duitse, Itali- aanse en Amerikaanse schepen in Engelse havens opgebracht. Om te bepalen of een schip rechtmatig was veroverd werd er een proces gevoerd en werd de bemanning ondervraagd. Functionarissen van het Britse High Court of Admiralty zorgden voor de administratieve begelei- ding. De verhoren van de gevan- gen genomen bemanningsleden vonden plaats aan de hand van een standaard vragenlijst van VERVOLG OP PAGINA 3 achttien en later zelfs vierendertig vragen over herkomst, route, be- stemming, tonnage, lading en de eigenaren van het schip en over herkomst, nationaliteit, leeftijd en migratiegeschiedenis van de be- manning. De antwoorden werden door tolken vertaald en in het En- gels genoteerd. Dit materiaal levert een schat aan informatie op die zeer waardevol is voor de maritieme geschiede- nis, maar bijvoorbeeld ook voor migratiestudies en de vroege Amerikaanse geschiedenis. De oudste Nederlandse academi- sche uitgeverij, Koninklijke Brill NV, heeft het initiatief genomen deze internationale bron te digita- liseren en te voorzien van inhou- delijke metadata. Brill-directeur en maritiem historicus Perry Moree vindt dat de bron uitste- kend past in Brill's online re- search collecties. In totaal zullen er ongeveer 300.000 scans wor- den gemaakt. Het Prize Papers Project zal in fasen worden uitge- voerd en start met de achttiende eeuw. Het is de bedoeling dat het eerste deel van het materiaal in de tweede helft van 2012 als betaalde online database be- schikbaar is voor wetenschappe- lijk onderzoek. De inhoud van één van de do- zen uit het archief van de High Court of Admiralty. De docu- menten bevatten de verhoren van door Engelse kapers ge- vangen genomen zeelieden.

Transcript of Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een...

Page 1: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

INHOUD

Gekaapte brieven en

verhoren toegankelijk

gemaakt voor onder-

zoek. Ingrid Dillo

The National Archives (TNA) inKew (Londen) bewaart het archiefvan de High Court ofAdmiralty. Ditarchief bevat naar schatting veer-tigduizend in het Nederlands ge-schreven brieven en documenten.Dat is een deel van de buit die En-gelse kapers in de zeventiende enachttiende eeuw veroverden op Ne-derlandse schepen. Die buit bevatbrieven van en aan zeelieden enkooplieden en hun familieleden,scheepsjournalen, aanbevelings-brieven, ladingboekjes en kwitan-ties. Eeuwenlang lagen ze in dedonkere kelders van het High CourtofAdmiralty, zonder dat iemand er-naar omkeek. Sommige brieven zijntot op de dag van vandaag niet ge-opend.

Papieren erfgoedEen klein deel van dit materiaal isin het kader van het nationale pro-gramma voor het behoud van hetpapieren erfgoed, Metamorfoze, ge-digitaliseerd. Dit heeft een kleinenegenduizend scans opgeleverd.

Taalkundige Nicoline van der Sijsheeft samen met het Meertens Insti-tuut en met subsidie van het PrinsBernard Cultuurfonds het initiatiefgenomen deze scans te ontsluitenen te transcriberen. “Het werk wordtuitgevoerd door een grote groepvrijwilligers. Een kleine honderd-vijftig enthousiaste medewerkers isinmiddels aan de slag.”Volgens Van der Sijs is deze vormvan crowd sourcing een groot suc-ces en zijn de resultaten van uitste-kende kwaliteit, mede doordat vrij-willigers elkaars werk controleren.“Om de scans te ontsluiten voor we-tenschappelijk onderzoek, wordenze in het project voorzien van in-houdelijke metadata. Daarnaasttranscriberen de vrijwilligers zoveelmogelijk scans. Zo ontstaat er eeninteressant corpus voor onderzoeken wordt het bijvoorbeeld mogelijkhet achttiende-eeuwse taalgebruikvan de gewone man te vergelijkenmet de meer formele taal die werdgebezigd in bijvoorbeeld literaireteksten.”Waren de verschillen echt zo grootof hebben we dat wellicht altijdoverschat? De waarheid kan bin-nenkort boven tafel komen”, zegtVan der Sijs.

http://tinyurl.com/cmwnrtv

Inscannen van oude handschriften maakt ze voor iedereen toe-gankelijk. Maar de computer kan er dan nog niet in zoeken.Honderden vrijwilligers die de documenten woord voor woordovertikken lossen dit probleem op. Twee praktijkvoorbeelden.

De buit bestaat uit bits en bytes

Handgeschreven Militie-

registers worden thuis

overgetikt. Erica Renckens

De laatste jaren hebben archieven,bibliotheken en onderzoeksinstel-lingen veel tijd en geld gestoken inhet digitaliseren van hun collecties.Hoewel de resultaten van OpticalCharacter Recognition (OCR) langniet perfect zijn, is veel van het ge-drukte materiaal al redelijk goed tedoorzoeken met behulp van dezetechniek. Voor oude drukken enhandschriften is de situatie een stukminder rooskleurig. Je kunt ze welinscannen en daarna op een schermbekijken, maar de computer kan erdan nog niet in zoeken. Verschil-lende nieuwe technieken en crowd-sourcing-projecten moeten hier ver-andering in brengen.Afgelopen november lanceerde het

3Virtueel samenwerkensteeds gemakkelijker

3Loe de Jong binnenkortnog beter op het net

4Een goede manier om datate bewaren is verboden

4Oude korfbalclubs nuin handig register

5Bas Savenije van de KBwil alles digitaal

6De humanities slaansteeds meer het e-pad in

7De hits van het CentraalBureau voor de Statistiek

8Ewoud Sanders wiliets doen voor de KB

Zonder handwerklukt het nog nietJaargang 6 | nummer 3

Nieuwsbrief overdata en onderzoekin de alfa- en gamma-wetenschappen.

E-data & Research verschijntdrie keer per jaar en wordtmogelijk gemaakt door:DANS, CentERdata, CBS,CLARIN-NL, Huygens ING,Koninklijke Bibliotheek ende Vereniging voor Geschie-denis en Informatica

E-DATA&RESEARCH

E-DATA&RESEARCH februari 2012 1

Henny van Schie van het Nationaal Archief foto Leo van Velzen

COLOFONUitgever: Stichting Uitgeverij E-data& Research Den HaagRedactieadres: Postbus 93067,2509 AB Den Haag, [email protected]: Inge Angevaare, Eric Bal-ster, Heidi Berkhout, Ronald van derBie, Peter Boot, Warna Oosterbaan(hoofd-/eindredacteur), Thijs Hermsen,René van Horik, Erica RenckensRedactiesecretariaat:Lucas PasteuningAan dit nummer werkten mee:Ingrid Dillo, Ilya van Marle, EwoudSanders, Steamwork Graphics,Maarten Streefkerk, Milja van Tielhof,Leo van Velzen, Rosa VitalieOpmaak: Colette Sloots, HaarlemProductie: Amsterdam University PressDruk: Ten Brink, MeppelOplage: 9100ISSN: 1872-0374E-data & Research is online te raadple-gen op www.edata.nl. Toezending iskosteloos aan relaties van de stake-holders en op verzoek aan studentenin de alfa- en gammarichtingen.

StadsarchiefAmsterdam de websiteVeleHanden.nl. Via deze websitekan iedereen helpen om de Militie-registers online doorzoekbaar te ma-ken. In deze handgeschreven regis-ters staan de namen en gegevens

van alle dienstplichtige mannen van1815 tot en met 1941. De gegevensvan elke scan worden door tweevrijwilligers overgetypt, waarna eencontroleur zich ervan verzekert datalles correct is overgenomen. Als

dank krijgen de vrijwilligers toe-gang tot informatie uit de Militie-registers over hun eigen familie.Eind december, amper twee maan-den na lancering, had VeleHan-den.nl al bijna 800 leden die geza-menlijk bijna 150.000 scans haddeningevoerd. Het Stadsarchief is over-weldigd door dit resultaat en is ervan overtuigd dat deze vorm vancrowd sourcing de toekomst is voorde culturele sector. Het Amster-damse archief is niet de enige die decrowd inzet om data te ontsluiten;aan het Meertens Instituut lopengeregeld vrijwilligersprojecten, mo-menteel rond de Gekaapte Brieven.

Vrijwel foutloosHet grote voordeel van de inzet vaneen grote hoeveelheid vrijwilligersis dat de gegevens zonder veel kos-ten volledig beschikbaar worden, entoch vrijwel foutloos worden ge-transcribeerd. Nadeel van het woordvoor woord overtypen is de grote in-spanning die geleverd moet wor-den: als ‘Jansen’ tienduizend keervoorkomt, zal hij ook tienduizendkeer ingetypt moeten worden.“Die arbeidsintensieve aanpak isvoor zulke projecten onvermijde-lijk, omdat je streeft naar volledig-heid”, aldus Henny van Schie, ar-chivaris bij het Nationaal Archief.Zelf werkt hij binnen het CATCH-Plus-project Scratch4All aan eencomputerprogramma dat digitalehandschriften met een relatief ge-

Het Prize Papers Project

De Engelse kapers beperkten hunbuit niet tot Hollandse schepen.In twee eeuwen zijn tienduizendenFranse, Spaanse, Portugese,Deense, Zweedse, Duitse, Itali-aanse en Amerikaanse schepenin Engelse havens opgebracht.Om te bepalen of een schiprechtmatig was veroverd werd ereen proces gevoerd en werd debemanning ondervraagd.Functionarissen van het BritseHigh Court of Admiralty zorgdenvoor de administratieve begelei-ding. De verhoren van de gevan-gen genomen bemanningsledenvonden plaats aan de hand vaneen standaard vragenlijst van

VERVOLG OP PAGINA 3

achttien en later zelfs vierendertigvragen over herkomst, route, be-stemming, tonnage, lading en deeigenaren van het schip en overherkomst, nationaliteit, leeftijd enmigratiegeschiedenis van de be-manning. De antwoorden werdendoor tolken vertaald en in het En-gels genoteerd.Dit materiaal levert een schat aaninformatie op die zeer waardevolis voor de maritieme geschiede-nis, maar bijvoorbeeld ook voormigratiestudies en de vroegeAmerikaanse geschiedenis.De oudste Nederlandse academi-sche uitgeverij, Koninklijke BrillNV, heeft het initiatief genomendeze internationale bron te digita-liseren en te voorzien van inhou-delijke metadata. Brill-directeuren maritiem historicus PerryMoree vindt dat de bron uitste-kend past in Brill's online re-search collecties. In totaal zullener ongeveer 300.000 scans wor-den gemaakt. Het Prize PapersProject zal in fasen worden uitge-voerd en start met de achttiendeeeuw. Het is de bedoeling dathet eerste deel van het materiaalin de tweede helft van 2012 alsbetaalde online database be-schikbaar is voor wetenschappe-lijk onderzoek.

De inhoud van één van de do-zen uit het archief van de HighCourt of Admiralty. De docu-menten bevatten de verhorenvan door Engelse kapers ge-vangen genomen zeelieden.

Page 2: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

6 - 10 februari • LeidenBiblical Scholarship and Humanities Com-puting: Data Types, Text, Language and In-terpretationWhat are the requirements for text data basesto allow for the systematic study of ancienttexts, especially Hebrew, Aramaic or Greek bi-blical texts? The question to be discussed bybiblical scholars and ICT specialists is: how todeal with a historically grown and changed setof literary and linguistic data?www.lorentzcenter.nl/lc/web/2012/480/info.php3?wsid=480

7 - 9 februari • KopenhagenHackathon: A Practical Approach to Data-base ArchivingThe large and growing volume of data held inan increasing variety of relational databasespresents a huge challenge to the archivingcommunity. This hackathon, organised by theOpen Planets Foundation, is designed tobridge the gap between digital preservationpractitioners and developers. www.openpla-netsfoundation.org/comment/244

9 februari • UtrechtSURF-onderzoeksdagDeze dag is speciaal bedoeld voor onderzoe-kers en hun ondersteuners. Op de SURF-on-derzoeksdag laten onderzoekers zien hoe ICT-methoden en -hulpmiddelen wetenschappelijkonderzoek, en de presentatie daarvan, kunnenverrijken en vernieuwen. De nieuwste natio-nale en internationale ontwikkelingen zullen derevue passeren.www.surf.nl/ozdag

16 februari • Den HaagDANS-Geonovum Studiemiddag, 'Digitaleduurzaamheid van geodata'Er is sprake van een voortdurende groei vangeo-informatie en ook het gebruik neemt aan-zienlijk toe. Maar hoe zorgen we er nu voor datdeze informatie ook in de toekomst nog teraadplegen is? Reden voor Geonovum enDANS om een studiemiddag over duurzametoegang tot geodata te organiseren.Tijdens deze interactieve bijeenkomst wordtgesproken over de wenselijkheid om geodataop de langere termijn toegankelijk te houden,en welke rol Geonovum en DANS daarbij kun-nen spelen.www.geonovum.nl/dossiers/kennissessies

15 maart • UtrechtDANS-SURFfoundation Symposium Data-beheer in de praktijk. Resultaten van hetCARDS-projectDigitale onderzoeksgegevens krijgen eensteeds grotere rol binnen wetenschappelijkonderzoek. Het CARDS-project ondersteuntonderzoekers bij het beheren van onderzoeks-data. Bij een aantal universiteiten in Nederlandzijn pilots uitgevoerd waarin onderzoekers sa-men met de universiteitsbibliotheek het bewa-ren en beschikbaarstellen van data in de prak-tijk hebben gebracht. Tijdens het symposiumworden de uitkomsten van de pilots gepresen-teerd.www.dans.knaw.nl/content/symposia

19 - 20 maart • Den HaagInteredition. Scholarly Digital Editions,Tools and Infrastructure (Huygens ING)Huygens ING hosts a symposium about Inter-edition, COST (European Cooperation inScience and Technology) Action IS0704.This event will also serve as a springboard forfurther work based on the principles of inter-operability promoted by Interedition.www.textualscholarship.nl/?p=10089

11 - 14 april • GlasgowEuropean Social Science History confe-rence 2012The IISH organizes the ESSHC once everytwo years. The conference does not have acentral theme and welcomes papers about allperiods and subjects. The main objective ofthe conference is to introduce historians whouse the insights and techniques from the so-cial sciences to social scientists that focus onthe past in their research and vice versa.www.iisg.nl/esshc/2012

21 - 27 mei • IstanbulThe eighth international conference onLanguage Resources and Evaluation (LREC)LREC has become the major event on Langu-age Resources (LRs) and Evaluation for Lan-guage Technologies (LT). The aim of LREC isto provide an overview of the state-of-the-art,explore new R&D directions and emergingtrends, exchange information regarding LRsand their applications, evaluation methodolo-gies and tools, activities, industrial uses andneeds, requirements coming from the e-so-ciety, both with respect to policy issues and totechnological and organisational ones.www.lrec-conf.org/lrec2012

AGENDA

De loden letters en digi-tale dartels van StronksPeter BootOp tien januari hield onder grotebelangstelling Els Stronks haar in-augurele rede als hoogleraar Vroeg-moderne Nederlandse letterkundeaan de Universiteit Utrecht. Het on-derwerp van haar rede was de bete-kenis van digitale technieken voorde studie van historische letter-kunde. In hoeverre gaan de ‘lodenletters’ – het langzame lezen en detrage bezinning – samen met watStronks de ‘digitale dartels’ noemt –de speelsheid en de dynamiek vande nieuwe digitale mogelijkheden?Aan de hand van nagelaten onder-zoeksaantekeningen van een be-roemde voorganger op haar leer-stoel, W.A.P. Smit, laat Stronks ziendat er in de traditionele onder-zoekspraktijk een grote afstand istussen analyse en interpretatie. Degrote hoeveelheden digitale tekstmaken het steeds makkelijker pa-tronen en regels te vinden. Maar deletterkundig onderzoeker is juistvaak op zoek naar de afwijkingenvan de regels. Daar komen de iro-nie, de ambiguïteit of de paradoxenin een tekst naar voren. De uitda-ging is er voor te zorgen dat het cre-atief en interpreterend lezen in dedigitale context niet verloren gaan.Stronks pleit in haar oratie voordigitale geletterdheid van de histo-risch letterkundige. Letterkundigenhebben te vaak het proces van digi-taliseren aan anderen overgelaten,en dreigen daardoor met onbruik-baar materiaal hun werk te moetendoen. Letterkundigen moeten aan-dringen op goed doorzoekbare enfoutloze teksten, die voldoen aaninternationale standaards en die zijnvoorzien van adequate metadata.Goed gedigitaliseerd materiaalmaakt onderzoek mogelijk waarinverschillende bestanden worden ge-combineerd, waarbij nu eens vangrote hoogte wordt gezocht naar de

patronen, en vervolgens kan wor-den ingezoomd op betekenisvolledetails. Dat helpt het onderzoek,maar het wordt daarmee ook voorde niet-onderzoeker mogelijk omkennis te nemen van ons verleden,en bijvoorbeeld iets te leren van hoewe in het verleden omgingen metculturele diversiteit.www2.hum.uu.nl/onderzoek/lezin-genreeks/pdf/Stronks_Els_oratie.pdf

EDDI-conferentie metveel XML en QuestasyMaarten StreefkerkDecember jl. vond de derde editievan de EDDI-conferentie (EuropeanDDI Users Group Meeting) plaats.Het SND (Swedish National DataService) was de organiserende par-tij en de University of Gothenburgbood ruimte aan bijna 100 deelne-mers. DDI (Data DocumentationInitiative) is een XML standaard om(meta)data en de levensloop van on-derzoek (van onderzoeksvoorstel totarchivering/disseminatie) te docu-menteren.Tijdens de conferentie werden er-varingen gedeeld, voorbeelden vanwebapplicaties van online-archie-ven en gerelateerd onderzoek ge-toond.Ook demonstreerden softwareont-wikkelaars applicaties zoals DDI-editors, tools voor archivering vanmetadata en conversie-hulpmidde-len. Een aantal applicaties zijn OpenSource of kunnen gratis worden ge-bruikt. CentERdata toonde tijdensde bijeenkomst recente vernieuwin-gen aan webapplicatie Questasy, eendisseminatietool, welke is gebaseerdop de DDI 3 standaard. De belang-rijkste vernieuwingen zijn multi-panel support (waardoor gegevensvan verschillende panels naast el-kaar kunnen worden gepubliceerd)

en de ‘variable basket’, waarmeegebruikers in staat zijn om datasetssamen te stellen uit verschillendestudies, inclusief documentatie. Be-langrijke discussiepunten waren debeperkingen van DDI 3.1 voor ont-wikkelaars en het gebruik van rela-tionele databases (en ook XML da-tabases) om metadata op te slaan.Tijdens de bijeenkomst werd be-kendgemaakt dat DDI versie 3.2 inde loop van 2012 ter beschikkingkomt.www.iza.org/conference_files/EDDI2011/

Mist erfgoed aansluitingbij digitale cultuur?Inge Angevaare‘Digital Strategies for Cultural Her-itage’ (DISH) is de tweejaarlijkseinternationale conferentie die Erf-goed Nederland en Digitaal ErfgoedNederland december jl. organiseer-den. De conferentie is bedoeld omerfgoedinstellingen te stimulerennieuwe strategieën te ontwikkelendie passen in de digitale cultuur.Deze aflevering van DISH gaf een

iets ander beeld dan de organisato-ren wellicht hadden bedoeld. In vijfplenaire toespraken (door interna-tionale cultuurexperts als AmberCase, Samuel Jones, Charles Lead-beater) werd vooral het cultuurbeeldanno 2012 geschetst zonder dat dui-delijk werd wat erfgoedinstellingendaar precies mee kunnen. De cul-tuur anno 2012 ontwikkelt zich ra-zendsnel, het is een van trend naartrend hoppende chaos en waar bin-nen ‘our cell phones change us intocyborgs’ (Amber Case).Van dit alles wordt maar weinig be-waard en voor de wetenschap toe-gankelijk gemaakt. Traditionele erf-goedinstellingen weten nog nietgoed raad met de overdaad aan cul-tuur die het internet biedt. Tekenendwas een parallelsessie over ‘natio-nale infrastructuren’. In Nederlandhebben een aantal partijen, waar-onder de Koninklijke Bibliotheek,Beeld en Geluid en het NationaalArchief, de handen ineen geslagenom hun digitale collecties gecoör-dineerd te aggregeren naar de Euro-pese Europeana portal. Maar hetgaat slechts om metadata waar jenog niet in kunt zoeken. DEN-directeur Marco de Niet zei erover:‘Dit hadden we tien jaar geleden almoeten doen.’

Maar Clifford Lynch van de Coali-tion for Networked Informationconcludeerde: ’The digital shift isdisrupting our organizations in fun-damental ways.’ Het lijkt alsof desector daar eerst nog aan moet wen-nen.www.dish2011.nl

Nog meer slimme toolsvoor geesteswetenschapPeter Boot‘Supporting the Digital Humanities’is de gezamenlijke missie van deprojecten CLARIN en DARIAH, ende naam van de conferentie die deprojecten op 17 en 18 oktober jl.hielden in Kopenhagen. Onder hetambitieuze motto ‘Answering theunaskable’ kwamen infrastructuur-specialisten en digitaal onderzoe-kers bijeen om van gedachten tewisselen over een digitale infra-structuur voor de geestesweten-schappen. Er was een grote Neder-landse delegatie, met vertegen-woordigers van onder ander hetMeertens Instituut, DANS, HuygensING en onderzoekers uit Twente.Tijdens de conferentie werden voor-namelijk datacollecties en slimmetools gepresenteerd, en de infra-structuur waarin data en tools kun-nen worden ingebed. Voor wat be-treft de tools was een gemeen-schappelijke noemer het probleemvan ‘alignment’: het vinden van pa-rallelle plaatsen in bijvoorbeeld eentweetalig corpus, in vergelijkbaremelodieën of in twee versies vaneenzelfde tekst.In de slotsessie kwamen de toe-komstperspectieven voor CLARINen DARIAH aan de orde. Voor beideprojecten zijn aanvragen ingediendvoor erkenning als Europees Re-search Infrastructure Consortium(ERIC). Veel belangstelling bestonder voor het Nederlandse initiatiefom CLARIN en DARIAH samen tevoegen tot CLARIAH.http://cst.ku.dk/sdh2011/

2 februari 2012 E-DATA&RESEARCH

GEHOORD & BIJGEWOOND

Shawn Day, Digital Humanities-Specialist, tijdens een digitaalspel foto’s Inge Angevaare

Page 3: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

Het is een sterke trend: samen-

werken via het net. De universi-

teitsbibliotheken leveren er spe-

ciale werkplaatsen voor. Peter Boot

Steeds meer wetenschappers werken online sa-men in Virtual Research Environments (VRE’s) –wetenschappelijke werkplaatsen die door uni-versiteitsbibliotheken zijn opgezet en die onder-zoekers de mogelijkheid geven om virtueel sa-men te werken. VRE’s kunnen hulpmiddelen voorcommunicatie bieden (een agenda, projectbe-schrijvingen, een weblog), voor samenwerking(een wiki, workspaces met documenten, beheervan apparatuur) en een repository met publicaties,toegang tot de bibliotheekinformatie en anderegegevensbronnen.Jikke de Groot, projectmanager bij de UtrechtseUB, heeft al een flinke ervaring met dit soortomgevingen. “De fase van de grote aanpassingenzijn we voorbij.We zijn er in 2006 mee begonnen,we hebben ook al een groot gebruikersonder-zoek achter de rug en we beheren inmiddels ruim30 virtuele kenniscentra (VKC’s) in alle weten-schapsgebieden.”

Vijanden van de staatEen voorbeeld van een VRE is de omgeving diede Leidse UB opzette voor het project van on-derzoekster Beatrice de Graaf, ‘Enemies of theState’. De Graaf: “Een belangrijk onderdeel is dedatabase die we op reis als wandelend archief ge-bruiken, waar scans uit archieven en teksten in te-rechtkomen. Daarnaast hebben we een soort in-tranet gemaakt, waar mensen van buiten onzeeigen groep congrespapers kunnen uploaden, enwe hebben een publiekssite om de buitenwereldover ons onderzoek te vertellen. Op het momentstaan die componenten nog los van elkaar, maarbinnenkort gaan we de publiekssite dynamischermaken en vullen uit de database.” Er zijn ook welbeperkingen, vindt De Graaf. Soms is het lastigbepaalde documenten terug te vinden. Een zoek-mogelijkheid op concepten zou handig zijn. DeGraaf: “Hoewel de noodzaak van heldere rubri-cering ook je wetenschappelijke ideeën kan aan-scherpen.”De VRE’s zoals de UB’s die beschikbaar stellen,lijken weer net iets anders dan de VRE’s waaraan

het onlangs afgesloten Alfalab-project heeft ge-werkt. In de versie van de UB’s heeft ICT een fa-ciliterende rol, waarbij de gebruikelijke weten-schappelijke processen efficiënter, opener enmeer in teamverband worden uitgevoerd. Bij deAlfalab-achtige VRE’s is sprake van meer fun-damentele wetenschappelijke vernieuwing – diedan ook veel meer experimenteel van aard is. Deomgevingen die Alfalab vorig jaar bij de afron-ding van het project presenteerde waren ‘de-monstrators’, die digitale onderzoeksmogelijk-heden toonden in labs voor onder andere tekst,gebruikersinterfaces, geografische data en le-vensloopgegevens. Het Gislab maakt het bij-voorbeeld mogelijk om historische kaarten tevoorzien van geografische coördinaten en zo tegebruiken in combinatie met een database van

veldnamen. Maar Peter Verhaar, projectleider bijde UB Leiden, ziet geen tegenstelling. “Elke VREbevat tools gericht op het onderzoek én op on-dersteuning van het onderzoeksproces.” Verhaarleidde ook een project van SURF Foundationwaarbij een VRE Starters Kit is gemaakt. De kitbevat informatie die onderzoekers en hun onder-steuners helpt bij het opzetten van een VRE.Daarbij is zowel aan organisatorische als aantechnische aspecten gedacht.

www.uu.nl/university/library/nl/informatie/Pages/VKC.aspxhttp://hum.leiden.edu/history/enemies-of-the-state/www.surffoundation.nl/nl/projecten/Pages/SamenwerkingVREs.aspx

E-DATA&RESEARCH februari 2012 3

illustratie Rosa Vitalie

De opmars van de Virtual Research Environments

De wandelende werkvloer ringe inspanning doorzoekbaar kanmaken. Het project is gericht op deontsluiting van het Archief van hetKabinet der Koningin (1814-1988).Er wordt gebruikgemaakt van soft-ware die is ontwikkeld aan de Rijks-universiteit van Groningen, Monkgeheten.

HerkenningMonk werkt op basis van patroon-herkenning, maar ook hier wordtvan de diensten van vrijwilligers ge-bruikgemaakt. “Vrijwilligers kun-nen via de website helpen omMonkte trainen”, aldus Van Schie. “In eenspelvorm geven zij aan waar in descans de woorden staan en wat erprecies staat. Deze resultaten neemtMonk mee in zijn berekeningen,waardoor de kwaliteit van de her-kenning verbetert.” Monk heeft mi-nimaal vijf voorbeelden van het-zelfde woord in hetzelfde hand-schrift nodig om het een zesde keerenigszins te kunnen herkennen.“Vanaf twintig voorbeelden gaat hetheel goed en bij vijftig bijna per-fect.” Familienamen en geografi-sche namen komen over het alge-meen niet in die aantallen voor ineen handschriftencollectie. Dat be-tekent dat volledige herkenning nogniet haalbaar is, maar dat is ook nietwat het project nastreeft.“Scratch4All wil met Monk een in-strument maken dat onderzoekersen erfgoedinstellingen kunnen ge-bruiken”, licht Van Schie toe. “Netals bij ingescande kranten zal nietelk zoekwoord resultaten opleve-ren, maar wel zoveel dat je gerichten efficiënt verder kunt zoeken.”De resultaten van Scratch4All zul-len in de loop van 2012 ook toe-gankelijk worden voor andere erf-goedinstellingen.

Eén punt voor elkeingevoerde tekstVrijwilligers doen hun werk voorVeleHanden.nl vanuit hun eigenhuis. Via de website kunnen zezich inschrijven, waarna ze eenkorte training volgen. De vrijwilli-gers krijgen vervolgens willekeu-rige scans voorgeschoteld omte transcriberen. Elke scanwordt door twee vrijwilligersovergetypt, waarna een contro-leur checkt of alles goed is over-genomen. Elke ingevoerde scanlevert de vrijwilliger één punt op.Voor vijfentwintig punten kan hijeen scan naar keuze uit de Mili-tieregisters downloaden. Men-sen die geïnteresseerd zijn ingenealogie worden zo gestimu-leerd om mee te werken aan deontsluiting van de registers.

VERVOLG VAN PAGINA 1

Handwerk

foto Leo van Velzen

Peter Boot

In december jl. plaatste het NIOD(Instituut voor Oorlogs-, Holocaust-en Genocidestudies) een digitaleversie online van Het Koninkrijkder Nederlanden in de Tweede We-reldoorlog. De dertig banden vanhet geschiedwerk van Loe de Jongkunnen als pdf-bestanden wordengedownload.De servers stonden roodgloeiend,meldt David Barnouw, NIOD’spersvoorlichter. De eerste dagenmoest in allerijl extra capaciteitworden bijgeschakeld. In decemberis de NIOD site meer bezocht dan inde elf voorafgaande maanden. Er

komen veel enthousiaste reactiesbinnen, zowel van historici als vanhet grote publiek.

Alle delen downloadenOp diverse weblogs en op Twitterwerd na de publicatie ook wel kri-tiek geuit. Om in alle delen te zoe-ken, moet je bijvoorbeeld alle delendownloaden. Barnouw: “Het is waardat mensen die al vaker met digitaleuitgaven hebben gewerkt ook welmet kritiek of suggesties komen,maar we hebben dit ook niet in deeerste plaats voor de voorlopers ge-maakt. Een uitgebreidere versie isbovendien in de maak.”Edwin Klijn, teamleider Diensten

bij het NIOD, vertelt over de plan-nen voor verdere ontsluiting. VanCLARIN is onlangs subsidie gekre-gen voor een samenwerkingsproject(‘Verrijkt Koninkrijk’) met de Uni-versiteit vanAmsterdam en de VrijeUniversiteit waarin de delen door-zoekbaar worden gemaakt. Boven-dien zal de inhoud ter beschikkingkomen in de vorm van Linked OpenData (waarmee de computer tot opzekere hoogte de inhoud kan be-grijpen en koppelen aan andere ge-gevensverzamelingen). Klijn: “Wegaan deze ontsluiting testen in eenonderzoek naar De Jong’s interpre-tatie van de verzuiling tijdens deoorlog.”

De CLARIN-projecten hebben eendoorlooptijd van een jaar. Begin2013 kunnen we dus meer ver-wachten. Klijn: “Maar er zijn nu aleen paar verbeteringen aangebracht.Je kunt nu alle delen in één keer op-halen, doordat we het aanbieden alseen torrent. Binnenkort komen wenog met een bijgewerkte versie vande PDF’s, waarin een aantal errata isgecorrigeerd. En de gegevens zijnbeschikbaar onder heel vrije licen-tievoorwaarden: wie verwijst naarhet NIOD heeft het recht om zelfmet een andere publicatievorm tekomen!”

www.niod.knaw.nl/koninkrijk

Zoeken door de hele Loe de Jong

Page 4: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

4 februari 2012 E-DATA&RESEARCH

Onderzoek naar de bestedingvan tijd gaat meestal metdagboekjes. Maar eensmartphone is veel handiger.Eric Balster

“Je smartphone heb je altijd bij je endat biedt ook mogelijkheden omrespondenten te herinneren aan hetonderzoek”, zegt Henk Fernee, on-derzoeker bij het Sociaal en Cultu-reel Planbureau (SCP). “Hoe korterde tijd tussen de activiteit en de re-gistratie, des te betrouwbaarder dedata”. Zoals in de vorige E-data alwerd gemeld, onderzoekt het SCP ofsmartphones de tot dusver in hetTijdsbestedingsonderzoek (TBO)gebruikte dagboekjes kunnen ver-vangen. Een ander voordeel is datsmartphones extra gegevens (para-data) kunnen vastleggen: wanneerer iets is ingevuld, of de respondentnog iets verbeterd of toegevoegdheeft, en of het sturen van herinne-ringen effect heeft. Het is zelfs mo-gelijk om - met toestemming vande deelnemers - GPS-data van desmartphone uit te lezen en informa-tie te krijgen over verplaatsingen.SCP werkt in dit experiment samenmet CentERdata, dat de smartphoneapplicatie (de App) ontwikkelt. Aaneen eerste test namen 100 personendeel; de helft met eigen smartpho-nes, de andere helft met een inbruikleen gegeven exemplaar. Deonderzoekers van SCP en CentER-data testen eerst uit of smartphonesgeschikt zijn voor het TBO. Een be-langrijke vraag is natuurlijk of desmartphonedata wel vergelijkbaarzijn met de dagboekdata. De dag-boekaanpak is daarom vrijwel éénop één vertaald naar de smartphone.Een andere vraag is of onervarendeelnemers die een smartphone inbruikleen hebben, meer moeite heb-ben met invullen dan ervaren ge-bruikers op hun eigen smartphone.

Want voor een representatief onder-zoek moeten ook mensen zonder ei-gen smartphone mee kunnen doen.Tot slot vallen ook GPS-data onderde test. Fernee: “Natuurlijk speelthier een privacy issue, maar dat is indit onderzoek beter afgedekt dan bijmenig commerciële App.”Nathalie Sonck is net als Ferneevanuit het SCP betrokken bij het ex-periment. “Ik ben vooral geïnteres-seerd in het gebruik van social me-dia; de smartphone biedt goede mo-gelijkheden om daarop verder te ex-perimenteren”, zegt Sonck. In eenvan de volgende experimenten zul-len de onderzoekers kijken of zeook het bel- en sms gedrag kunnenuitlezen. Helemaal interessant isals de deelnemers ook de ervaringenof gevoelens die ze bij hun bezig-heden hebben, kunnen intikken opde smartphone. Dergelijke studiesworden bijvoorbeeld al in GrootBrittannië gedaan onder de naam‘Mappiness’-onderzoek of ‘Expe-rience sampling’. Sonck: “Maaralles op zijn tijd: eerst de geplandeexperimenten afmaken!”

www.scp.nl/Organisatie/Onderzoeksgroepen/Tijd_Media _Cultuur/Tijdsbesteding

Bewaren van bestanden gaatheel goed als je een oudecomputer nabootst op eennieuwe. Maar het mag nietvan Europa. Inge Angevaare

De Europese Commissie financiertveel onderzoek naar de kwetsbaar-heid van digitale gegevens en naaroplossingen voor dat probleem. Eénvan deze projecten is KEEP, Kee-ping Emulation Platforms Portable.Dit project wil handzame applica-ties ontwikkelen, binnen de gren-zen van de wet. Dat bleek niet mo-gelijk, want diezelfde EuropeseCommissie en de lidstaten hebbenwetgeving uitgevaardigd die emu-latie als techniek vrijwel ondoen-lijk maakt.Emulatie is één van de techniekendie wordt gebruikt om digitale ge-gevens voor de lange termijn bruik-baar te houden. Bij de meer bekendemigratietechniek worden digitaleobjecten steeds aangepast aannieuwe hardware/softwareomge-vingen. Maar hierbij gaan altijd ge-gevens verloren en bovendien isdeze methode niet geschikt voorsamengestelde, complexe objectenals bijvoorbeeld computerspellen,software, databases en websites –en juist die komen in de wetenschapveel voor.Bij emulatie laat men de digitalecodes voor wat ze zijn, maar bouwtmen software die nieuwe compu-ters kan laten functioneren als oudecomputers. Op een dergelijk plat-form kan het digitale object draaienin de ‘oorspronkelijke’ omgeving.Daarvoor is dan wel het hele com-plex aan software nodig dat bij deproductie van het digitale object ookaanwezig was: het operating sys-tem, de applicatiesoftware, en alle

mogelijke plug-ins. Al die softwaremoet gekopieerd worden om inde nieuwe omgeving te kunnendraaien.

Moeilijk doenMaar het kopiëren van softwaremag niet volgens Europese richtlij-nen. Dat ontdekte David Andersonvan Portsmouth University die voorhet KEEP-project onderzoek deednaar wat wel en niet is toegestaan.Hij ontdekte een ingewikkeld stelselvan nationale en Europese wetge-ving, zo ingewikkeld dat hij zijneindrapport slechts een Layman’sguide durfde te noemen. Maar hetalgemene beeld was helder: erf-goedinstellingen en data-archievenhebben juridisch gezien geen mo-gelijkheden om software te kopiërennaar emulatoren om zo digitale be-standen bruikbaar te houden. Ookvan elektronische beveiligingen alswachtwoorden moet men afblijven.

Het Nederlandse middenveld wasbreed in de negentiende eeuw.Op de website van het Huygens INGstaan duizenden verenigingen uitdie tijd. Milja van Tielhof

In 1830 werd in Utrecht de Maatschappij voorMoederlijke Liefdadigheid opgericht. De le-den hielpen behoeftige kraamvrouwen meteen groot gezin. De kraamvrouw kon rekenenop bonnen voor vier bossen stro, zeven bro-den, wat kruidenierswaren en zeep, een deken,een stel kleren voor de baby of een mand metkleertjes en luiers. Tussen november en meikregen ze ook wat brandstof. Er waren welvoorwaarden: het gezin moest in Utrecht wo-nen en er moesten al drie kinderen zijn. Ver-der moest de zwangere vrouw zich drie maan-den voor de bevalling melden, zodat de ver-eniging het gedrag van man en vrouw kononderzoeken. De hulp werd ook verstrektwanneer de vrouw beviel van een levenlooskind, maar dan verviel het stel kleren of deluiermand.De Utrechtse Maatschappij is een van de or-

ganisaties in de database Verenigingen voorarmenzorg en armoedepreventie in Neder-land in de negentiende eeuw, een van de driedatabases van verenigingen die in 2011 doorhet Huygens ING zijn gepubliceerd op dewebsite Historici.nl. De tweede betreft Sport-bonden, sportclubs en sportperiodieken tot1940, en geeft een overzicht van de snelleontwikkeling van gymnastiek, hockey, korf-bal, schaken, tennis en voetbal. De derde da-

tabase heet Erkende verenigingen, 1855-1903en bevat alle verenigingen die bij KoninklijkBesluit erkend waren als rechtspersoon. Daar-onder vallen schoolverenigingen, sociëteiten,zangclubs, woningbouwcorporaties en poli-tieke organisaties zoals hetAnti-dagbladzegel-verbond en de Maatschappij tot Nut van denJavaan.Alle drie de databanken bevatten veleduizenden verenigingen.

Bloeiend verenigingslevenIn de loop van 2012 komen er ook nog een da-tabank met rooms-katholieke religieuze broe-derschappen in de negentiende eeuw, een da-tabank met sociale voorzorgfondsen (1827-1880) en een databank met genootschappenvan patriotten en prinsgezinden (1780-1795).Per organisatie worden de oprichtingsdatum,plaats van vestiging en doelstelling gegevenplus, afhankelijk van het project, andere bij-zonderheden zoals de levensbeschouwing vande leden.

Verenigingen waren in de negentiende en eengroot deel van de twintigste eeuw actief opeen opvallend breed terrein. De sterke toe-name van de vrije tijd creëerde ruimte voortoneelgezelschappen, voetbalclubs en ijsver-enigingen. Tegelijkertijd ontstond er doorindustrialisering en door de enorme groei vande grote steden behoefte aan allerlei voorzie-ningen. De overheid bleef zich echter langterughoudend opstellen. Particulieren spron-gen in dat gat en realiseerden in verenigings-verband voorzieningen zoals scholen, bankenvoor microkrediet, bibliotheken, instellingenvoor ziekenzorg, tehuizen voor ongehuwdemoeders enzovoort. Het was tot nu toe nieteenvoudig beter zicht te krijgen op dat bloei-ende verenigingsleven. Met deze databaseswordt dat een stuk gemakkelijker.

www.Historici.nl/Onderzoek/Projecten/Armenzorgverenigingenwww.Historici.nl/Onderzoek/Projecten/Sportverenigingenwww.Historici.nl/Onderzoek/Projecten/ErkendeVerenigingen

Sportvereniging HFC in 1887

David Anderson foto Inge Ange-vaare

Invulscherm van de smartphone

Tot Nut van den Javaan

En weer ligt hetauteursrecht dwars

Eten en je wassenop de smartphone

Grote uitgevers alsMicrosoft blijken in depraktijk niet of nauwelijksbereid om software enbroncodes af te staan

Het lijkt misschien vreemd dat er zomoeilijk wordt gedaan over het ma-ken van kopieën van software – hac-kers doen het aan de lopende band.Maar publieke instellingen willenbinnen de wet opereren, en het ko-piëren van software naar emulatorenis juridisch gezien iets heel andersdan het gebruiken van de softwarevolgens de licentie. Die emulatorenkomen open source beschikbaar, enzo komen er veel kopieën op demarkt.De auteursrechtwetten kennen welenkele kleine uitzonderingen op hetgebod ‘niet kopiëren’ (voor privé-gebruik, bijvoorbeeld), maar die uit-zonderingen bieden geen soelaasvoor de emulatietechniek. Tijdenseen workshop in Den Haag verteldeAnderson E-data dat het EuropeseKEEP-project zelfs zijn eigen re-sultaten niet kan opleveren zonderEU-regels te overtreden.Grote commerciële uitgevers vansoftware als Microsoft blijken in depraktijk niet of nauwelijks bereidom software en broncodes af testaan. Zij beschermen hun recht omde software – ook al is die oud – tevermarkten. Een soort deponerings-plicht voor duurzaamheidsprojec-ten zou daar een eind aan kunnenmaken, maar die bestaat niet voorsoftware.Het is de hele erfgoedsector duide-lijk dat de wettelijke regels ten aan-zien van auteursrecht die in het ana-loge tijdperk zijn ontwikkeld in hetdigitale tijdperk dringend aanpas-sing behoeven. Maar dat proces ver-loopt uiterst traag. De uitgevers vansoftware hebben een sterke lobbyin Brussel om hun belangen te be-schermen.

www.keep-project.eu

Page 5: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

Er zijn wel veel klachten over de lopendedigitaliseringsprojecten in Nederland. Hetis te onoverzichtelijk, het verloopt onge-coördineerd en de scans vertonen veel fou-ten. Moet de KB hier niet regelend optre-den?“Het goede nieuws is natuurlijk dat er al zo-veel is dat er over gemopperd kan worden. Ie-dereen is tien jaar geleden enthousiast aan degang gegaan, vaak op zijn eigen manier. Maarinderdaad, het wordt wel tijd dat het gaat con-vergeren. We hebben daarom samen met deuniversiteitsbibliotheken van Amsterdam enLeiden een plan gemaakt om tot een standaardte komen en vast te stellen waar de prioritei-ten liggen. En wat de scans betreft: we zijnvoortdurend aan het werk om de ocr-technie-ken te verbeteren, maar perfect zal het nooit

worden. Het is een hulpmiddel.”

U heeft zich altijd een groot voorstanderbetoond van open access, het beginsel datwetenschappelijke artikelen vrij beschik-baar moeten zijn op internet. Hoe staat hetdaarmee?“Ik zie dat de bekendheid van het fenomeentoeneemt, dat het aantal repositories (verza-melingen van publicaties op de website vaneen universiteit – wo) toeneemt en dat ersteeds meer artikelen in komen. Ook komen ersteeds meer tijdschriften die open access zijn.Maar bij de onderzoekers leeft het veel minderen bij de bestuurders van universiteiten gaathet ook nog maar langzaam. Daar staat tegen-over dat NWO een paar fantastische stappenheeft gedaan, ze propageren open acces luid enduidelijk en steunen open acces tijdschriften.”

Toch zit er nog niet veel schot in.“Nee. Zolang onderzoekers afhankelijk zijnvan een beoordelingssysteem waarin ze be-oordeeld worden op publicaties in tijdschriftenmet een hoge impact factor, en zolang tijd-schriften met een hoge impact factor meestalniet in het publieke domein zitten, komt erweinig beweging in. Bovendien zie je dat degevestigde wetenschappelijke uitgevers stren-ger aan het worden zijn, ze zijn toch wel bangvoor die repositories.Want stel: je zoekt in eenwereldwijde catalogus als WorldCat naar eenartikel, en je ziet dat het een Elsevier-tijd-schrift is. Maar op de site van Elsevier krijg jeaccess denied, of betaal 30 dollar. Als dan opde site vanWorldCat ook een knop is waarmeeje van datzelfde artikel de finale auteursversieuit een repository kunt halen, dan zou dat er-toe kunnen leiden dat de universiteiten hunabonnementen gaan opzeggen. En daarom zieje nu dat de uitgevers steeds minder geneigdzijn toestemming te geven voor opname ineen repository.”

Waar moet je het dan van hebben?“Uiteindelijk van de financiers en de univer-siteitsbestuurders. Ze kunnen best wat meerdruk op de uitgevers zetten. Die business gaatnog steeds heel goed en de uitgevers zoudenbest eens wat meer lef kunnen tonen bij hetverkennen van nieuwe modellen. De weten-schappers blijven toch wel kiezen voor huntoptijdschriften.”

Heeft het papieren boek nog

toekomst? Alleen als het ge-

digitaliseerd is, vindt ’s lands

bibliothecaris. Een gesprek

over e-books, copyrights en

open access. Warna Oosterbaan

“In 2025 ongeveer”. Bas Savenije hoeft er nietlang over na te denken. Ik had hem gevraagdwanneer de KB zijn ambitieuze doel bereikt.Alle boeken, kranten en tijdschriften die sinds1470 zijn verschenen worden gedigitaliseerd.Dat staat te lezen in de recente beleidsnotaDetoekomst van de KB is digitaal.

Waarom moet dat eigenlijk, dat digitalise-ren?“Wat gedigitaliseerd is, wordt meer en betergebruikt. Daar komt bij dat de tendens is: al-les wat niet digitaal is, bestaat niet. Dat wordtsterker naarmate er meer mensen in de digitalewereld zijn opgegroeid.Gebruik is onze missie en daarom is digitali-seren zo belangrijk. Bewaren is ook belang-rijk, maar je bewaart ergens voor. Voor de toe-komst? Tsja. Dat zeg je nu en over tien jaarook. Je bewaart voor nu!”

Waar hangt het vanaf of dit megaprojectgaat lukken?“Van de financiering, van mogelijkheden totsamenwerking, van kwesties rond het au-teursrecht, van het tempo waarin materiaal di-gitaal beschikbaar komt. Onze inspanningenzijn er nu op gerichtom alles op te slaanwat op een goeie ma-nier digitaal beschik-baar komt. Het is zonde van de moeite omboeken die worden uitgegeven weer te digita-liseren als er een digitale versie beschikbaar is.We zijn al aan het praten met de uitgeversbondom de aanlevering te versimpelen. En bij dekranten slaan we de digitale versie ook al op.Dat is oneindig veel gemakkelijker dan ach-teraf inscannen. We mogen ze meestal niet ophet net zetten, maar voor gebruik in de bibli-otheek, on site, is het voor ons en voor de be-zoekers een uitkomst.”

Dus binnenkort slaat u van een boek nietmeer de papieren versie op, maar wel dedigitale?“Ja, en daar willen we zo snel mogelijk naartoe. Ik denk dat de ontwikkeling gaat verlopenvia de e-books. Nu is het nog zo dat het pa-pieren boek het primaat heeft in de hoofdenvan de mensen en dat de digitale versie daar-van een afgeleide is. Maar als je een e-bookbekijkt, moet je vaststellen dat het al een equi-valent is.Als die e-books gaan aanslaan, zul jenog wel gedrukte boeken houden, maar dat zalgeleidelijk een vorm van printing on demandworden: als je het wilt, krijg je een gedruktexemplaar. Maar dan wordt het natuurlijk hart-stikke leuk om te kunnen zeggen: doe mijmaar een hard kaft, of grote letters, of geïllus-treerd en in kleur, of juist niet en in dundruk.

E-DATA&RESEARCH februari 2012 5

Bas Savenije, directeur van de Koninklijke Bibliotheek:

“We gaan binnenkort niet het boek,maar de digitale versie opslaan”

Bas Savenije, directeur van de KB foto Ilya van Marle

Drs. J.S.M. SavenijeDrs. J.S.M. Savenije (Den Haag, 6 augus-tus 1947) studeerde wijsbegeerte (afstu-deerrichting: logica) aan de UniversiteitUtrecht. Hij is Algemeen directeur van deKoninklijke Bibliotheek sinds 1 juni 2009.Daarvoor was hij onder meer 15 jaar langBibliothecaris van de Universiteit Utrecht.

Wie wint de Nederlandse Dataprijs 2012?

Gevolg: het gedrukte exemplaar wordt een af-geleide versie en de digitale versie krijgt hetprimaat. En voor ons wordt het al snel on-doenlijk om al die gedrukte varianten te be-waren. Voor de mensen die geïnteresseerd zijnin de geschiedenis van het boek en in druk-technieken zullen we overigens nog wel pa-pieren boeken blijven opslaan.”

Maar beschikbaar maken, via het net bij-voorbeeld, wordt nog steeds bemoeilijktdoor de auteursrechten.“Zeker. Het zou verschrikkelijk helpen als zich

al een gangbaar modelvoor de e-books zouhebben uitgekristalli-seerd. Een model

waarin je kunt kiezen tussen bijvoorbeelddownloaden of dat je er on-line bij kunt en daarwat voor betaalt - op een Spotify-achtige ma-nier - dat is er nog niet. Als je het wel zou heb-ben, zou je je kunnen voorstellen dat je op diemanier ook kijkt naar de oude boeken waarnog wel keurig rechten op zitten, en die we algedigitaliseerd hebben. Want dat lijkt dan welveel op elkaar en dan kun je wellicht in de-zelfde lijn relatief eenvoudig afspraken makenover ouder materiaal. Dat zal trouwens nietgratis beschikbaar komen, verwacht ik.”

INTERVIEW

Bent of kent u eenonderzoeker of onder-

zoeksgroep die eenbijzondere bijdrage

levert aan de weten-schap, juist door de

noeste arbeid op hetgebied van data-

archivering?Nomineer hem of

haar voor de Neder-landse Dataprijs!

De Nederlandse Dataprijs geeft waardering aande vaak slecht zichtbare onderzoekers die deniet altijd dankbare arbeid verrichten om data bijelkaar te brengen, te documenteren en toegan-kelijk te maken.Er is een prijs voor de humaniora en socialewetenschappen en er is een prijs voor deexacte en technische wetenschappen.Uit de voorgedragen datasets worden voorbeide prijzen drie genomineerden gekozen.De prijsuitreiking vindt in het najaar plaats.Denkt u kans te maken op de prijs, of kent u een

collega-onderzoeker die met de prijs in het zon-netje kan worden gezet? Op www.dans.knaw.nlstaat meer informatie over de prijs, de procedureen de jury’s. U kunt ook contact opnemen metHeiko Tjalsma (DANS), secretaris van de Data-prijs voor de humaniora en sociale wetenschap-pen via [email protected] of metJeroen Rombouts (3TU.Datacentrum), secretarisvan de dataprijs voor de exacte en technischewetenschappen via [email protected] niet om voor 1 juli uw nominatie door tegeven!

O P R O E P

Page 6: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

Wat is het verschil tusseneen goede en een slechteroman? Misschien dat decomputer er ooit achterkomt. In de alfa- en gamma-wetenschappen valt er digi-taal nog veel te ontdekken.Warna Oosterbaan

Het voordeel van die e in e-huma-nities is dat hij zoveel kan beteke-nen: electronic, enhanced, experi-mental. Al die termen komen aanbod als je met Sally Wyatt praatover dit vakgebied. Wyatt (1959),van oorsprong Canadese, woontsinds een jaar of tien in de lage lan-den en spreekt vlekkeloos Neder-lands. Ze is van opleiding econoomen een expert op het gebied vande maatschappelijke gevolgen vantechnologische veranderingen. On-der haar leiding is een jaar geledenhet e-humanities programma van deKNAW van start gegaan.Maar wat zijn e-humanities?We sprekenWyatt in het opvallendegebouw aan de rand van Amster-dam waar ook het Meertens-insti-tuut is gehuisvest. Ooit was dit mo-dernistische be-ton het hoofdkan-toor van Coca-Cola. Nu staat inde hal vlak bij de entree als een ko-lossaal relikwie een houten bureaumet talloze laatjes, deurtjes en af-legplanken. Het is Het bureau,waaraan P.J. Meertens, de vroegeredirecteur van het Instituut voor Dia-lectologie, Volks- en Naamkundezijn werk deed, en dat vereeuwigdwerd in de befaamde romancyclusvan J.J. Voskuil.

PatronenDe e-humanities behoren tot eenheel andere wereld. “In het alge-meen bedoelen we daarmee het ge-bruik van digitale tools en technie-ken in de alfa- en gammaweten-schappen”, zegt Wyatt. “En eigen-lijk zijn er twee richtingen. Je kuntdenken aan het gebruik van digitaletechnieken om data te analyseren,

6 februari 2012 E-DATA&RESEARCH

Het overzicht toont een aantal data-bestanden die recent voor onderzoe-kers beschikbaar zijn gekomen bijCBS, CentERdata, Huygens ING (Huy-gens Instituut en Instituut voor Ne-derlandse Geschiedenis) en DANS.

Centraal Bureau voor de StatistiekEen volledig overzicht van de CBS-bestandenstaat op www.cbs.nl/microdata• Waarde onroerende zaken, 2009-2010

• Productiestatistieken: Autohandel, 2009;Bouwnijverheid, 2009; Commerciële diensten,2009; Delfstoffenwinning 2009; Detailhandel,2009; Energie, 2009; Groothandel, 2009;Industrie, 2009; Transport, 2009

• Algemene Nabestaandenwet, 2001-2006

• Bijstandsuitkeringenstatistiek, Registraties,2001-2006

• Gemeentelijke Basisadministratie Personen,1995-2011

• Mobiliteitsonderzoek Nederland, 2009

• Integrale veiligheidsmonitor, 2010

• ICT huishoudens en personen, 2008

• Onderzoek verplaatsingsgedrag in Neder-land, 2010

CentERdata LISS Data ArchiveDe LISS-bestanden zijn kosteloos beschikbaarvia www.lissdata.nl/dataarchiveStudies LISS panel• Validating the Dutch SF-6D and EQ-5D UsingPairwise Comparisons and Best-Worst Scaling(Jonker, M., Donkers, B., Bekker-Grob, E. De),april 2011

• Religion and Ethnicity - Wave 4 (CentER-

data), januari 2011/februari 2011

• Personality - Wave 4 (CentERdata), mei2011/juni 2011

• The public’s opinion on the control of terro-rism: Attitudes and willingness-to-pay - Wave 2(Wilsem, J. v., Woude, M. v.d.), maart 2011

• The Impact of Style and Rhetoric on the Per-ception of Right-Wing Populist Leaders (Bos,L.), februari 2011

• Social Integration and Leisure - Wave 4(CentERdata), februari 2011/maart 2011

• Civic Participation, (Ingen, E. J. v.), mei 2011• Alcohol Use and Coping with Stress -Wave 1,(Crutzen, R.), januari 2011

• Alcohol Use and Coping with Stress -Wave 2,(Crutzen, R.), april 2011

• Telephone use and regional elections,(CentERdata), maart 2011

Studies Immigrant panel• Religion and Ethnicity - Wave 1 ( CentER-

data), januari 2011

• Personality - Wave 1 ( CentERdata), mei 2011

• Action Control Scale (ACS-90) (Chasiotis,A., Bender, M., Vijver, F. van de), juni 2011

Huygens INGDe bestanden staan op www.historici.nl• Weensche gezantschapsberichten van 1670

tot 1720 (2 delen)• Holland bestuurd. Teksten over het bestuurvan het graafschap Holland 1299-1567

• Bronontsluiting voor historisch onderzoek• Rijmkroniek van Holland (366-1305)• Waalse kerken 1601-1697

• Overzicht van de door bronnenpublicatieaan te vullen leemten der Nederlandse ge-schiedkennis

SINDS KORT BESCHIKBAAR

De humanitiesgaan nu ook e

CLARIN krijgtERIC-statusTaaltechnologieproject CLARIN iserkend als European Research In-frastructure Consortium (ERIC),een rechtspersoon voor onder-zoeksinfrastructuren. EC-voorzitterBarroso zal de CLARIN ERIC bin-nenkort ondertekenen. Nederlanden acht andere landen en organisa-ties zijn vooralsnog de stichtendeleden van de CLARIN ERIC.Binnenkort starten ook de projectendie gehonoreerd zijn binnen dederde oproep van CLARIN-NL.Geïnteresseerden mochten voor-stellen indienen om bestaande dataen toepassingen uit de geestes-wetenschappen naar CLARIN-stan-daarden om te zetten, specifieke on-derzoekers werden uitgenodigd eenvoorstel in te dienen om de sprei-ding over de verschillende geestes-wetenschappen te garanderen. Vier-entwintig onderzoekers hebben eenvoorstel ingediend. In totaal zijndertien projecten gehonoreerd. (ER)

Wurdboek inTaalbank INLHet volledige Wurdboek fan deFryske Taal (WFT) is opgenomen inde Geïntegreerde Taalbank van hetInstituut voor Nederlandse Lexico-logie (INL). De benodigde aanpas-singen en integratie in de Taalbankzijn financieel mogelijk gemaaktdoor CLARIN-NL. De Fryske Aka-demy begon in 1938 aan het Wurd-boek, in 2011 is het vijfentwintigsteen laatste deel gepresenteerd. HetWFT bevat zo’n 115.000 lemma’smet hun betekenis, uitspraak, dia-lectische varianten, vervoegingen,zegswijzen en etymologie. Denieuwste woorden in het over-zichtswerk stammen uit 1975 – hetwoord kompjûter staat er nog net in.(ER)

http://gtb.inl.nl

om patronen zichtbaar te maken ingrote hoeveelheden onderzoeks-gegevens. Een andere richting ise- humanities als een onderwerpbinnen de wetenschapscultuur: hoe

maken onderzoe-kers gebruik vandigitale tools?Hoe beïnvloeden

internet, e-mail en de tekstverwer-ker de wetenschapsbeoefening?”Wyatt en haar staf hebben van deKNAW vijf jaar de tijd gekregen.“Ons doel is de samenwerking tus-sen verschillende instituten en uni-versiteiten te bevorderen, en om vanelkaar te leren.”Want hoe gewoon de computer inhet leven van de modale historicus,socioloog, taalkundige of musico-loog inmiddels ook is, dat je er meermee kunt dan een artikel schrijvenof e-mailen is bij hen veel minderbekend. Dat literatuurwetenschap-pers er de authenticiteit van eenmanuscript – heeft Shakespeare dittoneelstuk werkelijk geschreven? –mee kunnen vaststellen en dat ar-cheologen met behulp van digitaletechnieken een aannemelijke simu-

latie van een prehistorisch dorp kun-nen maken is inmiddels al bewe-zen. Maar dat je verborgen structu-ren en patronen uit historische bron-nen kunt lichten, dat je onverwachtesamenhangen en ontwikkelingen inliedteksten kunt zien en dat je wel-licht ooit kunt aantonen dat het ver-schil tussen een goede en slechteroman niet alléén een kwestie vanslechte kritiek is – dat zijn óók be-loften van de e-humanities.

VolksliedjesVoorlopig ligt binnen het projectvan de KNAW het accent op drieprojecten waarbinnen steeds drieonderzoekers zijn aangesteld. Heteerste heet Tunes & Tales. In sa-menwerking met drie universitei-ten, het Meertens Instituut en deFryskeAkademy wordt in een grootcorpus van volksliedjes en volks-verhalen gezocht naar de ontwikke-ling van de vormen en de thema’s inde tijd. Zo is misschien een model temaken van de wijze waarop eenorale traditie zich ontwikkelt. En,ook niet onbelangrijk, zo kan eenbegin worden gemaakt met de auto-

matische classificering van het cor-pus – en dat is weer erg handig omde collectie toegankelijk te makenvoor etnomusicologisch onderzoek.Al even ambitieus is het project TheRiddle of Literary Quality, waaraande Universiteit van Amsterdam, deFryske Akademy en het Huygens-ING meedoen. “Kan een computerzien of een roman goed of slechtis? Natuurlijk zijn sociale en cultu-rele factoren erg belangrijk om deontvangst van een literaire tekst teverklaren”, zegt Wyatt. “Maar wenemen aan dat formele aspecten ookeen rol spelen. Het gebruik vanmoeilijke woorden, een gecompli-ceerde grammatica, het gebruik vanadjectieven, etcetera. Dat kan eencomputer betrekkelijk gemakkelijkanalyseren.”Het derde project is ook een pogingin een groot aantal bronnen struc-tuur te zien. In CEDA_R proberenhet Internationaal Instituut voor So-ciale Geschiedenis in Amsterdam,data-instelling DANS en deAmster-damse Vrije Universiteit met behulpvan historische economische ge-gevens uit verschillende landen ver-banden te zien tussen macro-eco-nomische veranderingen, de levensvan individuele burgers, politiekesystemen, arbeidsmarkten en wel-vaart. Gegevens uit Nederlandsevolkstellingen zullen worden ge-bruikt om de fundamenten te leggenvoor een ‘semantisch web’ dat eenantwoord kan geven op de vraaghoe al die factoren elkaar beïnvloe-den.Voor de projecten vormen SallyWyatt en haar medewerkers het cen-trale punt. In de ruime kamers waarooit de Coca-Colabestuurders hunfrisdrankstrategie bepaalden, komennu twee keer per week de onder-zoekers bij elkaar om te vergaderen,te brainstormen en gegevens uit tewisselen.Want hoe e de wetenschapinmiddels ook is, zonder persoon-lijke contacten kun je het nog steedsmoeilijk stellen.

http://ehumanities.nl

FOCUS

Prof. Sally Wyatt leidt de e-humanities groep van de KNAW

• Dagboekaantekeningen van vice-admiraalF. Pinke, commandant zeemacht in Neder-lands-Indië 1914-1916, 1 deel• Handel op de Oostzee 1122-1499, 6 delen• De Vroedschap van Amsterdam, 1578-1795,2 delen• Relazioni Veneziane. Venetiaansche berich-ten over de Vereenigde Nederlanden van1600-1795

• Dagboek Egbert Alting 1533-1594

• De Nederlandse kerk in Londen 1569-1585

DANS EASY

De bestanden zijn kosteloos beschikbaar viahttp://easy.dans.knaw.nlSociale Wetenschappen• Data - Voer voor psychologen, archivering,beschikbaarstelling en hergebruik van onder-zoeksdata in de psychologie 2010 (C. Voor-brood en H. van Luijn - DANS)• Onderzoek Verplaatsingen in Nederland2010 – OVIN (CBS – Rijkswaterstaat)Ruimtelijke Wetenschappen• TOP10NL 2010 (Kadaster)• Bestand Bodemgebruik 2008 (CBS –Kadaster)

Page 7: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

E-DATA&RESEARCH februari 2012 7

Twintig meest bezochte StatLinetabellen

Tabeltitel Bezoeken (x 1000)

Consumentenprijzen

Bevolking; kerncijfers

Bestaande koopwoningen naar woningtype en regio

Consumentenprijzen; inflatie vanaf 1963

Cao-lonen, contractuele loonkosten en arbeidsduur

Bevolking; geslacht, leeftijd, burgerlijke staat en regio, 1 januari

Kerncijfers wijken en buurten 2004–2010

Bevolkingsontwikkeling; regio per maand

Bevolking; generatie, geslacht, leeftijd en herkomstgroepering, 1 januari

Gemiddeld inkomen; personen in particuliere huishoudens naar kenmerken

Bestaande koopwoningen naar COROP en grote gemeenten

Beroepsbevolking; geslacht en leeftijd

Bevolking en bevolkingsontwikkeling; per maand, kwartaal en jaar

Gezondheid, leefstijl, zorggebruik; t/m 2009

Bestedingen; consumptie huishoudens

Huishoudens; grootte, samenstelling, positie in het huishouden, 1 januari

Gemiddeld inkomen; particuliere huishoudens naar diverse kenmerken

Bbp, productie en bestedingen; kwartalen, mutaties

Bedrijven; naar economische activiteit, grootte en rechtsvorm, 1 januari

Dienstenprijzen; commerciële dienstverlening

Bezoeken via CBS-site (derde kwartaal 2011)

32.615

18.417

14.154

13.106

11.600

9.965

9.102

8.513

7.442

6.195

5.919

5.703

5.456

5.224

5.076

4.991

4.879

4.516

4.493

4.447

1

1 42 6

2

3

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

5

Het Centraal Bureau voor de

Statistiek (CBS) heeft een data-

schat van bijna 50 gigabyte

op het web gedeponeerd.

StatLine heet die schat, en

zevenduizend keer per dag

wordt er in gegraven. Het gaat

snel, gemakkelijk en het is

gratis. Ronald van der Bie

StatLine is de online databank van het CBS.Hij biedt statistische informatie in de vormvan tabellen en grafieken over vele maat-schappelijke en economische onderwerpen.StatLine is een echte visithit. Het CBS regi-streerde in de maand november van vorigjaar 225 duizend bezoeken aan de databank.Tijdens die bezoeken werden er bijna 6 mil-joen pagina’s bekeken.De tabellen van StatLine vormen een be-langrijk deel van de ruim drieduizend pu-blicaties die het CBS jaarlijks uitbrengt:persberichten, conjunctuurberichten, boe-ken, elektronische publicaties, visualisatiesen de Statlinetabellen dus. De StatLinedatazijn gevat in bijna 2500 Nederlandstalige enruim 300 Engelstalige tabellen en gerubri-ceerd naar thema. De databank is interactief:de gebruiker kan de gewenste gegevens zelfbij elkaar zoeken en een tabel op maat sa-menstellen. StatLine is niet uniek; ook in an-dere landen van de Europese Unie ontsluitende statistische bureaus hun databanken opeen dergelijke manier. Maar Statline valtwel op vanwege zijn omvang, toegankelijk-heid en gebruiksgemak.

Sinds 1996Dat elektronisch ontsluiten van zijn datadoet het bureau sinds 1996. StatLine is gra-tis toegankelijk via de website van het CBS(www.cbs.nl/statline) en sinds juni 2010 kunje er ook met een iPhone App terecht. Hetaantal bezoeken neemt jaarlijks toe. In 2008werden 1,24 miljoen bezoeken geteld, in2009 waren het er al 1,85 miljoen en in 20102,01 miljoen. In november 2011 stond de tel-ler al op 2,2 miljoen bezoeken. In de zomer-maanden en in december vertoont het be-zoek een dip. Maart is traditioneel de top-maand, in 2011 steeg die maand het aantalbezoeken tot boven de 230 duizend. Dat zijn7.500 bezoeken per dag. Het drukst is het opmaandag. Rush hour is tussen 11 en 12 uur:StatLinetijd op kantoor. Het gemiddelde be-zoek duurt ongeveer 7 minuten.Ruim de helft van de StatLinebezoekerskomt via de CBS-site binnen. Via Google.nlen Wikipedia.nl komt nog eens 10 procentbij het CBS. Van een derde van de bezoekersis de route naar de CBS-site niet bekend. Zijzijn waarschijnlijk de vaste bezoekers die ophun computer een short cut (url-code) heb-ben staan die ze gebruiken om direct naar dejuiste StatLinepagina te kunnen gaan.StatLine trekt vooral een professioneel pu-bliek, blijkt uit een panelonderzoek. Bijnaiedereen komt er voor het werk of studie.Bijna 60 procent van de gebruikers komt er

Online databank StatLine wordt dagelijks zevenduizend keer bezocht

De toppers van de statistiek

Beeld Steamwork Graphics

minstens eenmaal per week data halen(downloaden) of raadplegen.Sommige tabellen worden duizenden kerenbezocht en gehaald, andere tabellen wordenweinig ingezien of blijven ongelezen. Detien populairste tabellen zijn bij elkaar ruim130 duizend keer bezocht (derde kwartaal2011): 17 procent van alle bezoeken. Detwintig meest bezochte tabellen trokken 180duizend bezoeken, bijna een kwart van allebezoeken, de tabel top-100 was goed voorbijna de helft van alle bezoeken.Het meest gezocht zijn maandcijfers overprijzen (consumentenprijsindex, huizenprij-zen), bevolking en huishouden (kerncijfers)en de cao-lonen (maandcijfers). Dat het bu-reau zuinig moet zijn op zijn data bewijst hetaantal bezoeken aan niet-actuele (tijdelijk)stopgezette statistieken. Die trokken in 2010bijvoorbeeld nog altijd 416 duizend bezoe-ken, bijna 12 procent van alle visits.De infoservice van het CBS helpt bezoekers

die hun cijfer niet kunnen vindenof achtergrondinformatiewillen hebben. De helpdeskwordt per maand zo’n twee-

duizend keer gebeld. Eén op devijf bellers wil meer weten over

het inflatiecijfer (consumenten-prijsindex) of over huren.

HebbedingetjeDe StatLine-applicatie voor de iPhone lijktvooralsnog een hebbedingetje voor een se-lect gezelschap. Het aantal iPhone-bezoe-ken aan StatLine lag in de periode januari-oktober 2011 tussen 3,5 en 3,9 duizend permaand, zo’n 120 en 130 bezoeken per dag, endit aantal neemt niet toe. De grootste groepapp-gebruikers bezoekt de CBS-site nietvóór 21.00 uur, vaker nog een uur later. Af-gaande op het aantal bezoeken in oktober2011 zoeken de iPhoners vooral prijzenin-formatie. Van de twintig meest bezochte ta-bellen bevatten zes tabellen informatie overprijzen: inflatie, huizenprijzen en tarievenvan gas en elektriciteit.Het CBS verspreidt zijn output ook via ver-schillende social media. Deze activiteitenpassen in de online strategie van het bureau,dat daarmee het bereik van zijn cijfers ver-der hoopt te vergroten. Op YouTube (you-tube.com/statistiekcbs) heeft het bureau eenaantal korte filmpjes geplaatst met uitlegover statistische begrippen, statistieken enover het gebruik van StatLine. Ook op Twit-ter is het CBS actief. De ruim 4,3 duizendvolgers van het bureau ontvangen nieuws-berichten en statistische weetjes.Het CBS heeft grootse plannen met het ont-sluiten van data via een webservice waarbijhet voor de dataopbouw gebruik gaat makenvan Statistical Data and Metadata Exchange(SDMX). Dat maakt het bijvoorbeeld straksvoor iedere gebruiker buiten het CBS mo-gelijk om een eigen applicatie, visualisatie ofwebsite te vullen met CBS-data en deze upto date te houden, zonder tussenkomst vanmensenhanden.

http://statline.cbs.nl/statweb/

Page 8: Zoeken door de hele Loe de Jong - e-data&research...CLARIN is onlangs subsidie gekregen voor een samenwerkingsproject (‘Verrijkt Koninkrijk’) met de Universiteit van Amsterdam

Research Infrastructuresin the Digital Humanities.Science policy briefing 42,september 2011De European ScienceFoundation (ESF) brachtonlangs een rapport uitover research infrastructu-res voor de digitale gees-teswetenschappen. Hetrapport onderzoekt destand van zaken voor watbetreft digitale infrastructu-rele voorzieningen, enkwam tot stand na een uit-gebreide consultatierondeonder Europese experts.Een belangrijke vraag dieaan de orde komt, is wieverantwoordelijk is voorzulke voorzieningen. Vaakworden ze met behulp vansubsidie opgezet door een(groep van) onderzoekers,maar is behoud en beheerna de subsidieperiode nietgoed geregeld.In een reeks van case stu-dies van prominente pro-jecten worden deze en ver-gelijkbare uitdagingen be-licht. Als een belangrijkvoordeel van digitale infra-structuren ziet het rapportdat ze interdisciplinariteitbevorderen. Een belang-rijke uitdaging - en daarinverschilt de infrastructuurvoor de geestesweten-schappen van die voor de‘harde’wetenschappen -vormen de culturele en taal-kundige diversiteit die voorde geesteswetenschappenessentieel zijn.(PB)

8 februari 2012 E-DATA&RESEARCH

Ik zou best iets voor de KB willen doen

COLUMN

GELEZENMijn portaalvoor mijnverantwoordonderzoekJe kunt er je data delen, je pu-blicaties verrijken en je onder-zoeksresultaten doorsluizennaar anderen. Dat alles en nogveel meer kan in My researchportal van SURF.Inge Angevaare

“We willen onderzoekers enthousiastmaken om meer te doen met hun pu-blicaties en onderzoeksdata”, zegtMartin Feijen van SURF-foundationover ‘My research portal’, een appli-catie die SURF heeft ontwikkeld inhet kader van het SURF-share pro-ject. My research portal is een mo-dulair product waarin instellingen al-lerhande hulpprogramma’s voor hunonderzoekers gemakkelijk toeganke-lijk maken. Zo kunnen wetenschap-pers hun publicaties en datasets bij el-kaar brengen, er zijn tools om ver-rijkte publicaties te maken, tools omdata te archiveren bij DANS of in eenandere repository, tools om gegevensover onderzoek door te sluizen naarNARCIS, etcetera. Een deel van diehulpprogramma’s is ontwikkeld bin-nen SURF-share zelf; in My researchportal worden ze handzaam bij el-kaar gezet. Maar instellingen kunnenook hun eigen applicaties toevoegen.

Veel eerderE-data vroeg de Utrechtse socioloogRichard Zijdeman wat hij van hetplatform vindt. Zijdeman is één vande twaalf wetenschappers die be-trokken is bij het testen van de portal.

“In de eerste plaats is deelname aandit project een goede gelegenheid ommijn datasets openbaar te maken”,zegt Zijdeman. “Dat had ik natuurlijkal veel eerder moeten doen, maar hetkomt er vaak niet van. De druk om tepubliceren is groot. Goed zorgenvoor je datasets en de benodigde me-tadata bijleveren, schiet er vaak bijin.” Dat het deponeren van datasetsbelangrijk is, heeft Zijdeman niette-min zelf ondervonden. Hij stuitte oponderzoek van een collega uit de ja-ren zeventig dat nu prachtig vergelij-kingsmateriaal had opgeleverd voorzijn eigen werk. “Maar de datasetswaren er niet meer. Dat was erg jam-mer.”Zijdeman is enthousiast over denieuwe mogelijkheden die verrijktepublicaties bieden. “Je kunt nu ookmateriaal publiceren dat net niet be-

langrijk genoeg was om het artikel tehalen, maar wat voor collega’s weldegelijk interessant is. En je kunt veellinks leggen naar andere artikelen,ook in minder bekende tijdschriften.”

Steeds bijgewerktHet duurzaam toegankelijk houdenvan die datasets is nog wel een heleuitdaging, zo bleek recentelijk uit on-derzoek dat de Koninklijke Biblio-theek en DANS samen uitvoerden.De verrijkte publicaties uit het SURF-share project bleken nauwelijks be-stand tegen de tijd. Het ontbrakvooral aan goede metadata en aan‘persistent identifiers’ – web-linksdie steeds worden bijgewerkt als di-gitale objecten verhuisd worden naarandere weblocaties.Voor de wetenschapper is het invul-len van de metadatavelden en het

zoeken naar persistent identifiers al-lemaal extra werk waar momenteelweinig tegenover staat. Nietteminzegt Zijdeman: “Als je doel echt isom wetenschap te bedrijven, danneem je die verantwoordelijkheid.”Om er meteen bij te vertellen dat hijhet zelf ook niet altijd doet. “Maar alsverrijkte publicaties de norm wor-den”, voegt Zijdeman eraan toe, “danworden wetenschappelijke creditsook afhankelijk van goede datasets,en dat zou een enorme stimulans zijnvoor onderzoekers om hun data goedtoegankelijk te maken voor anderen.”Zijdeman wil de portal ook gebruikenin de cyclus van zijn onderzoek.“Door de link met wetenschapsportalNARCIS krijg je overzicht over wat jezelf hebt gedaan, wat anderen aanhet doen zijn, en waar de hiaten zit-ten die nog bestudeerd moeten wor-den.”Op dit moment is My research portalnog een demo-versie. SURF zelf zalhet product niet gaan onderhoudenals dienst, want de opdracht vanSURF gaat niet verder dan aanjagenen ontwikkelen. SURF hoopt dat deinstellingen het product zullen omar-men en er hun eigen versies van zul-len gaan aanbieden. Een landelijkedienst vanuit bijvoorbeeld DANS be-hoort ook tot de mogelijkheden.

Voor mij ligt een boek getiteldReceptenschat, onmisbare

raadgever voor het huisgezin. Inalfabetische volgorde bevat ditnaslagwerkje, dat in 1900 is ver-schenen, honderden adviezenover de gezondheid en over prak-tische zaken in en om het huis.Hoewel dit ooit een populair na-slagwerk was, is het slechts intwee openbare collecties bewaardgebleven: in Amsterdam en Til-burg.Ik vind dat een boek als dit zekerook in de collectie van de Ko-ninklijke Bibliotheek (KB) thuis-hoort en ik zouhet zo willenschenken,maar ik wil hetzelf ook mak-kelijk kunnenblijven raad-plegen.Is daar een op-

lossing voor? Natuurlijk – eenheel voor de hand liggende zelfs.Ik schenk mijn papieren exem-plaar aan de KB en in ruil daar-voor krijg ik een nette scan retour.In het vorige nummer van E-datastond een mooi stuk van PeterBoot over de ideale digitale bibli-otheek. Boot somt daarin allerleieisen op waaraan zo’n bibliotheekzou moeten voldoen. De idealedigitale bibliotheek bevat bijvoor-beeld van alles wat in Nederlandis gedrukt of in het Nederlands isgeschreven een volledige en fout-loze tekst, plus een afbeelding

van de oorspron-kelijke pagina’s.Ik ben het volle-dig met Booteens, maar ik wiler nog iets aantoevoegen: deideale bibliotheekmoet echt interac-

tief zijn. Sommige bibliothekenhebben wel een digitaal loket,maar daar kun je als particulier al-leen iets bestellen of afhalen.Scans van een boek of artikel bij-voorbeeld.Dat is fijn, maar het is wel een-richtingsverkeer. Jaarlijks kom iktientallen boeken tegen die hele-maal niet of nauwelijks bewaardzijn gebleven in openbare collec-ties. Sommige van die boeken wilik nog even houden, maar ik bengraag bereid er een (professio-nele) scan van af te staan. Of ikruil het boek voor een scan.

Kan dat al ergens? Bij mijnweten niet. Ik heb dit de af-

gelopen jaren hier en daar wel-eens aangekaart en krijg dan tehoren dat de infrastructuur ont-breekt om dergelijke digitaleschenkingen te verwerken. De KBbeschikt wel over een E-Depot,

maar daarin kunnen alleen profes-sionele uitgevers hun spullenkwijt. Voor scans van bijvoor-beeld duizend streekromans ofbijzondere oude kinderboeken isgeen plaats.Tweerichtingsverkeer hoeft na-tuurlijk niet beperkt te blijven totde uitwisseling van scans. Wie in-tensief gebruikmaakt van digitalebibliografieën als Picarta, komtdaarin doorlopend foutjes tegen.Bestaat er een eenvoudige moge-lijkheid om zo’n fout te corrige-ren? Nee, nog steeds niet.Kun je op websites van bibliothe-ken makkelijk informatie toevoe-gen in bijvoorbeeld beschrijvin-gen van objecten? Hier en daarkan dit, maar een en ander staatnog in de kinderschoenen.Er staan bij Nederlandse instellin-gen miljoenen pagina’s uit histori-sche kranten, tijdschriften en boe-ken online. De oude teksten die

gelezen zijn met ocr (optische te-kenherkenning) wemelen vaakvan de fouten. Bestaan er al mo-gelijkheden voor het publiek omhier, al dan niet na registratie, ver-beteringen in aan te brengen?Niet of nauwelijks.Ik weet heel goed dat een en an-der technisch en redactioneel eenuitdaging vormt, maar ik vind heteen enorme gemiste kans om geengebruik te maken van de kennisen tijd van het publiek. Een idealedigitale bibliotheek heeft diverseloketten, waar je niet alleen ietskunt halen, maar ook iets kuntbrengen. Bibliotheken die nietecht interactief worden, missen deboot.

Ewoud SandersTaalhistoricus en journalist.Sanders is vaste medewerker vanonder meer NRC Handelsblad enOnze Taal

Richard Zijdeman foto IngeAngevaare

foto Leo van Velzen

Screenshot van ‘My research portal’ bron SURF