Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een...

8
Het eerste grote onderzoeks- project in Nederland naar gebruik van gearchiveerde Nederlandse websites als primaire bron voor onderzoek sluit binnenkort de boeken. WebART-promovendus Hugo Huurdeman blikt terug. Steven Claeyssens Dit jaar ronden de laatste CATCH-projecten (Con- tinuous Access to Cultural Heritage) hun werk- zaamheden af en dus zet ook WebART (Web Archive Retrieval Tools) er een punt achter. WebART was een samenwerking tussen de Uni- versiteit van Amsterdam (UvA), het Centrum Wiskunde en Informatica (CWI) en de Konink- lijke Bibliotheek (KB). Het WebART-team lichtte als eerste het Nederlandse nationale webarchief grondig door. Ze gingen daarbij na hoe zo’n heterogeen en omvangrijk born-digital archief voor onderzoeksdoeleinden bruikbaar kan zijn en bruikbaarder kan worden gemaakt. 10.000 websites De KB archiveert sinds 2007 een immer groeiende selectie van Nederlandse websites. Op 1 januari van dit jaar stond de teller op 10.000 sites die met enige regelmaat worden geharvest. Het belang van dit born-digital archief voor onderzoek naar Nederlandse cultuur en samenleving zal naar- mate de jaren verstrijken onvermijdelijk een steeds prominentere plaats opeisen. WebART onderschrijft dit belang en trok op onderzoek uit. Huurdeman: “In het WebART-project hebben we gekeken naar de onderzoeksvragen die weten- schappers aan webarchieven zouden willen stel- len. Via een intensieve samenwerking met nieuwe media-onderzoekers hebben we vervolgens zoek- en onderzoekstools ontwikkeld die complexe onderzoekstaken kunnen ondersteunen. Denk bijvoorbeeld aan de initiële exploratie van het ar- chief, het definiëren van een dataset en de analyse daarvan. Hiervoor was onderzoek nodig naar schaalbare extractie- en analysemethoden en naar bruikbare interfaces voor verschillende zoekstadia.” Zo bouwde het team onder meer WebARTist, een interface waarmee onderzoekers op verschillende manieren het webarchief kunnen verkennen en bevragen. Ongearchiveerde websites “Doordat webarchieven van nature incompleet zijn, vroegen wetenschappers ook om contex- tualisatie over wat er wel en niet in het archief zit. Dit heeft geleid tot verder onderzoek waarin we niet-gearchiveerde webinhoud hebben bloot- gelegd en gereconstrueerd.” Zo slaagden Huur- deman en zijn mede-onderzoekers erin een fors aantal niet-gearchiveerde sites te identificeren op basis van verwijzingen in de vorm van URL’s in het wel-gearchiveerde deel. Meer nog, door de afzonderlijke woorden uit deze URL’s en de bijbehorende linkteksten te distilleren, maakten ze dit niet-gearchiveerde deel van het web tot op zekere hoogte toch vindbaar en daarmee ook onderzoekbaar. “Deze informatie integreren we in de WebART- toolset. Helaas kan de toolset momenteel door auteursrechtelijke beperkingen nog niet volledig online worden aangeboden, maar de wens vanuit het projectteam om dit te bereiken, is er zeker.” webarchiving.nl Geneeskunde Politieke wetenschappen Overig artsennet.nl forensischinstituut.nl lectoren.nl nwo.nl openaccess.nl cier.nl gearchiveerd niet-gearchiveerd cebuco.nl uva.nl tue.nl ncdd.nl Algemeen Bedrijfs- wetenschappen websites categorieën webpagina’s Wetenschap Onderwijs Recht, Overheid INHOUD 2 Verslagen van events in Gehoord en bijgewoond 2 Nieuwe big data-experts door komst GRIDS 3 CLARIN Young Scientist Award voor Van Gompel 4 Mary Vardigan trots op 50 Dataseals wereldwijd 5 KNAW-president José van Dijck aan het woord 6 Landelijk Coördinatiepunt gaat voor samenhang 6 De Open Universiteit vertelt over RDM-aanpak 7 Open State Foundation: 5 tips voor data delen 8 Zo eenvoudig is dat metadateren nog niet Jaargang 10 | nummer 2 Nieuwsbrief over data en onderzoek in de alfa- en gamma- wetenschappen. E-data & Research verschijnt drie keer per jaar en wordt mogelijk gemaakt door: CentERdata, CLARIAH, DANS, Huygens ING, de Koninklijke Bibliotheek en het RIVM. E - DATA & RESEARCH E - DATA & RESEARCH februari 2016 1 Scan deze QR code met een smartphone om de website van E-data te bezoeken. www.edata.nl Op basis van de zoekterm ‘onderzoeksdata’ toont WebARTist verschillende resultaten, waaronder deze grafieken. De bovenste grafiek laat de verhouding tussen de gearchi- veerde en niet-gearchiveerde webpagina’s zien, de middelste toont de belangrijkste websites voor deze zoekterm en de onderste grafiek vat de categorieën van de gevonden pagina’s samen. De WebARTist-toolset biedt een veelheid aan mogelijkheden voor explo- ratie, analyse en visualisatie van de inhoud van het KB-webarchief. credits WebART Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap? Nationale webarchief onderzocht door Web ART Wint u de Nederlandse Dataprijs 2016? Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt. Een prijs voor een onderzoeker of onderzoeksgroep die extra bij- draagt aan de wetenschap door onderzoeksdata beschikbaar te ma- ken voor aanvullend of nieuw onderzoek. De winnaars van de voorgaande edities zijn in ieder geval enthou- siast: “De jury noemt onze database een grote aanwinst voor zowel het Nederlands academisch als cultureel erfgoed. Dat is een bevesti- ging dat we op het goede spoor zitten,” aldus Martine de Bruin, Nederlandse Liederenbank, winnaar van de Dataprijs humaniora en sociale wetenschappen 2014. “Door het winnen van de Dataprijs kunnen we nu ook een paar grotere, al langer gewenste verbeterslagen maken,” aldus Johan Molenbroek en Marijke Dekker, DINED, winnaars van de Dataprijs exacte en technische wetenschappen 2014. Naast de winnaars waren ook de bijna 50 andere inzendingen van hoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van het toegankelijk maken en delen van onderzoeksdata’. De organisatie van de Nederlandse Dataprijs is in handen van Research Data Netherlands, een samenwerkingsverband tussen 3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor- matie over de Dataprijzen 2016 op de website van RDNL. (HB) researchdata.nl OPROEP De Vereniging van Universiteiten (VSNU) en Elsevier hebben een principeakkoord bereikt waar- door Nederlandse wetenschap- pers toegang blijven houden tot de wetenschappelijke artikelen van Elsevier. “Door deze overeenkomst,” aldus prof. Gerard Meijer, hoofdonder- handelaar namens de VSNU en voor- zitter van de Radboud Universiteit Nijmegen, “houden wetenschappers toegang tot Elseviertijdschriften en het biedt ze de mogelijkheid om in een selectie van die tijdschriften open access te publiceren. De uni- versiteiten streven ernaar dat in 2018, het derde jaar van de overeen- komst, 30% van de Elsevierartikelen van Nederlandse auteurs open ac- cess beschikbaar is. Dit akkoord maakt dat mogelijk. Dit is echt ge- weldig nieuws en een ‘big deal’ voor open access.” Philippe Terheggen, Managing Director Journals bij Elsevier: “Wij zijn content met deze overeenkomst, omdat blijvende sub- scriptietoegang tot onze hoogwaar- dige, ‘peer-reviewed’ wetenschap- pelijke artikelen essentieel is voor Nederland om zijn positie als één van de meest impactvolle onder- zoekslanden te behouden. Daarnaast krijgen Nederlandse wetenschappers meer open access publicatiemoge- lijkheden om hun onderzoeksresul- taten met de rest van de wereld te delen.” De overeenkomst is in lijn met de ambitie van staatssecretaris Dekker (OCW), die wil dat artikelen van Nederlandse wetenschappers open access gepubliceerd worden. Blijf op de hoogte van deze en andere ontwikkelingen via de Open- Access nieuwsbrief van de VSNU, de Nederlandse universiteitsbiblio- theken en de Koninklijke Biblio- theek. (VSNU) vsnu.nl Principeakkoord open access VSNU en Elsevier

Transcript of Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een...

Page 1: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

Het eerste grote onderzoeks-

project in Nederland naar gebruik

van gearchiveerde Nederlandse

websites als primaire bron voor

onderzoek sluit binnenkort de

boeken. WebART-promovendus

Hugo Huurdeman blikt terug.

Steven Claeyssens

Dit jaar ronden de laatste CATCH-projecten (Con-tinuous Access to Cultural Heritage) hun werk-zaamheden af en dus zet ook WebART (WebArchive Retrieval Tools) er een punt achter.WebART was een samenwerking tussen de Uni-versiteit van Amsterdam (UvA), het CentrumWiskunde en Informatica (CWI) en de Konink-lijke Bibliotheek (KB). Het WebART-team lichtteals eerste het Nederlandse nationale webarchiefgrondig door. Ze gingen daarbij na hoe zo’nheterogeen en omvangrijk born-digital archiefvoor onderzoeksdoeleinden bruikbaar kan zijnen bruikbaarder kan worden gemaakt.

10.000 websitesDe KB archiveert sinds 2007 een immer groeiendeselectie van Nederlandse websites. Op 1 januarivan dit jaar stond de teller op 10.000 sites die metenige regelmaat worden geharvest. Het belangvan dit born-digital archief voor onderzoek naarNederlandse cultuur en samenleving zal naar-mate de jaren verstrijken onvermijdelijk eensteeds prominentere plaats opeisen. WebARTonderschrijft dit belang en trok op onderzoek uit.Huurdeman: “In het WebART-project hebben we

gekeken naar de onderzoeksvragen die weten-schappers aan webarchieven zouden willen stel-len. Via een intensieve samenwerking met nieuwemedia-onderzoekers hebben we vervolgens zoek-en onderzoekstools ontwikkeld die complexeonderzoekstaken kunnen ondersteunen. Denkbijvoorbeeld aan de initiële exploratie van het ar-chief, het definiëren van een dataset en de analysedaarvan. Hiervoor was onderzoek nodig naarschaalbare extractie- en analysemethoden ennaar bruikbare interfaces voor verschillendezoekstadia.” Zo bouwde het team onder meerWebARTist, een interface waarmee onderzoekersop verschillende manieren het webarchief kunnenverkennen en bevragen.

Ongearchiveerde websites“Doordat webarchieven van nature incompleetzijn, vroegen wetenschappers ook om contex-tualisatie over wat er wel en niet in het archief zit.Dit heeft geleid tot verder onderzoek waarin weniet-gearchiveerde webinhoud hebben bloot-gelegd en gereconstrueerd.” Zo slaagden Huur-deman en zijn mede-onderzoekers erin een forsaantal niet-gearchiveerde sites te identificerenop basis van verwijzingen in de vorm van URL’sin het wel-gearchiveerde deel. Meer nog, doorde afzonderlijke woorden uit deze URL’s en debijbehorende linkteksten te distilleren, maaktenze dit niet-gearchiveerde deel van het web tot opzekere hoogte toch vindbaar en daarmee ookonderzoekbaar.“Deze informatie integreren we in de WebART-toolset. Helaas kan de toolset momenteel doorauteursrechtelijke beperkingen nog niet volledigonline worden aangeboden, maar de wens vanuithet projectteam om dit te bereiken, is er zeker.”webarchiving.nl

Geneeskunde

Politiekewetenschappen

Overig

artsennet.nl forensischinstituut.nl

lectoren.nlnwo.nl

openaccess.nl

cier.nl

gearchiveerd niet-gearchiveerd

cebuco.nl

uva.nl

tue.nl

ncdd.nl

Algemeen

Bedrijfs-wetenschappen

websites

categorieën

webpagina’s

Wetenschap

Onderwijs

Recht,Overheid

INHOUD

2Verslagen van events inGehoord en bijgewoond

2Nieuwe big data-expertsdoor komst GRIDS

3CLARIN Young ScientistAward voor Van Gompel

4Mary Vardigan trots op50 Dataseals wereldwijd

5KNAW-president Josévan Dijck aan het woord

6Landelijk Coördinatiepuntgaat voor samenhang

6De Open Universiteitvertelt over RDM-aanpak

7Open State Foundation:5 tips voor data delen

8Zo eenvoudig is datmetadateren nog niet

Jaargang 10 | nummer 2

Nieuwsbrief overdata en onderzoekin de alfa- en gamma-wetenschappen.

E-data & Research verschijntdrie keer per jaar en wordtmogelijk gemaakt door:CentERdata, CLARIAH,DANS, Huygens ING,de Koninklijke Bibliotheeken het RIVM.

E-DATA&RESEARCH

E-DATA&RESEARCH februari 2016 1

Scan dezeQR code met eensmartphone om dewebsite van E-datate bezoeken.www.edata.nl

Op basis van de zoekterm ‘onderzoeksdata’toont WebARTist verschillende resultaten,waaronder deze grafieken. De bovenstegrafiek laat de verhouding tussen de gearchi-veerde en niet-gearchiveerde webpagina’szien, de middelste toont de belangrijkstewebsites voor deze zoekterm en de onderstegrafiek vat de categorieën van de gevondenpagina’s samen. De WebARTist-toolset biedteen veelheid aan mogelijkheden voor explo-ratie, analyse en visualisatie van de inhoudvan het KB-webarchief. credits WebART

Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap?

Nationale webarchiefonderzocht door WebART

Wint u deNederlandse Dataprijs 2016?

Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt.Een prijs voor een onderzoeker of onderzoeksgroep die extra bij-draagt aan de wetenschap door onderzoeksdata beschikbaar te ma-ken voor aanvullend of nieuw onderzoek.De winnaars van de voorgaande edities zijn in ieder geval enthou-siast: “De jury noemt onze database een grote aanwinst voor zowelhet Nederlands academisch als cultureel erfgoed. Dat is een bevesti-ging dat we op het goede spoor zitten,” aldus Martine de Bruin,Nederlandse Liederenbank, winnaar van de Dataprijs humaniora ensociale wetenschappen 2014.“Door het winnen van de Dataprijs kunnen we nu ook een paargrotere, al langer gewenste verbeterslagen maken,” aldus JohanMolenbroek en Marijke Dekker, DINED, winnaars van de Dataprijsexacte en technische wetenschappen 2014.Naast de winnaars waren ook de bijna 50 andere inzendingen vanhoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van hettoegankelijk maken en delen van onderzoeksdata’.De organisatie van de Nederlandse Dataprijs is in handen vanResearch Data Netherlands, een samenwerkingsverband tussen3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor-matie over de Dataprijzen 2016 op de website van RDNL. (HB)researchdata.nl

OPROEP

De Vereniging van Universiteiten(VSNU) en Elsevier hebben eenprincipeakkoord bereikt waar-door Nederlandse wetenschap-pers toegang blijven houden totde wetenschappelijke artikelenvan Elsevier.

“Door deze overeenkomst,” aldusprof. Gerard Meijer, hoofdonder-handelaar namens de VSNU en voor-zitter van de Radboud UniversiteitNijmegen, “houden wetenschapperstoegang tot Elseviertijdschriften enhet biedt ze de mogelijkheid om ineen selectie van die tijdschriftenopen access te publiceren. De uni-versiteiten streven ernaar dat in2018, het derde jaar van de overeen-komst, 30% van de Elsevierartikelenvan Nederlandse auteurs open ac-cess beschikbaar is. Dit akkoordmaakt dat mogelijk. Dit is echt ge-weldig nieuws en een ‘big deal’vooropen access.” Philippe Terheggen,

Managing Director Journals bijElsevier: “Wij zijn content met dezeovereenkomst, omdat blijvende sub-scriptietoegang tot onze hoogwaar-dige, ‘peer-reviewed’ wetenschap-pelijke artikelen essentieel is voorNederland om zijn positie als éénvan de meest impactvolle onder-zoekslanden te behouden. Daarnaastkrijgen Nederlandse wetenschappersmeer open access publicatiemoge-lijkheden om hun onderzoeksresul-taten met de rest van de wereld tedelen.” De overeenkomst is in lijnmet de ambitie van staatssecretarisDekker (OCW), die wil dat artikelenvan Nederlandse wetenschappersopen access gepubliceerd worden.Blijf op de hoogte van deze enandere ontwikkelingen via de Open-Access nieuwsbrief van de VSNU,de Nederlandse universiteitsbiblio-theken en de Koninklijke Biblio-theek. (VSNU)vsnu.nl

Principeakkoord openaccess VSNU en Elsevier

Page 2: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

10-jarig bestaan voorKnowledge ExchangeIngrid DilloOp 30 november en 1 decembervond in Helsinki een conferentieplaats ter gelegenheid van het 10-jarig bestaan van de KnowledgeExchange (KE). Onlangs is eennieuw contract voor 3 jaar tussende partners gesloten. De nieuwevisie op open scholarship wordt tij-dens de conferentie verder ingevuld.De bedoeling van de conferentie isdit begrip verder in te vullen en deuitdagingen te definiëren.De dag wordt geopend door KimmoKoski van CSC en Bas Cordewenerdie vanuit JISC voor KE werkt. Ver-volgens houdt Sascha Friesike vanhet Alexander von Humboldt Insti-tute for Internet and Society eenprovocerend en leuk verhaal overopen scholarship. Wat verstaan weeigenlijk onder de term? Wat zijn devoordelen? Zijn conclusie is dat weteveel onder elkaar praten over dedefinities. We zouden veel meernaar de onderzoekers moeten gaanom met hen in discussie te gaanover de voordelen van open scho-larship voor de onderzoekers zelf.Vervolgens start de plenaire sessiemet vier korte intro’s van experts.Interessant punt dat aan de ordekomt: wat als je artikel wordt ge-weigerd vanwege slechte kwaliteitvan de data, als dat data zijn dieje niet zelf hebt verzameld maardie je hebt hergebruikt? Vervolgensis er een uur met acht 5-minutes-madness presentaties. DANS pre-senteert de nieuwe common require-ments for basic certification, geba-seerd op DSA en WDS. De interesseis groot. Daarna valt de groep in vierbreak-out sessies uiteen, ’s avondswordt doorgepraat tijdens een diner.De tweede dag komen in de afslui-

tende discussie vooral elementennaar voren die samenhangen metde druk om te publiceren en hetontbreken van directe rewards vooronderzoekers die open scholarshipbedrijven. Data komen niet uitge-breid aan de orde. Wel worden erwensen uitgesproken voor executa-ble DMPs en trustworthy reposito-ries die tot in de eeuwigheid zorgenvoor data.http://www.knowledge-exchange.info/news/articles/21-12-2015

Boeiend congres getuigtvan waarde wetenschapArjan HogenaarOp 2 december vond het congres‘Maatschappelijke Impact vanAlfa-en Gammawetenschappen: Getuigenvan Waarde’ plaats, georganiseerddoor de Universiteit Utrecht en Sci-enceWorks. Het was een boeiendcongres. Vele aspecten van het alfa/gamma-onderzoek kwamen aan bod.

Zo verklaarde José van Dijck (pre-sident KNAW) de cruciale rol van dealfa/gammawetenschappen, liefst insamenwerking met de beta-weten-schappen, bij het oplossen vanwereldvraagstukken. Karl Dittrich(bestuursvoorzitter VSNU) gaf aanonderwijs als het belangrijkstevalorisatie-aspect te beschouwen.Victor van der Chijs (UniversiteitTwente) wees op het belang vanmaatschappelijke implicaties vantechnologische ontwikkelingen.Bernard ter Haar (Ministerie SZW)sprak de wens uit om, samen met dewetenschap, beleidsimplicaties vanonderzoeksresultaten beter inzich-telijk te maken.Het middagprogramma bevatte veleparallelsessies. Zo werd in een ses-sie over ‘geletterdheid’ door Fritsvan Oostrom (Universiteit Utrecht)het belang van ICT in tekstonder-zoek toegelicht en beschreef IngeMolenaar (Radboud Universiteit) de

samenwerking tussen leraren enuniversiteit bij de introductie vanICT in het onderwijs. Liesbeth vanZoonen (Erasmus Universiteit Rot-terdam) liet tenslotte weten het pro-ject Urban Big Data als voorbeeld tezien van het delen en hergebruikenvan data afkomstig van diverse dis-ciplines en social media.scienceworks.nl

Evaluatie toegankelijkheidmicrodatabestanden CBSMarion WittenbergHet Centraal Bureau voor de Statis-tiek (CBS) en DANS werken al jarensamen aan het beschikbaar stellenvan beveiligde microdatabestandenvoor wetenschappelijk onderzoek.Omdat de statistieken van het CBSde laatste jaren dynamischer zijngeworden, onderzoeken zijn gewij-zigd of stopgezet en andere zijngestart, organiseerden het CBS enDANS op 24 november een gebrui-

kersbijeenkomst om deze vorm vandienstverlening te evalueren.Uit deze discussie bleek dat onder-zoekers de beveiligde microbestan-den positief evalueren. Een belang-rijke reden hiervoor is dat de be-standen gratis beschikbaar en metde eigen computer te gebruiken zijnen dat men niet gehinderd wordtdoor verplichte outputcontrole. Ditin tegenstelling tot de RemoteAccess faciliteit, een andere vormvan dienstverlening van het CBS.Men vindt beide vormen van dienst-verlening goed op elkaar aanslui-ten.Kritiekpunten waren er echter ook.Onderzoekers zouden graag willenkunnen zoeken naar variabelen, watmomenteel niet mogelijk is. De pro-cedure om toegang tot de data tekrijgen, waarbij men elke keer eengeheimhoudingsverklaring moet te-kenen, vindt men nogal omslachtigen men vraagt zich af waarom debeveiligde microbestanden niet ge-bruikt mogen worden binnen hetonderwijs. Met name researchmas-terstudenten zouden toegang totdeze data moeten kunnen krijgen.Verder vindt men dat de criteriaverruimd zouden moeten wordenwelke instellingen deze bestandenmogen gebruiken; ook niet univer-sitaire onderzoeksinstituten zoudentoegang tot de data moeten kunnenkrijgen. Een ander kritiekpunt is hetontbreken van essentiële variabelenin bestanden, men zou graag in-spraak willen hebben in de keuzevan de variabelen.DANS en het CBS gaan bekijken hoeze de kritiekpunten kunnen oppak-ken en deze vorm van dienstver-lening in de komende periode kun-nen verbeteren.http://dx.doi.org/10.17026%2Fdans-z5j-9bkf

2 februari 2016 E-DATA&RESEARCH

GEHOORD & BIJGEWOOND

Tijdens het congres ‘Getuige van Waarde’ deelden wetenschappers en maatschappelijk partners ervaringenfoto Hans Tak

COLOFON Uitgever: Stichting Uitgeverij E-data & Research Den Haag. Redactieadres: Postbus 93067, 2509 AB Den Haag, 070-3494450,[email protected], www.edata.nl. Hoofd-/eindredacteur: Heidi Berkhout. Redactie: Marika de Bruijne, Steven Claeyssens, Ilja Nieuwland, Rutger Nugteren,Erica Renckens, Marion Wittenberg. Redactiesecretariaat: Lucas Pasteuning. Aan dit nummer werkten mee: Ingrid Dillo, Arjan El Fassed, Guido de Groot(Kito), Wieke Hoeke, Arjan Hogenaar, Hugo Huurdeman, Edwin Klijn, Patricia Prüfer, Jos Rikers, Ewoud Sanders en Heiko Tjalsma.Opmaak: Colette Sloots, Haarlem. Productie: Amsterdam University Press. Druk: Ten Brink, Meppel. Webmaster: Sonja Duijkers Oplage: 7500 papier,1900 digitaal. ISSN: 1872-0374. We hebben getracht alle belanghebbenden met betrekking tot het gebruikte beeldmateriaal te benaderen.Degenen die menen rechten te kunnen doen gelden, kunnen zich tot ons wenden. Toezending papieren en/of digitale versie is kosteloos aan relaties van de sta-keholders en studenten in de alfa- en gammarichtingen.

TiU, TU/e, de provincie Noord-Brabant en de gemeente DenBosch bundelen hun krachten:een Grand Initiative DataScience (GRIDS) is in demaak. Het Data ScienceCenter Tilburg is één van deonderdelen. Patricia Prüfer

Het Data Science Center Tilburg(DSCT) brengt bestaande weten-schappelijke expertise op het gebiedvan big data bij elkaar om onder-zoek, onderwijs en toepassingen ophet gebied van data science in detoekomst multidisciplinair te bena-deren. DSCT is dan ook een geza-

menlijk initiatief van vier facultei-ten: Economics & Management,Law, Humanities en Social & Beha-vioral Sciences.

Unieke aanpakDe holistische visie op data sciencedie DSCT hanteert, gaat uit van vier(kennis-)domeinen: methodisch/technisch, sociaal, juridisch en toe-gepast/innovatief. Onderzoek en on-derwijs op het gebied van data sci-ence moeten met deze vier domei-nen rekening houden. Daarnaastconcentreert DSCT zich op een aan-tal gebieden: Human Capital & La-bor Market, Smart Cities & Indus-

tries, Health, Consumer Behavior,Financial Institutions en LegalAna-lytics.

Focus op onderwijsDe focus van DSCT ligt in eerste in-stantie op onderwijs. “Want”, aldusprofessor Arjan van den Born, Aca-demic Director van DSCT: “naastweten hoe je met data moet omgaan,moet je ook weten hoe je goede vra-gen stelt en waarde kunt toevoegenmet je onderzoek of project. Je hebteigenlijk een T-shaped data scien-tist nodig die diepgaande kennis opéén gebied heeft en daarnaast rede-lijke kennis op minimaal één ander

gebied.” Er komen vier onderwijs-programma’s: Data Science MasterBusiness & Society (op de TiU),Data Science Master Engineering(op de TU/e), Data Science MasterEntrepreneurship (op de GraduateSchool Mariënburg) en BachelorData Science (op alle locaties). Deeerste masteropleiding Data Science& Governance is inmiddels op deTiU gestart, voor de andere oplei-dingen wordt de accreditatie aange-vraagd. De nadruk binnen deze op-leidingen ligt op het leren omgaanmet data én het stellen van de goedevragen. Dit gebeurt in nauwe sa-menwerking met bedrijven die hun

data beschikbaar stellen voor de ana-lyses door de toekomstige Brabantsedata scientists.De rol van data wordt steeds groteren het omgaan met en gebruiken vandata steeds belangrijker. Met het op-zetten van een GRIDS dragen Bra-bantse kennis- en onderwijsinstel-lingen in samenwerking met deoverheid en bedrijven bij aan de ont-wikkeling van een data-gedrevenmaatschappij. Uiteindelijk zullenduizenden Brabantse data scientistsworden opgeleid.https://www.tilburguniversity.edu/research/institutes-and-research-groups/data-science-center/

Kennis- en onderwijsinstellingen, overheid en bedrijven bundelen krachten

Nieuwe big data-experts door GRIDS

Overname artikelen

Wilt u een artikel uit dit blad overnemen?Dat mag altijd, maar vermeld wel de bron(E-data & Research) en de naam van deauteur van het artikel. Neem ook contact opmet de hoofdredacteur (zie colofon) om doorte geven waar artikelen geplaatst worden.

Page 3: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

E-DATA&RESEARCH februari 2016 3

Hoe verhouden privacy en open datazich tot elkaar? Welke issues spelen opdit moment? Heiko Tjalsma

Al jaren heerst een steeds sterkere drang om alle(onderzoeks)data zo onbeperkt mogelijk ter be-schikking te stellen. Aan de andere kant wordt,óók onder invloed van de Europese Unie, de pri-vacybescherming steeds strenger. Problematischis dit wanneer personen het onderzoeksonder-werp zijn, zoals in de sociale wetenschappen, demedische wetenschappen en de humaniora. Ditspanningsveld tussen open access en privacy-bescherming werd ook tijdens de AmsterdamPrivacy Conferentie (oktober 2015) geconsta-teerd. Twee issues, van belang voor wetenschap-pelijk onderzoek, worden in dit artikel besproken.

Persoonsdata over zeeHet safe harbour-principe gaat over het doorge-ven van persoonsdata naar de Verenigde Staten.Recent is dit onrechtmatig verklaard door het Eu-ropese Hof van Justitie. Dit maakt de uitwisseling

van persoonsdata van en naar de VS onmogelijk,ook voor onderzoekers. Er wordt, met hoge prio-riteit, aan een nieuwe regeling gewerkt.

Recht om te worden vergetenHet right to be forgotten gaat om de mogelijkheidvoor individuen om hun geschiedenis, speciaal opinternet, te wissen. Dit principe staat centraal in dedoor de EU voorgestelde nieuwe privacy-wet, deGeneral Data Protection Regulation (GDPR).Deze wet gaat in de plaats komen van de huidigenationale wetten, zoals de Nederlandse Wet Be-scherming Persoonsgegevens (WBP). De komstvan de GDPR, en vooral het bijna absoluut geno-men right to be forgotten, heeft tot grote onge-rustheid bij onderzoekers geleid. Gevreesd werdvoor een enorme verslechtering bij het gebruikvan persoonsdata in wetenschappelijk onderzoek.Medio december 2015 is er eindelijk overeen-stemming bereikt tussen de Europese bestuursor-ganen, naar verwachting wordt de wet in het voor-jaar van 2016 aangenomen. Een voorlopige eersteconclusie is dat de wet er uiteindelijk minder

alarmerend uitziet dan eerder leek. Er blijven uit-zonderingen mogelijk voor onderzoek- en ar-chiefdoeleinden. Voor actuele informatie ziehttp://ec.europa.eu/justice/data-protection/reform/index_en.htm.

Informed consent essentieelVoorlopig blijft de huidige praktijk van kracht, ge-baseerd op de WBP. Essentieel is en blijft infor-med consent: het geven van toestemming doorgeïnformeerde proefpersonen of patiënten. Juisthier komen nadere aanvullende nationale rege-lingen. Hoe de nieuwe EU-wet precies zal uit-werken, zal pas over enige jaren duidelijk worden.

Meer weten over de GDPR en de gevolgen daar-van voor onderwijs en onderzoek? SURF heeftde afgelopen jaren een aantal praktische hand-leidingen gepubliceerd. Meer informatie staatop de website van SURF.Heiko Tjalsma is juridisch adviseur bij DANS.https://www.surf.nl/themas/beveiliging/beleidsondersteuning-privacy/index.html

Maarten van Gompel

ontving dit najaar de

CLARIN Young Scientist

Award. Erica Renckens

De prijs wordt jaarlijks toegekendaan een veelbelovende jonge on-derzoeker die bijdraagt aan hetbouwen van taalbronnen, het ont-wikkelen van tools en het delen vankennis. Hans Bennis (MeertensInstituut) en Walter Daelemans(Universiteit van Antwerpen) droe-gen Van Gompel voor. In hun aan-bevelingsbriefnoemen ze hem‘een begaafdprogrammeuren onderzoeker’die tools ontwikkelt‘die aan de basis liggen van belang-rijke ontwikkelingen’.Die tools zijn met name FoLiA enCLAM. Van Gompel werkt daar alaan sinds hij na zijn master HumanAspects of Information Technologyin Tilburg betrokken raakte bijonder andere hetSoNaR-project.Het SoNaR-cor-pus bevat meerdan vijfhonderdmiljoen woordenaan Nederlandseteksten.

Taalkundige annotaties“FoLiA is een bestandsformaat voorgeannoteerde corpora,” vertelt VanGompel in zijn werkkamer bij deRadboud Universiteit. “Bij de ont-wikkeling van SoNaR ontstond denoodzaak voor een goed formaatwaarin taalkundige annotaties vast-gelegd konden worden. Inmiddels

wordt FoLiA ook door anderecorpora gebruikt, zoals BasiLex en

Nederlab.”Toch is de toolnog altijd niet‘af’. Van Gom-pel: “Ik ontwik-kel nog steedssoftware voor Fo-LiA, zoals FLAT,waarmee een ge-

bruiker heel makkelijk annotaties inhet FoLiA-formaat kan toevoegen.En Frog voert taalkundige analysesuit met FoLiA als outputformaat.”Van Gompel typt razendsnel com-plexe commando’s terwijl hij zijnwerk laat zien. Kan de gemiddeldeonderzoeker wel met zijn program-ma’s uit de voeten? “Daarvoor heb

ik CLAM ontwikkeld,” legt hij uit.“Dat vervangt de command-line encreëert automatisch een overzichte-lijke gebruikersinterface. Die inter-face is een webservice, waardoorook machines hem kunnen aanspre-ken. Een gebruiker kan zo ook eenzelfontworpen interface gebruikendie weer via CLAM met de softwarecommuniceert.”

Alle codes vrijVoorlopig is de jonge onderzoekernog druk bezig met het afrondenvan zijn proefschrift, waarin hij dekwaliteit van automatische vertalin-gen probeert te verbeteren door tekijken naar de context. Maar daarnawil hij het liefst weer software ont-wikkelen die onderzoekers nodig

hebben. Van Gompel: “Ik probeeraltijd een zo generiek mogelijke op-lossing te vinden voor problemen.Zo kun je voorkomen dat mensendubbel werk doen.” De toepassin-gen die Van Gompel ontwikkelt,zijn daarnaast altijd open source.“Daar ben ik heel principieel in. Decode is altijd vrij te gebruiken doorandere ontwikkelaars. Dat is deenige manier waarop onderzoekrepliceerbaar kan zijn.”De CLARIN Young Scientist Awardbestaat uit een geldprijs van 500euro en een certificaat. Van Gompel:“Ik werk veel vanuit huis, dus datcertificaat heeft daar een mooiplekje aan de muur gekregen.”

clarin.eu

Van Gompel: “De toepassingen die ik ontwikkel, zijn altijd open source. Alleen zo kan onderzoek repliceer-baar zijn” foto Wieke Hoeke

JONG TALENT

‘Open sourcesoftware

vooronderzoekers’

Van Gompel winnaar CLARIN Young Scientist Award 2015

‘Ik ontwikkel alleen open source’

Safe harbour-principe en Right to be forgotten uitgelegd

Issues privacy en open data ’16

LingOA biedt gratisonline publicaties

De redacties van vijf taalweten-schappelijke tijdschriften, waar-onder Lingua, hebben hun tradi-tionele uitgever de rug toege-keerd. Voortaan publiceren zijhun artikelen via Ubiquity Pressonder de voorwaarden van dezelf opgerichte stichting LingOA.Dit houdt in dat wetenschap-pers betalen voor hun publica-ties, die vervolgens online vrijtoegankelijk worden. Dankzijeen garantie van VSNU, NWOen KNAW hoeven auteurs deeerste vijf jaar de publicatie-kosten niet zelf te betalen.De verwachting is dat na dezeperiode het publicatiemodelwereldwijd zal zijn veranderdvan abonnementen naar openaccess. De komende tijd zullennaar verwachting meer linguïsti-sche tijdschriften zich aansluitenbij LingOA. (ER)lingoa.eu

Nieuwe cursusrondeRDNL start in meiEssentials 4 Data Support iseen introductiecursus voor die-genen die onderzoekers (willen)ondersteunen bij het opslaan,beheren, archiveren en delenvan hun onderzoeksdata. In meigaat een nieuwe ronde van decursus van start. De cursus

bestaat uit twee groepsbijeen-komsten met begeleiding doorcoaches, presentaties vanexperts, online cursusmateriaalen opdrachten. Research DataNetherlands (RDNL) wil metdeze cursus een bijdrage leve-ren aan de professionaliseringvan en de afstemming tussendatasupporters. Kijk voor in-schrijving of de online-only vari-ant van de cursus op de cursus-site van RDNL. (HB)datasupport.researchdata.nl

Subsidie SummerProgram ICPSR

DANS biedt ook dit jaar eentegemoetkoming in de kostenvoor deelname aan het SummerProgram in Quantitative Methodsof Social Research 2016 vanhet Inter-university Consortiumfor Political and Social Research(ICPSR) in de Verenigde Staten.Er is dit jaar één subsidie be-schikbaar van € 2.000. Alleenresearchmasterstudenten enPhD’s van instellingen die parti-ciperen in het Nationale Lid-maatschap van het ICPSR kun-nen een aanvraag indienen. Deuiterste datum voor het indienenvan de aanvraag is 1 april.Meer informatie over de aan-vraagprocedure en het lidmaat-schap van ICPSR staat op desite van DANS. (MW)dans.knaw.nl

KORT

Page 4: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

–––––––––––––––––––––––––––Huygens ING• Online versie Noord en Oost Tartarye van

Nicolaas Witsen (1705)

Noord en Oost Tartarye is meer dan drie-honderd jaar geleden geschreven door deAmsterdamse burgemeester en amateurge-leerde Nicolaas Witsen (1641-1717). Nooiteerder bracht iemand zoveel kennis bijeenover ‘Tartaria’ of ‘Tartarije’, het tegenwoor-dige Eurazië. Deze digitale uitgave bevatnaast een inleiding in het Russisch en eentoelichting in het Nederlands ook een uit-voerig register van zaken, persoonsnamen,

geografische begrippen en etnografischenamen. Ook een lijst van Witsens bronnenen van de gebruikte secundaire literatuurontbreekt niet, evenals een toelichting opde illustraties. Hiermee is Noord en OostTartarye zo goed mogelijk toegankelijkgemaakt.http://resources.huygens.knaw.nl/witsen

Ook sinds kort beschikbaar:• Documenten Molukse Kerk en SchoolAmbon, Ternate en Banda: http://resources.huygens.knaw.nl/retroboeken/molukse_kerk/#view=homePane&page=0&accessor=toc• Instrumenten van de macht. De archievenvan de Staten-Generaal 1576-1796:http://resources.huygens.knaw.nl/retroboeken/instrumenten_macht/#page=0&accessor=toc&view=homePane• Aanvullingen Willem de Clercq: http://resources.huygens.knaw.nl/retroboeken/declercq/#page=0&accessor=toc&view=homePane• Ystroom: http://deystroom.huygens.knaw.nl/• Clusius Correspondence: a digital edition-in-progress: http://clusiuscorrespondence.huygens.knaw.nl

Deze publicaties zijn beschik-baar via www.historici.nl.Bezoek deze site of scan deQR code.

4 februari 2016 E-DATA&RESEARCH

SINDS KORT BESCHIKBAAR

Dit overzicht toont databestanden die recent beschikbaar zijn gekomen bijCentERdata, Data Archiving and Networked Services en Huygens ING.

–––––––––––––––––––––––––––CentERdata• Data economische situatie van

Nederlanders online beschikbaar

Al sinds acht jaar wordt de economische si-tuatie van Nederlanders in beeld gebrachtdoor Economic Situation. Deze studiemaakt deel uit van de kernstudie van hetLISS panel die de ontwikkeling van veel le-vensaspecten volgt. De studie bestaat uitdrie modulen: Income, Housing en Assets.De eerste twee modulen worden elk jaarbevraagd, het laatste tweejaarlijks. De databieden een breed inzicht in het Nederlandsleven. Sinds kort zijn de data voor 2014 en2015 beschikbaar en kunnen worden ge-download via LISS Data Archive.lissdata.nl/dataarchive

Ook sinds kort beschikbaar:Studies LISS panel• Wetenschappelijk Bureau 50-Plus, februari2015, Changing costs regarding care andpension• Geijtenbeek, L.; Buser, T., maart 2014,Competition & sexual preference• Leeuw, E.D. de; Conrad, F.G., juli 2014,Professional respondents in panels• Vroege, L. de; Feltz-Cornelis, C.M. van der,april - mei 2014, Prevalence and relevantassociations of alexithymia in a Dutch generalpopulation sample and in comparison toclinical patients with somatic symptomdisorder (SSD)• CentERdata, november - december 2014,Personality - Wave 7• CentERdata, januari t/m december 2014,Initial Questionnaire - 2014• CentERdata, april - mei 2015, Work andSchooling - Wave 8• CentERdata, juli - augustus 2015, Health -Wave 8• CentERdata, augustus - september 2015,Religion and Ethnicity - Wave 8Studies Immigrant panel• CentERdata, januari t/m december 2014,Initial Questionnaire - 2014• Leeuw, E.D. de; Conrad, F.G., juli 2014,Professional respondents in panels

• Heijmans, Drs N. (Radboudumc Nijmegen)(2015): Social network composition ofvascular patients and its associates with healthbehavior and clinical risk factors. DANS.http://dx.doi.org/10.17026/dans-zz6-fd4y• Hense, Dr. E.H. (Radboud UniversiteitNijmegen) (2013): Thematische collectie -project Spiritualiteit en MaatschappelijkeVernieuwing. DANS.http://dx.doi.org/10.17026/dans-zuf-ck76• Hoogendoorn-Lanser, Dr S. (KiMNetherlands Institute for Transport PolicyAnalysis) (2015): Mobiliteitspanel Nederland(MPN 2013). DANS.http://dx.doi.org/10.17026/dans-zyc-7qfv• Kožuh, Dr. I.K. (University of Maribor)(2015): Community Building among Deaf andHard of Hearing People on Social NetworkingSites. DANS.http://dx.doi.org/10.17026/dans-xfw-qztc• De Regt, dr. S. (Utrecht University) (2015):Onderzoek Nationale Dodenherdenking. DANS.http://dx.doi.org/10.17026/dans-x8u-fkzx• Rezetko, dr. R.C. (Radboud UniversityNijmegen/ University of Sydney); Naaijer, drs.ir. M. (Vrije Universiteit Amsterdam) (2015):An Alternative Approach to the Lexicon ofLate Biblical Hebrew-Dataset. DANS.http://dx.doi.org/10.17026/dans-256-4hcy-http://dx.doi.org/10.17026/dans-xn8-v6dy

Via easy.dans.knaw.nl zijndeze bestanden beschikbaar.Bezoek deze site of scan deQR code.

–––––––––––––––––––––––––––DANS• Nieuw in EASY: dataset Hebrew Text

Database ETCBC4b

Onlangs is de dataset Hebrew Text Data-base ETCBC4b gedeponeerd. Het gaat hierom de Hebreeuwse Bijbel, in de text van deBiblia Hebraica Stuttgartensia, taalkundiggeannoteerd door het Eep Talstra Centre forBible and Computer (ETCBC, VU Amster-dam) en gecureerd in het SHEBANQ-pro-ject. Dat de data al worden gebruikt, werdduidelijk op de Annual Meeting van de So-ciety for Biblical Literature te Atlanta. Jos-hua Berman en Moshe Koppel van de Bar-Ilan universiteit Israel presenteerden eenbètaversie van Tiberias, een systeem waar-mee gebruikers relatief gemakkelijk data-mining op het corpus van Bijbelse tekstenkunnen uitvoeren.http://dx.doi.org/10.17026/dans-z6y-skyh

Ook sinds kort beschikbaar:• Centraal Bureau voor de Statistiek (2015):Enquête Beroepsbevolking - EBB - 2014.DANS. http://dx.doi.org/10.17026/dans-xqb-a38p

Joshua Berman (rechts op de foto) enMoshe Koppel van de Bar-Ilan universiteitIsrael presenteerden een bètaversie vanTiberias foto Dirk Roorda

De digitale editie bevat ook deze afbeel-ding van Witsens ‘grote kaart’ van 1687bron Huygens ING

Mary Vardigan (ICPSR) neemt na driejaar afscheid van het internationaledatakeurmerk DSA. Wat zijn de be-langrijkste successen onder haarvoorzitterschap geweest?Ingrid Dillo

“Allereerst is daar natuurlijk de enorme groeidie DSA in de afgelopen jaren heeft doorge-maakt. Toen ik voorzitter werd, waren er zo’ntwintig repositories met een DSA-seal. Nu zijndat er al meer dan vijftig, verspreid over degehele wereld.”Mary praat verder: “Wat ik ook een grootwinstpunt vind, is de inrichting van een ge-neral assembly (GA) eind vorig jaar. De GAmaakt DSA meer community gedreven enduurzamer en levert ons tegelijkertijd eengrotere pool van reviewers op.”

Research Data AllianceAls laatste belangrijke wapenfeit noemt Maryde samenwerking met het World Data System

(WDS). “Om stakeholders nog beter te kunnenbedienen, heeft DSA het afgelopen jaar sa-menwerking gezocht met het WDS van hetInternational Council for Science (ICSU).WDS biedt zijn datacentra een accreditatie-procedure die erg lijkt op de basiscertificeringvan DSA. Onder de vlag van de Research DataAlliance (RDA) hebben beide partijen geza-menlijk een catalogus van requirements ont-

wikkeld, die het beste van beide standaardencombineert. Deze catalogus zal dit jaar gefa-seerd worden ingevoerd door beide organisa-ties.”

Nederlandse praktijkVanuit Nederland is DANS nauw betrokken bijde ontwikkelingen op het terrein van certifi-cering. Het digitale archief van DANS is DSA-

en WDS-gecertificeerd en heeft onlangs ook hetnestorSeal verkregen. Daarnaast participeertDANS in de besturen van DSA en WDS entrekt de organisatie het Nederlandse certifice-ringsproject van de NCDD. Meer informatieover de certificering van digitale repositoriesin Nederland staat in de flyer Doe ik het goed?van de NCDD.datasealofapproval.org

Mary Vardigan neemt na drie jaar afscheidvan het internationale datakeurmerk DSAfoto Umich

Deze bestanden zijn kosteloosbeschikbaar via www.lissdata.nl/dataarchive. Bezoek deze siteof scan de QR-code.

‘Trots op 50 DSA-seals wereldwijd’Internationaal raamwerkInformatiebeheerders en andere betrokke-nen kunnen terugvallen op een raamwerkvan verschillende internationale certificering-standaarden voor digitale repositories omde kwaliteit van hun werkprocessen enbeheersystemen te toetsen en te verbe-teren. Een ‘trustworthy digital repository’(tdr) is een term die dan vaak wordtgebruikt. In toenemende mate vancomplexiteit en diepgang zijn de volgendedrie instrumenten beschikbaar: het Data

Seal of Approval (DSA), het nestorSeal(toetsing op DIN-standaard 31644) en deISO-certificering (16363). De toetsing looptin intensiteit uiteen van een ‘peer review’van opgeleverde documentatie in het gevalvan DSA, tot een voorbereid ‘on-site’bezoek van een extern audit team in hetgeval van ISO. Financiers, producenten enhergebruikers van data kunnen vertrouwenop een beherende instelling met een certifi-cering volgens een van de omschrevenstandaarden.

Page 5: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

De KNAW presenteerde onlangs

CHAT, het Center for Humani-

ties and Technology. E-data

interviewt president José van

Dijck over de kansen voor

de geesteswetenschappen,

nieuwe én oude stijl.

Erica Renckens

“Als ik mijn promotieonderzoek nu opnieuwzou mogen uitvoeren, dan zou er zó veel meermogelijk zijn,” verzucht José van Dijck inhaar onlangs gerenoveerde kantoor in hetAmsterdamse Trippenhuis. “Ik onderzocht hetpublieke debat rondom in-vitrofertilisatie(ivf). De eerste reageerbuisbaby werd in 1978geboren en zeven jaarlater zat ivf in het zie-kenfondspakket. In hetbegin waren mensenfel tegen, maar na eentijdje werd het tochgeaccepteerd. Ik vroegme af hoe zo’n procesverloopt en wat de rolvan de media daarinis.”Om dit te kunnen on-derzoeken, moest VanDijck de archieven in. “Hele krantenarchievenheb ik doorgeploegd op dit debat, dat wasbijna niet te doen. Ik moest het onderwerpnoodgedwongen heel klein houden, want alsik dat niet deed, werd het een onmenselijkeklus,” vertelt Van Dijck. “Nu zou ik veel meerdata over een veel langere periode kunnendoorzoeken. Ik zou toegang hebben tot gedi-gitaliseerde kranten, radio- en televisieopna-mes en gestructureerde data, en zo veel bredernaar het debat kunnen kijken.”

Zoeken in de ondertitelingTijd om haar onderzoek met de huidige mid-delen nogmaals uit te voeren, heeft Van Dijckechter niet. Naast hoogleraar Media en Cul-tuur aan de Universiteit van Amsterdam enpresident van de KNAW is zij ook een van deaanvragers van CLARIAH, een consortium datzich richt op de ontwikkeling van een digitaleinfrastructuur voor de geesteswetenschappen.“De drie focusgebieden van CLARIAH ont-wikkelen tools voor hun eigen data: taalkundevoor tekstbestanden, mediastudies voor au-diovisuele bronnen en sociaaleconomischegeschiedenis voor gestructureerde data,” ver-telt Van Dijck. “Maar het leuke is dat die toolsvervolgens ook bruikbaar zijn in andere gees-teswetenschappelijke disciplines. Zo kunnenwe straks taalkundige tools gebruiken voor se-mantisch zoeken in automatisch gegenereerdeondertiteling bij audiovisuele bestanden.”

Netwerken met CHATVan Dijck: “De KNAW ziet aan CLARIAH datde digital humanities echt een opkomend ge-bied zijn, van belang voor alle geestesweten-

schappen. Daarom is begin december het Cen-ter for Humanities en Technology (CHAT) ge-lanceerd. Hierin zitten zeven KNAW-institutenen acht faculteiten Geesteswetenschappen,van alle grote Nederlandse universiteiten.”Met CHAT wil de KNAW een landelijk net-werk vormen. “We brengen met CHAT men-sen uit uiteenlopende vakgebieden bij elkaar.Zij hebben hele verschillende onderzoeks-vragen, maar zijn tegelijkertijd wel heel geïn-teresseerd in elkaars methodologieën. Je kuntelkaars data en tools vaak goed gebruiken ineen heel ander vakgebied.”

Publiek belang bij open dataVoorwaarde voor het gebruik van elkaars toolsis dat de data waarop ze losgelaten kunnenworden ook vrij toegankelijk zijn. “Dat isinderdaad nog een groot obstakel,” geeft VanDijck toe. “Veel historische data zijn nog

altijd niet gedigitali-seerd. Ik geloof datslechts 5 tot 7 procentvan de archieven vanKNAW-instituten gedi-gitaliseerd zijn. Bij deKB en het Instituutvoor Beeld en Geluidzal dat iets meer zijn.Het toegankelijk ma-ken van al die data zalnog heel wat geld enmanuren kosten.”

“En dan spelen er ook nog copyright-proble-men. Dat is een belangrijk onderwerp dat ookop de agenda moet staan. Van wie zijn die datanu eigenlijk en hoe mogen ze naar buiten ge-bracht worden? Dat is hele grote problema-tiek, maar daar schrikken we niet voor terug.Ik kan niet voorspellen waar we uit zullenkomen, maar zeker is dat het alleen maarverder gaat en we kunnen die ontwikkelingwel stuwen,” aldus Van Dijck.

Publiek belang bij open data“Ik begrijp het sentiment van de geestes-wetenschapper die zijn data niet wil delenheel goed,” zegt Van Dijck. “Als je vroeger alshistoricus naar een archief ging, was wat jedaarin vond jóuw schat en daar wilde je eerstzelf induiken. Maar in het digitale tijdperk isdat toch wat moeilijker vol te houden, wantsteeds meer data zijn open beschikbaar. Te-gelijk zien we ook een trend naar juist meergesloten data. Vier jaar geleden kon je als on-

derzoeker nog zo Twitter-data gebruiken, nuvragen ze er geld voor. Data zijn veel geldwaard, daarom moeten we als onderzoekersbijblijven en het niet aan bedrijven overlatenom bijvoorbeeld zoekalgoritmes te ontwik-kelen. We hebben een publiek belang bij opendata.”

Financiers gezocht“CLARIAH is erg blij met de 12 miljoen eurodie ze van NWO heeft ontvangen om dekomende vijf jaar tools mee te ontwikkelen,maar er is nog onvoldoende geld om ookonderzoek mee te doen,” vertelt Van Dijck.“Kijk naar de fysici, die hebben CERN, met

die infrastructuur doen ze hun onderzoek. Ofde astronomen, als zij voor 50 miljoen eenmooie telescoop hebben, moeten ze nog be-ginnen met onderzoek doen. Bij ons is datprecies hetzelfde.”“Onze grote wens is dus dat er meer finan-ciering beschikbaar komt. Daarvoor kijkenwe smekend naar NWO en andere financiers.Als individuele vakgebied binnen de geestes-wetenschappen zijn we maar klein, dusdaarom vormen we met CHAT een coalitieom grote aanvragen te doen. Bovendien zie jedat landen die zich sterk organiseren in dedigital humanities veel sterker staan bij calls.”

Positieve impulsGaat de financiering van de nieuwe, digitalegeesteswetenschappen ten koste van degeesteswetenschappen ‘oude stijl’? “Nee,absoluut niet, het is geen kwestie van of-of,”reageert Van Dijck. “Het zal juist een impulsgeven aan sommige gebieden waar we nu din-gen kunnen zien die we voorheen niet kondenzien. Daarnaast zien we dat onze cultuur inhoog tempo digitaliseert en je moet je instru-menten afstemmen op de data waar je meewerkt. Maar digital humanities is geen ver-vangende methodologie, je hebt nog steedsinterpretatieve methoden nodig.”knaw.nl

E-DATA&RESEARCH februari 2016 5

José van DijckJosé van Dijck (1960) doet onderzoek naar sociale media, mediatechnologieën en digitalecultuur. Ze studeerde aan de Universiteit Utrecht en promoveerde aan de Universiteit vanCalifornië in San Diego. Ze was universitair docent journalistiek aan de RijksuniversiteitGroningen en hoofddocent media en visuele cultuur aan de Universiteit Maastricht.In 2001 werd Van Dijck benoemd tot hoogleraar bij het departement Mediastudies aan deUniversiteit van Amsterdam, waarvan ze van 2002 tot 2007 voorzitter was.Van 2008 tot 2011 was ze decaan van de Faculteit Geesteswetenschappen van deUniversiteit van Amsterdam.Op 18 mei 2015 volgde ze Hans Clevers op als president van de Koninklijke NederlandseAkademie van Wetenschappen (KNAW).

‘CHAT brengtmensen, data en tools

bij elkaar’

KNAW-president José van Dijck:

‘Digital Humanities verfrissenonze blik op bestaande data’

INTERVIEW

Welk cijfer geeft u E-data & Research?In maart vindt een onderzoek onder le-zers van dit blad plaats, uitgevoerd doorCentERdata. Vragen over de inhoud, deleesbaarheid en bijvoorbeeld de ver-spreiding van E-data & Research latenwe aan bod komen.We stellen het zeer op prijs als u meewilt werken aan dit onderzoek.

U ontvangt hierover binnenkort een e-mail. Het onderzoek zal een paar minu-ten in beslag nemen, uw antwoordenzijn voor ons erg waardevol. We zijn be-nieuwd naar de resultaten en berichtenhier natuurlijk graag over in een volgendnummer. Alvast bedankt voor uw mede-werking! (HB)

ONDERZOEK

“We hebben een publiek belang bij open data” foto Milette Raats

Page 6: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

Datamanagement leeft. Er worden

veel projecten opgezet door

landelijke werkgroepen en binnen

universiteiten. Maar eenheid in

het beleid, laat staan de praktijk,

ontbreekt. Het LCRDM moet sa-

menhang brengen. Marika de Bruijne

LCRDM staat voor Landelijk CoördinatiepuntResearch Data Management. Om de vele initia-tieven op dit gebied bij elkaar te brengen, vroegde VSNU aan SURFsara om een landelijk coördi-natiepunt op te richten voor wetenschappelijkonderzoek in Nederland. Eén van de eerste acti-viteiten van het LCRDM was een bijeenkomstvan experts, met onder andere leden van de SIGResearch Data en de UKB Werkgroep ResearchData. “Er moet niet nóg een vergaderclubje bij,”riep één van de aanwezigen. En daarmee schetstehij in één keer de ontstaansreden van het coördi-natiepunt. Het moet bestaande activiteiten enresultaten op het gebied van Research DataManagement (RDM) zichtbaar maken en eengemeenschappelijke aanpak van belangrijke vraag-stukken bevorderen. De rol van het LCRDM isfaciliterend. Ingeborg Verheul, aanspreekpunt vanhet LCRDM bij SURFsara, vertelt: “De input komtvan deskundigen van deelnemende instellingen.”

Online informatiebronnenVerheul: “We bieden de Nederlandse onderzoekereen online informatie-infrastructuur, bestaandeuit een website en een online platform voor werk-groepen. De website bevat informatie over data-management, ook bedoeld voor het algemenepubliek. Op het platform kunnen onderzoekersspecifieke vragen stellen, richtlijnen en best prac-tices vinden en contactgegevens opzoeken vanbijvoorbeeld een juridische specialist die veelweet over zeggenschap. Ook komt er een digitalenieuwsbrief die eens per maand wordt verzondennaar geïnteresseerden.”

Roadmap RDMTevens heeft het LCRDM de zogenoemde road-map Research Data Management opgesteld diede huidige situatie van RDM in Nederland be-schrijft. Daarvoor heeft SURFsara een dertigtal

deskundigen bij universiteiten en onderzoeks-instellingen om input gevraagd. Verheul: “Uitdeze interviews bleken vijf vraagstukken voorveel betrokkenen belangrijk: Bewustwording,Ondersteuning, Juridische Aspecten & Zeggen-schap, Financieel en Faciliteiten & Data-Infra-structuur. In de roadmap beschrijven we wat hetLCRDM op deze gebieden de komende drie jaargaat doen.”De roadmap is besproken met de StuurgroepOnderzoek en Valorisatie van de VSNU en devijf vraagstukken worden nu opgepakt doorwerkgroepen. “Voor de werkgroep JuridischeAspecten en Zeggenschap zijn al twee trekkersgevonden: Marlon Domingus van de EUR enEsther Hoorn van de RUG. Zij zijn al begonnen.”

Verder heeft Faciliteiten & Data Infrastructuurprioriteit. “Dat werd als belangrijkste vraagstukgezien omdat iedere universiteit daar nu - in ver-schillende stadia - mee bezig is.” Het LCRDMwerkt momenteel aan de samenstelling van dezewerkgroep.Met zijn aanpak wil het LCRDM een internatio-naal voorbeeld zijn. Het project loopt in iedergeval tot eind 2017. Per 2020 moet RDM eenvanzelfsprekend onderdeel zijn van het Neder-lands wetenschappelijk onderzoek en onderwijs,aldus de roadmap.

[email protected]://www.surf.nl/innovatieprojecten/duurzame-data.html

De Open Universiteit heeft in2014 een Research Data Ma-nagementbeleid vastgesteld.Een centrale aanpak met cen-trale voorzieningen is volgensde betrokkenen de sleutel totsucces. Jos Rikers

Onze centrale aanpak start met hetimplementeren van het beleid dooreen projectgroep. Naast de project-leider uit de centrale organisatie be-staat deze groep voornamelijk uitervaren onderzoekers en DANS, ex-tern expert op het gebied van data-management en data archivering.Vervolgens hebben we de priorite-ring van het project bepaald. De ken-nisachterstand moest worden inge-lopen en onderzoekers met acutevragen (wat is een datamanagement-paragraaf; hoe schrijf ik een data-managementplan; waar kan ik data

archiveren) werden als eerste gehol-pen. Met DANS werd gesprokenover mogelijke trainingen en cur-sussen, waaronder de RDNL-cursusvoor data librarians.

Informatie op intranetUit deze ervaringen werd geput bijde volgende stap: het formulerenvan de ondersteuning voor onder-zoekers aan de hand van de ver-schillende fasen in het onderzoek-proces. Het resultaat van deze stapwordt verwoord in een intranet. Bijde informatievoorziening houden werekening met verschillen tussen we-tenschapsgebieden (zoals verschil-len in metadata standaarden) en ver-wijzen we naar externe bronnen, op-leidingen e.d. Onze intentie is omvan dit intranet een internetsite af teleiden (beschikbaar eind 2016).De laatste stap is het ontwikkelen

van een interactieve tool die de on-derzoeker in de diverse fasen vaneen onderzoek voorziet van infor-matie op het gebied van ResearchData Management. Deze interac-tieve tool houdt rekening met decontext van het onderzoek en geeftactief tips en richtlijnen aan de on-derzoeker, die dan niet meer op zoekhoeft naar informatie. Ook deze toolwillen we graag delen als daar be-langstelling voor is.Enkele acute vragen van onderzoe-kers hebben we al kunnen beant-woorden. OU-onderzoeker EricKluijfhout: “Zo heeft het EuropeseRAGE-project (rageproject.eu),waarvan wij lead partner zijn, geke-ken of de datasets die uit het projectvoortkomen, bij DANS kunnen wor-den opgeslagen. Een eerste set is bijwijze van test gedeponeerd. Hetbleek echter nog niet praktisch uit-

voerbaar om datasets gedurende hetproject bij DANS op te slaan en danonderzoekers uit diverse landen toe-gang tot die datasets te geven voorhet uitvoeren van analyses. Welheeft DANS ons uitstekend gehol-pen bij onze verplichting een data-managementplan te ontwikkelen inde eerste fase van het project.”

Prettig en professioneelWe zijn tevreden over ons centraalResearch Data Managementbeleid.Het beleid geeft onze onderzoekersduidelijkheid. Ze kunnen in hun in-teractie met partners, subsidiever-strekkers en anderen op dit beleid te-rugvallen. En dat werkt erg prettigen professioneel.Jos Rikers (MSc) is senior beleids-medewerker onderwijs en onderzoekbij de Open [email protected]

Landelijk Coördinatiepunt Research Data Management

LCRDM gaatvoor samenhang

Met een online informatie-infrastructuur brengt hetLandelijk Coördinatiepunt Research Data Managementwel structuur aan voor onderzoekers.

Centrale aanpak met centrale voorzieningen

RDM bij de Open Universiteit

illustratie Kito/Kitocartoons.com

6 februari 2016 E-DATA&RESEARCH

22 - 25 februari • AmsterdamDigital Curation ConferenceHet thema van deze conferentieis ‘Visible data, invisible infra-structure’.dcc.ac.uk/events/idcc16

1 - 3 maart • TokioResearch Data AllianceDe RDA werkt aan het realiserenvan open toegang tot onder-zoeksdata. Twee keer per jaaris er een bijeenkomst om devoortgang van resultaten van dewerkgroepen te presenteren.rd-alliance.org

13 maart • AmsterdamParadisolezingen 2016Voor de Paradisolezingen heeftde KNAW acht topwetenschap-pers uitgenodigd te komenspreken over cruciale vragendie de wetenschap de komendejaren denkt te gaan beantwoor-den. De lezingen vinden plaatsop zondag van 11.00 tot 13.00uur in Paradiso te Amsterdam.knaw.nl/nl/actueel/agenda

22 - 23 maart • AmersfoortICT.OPEN 2016Tijdens deze jaarlijkse conferen-tie voor onderzoekers op hetgebied van ICT en micro-elek-tronica ontmoet de wetenschapelkaar.www.ictopen.nl

4 april • AmsterdamInterScienceDe Jonge Akademie organiseerteen serie publieksbijeenkomstenwaarbij verschillende ledenvanuit hun eigen vakgebiedeenzelfde thema belichten.dejongeakademie.nl

20 mei • AmsterdamBijeenkomst eHumanitiesTijdens deze bijeenkomst wordtteruggeblikt op 5 jaar Computa-tional Humanities: wat hebbenwe geleerd?ehumanities.nl

31 mei - 3 juni • BergenIASSIST 2016Het thema van dit jaarlijkseIASSIST-event is ‘Embracingthe ‘data revolution’:opportunities and challengesfor research’.iassistdata.org/conferences

7 - 9 juni • GöttingenInternationale Conferentieover Electronisch PubliserenWetenschappers, uitgevers,docenten, librarians, ontwikke-leraars en andere stakeholderskomen samen tijdens dit eventen delen ervaringen vanuit deeigen context.meetings.copernicus.org/elpub2016

9 - 10 juni • BelvalDHBenelux - Conference forDigital Humanities ResearchDeze conferentie op het gebiedvan digitale geestesweten-schappen wordt voor de derdekeer georganiseerd.dhbenelux.org

AGENDA

Page 7: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

Overheden huren vaak

externe adviesbureaus

in voor onderzoek. Het

resultaat van die onder-

zoeken wordt beschik-

baar gesteld, maar de

onderliggende data vaak

niet. Wat betekent dit in

de praktijk? Arjan El Fassed

Met bijna 5 miljard euro per jaar ge-ven overheden opdracht voor groteen kleine onderzoeken. Deze onder-zoeken herbergen een schat aan datadie met publieke middelen zijn be-kostigd en die hergebruikt zoudenkunnen worden. Maar doordat on-derliggende data niet beschikbaarzijn, is het voor derden onmogelijkde kwaliteit van deze onderzoeken teverifiëren en te valideren, terwijl hetresultaat van die onderzoeken vangrote invloed is op overheidsbeleid.

Wake up callIn de wetenschap is data delen al ja-ren gemeengoed, zoals onder kwan-titatieve sociologen, of is dat recentgeworden, zoals onder archeologen.Onder psychologen was de affaireStapel een wake-up call. In een ge-sloten datacultuur bestaan echtergeen mogelijkheden data te contro-leren en kan manipulatie met onder-zoeksgegevens gemakkelijk onop-gemerkt blijven. Bovendien bete-kent een gebrek aan open data cul-tuur ook, dat nuancering ontbreekt.Toen twee jaar geleden het rapportWerk aan de Wijk van het Sociaal enCultureel Planbureau (SCP) ver-scheen, kopte De Volkskrant de-

zelfde dag: ‘Aanpak Vogelaarwijkenmislukt’. Een te snel getrokken con-clusie, want in een tijd van econo-

mische crisis was het juist een suc-ces dat zwakkere wijken niet verderachteruit gaan.

Democratisch gatOp de website van het SCP stond hetdesbetreffende rapport (als PDF-bestand) en een bijlage met een uit-leg over de gebruikte databestanden.Zo was voor het onderzoek gebruikgemaakt van de Woonmilieudata-base, de Integrale Veiligheids-monitor, de Leefbaarometer en hetWoononderzoek Nederland (WoON).Weliswaar kon je wel doorklikkennaar een uitleg over deze bestanden,maar kon je niet bij de data zelf. Endat terwijl al deze bestanden voort-komen uit onderzoek gedaan inopdracht van en gefinancierd doorministeries (VROM, BinnenlandseZaken en Justitie) en diensten als deRijksplanologische Dienst (RPD) en

het Centraal Bureau voor de Statis-tiek (CBS).Het ontbreken van data voort-komend uit onderzoek in opdrachtvan de overheid betekent naast eendemocratisch gat ook dat duplicatieplaats vindt. Tel eens alle onderzoe-ken op dat jaarlijks in opdracht vangemeenten gedaan wordt. Denk bij-voorbeeld aan onderzoeken op hetgebied van publieke dienstverleningof het terrein van decentralisaties.Dat behelst veel data in de vorm vansurvey onderzoek. Deze data zou-den op een eenvoudige manier her-gebruikt kunnen worden, ware hetniet dat deze data niet beschikbaarkomt.

Meer mogelijkWelke mogelijkheden en nuancerin-gen ontstaan, als de uitkomsten on-derling vergelijkbaar zouden zijn?

En valt er niet van alles te besparenals onderzoeksdata herbruikbaarzouden zijn? Hoe betrouwbaar zijnonderzoeken eigenlijk en hoeveeloverlap zit tussen de onderzoeken?Het beschikbaar maken van onder-zoek data stimuleert ook nog eensinnovatie. Uit onderzoek in onderandere Denemarken en het VerenigdKoninkrijk blijkt dat het delen vanonderzoek data een enorm econo-misch voordeel kan opleveren voormidden en klein bedrijven, waardoorook economisch rendement te beha-len valt.

Goed nieuwsKortom: het openstellen van onder-zoekdata creëert een economischeen maatschappelijke meerwaarde,stimuleert innovatie en hergebruik,en zorgt voor sneller profijt van we-tenschappelijke ontdekkingen. Hetgoede nieuws is dat AlgemeneRijksvoorwaarden voor het ver-strekken van opdrachten tot hetverrichten van diensten (ARVODI)bestaan. Met deze voorwaardenwordt de overheid eigenaar van datadie voortkomen uit onderzoek waarze zelf opdracht toe heeft gegeven.Sommige ministeries schrappendeze bepaling echter uit contracten.En als het al in de contracten staat,wordt het niet altijd nageleefd. Ookinkopers van onderzoek op decen-traal niveau zijn zich vaak nietbewust dat overheden dergelijkevoorwaarden kunnen opleggen. Datis zonde en hiermee gaat veelwaarde verloren en wordt de over-heid en de belastingbetaler op kostengejaagd.

Arjan El Fassed is directeur OpenState Foundationopenstate.eu/nl

E-DATA&RESEARCH februari 2016 7

Met het Dutch Techcentre forLife Sciences (DTL) is Neder-land een expertiseplatformvan onderzoeksorganisatiesuit de life sciences rijker.Ruben Kok, directeur DTL,vertelt. Rutger Nugteren

“Met inmiddels 35 partners willenwe een duurzaam en samenhangendnetwerk vormen van lokale experti-segroepen en hun geavanceerde on-derzoeksfaciliteiten, biobanken endatabanken. We brengen experts uithet brede veld van de life sciencesbij elkaar,” aldus Ruben. “We helpenbijvoorbeeld biomedische en klini-sche wetenschappers, maar ook on-derzoekers uit de (agro)genomicssector, voedingsonderzoek en bio-technologie, actief bij het vinden van

zowel expertise als infrastructuur.Ook bundelen we de kennis die bin-nen de partners aanwezig is ten aan-zien van gemeenschappelijke uitda-gingen, zoals data stewardship (rent-meesterschap) en methoden en stan-daarden voor het combineren vandata.”Alle partners beseffen dat bepaalde

aspecten van onderzoek beter in ge-zamenlijkheid gedaan kunnen wor-den. Ruben: “We leren veel van el-kaar en voorkomen dat iedereen hetwiel opnieuw uitvindt. Synergie ont-staat ook door verschillende disci-plines bij elkaar te brengen. DTLwerkt hierin nauw samen met on-derzoeksfinanciers zoals de NWO enZonMw.”

Data4lifesciencesEen ander voorbeeld is de samen-werking tussen UMC’s, NFU, SURFen DTL. Samen werken ze aan‘Data4lifesciences’, een data- enICT-programma, met als doel eengezamenlijke onderzoeksdata infra-structuur. “De rol van DTL ligt metname op het versterken van het in-terne expertise-netwerk van de

UMC’s en op de aansluiting met in-stituten en initiatieven buiten deUMC’s. Biobanken en cohorten, ex-perimentele faciliteiten, databankenuit onderzoek en zorg: allemaalnoodzakelijke ingrediënten voor eensamenhangende infrastructuur dieessentieel zal zijn voor toekomstigonderzoek op het vlak van gezond-heid. Dit vereist een hoogwaardigecomputationele omgeving die nietgebouwd is op grote centrale capa-citeit, maar meer op een aanpak vangedistribueerde data analyse. DTLbuigt zich hier graag over.

Wilt u zich aansluiten bij het DTLplatform? Heeft u vragen over DTLof over FAIR data? Neem dan con-tact op met Ruben [email protected]

Ruben Kokfoto Thijs Rooijmans

3.5003.0002.5002.0001.5001.000

5000

Bin

nenl

and

seZ

aken

enK

oni

nkrijk

srel

atie

s

Bui

tenl

and

seZ

aken

Def

ensi

e

Eco

nom

isch

eZ

aken

Infr

astr

uctu

uren

Mili

eu

Ond

erw

ijs,

Cul

tuur

enW

eten

scha

p

Soci

ale

Zak

enen

Wer

kgel

egen

heid

Vei

lighe

iden

Just

itie

Volk

sgez

ond

heid

,W

elzi

jnen

Sp

ort

Alg

emen

eZ

aken

20192018

20172016

20152014

2013

Arjan El Fassed: “Deze tabel laat zien dat ministeries miljarden investeren in onderzoek, gefinancierdmet publiek geld. De enorme hoeveelheid data die uit dit onderzoek vrijkomen, leveren economischen maatschappelijk rendement op, maar dan moeten we de data wel structureel delen”bron Rathenau Instituut

Dutch Techcentre for Life Science

Expertiseplatform voor de life sciences

Vijf tips voor het delenvan dataOpen State Foundation maaktmet open data en hergebruikpublieke informatie digitaaltransparant. Vijf tips vooronderzoekers:1. Weet wat je hebt. Doe een

data inventarisatie.2. Maak de data toegankelijk via

open machine-leesbareformaten.

3. Maak gebruik van openlicenties, bij voorkeur cc0.

4. Zorg ervoor dat de datavindbaar is.

5. Communiceer erover enstimuleer het hergebruikervan.

Arjan El Fassed, directeur Open State Foundation:

‘Kennis is macht, mits gedeeld’

Overheidsbesteding aan onderzoek

FAIR-data aanpakDTL hanteert in haar werk deFAIR-data aanpak, afgeleid vande internationaal ontwikkeldeFAIR data principles(datafairport.org).FAIR staat voor Findable(vindbaar), Accessible(toegankelijk), Interoperable(uitwisselbaar) en Reusable(herbruikbaar). “Door data goedte beschrijven, verbanden teleggen en betekenis en contextaan datasets toe te voegen,worden datasets extrawaardevol omdat ze metinformatie uit andere databron-nen verrijkt kunnen worden.Hierdoor kunnen nieuwe inzich-ten worden verworven uit data,en kan nieuwe kennis wordenverkregen.”

Directe uitgaven voor R&D per departement (op kasbasis) in miljoenen euro’s per jaar

Page 8: Hoemaakjegearchiveerdewebsitesbruikbaarvoordewetenschap? … · 2021. 3. 11. · QR code met een smartphone om de ... tute for Internet and Society een provocerend en leuk verhaal

Om historische tekstbronnengeschikt te maken voor digi-taal gebruik, moeten ze ma-chineleesbaar zijn. Het EU-project Transcriptorium expe-rimenteerde met HandwrittenText Recognition. Edwin Klijn

Voor handgeschreven teksten vol-staat OCR-technologie niet. In hetEU-project Transcriptorium (met alspartners onder andere het HuygensING, de Universiteit van Innsbrucken het Instituut voor NederlandseLexicologie) is drie jaar geëxperi-menteerd met Handwritten Text Re-cognition (HTR). Deze technologieprobeert interactief en voorspellendhandgeschreven gedigitaliseerdeteksten in machineleesbare tekstenom te zetten. Op een workshop, ge-houden op 27 november in DenHaag, werden de eindresultaten be-sproken én uitgeprobeerd, in eenhands-on sessie rondom de tran-scriptietool Transkribus.

60% goedVéronica Romero (Universitat Po-litècnica de València) introduceerdehet Transcriptorium-project, waarbijHTR-technologie als test is ingezetop handgeschreven materiaal vande Engelse filosoof Jeremy Ben-tham en schrijfster Jane Austen. Deresultaten laten zien dat al veel kanworden bereikt met HTR-technolo-gie door het inzetten prior know-ledge methods, zoals layout analyse,

tekstregeldetectie en -extractie enlexical and language modelling.Binnen het Transcriptorium-projectis ook een pilot met HTR-technolo-gie uitgevoerd op het handgeschre-ven deel van de Resoluties van deStaten-Generaal. Jesse de Does,computationeel taalkundige bij hetInstituut voor Nederlandse Lexico-grafie (INL) legt uit: “De eersteresultaten waren schrikbarend: 68%van de woorden was incorrect! Nafinetuning van de software slaagdemen erin de Word Error Rate (WER)terug te brengen tot 40,4%. Het is

een goed teken dat experts tijdenseen workshops van het project zichvooral bekommeren om de WER.Want 40% fout kun je net zo goedzien als 60% goed.”

Meerdere toepassingenWalter Ravenek (Huygens ING) ver-telde hoe door toepassing van toolsvan onder meer de Stanford NaturalLanguage Processing Group gedi-gitaliseerde corpora beter toegan-kelijk kunnen worden gemaaktop onder meer datum, geografischelocatie en personen. Günther

8 februari 2016 E-DATA&RESEARCH

COLUMN

GELEZEN

Voor een historisch letterkun-dige studie die ik aan het

schrijven ben, heb ik de afgelo-pen twee jaar een paar honderdboeken en artikelen moeten lezen.Ik las ze op papier en digitaal.Terugkijkend is het lezen vanfotokopieën mij het slechtst be-vallen. Fotokopieën ga ik te lijfmet een potlood en markers inverschillende kleuren. Met hetpotlood maak ik aantekeningen inde marge, met de markers maakik een samenvatting. Ik highlighteerst de grote lijn van het verhaal,plus passages die me om een ofandere reden nuttig lijken.Vervolgens vat ik de highlightssamen in een andere kleur.Dat lijkt een redelijk efficiëntsysteem, maar het komt erop neerdat je, als je iets wilt naslaan, dehele tijd in stapels kopieën aanhet bladeren bent. Dan geef iktoch de voorkeur aan een boek –

dat bladert makkelijker. Hoewelik uiteindelijk vrijwel alles digi-taal heb gelezen, zou ik de echteboeken alleen al om die reden nietwillen missen.

D igitaal lezen doe ik op m’niPad. Ik lees boeken het

liefst in pdf-formaat, omdat je ervan alles mee kunt. Je kunt eenpdf bijvoorbeeld makkelijk dupli-ceren, zodat je een schoon exem-plaar kunt bewaren naast eenexemplaar om digitaal aanteke-ningen in te maken. Als ik maareen of twee hoofdstukken uit eenboek nodig heb, verwijder ik deandere hoofdstukken uit het dupli-caat.De grootste winst van digitaal le-zen zit wat mij betreft in de anno-tatiemogelijkheden. Ik gebruikdaar een buitengewoon handigeapp voor – iAnnotate – waarmeeje diverse soorten aantekeningen

aan een pdf kunt toevoegen:beeld, geluid, teksten, hightlightsin alle kleuren van de regenboog,uitroeptekens, vraagtekens, stem-pels – je kunt het zo gek niet be-denken.

T oen mij eenmaal duidelijkwas welke onderwerpen ik in

mijn studie wilde opnemen, benik mijn digitale bronnen gaan ver-rijken met metadata. Zo zette ikbij alle theologische verhandelin-gen bijvoorbeeld het woord ‘theo-tag’. Vervolgens kun je alle bron-

nen op dat woord doorzoeken – aldan niet via een index – wat veeltijd scheelt.De theorie achter metadateren isrelatief simpel, maar de afgelopentwee jaar heb ik ondervonden hoeweerbarstig de praktijk kan zijn.Om goede metadata te kunnenmaken, moet je eerst patronen inje bronnen herkennen. Maar omheldere patronen in je bronnen teherkennen, moet je er eerst veelhebben gelezen. En moet je zegrondig hebben gelezen.

I k zou hier graag vertellen hoeschoon en helder gestructureerd

mijn digitale bronnenverzamelingeruitziet, maar dan zou ik liegen.Ik zweer nog altijd bij digitaal le-zen en metadateren is echt buiten-gewoon handig, maar ik kompdf’s tegen met highlights in vierkleuren, met inconsistente meta-data en met aantekeningen die me

foto Leo van Velzen

Beyond Open Access to OpenPublication and Open Scholar-ship, John W. Maxwell (SimonFraser University, Canada)Dirk Roorda

Dit artikel maakt duidelijk dathet bij Open Access niet alleenom gaat dat het lezen van artike-len gratis wordt, maar dat hetdigitale paradigma een revolutieaan het bewerkstelligen is in dewetenschappelijke communica-tie. Het artikel bevat een aantalcatch-phrases die aangevenwat er aan de hand is.

Hier zijn er alvast twee:1. Lenige wetenschap (Agilescholarship). Vroeger bete-kende publiceren dat een werkafgerond was en vervolgensopenbaar gemaakt werd. Nugebruiken groepen ook elkaarstussenresultaten, die dan welopenbaar moeten zijn. Zo is hetafronden losgekoppeld van hetopenbaar maken.2. Publiceren is publiek verza-melen (gathering an audience).In de digitale wereld is het eenklein kunstje om iets openbaarte maken. De grote kunst is an-deren zover te krijgen dat ze hetaandacht geven. Publiceren isnu meer dissemineren gewor-den. Actief netwerken, met eenzichtbare rol voor collega’s enhet publiek. Al met al helpt ditartikel om de eigen (discipline-specifieke) activiteiten in eenbreder kader te zien.

http://src-online.ca/index.php/src/article/view/202

ooit helder waren, maar die ik nuniet meer begrijp.Echt heldere metadatering vanletterkundige bronnen vraagt nietalleen zeer veel discipline, maarook een flinke dosis helderziend-heid. Pas als je van tevoren weetwat je in die bronnen gaat aantref-fen, kun je je onderzoek beginnenmet een consistente, heldere setmetadata, verankerd in een gede-gen theoretisch kader.Wie weet hoe je dat aanpakt methistorisch letterkundige bronnenwaar tot nu toe nauwelijks onder-zoek naar is gedaan, moet het mijeen keer uitleggen.

Ewoud SandersTaalhistoricus en journalist.Sanders is vaste medewerker vanonder meer NRC Handelsblad enOnze Taal.

Een pagina uit de Resolutie van de Staten-Generaal bron Huygens ING

Zo eenvoudig is metadateren niet in de praktijk

EU-project Transcriptorium ontwikkelt HTR-tool

Automatisch herkennen vanhandschriften weer dichterbij

Mühlberger (Universiteit van Inns-bruck) introduceerde de opvolgervan het Transcriptorium-project:READ (Recognition and Enrichmentof Archival Documents). READricht zich sterk op de toepassing vanHTR-technologie bij het digitaal toe-gankelijk maken van archiefcollec-ties. Het project wil nadrukkelijkoplossingen bieden die toepasbaarzijn op grote hoeveelheden docu-menten. READ gaat op basis van deTranskribus-tool verder bouwen aaneen cloud-service waarin dienstenworden aangeboden op het gebiedvan HTR, lay-outanalyse, documentunderstanding en language model-ling. Ook gaat er geëxperimenteerdworden met automatische hand-schriftherkenning (Famous Hands).

Enorme sprong mogelijkDe workshopAutomated Handwrit-ten Text Recognition liet zien dat eenvan de uitdagingen is om oplossin-gen te ontwikkelen die relatief goed-koop zijn en kunnen worden geïnte-greerd in het productieproces vanmassadigitaliseringsstraten.Als mende beperkingen van de huidige tech-nologie accepteert, is het mogelijkom met relatief kleine investeringeneen enorme sprong te maken in hettoegankelijk maken van archieven.

Edwin Klijn werkt bij het Neder-lands Instituut voor Oorlogsdocu-mentatie (NIOD)huygens.knaw.nl