Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter -...

8
In Linked.Art werkt een inter- nationaal consortium aan de verbetering van de bruikbaar- heid van Linked Open Data voor erfgoedobjecten. Onlangs sloot ook het Rijks- museum zich aan. Maarten Heerlien Afgelopen maand is het Rijks- museum als eerste Nederlandse museum toegetreden tot het interna- tionale consortium van 23 erfgoed- instellingen en onderzoeksinstituten uit Noord-Amerika, Europa en Azië dat uitvoering geeft aan het Lin- ked.Art-project. Het consortium wordt geleid door Robert Sander- son, semantisch architect bij de J. Paul Getty Trust. Voor het Rijks- museum biedt Linked.Art mooie kansen, aldus Saskia Scheltjens, Hoofd Research Services bij het Rijksmuseum: “Deze samenwerking kadert binnen de Memorandum of Understanding tussen het Rijksmu- seum en het Getty. Het geeft ons de gelegenheid om verder te bouwen aan onze expertise en deze kennis maximaal te delen met anderen op een internationaal niveau.” Bruikbaarheid vergroten Doelstelling van het Linked.Art- project is om tot een concrete, op gebruikers gerichte toepassing te komen van CIDOC-CRM, het Con- ceptual Reference Model voor beschrijving en uitwisseling van in- formatie over erfgoedobjecten van de International Council of Muse- ums (ICOM). Hoewel CIDOC-CRM al sinds 2006 een ISO-standaard is, blijft implementatie ervan door erf- goedinstellingen achter. Chris Dijks- hoorn, databeheerder bij het Rijks- museum en betrokken bij het ontwikkelteam van het project: CIDOC-CRM is een expressief, maar zeer theoretisch model. Data is met het model op verschillende manieren vast te leggen, wat de concrete toepassing van CIDOC- CRM hindert. Linked.Art richt zich op het bereiken van consensus over de toepassing van het model door middel van een zogeheten applica- tieprofiel. Daarbij worden alleen de elementen uit CIDOC-CRM gebruikt die voor specifieke use-cases rele- vant zijn. Uiteindelijk vergroot dat de bruikbaarheid van cultureel erf- goed data.” Linked Open Usable Data Linked.Art werkt dit applicatiepro- fiel uit volgens de principes van LOUD, Linked Open Usable Data. LOUD, een model van Sanderson, is een aanvulling op Tim Berners- Lee’s vijfsterrenmodel voor Linked Open Data. Berners-Lee’s model is gericht op dataproviders en minder op datagebruikers, waardoor vijf- sterren datasets vaak onderbenut blijven. LOUD richt zich op ontwik- kelaars, de intermediairs tussen da- taproviders en datagebruikers. Om de balans in datasets tussen bruik- baarheid en rijkheid te optima- liseren, formuleerde Sanderson vijf aanvullende sterren voor bruikbare Linked Open Data en evenzoveel ontwerpprincipes om daar concrete invulling aan te geven. Een belang- rijke daarvan is de consequente uitdrukking van Linked Data in JSON-LD, een gebruiksvriendelijker alternatief voor RDF-XML. De deelname van het Rijksmuseum aan Linked.Art, gecoördineerd door de afdeling Research Services, is een eerste stap in de intensivering van de samenwerking tussen deze afdeling en de afdeling Digital van de J. Paul Getty Trust. Saskia Scheltjens neemt namens het museum zitting in de projectstuurgroep. Linked.Art heeft een initiële doorlooptijd tot 2021. linked.art Sinds afgelopen najaar zijn de radio-archieven van Omrop Fryslân digitaal doorzoekbaar, dankzij een spraakher- kenner die zowel Fries als Nederlands herkent. Erica Renckens Ruim 3.000 uur aan oude analoge radio-opnames van Omrop Fryslân zijn online te doorzoeken. De Friese omroep riep hiervoor de hulp in van spraak- en taaltechnologen van de Radboud Universiteit. Zij ontwik- kelden binnen het project FAME een Nederlands-Friese spraakherkenner. Code switching “In het Fries wordt veel geswitcht met het Nederlands”, vertelt pro- jectleider Henk van den Heuvel. “Dat is erg lastig voor een spraak- herkenner.” Om ervaring op te doen met dit zogenaamde ‘code swit- ching’, bezocht één van de project- leden, spraaktechnoloog Emre Yilmaz onder andere Zuid-Afrika, waar het Afrikaans is doorspekt met Engelse woorden. “Je kunt het pro- bleem grofweg op twee manieren benaderen: je maakt één herkenner voor beide talen of je stelt eerst van elk woord de taal vast en herkent dat vervolgens. Uit Emres onderzoek bleek de eerste aanpak in ons geval het beste te werken.” De Friese spraakherkenner heeft nu een error rate van zo’n 23 procent. “Dat is een stuk lager dan we bij aanvang van het project verwachtten. Het lijkt misschien nog steeds hoog, maar het is laag genoeg om in het archief relevante fragmenten te kun- nen vinden.” Van den Heuvel verwacht dat de spraakherkenner ook buiten het project gebruikt zal worden. “Om- dat het systeem is ontwikkeld voor omroepmateriaal, is het vocabulaire vrij breed. Onlangs heeft iemand het getest voor een zorgrobot en dat leek veelbelovend uit te pakken.” Doorontwikkeling De zoekmachine is opgeleverd in drie versies voor verschillende doel- groepen: het grote publiek, journa- listen en onderzoekers. “De journa- listen kunnen de zoekresultaten ook downloaden. In de versie voor de onderzoekers is daarnaast ook spre- kerherkenning beschikbaar. Het sys- teem clustert de spraak per spreker en probeert deze vervolgens te linken aan een van de 336 stem- profielen. Die zijn van mensen die regelmatig in de opnames terug- komen, zoals presentatoren.” Hoewel het project inmiddels is af- gerond, zal het zoeksysteem nog worden doorontwikkeld. Van den Heuvel: “Momenteel is alleen nog het analoge archief doorzoekbaar, met materiaal tot het jaar 2000. De private partners uit het project – Omrop Frylân, Tresoar en Gridline – zullen ook nog het latere materiaal doorzoekbaar maken, dat is van oor- sprong al digitaal. De spraakher- kenner zelf wordt daarvoor ook bij Tresoar ondergebracht.” Wie zelf wil zoeken in het materiaal kan terecht op: zoeken.fame.frl INHOUD Jaargang 13 | nummer 2 Nieuwsbrief over data en onderzoek in de alfa- en gamma- wetenschappen. E-data & Research verschijnt drie keer per jaar en wordt mogelijk gemaakt door: CentERdata, CLARIAH, DANS, Huygens ING, de Koninklijke Bibliotheek en het Rijksmuseum. E - DATA & RESEARCH E - DATA & RESEARCH februari 2019 1 Scan deze QR-code met een smartphone om de website van E-data te bezoeken. edata.nl Radio-opnames op analoge banden en taperecorder van Omrop Fryslân. Inmiddels is het mogelijk de opnames digitaal terug te luisteren en te doorzoeken. credits Omrop Fryslân E-data wordt gratis toegezonden aan relaties van de stakeholders. Ook een uitgave ontvangen? Mail de redactie: [email protected]. Rijksmuseum sluit zich aan bij Linked.Art consortium Erfgoeddata van LOD naar LOUD Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de archieven van Omrop Fryslân 3 Van de Sompel: volg het online artefactenspoor 5 OpenINTEL, BBMRI-omics en PAN winnaars Dataprijs 6 ArtLives: digitale verrijking kunsthistorische publicaties 7 Digitale vaardigheden steeds belangrijker 7 In gesprek met jong talent Alex Brandsen over AGNES 8 Gastcolumnist Oberski over differential privacy

Transcript of Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter -...

Page 1: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

In Linked.Art werkt een inter-nationaal consortium aan deverbetering van de bruikbaar-heid van Linked Open Datavoor erfgoedobjecten.Onlangs sloot ook het Rijks-museum zich aan.Maarten Heerlien

Afgelopen maand is het Rijks-museum als eerste Nederlandsemuseum toegetreden tot het interna-tionale consortium van 23 erfgoed-instellingen en onderzoeksinstitutenuit Noord-Amerika, Europa en Aziëdat uitvoering geeft aan het Lin-ked.Art-project. Het consortiumwordt geleid door Robert Sander-son, semantisch architect bij de J.Paul Getty Trust. Voor het Rijks-museum biedt Linked.Art mooiekansen, aldus Saskia Scheltjens,Hoofd Research Services bij hetRijksmuseum: “Deze samenwerkingkadert binnen de Memorandum of

Understanding tussen het Rijksmu-seum en het Getty. Het geeft ons degelegenheid om verder te bouwenaan onze expertise en deze kennismaximaal te delen met anderen opeen internationaal niveau.”

Bruikbaarheid vergrotenDoelstelling van het Linked.Art-project is om tot een concrete, opgebruikers gerichte toepassing tekomen van CIDOC-CRM, het Con-ceptual Reference Model voorbeschrijving en uitwisseling van in-formatie over erfgoedobjecten vande International Council of Muse-ums (ICOM). Hoewel CIDOC-CRMal sinds 2006 een ISO-standaard is,blijft implementatie ervan door erf-goedinstellingen achter. Chris Dijks-hoorn, databeheerder bij het Rijks-museum en betrokken bij hetontwikkelteam van het project:“CIDOC-CRM is een expressief,maar zeer theoretisch model. Data is

met het model op verschillendemanieren vast te leggen, wat deconcrete toepassing van CIDOC-CRM hindert. Linked.Art richt zichop het bereiken van consensus overde toepassing van het model doormiddel van een zogeheten applica-tieprofiel. Daarbij worden alleen deelementen uit CIDOC-CRM gebruiktdie voor specifieke use-cases rele-vant zijn. Uiteindelijk vergroot datde bruikbaarheid van cultureel erf-goed data.”

Linked Open Usable DataLinked.Art werkt dit applicatiepro-fiel uit volgens de principes vanLOUD, Linked Open Usable Data.LOUD, een model van Sanderson, iseen aanvulling op Tim Berners-Lee’s vijfsterrenmodel voor LinkedOpen Data. Berners-Lee’s model isgericht op dataproviders en minderop datagebruikers, waardoor vijf-sterren datasets vaak onderbenut

blijven. LOUD richt zich op ontwik-kelaars, de intermediairs tussen da-taproviders en datagebruikers. Omde balans in datasets tussen bruik-baarheid en rijkheid te optima-liseren, formuleerde Sanderson vijfaanvullende sterren voor bruikbareLinked Open Data en evenzoveelontwerpprincipes om daar concreteinvulling aan te geven. Een belang-rijke daarvan is de consequenteuitdrukking van Linked Data inJSON-LD, een gebruiksvriendelijkeralternatief voor RDF-XML.De deelname van het Rijksmuseumaan Linked.Art, gecoördineerd doorde afdeling Research Services, is eeneerste stap in de intensivering van desamenwerking tussen deze afdelingen de afdeling Digital van de J. PaulGetty Trust. Saskia Scheltjens neemtnamens het museum zitting in deprojectstuurgroep. Linked.Art heefteen initiële doorlooptijd tot 2021.linked.art

Sinds afgelopen najaar

zijn de radio-archieven

van Omrop Fryslân

digitaal doorzoekbaar,

dankzij een spraakher-

kenner die zowel Fries

als Nederlands herkent.

Erica Renckens

Ruim 3.000 uur aan oude analogeradio-opnames van Omrop Fryslânzijn online te doorzoeken. De Frieseomroep riep hiervoor de hulp in vanspraak- en taaltechnologen van deRadboud Universiteit. Zij ontwik-kelden binnen het project FAME eenNederlands-Friese spraakherkenner.

Code switching“In het Fries wordt veel geswitchtmet het Nederlands”, vertelt pro-jectleider Henk van den Heuvel.“Dat is erg lastig voor een spraak-herkenner.” Om ervaring op te doenmet dit zogenaamde ‘code swit-ching’, bezocht één van de project-leden, spraaktechnoloog EmreYilmaz onder andere Zuid-Afrika,waar het Afrikaans is doorspekt metEngelse woorden. “Je kunt het pro-bleem grofweg op twee manierenbenaderen: je maakt één herkennervoor beide talen of je stelt eerst vanelk woord de taal vast en herkent dat

vervolgens. Uit Emres onderzoekbleek de eerste aanpak in ons gevalhet beste te werken.” De Friesespraakherkenner heeft nu een errorrate van zo’n 23 procent. “Dat iseen stuk lager dan we bij aanvangvan het project verwachtten. Hetlijkt misschien nog steeds hoog,maar het is laag genoeg om in hetarchief relevante fragmenten te kun-nen vinden.”Van den Heuvel verwacht dat despraakherkenner ook buiten hetproject gebruikt zal worden. “Om-dat het systeem is ontwikkeld vooromroepmateriaal, is het vocabulairevrij breed. Onlangs heeft iemandhet getest voor een zorgrobot en datleek veelbelovend uit te pakken.”

DoorontwikkelingDe zoekmachine is opgeleverd indrie versies voor verschillende doel-groepen: het grote publiek, journa-listen en onderzoekers. “De journa-listen kunnen de zoekresultaten ookdownloaden. In de versie voor deonderzoekers is daarnaast ook spre-kerherkenning beschikbaar. Het sys-teem clustert de spraak per sprekeren probeert deze vervolgens telinken aan een van de 336 stem-profielen. Die zijn van mensen dieregelmatig in de opnames terug-komen, zoals presentatoren.”Hoewel het project inmiddels is af-gerond, zal het zoeksysteem nogworden doorontwikkeld. Van den

Heuvel: “Momenteel is alleen noghet analoge archief doorzoekbaar,met materiaal tot het jaar 2000. Deprivate partners uit het project –Omrop Frylân, Tresoar en Gridline– zullen ook nog het latere materiaal

doorzoekbaar maken, dat is van oor-sprong al digitaal. De spraakher-kenner zelf wordt daarvoor ook bijTresoar ondergebracht.”Wie zelf wil zoeken in het materiaalkan terecht op: zoeken.fame.frl

INHOUD

Jaargang 13 | nummer 2

Nieuwsbrief overdata en onderzoekin de alfa- en gamma-wetenschappen.

E-data & Research verschijntdrie keer per jaar en wordtmogelijk gemaakt door:CentERdata, CLARIAH,DANS, Huygens ING,de Koninklijke Bibliotheeken het Rijksmuseum.

E-DATA &RESEARCH

E-DATA & RESEARCH februari 2019 1

Scan dezeQR-code met eensmartphone om dewebsite van E-datate bezoeken.edata.nl

Radio-opnames op analoge banden en taperecorder van Omrop Fryslân.Inmiddels is het mogelijk de opnames digitaal terug te luisteren en tedoorzoeken. credits Omrop Fryslân

E-data wordt gratistoegezonden aan relatiesvan de stakeholders. Ookeen uitgave ontvangen?Mail de redactie:[email protected].

Rijksmuseum sluit zich aan bij Linked.Art consortium

Erfgoeddata van LOD naar LOUD

Fries-Nederlandse spraakherkenner ontwikkeld

Speuren in de archievenvan Omrop Fryslân

3Van de Sompel: volg hetonline artefactenspoor

5OpenINTEL, BBMRI-omicsen PAN winnaars Dataprijs

6ArtLives: digitale verrijkingkunsthistorische publicaties

7Digitale vaardighedensteeds belangrijker

7In gesprek met jong talentAlex Brandsen over AGNES

8Gastcolumnist Oberskiover differential privacy

Page 2: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

Hackathon voor betereonderwijskansenSeyit HöcükOp zaterdag 8 december vond dehackathon “Hack for Future Talent”plaats op de campus van TilburgUniversity. Deze Hack Marathonduurde maar liefst 12 uur en 44‘hackers’, verdeeld over elf teams,deden mee. Na een sfeervolle ope-ning met onder andere wethoudersvan Tilburg en Eindhoven beten dedeelnemers zich urenlang vast opéén van de drie thema’s: spookjon-geren, talentoptimalisatie en gelijkeonderwijskansen. De Hackathonwas vrij toegankelijk voor iedereenmet affiniteit voor onderwijs endata. Elk thema viel uiteen in meer-dere ‘challenges’. Dat waren doelendie vervuld moesten worden omte winnen, zoals het leveren vanonverwachte inzichten, het goed vi-sualiseren van onderwijsdata en metdatagedreven oplossingen komen.Aan het einde van de dag was eronder meer een geldprijs van 1.000euro beschikbaar voor het team datéén van deze thema’s het beste vol-bracht. Team Thefantasticfour, eenteam van PABO University, heeft deHackathon gewonnen met hun ideevoor een gelijke start voor kinderen.Op basis van bestaande data hebbenze laten zien dat leerlingen met mi-gratieachtergrond een lager eind-advies van hun school krijgen dan jezou verwachten op basis van hunCito-score, terwijl leerlingen zon-der migratieachtergrond juist eenopmerkelijk hoog eindadvies krij-gen. Daarnaast kwamen ze metideeën voor (betere) dataverzame-ling en het meer toegankelijk makenvan bestaande open data. Ook an-dere teams hebben het goed gedaan.Zo eindigde team Vantage AI, eenteam van vier data scientists, alstweede. Hun doel was om metmachine learning, zoals dimensio-naliteitsreductie en clustering, ver-gelijkbare scholen met elkaar teverbinden, zodat een effectieve uit-wisseling van informatie en bestpractices mogelijk zouden worden.De hackathon werd afgesloten meteen gezellige borrel. De betrokkengemeenten en het ministerie vanOCW gaan nu bekijken of ze som-mige ideeën kunnen vertalen naarconcrete nieuwe projecten.hackforfuturetalent.nl

HuC LIVE! slaat een brugThijs van der VeenHet KNAW Humanities Cluster(HuC) presenteerde op 12 decemberin het Compagnietheater zijn on-derzoek, producten en plannen voor

de komende jaren aan een internati-onaal publiek bestaande uit onder-zoekers, managers, beleidsmakersen partners tijdens HuC LIVE! Hetthema ‘bridging the gap’ tussen degeestes- en de bètawetenschap wasgebaseerd op een citaat van antro-poloog Clifford Geertz: “I think theperception of a deep gulf betweenscience and the humanities is false.”De verschillende sprekers toondenaan dat het HuC die brug inderdaadkan slaan. Zo betoogde Antal vanden Bosch, hoogleraar taal- enspraaktechnologie en directeur vanhet Meertens Instituut, dat we toezijn aan een ‘cultural AI’. Kunst-matige intelligentie heeft behoefteaan ethiek en een besef van gender-kwesties, diversiteit en inclusiviteit,en meertaligheid. De geestesweten-schappen kunnen dat leveren. AdinaNerghes en Marijn Koolen presen-teerden er hun onderzoek en JaucoNoordzij (hoofd Product Develop-ment) ging dieper in op de relatietussen onderzoeker en softwaredevelopers. En dan was er de pre-sentatie van de mystery guest, Dee.Deze bot presenteerde de producten

van de afdeling Digitale Infrastruc-tuur en legde uit hoe de infrastruc-tuur in elkaar zit. Als afsluiter legdeElli Bleeker via Kahoot pittige stel-lingen voor aan het publiek en aandirecteur Digitale InfrastructuurGertjan Filarski en teamleiderMarieke van Erp van DHLab. OpYouTube zijn de keynote en depresentatie van Dee terug te zien ophet kanaal van KNAW HumanitiesCluster. Alle presentaties staan alsblogpost op:huc.knaw.nl/blog

DANS-workshop ‘RDMin the Time of the GDPR’Widia MahabierDinsdag 11 december organiseerdeDANS de workshop ‘Research DataManagement (RDM) in the Time ofthe GDPR (General Data ProtectionRegulation)’. De workshop ging inop de ethische en juridische aspec-ten van data delen en hoe er omge-gaan moet worden met vertrouwe-lijke informatie, nu sinds 25 mei inEuropa de GDPR en in Nederland deNederlandse vertaling hiervan, deAlgemene Verordening Gegevens-

bescherming (AVG) van kracht is.De workshop bestond uit een aantallezingen afgewisseld met praktischeonderdelen. De deelnemers, zoweldatasupporters als onderzoekers,waren erg enthousiast en vonden deworkshop interessant en leerzaam.Na een welkomstwoord door PeterDoorn (directeur DANS) hield Ri-carda Braukmann (programmalei-der sociale wetenschappen DANS)een inleiding in RDM en het gebruikvan de door CESSDA (Consortiumof European Social Sciences DataArchives) ontwikkelde online ‘DataManagement Expert Guide’.Hierna presenteerde Libby Bishop(Data Linking and Data SecurityGESIS, Leibniz Institute for theSocial Sciences) de wettelijke enethische aspecten van RDM in Eu-ropees perspectief. Zij gaf aan datdata nog steeds gedeeld kunnenworden, alhoewel het door de GDPRlastiger is geworden. Zo moet er nuvaker ‘Informed Consent’ gevraagdworden aan participanten in onder-zoek. Anonimiseren van data, watertoe moet leiden dat de identiteitvan participanten niet herleidbaaris, wordt door de grote hoeveelheidbeschikbare data steeds moeilijker.Na de presentatie kregen de deel-nemers de opdracht om in kleinegroepen ‘Informed Consent’ formu-lieren uit te werken. De middagses-sie werd gepresenteerd door MarlonDomingus (Data Protection OfficerErasmus Universiteit Rotterdam,EUR) en was gericht op de AVG inNederland. Domingus gaf aan dathet voor veel onderzoekers ondui-delijk is hoe zij de AVG moeten toe-passen. Als hulpmiddel heeft deEUR een app ontwikkeld die overallerlei privacyvraagstukken uitleg

geeft. De sessie werd gevolgd dooreen praktische opdracht over DataProtection Impact Assessments(DPIA) voor onderzoek. Tijdens hetafsluitende panel focuste de discus-sie zich op het spanningsveld tussenopen science en de AVG.dans.knaw.nl

Jaarvergadering Europe-ana Network AssociationMaarten HeerlienVoor Europeana was het afgelopenjaar er een van transities. Na ruim10 jaar gaf Jill Cousins begin 2018het stokje van Executive Directordoor aan Harry Verwayen. Ookgingen het financieringsmodel vanEuropeana’s Digital Service Infra-structure en de organisatiestructuurvan de Europeana Network Associ-ation (ENA) op de schop in hettweede lustrumjaar van Europa’sdigitale platform voor cultureel erf-goed. Deze en andere onderwerpenpasseerden de revue op 5 decemberin Wenen, tijdens de jaarvergade-ring van de ENA. Het thema luiddeBuilding Communities, een verwij-zing naar de introductie in de ENAvan een meer community-gedrevenorganisatiemodel. Zes initiële com-munities, thematische groepen, wer-den gepresenteerd: Communicators,Copyright, Education, Impact,Research en Tech. De communitieskrijgen een open karakter en ENA-leden kunnen vrijblijvend partici-peren. Teruggeblikt op het afge-lopen decennium werd er onderandere aan de hand van de door deEuropese Commissie uitgevoerdeevaluatie van Europeana. De voor-naamste conclusie luidde dat hetplatform van grote toegevoegdewaarde is voor de Europese Unie,erfgoedinstellingen en de Europeseburger, maar dat er ruimte is voorgroei op het vlak van datakwaliteiten capaciteitsopbouw. Ruimte voorgroei bleek er ook buiten de grenzenvan Europa. Tijdens de AGM zetteHarry Verwayen zijn handtekeningonder een Memorandum of Under-standing met de Chinese Academievoor Sociale Wetenschappen,gericht op samenwerking op hetvlak van gedeeld digitaal erfgoed.Bij sommigen riep dit vragen opgezien de (niet ongebruikelijke)censuur van culturele bronnen inChina. Een schone taak dus voor denieuwe communities om te bewa-ken dat Europeana’s morele kom-pas, later op de dag nog doorVerwayen aangehaald, ook in detoekomst de juiste kant op blijft wij-zen.pro.europeana.eu

2 februari 2019 E-DATA & RESEARCH

GEHOORD & BIJGEWOOND

Keynote spreker Antal van den Bosch, directeur Meertens Instituut.credits Humanities Cluster KNAW

COLOFON Uitgever: E-data & Research. Redactieadres: Anna van Saksenlaan 51, 2593 HW Den Haag, 070-3494450, [email protected], www.edata.nl.Hoofd-/eindredacteur: Heidi Berkhout. Redactie: Marika de Bruijne, Steven Claeyssens, Maarten Heerlien, Machteld Maris, Erica Renckens, Marion Wittenberg.Redactiesecretariaat: Lucas Pasteuning. Aan dit nummer werkten mee: Patrick J.C. Aerts, Ricarda Braukmann, Felix van Gelderen, Seyit Höcük, Olaf Janssen,Frederik Kampstra, Widia Mahabier, Thijs van der Veen, Iris Vocking, Henk Wals, Maarten Zeinstra, Erik van Zummeren. Opmaak: Colette Sloots, Haarlem.Productie: Amsterdam University Press. Druk: Ten Brink, Meppel. Webmaster: Sonja Duijkers Oplage: 6500 papier, 4800 digitaal. ISSN: 1872-0374.We hebben getracht alle belanghebbenden met betrekking tot het gebruikte beeldmateriaal te benaderen. Degenen die menen rechten te kunnen doen gelden,kunnen zich tot ons wenden. Toezending papieren en/of digitale versie is kosteloos aan relaties van de stakeholders en studenten in de alfa- en gammarichtingen.

OVERNEMEN ARTIKELENWilt u een artikel uit dit blad overnemen?Dat mag altijd, maar vermeld wel de bron (E-data& Research) en de naam van de auteur van hetartikel. Neem ook contact op met de hoofd-redacteur (zie colofon) om door te geven waarartikelen geplaatst worden.

Het team Thefantasticfour was de winnaar van Hack for Future Talent. credits gemeente Tilburg

Page 3: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

“Onderzoekers willen onder-

deel uitmaken van hun sociale

netwerk op het web, ook voor

hun onderzoek.”

E-data interviewt Herbert van

de Sompel, per 1 januari Chief

Innovation Officer bij DANS.

Marion Wittenberg

Na bijna twintig jaar in de USA gewerkt tehebben, is Herbert van de Sompel, grondleg-ger van onder andere het OAI-PMH-protocol,op 1 januari aan de slag gegaan bij DANS.DANS stimuleert onderzoekers om hun digi-tale onderzoeksgegevens vindbaar, toeganke-lijk, interoperabel en herbruikbaar te maken.Welke plannen heeft van de Sompel bijDANS? “Ik wil eerst een goed overzicht krij-gen van de ontwikkelingen en projecten bijDANS en daarna bekijken wat ik vanuit mijnexpertise kan inbrengen. Er zijn een aantalconcepten uit mijn recente werk bij het LosAlamos National Laboratory, onder anderehet ‘Scholarly Orphans Project’, die hierbijmogelijk interessant kunnen zijn”.

Een spoor van artefacten“Onderzoekers zetten overal op het web arte-facten neer van hun onderzoeksactiviteiten invoor hen aantrekkelijke systemen: presentatiesin SlideShare, code in GitHub, data in Figs-hare of Zenodo. Ze kiezen voor deze globaleportals omdat deze zich binnen hun socialenetwerk bevinden en hun zichtbaarheid ver-groten. Onderzoekers verplichten om al diebijdragen ook bij hun instelling te depone-ren, is problematisch: de toegevoegde waardevoor de onderzoeker is niet meteen duidelijk.Het resultaat is dat instituten geen volledigzicht hebben op wat hun onderzoekers doen,ze zien het uiteindelijke paper, maar niet allestappen die tot dat paper geleid hebben. Enartefacten die op commerciële platformsgedeponeerd worden kunnen ook zomaar ver-dwijnen”. Het ‘Scholarly Orphans Project’onderzoekt dit probleem en heeft een proto-type ontwikkeld dat automatisch artefactenvindt, ze ophaalt en duurzaam archiveert. “Inplaats van de onderzoeker verplicht te stellenhun artefacten bij hun instelling te deponeren,draait de instelling processen waarmee ze dievolautomatisch binnenhalen.”

Myresearch.instituteVan de Sompel legt uit dat het project uitgaatvan twee perspectieven. Ten eerste dat on-derzoeksinstellingen de facto geïnteresseerdzijn in de artefacten van hun onderzoekers.Ten tweede dat de processen van ophalen enarchiveren schaalbaar moeten zijn, het gaatom heel veel materiaal. De combinatie vanbeide perspectieven heeft geleid tot een pro-totype voor een fictief onderzoeksinstituut:myresearch.institute. “Voor een tiental onder-zoekers, die geselecteerd werden omdat zeerg actief op het web zijn, werden de identi-

teiten die ze in de webportals gebruiken, ver-zameld. Die identiteiten worden gebruikt alssleutel voor de portal APIs om dagelijks tekijken of een onderzoeker iets nieuws heeftgedeponeerd. Bij GitHub kan dat al gauw om50 tot 100 nieuwe bijdragen per onderzoekerper dag gaan. Metadata over die bijdragenwordt in een institutionele databank gestopt ende bijdragen zelf worden met web-archive-ringstechnieken opgehaald en gearchiveerd”.Voor het ophalen van het materiaal heeft het‘Scholarly Orphans Project’ een innovatieveprocedure ontwikkeld, Memento Tracer. “Om-dat steeds meer websites voor gebruikersin-teractie van client-side JavaScript gebruik-

maken, zijn ze moeilijk automatisch te archi-veren. De enige techniek om dergelijke web-pagina’s met hoge kwaliteit te archiveren, isom een gebruiker alle essentiële interacties telaten uitvoeren en de resultaten van die inter-acties weg te schrijven naar een webarchive-ringsbestand. Perfect, maar niet schaalbaar.Bij de Memento-Tracer-aanpak doet eencurator eenmalig een sessie van interactiesmet een bepaald type pagina, bijvoorbeeldeen landingspagina van SlideShare. Eenbrowser plugin legt deze interacties vast: watis er achter de schermen gebeurd toen de cu-rator aan het klikken was, welke JavaScriptcalls zijn aangeroepen. Dit levert een JSON-file met instructies op die als template wordtgebruikt voor een web-archivering crawler.Met deze methode kunnen alle pagina’s vanhetzelfde type op industriële schaal en methoge kwaliteit geharvest worden. Het is mo-menteel nog experimenteel, maar het conceptis echt een doorbraak die we van tevoren nietverwacht hadden”.

Duurzaam archiveren“Initieel waren enkel de eindresultaten vanwetenschappelijk onderzoek (papers) be-schikbaar op het web. In toenemende matezijn ook artefacten die tijdens het wetenschap-pelijk proces gemaakt worden daar te vinden.Er zijn momenteel nog geen frameworks die

dat alles archiveren”. Volgens van de Sompelis dit probleemdomein relevant voor DANS.“Het duurzaam bewaren van data is momen-teel de missie van DANS, het archiveren vanartefacten zou hier naadloos op aan kunnensluiten. De onderzoeker geeft aan DANS eenoverzicht van zijn identiteiten bij de door hemgebruikte portals, DANS haalt alles op enarchiveert het materiaal”. Dit kan zowel eendienst voor de onderzoeker zijn, als voor deinstellingen. “De onderzoeker blijft doen wathij of zij doet, maar al het materiaal wordtautomatisch gearchiveerd. En DANS kan ditvervolgens terugleveren aan de instellingen,waardoor de instellingen een overzicht krijgenvan al het materiaal wat hun onderzoekersgecreëerd hebben. Zo zorgen onderzoekers,instellingen en DANS samen voor persistentievan de wetenschappelijke record.”

Technologie en beleidWe vroegen van de Sompel wat hem aantrektin zijn nieuwe functie bij DANS. De meer-waarde van DANS is in zijn ogen de combi-natie van technologie en beleid: “DANS is eenvoortrekker op dit gebied. Technologisch kaner heel veel, maar het beleid moet de contextbieden, het zorgt voor meer realiteitszin”.

myresearch.institutetracer.mementoweb.org

E-DATA & RESEARCH februari 2019 3

Van de Sompel, Chief Innovation Officer bij DANS:

‘Automatisch artefacten vinden,ophalen en duurzaam archiveren’

‘Volg hetonline spoor

van deonderzoeker’

INTERVIEW

Herbert van de SompelVan de Sompel (1957) studeerdewiskunde en computerwetenschap aan deuniversiteit van Gent. Hij promoveerde in2000 op een proefschrift overcontextgevoelig en dynamisch linken vanwetenschappelijke informatie.Vanaf 2002 was hij leider van hetonderzoeksteam ‘Digital Library Researchand Prototyping’ aan het Los AlamosNational Laboratory (New Mexico, USA).Hij is één van de grondleggers van veelgebruikte informatiestandaarden (ondermeer OAI-PMH, OpenURL, OAI-ORE,Memento, NISO/OAI ResourceSync,Web Annotation) en nam deel aaninvloedrijk onderzoek naar alternatievemetrieken voor wetenschappelijkepublicaties (MESUR-project) en‘reference rot’ in wetenschappelijkecommunicatie (Hiberlink project).In 2017 ontving hij de prestigieuze PaulEvan Peters Award voor zijn bijdragen aanduurzame digitale infrastructuren die eendiepgaande en blijvende impact hebbengehad op de wetenschappelijkecommunicatie.Van de Sompel was in 2010/2011 en in2013/2014 visiting fellow bij DANS.hvdsomp.info/bio/

“Onderzoekers zetten overal ophet web artefacten neer van hunonderzoeksactiviteiten in voor henaantrekkelijke systemen”.credits Bart van Vliet

Page 4: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

4 februari 2019 E-DATA & RESEARCH

SINDS KORT BESCHIKBAAR

2015 - december 2015 - maart 2016 - juni2016 - september 2016, Tilburg ConsumerOutlook Monitor• CentERdata, mei - juni 2018, Personality -Wave 10• CentERdata, april - mei 2018, Work andSchooling - Wave 11• Soest, A. van; Bonekamp, J., december2016 - Saving and Spending in Retirement

Deze bestanden zijn kosteloosbeschikbaar via lissdata.nl/dataarchive. Bezoek deze siteof scan de QR-code.

Dit overzicht toont databestanden die recent beschikbaar zijn gekomen

bij CentERdata en Data Archiving and Networked Services.

CentERdata• Lokale democratie in beeld

Opvattingen van burgers over de lokale po-litiek, betrokkenheid bij gemeentepolitieken uitspraken over hoe een goede lokale de-mocratie eruit zou moeten zien. Dit zijn en-kele onderwerpen uit het Lokaal Kiezerson-derzoek (LKO). Dit onderzoek is in maart2016 afgenomen in het LISS panel in op-

dracht van Tom van derMeer, hoogleraar politi-cologie aan de Universi-teit van Amsterdam. Opbasis van de data is hetrapport ‘Democratiedichterbij: Lokaal Kie-

zersonderzoek 2016’ gepubliceerd doorKiezersonderzoek Nederland (SKON). Uitde resultaten blijkt onder andere dat Neder-landers zich minder verbonden voelen methun gemeente dan met Nederland, maar te-gelijkertijd relatief veel vertrouwen hebbenin politieke instituties op lokaal niveau. Hetdatabestand Local Voters Survey 2016 isbeschikbaar via LISS Data Archive.lissdata.nl

Ook sinds kort beschikbaar:Studies LISS panel• CentERdata, juni - juli 2018, EconomicSituation: Income - Wave 11• Pieters, R.; Giesen, R. van, september

–––––––––––––––––––––––––––

DANS• Nieuw in EASY: Leidse Wezenzorg

Via EASY is de dataset Leidse wezenzorg1690-1841 beschikbaar gesteld. De datasetbevat de data van onderzoek naar de wees-huiszorg in Leiden in de periode 1690-1841; een tijd waarin grote veranderingenoptraden in de organisatie van de zorg voorminnekinderen. De studie besteedt aan-dacht aan het uitbesteden van de zorg voorpeuters en zuigelingen. Ook komt het pro-

fiel van de min aan bod: haar burgerlijkestaat, haar ouderdom en haar maatschappe-lijke positie. De dataset is in 1980 ge-creëerd door de in 2007 overleden Leidsesociaal-historicus Dirk-Jaap Noordam.DOI: 10.17026/dans-zyx-w2vz

Ook sinds kort beschikbaar:De volgende datasets zijn open accessbeschikbaar via het online archiverings-systeem EASY van DANS:• Berkhout, dr D.J. (UvA) (2018): Pyttersen’sAlmanak. DANS.DOI: 10.17026/dans-z73-s9k7• Cavallo, Dr C. (UvA) (2018): Velsen 1:data retrieval of analyses on the faunalremains from the Roman harbor (15-30AD).DANS. DOI: 10.17026/dans-zat-586g• Dijk, Dr. S. van (Huygens ING)(2018): NEWW Women Writers. DANS.DOI: 10.17026/dans-x4u-2vha• Doorenbosch, Dr M. (Faculty ofArchaeology Leiden University)(2013): Ancestral Heaths. Reconstructing thebarrow landscape in the central and southernNetherlands. DANS.DOI: 10.17026/dans-xy4-by6m• Enckevort, H. van; Harmsen, C.

Auteursrecht is tijdelijk.Elk jaar komen werkenbeschikbaar voor vrij her-gebruik. Op 3 januari jongst-leden werd gevierd dat‘de klas van 1948’ tot hetpublieke domein toetrad.Olaf Janssen, CC-BY-SA 4.0

De Nederlandse Auteurswet zegt dat‘het auteursrecht vervalt door ver-loop van 70 jaren, te rekenen vanafde 1e januari volgende op het sterf-jaar van de maker’. Elke jaarwisse-ling loopt dus de auteursrechtelijkebescherming af op teksten, beelden,muziek, films etc. van auteurs,schilders, componisten, cineastenen andere creatieve makers die dan70 jaar geleden overleden zijn. Hunwerk komt na de jaarwisseling inhet zogenaamde publieke domeinterecht. Dit betekent dat iedereen -natuurlijke én rechtspersonen – zon-der beperking, toestemming, bron-vermelding, licentie of vergoedingermee mag doen wat hij/zij wil, métof zonder winstbejag. Daaromwordt 1 januari ook wel PubliekDomeindag genoemd.

De klas van 1948Voor de editie van 2019 komen wer-ken van ‘de klas van 1948’, dat wilzeggen makers die in 1948 zijnoverleden, in aanmerking vooronbeperkte digitalisering, herdruk,bewerking, verspreiding en alleandersoortig hergebruik. Hierbij is

het overigens niet zo dat alle werkenautomatisch naar het publieke do-mein overgaan, dat hangt van despecifieke verschijningsvorm af.Wanneer bijvoorbeeld in een boekwaarvan de tekstschrijver in 1948 isoverleden ook illustraties staan, danis dat boek alleen auteursrechtvrijals ook die illustrator in 1948 (ofeerder) is overleden. De tekst valt

dus wel in het publieke domein, hetboek niet per se.

Gevarieerd programmaNet bekomen van de jaarwisselingkwamen op 3 januari zo’n 75 men-sen in Den Haag bijeen voor detweede feestdag van het jaar: Pu-bliek Domeindag 2019. De invullingvan dit evenement was tweeledig:

enerzijds stonden sprekers vanOpen Nederland, de KoninklijkeBibliotheek, Beeld en Geluid enWikimedia Nederland stil bij debetekenis, kansen en weerbarstig-heid van het publieke domein, an-derzijds werd aandacht besteed aanhet leven en werk van een aantal in1948 overleden makers. Zo pas-seerden de levensverhalen vanschrijfster Cissy van Marxveldt (vande Joop ter Heul-serie), schrijfster-illustratrice Freddie Langeler, film-regisseur Haro van Peski, keramistChris Lanooy, schrijver EmielFleerackers en de schilder HermanHeijenbrock, grondlegger van we-tenschapsmuseum NEMO, de revue.Na het succes van 2018 was dit detweede keer dat Publiek Domeindagin Nederland werd georganiseerd.Een initiatief van Creative Com-mons Nederland en de KB, metondersteuning van Wikimedia Ne-derland en het Nationaal Archief.Internationaal wordt Publiek Dom-eindag al langer georganiseerd, zowaren er in voorgaande jarenvieringen in onder andere Polen,Duitsland en Israël.Alle lezingen zijn gepubliceerd alsvideo op:publiekdomeindag.nl

Olaf Janssen is Wikimedia- enopen-data-coördinator bij deKoninklijke Bibliotheek.Heb je vragen? Mail ze [email protected]

Werken van in 1948 overleden makers nu vrij herbruikbaar

Nederlandse Publiek Domeindag 2019

Werken die per 1 januari 2019 tot het publieke domein behoren, metde klok mee: Zelfportret van NEMO-grondlegger Herman Heijenbrockcredits Wikimedia Commons. Pot van aardewerk van keramist ChrisLanooy credits Collectie Rijksmuseum. Kinderboek van schrijfsterFreddie Langeler credits Digitale Bibliotheek voor de NederlandseLetteren. 250 Polygoonjournaals uit 1948 credits Open Beelden

Doe mee met CreativeCommons Nederland

Onderzoeksdata vrijgeven ondereen Creative Commons-zeropubliek domein verklaring (CC0)betekent dat je toestaat datanderen kunnen voortbouwenop de vrijgegeven data. OpenNederland, de onafhankelijkevereniging die de activiteiten vanCreative Commons ondersteunten hier voorlichting over geeft,ziet deze vorm van het delenvan data als de basis voor eengezond en effectief academischwerkveld. Maarten Zeinstra,voorzitter Open Nederland:“Creative Commons helpt omdata en content breed zichtbaaren toegankelijk te maken. Onzelicenties geven aan wat gedaanmag worden met auteurs-rechtelijk beschermd materiaal.We zijn sinds 2004 actief,eerst als samenwerking tussenKennisland, het Instituut voorInformatierecht en Waag ennu als vereniging. Ook vooronderzoekers is het mogelijk omlid te worden van ons netwerk.Als lid maak je kennis metgeïnteresseerden in hetpubliceren van data onder openlicenties. Het lidmaatschap isgratis, aanmelden kan via onzesite”.

opennederland.nl

(Gemeente Nijmegen) (2015): In de periferievan de canabae legionis. Archeologischonderzoek in de Frans Halsstraat en deDaalseweg, Archeologische BerichtenNijmegen - Briefrapport 192. DANS.DOI: 10.17026/dans-zh9-gmug• Jordanov, drs. M.S.; Hoof, drs. B.I. van(Raap Archeologisch Adviesbureau B.V.)(2013): Plangebied Veerstalblok 17 teGouderak, gemeente Ouderkerk;archeologisch onderzoek: een opgraving.DANS. DOI: 10.17026/dans-za4-nac5• Klandermans, prof. dr. P.G. (VU); VanStekelenburg, dr. J.; Gaidyte, Dr. T.(2014): Caught in the act of protest: CCC-project. DANS. DOI: 10.17026/dans-zwj-gkeu• Leije, MA J. van der (ArcheologischOnderzoek Leiden) (2018): Archeologischonderzoek van boerderij Veldheim. DANS.DOI: 10.17026/dans-xpj-2hhz• Ringenier, drs. H. (Archeologie Deventer)(2018): Inventariserendproefsleuvenonderzoek en opgravingDouweler Leide Zuid. DANS.DOI: 10.17026/dans-xtc-5xg8• Smole, drs. L. (Gemeente Arnhem)(2018): Musis Sacrum, Archeologischebegeleiding van de sloop van de theaterzaalt.b.v. nieuwbouw. DANS.DOI: 10.17026/dans-zg2-aznd

Via easy.dans.knaw.nl zijndeze bestanden beschikbaar.Bezoek deze site of scan deQR-code.

O P R O E P

Page 5: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

“Alle inzendingen zijn in-

spirerende eindproduc-

ten van onderzoeken.”

De lovende woorden van

juryvoorzitter Stan Gie-

len tijdens de start van

de prijsuitreiking van de

Nederlandse Dataprijs

beloofden al veel goeds.

Heidi Berkhout

Eind november werd voor de vijfdekeer de Nederlandse Dataprijs uit-gereikt door Research Data Nether-lands (RDNL). De prijs (een Data-prijs 2018-sculptuur en € 5.000 omde dataset toegankelijk(er) te ma-ken) geeft waardering aan onder-zoekers die extra bijdragen aan dewetenschap door onderzoeksdatabeschikbaar te stellen voor nieuwof aanvullend onderzoek. Uit 47 in-zendingen en 9 nominaties werdenuiteindelijk drie winnaars gekozen.E-data zet ze op een rij.

PAN:uniek online platformPortable Antiquities of the Nether-lands (PAN), een uniek online plat-form dat archeologische vondstenvan burgers beschikbaar stelt voorwetenschappelijk onderzoek en pu-blieke interesse, is winnaar in decategorie humaniora en sociale we-tenschappen. De jury oordeelde alsvolgt: “PAN bouwt bruggen tussenamateurs en de professionele arche-ologie en is een schoolvoorbeeldvan de manier waarop citizen sci-ence de wetenschapspraktijk kanveranderen en verbeteren. De datazijn op een voorbeeldige maniergecureerd en via linked open databeschreven en ontsloten. Vele dui-zenden vondsten van amateurarche-ologen worden op deze manier voorde wetenschap beschikbaar gestelden dat leidt ook al daadwerkelijk totbelangrijke nieuwe wetenschappe-lijke inzichten over de (pre)historievan onze voorouders.” De prijswerd overhandigd aan Dr. StijnHeeren. Heeren: “Het geeft eenenorme boost om te merken dat wijin de ontwerpfase van PAN de juistekeuzes hebben gemaakt. Heel sti-mulerend om erkenning te krijgenvoor de dataset van PAN, en daar-mee ook een extra compliment aande hobby-archeologen van Neder-land, die de gegevens over hunvondsten aan ons hebben geleverd.We gaan het prijzengeld bestedenaan extra functionaliteit op de pu-

blieke website (dus vóór de inlog)zodat het brede publiek nog beter dePAN-dataset kan inzien en bevra-gen.”

BBMRI-Omics:unieke samenwerkingWinnaar in de categorie medischeen levenswetenschappen is BBMRI-Omics, een unieke samenwerkingvan alle academische centra inNederland gericht op moleculairebig data voor het ontdekken vanziektemechanismen en biomarkers.Uit het juryrapport: “De datasetgeeft een nieuwe dimensie aan hetgebruik van data in de medische we-tenschap. Het team heeft al veel in-gezet op kennisoverdracht en is vanplan dit in de toekomst nog meer tedoen. De data worden continue ver-beterd en aangevuld. Sinds 2014 zijnde ruim 60 publicaties al meerdan 2.500 keer geciteerd, waaron-der artikelen in toptijdschriften alsNature, Nature Genetics, Science,Genome Biology en Nature Com-munications. Het is een unieke sa-menwerking tussen de Nederlandseonderzoekscentra met biobanken.BBMRI-Omics heeft aangegeven het

prijzengeld in te gaan zetten vooreen training om nog meer onder-zoekers optimaal gebruik te latenmaken van BBMRI-Omics. Eenhartstikke goed initiatief dat de juryvan harte toejuicht!” De prijs werdoverhandigd aan Bas Heijmans.Heijmans: “We zijn vereerd metdeze fantastische erkenning voor hetwerk van honderden onderzoekersuit heel Nederland. De € 5.000 komtop het goede moment. BBMRI-Omics heeft kortgeleden een groteupdate gehad en daarom willen wetrainingen geven aan jonge onder-zoekers zodat ze nog meer uit degegevens kunnen halen.”

OpenINTEL:buitengewoon origineledatasetIn de categorie exacte en technischewetenschappen werd OpenINTELActive DNS Measurements winnaar.De jury was onder de indruk van derijkdom van deze dataset waarmeemeer dan 60% van alle domeinenop de wereld in kaart gebrachtwordt en noemde het een buitenge-woon originele dataset dat zich ookdoor het live karakter onderscheidt

van andere inzendingen. Roland vanRijswijk-Deij: “Het was echt eenhele mooie verrassing om de Data-prijs te winnen! Het klinkt mis-schien cliché, maar de andere geno-mineerde projecten vond ik ook heelinteressant. In Twente werd door derest van ons team enorm meege-leefd met de uitreiking, we hebbende hele dag berichtjes uitgewisseld.Toen de prijs bekend was, stroom-den de felicitaties binnen, tot aande rector toe, daar zijn we best trotsop! Het prijzengeld kunnen we goedgebruiken.Zo helpt een nieuw systeem ons bijhet uitbreiden van onze capaciteitom open data beschikbaar te stellen.Daarnaast willen we onze open dataverrijken met afgeleide data, zoalsdata over in welke landen domein-namen worden gehost, welke partijenmail afhandelen voor domeinen enhoe goed domeinnaamhouders hune-mailafhandeling beveiligen. Onzesite visualiseert dit al middelsgrafieken, maar om de nodigescripts te schrijven en te onderhou-den, kan een student assistent onshelpen.”researchdata.nl

E-DATA & RESEARCH februari 2019 5

PAN, BBMRI-omics en OpenINTEL winnaars Dataprijs 2018

Toegang tot en delen vandata beloond met prijs

De winnaars van de Dataprijs 2018 van links naar rechts: Bas Heijmans, Roland van Rijswijk-Deij enStijn Heeren. foto Bart van Vliet

Celebrating Data! What’s next?De Dataprijs werd dit jaaruitgereikt tijdens het event‘Celebrating Data! What’s next?’.Onderzoekers en dataprofessio-nals kregen deze dag aangeboden

door RDNL, het Landelijk Coör-dinatiepunt Research DataManagement, WerkgroepResearch Data van het samen-werkingsverband van universi-

teitsbibliotheken en de Konink-lijke Bibliotheek, NetherlandsFederation of UMCs Data4Life-Sciences en het NationaalPlatform Open Science.

11 februari • BrusselNPSO lezingendagMet als thema ‘Uitdagingen bijdatakoppelingen voor statistischen surveyonderzoek’.npso.net/evenementen

14 februari • Den HaagOpen dag over open science‘Love to share data’. Voor de2e keer organiseert DANS eenopen dag over open science.dans.knaw.nl/love-to-share-data

18 - 21 maart • HilversumDutch Digital ConferenceDe eerste editie van DutchDigital Conference heeft alsthema: ‘Smart applications inthe area of artificial intelligence’.nederlanddigitaal.nl

19 - 20 maart • BerlijnOpen Science ConferenceEen uniek forum voor onderzoe-kers, bibliothecarissen, uitvoer-ders, beleidsmakers en anderebelanghebbenden.open-science-conference.eu

16 mei • KeulenSHARE User WorkshopOntmoetingsplaats voorgebruikers van SHARE data.share-project.org/press-news/news.html

27 - 31 mei • SydneyIASSIST Annual ConferenceDe jaarlijkse conferentie vande International Associationfor Social Science InformationServices and Technologiesiassist2019.org

28 - 31 mei • FisoleQQML 2019Met extra aandacht voor:‘Libraries and Informationservices: New technologies,innovative processes and theInformation Professional’.qqml.org/event/qqml2019

AGENDA

OnderzoekNPO-programma’smet 888zoeker

Vrijwel alle NPO-programma’shebben ondertiteling voor do-ven en slechthorenden. De888zoeker is een niche zoek-machine die deze ondertitelingindexeert en doorzoekbaarmaakt op woordniveau. De toolis in eerste instantie voor jour-nalisten gemaakt, maar kanook door academici gebruiktworden om ontwikkelingen inde media te onderzoeken. Datkan onder meer met een n-gram gedaan worden, maar opaanvraag is ook een API be-schikbaar en er wordt momen-teel gewerkt aan een koppelingmet LIWC. De tool is gemaaktdoor Erik van Zummeren (van-uit Research Assistant) en isgedeeltelijk gefinancierd doorhet Stimuleringsfonds voor deJournalistiek. (EvZ)888zoeker.nl

KORT

Page 6: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

6 februari 2019 E-DATA & RESEARCH

De ultieme software sustaina-bility kwesties: hoe maak jelevende software en hoemaak je software levend?Een snapshot van de huidigesituatie. Patrick J.C. Aerts

Software bestaat sinds de jaren vijf-tig. Eerst was er alleen assembler,sinds 1954 kwam Fortran, de waar-schijnlijk eerste hogere program-meertaal, en in de jaren zestig volg-den aanzienlijk meer hogere pro-grammeertalen. Vervolgens werdsoftware meer en meer geschrevenvoor specifieke machines, met huneigen bedrijfssystemen en processo-ren met hun eigen instructiesets. Inde loop van de tijd werd er geüni-formeerd (denk aan Unix, Linux,8086-instructies), maar trad ookdiversiteit op (denk aan FPGA’s,GPU’s). Software uit voorbije perio-des, waaraan nog steeds of opnieuw

behoefte bestaat, maar welke moei-lijk te restaureren is. De vraag is,hoe je software zo kunt schrijvendat deze makkelijk te onderhoudenis en dus op duurzaamheid geschre-ven?Het schrijven van software was tra-ditioneel gericht op een direct enconcreet resultaat: de computerbinnen een omgeving een opdrachtlaten uitvoeren. Duurzaamheid stondniet op het netvlies. Maar tegen-woordig kunnen zelfs al tijdens deduur van een onderzoek de omge-ving en het onderzoeksteam veran-deren. Hoe houd je de software ende kennis over de software levend?En wat is er nodig om dit tegenminimale kosten te kunnen doen?

Duidelijke signalenIn de afgelopen twee á drie jaar wer-den over dit onderwerp steeds vakerconferenties en workshops georga-

niseerd. Tijdens de internationaleconference Supercomputing &Communications (SC’18) in novem-ber in Dallas, werden duidelijke sig-nalen gegeven:• Het softwareprobleem is niet ty-pisch voor de wetenschap: kijk ooknaar andere domeinen (kunst, ar-chief, bibliotheken, game-industrie);• Maak gebruik van communitiesmet een specifiek en gemeenschap-pelijk belang;• Zet samenwerkingsverbanden op,bijvoorbeeld met het Software Sus-tainability Institute (UK) en/of deResearch Data Alliance;• Wees voorzichtig met containeri-satie (zoals Docker). Het plaatsenvan software met omgeving in eencontainer transporteert de softwarehandig tussen en over clouds, maarhet houdt weinig rekening met ver-anderingen in omgeving;• Breng het onderwerp in bij oplei-

dingen waar les wordt gegeven inprogrammeren.

FAIR-softwareDANS en het eScience Centrum wer-ken samen aan de beste route vooronderzoekers die iets met softwarewillen gaan doen en/of de vraag heb-ben hoe ze hun software FAIR kun-nen maken. In 2019 wordt opnieuween Software Sustainability work-shop georganiseerd. Stuur een mailnaar [email protected] om op dehoogte te worden gehouden.

Patrick Aerts is in dienst van NWO,werkt bij het Netherlands eScienceCenter (Strategic Alliances) en bijDANS (Senior research fellow) en isvoorzitter van PLAN-E, het Platformof National eScience Centers inEurope.

dans.knaw.nl

Hoe houd je software levend, hoe maak je levende software?

Snapshot van software wijsheid

Beleef hetverleden metTime MachineTime Machine is een buitengewoonambitieus plan van FrédériqueKaplan, directeur van het DigitalHumanities Laboratory van deÉcole Politechnique Fédérale deLausanne. Via een FET Flagship-aanvraag, een prestigieus Europeesprogramma, kan een bedrag vaneen half miljard euro worden toege-kend. Een Time Machine maakthet mogelijk om virtueel terug tereizen in de tijd, doorgaans in eenstedelijke omgeving. Enorme hoe-veelheden informatie uit gedigitali-seerde documenten worden gehechtaan coördinaten op kaarten en mo-menten in de tijd. Gebouwen enstraten worden driedimensionaalgerepresenteerd, waardoor hetbijvoorbeeld mogelijk wordt in eenbepaalde periode door de stad tebewegen en te zien wat er in elkgebouw te doen was.Een mooi voorbeeld wordt geleverddoor de (in aanbouw zijnde) VeniceTime Machine. Tijdens de TimeMachine Conference eind vorig jaarwas Nederland sterk vertegenwoor-digd, met vier projecten: Amster-dam (Julia Noordegraaf), Sittard-Geleen (Peer Boselie), Leiden(Hans Mol) en Utrecht (Toine Pie-ters). Naast inzicht in methodologieen techniek, werd ook aandachtbesteed aan de toekomst van hetbeleven van het verleden. Het wach-ten is nu op de mogelijke toeken-ning van een subsidie waarmee eenbreed consortium (waaronder hetKNAW Humanities Cluster, UvA,UU, TUDelft, Nederlands Instituutvoor Beeld en Geluid en Picturae)de volgende stap kan zetten in ditfascinerende project.(Henk Wals)vtm.epfl.ch

Met het initiatief ArtLives

beogen het Huygens

ING, Rijksmuseum en

het RKD vroegmoderne

kunstenaarsbiografieën

digitaal te ontsluiten en

te verrijken.

Maarten Heerlien

Kunstenaarslevens vormen een be-knopt maar bepalend genre binnende kunstgeschiedenis in de LageLanden. Het eerste in zijn soort, hetin 1604 door Carel van Mander ge-schreven Schildersboeck, bevat uit-voerige biografieën over in die tijdbekende Nederlandse en Vlaamsekunstenaars. In de periode tot 1840schreven verschillende auteursvervolgen op Van Mander, met aan-vullende, soms overlappende maarsoms ook aangepaste informatieover kunstenaars: hun opleidingen,hun belangrijkste werken, de locatiedaarvan en soms de roddels die overhen de ronde deden.

Rijke informatieJenny Reynaerts, senior conservator18de en 19de-eeuwse schilderkunstbij het Rijksmuseum, neemt onderde noemer ArtLives het voortouwom deze nog altijd relevante con-temporaine kunsthistorische bron-nen digitaal te ontsluiten. “In geenander land was er zo’n sterke tradi-tie binnen het genre van Kunste-naarslevens als in Nederland. Dezeboeken bevatten rijke informatie ophet gebied van de Nederlandsekunstgeschiedenis en zijn boven-

dien van grote invloed geweest opde canon van de kunst.”Het ArtLives-initiatief komt voortuit een in 2017 uitgevoerde haal-baarheidsstudie, gefinancierd doorhet Mondriaanfonds en het Rijks-museum Fonds. Het beoogde pro-ject start met een pilot aan de hand

van Arnold Houbraken’s Grooteschouburgh der Nederlantschekonstschilders en schilderessen(1718-1721), het bekendste Kunste-naarsleven naast dat van VanMander, met beschrijvingen overberoemde kunstenaars uit de Gou-den Eeuw.

Integraal digitaliserenIn de geplande pilot voorziet Art-Lives een vergelijkbare aanpak alsThe Mondrian Letters, een projectvan het Huygens ING en RKD -Nederlands Instituut voor Kunstge-schiedenis. Houbraken wordt inte-graal gedigitaliseerd en de tekstwordt omgezet naar XML. Vervol-gens worden verschillende namedentities gelabeld om de tekst door-zoekbaar te maken en te analyserenop persoons- en instellingsnamen,locaties, kunstwerken en kunst-termen. Ook wordt de tekst semi-automatisch verrijkt met afbeeldin-gen en gestructureerde data uitRKDartists&, RKDimages en hetBiografisch Portaal van het Huy-gens ING.In ArtLives vormt de in de Kunste-naarslevens gebruikte kunsttermi-nologie een bijzonder thema. Rey-naerts: “In deze boeken wordt heteerste kunsthistorische en artistiekejargon geformuleerd. We willen datjargon door de tijd heen volgen enveranderingen in vorm en betekenisanalyseren. Dat is relevant voor deduiding van andere contemporainebronnen. Dit onderdeel, ArtSpeak,vormt de laatste fase van het project,aangezien een dergelijke analysepas kan als het totale corpus digitaalis verrijkt.”

Open contentIndien de pilot succesvol verloopt,wordt de verrijkte editie van Hou-braken als open content online ge-publiceerd. De resultaten van hetproject zullen dan worden geborgdin de digitale infrastructuren van deprojectpartners.

Digitale verrijking kunsthistorische publicaties

Het leven van Kunstenaars 2.0FAIRsFAIR van start

Met een financiering van 10miljoen euro en ruim 20 partnersstart op 1 maart het driejarigEuropese project FAIRsFAIR.De European Open ScienceCloud (EOSC) moet het voor on-derzoekers eenvoudiger makenom data te delen en te combine-ren. Het FAIRsFAIR-project gaatEOSC helpen bij het opstellenvan FAIR-principes voor deel-name aan de EOSC. Bovendiengaat het project alle kennis overFAIR bundelen en via leertrajec-ten toegankelijk maken. De zeskernpartners op een rij: Data Ar-chiving and Networked Services(coordinator), CSC - IT Centerfor Science Ltd., het DigitalCuration Centre en de Scienceand Technology Facilities Coun-cil, Trust-IT en de EuropeanUniversity Association. (EF)dans.knaw.nl

KORT

Titelprent uit de tweede editie van Houbraken’s Groote schouburgh derNederlantsche konstschilders en schilderessen uit 1753.Afbeelding: Rijksmuseum Research Library, PDM 1.0

Page 7: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

Archeologen in Nederlandproduceren zo’n 4.000opgravingsrapporten per jaar.Alex Brandsen onderzoekthoe deze schat aan infor-matie beter ontgonnen kanworden.Steven Claeyssens

Nederlandse archeologen hebben opdit moment zo’n 60.000 rapportendigitaal beschikbaar, bij DANS enin andere e-depots. Al deze rappor-ten samen bevatten een gigantischehoeveelheid archeo-logische informatie,maar het is heelmoeilijk om hierinalle relevante informatie over eenbepaalde plaats of periode terug tevinden. De huidige systemen door-zoeken namelijk alleen de metadatavan de rapporten. Deze metadatabeschrijven bijvoorbeeld dat eenrapport de Middeleeuwen behan-delt, maar vermelden niet dat er ookenkele artefacten uit de Bronstijdzijn gevonden, terwijl deze objectenbelangrijk zouden kunnen zijn voor

een onderzoek over de Bronstijd.Daarom is het nodig om alle tekstgoed doorzoekbaar te maken. AlexBrandsen nam deze taak op zich alspromovendus aan de UniversiteitLeiden.

Taal begrijpenNa een archeologie-bachelor in Lei-den, een master Archeological In-formation Sytems in York en erva-ring als web developer in Leeds,startte Brandsen in 2017 met zijnpromotieonderzoek. Hij wil de Ne-

derlandse archeologische rapport-productie veel dieper ontsluiten:“Dat kan met full text-zoeken, zoalsin Google, maar ook dan kunnenzich problemen voordoen. Bij dezoekterm Middeleeuwen vindt eenfull text-zoekactie bijvoorbeeld niet‘Middeleeuwse’ en zeker niet ‘1000na Christus’. Deze synonymie is eenveelvoorkomend fenomeen in rap-porten. Ook het omgekeerde pro-

bleem komt voor, namelijk wanneeréén woord verschillende betekenis-sen heeft. Om al deze complicatieshet hoofd te bieden, moet eenzoeksysteem taal tot op zekerehoogte ‘begrijpen’ en ook specifiekarcheologische concepten kunnenherkennen.”

AGNES“In mijn project pas ik text mining(en specifiek Named Entity Recog-nition) toe om automatisch rele-vante archeologische concepten te

herkennen intekst. Hier-voor gebruikik machine le-

arning, een vorm van kunstmatigeintelligentie die op basis van voor-beelden uit handmatig geannoteerdeteksten nieuwe woorden automa-tisch kan classificeren. In het verle-den is daar mee geëxperimenteerd,een bruikbaar systeem heeft hethelaas nog niet opgeleverd. Het doelvan mijn project is om een web-applicatie te bouwen: AGNES (Ar-chaeological Grey literature Named

Entity Search). Met AGNES zoekenarcheologen op een slimme en effi-ciënte manier door die stapelsNederlandse opgravingsrapporten,waardoor sneller en beter onderzoekte verrichten is in de Nederlandse

archeologie.”Een aantal versies van AGNES staanal online en kunnen door iedereenna registratie gebruikt worden.

agnessearch.nl

Begin 2019 verschijnt het

rapport van het ‘Arbeidsmarkt-

onderzoek ICT’ over het effect

van digitalisering op de

arbeidsmarkt.

Marcia den Uijl, senior data

scientist bij CentERdata, vertelt.

Marika de Bruijne

“De krimpende beroepen door digitalisering?Dat zijn met name secretaresses, boekhoud-kundig medewerkers en callcenter-medewer-kers outbound”, aldus Den Uijl. “Arbeids-marktramingen van het Researchcentrum voorOnderwijs en Arbeidsmarkt (ROA) geven aandat meer beroepen zullen krimpen, maar bijdeze beroepen is het te verwachten dat men opzoek zal moeten naar ander werk.” En dat al opde korte termijn. “De prognoses zijn gemaakttot 2022”, aldus Den Uijl. “Het goede nieuwsis dat we konden aantonen dat er optimaleoverstapberoepen bestaan voor meer dan 90%van de getroffen personen.”

Acht miljoen vacaturesIn het Arbeidsmarktonderzoek ICT werdenacht miljoen vacatures van de afgelopen vijfjaar bestudeerd, getrokken uit Jobfeed, degrote online databank van Textkernel. Dezeongestructureerde data is gecombineerd metde gestructureerde prognoses van het ROA.Een mooie uitdaging voor data science. Met

behulp van Natural Language Processing(NLP) werd gekeken in hoeverre digitalevaardigheden nodig zijn voor verschillendeberoepen en hoe vergelijkbaar verschillendeberoepen met elkaar zijn. “We zien dat erberoepen zijn waar tekorten aan mensen voor-komen. Met de vergelijkbaarheidsanalyses kaneen werkgever beoordelen uit welke andereberoepsgroepen nieuwe arbeidskrachten kun-nen worden gehaald”, vertelt Den Uijl.

Nieuwe technieken“Door nieuwe tekstanalyse-technieken te com-

bineren met arbeidsmarktramingen komen sta-biele loopbaanpaden in zicht, welke in lijnzijn met de overstapberoepen die door hetUWV zijn geïdentificeerd. Maar de hoeveel-heid data maakt dat je completer kunt zijn. Wehebben 371 beroepen in een matrix kunnenvergelijken. Omdat online vacatures minderrepresentatief kunnen zijn - bedrijven vullenopen posities ook via andere kanalen - blijvende ‘oude manieren’ van onderzoek doen, zoalssurveys, echter ook van belang.” Toch is DenUijl enthousiast over de gebruikte data sci-ence analyses. “De agnostische benadering

van data science benadrukt dat je kijkt naarwat mogelijk is, in plaats van wat al gebeurdis.”Het onderzoek is uitgevoerd in opdracht vaneen breed consortium met ICT-vertegenwoor-digers (CA-ICT, Nederland ICT en CIO Plat-form Nederland), de vertegenwoordigers vanvijf Nederlandse topsectoren en het ministerievan SZW. Het rapport verschijnt in 2019 en zalbeschikbaar zijn via de website van CentER-data.

centerdata.nl

E-DATA & RESEARCH februari 2019 7

Slim en efficiënt zoeken met AGNES

Graven in archeologischeonderzoeksrapporten

Rapport over effect digitalisering op arbeidsmarkt

Arbeidsmarktonderzoek ICT“Dit onderzoek endeze grafiek lateneen toename vande vraag naar digi-tale vaardighedenover alle sectorenheen en op de helearbeidsmarkt zien.Digitalisering houdtzich niet aan éénsector”, conclu-deert Den Uijl.credits CentERdata

Brandsen past textmining toe voor het automatisch herkennen vanrelevante archeologische concepten in teksten

JONG TALENT

Page 8: Fries-Nederlandse spraakherkenner ontwikkeld Speuren in de ... · In Linked.Art werkt een inter - nationaal consortium aan de verbetering van de bruikbaar - heid van Linked Open Data

8 februari 2019 E-DATA & RESEARCH

COLUMN

GELEZEN

R eden waarom ik van destatistiek houd, nummer

433: statistici zijn van die heerlijkingetogen mensen. De hoogste lofdie je als statisticus kan ontvan-gen is dat je ‘voorzichtig’ bent.En de meest negatieve reactiewaar ik getuige van ben geweest,van een statisticus op een toch-niet-zo-heel-zinnig plan van onzegroep: een bedachtzame pauze -gevolgd door ‘kán je doen...’.De drie puntjes waren hoorbaar,maar vergevingsgezind.Dus als je in een vakblad leest,‘de bezorgdheid is reëel en hetgevaar is ook reëel’, dan let je op.Nu is dit citaat al uit 1972. Maarwel van Ivan Fellegi, een statisti-cus die zijn tijd ver vooruit was.Fellegi was een Hongaarse immi-grant die na de opstand noodge-dwongen naar Canada vluchtte,om daar allerlei briljante artikelen

te schrijven over onderwerpen dievandaag de dag opeens zeer actu-eel zijn, zoals het koppelen vanverschillende databestanden metonzekerheid. Hij werd ook de‘Hoofdstatisticus’ van Canada,een titel die ik persoonlijk veelmooier vind dan ‘dichter/theo-loog/ramenlapper des vaderlands’.Wat dit vooral betekende is dat hijzich bemoeide met de officiëlestatistiek. En het gevaar waar hijzich druk om maakte? Privacy.

I n de jaren ’70 bestond de be-zorgdheid over privacy slechts

bij een paar helderziende indivi-duen, die toen al inzagen dat deopkomst van computers en grotedatabestanden een nieuwe tijd in-luidde. Sla nu maar eens een krantopen zonder dat allerlei privacyhorror stories je bespringen. Zelfsde politiek is wakker geworden,dus dan weet je zeker dat het al-lang uit de hand is gelopen.

Waarschijnlijk het gevaar, maarzeker de bezorgdheid, zijn nu uit-gegroeid tot zo’n groot probleem,dat de Census Bureau (het Ameri-

kaanse CBS) een drastische be-slissing heeft genomen. Vanaf nuworden de resultaten van devolkstelling uitsluitend gepubli-ceerd met behulp van een statisti-sche databeschermingstechniekgenaamd “differential privacy”.

W at is dat nou weer? Welnu.Zelfs als je duidelijke

‘identificatoren’ - variabelen zoalsnaam, adres, postcode - uit eenbestand verwijdert, blijkt het tochvaak mogelijk om personen teherleiden. Dit kan bijvoorbeelddoor zo’n ‘opgeschoond’ databe-stand te koppelen aan andere be-standen die her en der te vindenzijn. Een beroemd voorbeeld is deheridentificatie van een aantalmensen uit een dataset met mil-joenen Amerikanen die Netflixonline beschikbaar had gesteldvoor onderzoeksdoeleinden. HetCBS beschermt ons al sinds jaaren dag tegen dit soort praktijken,en speelt internationaal zelfs eenleidende rol in het ontwikkelenvan het soort databeschermings-technieken waar Fellegi in 1972over schreef.

Maar een groep informatici, aan-gevoerd door Cynthia Dwork vanHarvard, was toch ontevreden. Zebedachten een strenge, formeledefinitie van privacy en een setmethoden om die te waarborgen:differential privacy. Het idee issimpel: stel, er moet een ‘uit-komst’ gepubliceerd worden. Datkan een tabel zijn of een correla-tie, maar ook een volledige data-set. Deze data worden niet lukraakop het internet geplempt, maarmoeten eerst een verstoring on-dergaan, bijvoorbeeld door er wil-lekeurige ruis bij op te tellen. Alsje uit deze verstoorde uitkomstniet met voldoende zekerheid kanbepalen hoe de oorspronkelijkedataset er uit zag, dan is er ookbijna geen kans op het herleidenvan individuen. Je kunt zelfs nietgoed bepalen óf een bepaalde per-soon wel of niet in de oorspronke-lijke dataset zat, ook al weet jeverder letterlijk alles over die per-soon.

Differential privacy is een fasci-nerend, maar controversieel, be-grip. Open data wordt een fluitje

ESFRI RoadmapMaarten HeerlienIn het najaar van 2018 publi-ceerde ESFRI, het EuropeanStrategic Forum on ResearchInfrastructures, een nieuw stra-tegisch rapport, met daarin delandschapsanalyse van elk vande zes ESFRI-kennisdomeinen.Voor het SSH-domein (Social& Cultural Innovation) ziet hetESFRI-forum kansen in de ver-dere ontwikkeling van big-data-analyse in taaltechnologie.Godsdienstwetenschappen endoorontwikkeling van digitalediensten voor open scienceworden aangewezen als strate-gisch belangrijk voor SSH.Aan de Roadmap 2018 zijn zesprojecten toegevoegd, wat hettotaal aan lopende ESFRI-pro-jecten op 18 brengt. Voor tweevan deze nieuwkomers fungeertNederland als lead country.European Holocaust ResearchInfrastructure beoogt een onder-zoeksinfrastructuur te ontwikke-len voor eenduidige toegang toten analyse van geografisch ver-spreide bronnen over de Holo-caust en wordt gecoördineerddoor het NIOD. DistributedSystem of Scientific Collectionsricht zich op virtuele integratieen ontsluiting van Europesenatuurhistorische collecties.Coördinatie van DiSSCo ligt bijNaturalis Biodiversity Center.roadmap2018.esfri.eu

van een cent, als je eraan kuntvoldoen. Het nadeel is natuurlijkdat je door de verstoringen ookminder kunt met de data: er moeteen balans gevonden worden tus-sen de bruikbaarheid en de be-scherming van de data. Daaroverwordt nu dan ook (voor statisti-sche begrippen) fel gedebatteerdin Amerika. Is John Abowd, hethoofd van de Census, wel ‘voor-zichtig’?

D e discussie komt ook naarons land. Gevaar en be-

zorgdheid zijn er al. Differentialprivacy dient zich binnenkort vastook aan in de Europese officiëlestatistiek, en in software voor on-derzoeksdatabeheer zoals iRods,Dataverse, of Figshare. In hetslechtste geval moet de socialewetenschap op de schop: iets las-tigere data-analyses, groteresteekproeven, meer preregistratie,en nieuwe onderzoeksontwerpen.In het beste geval zijn er binnen-kort geen excuses meer om onder-zoeksgegevens over mensen nietopen te delen. “Goed te doen…”

Daniel OberskiLicentie: CC-BY-NC-ND 4.0,creativecommons.org/licenses/by-nc-nd/4.0/legalcode

Daniel geeft de volgende columngraag aan Pearl Dykstra.

Een beleefde revolutie: differential privacy

Daniel OberskiDaniel Oberski is universitairhoofddocent in methodologie vandata science en statistiek aan deUniversiteit Utrecht. Hij promo-veerde in Tilburg en Barcelonaen was visiting professor inMaryland. In 2014 ontving hijeen Veni-subsidie voor hetontwikkelen van methoden diemeetfouten in administratieveregisterdata opsporen encorrigeren.

CESSDA ERIC, het consor-tium van Europese sociaal-wetenschappelijke data-archieven, heeft aan haargratis online trainingover datamanagementeen nieuw hoofdstuk toe-gevoegd: data discovery.Ricarda Braukmann

Vanaf 2017 telt de Data Manage-ment Expert Guide zes hoofdstuk-ken over het management en herge-bruik van sociaalwetenschappelijkedata. Het bevat praktische tips voorhet hele onderzoeksproces: overde planning van een onderzoeks-project, het organiseren van dedataverzameling, het verwerken vangegevens alsook het archiveren enpubliceren van de onderzoeksdata(zo FAIR mogelijk).

Data life cycleAan de bestaande training is on-langs een hoofdstuk over het vindenvan data (data discovery) toege-voegd, waardoor de training nu allestappen van de data life cycle om-vat. Dit nieuwe hoofdstuk biedtonderzoekers tips en trucs over hetvinden van bestaande data, data diezij kunnen hergebruiken om nieuweonderzoeksvragen te beantwoorden.

Vijf stappenHet hoofdstuk beschrijft vijf stap-pen in het vinden van data. De eer-ste stap gaat over de uitdaging omeen duidelijk beeld te krijgen van desoort data die men wil vinden. Hethoofdstuk presenteert een aantalvragen om goed te definiëren naar

welke data gezocht wordt. Vervol-gens wordt een overzicht van mo-gelijke bronnen waar data gevon-den kunnen worden, gegeven. Naastde CESSDA ERIC data-archieven diesociaalwetenschappelijke data vind-baar en toegankelijk maken, wordenook andere Europese en internatio-

nale databronnen toegelicht. Stapdrie in het vinden van data is hetactief zoeken binnen een archief ofdataverzameling. Het hoofdstukgeeft een aantal tips voor hetformuleren van effectieve zoekop-drachten waarmee bruikbare datagevonden kunnen worden. Als laat-ste wordt aandacht besteed aan hetselecteren van datasets en aan hetevalueren van de kwaliteit en toe-pasbaarheid van de data. Wat zijnvaak voorkomende toegangscate-gorieën? Waar mag ik de data voorgebruiken? Zijn ze beschikbaar inhet juiste formaat? Zijn er kostenverbonden aan hergebruik? Hoerefereer ik aan de data? Dit zijn al-lemaal vragen waar het hoofdstukonderzoekers mee op weg helpt omuiteindelijk de juiste dataset te kun-nen selecteren.

De Data Management Expert Guideis online gratis beschikbaar.

cessda.eu/DMEG

Dr Ricarda Braukmann is pro-grammaleider sociale weten-schappen bij DANS. DANS heeftals Nederlandse Service Providervan CESSDA ERIC bijgedragenaan de ontwikkeling van de DataManagement Expert Guide.

Bij het vinden van data zijn vijf stappen belangrijk: verkrijg een duide-lijk beeld van de benodigde data, bedenk welke bronnen interessantkunnen zijn, zoek actief binnen dataverzamelingen, selecteer interes-sante datasets en als laatste stap: evalueer de kwaliteit en toepasbaar-heid van de gevonden data.credits Verbeeldingskr8t / CESSDA ERIC

Gratis online training helpt onderzoekers bij datamanagement

Leren hoe je data kunt vinden