Datamanagement for Research: A Case Study

Post on 26-Jun-2015

132 views 0 download

description

How practices of data sharing can help researchers to produce more science.

Transcript of Datamanagement for Research: A Case Study

Helpt datamanagement de onderzoeker?

ja ... maar de praktijk is weerbarstig

dirk.roorda@dans.knaw.nl

2014-10-31 Den Haag 2015-03-12 Delft

Geleerdenbrieven

Data en traditie

text + linguistics => data + rese

arch =>

Wido van Peursen

Wat zien we ervan?

Toegankelijkheid van Data

Deze onderzoekers zijn begonnen vóór internet

ze hebben een fantastische datacreatie workflow ontwikkeld op hun instituut

de ETCBC heeft een behoorlijk dikke celwand gekregen

Eigen coderingen

research data cycle ?religious

communities

theol. scholars

theol. scholars

enlightened lay people

research data cycle ?religious

communities

theol. scholars

theol. scholars

enlightened lay people

linguists

comp. hum

Research Data Archiving

DANS

CLARIN SHEBANQ LAF-Fabric

stap 3: deponeren (2012)

wat is er gedeponeerd?

stap 4: project (2013)

SHEBANQ

System for Hebrew Text: ANnotations for Queries

project: CLARIN-NL

data curation: LAF

demonstrator: query saver

infrastructuur

data formaat

instrument

LAF? Yes, ISOLinguistic Annotation Framework

ISO 24612:2012

Nancy Ide, Laurent Romary

This is LAF

<node xml:id="n_88917"><link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/>

</node><edge xml:id="e1" from="n88917" to="n84383"/>

<a xml:id="ae1" label="parents" ref="e1" as="link"/>

<region xml:id="r_2" anchors="6 23"/><node xml:id="n_3"><link targets="r_2"/></node>

<a xml:id="a_3" label="word" ref="n_3" as="monads"/>labeled edges

nodes

annotations(features)

annotations(empty)

primary data

regions

lexeme_utf8= תישארsurface_consonants_utf8= תישאר

׃ץראה תאו םימשה תא םיה.א ארב תישארב

0-56-2392 72-91r9r10r11

n2n3

word

sentence

phrase

determination=determinedphrase_function=Objc

phrase_type=PP

parents

mothersubphrase

clause

r11 r10 r9

clause_atom_number=1clause_atom_relation=0clause_atom_type=xQtl

indentation=0

<a xml:id="af22" label="ft" ref="n3" as="utf8"><fs><f name="lexeme_utf8" value=" תישאר "/>

<f name="surface_consonants_utf8" value=" תישאר "/></fs></a>

link to regions

Linguistic Annotation Framework

IPython notebook

data en tools

data is niet los verkrijgbaar

er is altijd een instrument nodig: software

kijken/checken

transporteren

transformeren

kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 1.5G .

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR&gt;' *.xml etcbc4_monads.lex.xml

BR> = ברא = maken

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR&gt;' etcbc4_monads.lex.xml 113

kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt -rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt

kijken-checken

kijken-checken (xml)dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml -rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml -rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml -rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml -rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml -rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml -rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml -rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml -rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml -rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml -rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout --stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff.xsd etcbc4_monads.lex.xml etcbc4_monads.lex.xml validates real 2m26.029s user 2m20.308s sys 0m2.376s

kijken-checken (xml).hdr => .xml

transporteren

transformerenHoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten?

scripten

shell, python

scientific programming

software als instrument

uur cyclus

door onderzoeker voor onderzoeker

programmeren

C, C++, Java

software engineering

applicaties als product

wekelijkse cyclus

door ICTer voor onderzoeker

waar vallen wetenschappers voor?

het zijn geen software ontwikkelaars

maar ze programmeren wel

ze exploreren data, kneden, masseren

hun product is geen programma

maar analyse, visualisatie, publicatie

cultuur

fragmenten uit een video van Fernando Perez

4:19 onderzoekers en computing - 7:37

17:00 tools en de data life cycle - 20:26

42:09 data en publiceren - 44:20 / 49:22

data science at the command linehttp://datascienceatthecommandline.com

http://datasciencetoolbox.org

The Data Science Toolbox is a virtual environment based on Ubuntu Linux that is specifically suited for doing data science. Its purpose is to get you started in a matter of minutes. You can run the Data Science Toolbox either locally (using VirtualBox and Vagrant) or in the cloud (using Amazon Web Services).

stap 6: oogsten (2014)Rens Bod:

ling/dighum

Data Oriented Parsing

stap 6: oogsten (2014)

stap 7: meer (toekomst)

meer projecten

meer disciplines

meer databronnen

meer wetenschappelijke output

betere positie in de competitie

research environmentfunction medium infra

data LAF in dataset DANS EASY

web site web2py DANS=>KNAW, Leaseweb, Cloud

tools LAF-Fabric, Shebanq, Emdros

Github, Sourceforge

publishingIPython notebooks, Restructured Text

Github, Readthedocs

products apps, notebooks, articles

Github, Science Clouds, Journals

is dit een succes verhaal?dat staat nog te bezien ...

pas na 6 jaar tekenen van versnelling

vaak de gelegenheid grijpen

overmatig overtuigen

technische diepgang

affiniteit met de bronnen en het onderzoek

investeringen vooraf

waarom gaat het niet sneller?

de groep heeft zich efficiënt georganiseerd

veel is onder controle

nieuwe methoden zijn nog niet bewezen

technische support is schaars en moeilijk te betalen voor alfa-groepen

welke factoren dragen bij?

personele veranderingen in de vakgroep

nieuwe projecten

nieuwe eisen van NWO (open access)

competitie en samenwerking over disciplines

door de al maar doorgaande dynamiek van meer-beter-sneller-werkbaarder:

komt de digitale wereld steeds dichter bij steeds meer mensen

Helpt data management de onderzoeker?

ja, als zij inziet waar archivering en hergebruik goed voor zijn

ja, als hij de weg naar het archief weet te vinden

ja, als het archief relevant voor haar weet te zijn

ja, als het archief alert omgaat met de ontwikkelingen in ICT

dirk.roorda@dans.knaw.nl

Helpt data management de onderzoeker?

ja, als zij inziet waar archivering en hergebruik goed voor zijn

ja, als hij de weg naar het archief weet te vinden

ja, als het archief relevant voor haar weet te zijn

ja, als het archief alert omgaat met de ontwikkelingen in ICT

Niets hiervan is

vanzelfsprekend

dirk.roorda@dans.knaw.nl