Datamanagement for Research: A Case Study

37
Helpt datamanagement de onderzoeker? ja ... maar de praktijk is weerbarstig [email protected] 2014-10-31 Den Haag 2015-03-12 Delft

description

How practices of data sharing can help researchers to produce more science.

Transcript of Datamanagement for Research: A Case Study

Page 1: Datamanagement for Research: A Case Study

Helpt datamanagement de onderzoeker?

ja ... maar de praktijk is weerbarstig

[email protected]

2014-10-31 Den Haag 2015-03-12 Delft

Page 2: Datamanagement for Research: A Case Study

Geleerdenbrieven

Page 3: Datamanagement for Research: A Case Study
Page 4: Datamanagement for Research: A Case Study

Data en traditie

Page 5: Datamanagement for Research: A Case Study

text + linguistics => data + rese

arch =>

Wido van Peursen

Page 6: Datamanagement for Research: A Case Study

Wat zien we ervan?

Page 7: Datamanagement for Research: A Case Study

Toegankelijkheid van Data

Deze onderzoekers zijn begonnen vóór internet

ze hebben een fantastische datacreatie workflow ontwikkeld op hun instituut

de ETCBC heeft een behoorlijk dikke celwand gekregen

Page 8: Datamanagement for Research: A Case Study

Eigen coderingen

Page 9: Datamanagement for Research: A Case Study

research data cycle ?religious

communities

theol. scholars

theol. scholars

enlightened lay people

Page 10: Datamanagement for Research: A Case Study

research data cycle ?religious

communities

theol. scholars

theol. scholars

enlightened lay people

linguists

comp. hum

Research Data Archiving

DANS

CLARIN SHEBANQ LAF-Fabric

Page 11: Datamanagement for Research: A Case Study

stap 3: deponeren (2012)

Page 12: Datamanagement for Research: A Case Study

wat is er gedeponeerd?

Page 13: Datamanagement for Research: A Case Study

stap 4: project (2013)

SHEBANQ

System for Hebrew Text: ANnotations for Queries

project: CLARIN-NL

data curation: LAF

demonstrator: query saver

infrastructuur

data formaat

instrument

Page 14: Datamanagement for Research: A Case Study

LAF? Yes, ISOLinguistic Annotation Framework

ISO 24612:2012

Nancy Ide, Laurent Romary

Page 15: Datamanagement for Research: A Case Study

This is LAF

<node xml:id="n_88917"><link targets="r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11"/>

</node><edge xml:id="e1" from="n88917" to="n84383"/>

<a xml:id="ae1" label="parents" ref="e1" as="link"/>

<region xml:id="r_2" anchors="6 23"/><node xml:id="n_3"><link targets="r_2"/></node>

<a xml:id="a_3" label="word" ref="n_3" as="monads"/>labeled edges

nodes

annotations(features)

annotations(empty)

primary data

regions

lexeme_utf8= תישארsurface_consonants_utf8= תישאר

׃ץראה תאו םימשה תא םיה.א ארב תישארב

0-56-2392 72-91r9r10r11

n2n3

word

sentence

phrase

determination=determinedphrase_function=Objc

phrase_type=PP

parents

mothersubphrase

clause

r11 r10 r9

clause_atom_number=1clause_atom_relation=0clause_atom_type=xQtl

indentation=0

<a xml:id="af22" label="ft" ref="n3" as="utf8"><fs><f name="lexeme_utf8" value=" תישאר "/>

<f name="surface_consonants_utf8" value=" תישאר "/></fs></a>

link to regions

Linguistic Annotation Framework

Page 16: Datamanagement for Research: A Case Study
Page 17: Datamanagement for Research: A Case Study

IPython notebook

Page 18: Datamanagement for Research: A Case Study

data en tools

data is niet los verkrijgbaar

er is altijd een instrument nodig: software

kijken/checken

transporteren

transformeren

Page 19: Datamanagement for Research: A Case Study

kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls etcbc4.hdr etcbc4_lingo.c.xml etcbc4_lingo.sp.xml etcbc4_regions.xml etcbc4.lst etcbc4_lingo.p.xml etcbc4_lingo.xml etcbc4_sections.xml etcbc4.txt etcbc4_lingo.pa.xml etcbc4_monads.lex.xml etcbc4.txt.hdr etcbc4_lingo.s.xml etcbc4_monads.xml

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > du -h . 1.5G .

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -l 'BR&gt;' *.xml etcbc4_monads.lex.xml

BR> = ברא = maken

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > fgrep -c 'BR&gt;' etcbc4_monads.lex.xml 113

Page 20: Datamanagement for Research: A Case Study

kijken-checkendirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.txt -rw-r--r-- 1 dirk staff 5.1M Jul 23 10:58 etcbc4.txt

Page 21: Datamanagement for Research: A Case Study

kijken-checken

Page 22: Datamanagement for Research: A Case Study

kijken-checken (xml)dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > ls -lh *.xml -rw-r--r-- 1 dirk staff 104M Jul 23 11:00 etcbc4_lingo.c.xml -rw-r--r-- 1 dirk staff 107M Jul 23 11:00 etcbc4_lingo.p.xml -rw-r--r-- 1 dirk staff 148M Jul 23 11:00 etcbc4_lingo.pa.xml -rw-r--r-- 1 dirk staff 22M Jul 23 11:00 etcbc4_lingo.s.xml -rw-r--r-- 1 dirk staff 23M Jul 23 11:00 etcbc4_lingo.sp.xml -rw-r--r-- 1 dirk staff 299M Jul 23 11:00 etcbc4_lingo.xml -rw-r--r-- 1 dirk staff 642M Jul 23 10:58 etcbc4_monads.lex.xml -rw-r--r-- 1 dirk staff 125M Jul 23 10:58 etcbc4_monads.xml -rw-r--r-- 1 dirk staff 37M Jul 23 10:58 etcbc4_regions.xml -rw-r--r-- 1 dirk staff 36M Jul 23 10:58 etcbc4_sections.xml

dirk:~/Dropbox/laf-fabric-data/etcbc4/laf > time xmllint --nonet --noout --stream --schema /Users/dirk/Dropbox/laf-fabric-data/etcbc4/decl/graf-standoff.xsd etcbc4_monads.lex.xml etcbc4_monads.lex.xml validates real 2m26.029s user 2m20.308s sys 0m2.376s

Page 23: Datamanagement for Research: A Case Study

kijken-checken (xml).hdr => .xml

Page 24: Datamanagement for Research: A Case Study

transporteren

Page 25: Datamanagement for Research: A Case Study

transformerenHoe kan ik de computer zo snel mogelijk voor mij aan het werk zetten?

scripten

shell, python

scientific programming

software als instrument

uur cyclus

door onderzoeker voor onderzoeker

programmeren

C, C++, Java

software engineering

applicaties als product

wekelijkse cyclus

door ICTer voor onderzoeker

Page 26: Datamanagement for Research: A Case Study

waar vallen wetenschappers voor?

het zijn geen software ontwikkelaars

maar ze programmeren wel

ze exploreren data, kneden, masseren

hun product is geen programma

maar analyse, visualisatie, publicatie

Page 27: Datamanagement for Research: A Case Study

cultuur

fragmenten uit een video van Fernando Perez

4:19 onderzoekers en computing - 7:37

17:00 tools en de data life cycle - 20:26

42:09 data en publiceren - 44:20 / 49:22

Page 28: Datamanagement for Research: A Case Study

data science at the command linehttp://datascienceatthecommandline.com

http://datasciencetoolbox.org

The Data Science Toolbox is a virtual environment based on Ubuntu Linux that is specifically suited for doing data science. Its purpose is to get you started in a matter of minutes. You can run the Data Science Toolbox either locally (using VirtualBox and Vagrant) or in the cloud (using Amazon Web Services).

Page 29: Datamanagement for Research: A Case Study

stap 6: oogsten (2014)Rens Bod:

ling/dighum

Data Oriented Parsing

Page 30: Datamanagement for Research: A Case Study

stap 6: oogsten (2014)

Page 31: Datamanagement for Research: A Case Study

stap 7: meer (toekomst)

meer projecten

meer disciplines

meer databronnen

meer wetenschappelijke output

betere positie in de competitie

Page 32: Datamanagement for Research: A Case Study

research environmentfunction medium infra

data LAF in dataset DANS EASY

web site web2py DANS=>KNAW, Leaseweb, Cloud

tools LAF-Fabric, Shebanq, Emdros

Github, Sourceforge

publishingIPython notebooks, Restructured Text

Github, Readthedocs

products apps, notebooks, articles

Github, Science Clouds, Journals

Page 33: Datamanagement for Research: A Case Study

is dit een succes verhaal?dat staat nog te bezien ...

pas na 6 jaar tekenen van versnelling

vaak de gelegenheid grijpen

overmatig overtuigen

technische diepgang

affiniteit met de bronnen en het onderzoek

investeringen vooraf

Page 34: Datamanagement for Research: A Case Study

waarom gaat het niet sneller?

de groep heeft zich efficiënt georganiseerd

veel is onder controle

nieuwe methoden zijn nog niet bewezen

technische support is schaars en moeilijk te betalen voor alfa-groepen

Page 35: Datamanagement for Research: A Case Study

welke factoren dragen bij?

personele veranderingen in de vakgroep

nieuwe projecten

nieuwe eisen van NWO (open access)

competitie en samenwerking over disciplines

door de al maar doorgaande dynamiek van meer-beter-sneller-werkbaarder:

komt de digitale wereld steeds dichter bij steeds meer mensen

Page 36: Datamanagement for Research: A Case Study

Helpt data management de onderzoeker?

ja, als zij inziet waar archivering en hergebruik goed voor zijn

ja, als hij de weg naar het archief weet te vinden

ja, als het archief relevant voor haar weet te zijn

ja, als het archief alert omgaat met de ontwikkelingen in ICT

[email protected]

Page 37: Datamanagement for Research: A Case Study

Helpt data management de onderzoeker?

ja, als zij inziet waar archivering en hergebruik goed voor zijn

ja, als hij de weg naar het archief weet te vinden

ja, als het archief relevant voor haar weet te zijn

ja, als het archief alert omgaat met de ontwikkelingen in ICT

Niets hiervan is

vanzelfsprekend

[email protected]