Webarchief & Wetenschap (Dutch)

24
Webarchief&Wetenschap Hugo Huurdeman AVA-Net Symposium 2016

Transcript of Webarchief & Wetenschap (Dutch)

Page 1: Webarchief & Wetenschap (Dutch)

Webarchief&Wetenschap

Hugo Huurdeman AVA-Net Symposium 2016

Page 2: Webarchief & Wetenschap (Dutch)

Webarchief & Wetenschap

• Webarchieven over de gehele wereld hebben Petabytes aan informatie verzameld

• Vele mogelijkheden onderzoek:• bestaande én nieuwe typen onderzoeksvragen

• Vele verschillende vakgebieden

• van geesteswetenschappen tot informatica

• Maar… tot dusverre nog weinig gebruikt(Dougherty & Meyer, 2014)

Page 3: Webarchief & Wetenschap (Dutch)

“WebART” project

• “Web Archive Retrieval Tools”

• NWO CATCH project (’12-’16)

• UvA, CWI & KB

• Voornaamste doel:

• beter bruikbaar maken van webarchieven voor onderzoek

Het eerste grote onderzoeks-

project in Nederland naar gebruik

van gearchiveerde Nederlandse

websites als primaire bron voor

onderzoek sluit binnenkort de

boeken. WebART-promovendus

Hugo Huurdeman blikt terug.

Steven Claeyssens

Dit jaar ronden de laatste CATCH-projecten (Con-tinuous Access to Cultural Heritage) hun werk-zaamheden af en dus zet ook WebART (WebArchive Retrieval Tools) er een punt achter.WebART was een samenwerking tussen de Uni-versiteit van Amsterdam (UvA), het CentrumWiskunde en Informatica (CWI) en de Konink-lijke Bibliotheek (KB). Het WebART-team lichtteals eerste het Nederlandse nationale webarchiefgrondig door. Ze gingen daarbij na hoe zo’nheterogeen en omvangrijk born-digital archiefvoor onderzoeksdoeleinden bruikbaar kan zijnen bruikbaarder kan worden gemaakt.

10.000 websitesDe KB archiveert sinds 2007 een immer groeiendeselectie van Nederlandse websites. Op 1 januarivan dit jaar stond de teller op 10.000 sites die metenige regelmaat worden geharvest. Het belangvan dit born-digital archief voor onderzoek naarNederlandse cultuur en samenleving zal naar-mate de jaren verstrijken onvermijdelijk eensteeds prominentere plaats opeisen. WebARTonderschrijft dit belang en trok op onderzoek uit.Huurdeman: “In het WebART-project hebben we

gekeken naar de onderzoeksvragen die weten-schappers aan webarchieven zouden willen stel-len. Via een intensieve samenwerking met nieuwemedia-onderzoekers hebben we vervolgens zoek-en onderzoekstools ontwikkeld die complexeonderzoekstaken kunnen ondersteunen. Denkbijvoorbeeld aan de initiële exploratie van het ar-chief, het definiëren van een dataset en de analysedaarvan. Hiervoor was onderzoek nodig naarschaalbare extractie- en analysemethoden ennaar bruikbare interfaces voor verschillendezoekstadia.” Zo bouwde het team onder meerWebARTist, een interface waarmee onderzoekersop verschillende manieren het webarchief kunnenverkennen en bevragen.

Ongearchiveerde websites“Doordat webarchieven van nature incompleetzijn, vroegen wetenschappers ook om contex-tualisatie over wat er wel en niet in het archief zit.Dit heeft geleid tot verder onderzoek waarin weniet-gearchiveerde webinhoud hebben bloot-gelegd en gereconstrueerd.” Zo slaagden Huur-deman en zijn mede-onderzoekers erin een forsaantal niet-gearchiveerde sites te identificerenop basis van verwijzingen in de vorm van URL’sin het wel-gearchiveerde deel. Meer nog, doorde afzonderlijke woorden uit deze URL’s en debijbehorende linkteksten te distilleren, maaktenze dit niet-gearchiveerde deel van het web tot opzekere hoogte toch vindbaar en daarmee ookonderzoekbaar.“Deze informatie integreren we in de WebART-toolset. Helaas kan de toolset momenteel doorauteursrechtelijke beperkingen nog niet volledigonline worden aangeboden, maar de wens vanuithet projectteam om dit te bereiken, is er zeker.”webarchiving.nl

Geneeskunde

Politiekewetenschappen

Overig

artsennet.nl forensischinstituut.nl

lectoren.nlnwo.nl

openaccess.nl

cier.nl

gearchiveerd niet-gearchiveerd

cebuco.nl

uva.nl

tue.nl

ncdd.nl

Algemeen

Bedrijfs-wetenschappen

websites

categorieën

webpagina’s

Wetenschap

Onderwijs

Recht,Overheid

INHOUD

2Verslagen van events inGehoord en bijgewoond

3Landelijk Coördinatiepuntgaat voor samenhang

3De Open Universiteitvertelt over RDM-aanpak

4Mary Vardigan trots op50 Dataseals wereldwijd

5KNAW-president Josévan Dijck aan het woord

6CLARIN Young ScientistAward voor Van Gompel

6Nieuwe big data expertsdoor komst GRIDS

7Open State Foundation:5 tips voor data delen

8Zo eenvoudig is datmetadateren nog niet

Jaargang 10 | nummer 2

Nieuwsbrief overdata en onderzoekin de alfa- en gamma-wetenschappen.

E-data & Research verschijntdrie keer per jaar en wordtmogelijk gemaakt door:CentERdata, CLARIAH,DANS, Huygens ING,de Koninklijke Bibliotheeken het RIVM.

E-DATA &RESEARCH

E-DATA & RESEARCH februari 2016 1

Scan dezeQR code met eensmartphone om dewebsite van E-datate bezoeken.www.edata.nl

Op basis van de zoekterm ‘onderzoeksdata’toont WebARTist verschillende resultaten,waaronder deze grafieken. De bovenstegrafiek laat de verhouding tussen de gearchi-veerde en niet-gearchiveerde webpagina’szien, de middelste toont de belangrijkstewebsites voor deze zoekterm en de onderstegrafiek vat de categorieën van de gevondenpagina’s samen. De WebARTist-toolset biedteen veelheid aan mogelijkheden voor explo-ratie, analyse en visualisatie van de inhoudvan het KB-webarchief. credits WebART

Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap?

Nationale webarchiefonderzocht door WebART

Wint u deNederlandse Dataprijs 2016?

Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt.Een prijs voor een onderzoeker of onderzoeksgroep die extra bij-draagt aan de wetenschap door onderzoeksdata beschikbaar te ma-ken voor aanvullend of nieuw onderzoek.De winnaars van de voorgaande edities zijn in ieder geval enthou-siast: “De jury noemt onze database een grote aanwinst voor zowelhet Nederlands academisch als cultureel erfgoed. Dat is een bevesti-ging dat we op het goede spoor zitten,” aldus Martine de Bruin,Nederlandse Liederenbank, winnaar van de Dataprijs humaniora ensociale wetenschappen 2014.“Door het winnen van de Dataprijs kunnen we nu ook een paargrotere, al langer gewenste verbeterslagen maken,” aldus JohanMolenbroek en Marijke Dekker, DINED, winnaars van de Dataprijsexacte en technische wetenschappen 2014.Naast de winnaars waren ook de bijna 50 andere inzendingen vanhoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van hettoegankelijk maken en delen van onderzoeksdata’.De organisatie van de Nederlandse Dataprijs is in handen vanResearch Data Netherlands, een samenwerkingsverband tussen3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor-matie over de Dataprijzen 2016 op de website van RDNL. (HB)researchdata.nl

O P R O E P

De Vereniging van Universiteiten(VSNU) en Elsevier hebben eenprincipeakkoord bereikt waar-door Nederlandse wetenschap-pers toegang blijven houden totde wetenschappelijke artikelenvan Elsevier.

“Door deze overeenkomst,” aldusprof. Gerard Meijer, hoofdonder-handelaar namens de VSNU en voor-zitter van de Radboud UniversiteitNijmegen, “houden wetenschapperstoegang tot Elseviertijdschriften enhet biedt ze de mogelijkheid om ineen selectie van die tijdschriftenopen access te publiceren. De uni-versiteiten streven ernaar dat in2018, het derde jaar van de overeen-komst, 30% van de Elsevierartikelenvan Nederlandse auteurs open ac-cess beschikbaar is, dit akkoordmaakt dat mogelijk. Dit is echt ge-weldig nieuws en een ‘big deal’vooropen access.” Philippe Terheggen,

Managing Director Journals bijElsevier: “Wij zijn content met dezeovereenkomst, omdat blijvende sub-scriptietoegang tot onze hoogwaar-dige, ‘peer-reviewed’ wetenschap-pelijke artikelen essentieel is voorNederland om zijn positie als éénvan de meest impactvolle onder-zoekslanden te behouden. Daarnaastkrijgen Nederlandse wetenschappersmeer open access publicatiemoge-lijkheden om hun onderzoeksresul-taten met de rest van de wereld tedelen.” De overeenkomst is in lijnmet de ambitie van staatssecretarisDekker (OCW), die wil dat artikelenvan Nederlandse wetenschappersopen access gepubliceerd worden.Blijf op de hoogte van deze enandere ontwikkelingen via de Open-Access nieuwsbrief van de VSNU,de Nederlandse universiteitsbiblio-theken en de Koninklijke Biblio-theek. (VSNU)vsnu.nl

Principeakkoord openaccess VSNU en Elsevier

edata & research no. 2, 2016

Page 4: Webarchief & Wetenschap (Dutch)

gebruik

ontsluitingduurzame opslagharvesting

Proces van webarchivering

selectie

Page 5: Webarchief & Wetenschap (Dutch)

Flickr: koninklijkebibliotheek

KB: Web archief sinds 2007

Statistics:•10,000+ websites

•35,000+ harvests

•20+ Terabyte

Selective approach

Page 6: Webarchief & Wetenschap (Dutch)

0"

5"

10"

15"

20"

25"

30"

35"

2009Q3"

2009Q4"

2010Q1"

2010Q2"

2010Q3"

2010Q4"

2011Q1"

2011Q2"

2011Q3"

2011Q4"

2012Q1"

2012Q2"

2012Q3"

2012Q4"

2013Q1"

2013Q2"

2013Q3"

2013Q4"

2014Q1"

2014Q2"

2014Q3"

2014Q4"

2015Q1"

Gemiddeld"van"content"

Gemiddeld"van"links"

Gemiddeld"van"images"

Gemiddeld"van"combined"

Mogelijkheden webarchief

Small-scale analysis

more qualitative

“Close reading”

Large-scale analysis

more quantitative

“Distant reading”

Page 7: Webarchief & Wetenschap (Dutch)

“Close reading”

Wayback Machine

Page 8: Webarchief & Wetenschap (Dutch)

KB archive data

enrichments

Geodata

KB metadata

Link structure

workshops, co-design

Page 9: Webarchief & Wetenschap (Dutch)

Content analyse: Word frequency analysis

0!

100!

200!

300!

400!

500!

600!

700!

800!

May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12!

Mubarek

Assad

Putin

Kim Jung Il

DMI Winter School (2013)

Page 10: Webarchief & Wetenschap (Dutch)

troonsJan’13 Feb’13 Mar’13 Apr’13

May’13 Jun’13 Jul’13 Aug’13

Sep’13 Oct’13 Nov’13 Dec’13

Content analyse: Word frequency analysis

Page 11: Webarchief & Wetenschap (Dutch)

Co-Word AnalyseDMI Winter School (2013)

Page 12: Webarchief & Wetenschap (Dutch)

0"

20"

40"

60"

80"

100"

120"

20100722"

20100816"

20100817"

20110413"

20110610"

20110706"

20111013"

20111218"

20111220"

20120520"

20120613"

20120617"

20120618"

20120918"

20121014"

20121120"

20121221"

20121222"

20121222"

20130218"

20130413"

20130518"

20130611"

20130620"

20130818"

20131001"

20131013"

20131030"

20131101"

20131115"

20131118"

20131120"

20131130"

20131206"

20131220"

20131220"

20140118"

20140225"

20140413"

20140518"

20140609"

20141013"

20141118"

20150218"

20150413"

20150518"

Reeks1" Reeks2" Reeks3" Reeks4"

eyefilm.nl (2010-2015)

redesign redesign

content links images overallAnalyse evolutie websites

Page 13: Webarchief & Wetenschap (Dutch)

Geomapping: locatie bron nieuwsDMI Winter School (2013)

Page 14: Webarchief & Wetenschap (Dutch)

Analyse LinkstructuurBen-David & Huurdeman (2014)

Page 15: Webarchief & Wetenschap (Dutch)

gebruik

ontsluitingduurzame opslagharvestingselectie

Hoe kan het proces onderzoeks- gebruik beter ondersteunen?

Page 16: Webarchief & Wetenschap (Dutch)

ontsluitingduurzame opslagharvestingselectie

Verbeterpunten?

• Selectie en harvesting: meer transparantie

• Documentatie selectieprocedures, selectielijsten

• Wie archiveert wat? vgl. “Memento” http://mementoweb.org/about/

Page 17: Webarchief & Wetenschap (Dutch)

selectie harvesting duurzame opslag ontsluiting

Verbeterpunten?

• Selectie:

• Transparantie: procedures, selectielijsten

• Scope — idealiter “domeinharvesting…”

• Wie archiveert wat? vgl. “Memento”

Page 18: Webarchief & Wetenschap (Dutch)

ontsluitingduurzame opslagharvestingselectie

Verbeterpunten?

• Selectie en harvesting: meer transparantie

• Documentatie selectieprocedures, selectielijsten

• Wie archiveert wat? vgl. “Memento”

• “crawling” procedures en crawlinstellingen

Page 19: Webarchief & Wetenschap (Dutch)

ontsluitingduurzame opslagharvesting

Verbeterpunten?

• Ontsluiting: meer mogelijkheden voor onderzoekers

• Wayback Machine (toegang via URL)

• Zoekfunctionaliteit (toegang via zoekvraag)

• Ontsluiting “ruwe” data (WARC files, metadata, derived datasets, ..)

selectie

Page 20: Webarchief & Wetenschap (Dutch)

Conclusie

• Webarchieven: rijke bron voor huidig en toekomstig onderzoek

• WebART project

• Belang van selectie, harvesting & ontsluiting voor uiteindelijk gebruik

• “Onderzoekers willen wat niet in het archief zit”— Belang van verdere uitbreiding archiverings-activiteiten! —

Page 21: Webarchief & Wetenschap (Dutch)
Page 22: Webarchief & Wetenschap (Dutch)

webarchiving.nl

@webart12

Page 23: Webarchief & Wetenschap (Dutch)

Thanks & Acknowledgements

• The WebART team (’12-’16): Jaap Kamps, Richard Rogers, Arjen de Vries, Hugo Huurdeman, Thaer Samar, Anat Ben-David, Sanna Kumpulainen

• We gratefully acknowledge the collaboration with the Dutch Web Archive of the National Library of the Netherlands.

• WebART is supported by the Netherlands Organization for Scientific Research (NWO CATCH # 640.005.001).

Page 24: Webarchief & Wetenschap (Dutch)

Webarchief&Wetenschap

Hugo Huurdeman@timelessfuture