BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter...

28
BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team

Transcript of BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter...

Page 1: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

BiographyNetLinking the world of History

Workshop 4 april 2014, VU AmsterdamSerge ter Braake, Antske Fokkens, BiographyNet team

Page 2: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Programma Workshop

13:00 – 13:15: Inloop13:15 – 14:00: Introductie Antske Fokkens (computationale linguïstiek) en Serge ter Braake (geschiedenis) + vragen14:00 – 14:45: Werkgroep sessie 1 (eenvoudige vraag)14:45 – 15:00: Uitkomsten en discussie15:00 – 15:15: Pauze15:15 – 16:00: Werkgroep sessie 2 (moeilijke vraag)16:00 – 16:30: Uitkomsten en discussie16:30 – 17:00: Borrel

Page 3: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Digitale Tekstanalyse

• Gratis tools eenvoudig te vinden, maar niet toegespitst op historische teksten/historisch onderzoek

• Woorden en zinnen tellen: http://www.wordcounter.net/

• Wordcloud maken: http://www.wordle.net/• Woordfrequentie:

http://www.writewords.org.uk/word_count.asp

Page 4: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Test met de ‘Deductie van Johan de Witt’ (1654)

• Aantal woorden: 34.453• Aantal zinnen: 749• Aantal woorden per zin: 46• Tijd om voor te lezen: 5 uur

• Mark Rutte (Innovation Convention in Brussel op 10 maart 2014): 2.199 woorden, 16 woorden per zin

Page 5: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Wordcloud Deductie

Page 6: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Woordfrequentie

Ende: 1275 keerProvinc/tie(n): 262 Acte: 72Unie(n): 72Prince: 63Vrede: 53Seclusie: 50Saecke: 47Tractaet: 41Beverningk: 41Nieupoort: 41Oraigne: 31Republiecque: 32Godt: 27 keer (+ 10 keer een afgeleide)Vryheyt: 27Bondtgenooten: 24G(h)emeene: 22 Bondtghenooten: 12Ondanckbaerheyt: 12 (samen met Ondanckbaerheydt) Publijcque: 5

Page 7: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Maar wat willen we nu echt automatisch uit een tekst halen?

• Kwantificeringen van ‘begrippen’, ‘periodes uit iemands leven’, ‘vergelijkingen met anderen’, ‘prosopografische analyses’, ‘leads in kwalitatieve onderzoeksvragen’ …

• Wat jullie … ?• Een moeilijke taak, maar we gaan ons best

doen

Page 8: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

BiographyNet: Het blootleggen van relaties tussen mensen, plaatsen en gebeurtenissen• Een interdisciplinair E-History project

Wat is BiographyNet?

• Gefinancierd door het Nederlandse eScience Center• Partners zijn het eScience Center, Huygens/ING en de Vrije

Universiteit Amsterdam• Startpunt: Het Biografisch Portaal van

Nederland: www.biografischportaal.nl• 125,000 korte biografische beschrijvingen

(met een beperkte set metadata) uit een grote variëteit aan biografische bronnen• 76,000 individuen

Page 9: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Hoofdvraag hier

• Hoe kunnen we deze grote massa aan biografische data intelligent doorzoekbaar maken voor historici?

• Huidig zoekformulier van het portaal is nog beperkt (maar gaan we wel hier gebruiken):http://www.biografischportaal.nl/zoek

Page 10: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Plan van aanpak

• Interdisciplinariteit is fundamenteel voor het ontwikkelen van een bruikbare tool

• De computer redeneert niet over moeilijke vragen, maar levert informatie aan die de historicus helpt bij het beantwoorden van complexe vragen

• Focus van vandaag: welke informatie is nodig om een bepaalde vraag (deels) te kunnen beantwoorden?

Page 11: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Algemene Doelen Workshop

• 1. De computationele linguïst houvast bieden voor het ontwikkelen van een systeem waarmee historische vragen beantwoord kunnen worden

• 2. De deelnemers inzicht bieden in de mogelijkheden van digitaal historisch onderzoek met biografische data (nu en in de toekomst)

Page 12: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Specifieke Doelen Workshop

• 1) Welke informatie heeft u nodig om uw vraag/vragen te beantwoorden?

• 2) Hoe kan dit worden vertaald naar bouwstenen in RDF (het voorgestelde formaat) ?

• 3) Welke subtiliteiten gaan hierbij (eventueel) verloren?

• 4) Wat zijn de mogelijkheden, beperkingen en uitdagingen?

Page 13: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

De Opdrachten

• Een eenvoudige vraag, om je met de mogelijkheden van het portaal en de bronnen bekend te maken

• Een moeilijke vraag, die een goed doordachte methodologische aanpak vereist

• De manier waarop je het zou aanpakken staat hier centraal, niet de resultaten

Page 14: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Automatische tekstanalyse

• Doelen van automatische tekstanalyse in dit project:

1. Automatische analyse van de inhoud van de tekst:

Wat staat er in de tekst?2. Automatische analyse van de tekst zelf en

taalgebruik: Hoe worden dingen beschreven?

Page 15: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Tekst en Taalgebruik analyse

• Welke woorden en constructies worden gebruikt?– Gebruik van modale hulpwerkwoorden of

nuancerende bijwoorden– Neutrale woorden of woorden die een waarde

oordeel bevatten• Welke thema’s komen voor? Waar ligt de nadruk

op?– Welke begrippen komen in verschillende bronnen

voor?

Page 16: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Informatie extractie

• Doel van de extractie:– Wat staat er (precies) in de tekst?– Wat wordt er beweert en door wie?

• Representatie:– De geïdentificeerde informatie moet op

doorzoekbare wijze worden weergegeven– Uitdaging: hoe kunnen we informatie uitgedrukt in

taal op een gestructureerde manier weergeven?

Page 17: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

RDF

• RDF: Resource Description Framework• Een formaat dat ontworpen is om informatie aan

elkaar te linken• Entiteiten (inclusief personen en events) worden

door IRIs (unieke identifiers, ook wel URI’s) gerepresenteerd

• Veel gebruikt:– We kunnen ook makkelijk verbanden leggen tussen data

uit andere projecten– Veel kennis en tools voor het doorzoeken van RDF,

redeneren met RDF, etc.

Page 18: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

RDF, example

Page 19: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

RDF overzicht

• Informatie is weergegeven door triples die bestaan uit een subject, predicaat en object

• Bestanddelen van triples zijn IRIs (unique identifiers) of ``literals’’ (woord, woordgroep of getal)

Page 20: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Slide IRI Johan de Witt

Page 21: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Voorbeeld triples

SUBJECT PREDICAAT OBJECT

bn:45013103 bn:hasDateofDeath “1672-08-20”bn:45013103 bn:hasName “Johan de Witt”dbpedia:moord_op_gebr_deWitt sem:hasActor dbpedia:Johan_de_Witt

dbpedia:moord_op_gebr_deWitt sem:hasTime “1672-08-20”bn:45013103 skos:exactMatch dbpedia:Johan_de_Witt

Page 22: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

RDF

• De unique IRIs betekenen altijd hetzelfde

• Door IRIs te gebruiken, kunnen we:– Alle informatie over een persoon of event vinden– Relaties met elkaar vergelijken– Informatie aan elkaar kopellen

Page 23: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

IRIs (herkomst)

• We gebruiken bestaande IRIs waar mogelijk• Personen in het portaal hebben een

identificatie nummer. We kunnen op basis hiervan IRIs creeëren.

• We creëren ook IRIs voor events en personen die geen eigen identificatienummer hebben

• We hebben IRIs die woordbetekenissen kunnen weergeven

Page 24: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

RDF

• Het is ook mogelijk om iets over een RDF triple te zeggen, bijvoorbeeld:

– Wat is de herkomst van de informatie?– Wie beweert dat dit zo is en waar?– Hoe is de informatie geëxtraheerd?– Hoe betrouwbaar was de automatische extractie in

een evaluatie?– Wat is de aangegeven `feitelijkheid’ van de informatie?

(Is het gepresenteerd als feit of vermoeden)

Page 25: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Vragen voor vandaag

• Welke informatie zouden jullie uit de tekst willen halen om onderzoeksvragen te beantwoorden?

• Hoe zou deze informatie in RDF triples weergegeven kunnen worden?

• Welke informatie zouden jullie willen hebben die niet of moeilijk in een triple weergegeven kan worden?

Page 26: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

De ‘eenvoudige’ vraag

• Mensen en functies: de gouverneurs-generaal van Nederlands-Indië

• Mensen en prestaties: beroemde sporters uit de geschiedenis

• Mensen en plaatsen: beroemdheden uit Weert• Mensen en hun omgeving: Hans van Mierlo• Mensen uit alle tijden: Assendelft, De Witt en

Nicolai

Page 27: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

De moeilijke vraag• Mensen en gebeurtenissen: welke personen speelden een sleutelrol

in het rampjaar 1672?• Mensen en mensbeschrijvingen: Hoe is het beeld van de

gouverneurs-generaal van Nederlands-Indië in de loop der eeuwen veranderd?

• Mensen en naties: In hoeverre was er sprake van ‘nationalisme’ in biografische woordenboeken van de negentiende tot de eenentwintigste eeuw?

• Mensen en wereldgeschiedenis: Vanaf wanneer werd de ontdekking van Amerika van werkelijk belang voor de Nederlandse elites?

• Mensen en mobiliteit: welke patronen kunnen er ontdekt worden in de manier waarop mensen zich geografisch voortbewogen?

Page 28: BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Volgende stappen

• Rapport van onze bevindingen

• Observaties ? Feedback ?