· - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de...

24
Concepten in de Gids: een Gids naar concepten? Serge ter Braake, Rens Bod, Inger Leemans, Antske Fokkens, team QUPID2 KB Krantendag II, 20 januari 2017 1

Transcript of  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de...

Page 1:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Concepten in de Gids: een Gids naar concepten?

Serge ter Braake, Rens Bod, Inger Leemans, Antske Fokkens, team QUPID2

KB Krantendag II, 20 januari 2017

1

Page 2:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

7 & 8 December 2015, Helsinki

2

CONCEPTUAL CHANGE –

DIGITAL HUMANITIES CASE STUDIES

http://www.helsinki.fi/collegium/events/conceptual_change/index.html

Page 3:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

3

http://event.cwi.nl/drift-a-lod/2016/

Page 5:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Tijdschrift De Gids, 1837-1910

- Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Geen dwarsdoorsnede van de Nederlandse maatschappij, maar wel invloedrijk. (toekomstige) Minister-presidenten en hoogleraren publiceerden in de Gids, zoals Thorbecke, Cort van der Linden, Fruin en Huizinga.

Interessante ‘debatable concepts’ komen aan de orde, zoals kolonialisme, imperialisme en democratie.

5

Page 6:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Stap 1

Krijg de tekst in het format nodig voor jouw analyse

6

Page 7:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

De weg van de tekst in de Gids

7

Geprint Gedigitaliseerd In DBNL

In NederlabXML (Frog).txt met en zonder interpunctie en capitalisatie

In AMCATNewsreader NLP Pipeline

Wordle, Wordcounter, Writewords.org.uk, et cetera

Page 8:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

‘De computer is dus een technisch hulpmiddel. Hij kan programma’s uitwerken en realiseren die door hun complexiteit of omvang voor een mens praktisch niet uitvoerbaar zijn, bij voorbeeld omdat ze teveel tijd zouden vergen. [..]Een vraag daarbij is in hoeverre dit voor hem een noodzakelijke of zelfs noodzakelijke stap was, en of hij van de computer iets verwacht dat niet met conventionele middelen zou kunnen worden gerealiseerd. Die vraag is mijns inziens relevant, temeer omdat het erop begint te lijken dat er, rond het gebruik van computers door kunstenaars, een soort van magie aan het ontstaan is. Binnen deze magische sfeer heeft alleen al het woord computer de connotatie van bij-de-tijd-zijn. Die connotatie is allereerst modieus en heeft met kunst weinig te maken, Als een nieuw en absoluut logisch medium lijkt echter de computer, evenals allerlei andere technologische en mechanische technieken en materialen die nu door kunstenaars gebruikt worden, wel een rol te spelen in pogingen van individuele kunstenaars om alternatieven te vinden voor subjectieve en intuitieve artistieke processen als het 'ouderwetse' schilderen.’ (Peter Struycken, computerstructuren, 1969. R.H. Fuchs: over het gebruik van computers in beeldende kunst, 143-146, De Gids, 183:2, 1970)

8

Page 9:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Stap 2

Maak jezelf bekend met het corpus (‘handmatig’). Ga lezen.

Lijkt contra-intuïtief, maar het is belangrijk om een idee te hebben van wat er in staat. Niet alles wat afwijkt is altijd even duidelijk. Voorkom de val van decontekstualisatie.

‘The only way to know if your results are useful or wildly off the mark is to have a general idea of what you should be seeing.’ (Megan R. Brett, ‘Topic Modeling: A Basic Introduction’, Journal of Digital Humanities, vol 2., nr. 1, Winter

2012.)

9

Page 10:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Stap 3

Maak jezelf bekend met het corpus (digitaal)

Hoeveel ‘artikelen’?

Hoeveel woorden ?

Hoeveel zinnen?

Welke woorden komen het meest voor?

Kan je al grofweg categoriseren?

10

Page 11:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

De Gids: Aantal artikelen per jaar

11

Page 12:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

De Gids 1837-1910

Bijna 50 miljoen woorden

1837: 467 x schrijver; 270 x geschiedenis; 226 x wereld

1847: 436 x schrijver; 343 x geschiedenis; 309 x kerk

1857: 459 x minister; 446 x schrijver; 445 x onderwijs

1867: 403 x koning; 365 x onderwijs; 351 x schrijver; 349 x wereld

1877: 478 x geschiedenis; 427 x koning; 423 x stad; 413 x schrijver

1887: 433 x regeering; 414 x kinderen; 393 x volk; 364 x beaumarchais (254 x schrijver)

1897: 485 x kunst; 402 x ziel; 377 x volk (289 x schrijver)

1907: 375 x regeering; 296 x minister; 292 x volk (210 x schrijver)

12

Page 13:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Categorieën voor eigen gebruik

13

Aantal unieke woorden per jaar die meer dan 20 keer voorkomen

Page 14:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Stap 4

Kies je onderzoeksmethode:

Topic Modelling? (waar gaan teksten die bepaalde woorden bevatten nu precies over door de tijd heen?)

Word2Vec? (welke woorden komen voor in aanpalende zinnen? )

Associaties/Probabiliteitsscores in hetzelfde artikel?

14

Page 15:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Inhoudelijke Vraag voor de Humanities

Is het zinnig de verschuivingen in topics op te sporen van teksten waar bepaalde termen in voorkomen?

Is het belangrijk dat woorden dicht bij elkaar leven? (op zinsafstand): Word2Vec

Of is het belangrijker dat woorden in hetzelfde ‘artikel’ voorkomen? Bijvoorbeeld:- Krantenartikel- Biografisch Lemma- Hoofdstuk/paragraaf in een boek

15

Page 16:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Met welke sleutelwoorden begin je te zoeken?

Top down approach: Domeinexperts kennen doorgaans genoeg teksten om te weten welke termen belangrijk zijn en kunnen daar vandaan verder werken. Maar: pas op voor een bevestiging van de bias.

Bottom-up approach: begin met 1 zoekterm (bijvoorbeeld ‘vaccinatie’) en kijk welke woorden in dezelfde tekst voorkomen.

16

Page 17:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Uit een ‘representatieve tekst’ uit 1871. > 5 hits

vaccine

pokziekte

stierven

vaccinatie

sterfte

gevaccineerden

ziekte

manschappen

17

kinderen

gemiddeld

revaccinatie

epidemie

tering

cijfers

vatbaarheid

epidemie

Page 18:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Of: probabiliteitsscores over een heel corpus

In de data van het Biografisch Portaal komt ‘wetenschap’ relatief vaak voor met o.a.:

WijsbegeerteWetmatigheidWiskundeZegeningZelfkritiekSamenlevingZorgvuldigheid

18

Page 19:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

The Amsterdam Content Analysis Toolkit (AmCAT)

Relatief laagdrempelig programma voor het analyseren en visualiseren van grote hoeveelheden tekst.

https://amcat.nl

19

Page 20:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Artikelen met daarin ‘kinderen’ EN ‘inenting’

20

Page 21:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Clustermap

21

Page 22:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Associatie

22

Page 23:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Wat is Wetenschap?

23

Page 24:  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Volgende stappen

Meer data (om te beginnen: De Gids in de twintigste eeuw; Vaderlandsche Letterkunde)

Langetermijnanalyses, synchrone vergelijkingen.

24