· - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de...

Post on 12-Jun-2020

3 views 0 download

Transcript of  · - Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de...

Concepten in de Gids: een Gids naar concepten?

Serge ter Braake, Rens Bod, Inger Leemans, Antske Fokkens, team QUPID2

KB Krantendag II, 20 januari 2017

1

7 & 8 December 2015, Helsinki

2

CONCEPTUAL CHANGE –

DIGITAL HUMANITIES CASE STUDIES

http://www.helsinki.fi/collegium/events/conceptual_change/index.html

3

http://event.cwi.nl/drift-a-lod/2016/

Tijdschrift De Gids, 1837-1910

- Vergaarbak van allerlei wetenswaardige artikelen en beschavingsstimulerende bijdragen voor de geletterde liberaal: letterkunde, geschiedenis, filosofie en natuurwetenschappen

Geen dwarsdoorsnede van de Nederlandse maatschappij, maar wel invloedrijk. (toekomstige) Minister-presidenten en hoogleraren publiceerden in de Gids, zoals Thorbecke, Cort van der Linden, Fruin en Huizinga.

Interessante ‘debatable concepts’ komen aan de orde, zoals kolonialisme, imperialisme en democratie.

5

Stap 1

Krijg de tekst in het format nodig voor jouw analyse

6

De weg van de tekst in de Gids

7

Geprint Gedigitaliseerd In DBNL

In NederlabXML (Frog).txt met en zonder interpunctie en capitalisatie

In AMCATNewsreader NLP Pipeline

Wordle, Wordcounter, Writewords.org.uk, et cetera

‘De computer is dus een technisch hulpmiddel. Hij kan programma’s uitwerken en realiseren die door hun complexiteit of omvang voor een mens praktisch niet uitvoerbaar zijn, bij voorbeeld omdat ze teveel tijd zouden vergen. [..]Een vraag daarbij is in hoeverre dit voor hem een noodzakelijke of zelfs noodzakelijke stap was, en of hij van de computer iets verwacht dat niet met conventionele middelen zou kunnen worden gerealiseerd. Die vraag is mijns inziens relevant, temeer omdat het erop begint te lijken dat er, rond het gebruik van computers door kunstenaars, een soort van magie aan het ontstaan is. Binnen deze magische sfeer heeft alleen al het woord computer de connotatie van bij-de-tijd-zijn. Die connotatie is allereerst modieus en heeft met kunst weinig te maken, Als een nieuw en absoluut logisch medium lijkt echter de computer, evenals allerlei andere technologische en mechanische technieken en materialen die nu door kunstenaars gebruikt worden, wel een rol te spelen in pogingen van individuele kunstenaars om alternatieven te vinden voor subjectieve en intuitieve artistieke processen als het 'ouderwetse' schilderen.’ (Peter Struycken, computerstructuren, 1969. R.H. Fuchs: over het gebruik van computers in beeldende kunst, 143-146, De Gids, 183:2, 1970)

8

Stap 2

Maak jezelf bekend met het corpus (‘handmatig’). Ga lezen.

Lijkt contra-intuïtief, maar het is belangrijk om een idee te hebben van wat er in staat. Niet alles wat afwijkt is altijd even duidelijk. Voorkom de val van decontekstualisatie.

‘The only way to know if your results are useful or wildly off the mark is to have a general idea of what you should be seeing.’ (Megan R. Brett, ‘Topic Modeling: A Basic Introduction’, Journal of Digital Humanities, vol 2., nr. 1, Winter

2012.)

9

Stap 3

Maak jezelf bekend met het corpus (digitaal)

Hoeveel ‘artikelen’?

Hoeveel woorden ?

Hoeveel zinnen?

Welke woorden komen het meest voor?

Kan je al grofweg categoriseren?

10

De Gids: Aantal artikelen per jaar

11

De Gids 1837-1910

Bijna 50 miljoen woorden

1837: 467 x schrijver; 270 x geschiedenis; 226 x wereld

1847: 436 x schrijver; 343 x geschiedenis; 309 x kerk

1857: 459 x minister; 446 x schrijver; 445 x onderwijs

1867: 403 x koning; 365 x onderwijs; 351 x schrijver; 349 x wereld

1877: 478 x geschiedenis; 427 x koning; 423 x stad; 413 x schrijver

1887: 433 x regeering; 414 x kinderen; 393 x volk; 364 x beaumarchais (254 x schrijver)

1897: 485 x kunst; 402 x ziel; 377 x volk (289 x schrijver)

1907: 375 x regeering; 296 x minister; 292 x volk (210 x schrijver)

12

Categorieën voor eigen gebruik

13

Aantal unieke woorden per jaar die meer dan 20 keer voorkomen

Stap 4

Kies je onderzoeksmethode:

Topic Modelling? (waar gaan teksten die bepaalde woorden bevatten nu precies over door de tijd heen?)

Word2Vec? (welke woorden komen voor in aanpalende zinnen? )

Associaties/Probabiliteitsscores in hetzelfde artikel?

14

Inhoudelijke Vraag voor de Humanities

Is het zinnig de verschuivingen in topics op te sporen van teksten waar bepaalde termen in voorkomen?

Is het belangrijk dat woorden dicht bij elkaar leven? (op zinsafstand): Word2Vec

Of is het belangrijker dat woorden in hetzelfde ‘artikel’ voorkomen? Bijvoorbeeld:- Krantenartikel- Biografisch Lemma- Hoofdstuk/paragraaf in een boek

15

Met welke sleutelwoorden begin je te zoeken?

Top down approach: Domeinexperts kennen doorgaans genoeg teksten om te weten welke termen belangrijk zijn en kunnen daar vandaan verder werken. Maar: pas op voor een bevestiging van de bias.

Bottom-up approach: begin met 1 zoekterm (bijvoorbeeld ‘vaccinatie’) en kijk welke woorden in dezelfde tekst voorkomen.

16

Uit een ‘representatieve tekst’ uit 1871. > 5 hits

vaccine

pokziekte

stierven

vaccinatie

sterfte

gevaccineerden

ziekte

manschappen

17

kinderen

gemiddeld

revaccinatie

epidemie

tering

cijfers

vatbaarheid

epidemie

Of: probabiliteitsscores over een heel corpus

In de data van het Biografisch Portaal komt ‘wetenschap’ relatief vaak voor met o.a.:

WijsbegeerteWetmatigheidWiskundeZegeningZelfkritiekSamenlevingZorgvuldigheid

18

The Amsterdam Content Analysis Toolkit (AmCAT)

Relatief laagdrempelig programma voor het analyseren en visualiseren van grote hoeveelheden tekst.

https://amcat.nl

19

Artikelen met daarin ‘kinderen’ EN ‘inenting’

20

Clustermap

21

Associatie

22

Wat is Wetenschap?

23

Volgende stappen

Meer data (om te beginnen: De Gids in de twintigste eeuw; Vaderlandsche Letterkunde)

Langetermijnanalyses, synchrone vergelijkingen.

24