Diachroon Corpus Workshop

12

Click here to load reader

Transcript of Diachroon Corpus Workshop

Page 1: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 1

Veranderend Taalgebruik in deKamer

Voor(delen|beelden) van een diachroon corpus

Maarten Marx

Universiteit van Amsterdam

Diachroom Corpus Workshop, ING Den Haag, 2011-03-30

Page 2: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 2

Inhoud

• Wat is een Diachroon Corpus voor mij?

• Staten Generaal Digitaal

• Boodschap

Page 3: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 3

Diachroon Corpus = OCR + Structuurherkenning

• statengeneraaldigitaal.nl

• Alle Handelingen van 1814–1995.

• Groot verschil tussen wens en werkelijkheid.

• Structuurherkenning: link

Page 4: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 4

Bronnen zitten vol impliciete data en metadata

• Rijk data model Link

• Meeting (1 Dag)

• Topic

• Stage direction

• Scene

• Stage direction

• Speech

• Paragraph

Page 6: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 6

Lage kosten, enorme meerwaarde

• Bij statengeneraaldigitaal:

• verzamelen en OCR: 10M

• structuurherkenning: 50K (half procent)

• Voor elk woord weten we

• wie het zei

• wanneer

• in welke hoedanigheid

• in welke context (debat over . . . )

• tegen wie, en wie er aanwezig waren

• Krachtige zoek en analyse technieken komen beschikbaar.

Page 7: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 7

Voorbeeld 1: Huisvrouwen van Els Kloek

• Vraag: Diachrone ontwikkeling van begrip huis(vrouw|wijf).

• Methode 1 Search en Browse

• Methode 2 Zet alle ’hits’ netjes bij elkaar in een excel bestand:

• Zoek in alle Handelingen van 1814-1995 (5.G GB tekst).

• Resultaten:huiswijf 0 hits

wijf 57

huisvrouw 1501

Page 8: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 8

Wat ’hits’

• Eerste hit huisvrouw: 1814

Cornelis de Haas en Anna de Boer, zuster van zijne overleden

huisvrouw

• Mooiste hit “wijf”

. . . want de tale is een vroedwijf der zinnen, een tolck des

herten ende een schilderij der ghedachten . . .

• Handelingen Eerste Kamer 1981 23 juni 1981, Paginas 11-34

Page 9: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 9

Voorbeeld data opslag

<speech docno="nl.19810000003-proc.pm.8.3.1"speaker="Oskamp"MPid="02724"party="PvdA"role="mp">

<p docno="nl.19810000003-proc.pm.8.3.1.1">Mijnheer de Voorzitter! Wat is passenderdan mijn bijdrage bij de totstandkoming van de Taalunie tussen Belgi\"e en Nederlandte beginnen met een citaat uit Coornherts voorwoor d bij Spieghels Twespraack vande Neder-duytsche Letterkunst?...

• http://www.parlement.com/9291000/biof/02724

Page 10: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 10

Voorbeeld 2: grootschalige diachronische analyse

• Van elke politicus hebben we alle gesproken woorden per dag

geordend bij elkaar gezet.

• Zie http://politicalmashup.nl/2011/03/wie-zegt-wat-en-wanneer-in-het-nederlandse-parlement/

• Toetsbare Hypotheses:

• Gebruikt men simpeler taal, naarmate je langer in de kamer zit?

• Gaat men wolliger spreken tijdens zware debatten?

• Mooie voorbeelden: 00738, 02682, Marcus Bakker, Balkenende,

. . . Link

Page 11: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 11

Boodschap

Page 12: Diachroon Corpus Workshop

Veranderend Taalgebruik in de Kamer 12

Denk groot en groots

• Bronnen zitten vol data en metadata.

• Haal dat er automatisch uit.

• Processen moeten schalen naar 10, 100, 1000 keer zoveel data.

• Wees niet bang voor foutjes.

Maak impliciete structuur en informatie expliciet.