Kwantitatieve Analyse Oeuvre Hugo Clausvan de gemiddelde zins- en woordlengte met behulp van de...

51
Kwantitatieve Analyse Oeuvre Hugo Claus Guy De Pauw CLiPS - Universiteit Antwerpen 17 juni 2010 1

Transcript of Kwantitatieve Analyse Oeuvre Hugo Clausvan de gemiddelde zins- en woordlengte met behulp van de...

Kwantitatieve Analyse

Oeuvre Hugo Claus

Guy De PauwCLiPS - Universiteit Antwerpen

17 juni 2010

1

2

1 Methodologie

We onderzoeken de onderstaande werken, ingedeeld in vier fasen: begin, midden, einde en controle.

Jaar Titel BronBegin

1950 De Metsiers PDF1952 De hondsdagen PDF1956 De koele minnaar PDF1962 De verwondering PDF1963 Omtrent Deedee PDF

Midden1972 Het jaar van de kreeft PDF1972 Schaamte PDF1977 Jessica! PDF1978 Het verlangen PDF1983 Het verdriet van Belgie PDF

Einde1988 Een zachte vernieling PDF1989 De zwaardvis PDF1994 Belladonna PDF1996 De geruchten PDF1998 Onvoltooid verleden PDF

Controle2000 Een slaapwandeling OCR

Elke tekst werd linguıstisch geanalyseerd met behulp van het Tadpole1 pakket. Deze software doetaan tokenization (oa het bepalen van zinsgrenzen, leestekens afsplitsen) en linguıstische analyse. Eenvoorbeeld van de uitvoer:

ID woord lemma morf woordsoort hoofd label1 ’ ’ [’] LET() 0 ROOT2 Agnes Agnes [Agnes] SPEC(...) 5 su3 , , [,] LET() 2 punct4 je je [je] VNW(...) 5 su5 mag mogen [mag] WW(...) 0 ROOT6 drie drie [drie] TW(...) 7 det7 keer keer [keer] N(...) 8 obj18 raden raden [raad][en] WW(...) 5 vc9 , , [,] LET() 8 punct10 ’ ’ [’] LET() 8 punct11 zeg zeggen [zeg] WW(...) 0 ROOT

De kolom woord bevat het woord zoals het wordt aangetroffen in de brontekst. Vervolgens vindenwe het lemma van het woord, een rudimentaire morfologische analyse en de woordsoort. De kolomhoofd geeft aan welk ID in de zin het syntactische hoofd van het woord is, terwijl label de aard van desyntactische relatie uitdrukt. Op basis van de kolommen hoofd en label is het mogelijk een dependentie-analyse van de zin te construeren (zie ook p. 51).

Voor de meeste berekeningen wordt elke tekst onderverdeeld in stukjes van 4000 woorden. Zo wor-den er voor Het Verdriet van Belgie bijvoorbeeld 75 stukjes gemaakt en wordt de berekening voor elkstukje apart gemaakt. Vervolgens wordt het gemiddelde (en standaarddeviatie) van die 75 berekeningenbeschouwd als het uiteindelijke resultaat. Deze methode probeert ervoor te zorgen dat de absolute lengtevan een werk wordt uitgeschakeld als factor bij de berekeningen.

Op de volgende pagina’s vind je voor elke berekening twee grafieken: een gedetailleerde grafiek perwerk en een grafiek die de werken onderverdeeld in drie grotere periodes.

1http://ilk.uvt.nl/tadpole

3

2 Type/Token Ratio: Grafieken

0.2

0.22

0.24

0.26

0.28

0.3

0.32

0.34

0.36

0.38

0.4

0.42

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.26

0.27

0.28

0.29

0.3

0.31

0.32

0.33

0.34

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

4

Type/Token Ratio: Uitleg

De type/token ratio meet de lexicale variatie binnen een document. In deze metingen is een token eenwoordvorm, een type het lemma voor die woordvorm. Een voorbeeld:

Hij heeft het gehad

Er zijn vier tokens in deze zin, maar er zijn slechts drie verschillende types (hij hebben (2x) het). Detype/token ratio (TTR) voor deze zin is dan 3/4, ofwel 0.75.

Hoe hoger de TTR, hoe groter de lexicale varieteit van de tekst, of - kort door de bocht gezegd - hoerijker de woordenschat van de auteur. De effecten van Alzheimer zouden moeten leiden tot een verarmdewoordenschat, ttz een lagere type/token ratio. De grafieken tonen aan dat dit effect niet merkbaar isvoor Een Slaapwandeling en dat eerder een tegenovergestelde tendens kan worden vastgesteld.

5

3 Type/Token Ratio (inhoudswoorden): Grafieken

0.35

0.4

0.45

0.5

0.55

0.6

0.65

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.44

0.46

0.48

0.5

0.52

0.54

0.56

0.58

0.6

0.62

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

6

Type/Token Ratio (inhoudswoorden): Uitleg

Hier wordt TTR berekend uitsluitend op basis van inhoudswoorden. Lidwoorden, voegwoorden, voor-naamwoorden en voorzetsels worden met andere woorden niet meegerekend. Dit levert globaal gezienhogere TTR waarden op, maar de tendens blijft dezelfde.

7

4 Percentage eigennamen: Grafieken

0.01

0.02

0.03

0.04

0.05

0.06

0.07

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

8

Percentage eigennamen: Uitleg

Hier wordt het percentage van eigennamen berekend. Verwacht wordt dat Alzheimer patienten meermoeite hebben met het herinneren en (re)produceren van eigennamen en het gebruik hiervan zullenvermijden. Ook voor deze berekening vinden we geen significante effecten terug in Een Slaapwandeling.

9

5 Gemiddelde woordlengte: Grafieken

1.35

1.4

1.45

1.5

1.55

1.6

1.65

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

1.44

1.46

1.48

1.5

1.52

1.54

1.56

1.58

1.6

1.62

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

10

Gemiddelde woordlengte: Uitleg

De gemiddelde woordlengte wordt berekend aan de hand van het aantal syllaben per woord. Een ver-eenvoudigd taalgebruik zou moeten leiden tot het gebruik van over het algemeen minder lange woorden.Ook in deze berekening geldt eerder het tegendeel voor Een Slaapwandeling. Een uitschieter hier is welDe Metsiers.

11

6 Gemiddelde zinslengte: Grafieken

6

8

10

12

14

16

18

20

22

24

26

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

8

10

12

14

16

18

20

22

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

12

Gemiddelde zinslengte: Uitleg

Zinslengte wordt eenvoudigweg berekend aan de hand van het aantal woorden per zin. In de onderstegrafiek zien we een duidelijke tendens naar kortere zinnen doorheen het oeuvre. Hoewel deze tendenshet verwachte dieptepunt bereikt in Een Slaapwandeling, toont de bovenste grafiek aan dat Een Slaap-wandeling een gelijkaardige gemiddelde zinslengte heeft als Onvoltooid Verleden uit 1998. Een opvallendeuitschieter qua zinslengte is De Verwondering.

13

7 Flesch Reading Ease: Grafieken

45

50

55

60

65

70

75

80

85

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

54

56

58

60

62

64

66

68

70

72

74

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

14

Flesch Reading Ease: Uitleg

De Flesch Reading Ease score drukt de leesbaarheid van een tekst uit. De score wordt berekend op basisvan de gemiddelde zins- en woordlengte met behulp van de volgende formule:

206.835 - (1.015 * gemiddelde zinslengte) - (84.6 * gemiddelde woordlengte)

De resulterende score kan je op de volgende manier interpreteren2:

90.0 - 100.0 easily understandable by an average 11-year-old student60.0 - 70.0 easily understandable by 13- to 15-year-old students0.0 - 30.0 best understood by university graduates

Met andere woorden: hoe hoger de score, hoe leesbaarder, gemakkelijker de tekst. Let wel dat de formuleen de interpretatie van het resultaat ontwikkeld zijn op basis van het Engels en in absolute termen nietnoodzakelijk toepasselijk zijn op het Nederlands. Met deze score kunnen de werken onderling wel metelkaar vergeleken worden in termen van leesbaarheid.

Over het algemeen blijft de leesbaarheid constant doorheen het oeuvre met De Metsiers en De Ver-wondering als uitschieters.

2http://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid readability test

15

8 Gemiddelde inhoudswoordlengte: Grafieken

1.55

1.6

1.65

1.7

1.75

1.8

1.85

1.9

1.95

2

2.05

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

1.75

1.8

1.85

1.9

1.95

2

2.05

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

16

Gemiddelde inhoudswoordlengte: Uitleg

De lengte van functiewoorden heeft men per definitie niet onder controle. Daarom kan het handig zijnom de gemiddelde lengte te berekenen uitsluitend op basis van inhoudswoorden. Deze berekening toontechter dezelfde tendens.

17

9 Gemiddeld aantal inhoudswoorden per zin: Grafieken

4

5

6

7

8

9

10

11

12

13

14

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

4

5

6

7

8

9

10

11

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

18

Gemiddeld aantal inhoudswoorden per zin: Uitleg

Zinslengte berekend uitsluitend op basis van inhoudswoorden. Gelijkaardige tendens als in de berekeningop alle types van woorden.

19

10 Specificiteit van woorden: Grafieken

2

2.2

2.4

2.6

2.8

3

3.2

3.4

3.6

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

naamwoordenstdev

werkwoordenstdev

2

2.2

2.4

2.6

2.8

3

3.2

3.4

3.6

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

naamwoordenstdev

werkwoordenstdev

20

Specificiteit van woorden: Uitleg

Alzheimer patienten zouden geneigd zijn meer algemene woorden te gebruiken en dus specifiek woordge-bruik te vermijden. Om de specificiteit van de woordkeuze te berekenen maken we gebruik van Wordnet,een hierarchisch georganiseerd lexicon. Wordnet neemt de vorm aan van een netwerk, waar woordenmet elkaar in verbinding staan. Zo worden onder andere synoniemen en antoniemen aangeduid binnenWordnet. Voor deze berekening zijn we enkel geınteresseerd in de concepten hyponiem3 en hyperoniem4.

Het woord takenpakket is bijvoorbeeld een hyponiem van pakket. pakket is een hyponiem van groep;groep is een hyponiem van iets. iets heeft geen hyperoniem. Voor elk lemma in de tekst dat in Wordnetvoorkomt, berekenen we het kortste pad naar een woord dat geen hyperoniem heeft. Hoe langer dat pad,hoe specifieker het woord in kwestie.

Dit kunnen we niet vaststellen voor Een Slaapwandeling, noch voor naamwoorden, noch voor werk-woorden. Alweer lijkt de tendens eerder tegengesteld.

3is een hyponiem van kan geparafraseerd worden als is een specifiek soort van4is een hyperoniem van kan geparafraseerd worden als is een meer algemene vorm van

21

11 Frequentie in corpus: Grafieken

400

600

800

1000

1200

1400

1600

1800

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

500

600

700

800

900

1000

1100

1200

1300

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

22

Frequentie in corpus: Uitleg

Deze berekening zoekt voor elk woord de frequentie op in de frequentielijst samengesteld op basis vanhet CGN5. Hoe hoger de waarde, hoe meer frequent het woord. Of met andere woorden: hoe lager dewaarde, hoe ongebruikelijker het woord. De waarden zelf zijn niet informatief in absolute termen. Webeschouwen enkel de relatieve verhouding tussen de werken/perioden onderling.

Van Alzheimer patienten wordt verwacht dat ze geneigd zijn om meer voor de hand liggende woordente gebruiken. Ook hier zien we een omgekeerde trend. Een mogelijke verklaring hiervoor zou een verhoogdpercentage aan out-of-vocabulary woorden kunnen zijn, maar de metingen hieromtrent tonen aan dat EenSlaapwandeling hier niet significant afwijkt van de rest van de teksten (zie p. 27).

5Corpus Gesproken Nederlands

23

12 Frequentie in corpus (inhoudswoorden): Grafieken

400

500

600

700

800

900

1000

1100

1200

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

500

550

600

650

700

750

800

850

900

950

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

24

Frequentie in corpus (inhoudswoorden): Uitleg

De gemiddelde frequentie van inhoudswoorden. Grosso modo dezelfde tendenzen zijn merkbaar.

25

13 Percentage van Out-of-Vocabulary woorden: Grafieken

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0.11

0.12

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.05

0.06

0.07

0.08

0.09

0.1

0.11

0.12

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

26

Percentage van Out-of-Vocabulary woorden: Uitleg

Het percentage van woorden in de tekst dat niet voorkomt in de frequentielijst (en met andere woordenzeer laag frequente woorden of potentiele nieuwvormen zijn). Dit percentage werd berekend uitsluitendop basis van inhoudswoorden. Hoe hoger dit percentage, hoe ongebruikelijker het woordgebruik. Geenduidelijke tendenzen zijn echter merkbaar.

27

14 Percentage van gebruikte lemmata: Grafieken

0

0.2

0.4

0.6

0.8

10 10 20 30 40 50 60 70 80 90 100

1950DeMetsiers1952Dehondsdagen

1956Dekoeleminnaar1962Deverwondering1963OmtrentDeedee

1972Hetjaarvandekreeft1972Schaamte

1977Jessica!1978Hetverlangen

1983HetverdrietvanBelgie1988Eenzachtevernieling

1989Dezwaardvis1994Belladonna

1996Degeruchten1998OnvoltooidVerleden2000Eenslaapwandeling

0

0.2

0.4

0.6

0.8

1

0 10 20 30 40 50 60 70 80 90 100

earlymiddle

end2000Eenslaapwandeling

28

Percentage van gebruikte lemmata: Uitleg

In deze berekening tellen we eerst het totaal aantal lemmata dat in het werk wordt gebruikt. Vervolgensgaan we na - in tranches van 10% - hoeveel procent van deze lemmata er op dat moment reeds werdenaangetroffen.

Een voorbeeld ter verduidelijking: de plot van De Metsiers in de bovenste grafiek. Van alle lemmatadie in het werk worden gebruikt, zijn er na 10% van het boek reeds 25.9% gebruikt, in tegenstelling tot demeeste werken, waar er op dat moment slechts een 20-tal procent van de lemmata werden geıntroduceerd.Men zou deze berekening kunnen beschouwen als een meting van hoe snel de auteur zijn lexicale repertoireopgebruikt. Of nog anders uitgedrukt (onder zwaar voorbehoud): een steile start, gevolgd door eenafvlakkende curve, wijst erop dat de auteur doorheen het werk minder nieuwe concepten introduceert enhet werk dus thematisch relatief constant blijft.

Een Slaapwandeling bewandelt hier het gemiddelde parcours.

29

15 Percentage van gebruikte lemmata (eerst 20%): Grafieken

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.40 10 20

1950DeMetsiers1952Dehondsdagen

1956Dekoeleminnaar1962Deverwondering1963OmtrentDeedee

1972Hetjaarvandekreeft1972Schaamte

1977Jessica!1978Hetverlangen

1983HetverdrietvanBelgie1988Eenzachtevernieling

1989Dezwaardvis1994Belladonna

1996Degeruchten1998OnvoltooidVerleden2000Eenslaapwandeling

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 10 20

earlymiddle

end2000Eenslaapwandeling

30

Percentage van gebruikte lemmata (eerst 20%): Uitleg

In deze grafieken zien we een uitvergroting van de eerste 20%. Hier zien we wel dat Een Slaapwandeling(als we Jessica!6 buiten beschouwing laten) een relatief trage groeicurve heeft, wat er (weerom ondervoorbehoud) op wijst dat het werk thematisch gezien relatief homogeen is.

6Kan de trage groeicurve van Jessica! worden verklaard door het feit dat het oorspronkelijk een toneelstuk is?

31

16 Lexicale herhaling (context=2): Grafieken

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.008

0.01

0.012

0.014

0.016

0.018

0.02

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

32

Lexicale herhaling (context=2): Uitleg

Hier wordt berekend hoe vaak er lexicale herhaling is binnen een bepaalde tijdspanne. Een voorbeeld:

Ik heb het gehad

In deze zin hebben we lexicale herhaling, aangezien we twee woordvormen van hetzelfde lemma hebbenvinden binnen een context van twee woorden.

Een ander voorbeeld:

Ik heb het helemaal gehad

Voor een context van 2 woorden vinden we in deze zin geen lexicale herhaling. Voor een context van3 dan weer wel.

Alzheimer patienten zouden neigen tot een hogere graad van lexicale herhaling. Voor een context van2 woorden is dit uiteraard minimaal. Op de volgende bladzijden kan je dezelfde berekening vinden vooreen steeds groter wordende context.

33

17 Lexicale herhaling (context=5): Grafieken

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.025

0.03

0.035

0.04

0.045

0.05

0.055

0.06

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

34

Lexicale herhaling (context=5): Uitleg

Licht merkbare tegenovergestelde tendens.

35

18 Lexicale herhaling (context=10: Grafieken)

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.05

0.06

0.07

0.08

0.09

0.1

0.11

0.12

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

36

Lexicale herhaling (context=10): Uitleg

Licht merkbare tegenovergestelde tendens.

37

19 Lexicale herhaling (context=20): Grafieken

0.1

0.12

0.14

0.16

0.18

0.2

0.22

0.24

0.26

0.28

0.3

0.32

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.1

0.12

0.14

0.16

0.18

0.2

0.22

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

38

Lexicale herhaling (context=20): Uitleg

Licht merkbare tegenovergestelde tendens.

39

20 Distributie van woordsoorten: Grafieken

0

0.2

0.4

0.6

0.8

1

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

NWWBW

ADJVNW

0

0.2

0.4

0.6

0.8

1

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

NWWBW

ADJVNW

40

Distributie van woordsoorten: Uitleg

Hier wordt de relatieve distributie van een aantal woordsoorten weergegeven. Alzheimer patienten zoudenminder naamwoorden gebruiken en dit compenseren met meer werkwoorden en voornaamwoorden. Dezetendens is niet merkbaar bij Claus.

41

21 Percentage Interjecties: Grafieken

0

0.001

0.002

0.003

0.004

0.005

0.006

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.0005

0.001

0.0015

0.002

0.0025

0.003

0.0035

0.004

0.0045

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

42

Percentage Interjecties: Uitleg

Men zou kunnen verwachten dat schrijftaal de spreektaal nabootst. Dit zou moeten leiden tot eenverhoogd percentage aan interjecties. De omgekeerde trend kan worden vastgesteld.

43

22 Percentage dialoog: Grafieken

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0.15

0.2

0.25

0.3

0.35

0.4

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

44

Percentage dialoog: Uitleg

In het onderzoek naar de werken van Iris Murdoch werd een verhoogd percentage aan dialogen vastgesteld.De metingen op het werk van Claus laten een omgekeerde tendens zien.

45

23 Gemiddeld aantal (bij)zinnen per zin: Grafieken

2

2.5

3

3.5

4

4.5

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

2

2.2

2.4

2.6

2.8

3

3.2

3.4

3.6

3.8

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

46

Gemiddeld aantal (bij)zinnen per zin: Uitleg

Alzheimer patienten zouden over het algemeen syntactisch eenvoudigere constructies moeten maken. Ditkan onder meer gemeten worden door het gemiddeld aantal (bij)zinnen per zin te berekenen. De grafiekenlaten in deze wel een duidelijke tendens zien. In Een Slaapwandeling worden gemiddeld minder bijzinnengebruikt, maar het is duidelijk dat dit een tendens is die in de natuurlijke evolutie van het oeuvre merkbaaris.

47

24 Percentage Passiefconstructies: Grafieken

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

0.01

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

0

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

48

Percentage Passiefconstructies: Uitleg

Passiefconstructies vereisen een grotere cognitieve inspanning. Het percentage van passiefconstructies(tov het totaal aantal (bij)zinnen) zou achteruit moeten gaan bij Alzheimer patienten. Deze trend wordtbevestigd.

49

25 Gemiddelde inbedding in dependentie-analyse: Grafieken

3

3.2

3.4

3.6

3.8

4

4.2

4.4

1950

DeM

etsi

ers

1952

Deh

onds

dage

n

1956

Dek

oele

min

naar

1962

Dev

erw

onde

ring

1963

Om

tren

tDee

dee

1972

Het

jaar

vand

ekre

eft

1972

Sch

aam

te

1977

Jess

ica!

1978

Het

verla

ngen

1983

Het

verd

rietv

anB

elgi

e

1988

Een

zach

teve

rnie

ling

1989

Dez

waa

rdvi

s

1994

Bel

lado

nna

1996

Deg

eruc

hten

1998

Onv

olto

oidV

erle

den

2000

Een

slaa

pwan

delin

g

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

4

early

mid

dle

end

2000

Een

slaa

pwan

delin

g

50

Gemiddelde inbedding in dependentie-analyse: Uitleg

Deze berekening meet de complexiteit van de gebruikte syntactische structuren. In de onderstaandesyntactische structuur krijgt het woord my een inbeddingsscore van 4, aangezien er vier stappen moetenworden gezet om van het hoofd van de zin (shot) tot aan my te geraken. Hoe complexer de zin, hoedieper de woorden zijn ingebed met betrekking tot het hoofd.

7

Complexe syntactische structuren eisen veel werkgeheugen voor een taalgebruiker. Alzheimer pa-tienten zouden daarom de voorkeur geven aan minder complexe syntactische structuren. Deze tendenskan in zekere mate worden vastgesteld.

7http://nltk.googlecode.com/svn/trunk/doc/images/depgraph0.png

51