Download - Watskeburt? Niets! Zo praten wij gewoon

Transcript
Page 1: Watskeburt? Niets! Zo praten wij gewoon

Watskeburt? Niets!Zo praten wij gewoon

Helmer Striket al.

Radboud Universiteit Nijmegen, CLST

Page 2: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 2

InleidingInleiding

“Watskeburt” zingt De Jeugd Van Tegenwoordig (2005)

"Gijwabbedoel" schreef Jan Kuitenbrouwerin zijn Hedenlands-column in De Volkskrant (12 november 2003)

Multi-Woord Expressies: MWEs

Page 3: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 3

Overzicht presentatieOverzicht presentatie

Resultaten 1e onderzoekD. Binnenpoorte, C. Cucchiarini, L. Boves & H. Strik

(2005)Multiword Expressions in Spoken Language:

an exploratory study on pronunciation variation.Computer, Speech & Language 19(4), pp. 433-449.

Vervolgonderzoek Bram Elffers & Dusan Bavcar Case study: ‘op een gegeven moment’ Selectie van MWEs

Page 4: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 4

Average Weighted Average Weighted DisagreementDisagreement

als ‘t ware

av. %disagr. 30.56 50.00 4.17

#canonical phonemes 3 2 4

phonemes canonical#

phonemes canonical#%disagravAWD

AWD = (30.56*3 + 50.00*2 + 4.17*4)/(3+2+4) = 23.15%

Page 5: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 5

Result of 3-gramsResult of 3-grams

3-gram AWD inMWE context

AWD inandere context

verschil

zoiets van ja 57.27 15.75 41.52

in ieder geval 37.17 12.26 24.91

af en toe 34.76 15.15 19.61

op die manier 31.94 12.99 18.95

’t is natuurlijk 45.59 31.11 14.48

weet ik niet 29.22 21.52 7.70

dat is natuurlijk 34.62 28.76 5.86

hoe heet dat 30.43 24.95 5.48

ook helemaal niet 27.78 24.40 3.38

als ’t ware 23.15 35.88 -12.73

Page 6: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 6

Result of 4-gramsResult of 4-grams

4-gram AWD inMWE context

AWD inandere context

verschil

dat vind ‘k ook 48.89 29.00 19.89

op een gegeven moment

47.13 27.91 19.22

dat maakt niet uit 42.42 26.49 15.93

dat is niet zo 40.00 28.47 11.53

of wat dan ook 31.54 22.10 9.44

‘k weet niet precies 28.57 22.73 5.84

dat weet ik niet 29.03 25.96 3.07

weet ik veel wat 26.45 25.08 1.37

dat weet ik nog 24.55 26.15 -1.60

als ’t goed is 18.57 32.41 -13.84

Page 7: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 7

Conclusies 1e onderzoekConclusies 1e onderzoek

Er zijn N-grammenwaarvan de uitspraak (sterk) afwijkend is, t.o.v. Canoniek Dezelfde woorden in andere contexten

Meer reductie

Multi-Woord Expressies

Page 8: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 8

MWEs, apart behandelen?MWEs, apart behandelen?

MWEs – (veel) meer reductie

Spraaktechnologie - ASR, APT, Segm. Apart behandelen Bijv. aparte entries in het lexicon OVIS onderzoek (98&99): MWEs => lagere

WER

Psycholinguistiek - Spraakproductie, perceptie, acquisitie Apart behandelen? Bijv. aparte entries in het lexicon?

Page 9: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 9

MWEs bestuderenMWEs bestuderen

MWEs bestuderen Interessant Verbeteren prestaties van machines Maar hoe?

Selecteren, bijv. in het CGN Maar hoe? Selectie criteria? Definitie ontbreekt

Case study: ‘op een gegeven moment’ CGN – component a (spontaan)

Page 10: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 10..

Realisation Sub Del Ins % Disagr.

Op @n xe m@nt 1 6 0 43.8

Op @ xe m@nd 2 7 0 56.3

Op @ x@f mEnt 1 6 0 43.8

Op @N Gev@ momEnt 1 2 0 18.8

Ob @ xev@ mEnt 1 5 0 37.5

p @ Ge md 1 10 0 68.8

Op @ Ge mt 0 9 0 56.3

Op @ xe mnt 0 8 0 50.0

Op @ Ge m@nt 1 7 0 50.0

Ob @ Ge m@t 2 8 0 62.5

Op @ Ge @nt 1 8 0 56.3

@b @ Gev mEnt 2 6 0 50.0

Op @ xev@ m@nt (2x) 1 5 0 37.5

Op @ xe m@n 1 8 0 56.3

Ob @N xev@ mEnd 3 4 0 43.8

Ob @ Ge m@n 2 8 0 62.5

Ob @ Ge m@nt 2 7 0 56.3

Ob @ Gev m@nt 2 6 0 50.0

ub @ Gev mEnt 2 6 0 50.0

Op @ Gev@ mEnt (2x) 0 5 0 31.3

Average: 1.2 6.4 0.0 47.7

Kerncorpus: Kerncorpus:

22 realisaties;22 realisaties;

DP oplijningDP oplijning

met canoniekemet canonieke

transcriptietranscriptie

(7 syllabes, (7 syllabes,

16 fonemen):16 fonemen):

•Sub(stituties)Sub(stituties)

•Del(eties)Del(eties)

•Ins(erties)Ins(erties)

•%Disagreemen%Disagreementt

Page 11: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 11

op een gegeven moment

Freq.MWE 22 22 22 22

Andere 325 1470 1 24

Lengte(# fonemen)

MWE 1.95 1.14 2.82 3.68

Andere 1.97 1.82 4.00 5.63

Verschil -0.02 -0.69 -1.18 -1.94

%Verschil -1% -38% -30% -35%

Duur

MWE 0.09 0.05 0.19 0.17

Andere 0.12 0.11 0.29 0.34

Verschil -0.03 -0.06 -0.10 -0.16

%Verschil -24% -52% -35% -49%

Articulatie snelheid

MWE 20.60 20.78 14.83 21.23

Andere 15.82 16.14 13.75 16.72

Verschil 4.79 4.64 1.09 4.51

%Verschil +30% +29% +8% +27%

Page 12: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 12

Selectie criteriaSelectie criteria

Selectie van N-grammen met verschillende criteriaFrequentieALD: Absolute Length Difference#fon. realisatie - #fon. canoniek

RLD: Relative Length Difference100% * ALD / #fon. canoniek

ART: ARTiculation rate#fon. / duur

Etc.

Page 13: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 13

Hoogste Freq.Hoogste Freq.Rank Orthography #words FRQ ALD RLD ART

1 ja ja 2 442 -0.03 -0.80 9.19

2 dat is 2 367 0.40 7.90 15.24

3 ja maar 2 271 0.61 12.26 12.03

4 da 's 2 266 -2.62 -87.23 16.77

5 en dan 2 244 0.46 9.10 17.18

6 ja dat 2 226 0.42 8.40 12.51

7 't is 2 223 0.92 22.98 15.03

8 of zo 2 212 0.03 0.70 12.26

9 als je 2 209 1.97 39.34 12.78

10 oh ja 2 207 -0.03 -1.13 7.90

Page 14: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 14

Hoogste ALDHoogste ALDRank Orthography #words FRQ ALD RLD ART

1 op een gegeven moment ook 5 3 7.00 38.89 20.42

2 een gegeven moment ook 4 3 6.67 41.67 20.54

3 op een gegeven moment 4 22 6.41 40.06 18.70

4 een gegeven moment 3 22 6.36 45.46 18.27

5 gegeven moment ook 3 3 6.00 42.86 19.82

6 natuurlijk helemaal 2 3 6.00 40.00 20.93

7 dan op een gegeven moment 5 3 5.67 29.83 20.44

8 is in ieder geval 4 3 5.67 43.59 18.41

9 gegeven moment 2 28 5.39 44.94 18.64

10 je op een gegeven 4 3 5.33 44.44 19.32

Page 15: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 15

Hoogste RLDHoogste RLDRank Orthography #words FRQ ALD RLD ART

1 een gegeven 2 27 3.96 49.54 16.19

2 een gegeven moment 3 22 6.36 45.46 18.27

3 gegeven moment 2 28 5.39 44.94 18.64

4 je op een gegeven 4 3 5.33 44.44 19.32

5 hè als 2 9 2.22 44.44 9.07

6 als je als 3 6 3.50 43.75 10.71

7 is in ieder geval 4 3 5.67 43.59 18.41

8 ze natuurlijk 2 3 4.33 43.33 20.29

9 gegeven moment ook 3 3 6.00 42.86 19.82

10 een gegeven moment ook 4 3 6.67 41.67 20.54

Page 16: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 16

ConclusiesConclusies

Verschillende selectiecriteria leiden tot verschillende N-grammen (MWEs).Welke selectie criteria?Combinatie: welke?‘Moeder – kind’ probleem

Evaluatie? Andere taken (o.a. APT, Segm., ASR):

Vergelijken met referentie (handmatige annotatie)

Hier?

Page 17: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 17

‘‘op een gegeven moment’op een gegeven moment’

CGN – component a (alles) :477 x op een gegeven moment 37 xop gegeven moment 12 xgegeven moment ? xxx gegeven moment ? op een uh gegeven moment ? op een gegeven mo ? op een gegeven m ? op een gegeven

Wat is MWE? Wat is ‘andere context’?

Page 18: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 18

DiscussieDiscussie

Selectie van MWEs is problematischNiet te algemeen; meer specifiek? Sommige taken (o.a. ASR, APT, Segm.)

Optimaliseren van een criterium Vergelijken met referentie (handmatige

annotatie)

Andere taken? Psycholinguistiek?

Spraaktechnologie (applicaties): MWE: wel / niet? Toevoegen aan lexicon En wat? (20 realisaties van o.e.g.m.)

Page 19: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 19

Meer informatieMeer informatie

Voor meer informatie, zie

//lands.let.ru.nl///lands.let.ru.nl/staff/strik.php

zap.to/helmer= http://lands.let.kun.nl/TSpublic/strik/

Page 20: Watskeburt? Niets! Zo praten wij gewoon

Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 20

Meer informatieMeer informatie

Voor meer informatie, zie

//lands.let.ru.nl///lands.let.ru.nl/staff/strik.php

zap.to/helmer= http://lands.let.kun.nl/TSpublic/strik/