Watskeburt? Niets!Zo praten wij gewoon
Helmer Striket al.
Radboud Universiteit Nijmegen, CLST
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 2
InleidingInleiding
“Watskeburt” zingt De Jeugd Van Tegenwoordig (2005)
"Gijwabbedoel" schreef Jan Kuitenbrouwerin zijn Hedenlands-column in De Volkskrant (12 november 2003)
Multi-Woord Expressies: MWEs
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 3
Overzicht presentatieOverzicht presentatie
Resultaten 1e onderzoekD. Binnenpoorte, C. Cucchiarini, L. Boves & H. Strik
(2005)Multiword Expressions in Spoken Language:
an exploratory study on pronunciation variation.Computer, Speech & Language 19(4), pp. 433-449.
Vervolgonderzoek Bram Elffers & Dusan Bavcar Case study: ‘op een gegeven moment’ Selectie van MWEs
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 4
Average Weighted Average Weighted DisagreementDisagreement
als ‘t ware
av. %disagr. 30.56 50.00 4.17
#canonical phonemes 3 2 4
phonemes canonical#
phonemes canonical#%disagravAWD
AWD = (30.56*3 + 50.00*2 + 4.17*4)/(3+2+4) = 23.15%
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 5
Result of 3-gramsResult of 3-grams
3-gram AWD inMWE context
AWD inandere context
verschil
zoiets van ja 57.27 15.75 41.52
in ieder geval 37.17 12.26 24.91
af en toe 34.76 15.15 19.61
op die manier 31.94 12.99 18.95
’t is natuurlijk 45.59 31.11 14.48
weet ik niet 29.22 21.52 7.70
dat is natuurlijk 34.62 28.76 5.86
hoe heet dat 30.43 24.95 5.48
ook helemaal niet 27.78 24.40 3.38
als ’t ware 23.15 35.88 -12.73
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 6
Result of 4-gramsResult of 4-grams
4-gram AWD inMWE context
AWD inandere context
verschil
dat vind ‘k ook 48.89 29.00 19.89
op een gegeven moment
47.13 27.91 19.22
dat maakt niet uit 42.42 26.49 15.93
dat is niet zo 40.00 28.47 11.53
of wat dan ook 31.54 22.10 9.44
‘k weet niet precies 28.57 22.73 5.84
dat weet ik niet 29.03 25.96 3.07
weet ik veel wat 26.45 25.08 1.37
dat weet ik nog 24.55 26.15 -1.60
als ’t goed is 18.57 32.41 -13.84
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 7
Conclusies 1e onderzoekConclusies 1e onderzoek
Er zijn N-grammenwaarvan de uitspraak (sterk) afwijkend is, t.o.v. Canoniek Dezelfde woorden in andere contexten
Meer reductie
Multi-Woord Expressies
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 8
MWEs, apart behandelen?MWEs, apart behandelen?
MWEs – (veel) meer reductie
Spraaktechnologie - ASR, APT, Segm. Apart behandelen Bijv. aparte entries in het lexicon OVIS onderzoek (98&99): MWEs => lagere
WER
Psycholinguistiek - Spraakproductie, perceptie, acquisitie Apart behandelen? Bijv. aparte entries in het lexicon?
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 9
MWEs bestuderenMWEs bestuderen
MWEs bestuderen Interessant Verbeteren prestaties van machines Maar hoe?
Selecteren, bijv. in het CGN Maar hoe? Selectie criteria? Definitie ontbreekt
Case study: ‘op een gegeven moment’ CGN – component a (spontaan)
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 10..
Realisation Sub Del Ins % Disagr.
Op @n xe m@nt 1 6 0 43.8
Op @ xe m@nd 2 7 0 56.3
Op @ x@f mEnt 1 6 0 43.8
Op @N Gev@ momEnt 1 2 0 18.8
Ob @ xev@ mEnt 1 5 0 37.5
p @ Ge md 1 10 0 68.8
Op @ Ge mt 0 9 0 56.3
Op @ xe mnt 0 8 0 50.0
Op @ Ge m@nt 1 7 0 50.0
Ob @ Ge m@t 2 8 0 62.5
Op @ Ge @nt 1 8 0 56.3
@b @ Gev mEnt 2 6 0 50.0
Op @ xev@ m@nt (2x) 1 5 0 37.5
Op @ xe m@n 1 8 0 56.3
Ob @N xev@ mEnd 3 4 0 43.8
Ob @ Ge m@n 2 8 0 62.5
Ob @ Ge m@nt 2 7 0 56.3
Ob @ Gev m@nt 2 6 0 50.0
ub @ Gev mEnt 2 6 0 50.0
Op @ Gev@ mEnt (2x) 0 5 0 31.3
Average: 1.2 6.4 0.0 47.7
Kerncorpus: Kerncorpus:
22 realisaties;22 realisaties;
DP oplijningDP oplijning
met canoniekemet canonieke
transcriptietranscriptie
(7 syllabes, (7 syllabes,
16 fonemen):16 fonemen):
•Sub(stituties)Sub(stituties)
•Del(eties)Del(eties)
•Ins(erties)Ins(erties)
•%Disagreemen%Disagreementt
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 11
op een gegeven moment
Freq.MWE 22 22 22 22
Andere 325 1470 1 24
Lengte(# fonemen)
MWE 1.95 1.14 2.82 3.68
Andere 1.97 1.82 4.00 5.63
Verschil -0.02 -0.69 -1.18 -1.94
%Verschil -1% -38% -30% -35%
Duur
MWE 0.09 0.05 0.19 0.17
Andere 0.12 0.11 0.29 0.34
Verschil -0.03 -0.06 -0.10 -0.16
%Verschil -24% -52% -35% -49%
Articulatie snelheid
MWE 20.60 20.78 14.83 21.23
Andere 15.82 16.14 13.75 16.72
Verschil 4.79 4.64 1.09 4.51
%Verschil +30% +29% +8% +27%
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 12
Selectie criteriaSelectie criteria
Selectie van N-grammen met verschillende criteriaFrequentieALD: Absolute Length Difference#fon. realisatie - #fon. canoniek
RLD: Relative Length Difference100% * ALD / #fon. canoniek
ART: ARTiculation rate#fon. / duur
Etc.
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 13
Hoogste Freq.Hoogste Freq.Rank Orthography #words FRQ ALD RLD ART
1 ja ja 2 442 -0.03 -0.80 9.19
2 dat is 2 367 0.40 7.90 15.24
3 ja maar 2 271 0.61 12.26 12.03
4 da 's 2 266 -2.62 -87.23 16.77
5 en dan 2 244 0.46 9.10 17.18
6 ja dat 2 226 0.42 8.40 12.51
7 't is 2 223 0.92 22.98 15.03
8 of zo 2 212 0.03 0.70 12.26
9 als je 2 209 1.97 39.34 12.78
10 oh ja 2 207 -0.03 -1.13 7.90
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 14
Hoogste ALDHoogste ALDRank Orthography #words FRQ ALD RLD ART
1 op een gegeven moment ook 5 3 7.00 38.89 20.42
2 een gegeven moment ook 4 3 6.67 41.67 20.54
3 op een gegeven moment 4 22 6.41 40.06 18.70
4 een gegeven moment 3 22 6.36 45.46 18.27
5 gegeven moment ook 3 3 6.00 42.86 19.82
6 natuurlijk helemaal 2 3 6.00 40.00 20.93
7 dan op een gegeven moment 5 3 5.67 29.83 20.44
8 is in ieder geval 4 3 5.67 43.59 18.41
9 gegeven moment 2 28 5.39 44.94 18.64
10 je op een gegeven 4 3 5.33 44.44 19.32
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 15
Hoogste RLDHoogste RLDRank Orthography #words FRQ ALD RLD ART
1 een gegeven 2 27 3.96 49.54 16.19
2 een gegeven moment 3 22 6.36 45.46 18.27
3 gegeven moment 2 28 5.39 44.94 18.64
4 je op een gegeven 4 3 5.33 44.44 19.32
5 hè als 2 9 2.22 44.44 9.07
6 als je als 3 6 3.50 43.75 10.71
7 is in ieder geval 4 3 5.67 43.59 18.41
8 ze natuurlijk 2 3 4.33 43.33 20.29
9 gegeven moment ook 3 3 6.00 42.86 19.82
10 een gegeven moment ook 4 3 6.67 41.67 20.54
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 16
ConclusiesConclusies
Verschillende selectiecriteria leiden tot verschillende N-grammen (MWEs).Welke selectie criteria?Combinatie: welke?‘Moeder – kind’ probleem
Evaluatie? Andere taken (o.a. APT, Segm., ASR):
Vergelijken met referentie (handmatige annotatie)
Hier?
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 17
‘‘op een gegeven moment’op een gegeven moment’
CGN – component a (alles) :477 x op een gegeven moment 37 xop gegeven moment 12 xgegeven moment ? xxx gegeven moment ? op een uh gegeven moment ? op een gegeven mo ? op een gegeven m ? op een gegeven
Wat is MWE? Wat is ‘andere context’?
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 18
DiscussieDiscussie
Selectie van MWEs is problematischNiet te algemeen; meer specifiek? Sommige taken (o.a. ASR, APT, Segm.)
Optimaliseren van een criterium Vergelijken met referentie (handmatige
annotatie)
Andere taken? Psycholinguistiek?
Spraaktechnologie (applicaties): MWE: wel / niet? Toevoegen aan lexicon En wat? (20 realisaties van o.e.g.m.)
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 19
Meer informatieMeer informatie
Voor meer informatie, zie
//lands.let.ru.nl///lands.let.ru.nl/staff/strik.php
zap.to/helmer= http://lands.let.kun.nl/TSpublic/strik/
Helmer Strik De dag vd Fonetiek, Utrecht, 22-12-05 20
Meer informatieMeer informatie
Voor meer informatie, zie
//lands.let.ru.nl///lands.let.ru.nl/staff/strik.php
zap.to/helmer= http://lands.let.kun.nl/TSpublic/strik/
Top Related