Post on 24-Jan-2016
description
Henk van den HeuvelCLST, RU Nijmegen
What’s in a name? Autonomata Too!
Henk van den Heuvel
Henk van den Heuvel
Autonomata Too
Het project
• Opvolger van Autonomata (2005-2007)• Gesubsidieerd in de 3e open call van STEVIN• Toepassingsgericht project• Start: 1 februari 2008• Einde: 1 februari 2010
Henk van den Heuvel
Autonomata Too
AUTONOMATA Too• CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den
Heuvel• ELIS, Universiteit van Gent: Jean-Pierre Martens• Nuance: Bart d’Hoore• TeleAtlas: Luc Peirlinckx, Luc Mortier• UiL-OTS: Gerrit Bloothooft
• Hetzelfde consortium als in Autonomata
Henk van den Heuvel
Autonomata Too
Doelen van het project
• ASR van POIs verbeteren• Bouwen van demo-applicatie om proof of concept te laten
zien
Henk van den Heuvel
Autonomata Too
Achtergrond van het projectWat zijn de specifieke problemen met ASR van namen?• G2Ps voor gewone woorden werken niet goed voor namen vanwege:
– Gefossilizeerde spellingen– Buitenlandse origine van namen
• Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon):– NL/VL-sprekers die NL/VL namen uitspreken – NL/VL-sprekers die buitenlandse namen uitspreken– Anderstaligen die NL/VL namen uitspreken
Wat zijn de resultaten van Autonomata (I)?1. P2P leersoftware en specifieke P2Ps om G2P-omzetting te
verbeteren2. Corpus met gesproken namen
→ Autonomata, Transfer Of Output
Henk van den Heuvel
Autonomata Too
Autonomata, Transfer Of Output
Demonstrator: Horeca in twee steden
• Andere typen namen dan in Autonomata (nl. POIs): – P2P leersoftware om verbeterde foneemtranscripties te maken
• Reële uitspraken in herkenner: – D.m.v. modellering van patronen die worden gevonden in het namencorpus
• Inachtneming van interculturele aspecten:– Varianten binnen de Nederlandse foneemset
– Varianten buiten de Nederlandse foneemset
Henk van den Heuvel
Autonomata Too
Overzicht werkpakketten• WP1 (TeleAtlas): Dataselectie
– Fon getranscribeerde straatnamen voor UK en FR– Fon. getranscribeerde POI entries NL, VL, UK en FR
• WP2 (Nuance): ASR & prototype• WP3 (ELIS): Uitbreidingen Autonomata
– G2Ps voor Engels, Frans & Duits– Aanpassingen Autonomata G2P toolbox
• WP4 (CLST): Selectie mono-linguale uitspraakvarianten– Onderzoek naar P2Ps voor uitspraakvarianten van namen
• WP5 (ELIS): Selectie multi-linguale uitspraakvarianten– Als WP4 maar met ac.modellen buitenlandse fonemen
• WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator
Henk van den Heuvel
Autonomata Too
Deze presentatie• WP1 (TeleAtlas): Dataselectie
– Fon getranscribeerde straatnamen voor UK en FR– Fon. getranscribeerde POI entries NL, VL, UK en FR
• WP2 (Nuance): ASR & prototype• WP3 (ELIS): Uitbreidingen Autonomata
– G2Ps voor Engels, Frans & Duits– Aanpassingen Autonomata G2P toolbox
• WP4 (CLST): Selectie mono-linguale uitspraakvarianten– Onderzoek naar P2Ps voor uitspraakvarianten van namen
• WP5 (ELIS): Selectie multi-linguale uitspraakvarianten– Als WP4 maar met ac.modellen buitenlandse fonemen
• WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator
Henk van den Heuvel
Autonomata Too
Aandachtspunten in project:• Reële uitspraken in herkenner:
– D.m.v. modellering van patronen die worden gevonden in het namencorpus• Inachtneming van interculturele aspecten:
– Varianten binnen de Nederlandse foneemset– Varianten buiten de Nederlandse foneemset
Doelen voor nu:
• P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen
• Uitgaande van het Autonomata namencorpus– Zowel train- als testmateriaal– CGN-transcripties
• Voor het Nederlandse deel van het corpus
• Onderzoek van P2Ps:1. Die werken op G2P-transcripties2. Die werken op voorbeeldtranscripties (kanonieke transcripties)
• Uitgesplitst naar taalorigine van sprekers en van namen
Henk van den Heuvel
Henk van den Heuvel
Autonomata Too
Autonomata namencorpus120 Dutch(50% females)
60 natives
15 West Dutch
15 Transitional region
15 Northern
15 Southern
60 non-natives
20 English
20 Turkish
20 Moroccan
120 Flemish(50% females)
60 natives 15 Antwerp & Brabant
15 East-Flemish
15 West-Flemish
15 Limburg
60 non-natives
20 English
20 French
20 Moroccan
Materiaal:• 2500 namen per regio
(NL / VL)• Opgesplitst in 10 lijsten
van 250 namen• Elke lijst bestaat uit:
• 25% voornamen• 25% achternamen• 35% straatnamen• 15% plaatsnamen
• Fonetisch getranscribeerd:1. Kanoniek
(voorbeeld)2. Auditief geverifieerd
Henk van den Heuvel
Autonomata Too
Systeemarchitectuur ELIS G2P-P2P tandem
initial
phonemic
transcription
initial
phonemic
transcription
orthographyorthography
general
purpose g2p
converter
general
purpose g2p
converter
p2p converter
p2p converter
final
phonemic
transcription
final
phonemic
transcription
automaticallylearned
stochastic correction rules
Henk van den Heuvel
Autonomata Too
Omvang datasets
Henk van den Heuvel
Train Test
NLspk NLnames 4920 2280
NLspk BLnames 2501 1159
BLspk NLnames 4800 2399
BLspk BLnames 2440 1220
NLspk NL-geonames 3200 1600
BLspk NL-geonames 3200 1600
Henk van den Heuvel
Autonomata Too
P2Ps: G2P-output → aud.geverif.transcripties
Henk van den Heuvel
Phoneme symbols only
NLspk NLnames
BLspkNLnames
NLspkBLnames
BLspk BLnames
Subs (%) 3.6 9.7 13.8 17.7
Dels (%) 1.1 4.8 2.5 5.7
Ins (%) 1.1 1.8 2.3 3.0
PER (%) 5.8 16.3 18.6 26.3
P2P: WER (%) 39.2 72.8 83.9 92.5
G2P: WER1 (%) 51.8 78.4 92.5 95.3
WIR (%) 21.4 24.0 43.1 46.6
rWIR (=WIR/WER1)
41.3 30.6 46.6 48.9
• Duidelijke verbetering door P2P (maakte 4 varianten per naam)
• Grootste verbetering voor BLnamen
• WER blijft hoog
Henk van den Heuvel
Autonomata Too
P2Ps: G2P-output → aud.geverif.transcripties
Henk van den Heuvel
Geo names Phonemes only
NLspk & NLnames
BLspk & NLnames
NLspk & BLnames
BLspk & BLname
Subs (%) 3.3 9.1
Dels (%) 1.1 4.7
Ins (%) 1.1 1.9
PER (%) 5.4 15.7
WER (%) 35.1 69.1
WER1 50.8 76.4
WIR (%) 24.2 26.9
rWIR 47.6 35.2
• Resultaten zijn beter dan voor gecombineerde naamsoorten• Invloed taalachtergrond naam is belangrijker dan naamsoort
Henk van den Heuvel
Autonomata Too
Uitsplitsing naar taalorigine
• Trainingsmateriaal in gearceerd gebied is te gering
Henk van den Heuvel
#records train/dev. corpus #records test corpus
Spr/naam NL EN TU MA NL EN TU MA
NL 4920 943 943 615 2280 437 437 285
EN 1560 299 299 322 840 161 161 138
TU 1560 299 299 322 840 161 161 138
MA 1680 195 195 210 719 105 105 90
Henk van den Heuvel
Autonomata Too
P2Ps: G2P-output → Auditief geverifieerde transcripties
Henk van den Heuvel
1. Uitsplitsing namen naar taal heeft zin: BL slechter dan apart
2. Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart
3. Effect 1 > Effect 2
4. Beste resultaten voor EN-namen: systematischer door meer kennis
Spr/naam NL EN TU MA BL
NL WER 39.2 75.1 84.4 82.5 83.9
WER1 51.9 92.2 90.9 95.1 92.5
WIR 21.4 63.6 53.1 52.3 43.1
rWIR 41.3 69.0 58.4 55.0 46.6
BL spr van NL namen BLSpr: EN TU MA BL
WER 59.9 76.2 79.7 72.8
WER1 69.6 82.0 84.5 78.4
WIR 26.3 28.2 32.7 24.0
rWIR 37.8 34.4 38.7 30.6
Henk van den Heuvel
Autonomata Too
P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties
Henk van den Heuvel
1. Referentie (WER1) is G2P-transcriptie
2. De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs
Spr/naam NL EN TU MA BL
NL WER 32.7 47.1 81.2 83.2 67.2
WER1 51.9 92.2 90.8 95.1 92.4
WIR 25.7 73.2 45.8 42.5 56.0
rWIR 49.6 79.4 50.4 44.6 60.6
BL spr van NL namen
BLSpr: EN TU MA BL
WER 55.6 75.6 79.1 70.3
WER1 69.5 82.0 84.4 78.4
WIR 28.0 29.3 28.5 29.6
rWIR 40.2 35.7 33.8 37.8
Henk van den Heuvel
Autonomata Too
P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties
Henk van den Heuvel
1. Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie
2. T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch)
3. De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels)
4. Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf
Spr/naam NL EN TU MA BL
NL WER 32.7 47.1 81.2 83.2 67.2
WER1 43.1 51.3 90.6 87.0 74.9
WIR 17.5 12.4 41.0 33.3 31.2
rWIR 40.6 24.1 45.2 38.3 41.7
BL spr van NL namen BLSpr: EN TU MA BL
WER 55.6 75.6 79.1 79.1
WER1 61.9 78.9 82.8 82.8
WIR 19.3 21.1 24.2 24.2
rWIR 31.2 26.7 29.2 29.2
Henk van den Heuvel
Autonomata Too
Vervolgonderzoek
Henk van den Heuvel
1. P2Ps trainen voor het Vlaamse deel van het corpus
2. Engelse G2P als uitgangspunt voor Engelse namen nemen
3. P2Ps gebruiken om uitspraakvarianten van POIs te maken
4. Selectie uitspraakvarianten voor herkenner
1. Alle 4 varianten opnemen in lexicon?
2. Reductiestrategieen?