Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

19
Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel

description

Henk van den Heuvel. Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!. Het project. Opvolger van Autonomata (2005-2007) Gesubsidieerd in de 3e open call van STEVIN Toepassingsgericht project Start: 1 februari 2008 Einde: 1 februari 2010. AUTONOMATA Too. - PowerPoint PPT Presentation

Transcript of Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Page 1: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den HeuvelCLST, RU Nijmegen

What’s in a name? Autonomata Too!

Henk van den Heuvel

Page 2: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Het project

• Opvolger van Autonomata (2005-2007)• Gesubsidieerd in de 3e open call van STEVIN• Toepassingsgericht project• Start: 1 februari 2008• Einde: 1 februari 2010

Page 3: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

AUTONOMATA Too• CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den

Heuvel• ELIS, Universiteit van Gent: Jean-Pierre Martens• Nuance: Bart d’Hoore• TeleAtlas: Luc Peirlinckx, Luc Mortier• UiL-OTS: Gerrit Bloothooft

• Hetzelfde consortium als in Autonomata

Page 4: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Doelen van het project

• ASR van POIs verbeteren• Bouwen van demo-applicatie om proof of concept te laten

zien

Page 5: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Achtergrond van het projectWat zijn de specifieke problemen met ASR van namen?• G2Ps voor gewone woorden werken niet goed voor namen vanwege:

– Gefossilizeerde spellingen– Buitenlandse origine van namen

• Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon):– NL/VL-sprekers die NL/VL namen uitspreken – NL/VL-sprekers die buitenlandse namen uitspreken– Anderstaligen die NL/VL namen uitspreken

Wat zijn de resultaten van Autonomata (I)?1. P2P leersoftware en specifieke P2Ps om G2P-omzetting te

verbeteren2. Corpus met gesproken namen

→ Autonomata, Transfer Of Output

Page 6: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Autonomata, Transfer Of Output

Demonstrator: Horeca in twee steden

• Andere typen namen dan in Autonomata (nl. POIs): – P2P leersoftware om verbeterde foneemtranscripties te maken

• Reële uitspraken in herkenner: – D.m.v. modellering van patronen die worden gevonden in het namencorpus

• Inachtneming van interculturele aspecten:– Varianten binnen de Nederlandse foneemset

– Varianten buiten de Nederlandse foneemset

Page 7: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Overzicht werkpakketten• WP1 (TeleAtlas): Dataselectie

– Fon getranscribeerde straatnamen voor UK en FR– Fon. getranscribeerde POI entries NL, VL, UK en FR

• WP2 (Nuance): ASR & prototype• WP3 (ELIS): Uitbreidingen Autonomata

– G2Ps voor Engels, Frans & Duits– Aanpassingen Autonomata G2P toolbox

• WP4 (CLST): Selectie mono-linguale uitspraakvarianten– Onderzoek naar P2Ps voor uitspraakvarianten van namen

• WP5 (ELIS): Selectie multi-linguale uitspraakvarianten– Als WP4 maar met ac.modellen buitenlandse fonemen

• WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Page 8: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Deze presentatie• WP1 (TeleAtlas): Dataselectie

– Fon getranscribeerde straatnamen voor UK en FR– Fon. getranscribeerde POI entries NL, VL, UK en FR

• WP2 (Nuance): ASR & prototype• WP3 (ELIS): Uitbreidingen Autonomata

– G2Ps voor Engels, Frans & Duits– Aanpassingen Autonomata G2P toolbox

• WP4 (CLST): Selectie mono-linguale uitspraakvarianten– Onderzoek naar P2Ps voor uitspraakvarianten van namen

• WP5 (ELIS): Selectie multi-linguale uitspraakvarianten– Als WP4 maar met ac.modellen buitenlandse fonemen

• WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Page 9: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Aandachtspunten in project:• Reële uitspraken in herkenner:

– D.m.v. modellering van patronen die worden gevonden in het namencorpus• Inachtneming van interculturele aspecten:

– Varianten binnen de Nederlandse foneemset– Varianten buiten de Nederlandse foneemset

Doelen voor nu:

• P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen

• Uitgaande van het Autonomata namencorpus– Zowel train- als testmateriaal– CGN-transcripties

• Voor het Nederlandse deel van het corpus

• Onderzoek van P2Ps:1. Die werken op G2P-transcripties2. Die werken op voorbeeldtranscripties (kanonieke transcripties)

• Uitgesplitst naar taalorigine van sprekers en van namen

Henk van den Heuvel

Page 10: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Autonomata namencorpus120 Dutch(50% females)

60 natives

15 West Dutch

15 Transitional region

15 Northern

15 Southern

60 non-natives

20 English

20 Turkish

20 Moroccan

120 Flemish(50% females)

60 natives 15 Antwerp & Brabant

15 East-Flemish

15 West-Flemish

15 Limburg

60 non-natives

20 English

20 French

20 Moroccan

Materiaal:• 2500 namen per regio

(NL / VL)• Opgesplitst in 10 lijsten

van 250 namen• Elke lijst bestaat uit:

• 25% voornamen• 25% achternamen• 35% straatnamen• 15% plaatsnamen

• Fonetisch getranscribeerd:1. Kanoniek

(voorbeeld)2. Auditief geverifieerd

Page 11: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Systeemarchitectuur ELIS G2P-P2P tandem

initial

phonemic

transcription

initial

phonemic

transcription

orthographyorthography

general

purpose g2p

converter

general

purpose g2p

converter

p2p converter

p2p converter

final

phonemic

transcription

final

phonemic

transcription

automaticallylearned

stochastic correction rules

Page 12: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Omvang datasets

Henk van den Heuvel

Train Test

NLspk NLnames 4920 2280

NLspk BLnames 2501 1159

BLspk NLnames 4800 2399

BLspk BLnames 2440 1220

NLspk NL-geonames 3200 1600

BLspk NL-geonames 3200 1600

Page 13: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

P2Ps: G2P-output → aud.geverif.transcripties

Henk van den Heuvel

Phoneme symbols only

NLspk NLnames

BLspkNLnames

NLspkBLnames

BLspk BLnames

Subs (%) 3.6 9.7 13.8 17.7

Dels (%) 1.1 4.8 2.5 5.7

Ins (%) 1.1 1.8 2.3 3.0

PER (%) 5.8 16.3 18.6 26.3

P2P: WER (%) 39.2 72.8 83.9 92.5

G2P: WER1 (%) 51.8 78.4 92.5 95.3

WIR (%) 21.4 24.0 43.1 46.6

rWIR (=WIR/WER1)

41.3 30.6 46.6 48.9

• Duidelijke verbetering door P2P (maakte 4 varianten per naam)

• Grootste verbetering voor BLnamen

• WER blijft hoog

Page 14: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

P2Ps: G2P-output → aud.geverif.transcripties

Henk van den Heuvel

Geo names Phonemes only

NLspk & NLnames

BLspk & NLnames

NLspk & BLnames

BLspk & BLname

Subs (%) 3.3 9.1

Dels (%) 1.1 4.7

Ins (%) 1.1 1.9

PER (%) 5.4 15.7

WER (%) 35.1 69.1

WER1 50.8 76.4

WIR (%) 24.2 26.9

rWIR 47.6 35.2

• Resultaten zijn beter dan voor gecombineerde naamsoorten• Invloed taalachtergrond naam is belangrijker dan naamsoort

Page 15: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Uitsplitsing naar taalorigine

• Trainingsmateriaal in gearceerd gebied is te gering

Henk van den Heuvel

#records train/dev. corpus #records test corpus

Spr/naam NL EN TU MA NL EN TU MA

NL 4920 943 943 615 2280 437 437 285

EN 1560 299 299 322 840 161 161 138

TU 1560 299 299 322 840 161 161 138

MA 1680 195 195 210 719 105 105 90

Page 16: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

P2Ps: G2P-output → Auditief geverifieerde transcripties

Henk van den Heuvel

1. Uitsplitsing namen naar taal heeft zin: BL slechter dan apart

2. Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart

3. Effect 1 > Effect 2

4. Beste resultaten voor EN-namen: systematischer door meer kennis

Spr/naam NL EN TU MA BL

NL WER 39.2 75.1 84.4 82.5 83.9

WER1 51.9 92.2 90.9 95.1 92.5

WIR 21.4 63.6 53.1 52.3 43.1

rWIR 41.3 69.0 58.4 55.0 46.6

BL spr van NL namen BLSpr: EN TU MA BL

WER 59.9 76.2 79.7 72.8

WER1 69.6 82.0 84.5 78.4

WIR 26.3 28.2 32.7 24.0

rWIR 37.8 34.4 38.7 30.6

Page 17: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties

Henk van den Heuvel

1. Referentie (WER1) is G2P-transcriptie

2. De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs

Spr/naam NL EN TU MA BL

NL WER 32.7 47.1 81.2 83.2 67.2

WER1 51.9 92.2 90.8 95.1 92.4

WIR 25.7 73.2 45.8 42.5 56.0

rWIR 49.6 79.4 50.4 44.6 60.6

BL spr van NL namen

BLSpr: EN TU MA BL

WER 55.6 75.6 79.1 70.3

WER1 69.5 82.0 84.4 78.4

WIR 28.0 29.3 28.5 29.6

rWIR 40.2 35.7 33.8 37.8

Page 18: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties

Henk van den Heuvel

1. Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie

2. T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch)

3. De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels)

4. Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf

Spr/naam NL EN TU MA BL

NL WER 32.7 47.1 81.2 83.2 67.2

WER1 43.1 51.3 90.6 87.0 74.9

WIR 17.5 12.4 41.0 33.3 31.2

rWIR 40.6 24.1 45.2 38.3 41.7

BL spr van NL namen BLSpr: EN TU MA BL

WER 55.6 75.6 79.1 79.1

WER1 61.9 78.9 82.8 82.8

WIR 19.3 21.1 24.2 24.2

rWIR 31.2 26.7 29.2 29.2

Page 19: Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel

Autonomata Too

Vervolgonderzoek

Henk van den Heuvel

1. P2Ps trainen voor het Vlaamse deel van het corpus

2. Engelse G2P als uitgangspunt voor Engelse namen nemen

3. P2Ps gebruiken om uitspraakvarianten van POIs te maken

4. Selectie uitspraakvarianten voor herkenner

1. Alle 4 varianten opnemen in lexicon?

2. Reductiestrategieen?