GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

21
ELIS-DSSP Sint- Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine Middag Frederik Stouten

description

GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?. Jean-Pierre Martens Catherine Middag Frederik Stouten. Situering: het SPACE project. SPACE = SP eech A lgorithms for C linical and E ducational applications doel: ontwikkelen van spraaktechnologie voor - PowerPoint PPT Presentation

Transcript of GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

Page 1: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK

fantasie of werkelijkheid?

Jean-Pierre Martens

Catherine Middag

Frederik Stouten

Page 2: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Situering: het SPACE project

• SPACE = SPeech Algorithms for Clinical and

Educational applications

– doel: ontwikkelen van spraaktechnologie voor • detecteren van leesfouten, genereren van auditieve feedback,

synchroon meelezen, … in een leesleeromgeving• objectief karakteriseren van pathologische spraak

– technologieontwikkelaars (ESAT, ELIS, ETRO)– technologiegebruikers (ORTHO, COM)– looptijd: 1/3/2005 – 28/2/2009

Page 3: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Objectieve karakterisering

• Doelstellingen• objectieve maten voor kwaliteit van articulatie ontwikkelen• betrouwbaarheid meten door deze maten te correleren met

subjectieve beoordelingen (gouden standaard)

• Aanpak• hypothese: verstaanbaarheid is goede globale indicator van

kwaliteit van articulatie (tenminste: als rol van taalkundige context + geheugen beperkt blijft)

• eerst proberen verstaanbaarheid te voorspellen• daarna pas individuele eigenschappen van articulatie

Page 4: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Nood aan subjectieve data

• M1: impressionistisch oordeel over verstaanbaarheid – steeds zelfde tekstpassage laten scoren door luisteraar indruk van verstaanbaarheid (op 5-puntenschaal) indruk steeds gekleurd door taalkundig context + geheugen– vergt weinig inspanningen van luisteraar– matige overeenstemming tussen luisteraars veel luisteraars om spreiding te doen dalen

• M2: meten van % correct herkende woorden, fonemen, …– taalkundige context beperken door CVC, nonsenswoorden, …– geheugeneffect beperken door random lijsten te gebruiken– vergt meer inspanningen van luisteraar– goede overeenstemming tussen luisteraars

vergt slechts 1 luisteraar– wel voldoende items om spreiding te doen dalen

Page 5: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie van Erlangen

• Spraakmateriaal– lopende spraak (fonetisch rijke passage)– steeds zelfde passage van 108 woorden

• Proefpersonen– 41 pathologische sprekers– allemaal dezelfde pathologie (TE)

• Subjectieve scores (gouden standaard)– impressionistische oordelen (5-puntenschaal: slecht .. goed)– gemiddelden van 5 luisteraars – betrouwbaarheid: Pearson = 0.8 tussen 1 beoordelaar en

gemiddelde van 4 andere

Page 6: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie van Erlangen

• Objectieve karakterisering– passage door lopende spraakherkenner sturen– percent correct herkende woorden meten

• Spraakherkenner – akoestische modellen zijn Hidden Markov Modellen

(HMMs)– getraind op lopende spraak van veel normale sprekers

(Verbmobil corpus)– polyfoonmodellen (fonemen in context)– cognitieve component in objectieve scores gereduceerd

door gebruik van unigram taalmodel

Page 7: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie van Erlangen

• Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.78)

• Lijkt zeer goed resultaat, maar …

• Slechts 1 pathologie• Regressie bepaald op

testdata• 5-voudige kruisvalidatie

Pearson = 0.71

0

10

20

30

40

50

0.00 1.00 2.00 3.00 4.00 5.00

human score

wor

d ac

cura

cy (%

)

Page 8: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie van Erlangen

• Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.79)

• Lijkt zeer goed resultaat, maar …

• Slechts 1 pathologie• Lineair model bepaald op

testdata• 5-voudige kruisvalidatie

Pearson = 0.71

0

1

2

3

4

5

0.00 1.00 2.00 3.00 4.00 5.00

human score

com

pute

d sc

ore

Page 9: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie binnen SPACE

• Spraakmateriaal– materiaal uit NSVO-test (De Bodt et al, 2006)– 50 CVC woorden (in isolatie) per proefpersoon– normale woorden + uitspreekbare nonsenswoorden (b.v. nuis)– 3 lijsten die testen op eerste, tweede of derde foneem

• Proefpersonen– nu reeds 211 sprekers (we mikken op 250)– 51 normale (controlegroep)– 7 pathologieën: dysartrie (60), gehoorgestoord (42), laryngectomie

(37), cleft (11), dysfonie (7), articulatiestoornis (2), glossectomie (1)

Page 10: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

NSVO (De Bodt et al, 2006)

1 .op ø b d f g h j k l m n p r s t v w z

top1. dop

2. nuis

3.

Page 11: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Studie binnen SPACE

• Subjectieve scores (gouden standaard)– percent correct herkende fonemen– zeer betrouwbaar (Pearson = 0.9 tussen 2 luisteraars)

• Objectieve karakterisering– verschillende types spraakmodellen – verschillende methodes voor gebruik van modellen

Page 12: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Spraakmodellen

• Gemeenschappelijk– statistische modellen voor fonetische eenheden– automatisch getraind op veel lopende spraak van ‘normale’

sprekers (CGN, CoGeN corpora)– berekenen hoe goed akoestische vectoren bij die eenheden

passen– akoestische vectoren zijn MFCCs

• Trifoonmodellen (TM) (ESAT)– fonetische eenheden zijn trifonen (fonemen in linker + rechter

context, kleine 1000 modellen)– Hidden Markov Modellen (HMMs)– getraind op CGN (gelezen spraak, 300K woorden)

Page 13: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Spraakmodellen

• Gemeenschappelijk– statistische modellen voor fonetische eenheden– automatisch getraind op veel lopende spraak van ‘normale’

sprekers (CGN, CoGeN corpora)– berekenen hoe goed akoestische vectoren bij die eenheden

passen– akoestische vectoren zijn MFCCs

• Articulatiemodellen (AM) (ELIS)– fonetische eenheden zijn foneemcomponenten (40-tal)– component = deel met ‘vaste’ articulatorische kenmerken– Artificiële Neurale Netwerken (ANNs) mappen MFCCs eerst naar

articulatorische kenmerken (25 kenmerken) articulatiemodellen– getraind op CoGeN (gelezen spraak, 50K woorden)

Page 14: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Modes voor gebruik van modellen

• Herkenningsmode (H)

1 .op ø b d f g h j k l m n p r s t v w z

top1. dop

2. nuis

3. spraak-herkenner

Page 15: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Modes voor gebruik van modellen

• Herkenningsmode (H)– geef spraakherkenner zelfde opties als luisteraar

• Objectieve score– tel aantal keer (in %) dat spraakherkenner correct was

WAC (word accuracy)

• IJking– lineaire model voor mapping van WAC op subjectieve

score

Page 16: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Modes voor gebruik van modellen

• Verificatiemode (V)– correct woord gekend verondersteld– leid daaruit sequentie van fonetische eenheden af

(fonemen of foneemcomponenten)– gebruik spraakmodellen om spraak in fonetische eenheden te

segmenteren

• Objectieve score– gemiddelde log likelihood (LL) scores voor fonemen of voor

articulatorische kenmerken– resultaat = 25..30 LL-scores– selectie van optimale subset daarvan– beste lineaire model (in die subruimte) voor subjectieve score

Page 17: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Evaluatie van resultaten

• Vergelijken van objectieve en subjectieve scores– Pearson correlatie

• Training en validatie– proefpersonen in 5 sets verdelen (behoud populaties!)– lineair model trainen op 4 sets en evalueren op vijfde– dit 5 maal herhalen tot alle proefpersonen getest zijn– alle resultaten voorstellen op 1 grafiek

Page 18: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Resultaten: TM+H

• Pearson = 0.71• Vooral slechte resultaten

voor slechte stemmen

• Nog ver van correlatie gemeten tussen mense- lijke beoordelaars

• Idee om log p(x|correct) –

log p(x|beste ander)

te gebruiken helpt niet!

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60 70 80 90 100 110

human score

com

pu

ted

sco

re

Page 19: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Resultaten: TM+V

• Selecteer 10 LL-scores

• Pearson = 0.77

• Reeds minder problemen voor slechte stemmen

• V duidelijk beter dan H0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60 70 80 90 100 110

human score

com

pu

ted

sco

re

Page 20: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Resultaten: AM+V

• Selecteer 12 LL-scores• Pearson = 0.74• AM nog niet zo goed als

FM (vooral slechter bij slechte stemmen)

• Verbeteren door context te gebruiken bij berekening LL-scores

• AM wel rechtstreeks te interpreteren

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60 70 80 90 100 110

human score

com

pu

ted

sco

re

Page 21: GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?

ELIS-DSSPSint-Pietersnieuwstraat 41B-9000 Gent

Conclusies

• Reeds redelijk goede correlatie tussen subjectieve en objectieve verstaanbaarheid mogelijk

• Meer onderzoek nodig om te komen tot correlaties die deze tussen menselijke beoordelaars benaderen

• Van zodra dit kan met articulatiemodellen is er ook uitzicht op krijgen van gedetailleerde feedback over articulatie