ATraNoS Work Package 2, T7-T12

Click here to load reader

  • date post

    13-Jan-2016
  • Category

    Documents

  • view

    29
  • download

    0

Embed Size (px)

description

ATraNoS Work Package 2, T7-T12. CNTS Team : Bart Decadt (onderzoeker) Erik Tjong Kim Sang (onderzoeker, project leider) Walter Daelemans (supervisie). CNTS Taken - Overzicht. WP 2 – Detectie en verwerking van OOV items : foneem- naar- grafeem (F2G) omzetter optimaliseren - PowerPoint PPT Presentation

Transcript of ATraNoS Work Package 2, T7-T12

  • ATraNoSWork Package 2, T7-T12CNTS Team:Bart Decadt (onderzoeker)Erik Tjong Kim Sang (onderzoeker, project leider)Walter Daelemans (supervisie)

  • CNTS Taken - OverzichtWP 2 Detectie en verwerking van OOV items:foneem-naar-grafeem (F2G) omzetter optimaliserenverdere fouten-analyseinteractie met de confidence measures van ESATs spraakherkenner

  • Even opfrissen F2G omzetter memory based learning (implementatie = TIMBL):classification-based & similarity-basedgebruikte algoritmes:IB1-IG (standaard) met k = { 1, 3, 5 }IGTree (decision tree based optimization)metriek om similarity te berekenen: overlap metric met gain ratio weightingexperimenten met 10-fold cross-validation met data van ESATs foneemherkenner

  • Resultaten experimenten T1T6beste resultaten dataset zonder instanties met deleties, en geen spelling als contextbeste algoritme = IB1-IG met k = 5

    IB1-IGIGTREEk=1k=3k=5Volledige datasetGrafeem-niveau76.277.377.476.4Woord-niveau46.446.546.546.3OOVs in datasetGrafeem-niveau59.962.863.360.7Woord-niveau6.26.76.96.1

  • (I) F2G-omzetter optimaliseren4 oplossingen:dataset met minder foneem-deletiesdataset met meer OOVsoptimalisatie-algoritme voor memory-based learningspellingcorrectie als post-processing

  • (I.a) Dataset met minder deletiesvorige dataset van ESAT: error rate ~25%nieuwe dataset van ESAT: 20% minder deleties, maar:60% meer inserties15% meer substitutiestotale error rate ~29%maar: inserties en substituties kunnen opgelost worden met de F2G-omzetter

  • (I.a) Dataset met minder deletiesresultaten van 10-fold cross-validation experimenten:

    IB1-IGIGTREEk=1k=3k=5Volledige datasetGrafeem-niveau74.275.775.774.4Woord-niveau43.944.143.943.8OOVs in datasetGrafeem-niveau59.563.263.860.5Woord-niveau6.17.17.66.1

  • (I.a) Dataset met minder deletiesbeste algoritme: IB1-IG met k=5resultaat voor hele dataset is wat slechter:grafeemniveau:-1.6% woordniveau:-2.6%resultaat voor OOVs is lichtjes beter:grafeemniveau:+0.5%(1.6% winst)woordniveau:+0.7%(10.1% winst)concreet:8903 OOVs 680 (vs. 611) correct geconverteerd

  • (I.b) Dataset met meer OOVsaantal OOVs is klein:9k OOVs 120k niet-OOVsnieuwe dataset maken:elke OOV komt 2x voorelke niet-OOV slechts 1xhypothese: memory based learner wordt meer getraind op de eigenaardigheden van de OOVs

  • (I.b) Dataset met meer OOVsresultaten van 10-fold cross-validation experimenten:

    IB1-IGIGTREEk=1k=3k=5Volledige datasetGrafeem-niveau76.076.575.776.1Woord-niveau46.142.538.646.1OOVs in datasetGrafeem-niveau59.963.763.960.8Woord-niveau6.27.05.36.3

  • (I.b) Dataset met meer OOVsenige vooruitgang bij resultaten voor de OOVs: +0.1% op woordniveaulichte achteruitgang bij resultaten voor hele datasetmemory based learner is niet beter getraind op OOVs:aantal OOVs verdrievoudigen, ?waarschijnlijk weinig regelmatigheden in OOVs

  • (I.c) Optimalisatie algoritmebepaal default score:IB1-IG, k = 1 en weighting = gain ratioeen exhaustive search naar de beste settings voor:weighting: w = { gain ratio, info gain, chi-squared of shared variance }nearest neighbours: k = { 1, 3, 5, 7, 9, 11, 13, 15 }class voting type (Timbl4): z = { majority voting, Inverse Distance weighting, Inverse Linear weighting, Exponential Decay weighting }

  • (I.c) Optimalisatie algoritmestart algoritme:default score = 76.2 %resultaat:setting voor weighting = gain-ratiosetting voor nearest neighbours = 5setting voor class voting type = Inverse Distance weightingeind score = 77.8 % op grafeemniveau voor hele dataset

  • (I.d) SpellingcorrectieiSpell (Unix/Linux) als spellingcorrector (114k woorden + lijst met affixen)output van iSpell:woorden gelabeld als correct of foutief gespeldfoutief gespelde woorden vaak een lijst met alternatievenspellingcorrector van Microsoft (groter vocabularium) niet te automatiseren

  • (I.d) Spellingcorrectieresultaat met iSpell:input = conversies voor OOVs in dataset met minder deleties, met IB1-IG en k=3 (woord-accuraatheid = 6.9%):verlies in accuraatheid door correct voorspelde woorden gemarkeerd als foutief -1.4%winst (alleen 1ste suggestie) +2.4%winst (eerste 3 suggesties) +4.1%winst (alle suggesties) +4.8%woord-accuraatheid kan stijgen tot min. 7.8%, max. 10.3%

  • (II) Verdere fouten-analysehypothese: TIMBL kan zich aanpassen aan de fouten van de foneemherkennerin hoeverre gebeurt dit?vergelijking met frequentie-gebaseerde methode:foneem omzetten naar meest voorkomende grafeem voor dat foneem

  • (II) Verdere fouten-analysevergelijking: TIMBL frequentie-gebaseerd:TIMBL 130% winst tov. frequentie-gebaseerd methode

    frequentie-gebaseerdIB1-IG, k = 5Volledige datasetGrafeem-niveau70.577.4Woord-niveau30.046.5OOVs in datasetGrafeem-niveau60.263.3Woord-niveau3.06.9

  • (III) Interactie met confidence measures (ESAT)experiment met afzonderlijke test-set (3.6k woorden)accuraatheid op woordniveau = 55.2%7.9% voor OOVs19.2% op herkenningsfouten59.9% voor niet-OOVstest-set bevat 14.7% herkenningsfouten75% kan correct gelabeld worden als onzekerslechts 10% van de correcte woorden foutief gelabeld

  • (III) Interactie met confidence measures (ESAT)veronderstelling:75% correct gelabeld als onzeker omgezet met 7.9% woord-accuraatheid10% foutief gelabeld als onzeker omgezet met 59.9% woord-accuraatheidmaar leesbaarheid is verbeterd:41.7 % van de herkenningsfouten wordt omgezet met ten hoogste 1 fout per woord62.6 % met ten hoogste 2 foutenaantal herkenningsfouten stijgt van 14.7 % naar 16.0 %!

  • (III) Interactie met confidence measures (ESAT)gespreksonderwerp /[email protected]@[email protected]@/spraakherkennergesprek zonder werkF2G-omzettergespreksonberwerpspeelgoedmitrailleur /sperGutnitrKj-yr/spraakherkennerspeelgoed moet hierF2G-omzetterspergoetmietrijer

  • Conclusiestwee optimalisatie-oplossingen zijn effectief:dataset met minder deletiesspellingcorrectie zou beter kunnen met taakspecifieke correctorTIMBL leert uit fouten van foneemherkennerparameter optimalisatie: weighting = Gain Ratio, nearest neighbours = 5, class voting type = Inverse Distance weighting