INTRODUCCIÓN A LAS TECNOLOGÍAS DEL HABLAlfdharo/Papers/IntroTecHabla_2002.pdfINTRODUCCION A LAS...
Transcript of INTRODUCCIÓN A LAS TECNOLOGÍAS DEL HABLAlfdharo/Papers/IntroTecHabla_2002.pdfINTRODUCCION A LAS...
Cali / Agosto 14 de 2002 CUAO – Seminario: Internacional Avances y Tendencias en Electrónica
INTRODUCCIÓN A LAS TECNOLOGÍAS DEL HABLA
Presentado por: Luis Fernando D´Haro
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Contenido
n Introducción y perspectiva histórican Campos de aplicaciónn Retos de las Tecnologías del Hablan Futuro de las T.Hn Conclusiones
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Definición de T.H
Procesos necesarios para realizar una interfaz oral, es decir, aquella que nos permita comunicarnos con una máquina o en la comunicación entre personas.
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Introducción
Necesidad de comunicación hombre-máquinaDisminución de costos de Tx – RxAyudas a personas con discapacidadSistemas de autenticaciónFacilitar el intercambio de información
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Perspectiva Histórica
Fundamentos Matemáticos
Fundamento Estadístico
1800
1791 Sintetizador
de Von Kempelen
1900 2000
AIBO - SDR
1600 1700 1948 1960
HMM
Shanon
1939
Voder
∫
∫
−
∞
∞−
−
=
=
π
ππdwewXtx
dtetxwX
jwt
jwt
)(21
)(
)()(
1946
1970
ARPA
1980
1990
SW
1950
Lab. Bell
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Esquema del Voder
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Tecnologías Básicas
ü Codificación de Vozü Síntesis de vozü Reconocimiento automático del hablaü Verificación o identificación de locutor
ü Identificación de idiomas
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Tipos de Aplicaciones
n Locales:
Discapacitados: lectura, dictado, procesos ágiles.
Generación de reportes, trabajos, informes.
Aplicaciones multimedia
Aprendizaje de idiomas
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Tipos de Aplicacionesn Respuestas vocales
interactivas: Reemplazo al DTMF
n Difusión de Información: Noticias, info. Bursátil.
n Captura de Información: Votaciones, compras por teléfono
n Sistemas de Dialogo: Iniciativa del sistema, usuario o mixta.
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Tipos de AplicacionesAutomatización de sistemas telefónicos: correo electrónico, mensajería integrada.Marcación vocal (manos libres)Directorio públicoIdentificación de abonadoDespertadorCobros revertidos
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Codificación de Vozn Finalidad: Compresión de la información de
la señal de voz para Tx o Almacenar economizando BW del canal o del soporte de almacenamiento
n Conversión Análoga – Digitaln Factor de compresión: Frecuencia de
muestreo (Banda), Número de Bits, Canales.n Codificación: Ley A, Ley µ, PCM, ADPCM,
MP3, LPC, CELP.n Conversión Digital - Análoga
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Síntesis de Vozn Finalidad: Réplica sintética de una señal
de voz para Tx un mensaje desde una máquina.
n Campos: Suministrar información variable o elevada.
n Beneficio: Sistemas amigablesn Bajo almacenamiento (reducción de
más de 200 veces si ADPCM)
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Esquema de un CTV
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Sintesis de VozTipos: Articulatorios, Paramétrico o por Formantes, Concatenación de onda, Visual.Unidades: Fonemas, difonemas, trifonemas, demisilabas, silabas, palabras, morfemas.
Conocimientos: Fonéticos, Ortográficos, Fonológicos, TDS.Ventaja del español: Correspondencia Fonema – GrafemaReglas de trascripción
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Reconocimiento de Vozn Finalidad: Identificación
de las palabras y estructuras lingüísticascomplejas que forman el lenguaje hablado.
n Tipos: Dependiente/Independiente de Locutor
n Habla aislada/Habla continua
n Dominio restringido/abierto (flexible?)
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Reconocimiento de Voz
n Algoritmos: DynamicTime Warping (DTW)
n Hidden Markov Models: Discretos,semicontinuos y continuos.
n Modelos de Lenguaje: N-gramas.
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Identificación del LocutorIdentificación del Locutor: Determinar que usuario registrado es el que habla.Verificación del Locutor: Aceptación o rechazo de una identificación dada.Aplicaciones: Control de acceso a servicios de voz, compras, bases de datos, correo de voz, control de seguridad.Problemas: Grabaciones. Tasas de aceptación falsas, tasa de rechazo verdadero.
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Identificación del Locutor
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Dificultades de las T.Hn Variabilidad acústica
de la voz y de los sonidos del habla.
n Ruidos externos y de las personas.
n Parámetros insuficientes para el modelado?
n Bases de datos
n Reducción del tiempo de procesamiento Vs Algoritmos y Tamaño del vocabulario y modelos.
n Idiomas.
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Futuro y Retos de las T.HCompresión: Disminuir la tasa sin perder naturalidad.Bajo coste computacional (RT)
Síntesis:NaturalidadEmotividad
§ Reconocimiento:Independencia de locutor, vocabulario (tarea), idioma.
Identificación de Locutor:Engaños con grabaciones
Cali /Agosto 14 de 2002 CUAO - Seminario: Avances y Tendencias en la Electrónica – Luis Fernando D´Haro
Conclusiones
n Diversos campos de aplicaciónn Amplias posibilidades de desarrollon Explotación – Limitaciónn Desarrollos con IA y DSP (SW, HW)n Trabajo multidisciplinarn Español: Facilidad de reglas, pocos
desarrollos, comunidad grande