0% encontró este documento útil (0 votos)

49 vistas28 páginas

Ciencia, Docencia y Tecnología 0327-5566: Issn: Cdyt@uner - Edu.ar

El artículo presenta un sistema de reconocimiento automático del habla en español, desarrollado mediante un enfoque multidisciplinario que incluye fonética, lingüística e inteligencia artificial. Se describen las etapas del sistema, que abarcan el procesamiento de la señal, la clasificación de fonemas y el modelado del lenguaje, así como las complicaciones inherentes al reconocimiento del habla. A pesar de los avances, el artículo destaca que aún existen desafíos significativos para la implementación masiva de estos sistemas.

Cargado por

jhos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

49 vistas28 páginas

Ciencia, Docencia y Tecnología 0327-5566: Issn: Cdyt@uner - Edu.ar

Cargado por

jhos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Ciencia, Docencia y Tecnología

ISSN: 0327-5566
cdyt@[Link]
Universidad Nacional de Entre Ríos
Argentina

Rufiner, Hugo L.; Milone, Diego H.

Sistema de reconocimiento automático del habla
Ciencia, Docencia y Tecnología, vol. XV, núm. 28, mayo, 2004, pp. 151-177
Universidad Nacional de Entre Ríos
Concepción del Uruguay, Argentina

Disponible en: [Link]

Cómo citar el artículo

Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en [Link] Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Ciencias Exactas y Naturales, Ingenierías y Tecnologías
Investigación

Sistema de reconocimiento automático del ha-

bla*
Hugo L. Rufiner**, Diego H. Milone

Este trabajo es el resultado de un emprendimiento multidisciplinario en el

que se utilizaron herramientas de fonética, fisiología del oído y de la per-
cepción auditiva, lingüística, gramática, redes neuronales, modelización,
electrónica analógica y digital, computación e inteligencia artificial. Los
objetivos principales fueron la investigación y el desarrollo de sistemas de
reconocimiento automático del habla en idioma español, capaces de brin-
dar una salida de texto escrito para ser utilizada en un procesador de tex-
tos o como entrada de comandos en programas convencionales o
interfaces gráficas. Un sistema completo para el reconocimiento automá-
tico del habla puede ser dividido en una etapa de procesamiento de la
señal, una de clasificación de fonemas y una de modelado del lenguaje.
El primer bloque realiza un procesamiento de la señal de habla, acondi-
cionándola y haciendo un análisis espectral-temporal. Luego, la etapa de
clasificación procesa la secuencia de espectros para devolver una cadena
de símbolos que corresponden a la secuencia de fonemas o dífonos emi-
tidos. El último módulo consiste en un analizador destinado a descifrar
las palabras y frases contenidas en las cadenas de símbolos pseudo foné-
ticos emitidas por el módulo anterior. En este artículo se revisan las diver-
sas líneas investigadas en torno a esos tres módulos básicos.

Palabras clave: reconocimiento automático del habla - interfaces hombre-má-

quina - inteligencia artificial - señal de voz (procesamiento y análisis)

*) Artículo que expone resultados del proyecto de investigación Cód. 6063, desarrolla-
do durante 1995-2001 en la Facultad de Ingeniería, financiado por la SICTFRH, UNER;
Informe Final aprobado por Res. “CS” Nº 035/03; recibido en mayo 2003 y aceptado en
marzo 2004.
**) Bioingeniero, [Link]., Profesor Adjunto Ordinario en Bioingeniería I ,
[Link]ía, Director del proyecto. E-mail: lrufiner@[Link]

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 151
RUFINER H. y col.

I. Introducción

Uno de los aspectos que mayor importancia ha cobrado en el desa-

rrollo de equipos y programas de computación es la comunicación con
el usuario. Hasta el presente se ha hecho uso exclusivo del lenguaje escri-
to: utilización del teclado y mensajes impresos. Aparejadas a la facilidad
de su utilización, las interfases orales ofrecen muchas otras ventajas para
la comunicación con la computadora. Una es la velocidad: la mayor par-
te de la gente puede pronunciar más de 200 palabras por minuto, mien-
tras que muy pocas pueden tipear más de 60 palabras en el mismo tiem-
po. Mediante el habla también se podrían eliminar algunas de las limita-
ciones físicas de la actual interacción hombre-máquina: se podría contro-
lar una computadora mientras se trabaja en la oscuridad o sin sentarse al
teclado. El reconocimiento automático del habla (ASR: del inglés Automatic
Speech Recognition) puede permitirle a los usuarios utilizar una computa-
dora en lugares o situaciones en los que sería imposible o peligroso ha-
cerlo en el modo convencional.
A continuación, como parte de esta introducción, se realizará una bre-
ve reseña histórica y se revisarán las etapas básicas de las que consta un
sistema considerado el «estado del arte» en ASR. Luego se introducirá a
la complejidad del problema y, basándose en esto, se definirán los distin-
tos tipos de sistemas de ASR que existen en la actualidad. En la Sección
II se presentarán las diferentes alternativas investigadas, con una breve
referencia a los resultados obtenidos en cada caso. En la Sección III se
describirán brevemente las bases de datos que se utilizaron para evaluar
el desempeño de los sistemas de ASR, cerrando en la Sección IV con las
conclusiones globales de este trabajo.

I.1 Breve reseña histórica

Los primeros intentos de desarrollo de sistemas de ASR datan de los

años 50. Estos primeros trabajos abordaban el reconocimiento de un vo-
cabulario reducido, del orden de 10 palabras, emitidas por un único locu-
tor. La década de los 60 marca el inicio de tres proyectos que han tenido
gran repercusión en el área. Estos proyectos fueron desarrollados por
Martin (RCA Labs.), en el campo de la normalización de la voz; Vintsyuck
(URSS), en métodos de programación dinámica, y Reddy (CMU), quien

152 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

realizó los primeros trabajos en reconocimiento de voz continua. En la

década de los 70 se hicieron viables los sistemas de reconocimiento de
palabras aisladas. En esta década, los sistemas de reconocimiento esta-
ban basados en los métodos de programación dinámica. Sin embargo,
en los 80 se produce un desplazamiento de estos métodos en favor de
los modelos ocultos de Markov (HMM: del inglés Hidden Markov Models),
ampliamente utilizados en la actualidad. También se comienzan a utilizar
algunas aproximaciones basadas en redes neuronales. En la actualidad
existen varios sistemas de ASR, algunos de los cuales están ya siendo
comercializados. Se pueden destacar los denominados SPHINX (CMU),
BYBLOS (BBN), Dragon Dictate (Dragon Systems) y Naturally Speaking
(IBM). La mayoría de estos sistemas están basados en HMM o su versión
híbrida con redes neuronales y llegan a un reconocimiento del orden del
95%, en discurso continuo, para un único hablante, con un micrófono de
buena calidad y en un ambiente de bajo ruido. A diferencia del ser huma-
no, en otras condiciones el desempeño los sistemas de ASR se degrada
rápidamente. Desde el punto de vista práctico esto implica que, a pesar
de los avances logrados, aún quedan muchos problemas por resolver para
la aplicación masiva de los sistemas de ASR.

I.2 Etapas de un sistema de ASR

La estructura general de los sistemas de ASR tiene esencialmente tres

Figura 1
módulos o etapas (Figura 1):
1. Procesamiento o análisis del habla (en inglés se conoce como front-
end): en esta etapa se realiza algún tipo de análisis de la señal de voz en
términos de la evolución temporal de parámetros espectrales (previa con-
versión analógica/digital de la señal). Esto tiene por función hacer más
evidentes las características necesarias para la etapa siguiente y a veces
también limpiar y reducir la dimensión de los patrones para facilitar su
clasificación.
2. Clasificación de unidades fonéticas o modelo acústico: esta etapa
clasifica o identifica los segmentos de voz ya procesados con símbolos
fonéticos (fonemas, dífonos o sílabas). A veces se puede asociar una pro-
babilidad con este símbolo fonético, lo que permite ampliar la informa-
ción presentada al siguiente módulo.
3. Análisis en función de reglas del lenguaje o modelo del lenguaje:

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 153
RUFINER H. y col.

en esta última etapa se pueden aprovechar las reglas utilizadas en la co-

dificación del mensaje contenido en la señal para mejorar el desempeño
del sistema y producir una transcripción adecuada. Aquí se utilizan otras
fuentes de conocimiento como la ortográfica, la sintáctica, la prosódica,
la semántica o la pragmática.

I.3 Complicaciones propias del ASR

A pesar de la sencillez que parece presentar el problema del habla

para los humanos, el estudio de la misma muestra, de forma inmediata,
una enorme complejidad. En ella aparecen mezclados varios niveles de
descripción, que interactúan entre sí. De esta forma, el problema del ASR
presenta una naturaleza interdisciplinaria, y para solucionarlo es necesario
aplicar técnicas y conocimientos procedentes de las siguientes áreas
Rabiner y Juang
(Rabiner Juang, 1993): procesamiento de señales, física (acústica), re-
conocimiento de patrones, teoría de la información y comunicaciones, lin-
güística, fisiología, informática y psicología. Además de la
interdisciplinariedad expuesta, existen algunos aspectos prácticos relacio-
nados con el habla que hacen del ASR una tarea difícil. Estos se pueden
agrupar en seis categorías (V Varile y Zampolli
Zampolli, 1995):
1. Continuidad: en el lenguaje natural no existen separadores entre las
unidades, ya que no existen silencios, en algunos casos, ni entre las pala-
bras.
2. Dependencia del contexto: cada sonido elemental en los que se
puede dividir el habla (fonema) es modificado por el contexto en el que
se encuentra. De esta forma, se produce el efecto denominado
coarticulación, según el cual los fonemas anterior y posterior a uno dado
modifican el aspecto del mismo. Aparecen también efectos de orden su-
perior, dependiendo la pronunciación de un fonema, de su situación en
una palabra o incluso en una frase.
3. Variabilidad: se pueden distinguir dos tipos de variabilidad. La va-
riabilidad intra-hablante está relacionada con las modificaciones introduci-
das por un mismo hablante sobre diferentes pronunciaciones de los mis-
mos fonemas o palabras. Incluso en idénticas condiciones, cada pronun-
ciación presentará diferencias con las restantes debido a la diferente dura-
ción temporal. La variabilidad inter-hablante se debe a aspectos relacio-
nados con el locutor y el entorno, ya que la señal obtenida dependerá de

154 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
Señal Señal Análisis Secuencia Transcripción
Analógica Digital de la Unidades final
Señal Fonéticas

Etapa de Etapa Etapa de

A/D Análisis y Acústico Análisis del
Procesamiento Fonética Lenguaje
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

Gramática

oolaa Prosodia

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004

:
Ortografía

Figura 1. Componentes de un sistema de ASR típico

(151-177)
155
RUFINER H. y col.

los dispositivos utilizados en su captación, del entorno donde se obtiene

y, principalmente, de aspectos anatómicos particulares del aparato fonador
de cada hablante.
4. Necesidades de almacenamiento: debido a las causas anteriores,
se hace necesario procesar y almacenar grandes cantidades de datos.
5. Estructuración: la misma señal contiene información sobre varios
niveles de descripción. De esta forma, una frase puede ser descrita en el
nivel semántico, sintáctico o fonético. Por otra parte, una señal de voz
contiene información sobre el locutor que la emite. Así, es posible distin-
guir el sexo y la identidad de la persona a partir de la propia señal. Un
sistema de ASR tendría que determinar qué información de las citadas es
de interés para lograr su objetivo.
6. Inexistencia de reglas de descripción y redundancia: no existen
reglas precisas capaces de describir los diferentes niveles en los que se
presenta la información. Es más, cada uno de los niveles citados anterior-
mente aparece fuertemente relacionado con los demás, dificultando el
análisis de la voz.

I.4 Tipos de reconocimiento

Los factores expuestos en el apartado anterior hacen inviable todavía

la posibilidad de abordar el problema del ASR de forma global. Se hace
necesario, por consiguiente, establecer hipótesis simplificadoras que res-
trinjan el campo de aplicación del sistema. De esta forma se introducen
restricciones sobre diferentes aspectos de la señal de voz a reconocer,
como pueden ser el número y tipo de los locutores, tamaño del vocabu-
lario, etc. Atendiendo a las restricciones impuestas, los sistemas de ASR
pueden clasificarse según varios criterios.
1. En función del hablante: según los grupos de locutores que se uti-
lizan en el entrenamiento y evaluación del sistema, se pueden distinguir
tres tipos de reconocedores. En los reconocedores monolocutor el siste-
ma se entrena y evalúa para un único hablante. En los reconocedores
multilocutor el entrenamiento y evaluación se realiza sobre el mismo con-
junto de locutores. Finalmente, en los reconocedores independientes del
hablante, la evaluación del sistema se efectúa sobre un conjunto de locu-
tores diferente del utilizado para entrenarlo.
2. En función de la manera de hablar y la aplicación: de acuerdo con

156 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

el tipo de locución requerido para el funcionamiento adecuado del siste-

ma existen los siguientes seis tipos. En los reconocedores de palabras
aisladas (IWR, Isolated Word Recognition) el reconocimiento se realiza
sobre palabras completas emitidas de forma aislada entre sí. En los
reconocedores de palabras conectadas (CWR, Connected Word
Recognition) se utiliza también a las palabras como unidades de recono-
cimiento, pero éstas pueden ser emitidas secuencialmente con pausas
entre ellas. Los reconocedores de voz o discurso continuo (CSR,
Continuous Speech Recognition) realizan la tarea atendiendo a unidades
inferiores a la palabra (fonemas, dífonos, etc.) y sobre frases completas,
sin necesidad de establecer silencios entre las palabras que las constitu-
yen. Los reconocedores de voz para programas de noticias deben traba-
jar con habla espontánea pero producida por un locutor profesional en
algún tipo de estudio de radio o televisión. En los reconocedores de pa-
labras clave (Word Spotting) la locución suele ser cuidadosa, aunque no
es una condición ya que su finalidad es la detección (o reconocimiento)
de las palabras clave contenidas en el vocabulario. Los reconocedores de
habla espontánea (SSR, Spontaneous Speech Recognition) buscan resol-
ver el caso más complicado, ya que aquí suelen no respetarse algunas
reglas del lenguaje, e inclusive es muy probable que en la señal aparez-
can eventos acústicos diferentes al habla, como la tos, el estornudo, el
hipo, etc.
3. En función de las distorsiones de la señal: también se pueden te-
ner en cuenta las distorsiones producidas en la señal de voz por distintos
factores. De esta forma podemos separar a los reconocedores en dos ti-
pos. Los reconocedores de habla limpia son aquellos entrenados y pro-
bados en condiciones de laboratorio mientras que los reconocedores ro-
bustos (RSR, Robust Speech Recognition) permiten su utilización en am-
bientes reales, donde varios factores complican la tarea (ruido, reverbera-
ción, canal de transmisión, etc.).

II. Avances en reconocimiento automático del habla

Para este trabajo, la metodología general consistió en la propuesta,

ajuste y evaluación sistemática de diferentes alternativas para cada una de
las etapas del sistema, según se describió anteriormente. Se realizaron
experimentaciones numéricas en computadora para determinar el desem-

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 157
RUFINER H. y col.

peño de cada una de estas alternativas. Esto se completó con un registro

exhaustivo y sistemático de los resultados de dicha experimentación, para
poder compararlos con los obtenidos en cualquier etapa posterior y con
el «estado del arte» en ASR. Para el desarrollo de este artículo se eligie-
ron las técnicas que mostraron un mejor desempeño para cada etapa,
teniendo también en cuenta la fiabilidad, el costo de implementación y la
velocidad. A continuación describimos sintéticamente cada una de ellas.

II.1 Etapa de procesamiento del habla

En la práctica, la mayoría de las señales se encuentran en el dominio

del tiempo. Esta representación no siempre es la más apropiada cuando
se tiene por objetivo su procesamiento para el ASR. En muchos casos, la
mayoría de la información distintiva se encuentra oculta en el contenido
frecuencial de la señal o en alguna otra forma de representación. La etapa
de procesamiento convierte la señal de voz en algún tipo de representa-
ción paramétrica (generalmente con una cantidad de información consi-
derablemente menor pero significativa) para su análisis posterior. Se su-
pone que cuanto mejor sea el proceso utilizado para generar los patrones
a utilizar, estos son más fáciles de identificar por el clasificador. Probable-
mente, la representación paramétrica más importante de la voz es la en-
volvente espectral de corta duración. Por lo tanto, los métodos de análi-
sis espectral son generalmente considerados el núcleo de la etapa de
procesamiento de señales en un sistema de ASR. Más recientemente co-
menzaron a considerarse enfoques basados en otro tipo de representa-
ciones y son a los que se ha dado mayor énfasis en este trabajo. Las
técnicas de procesamiento del habla exploradas pueden resumirse en:

1. Análisis Tradicional:
1.1 Fourier (STFT, Short Time Fourier Transform)
1.2 Cepstra (CC, Cepstral Coefficients)
1.3 Mel cepstra (MFCC, mel Frequency CC)
1.4 Delta mel cepstra (MFCC+D)
2. Modelos de oído
3. Análisis mediante onditas (WT, Wavelet Transform):
3.1 Transformada ondita Discreta Diádica (DWT, Discrete WT)
3.2 Paquetes de onditas (WP, Wavelet Packets)

158 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

3.3 Paquetes de onditas orientados perceptualmente (POWP,

Perceptualy Oriented WP)
3.4 Paquetes evolutivos de onditas (EWP, Evolutive Wavelet Packets)
4. Representaciones ralas (SR, Sparse Representations): WP como
diccionarios para lograr SR (WPSR)
5 Análisis no lineal: medidas de complejidad y entropía (CM, Complex-
ity Measures).
6. Técnicas de Adaptación:
6.1 Filtrado óptimo probabilístico (POF, Probabilistic Optimum Filter-
ing).
6.2 Filtrado mediante redes neuronales (ANNF, Artificial Neural Networks
Filtering).

II.1.1. Procesamiento tradicional

Las técnicas de procesamiento tradicional fueron estudiadas e

implementadas a lo largo de todas las etapas de la investigación. A partir
de la mejor de todas las alternativas evaluadas (MFCC+D) se construyó
la etapa de procesamiento para el sistema de referencia utilizado en los
experimentos.

II.1.2. Modelos de oído

El objetivo de esta exploración consistió en encontrar una técnica de

procesamiento óptima que permita conseguir un mecanismo de
codificación (de la información contenida en la señal de voz) robusto e
independiente de características individuales de los hablantes. En estudios
preliminares se propusieron las primeras alternativas para las diferentes
etapas de un sistema de ASR: transformada de Fourier para la etapa de
procesamiento, redes neuronales con retardos para la acústico-fonética y
sistemas expertos para la de análisis del lenguaje. Sin embargo, estas
etapas no se integraron completamente y el enfoque tenía problemas para
ser escalado a situaciones más complejas que la planteada originalmente.
Posteriormente se encaró un enfoque más biológico de la etapa de
Rufiner
procesamiento, utilizando modelos de oído (Rufiner
Rufiner, 1994). Aunque el
tiempo de cálculo de estos últimos resultaba prohibitivo, su semejanza con
el análisis basado en onditas y las atractivas características teóricas de

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 159
RUFINER H. y col.

estas últimas nos llevaron a explorar en años posteriores este tipo de

análisis.

II.1.3. Onditas

Las onditas aparecen a principios de los 90 constituyendo una

alternativa atractiva por su carácter intrínsecamente transitorio. Sin embargo
los intentos por superar definitivamente a las técnicas del estado del arte
no han sido provechosos todavía, por lo menos en lo que hace a su
integración con sistemas basados en HMM. Aunque posteriormente
volveremos sobre este tema, se debe recalcar que los módulos no son
tan independientes como se puede pensar en principio, por lo tanto los
resultados dependen en realidad de todas las etapas implicadas, su
interacción y su ajuste. El escaso éxito de las onditas en este campo queda
demostrado parcialmente por la escasa cantidad de publicaciones en que
se emplea esta herramienta para el ASR. Entre 1991 y 1994 aparecieron
sólo algunos pocos trabajos, la mayoría de ellos en anales de congresos.
En muchos de estos trabajos se reportan algunas mejoras con respecto al
procesamiento tradicional, que no suelen ser significativas, y por lo tanto
esta técnica no logra desplazar a los enfoques más clásicos (como MFCC).
Los resultados de nuestras investigaciones coinciden con los obtenidos
por la comunidad de ASR.
Se realizó la comparación entre el análisis basado en onditas y el
basado en la transformada de Fourier (Rufiner Rufiner
Rufiner, 1996). A pesar de sus
atractivas cualidades para el procesamiento de señales transitorias, la
comparación fue desfavorable para las onditas (en realidad se exploró
principalmente el caso de la DWT, en contraste con la STFT). Durante esta
comparación, se advirtió la multiplicidad de facetas que presentaba este
tipo de representaciones relacionadas con onditas (elección del tipo de
transformación, familia de onditas, parámetros, etc.), y la dificultad de
brindar una respuesta definitiva acerca de cuál es la mejor alternativa para
esta aplicación. Posteriormente se continuó la exploración de la aplicación
de onditas, tratando de superar algunos de los problemas detectados,
como el de conseguir una adecuada resolución frecuencial en la zona de
las frecuencias bajas. Para ello se recurrió a diferentes aproximaciones
derivadas de los WP que mejoraron notablemente el desempeño de esta
Gamero y Rufiner
etapa con respecto a la DWT (Gamero Rufiner, 1998; Torres y Rufiner
Rufiner,

160 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

1998). Los WP, son considerados como una extensión del clásico análisis
multirresolución (MRA). Este esquema MRA, propuesto por Mallat (1999),
ha sido ampliamente utilizado en aplicaciones tales como: compresión,
eliminación de ruido, caracterización de singularidades y detección de no
estacionariedades en el análisis de señales e imágenes. Entre estas
aproximaciones desarrolladas por nuestro grupo alrededor de WP
podemos citar:
- Paquetes de onditas orientadas perceptualmente: se diseñó un banco
de filtros de manera que la base realice un análisis similar al que realiza
el oído.
- Paquetes evolutivas de onditas: esta estrategia constituye una
alternativa que permite encontrar la base óptima para un problema
de clasificación determinado.
Luego del ajuste de distintos parámetros, las pruebas con algunas
familias de onditas como Symmlets, y, en particular para los experimentos
realizados con POWP, se obtuvieron resultados comparables a los
obtenidos mediante MFCC+D (aunque no se ensayaron todos los casos
posibles). Los EWP son muy promisorios pero requieren todavía la solución
de algunas cuestiones de implementación práctica ya que necesitan de
mucho tiempo de cálculo para lograr resultados. En este sentido se
modificó el algoritmo genético desarrollado originalmente de forma tal de
maximizar las distancias entre fonemas (en lugar de utilizar directamente
un clasificador que requería más recursos de cómputo). Los parámetros a
optimizar fueron: la utilización o no de la integración por bandas, el
coeficiente de pre-énfasis, el tipo de ventana, la familia de onditas,
parámetros de la ondita, y el árbol de filtros de la WP. De esta forma se
pudieron atacar problemas un poco más grandes pero todavía no del
tamaño necesario para nuestra aplicación. Posteriormente se continuó con
el trabajo simplificando algunas hipótesis, entre ellas la necesidad de una
Sigura
representación ortogonal (Sigura
Sigura, 2001). La restricción acerca de la
ortogonalidad es, en realidad, un tanto forzada por consideración de
simplificación matemática y se había venido respetando históricamente, a
pesar de no existir evidencias físicas o fisiológicas de su necesidad.

II.1.4. Representaciones ralas

Se puede decir que el enfoque tomado en nuestros trabajos sobre la

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 161
RUFINER H. y col.

etapa de procesamiento está sin duda influenciado por la teoría y las ideas
detrás de la WT. Una de las actividades actuales es extender los resultados
anteriores mediante WP e investigar sobre la posibilidad de encontrar una
base, no necesariamente ortogonal, que maximice algún criterio
(clasificación, dispersión, independencia, etc). Recientemente se han
encontrado conexiones interesantes entre el análisis de señales mediante
bases sobrecompletas y la manera en la que el cerebro parece procesar
algunas señales sensoriales. Este tipo de análisis puede dar
representaciones que poseen muy pocos elementos activos o diferentes
de cero, o sea sumamente ralas. Esta es una característica que comparten
los sistemas sensoriales biológicos, y hace que la información sea
fácilmente codificable en términos de trenes de pulsos o espigas. Existen
varios métodos que permiten encontrar una representación rala de una
señal si se posee una base sobrecompleta adecuada. Asímismo, se pueden
diseñar los elementos de estas bases a la medida del tipo de “pistas” que
se pretenden encontrar en la señal, o buscar automáticamente la base o
diccionario que satisfaga algún criterio particular. Las representaciones ralas
poseen también una robustez intrínseca al ruido aditivo, cuando este no
pueda ser expresado fácilmente en términos de los elementos de la base.
Recientemente hemos iniciado el estudio del comportamiento de estas
Rufiner y cols
técnicas para señales sintéticas (Rufiner cols., 2001; Rufiner y cols
cols.,
2002), pero hay relativamente poco trabajo realizado en señales del mundo
real.

II.1.5. Medidas de complejidad

Otra línea explorada fue la aplicación de técnicas de análisis no lineal

de señales al caso del habla. La idea original surge a partir de publicaciones
que sugieren que el mecanismo de producción de la voz podría ser un
proceso no lineal. Este hecho ha generado gran interés en el área y ha
inducido la investigación de la existencia de atractores caóticos de baja
dimensión en la voz. En particular se trabajó sobre las relaciones entre
diagrama espectral y caos, y en la reconstrucción de un atractor dada una
serie temporal. Varios trabajos de índole general que se desarrollaron en
conjunto con integrantes del Laboratorio de Dinámicas no lineales y
Señales (TTorres y cols., 1995; Gamero y cols., 1997), fueron dando las
bases para la aplicación directa de estas ideas en el campo del ASR.

162 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

Finalmente se implementaron e integraron diferentes medidas de

complejidad a un sistema de ASR del “estado del arte” basado en MFCC
y HMM, demostrándose así el aporte de esta información para mejorar el
Rufiner y cols
ASR en condiciones de ruido elevado (Rufiner cols., 2004). También se
utilizaron CM para segmentar el habla según se explica más adelante.

II.1.6. Técnicas de adaptación

El filtrado óptimo probabilístico constituye una técnica de limpieza de

ruido en el dominio de las características extraídas de la señal de habla
continua, con el fin de implementar sistemas de RSR para habla continua.
El POF constituye un mapeo multidimensional lineal por tramos entre el
espacio de las características de las señales ruidosas y el de las señales
limpias. Para la estimación del filtro probabilístico se requiere tener
muestras apareadas de las señales con y sin ruido. Las ANN constituyen
aproximadores universales de funciones arbitrarias y por lo tanto se
convierten en una alternativa interesante para la solución de este problema.
Estas estructuras permiten el mapeo directo entre ambos espacios de
manera no lineal, lo que constituiría un verdadero filtro no-lineal. Se realizó
una comparación entre ambos métodos sobre un conjunto de datos
tomados del Corpus de habla continua en español LATINO 40 (ver Sección
3). Estos datos se mezclaron con ruido blanco obtenido de la base
NOISEX en diferentes proporciones. Las señales filtradas mediante ambos
métodos se pasaron a través de un reconocedor basado en HMM
continuos de mezclas gaussianas, entrenados con habla limpia de la misma
base de datos, para confrontar los niveles de reconocimiento de ambas
técnicas y compararlos también con los casos extremos (habla limpia y
habla ruidosa). En estos experimentos POF se comportó mejor que las
ANN, aunque existen trabajos recientes donde luego de cambiar la regla
de aprendizaje de estas últimas se logran muy buenos resultados.

II.2. Etapa de clasificación de unidades fonéticas

Como se explicó anteriormente, el objetivo de esta etapa consiste en

obtener una representación de la señal de voz como una cadena de
símbolos asociados con los eventos acústico-fonéticos. Para ello existen
varias alternativas, de las cuales en la presente investigación se analizaron

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 163
RUFINER H. y col.

las siguientes:
1. Técnicas tradicionales:
1.1 Modelos ocultos de Markov (HMM, Hidden Markov Models)
1.2 Árboles de decisión (DT, Decision Trees)
2. Redes neuronales artificiales:
2.1 Perceptrones multicapa (MLP, Multi-Layer Perceptrons)
2.2 Redes neuronales con retardos temporales (TDNN, Time Delay NN)
2.3 Redes neuronales recurrentes (RNN, Recurrent NN)
3. Otras:
3.1 Máquinas con soporte vectorial (SVM, Support Vector Machines)
3.2 Técnicas híbridas

Dado que gran parte de los trabajos iniciales se realizaron en torno la

utilización de ANN para el ASR, se puede consultar una extensa revisión
del tema en Milone
Milone, 2001. A continuación presentaremos la forma en la
que se exploró cada técnica tratando de seguir un orden lógico en el
tratamiento.

II.2.1. Obtención de un MPL a partir de un DT

Dos de los métodos de aprendizaje maquinal más ampliamente

utilizados en tareas de clasificación son los DT y las ANN. En el caso de
las ANN la arquitectura más utilizada son los perceptrones multicapa (MLP).
A partir de experiencias previas en la utilización de MLP para
Rufiner
reconocimiento de fonemas (RufinerRufiner, 1994), en esta primer etapa se
analizaron los distintos métodos de creación de DT y un método para
implementar un MLP a partir de un DT. Se comparó el desempeño de este
MLP en relación con el DT original y con respecto a un MLP definido por
separado. Los resultados permitieron definir de manera eficiente la
arquitectura de un MLP que actúa como clasificador. Este hecho es de
suma importancia ya que no se ha resuelto de manera teórica cómo definir
óptimamente la arquitectura, y la alternativa de prueba y error consume
muchos recursos computacionales, especialmente para problemas
Goddard y cols
complejos como el nuestro (Goddard cols., 1995). Se determinó la
importancia del análisis realizado por los DT en la determinación de la
estructura del MLP, concluyendo que dan una buena aproximación a la
arquitectura óptima, así como también las limitaciones del podado de los

164 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

DT en cuanto a la generalización.

II.2.2. Redes neuronales con retardos temporales

En la sección de procesamiento se describió la utilización de la

transformada WP como análisis de la señal de voz para un sistema de ASR.
Cuando se validó esta propuesta, el clasificador consistía en una TDNN.
En estos trabajos se exploró cómo se comportaban los distintos POWP,
tomando el logaritmo de la energía de cada banda como patrón de
entrada para el clasificador, el cual consistía en una sola gran TDNN.
Adicionalmente se propuso y ensayó una estructura de TDNN modular, la
cual consistió en una red para cada una de las clases (fonemas) presentes.
Esto proveyó un significativo aumento en los porcentajes de
reconocimiento del sistema. Los experimentos se realizaron con las
oraciones correspondientes a la región 1 de la base de datos de voz TIMIT
(descripta más adelante), sobre los fonemas: /b/, /d/, /eh/, /jh/ y /ih/, los
cuales fueron también utilizados en otros experimentos. Los patrones para
el entrenamiento se obtuvieron utilizando la transformada WP, con las
onditas Splines y Daubechies, que son las que mejores resultados habían
producido hasta ese momento. El sistema así conformado obtiene
aumentos relativos en reconocimiento del orden del 10% respecto a un
sistema con un clasificador constituido por una única TDNN (T Torres y
Rufiner
Rufiner, 1998).

II.2.3. Técnicas híbridas de clasificación

En esta línea, se exploró la posibilidad de utilizar redes neuronales

modulares jerarquizadas para el reconocimiento de fonemas, utilizándose
un enfoque híbrido con DT. La alternativa propuesta a los DT clásicos
consiste en la utilización de ANN para la implementación de la tarea de
decisión realizada en cada nodo. El aporte realizado en este trabajo
consistió en el diseño de una estrategia novedosa para el crecimiento
Milone y cols.,
“inteligente” de los DT basados ANN (Milone cols 1998a). Se realizó,
además, un programa de computadora que implementó tal estructura de
clasificación mediante un árbol de redes neuronales no supervisadas. El
software permite la visualización de la estructura del árbol generado, así
como los parámetros calculados que controlan el crecimiento del mismo.

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 165
RUFINER H. y col.

También se implementaron diversas herramientas que permiten monitorear

el proceso de entrenamiento del árbol. Los entrenamientos se realizaron
con una base de datos que contiene la posición frecuencial de las tres
Milone y cols.
primeras formantes de 660 vocales inglesas (Milone cols., 1998b).

II.2.4. Modelos probabilísticos basados en mezclas gaussianas

Iniciando la aplicación de los modelos probabilistas a esta etapa, se

implementó un modelo de mezclas gaussianas para la distribución de las
vocales del español en el espacio formántico. Para ello, se calcularon los
valores de las formantes de las vocales aisladas del español rioplatense
pronunciadas por adultos normoyentes. El objetivo de este estudio fue
también el de obtener patrones formánticos para ser utilizados como
normativa en estudios de voces normales y patológicas. Se realizaron
registros de 40 voces femeninas y 40 voces masculinas correspondientes
a sujetos entre 18 y 35 años, nativos de habla español rioplatense sin
ningún tipo de patología vocal asociada. El análisis de los 3 primeros
formantes y los respectivos anchos de banda, así como el 4to formante,
cuando fue posible, se realizó utilizando estimadores espectrales. Los
contornos formánticos se midieron mediante el método de predicción lin-
eal (LPC: Linear Predictictive Coding). Se encontraron resultados similares
con respecto a estudios previos de otros autores, a pesar de diferir en los
métodos de análisis, cantidad de sujetos participantes y los casi 25 años
que separan los estudios. Por otra parte se pudo concluir que el modelo
Aronson y cols
era adecuado para este tipo de datos (Aronson cols. 2000).

II.2.5. Utilización de HMM continuos

Se ha avanzado mucho en el ASR mediante la aplicación de los HMM

principalmente porque esta técnica ha permitido modelar la gran
variabilidad del habla. Este enfoque modela la señal de habla como un
proceso doblemente estocástico que ocurre a través de una red de estados
interconectados. Cada uno de estos estados representa algún aspecto
importante de la señal de habla. Un HMM es una “máquina de estados
finitos” capaz de generar secuencias de observaciones que son asociadas

166 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

Deller y cols., 1993). El HMM es entrenado

con alguna unidad del habla (Deller
a fin de que pueda representar fielmente el modelo estadístico de las
secuencias de observación para una unidad determinada (palabra, sílaba
o fonema). Para la realización de los experimentos se utilizó el toolkit
denominado HTK, que implementa los algoritmos mencionados y una serie
de utilidades para el diseño de sistemas de ASR basados en HMM. Se
entrenó un HMM continuo utilizando el procesamiento tipo MFCC+D,
incluyendo también la energía. Los resultados se compararon con
resultados obtenidos con las estrategias de redes neuronales y diferentes
técnicas de preprocesamiento (Fourier, Fourier en escala de mel, diferentes
familias de Wavelets, etc). Estos últimos superaron ampliamente los
obtenidos con las otras técnicas de clasificación. Sin embargo se debe
destacar que en el caso de HMM se utiliza un modelo por cada fonema,
por lo que para que la comparación sea “justa” debería utilizarse una red
neuronal para cada uno de los fonemas por separado. Esto sugirió la
realización de los experimentos con TDNN modulares ya comentados,
donde se obtuvieron mejoras importantes.

II.2.6. HMM vs RNN

Las TDNN pueden aproximar dinámicas finitas y se exploraron en los

primeros trabajos. Por otra parte, las RNN tienen capacidades teóricas de
aproximación de sistemas dinámicos en general. Por lo anterior, se
investigaron las diferentes arquitecturas de RNN existentes a fin de realizar
una taxonomía que permitiera elegir la más adecuada para el ASR. Esta
taxonomía sirvió de base para establecer relaciones entre las redes
recurrentes y los modelos ocultos de Markov (véase Milone
Milone, 2001). La idea
de esta comparación consistía en encontrar relaciones entre las RNN y los
HMM que proporcionaran una visión más global y unificada de los
modelos utilizados para resolver el problema del ASR. Esto permitiría
encontrar mejores soluciones y aumentar el desempeño de los sistemas
existentes en problemas difíciles de resolver con las técnicas actuales,
como la robustez al ruido o la independencia del hablante. Como resultado
de este estudio se concluyó que, si bien la capacidad teórica de las RNN
les permite aproximar el comportamiento de sistemas dinámicos arbitrarios

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 167
RUFINER H. y col.

y existen numerosas conexiones con la teoría de autómatas deterministas

y probabilistas, no existen en la actualidad técnicas adecuadas para su
entrenamiento en una gran variedad de situaciones. En particular en nuestro
caso, existe un problema de atenuación exponencial de la memoria de la
red que le impide aprender relaciones entre eventos separados en el
tiempo. Más recientemente han despertado cierto interés de la comunidad
de ANN la redes pulsadas con sinapsis dinámicas (PNN). La aplicación de
PNN al ASR podría constituir una línea de investigación futura.

II.3. Análisis en función de reglas del lenguaje

Esta es la etapa que menos se investigó en nuestro trabajo, sin em-

bargo entre las técnicas exploradas podemos mencionar:
1. Métodos tradicionales: bigramáticas suavizadas por “backing-off”.
2. Incorporación información prosódica a un sistema de ASR basado
en HMM.
3. Sistemas de diálogo

II.3.1. Prosodia, acentuación y ASR basado en HMM

En los sistemas de reconocimiento automático del habla se han ido

incorporado gradualmente los diferentes aspectos relacionados tanto con
la producción como con la percepción natural del habla. El conjunto de
características prosódicas del habla no ha sido utilizado hasta el momento
de una forma explícita en el proceso mismo de reconocimiento. Hemos
realizado un análisis de los tres parámetros más importantes de la
prosodia: energía, entonación y duración (MiloneMilone y Rubio
Rubio, 2001) y
propuesto un método para incorporar esta información al ASR (MiloneMilone y
cols
cols. 2001). A partir del análisis preliminar se diseño un clasificador de
rasgos prosódicos que asocia estos parámetros con la acentuación
ortográfica. La información de acentuación es incorporada por medio del
modelo de lenguaje en un reconocedor estándar basado en HMM. Se
realizaron varios experimentos donde se impusieron diversos grados de
dificultad a la hora de realizar las pruebas de validación. Los resultados
finales proveyeron una reducción porcentual del error que llegó hasta el
Milone y Rubio
43.00% (Milone Rubio, 2003).

168 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

II.3.2. Sistemas de diálogo

En trabajos recientes se puede encontrar un considerable número de

sistemas automáticos destinados a proporcionar diversos tipos de servicios
a los usuarios haciendo uso del habla. Estos sistemas utilizan
principalmente las tecnologías de reconocimiento y comprensión del habla,
control del diálogo y generación de voz. Sin embargo, los sistemas
automáticos que interactúan a partir de la voz deben tratar diversos
problemas que no son resueltos por el reconocedor, como las diferencias
en la voz de los usuarios, falso comienzo de las frases, ruido ambiental,
cruce de conversaciones, palabras no incluidas en el vocabulario, etc. En
colaboración con el Grupo de Investigación en Procesamiento de Señales
y Comunicaciones de la Universidad de Granada (España), se estudiaron
algunos problemas relacionados con el funcionamiento en tiempo real de
López-Cózar y col.
los sistemas automáticos de diálogo (López-Cózar col., 2000). El trabajo
se centra en una metodología utilizada para intentar que el tiempo de
respuesta de un sistema de diálogo sea aceptable por los usuarios. A partir
de los resultados obtenidos se puede concluir que la estrategia utilizada
es aceptable para la mayoría de las tareas de reconocimiento
consideradas. Asimismo, los resultados muestran que es necesario realizar
cambios en la estrategia usada para otras tareas ya que la tasa de
comprensión es insuficiente y el tiempo de reconocimiento es excesivo para
López-Cózar y Milone
un sistema interactivo (López-Cózar Milone, 2001).

II.4. Segmentación automática de señales de voz

La segmentación de voz consiste en dividir una emisión en diferentes

trozos de acuerdo con algún criterio. Es común que se realice
segmentación de voz para separar en fonemas y también suele ser de
interés la segmentación según sílabas o unidades de nivel superior, como
la palabra. Si bien la segmentación constituye una parte esencial en todo
sistema de ASR, es difícil ubicarla entre alguna de las etapas descriptas
anteriormente. Los HMM realizan una segmentación durante el mismo
proceso de búsqueda de la secuencia más probable y utilizan para esto
información de los vectores de voz preprocesados, de los modelos
acústicos e incluso de los modelos de lenguaje. Es así como puede verse
al proceso de segmentación como un componente fundamental del ASR

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 169
RUFINER H. y col.

en si mismo pero no como una etapa con una ubicación más o menos
específica. Por otro lado, cuando se utilizan redes neuronales estáticas
(como un MLP), es requisito indispensable tener una segmentación previa
para poder luego entrenar y probar el sistema. La tarea de segmentación
y etiquetado de la señal de voz es bastante ardua, y el hecho de contar
con una presegmentación mediante algoritmos automáticos permite
disminuir considerablemente el tiempo empleado para completarla. Con
este objetivo se implementaron enfoques diferentes para abordar la solución
del problema:
1. Método tradicional: HMM con alineación forzada.
2. Análisis de cambios de entropia multirresolución.
3. Redes Neuronales.
4. Algoritmos Evolutivos.

II.4.1. HMM con alineación forzada

Esta es la alternativa automática más difundida. La principal desventaja

de este método es que hay que entrenar un sistema de ASR basado en
HMM por completo para luego poder hacer una segmentación. En lugar
de utilizar este sistema como reconocedor, se alimenta al sistema con la
transcripción (texto) y la grabación de voz, y se busca la secuencia de
estados más probable (algoritmo de Viterbi). Una vez obtenida la secuencia
de estados más probable. la segmentación queda completamente definida.

II.4.2. Análisis de cambios de entropía multirresolución continua

En este desarrollo utilizamos la entropía multirresolución continua

(CME), que consiste básicamente en calcular la entropía en una
representación de los datos mediante onditas. Teniendo en cuenta que,
ante la presencia de cambios de complejidad en la señal, la CME presenta
variaciones abruptas en su valor, coincidentes con la localización tempo-
ral de dicho cambio, se implementó un detector automático que combina
la CME con las técnicas de análisis de componentes principales y de
detección de cambios abruptos de tipo estadístico. Se obtuvieron
resultados en los que las marcas generadas por el detector coincidieron
relativamente con transiciones de palabras y fonemas, si bien no
exactamente y no para todos éstos. Teniendo en cuenta que la CME fue

170 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

diseñada como una herramienta útil para detectar cambios en complejidad

en señales no lineales, no estacionarias, los resultados obtenidos sugieren
que ciertas transiciones de palabras y fonemas podrían corresponder a
cambios de complejidad en los modelos subyacentes (T Torres y cols
cols.,
2003a). Por otra parte, aparece como posible que, con una correcta
selección de la ondita y de los distintos parámetros libres de la CME y
del detector pueda desarrollarse una herramienta que permita realizar una
segmentación automática de cierto número de fonemas. Sin embargo, este
último aspecto deberá ser motivo de un estudio más exhaustivo.

II.4.3 Segmentación mediante redes neuronales

Se implementaron redes neuronales tipo MLP para segmentar

automáticamente los fonemas basándose en dos parámetros temporales
sencillos: energía y cruces por cero. Para agregar robustez a la tarea de
clasificación, se calcularon también la derivada primera y la derivada
segunda de cada uno de los parámetros. Los MLP se entrenaron con el
algoritmo de retropropagación y se probaron distintas arquitecturas,
manteniendo siempre 6 neuronas en la capa de entrada y 4 neuronas en
la capa de salida. En la capa oculta se probó con 10 y 15 neuronas. Los
resultados obtenidos en la evaluación del desempeño de las redes no
fueron satisfactorios. Esto puede deberse a que las características utilizadas
para confeccionar los patrones no sean suficientes para detectar los
cambios de dinámica que se producen en las transiciones fonémicas. Por
ello, en los experimentos futuros deberán elegirse otras características. El
empleo de la entropía multirresolución según se describió en la sección
anterior podría ser una alternativa.

II.4.4. Segmentación mediante un algoritmo evolutivo

Los métodos de computación evolutiva (EC, Evolutionary Computation)

manipulan una población de soluciones potenciales codificadas en
cadenas o vectores que las representan. Este conjunto de cadenas
representa el patrimonio genético de una población de individuos. Los
operadores artificiales de selección, cruza y mutación son aplicados para
buscar los mejores individuos (mejores soluciones) a través de la simulación
del proceso evolutivo natural. Cada solución potencial se asocia con un

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 171
RUFINER H. y col.

valor de aptitud, que mide qué tan buena es comparada con las otras
soluciones de la población. Este valor de aptitud es la simulación del papel
que juega el ambiente en la evolución natural darwiniana. En este trabajo
se utilizó un algoritmo basado en EC para la segmentación de voz. Las
pruebas que se realizaron se dividen en dos partes. En primer lugar están
las pruebas que tienden mostrar las características más importantes del
algoritmo. Esto se realiza mediante una secuencia que no es de voz sino
que ha sido creada artificialmente y contiene información que resulta en
una segmentación obvia. Las segundas pruebas se realizaron en archivos
de voz reales y se comparan resultados con el proceso de segmentación
manual y la segmentación realizada por HMM. Los resultados demostraron
una correcta segmentación, bastante similar tanto a la ideal (realizada a
mano) como a la realizada usando HMM. El algoritmo evolutivo para la
segmentación de voz se presenta como un método útil para segmentar
bases de datos donde la cantidad de segmentos por frase se conoce de
Milone y Merelo
antemano (Milone Merelo, 2002). Las diferentes modalidades de
segmentación mostradas parecen ajustarse a la segmentación ideal y sería
posible optimizar el tiempo de cálculo y corregir algunos errores inducidos
con la dependencia de la energía de la señal presente en el vector de voz
parametrizada. En esta primera realización del algoritmo se dejan abiertas
varias posibilidades para realizar diferentes mejoras tanto en lo relativo a
la evolución como en el procesamiento de la señal que no se restringe
necesariamente a voz. De hecho, tanto el formalismo como la
implementación son totalmente aplicables a cualquier otra señal unidimen-
sional.

III. Datos y validación de sistemas de ASR

En esta sección discutimos brevemente los datos utilizados para la

experimentación. El énfasis está puesto en las bases de datos desarrolladas
por nuestro grupo, dado que el resto son ampliamente conocidas en el
medio.

III.1 Bases de datos

1. Peterson
Peterson: esta es una pequeña base pública con datos sobre las
formantes del inglés que se utilizó en algunas pruebas iniciales de los

172 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

clasificadores.
2. TIMIT
TIMIT: esta base de datos es la más utilizada en el campo del ASR,
está formada por unas 6000 frases en idioma inglés. Fue la base utilizada
en las primeras pruebas.
3. TIMEX
TIMEX: se realizaron tareas conjuntas con la UAM (México) a fin de
lograr el corpus de fonemas en castellano que culminó en el diseño, la
grabación y etiquetado de un corpus formado por 10 hablantes mexicanos.
Las tareas de etiquetado se llevaron a cabo en el Laboratorio de
Audiología de la UAM. Se trabajó sobre estas grabaciones etiquetadas de
manera de adaptarlas y organizarlas en forma similar al corpus TIMIT
(inglés), ya que todas las rutinas de análisis y clasificación se desarrollaron
basándose en esta estructura. Para esto, primero se submuestrearon las
grabaciones, que originalmente se habían adquirido a 22050 Hz,
obteniéndose archivos de señales muestreadas a 16000 Hz. Una vez
organizada la base de oraciones, se procedió a la obtención de patrones
de entrenamiento y prueba para cinco fonemas, a partir de las rutinas para
procesamiento con MFCC, de manera de poder realizar una comparación
con los resultados obtenidos para los cinco fonemas más cercanos de
TIMIT. Estos patrones se utilizaron para entrenar una red neuronal tipo
TDNN, obteniéndose resultados preliminares muy buenos (mejores que
para TIMIT) aunque poco significativos debido al pequeño numero de
hablantes de este corpus.
4. Latino 40
40: esta base está formada por 40 hablantes latinos y
desarrollada por el Stanford Research Institute (SRI). Fue la primera base
en castellano de tamaño mediano utilizada en el PID. Los experimentos
con POF se realizaron con esta base. Un problema que presenta es la gran
variabilidad dialéctica de los datos.
5. Albayzin
Albayzin: esta es una base en idioma español desarrollada por un
grupo de universidades españolas. Se ha podido tener acceso a la misma
por colaboración con el Grupo de Investigación en Procesamiento de
Señales y Comunicaciones de la Universidad de Granada y se describe
adecuadamente en la separata sobre el sistema de referencia, ya que fue
utilizada para su desarrollo.
5. CSLU
CSLU: recientemente se adquirieron una serie de datos
pertenecientes a conversaciones telefónicas en múltiples idiomas que
permiten atacar los problemas de degradación que presenta este canal.

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 173
RUFINER H. y col.

III.2. Obtención de resultados

Para la obtención de las medidas finales de desempeño de los

sistemas se debe estimar el error cometido en alguna tarea particular. Para
ello, el método clásico en bases de datos grandes consiste en dividir la
base en dos partes y utilizar una para entrenamiento y la otra para prueba.
Si bien los primeros resultados se obtuvieron de esta forma, el método
clásico presenta limitaciones dado que introduce sesgos debidos a la
evaluación de error en la partición particular elegida. Para evitar estos
sesgos se puede recurrir al método denominado dejar-k-afuera (LKO, leave-
k-out) que permite realizar particiones múltiples de los datos y luego
estimar el error basándose en el promedio sobre todas estas particiones.
Mediante LKO se realizaron los experimentos más recientes.

IV
IV.. Conclusiones

Debemos destacar nuevamente que el módulo de procesamiento y el

modelo acústico no son tan independientes como se espera. En el diseño
de los sistemas actuales del “estado del arte” se han ajustado ambos
sucesivamente en una suerte de optimización combinada. Esto hace difícil
su modificación por separado si sólo se espera disminuir el error. En la
búsqueda de nuevos paradigmas es importante conseguir un enfoque
coherente, unificado y jerárquico para la solución integral del problema
del ASR en todos sus niveles y dimensiones. Ésta ha sido una de las
razones para el éxito alcanzado por los HMM.
Se puede decir que, durante la investigación realizada, se han
explorado muchas alternativas tratando de aplicar las ventajas de las
técnicas más novedosas para intentar solucionar el complejo problema del
ASR. Además se han explorado otras áreas relacionadas con el habla con
resultados muy prometedores, como por ejemplo: identificación del
hablante (TTorres y Rufiner
Rufiner,, 2001), detección automática de patologías del
Martínez y Rufiner
aparato fonador (Martínez Rufiner, 2001), estudios de complejidad en
señales de voz (T Torres y cols
cols., 2003b), desarrollo de herramientas para
Rufiner y cols
análisis de voz (Rufiner cols., 1997), sistemas de rehabilitación de niños
Martínez
sordos (Martínez
Martínez, 2001) y técnicas de mejoramiento para prótesis
Tochetto y cols.,
auditivas (T cols 2003). Como conclusión final, creemos que
se han realizado numerosos aportes al ASR, siempre en la búsqueda de

174 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

“nuevas” ideas, tratando de volver a pensar algunas abandonadas

prematuramente y de no perder de vista la forma en que los humanos
solucionamos este problema.

Bibliografía

ARONSON L., RUFINER L., FURMANSKY H., ESTIENE P. “Características acústicas de

las vocales del español rioplatense”. En: Fonoaudiológica
Fonoaudiológica, 46 (2), 2000:12-20.
DELLER J., PROAKIS J., HANSEN J. Discrete Time Processing of Speech Signals Signals.
Macmillan Publishing, New York, 1993.
GAMERO L. G., RUFINER H. L. “Paquetes de onditas evolutivas para clasificación de
señales”. En: Anales del Ier Congreso Latinoamericano de Ingeniería Biomédica
Biomédica,
1, 1998:784-787.
GAMERO L. G., PLASTINO A., TORRES M. E. “Wavelet analysis and nonlinear dynamics
in a non extensive setting”. En: Physica A. 246, 1997:487-509.
GODDARD J. C., MARTINEZ F. M., MARTINEZ A. E., CORNEJO J. M., RUFINER H. L.,
ACEVEDO R. C. “Redes neuronales y Árboles de decisión: Un enfoque híbrido”.
Memorias del Simposium Internacional de Computación organizado por el Instituto
Politécnico Nacional, 1995.
LOPEZ-COZAR R., MILONE D. H. “A new technique based on augmented language
models to improve the performance of spoken dialogue systems”. En: EuroSpeech.
2001, 2001:741-744.
LOPEZ-COZAR R., RUBIO A. J., BENITEZ M., MILONE D. H. “Restricciones de
funcionamiento en tiempo real de un sistema automático de dialogo”. En: Revista de la
Sociedad Española para el Procesamiento del Lenguaje Natural Natural, 26, 2000:169-174.
MALLAT S. G. A W avelet T
Wavelet our of signal Processing
Tour Processing. 2da. ed. Academic Press, New
York, 1999.
MARTINEZ C. E., RUFINER H. L., “Acoustic Analysis of Speech for Detection of Laryngeal
Pathologies”. En: Proceedings of the Chicago 2000 World Congress IEEE EMBS EMBS,
Paper No. TH-Aa325-07, Chicago, July 2000.
MARTINEZ S., “Desarrollo de herramientas computacionales para la detección del nivel
de audición y apoyo en el aprendizaje del habla para niños sordos e hipoacúsicos”,
Tesina de grado, Bioingeniería, FIUNER, 2001.
MILONE D. H. "Reconocimiento automático del habla con redes neuronales artificiales".
2001. Inédito.
MILONE D. H., MERELO J. J. “Evolutionary algorithm for speech segmentation”. En: 2002
IEEE World Congress on Computational Intelligence
Intelligence, Hilton Hawaiian Village Hotel,
Honolulu, 2002. Paper No. 7270.
MILONE D. H., RUBIO A. J. “Including prosodic cues in asr systems”. En: Proceedings
5th World Multiconference on Systemics, Cybernetics and Informatics (SCI 2001)
and the 7th International Conference on Information Systems Analysis and Syn-
thesis (ISAS 2001)
2001), Orlando, Julio 2001. Paper No. IS0051403.
—————————————. “Prosodic and accentual information for automatic speech
recognition”. En: IEEE T rans. on Speech and Audio Processing
Trans. Processing, 11(4), 2003: 321-
333.

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 175
RUFINER H. y col.

MILONE D. H., RUBIO A. J., LOPEZ-COZAR R. “Modelos de lenguaje variantes en el

tiempo”. Memorias del XXIV Congreso Nacional de Ingeniería Biomédica, Oaxtepec,
México, 10-13 de Octubre 2001.
MILONE D. H., SAEZ J. C., SIMON G., RUFINER H. L. “Self-organizing neural tree net-
works”. En: Proceedings of the 20th Annual International Conference of the IEEE
Engineering in Medicine and Biology Society
Society, Hong Kong, 3, 1998a:1348-1351.
—————————————————————————. “Árboles de redes neuronales
autoorganizativas”. En: Revista Mexicana de Ingeniería Biomédica
Biomédica, 19(4), 1998b:13-
26.
RABINER L., JUANG B. H. Fundamentals of Speech Recognition. Signal Processing
Series
Series. Prentice-Hall, 1993.
RUFINER H. L., GODDARD J., MARTINEZ A. E., MARTINEZ F. M. “Basis pursuit applied
to speech signals”. En: Proceedings 5th World Multi-Conference on Systemics,
Cybernetics and Informatics (SCI 2001) and the 7th International Conference on
Information Systems Analysis and Synthesis (ISAS 2001), Orlando, July 2001:517-
520.
RUFINER H. L. “Comparación entre análisis onditas y Fourier aplicados al reconocimiento
automático del habla”. Master’s thesis, Universidad Autónoma Metropolitana, Diciembre
1996 (Inédito).
———————. “Modelización biológica, redes neuronales y HMM´s aplicados al
reconocimiento automático del habla”. Informe de avance, Beca de investigación
Conicet, CONICET, 1994.
RUFINER H. L., CORNEJO J. M., CADENA M., HERRERA E. “Laboratorio de voz”. Ana-
les del VIII Congreso de la Asociación Mexicana de Audiología, Foniatría y Comunica-
ción Humana, Veracruz, México, 1997.
RUFINER H. L., ROCHA L. F., GODDARD J. “Denoising of speech using sparse represen-
tations”. Proc. of the International Conference on Acoustic, Speech & Signal Process-
ing, 2002:989-992.
RUFINER H. L., TORRES M. E., GAMERO L. E., MILONE D. H. “Introducing complexity
measures in nonlinear physiological signals: application to robust speech recognition”.
En: Physica A A, 332, February 2004:496-508.
SIGURA A. “Sistema de preprocesamiento basado en paquetes de onditas y algoritmos
genéticos para reconocimiento automático del habla”. Tesis de Maestría, FIUNER-IPSJAE
(Cuba), 2001.
TOCHETTO D., MILONE D. H., RUFINER H. L., ARONSON L. “Robust CIS Strategy for
Cochlear Implants’’. En: World Congress on Medical Physics and Biomedical
Engineering
Engineering, Sydney, Australia, 2003:2593-2595.
TORRES H.M., RUFINER H. L. “Clasificación de fonemas mediante paquetes de onditas
orientadas perceptualmente”. En: Anales del Ier Congreso Latinoamericano de
Ingeniería Biomédica
Biomédica, Mazatlán 98, México, 1, 1998:163-166.
———————————————., “Automatic Speaker Identification by means of Mel
Cepstrum, Wavelets and Wavelets Packets”.En: Proceedings of the Chicago 2000
World Congress IEEE EMBS EMBS, Paper No. TU—E201—02, Chicago, July 2000.
TORRES M. E., GAMERO L. G., D’ATTELLIS C. E. “A multiresolution entropy approach to
detect epileptiform activity in the EEG”. En: IEEE Workshop On Nonlinear Signal And
Image Processing
Processing, II, 1995:791-794.

176 (151-177) Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004
SISTEMA DE RECONOCIMIENTO AUTOMATICO DEL HABLA

TORRES M. E., GAMERO, L. E., RUFINER L. H., MARTINEZ C. E., MILONE D. H.,
SCHLOTTHAUER G. “Segmentación automática de señales de voz mediante el análisis
de cambios en la entropía multirresolución continua’’. En: XIV Congreso Argentino de
Bioingeniería, III Jornadas de Ingeniería Clínica (SABI2003)
(SABI2003), Córdoba, Argentina,
Artículo No. 125, 2003a.
TORRES M. E., GAMERO, L. E., RUFINER L. H., MARTINEZ C. E., MILONE D. H., “Study
of Complexity in Normal and Pathological Speech Signals”. En: 25th Annual Interna-
tional Conference of the IEEE Engineering in Medicine and Biology Society Society,
Cancun, Mexico, 2003b:2339-2342.
VARILE G., ZAMPOLLI A. (Eds.) Survey of the State of the Art in Human Language
Technology
echnology. National Science Foundation, Directorate XIIIE of the Commission of the
European Communities, Center for Spoken Language Understanding, Oregon Gradu-
ate Institute, Noviembre 1995.

Ciencia, Docencia y Tecnología Nº 28, Año XV, mayo de 2004 (151-177) 177

También podría gustarte

03 Hernandopericas Capitol 2
Aún no hay calificaciones
03 Hernandopericas Capitol 2
48 páginas
Paper - Computación Blanda - Agosto 19 de 2020
Aún no hay calificaciones
Paper - Computación Blanda - Agosto 19 de 2020
4 páginas
Reconocimiento Voz a Texto con NLP
Aún no hay calificaciones
Reconocimiento Voz a Texto con NLP
27 páginas
Historia y Sistemas de Reconocimiento de Voz
Aún no hay calificaciones
Historia y Sistemas de Reconocimiento de Voz
11 páginas
Reconocimiento de Voz Resumen
Aún no hay calificaciones
Reconocimiento de Voz Resumen
4 páginas
Reconocimiento de Voz
Aún no hay calificaciones
Reconocimiento de Voz
90 páginas
Informe Mana
Aún no hay calificaciones
Informe Mana
2 páginas
Reconocimientos Vocales
Aún no hay calificaciones
Reconocimientos Vocales
10 páginas
Informe Final
Aún no hay calificaciones
Informe Final
8 páginas
INFORME FÍSICA Il
Aún no hay calificaciones
INFORME FÍSICA Il
2 páginas
Cacic 2012
Aún no hay calificaciones
Cacic 2012
10 páginas
Curso de Reconocimiento de Voz - Galindo
Aún no hay calificaciones
Curso de Reconocimiento de Voz - Galindo
57 páginas
Reconocimiento de Hablantes
Aún no hay calificaciones
Reconocimiento de Hablantes
22 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - Unlocked PDF
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - Unlocked PDF
81 páginas
Informe Del Grupo 9
Aún no hay calificaciones
Informe Del Grupo 9
14 páginas
Reconocimiento de Habla en Ruido
Aún no hay calificaciones
Reconocimiento de Habla en Ruido
115 páginas
Trabajo Dps (Reparado)
Aún no hay calificaciones
Trabajo Dps (Reparado)
30 páginas
La Voz Humana Texto Aux
Aún no hay calificaciones
La Voz Humana Texto Aux
66 páginas
Presentacion Síntesis de Voz
Aún no hay calificaciones
Presentacion Síntesis de Voz
17 páginas
84733
Aún no hay calificaciones
84733
137 páginas
Linguistica Computacional (I Parte)
Aún no hay calificaciones
Linguistica Computacional (I Parte)
18 páginas
Linguistica Computacional (I Parte)
Aún no hay calificaciones
Linguistica Computacional (I Parte)
5 páginas
ALGORITMOS METODOS RECONOCIMIENTO VOZ JLOropeza 2005 IPN PDF
Aún no hay calificaciones
ALGORITMOS METODOS RECONOCIMIENTO VOZ JLOropeza 2005 IPN PDF
181 páginas
Tesis Asesor Final
Aún no hay calificaciones
Tesis Asesor Final
137 páginas
Reconocimiento de Voz
Aún no hay calificaciones
Reconocimiento de Voz
18 páginas
Rpic 2013
Aún no hay calificaciones
Rpic 2013
6 páginas
Tipos de Reconocimiento de Voz
100% (1)
Tipos de Reconocimiento de Voz
8 páginas
Reconocimiento de Voz Offline para Robótica
0% (1)
Reconocimiento de Voz Offline para Robótica
14 páginas
Proyecto. Sistema de Reconocimiento de Voz
Aún no hay calificaciones
Proyecto. Sistema de Reconocimiento de Voz
19 páginas
Proyecto RAL PDF
Aún no hay calificaciones
Proyecto RAL PDF
12 páginas
Introducción al Voice AI y su Impacto
Aún no hay calificaciones
Introducción al Voice AI y su Impacto
29 páginas
Trabajo de Exposicion
Aún no hay calificaciones
Trabajo de Exposicion
5 páginas
Control Del Flujo de Agua de Una Ducha Eléctrica Mediante Reconocimiento de Comandos de Voz
Aún no hay calificaciones
Control Del Flujo de Agua de Una Ducha Eléctrica Mediante Reconocimiento de Comandos de Voz
20 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - 001
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - 001
82 páginas
Cecilia Gestora,+6.rufino
Aún no hay calificaciones
Cecilia Gestora,+6.rufino
21 páginas
Procesamiento Del Habla
Aún no hay calificaciones
Procesamiento Del Habla
48 páginas
Reconocimiento de Voz
Aún no hay calificaciones
Reconocimiento de Voz
14 páginas
Llisterri 03 Tecnologias Habla Ingenieria Linguistica PDF
Aún no hay calificaciones
Llisterri 03 Tecnologias Habla Ingenieria Linguistica PDF
15 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME)
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME)
82 páginas
Fonética y Reconocimiento de Voz
Aún no hay calificaciones
Fonética y Reconocimiento de Voz
5 páginas
Futuro de la IA en Reconocimiento de Voz
Aún no hay calificaciones
Futuro de la IA en Reconocimiento de Voz
10 páginas
Reconocimiento de Voz
Aún no hay calificaciones
Reconocimiento de Voz
2 páginas
Reconocimiento de Voz Mediante Coeficientes LSP para El Control de Un Ascensor PDF
Aún no hay calificaciones
Reconocimiento de Voz Mediante Coeficientes LSP para El Control de Un Ascensor PDF
10 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) PDF
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) PDF
81 páginas
Reconocimiento de Texto, Voz e Imagen - Inteligencia Artificial
Aún no hay calificaciones
Reconocimiento de Texto, Voz e Imagen - Inteligencia Artificial
13 páginas
Mbrola
Aún no hay calificaciones
Mbrola
116 páginas
Evolución IA en Reconocimiento de Voz
Aún no hay calificaciones
Evolución IA en Reconocimiento de Voz
10 páginas
Reconocimiento de voz en radiología
Aún no hay calificaciones
Reconocimiento de voz en radiología
5 páginas
Lab #4
Aún no hay calificaciones
Lab #4
6 páginas
Modelos Acústicos en Reconocimiento de Voz
Aún no hay calificaciones
Modelos Acústicos en Reconocimiento de Voz
16 páginas
Circuito Del Habla
Aún no hay calificaciones
Circuito Del Habla
9 páginas
Trabajo de Exposición PDF
Aún no hay calificaciones
Trabajo de Exposición PDF
5 páginas
Clase 11 PLN
Aún no hay calificaciones
Clase 11 PLN
29 páginas
Introducción
Aún no hay calificaciones
Introducción
72 páginas
095
100% (1)
095
37 páginas
Secuencia Matem
Aún no hay calificaciones
Secuencia Matem
7 páginas
Algoritmos y Pseudocódigos Explicados
Aún no hay calificaciones
Algoritmos y Pseudocódigos Explicados
8 páginas
Sistemas Numéricos y Conversiones Básicas
Aún no hay calificaciones
Sistemas Numéricos y Conversiones Básicas
17 páginas
2021 Revista Derecho y Tecnologías Nro. 1
Aún no hay calificaciones
2021 Revista Derecho y Tecnologías Nro. 1
156 páginas
Introducción a Algoritmos y Diagramas
Aún no hay calificaciones
Introducción a Algoritmos y Diagramas
6 páginas
Calculo Del Coeficiente de Descarga CD en Una Compuerta Vertical Con Descarga Sumergida
100% (1)
Calculo Del Coeficiente de Descarga CD en Una Compuerta Vertical Con Descarga Sumergida
12 páginas
FPR U1 Ea Jagarciacastro
Aún no hay calificaciones
FPR U1 Ea Jagarciacastro
11 páginas
TP Numero 1 2024
Aún no hay calificaciones
TP Numero 1 2024
12 páginas
Informe Practicas
Aún no hay calificaciones
Informe Practicas
14 páginas
INF206 Tema 03aBET
Aún no hay calificaciones
INF206 Tema 03aBET
65 páginas
El Sistema de Numeración Decimal y Sus Propiedades. Una Experiencia de Aula
Aún no hay calificaciones
El Sistema de Numeración Decimal y Sus Propiedades. Una Experiencia de Aula
53 páginas
Algoritmos Meméticos para Optimización
Aún no hay calificaciones
Algoritmos Meméticos para Optimización
269 páginas
Cuestionario Somerville
Aún no hay calificaciones
Cuestionario Somerville
5 páginas
Actividad 3 - 1
Aún no hay calificaciones
Actividad 3 - 1
6 páginas
Estrategias de Resolucion de ProblemasLisette Poggioli-1
Aún no hay calificaciones
Estrategias de Resolucion de ProblemasLisette Poggioli-1
11 páginas
Tarea 1, I Periodo
Aún no hay calificaciones
Tarea 1, I Periodo
3 páginas
Teoría Del Método Simplex
Aún no hay calificaciones
Teoría Del Método Simplex
27 páginas
Segundo Grado: Área de Comunicación
Aún no hay calificaciones
Segundo Grado: Área de Comunicación
25 páginas
Taller Recursividad y Algoritmos
Aún no hay calificaciones
Taller Recursividad y Algoritmos
9 páginas
Currículo de Ingeniería de Sistemas UNCP
Aún no hay calificaciones
Currículo de Ingeniería de Sistemas UNCP
27 páginas
Plan 5to Grado - Bloque 2 Matemáticas (2016-2017)
Aún no hay calificaciones
Plan 5to Grado - Bloque 2 Matemáticas (2016-2017)
20 páginas
ALGORITMOS
100% (14)
ALGORITMOS
31 páginas
Instalación y Uso Básico de Kotlin
100% (6)
Instalación y Uso Básico de Kotlin
266 páginas
Ejercicios Resueltos Unidad I Tema 2
Aún no hay calificaciones
Ejercicios Resueltos Unidad I Tema 2
2 páginas
Algoritmo para El Cálculo de Áreas y Volúmenes FINAL
Aún no hay calificaciones
Algoritmo para El Cálculo de Áreas y Volúmenes FINAL
5 páginas
IFC FP01 Contenidos
Aún no hay calificaciones
IFC FP01 Contenidos
66 páginas
Matemáticas 6°: Planeación Bimestral
Aún no hay calificaciones
Matemáticas 6°: Planeación Bimestral
18 páginas
Ejercicios Semana 6
100% (1)
Ejercicios Semana 6
3 páginas
Plan de Estudios en IA
Aún no hay calificaciones
Plan de Estudios en IA
1 página
Algoritmos y Estructuras de Datos en Pyt
Aún no hay calificaciones
Algoritmos y Estructuras de Datos en Pyt
252 páginas