UNIVERSIDAD PRIVADA
DOMINGO SAVIO
“ACTIVIDAD 01 – EXPOSICIÓN SOBRE TEMAS PROFESIONALES EN
EL CAMPO DEL DESARROLLO DE LA INFORMÁTICA”
• Materia: Estructuras Discretas
• Tema: Reconocimiento de voz con autómatas celulares
• Integrantes:
Emir Vaca Cuellar
Darcko Alejandro Roca Cuellar
Fidel Cortez Ramos
Jhon Sebastian Alizar
Hanilton Uriona Verazain
• Docente: Ing. Alex Elder Escobar Peralta
• Módulo: #6
• Fecha de entrega: 11/07/2025
2025
1
INDICE
INDICE
1. INTRODUCCION ........................................................................................................ 3
2. DESARROLLO DEL TEMA ......................................................................................... 4
2.1 ¿Que es reconocimiento de voz?....................................................................... 4
2.1.1 ¿Cómo funciona el reconocimiento de voz? ................................................... 5
2.1.2 Aplicaciones del reconocimiento de voz .................................................. 5
2.2 ¿Qué son los autómatas celulares? ................................................................... 5
2.2.1 Caracteristicas ......................................................................................... 6
2.2.2 Autómatas celulares 1D .................................................................................. 6
2.2.3 Ejemplo de evolución ...................................................................................... 7
2.3 Procesamiento de señales mediante reglas de transición discretas ................ 10
2.3.1 Representación y dinámica del procesamiento ...................................... 10
2.3.2 Aplicaciones potenciales en el reconocimiento de voz .......................... 10
2.3.3 Ventajas del enfoque basado en autómatas celulares........................... 11
2.4 Caso aplicado: Nuance + Banco Itaú (Brasil) ................................................... 11
2.5 Análisis personal y viabilidad profesional ......................................................... 12
3. CONCLUSIONES...................................................................................................... 13
BIBLIOGRAFIA ............................................................................................................. 14
2
INTRODUCCION
1. INTRODUCCION
En los últimos años, el reconocimiento de voz se ha consolidado como una tecnología
clave en la informática, con aplicaciones que van desde asistentes virtuales hasta
sistemas de autenticación biométrica en el sector bancario. Esta tecnología permite que
un sistema informático interprete y responda a comandos vocales, combinando
disciplinas como el procesamiento digital de señales (DSP), la inteligencia artificial y la
lingüística computacional.
Por su parte, los autómatas celulares (AC) son modelos matemáticos de sistemas
discretos compuestos por una red de celdas que evolucionan según reglas locales
simples. Aunque su origen se vincula con la biología y la física computacional, en los
últimos años se ha explorado su uso en campos como criptografía, simulación y
procesamiento de imágenes. Su aplicación al reconocimiento de voz, sin embargo, es
aún incipiente y promete resultados interesantes.
Este informe analiza la viabilidad de aplicar AC al reconocimiento de voz mediante el uso
de reglas de transición discretas. El enfoque consiste en representar señales de audio
digitalizadas como estructuras iniciales de un autómata y transformarlas para identificar
patrones, fonemas o sílabas mediante reglas definidas.
Asimismo, se presenta un caso real: la empresa Nuance Communications y su
colaboración con el Banco Itaú en Brasil, donde se emplean sistemas avanzados de
reconocimiento de voz. Aunque dichos sistemas se basan en inteligencia artificial, se
plantea cómo un enfoque con reglas discretas podría integrarse como complemento,
aportando eficiencia y trazabilidad.
Este trabajo es relevante en la ingeniería informática porque conecta el estudio de
estructuras discretas con una aplicación concreta y actual. En un contexto donde la
interacción por voz es cada vez más frecuente, encontrar métodos eficientes y
comprensibles para procesarla representa un reto clave en el desarrollo de sistemas
inteligentes.
3
DESARROLLO DEL TEMA
2. DESARROLLO DEL TEMA
2.1 ¿Qué es reconocimiento de voz?
El reconocimiento de voz, también denominado reconocimiento del habla, es una
tecnología que permite a los sistemas informáticos interpretar y transcribir señales
acústicas, es decir, sonidos del habla humanaen texto o comandos que una máquina
puede entender y ejecutar. Esta tecnología ha evolucionado significativamente en los
últimos años gracias al avance de la inteligencia artificial y el aprendizaje profundo.
El proceso de reconocimiento de voz abarca varias etapas fundamentales:
Captura y digitalización del audio: El sistema comienza captando la voz del usuario
a través de un micrófono. Esta señal analógica se convierte en una señal digital
mediante técnicas de muestreo y cuantificación, preparándola para su
procesamiento computacional.
Preprocesamiento del audio: Esta etapa tiene como objetivo mejorar la calidad de la
señal captada. Se incluyen procesos como la normalización del volumen, la
eliminación de ruidos de fondo, la detección de inicio y fin de palabra, y la mejora de
la claridad de la señal.
Extracción de características acústicas: Para que el sistema pueda interpretar los
sonidos del habla, es necesario convertir la señal en una representación matemática
significativa. Una de las técnicas más utilizadas es el cálculo de coeficientes
cepstrales en las frecuencias de Mel (MFCC), que reflejan cómo percibe el oído
humano las distintas frecuencias del sonido.
Modelado acústico y lingüístico: En esta fase, se utiliza un modelo acústico para
relacionar las características extraídas con los fonemas del lenguaje. Además, un
modelo lingüístico ayuda a determinar la secuencia de palabras más probable según
el contexto gramatical y estadístico. Para ello se emplean modelos estadísticos como
HMM (Modelos Ocultos de Markov), y cada vez más, redes neuronales profundas
como las RNN, LSTM y Transformers.
Decodificación e interpretación: Finalmente, el sistema realiza un análisis
probabilístico para decodificar la señal acústica, transformándola en texto o
comandos. Se elige la secuencia de palabras con mayor probabilidad en base a los
modelos anteriores, considerando tanto el sonido como el contexto lingüístico.
4
2.1.1 ¿Cómo funciona el reconocimiento de voz?
El sistema detecta las palabras que un humano emite.
Luego, convierte estas palabras en un formato que sea legible por la
máquina.
Finalmente, según el mensaje recibido, el sistema procede a reaccionar.
Esta reacción puede ser la ejecución de una orden, ofrecer una respuesta, o
seguir el flujo de una conversación.
2.1.2 Aplicaciones del reconocimiento de voz
Los sistemas actuales de reconocimiento de voz han alcanzado altos niveles de
precisión gracias a la inteligencia artificial (IA), el aprendizaje automático (machine
learning) y el uso de grandes volúmenes de datos de entrenamiento. Esta combinación
ha permitido a los sistemas adaptarse a distintos acentos, entonaciones y ruidos
ambientales, haciendo posible su uso en contextos reales.
Algunos ejemplos de aplicaciones actuales incluyen:
Asistentes virtuales personales, como Siri (Apple), Google Assistant, Alexa (Amazon)
y Cortana (Microsoft).
Transcripción automática de entrevistas, reuniones o clases.
Comandos por voz para controlar dispositivos en sistemas operativos, automóviles
o casas inteligentes.
Aplicaciones médicas, como dictado clínico o asistencia a personas con
discapacidad.
Sistemas de atención al cliente, como los desarrollados por Nuance Communications,
que permiten automatizar interacciones mediante voz.
2.2 ¿Qué son los autómatas celulares?
Un autómata celular (AC) es un modelo matemático que simula la evolución de un
sistema complejo a través de reglas locales simples. Está compuesto por:
Una rejilla discreta (1D, 2D, o 3D) de celdas, cada una con un estado finito (ej. 0 o
1).
5
Un conjunto de reglas de transición que determinan cómo cambia el estado de cada
celda en función de su vecindad.
Un tiempo discreto, en el cual se actualiza el estado de todas las celdas
simultáneamente.
A pesar de su simplicidad, los autómatas celulares pueden generar comportamientos
muy complejos. Se han utilizado en criptografía, modelado de tejidos biológicos,
generación de patrones visuales, y recientemente, en el procesamiento de señales e
imágenes digitales.
2.2.1 Características
Las células viven en una cuadrícula.
Cada célula tiene un estado, aunque este puede variar con el tiempo. El número de
estados posibles suele ser finito. El ejemplo más simple tiene dos posibilidades: 1 y 0
(también conocidos como encendido y apagado, o vivo y muerto).
Cada celda tiene un vecindario. Este puede definirse de diversas maneras, pero
generalmente se refiere a todas las celdas adyacentes a esa celda.
2.2.2 Autómatas celulares 1D
En el contexto de los sistemas dinámicos discretos, los autómatas celulares
unidimensionales elementales (AC 1D) constituyen una de las formas más básicas, pero,
a la vez, más reveladoras de modelado computacional. Se parte de la consideración de
un vector finito o infinito cuyas componentes se denominan células, y cada una de estas
células puede encontrarse en uno de dos posibles estados discretos:
0, que convencionalmente representa el estado "apagado" o "blanco",
1, que representa el estado "encendido" o "negro".
Este sistema opera bajo un marco temporal discreto, en el cual todas las células
actualizan su estado simultáneamente en función de una regla de transición local y
determinista. En los AC 1D elementales, dicha regla depende exclusivamente del estado
actual de la célula y de sus dos vecinos más próximos (izquierda y derecha),
conformando un vecindario de tres elementos. Este esquema genera un total de 8
configuraciones de vecindario posibles, lo que, al asignar a cada una un resultado binario,
da lugar a 2⁸ = 256 reglas distintas, conocidas como las 256 reglas de Wolfram.
Entre estas reglas, algunas exhiben comportamientos trivialmente estables o repetitivos,
mientras que otras generan estructuras altamente complejas, autoorganización o incluso
6
caos determinista. Cabe destacar, por ejemplo, la Regla 30, ampliamente utilizada en la
generación de números pseudoaleatorios, y la Regla 110, que ha sido demostrada como
Turing-completa, es decir, con capacidad teórica de computación universal.
El interés científico de los AC 1D elementales radica en que, pese a su simplicidad
estructural, son capaces de modelar fenómenos emergentes complejos y, por tanto,
resultan útiles no solo en teoría de la computación, sino también en física, biología,
criptografía, y más recientemente, en aplicaciones no convencionales como el
procesamiento de señales de voz. En este último campo, las células pueden representar
segmentos discretos de una señal digital, permitiendo implementar operaciones de
filtrado, detección de bordes o segmentación mediante el uso de reglas locales.
En definitiva, los autómatas celulares 1D elementales representan un pilar fundamental
en el estudio de sistemas dinámicos discretos y computación no convencional, cuyo
potencial sigue siendo objeto de exploración activa en la investigación científica
contemporánea.
2.2.3 Ejemplo de evolución
Una línea de celdas de 1D
Una línea 1D de Caldas marcadas con el estado 0 o 1.
Un vecindaririo en una dimension tiene tres celdas
.
Los estados de la generación 1 se calculan utilizando los estados de las celdas de la
generación 0.
7
El estado de una celda en la generación 1 es una función del vecindario de la generación
anterior
Contando con 3 bits en binario, o las ocho configuraciones posibles de un vecindario de
tres celdas
Un conjunto de reglas muestra el resultado para cada configuración posible de tres
celdas.
Determinación de un estado para la generación 1 mediante el conjunto de reglas de CA
Una celda blanca indica 0 y una celda negra indica 1
8
Traducción de una cuadrícula de 0 y 1 a cuadrados blancos y negros
El CA elemental Wolfram
El CA elemental Wolfram a mayor resolución
Representación del mismo conjunto de reglas (de la Figura 7.8) con cuadrados blancos
y negros
Cómo el sitio web de Wolfram representa un conjunto de reglas
9
El CA elemental Wolfram, regla 222
2.3 Procesamiento de señales mediante reglas de transición discretas
El procesamiento de señales mediante autómatas celulares (AC) es un enfoque
emergente que busca aprovechar la naturaleza paralela, determinista y eficiente de los
AC para analizar y transformar señales digitales, particularmente aquellas provenientes
del habla o la voz humana. Este enfoque plantea una alternativa innovadora a los
métodos tradicionales basados en transformadas matemáticas complejas o redes
neuronales profundas, utilizando reglas locales simples que actúan sobre
representaciones discretas de la señal.
2.3.1 Representación y dinámica del procesamiento
En este modelo, una señal continua, como una grabación de voz digitalizada, se
transforma en una secuencia (1D) o matriz (2D) de valores discretos, que actúan como
los estados de las celdas en la rejilla del autómata. Posteriormente, se definen y aplican
reglas de transición que modifican los estados de estas celdas de forma iterativa a lo
largo del tiempo discreto, permitiendo analizar y modificar características específicas de
la señal.
2.3.2 Aplicaciones potenciales en el reconocimiento de voz
Este enfoque puede ser aplicado en varias etapas del procesamiento de señales de voz,
incluyendo:
Filtrado digital local: Se pueden aplicar reglas de detección de ruido basadas en la
comparación entre celdas vecinas, eliminando picos espurios o suavizando
transiciones sin afectar la estructura general de la señal.
Detección de eventos acústicos: El uso de reglas basadas en cambios abruptos de
energía, gradientes de amplitud o cruces por cero permite identificar fonemas,
10
sílabas o transiciones vocales, lo cual es fundamental en sistemas de
reconocimiento de voz.
Segmentación temporal: A través de la evolución de patrones en la rejilla, se puede
lograr una división automática de la señal de voz en unidades discretas (ventanas
temporales o bloques), que pueden servir como entrada para otros modelos
analíticos o clasificadores.
2.3.3 Ventajas del enfoque basado en autómatas celulares
El uso de autómatas celulares para el procesamiento de voz presenta ventajas
significativas frente a técnicas tradicionales:
Bajo consumo computacional: Debido a su estructura basada en reglas locales y
operaciones simples, los AC pueden implementarse sin necesidad de unidades de
procesamiento gráfico (GPU) o hardware especializado, lo que los hace ideales para
dispositivos con recursos limitados.
Alto grado de explicabilidad: A diferencia de modelos de caja negra como las redes
neuronales profundas, las reglas de los AC son deterministas, transparentes y
fácilmente auditables, lo que favorece su comprensión, depuración y validación en
entornos críticos.
Escalabilidad y paralelismo natural: Cada celda opera de manera independiente con
base en su vecindario, lo cual permite paralelizar fácilmente las operaciones,
haciendo viable el procesamiento de grandes volúmenes de datos en tiempo real.
2.4 Caso aplicado: Nuance + Banco Itaú (Brasil)
Nuance Communications es una compañía pionera en tecnologías de reconocimiento de
voz, con productos como Dragon y Nuance Gatekeeper. Estos sistemas se utilizan
ampliamente en sectores como la salud, atención al cliente y servicios bancarios.
En Brasil, Banco Itaú adoptó tecnología de Nuance para implementar un sistema de
respuesta de voz interactiva (IVR) y de verificación biométrica por voz. Este sistema:
Permite identificar automáticamente al cliente por su voz.
Aumenta la seguridad al reducir fraudes.
Mejora la experiencia del usuario al eliminar contraseñas.
Aunque el sistema implementado por Itaú utiliza modelos avanzados de redes
neuronales, el uso de reglas de transición discretas, como las propuestas por los
11
autómatas celulares, podría integrarse como un módulo de preprocesamiento para
segmentación o detección rápida de eventos acústicos.
Esto muestra que incluso tecnologías tradicionales como los AC podrían tener un papel
dentro de infraestructuras modernas si se integran de forma modular.
2.5 Análisis personal y viabilidad profesional
Desde una perspectiva profesional, el uso de autómatas celulares para tareas de
reconocimiento de voz representa un enfoque interesante. Aunque no compite
directamente con la precisión de los modelos actuales basados en inteligencia artificial,
sí ofrece:
Una solución más comprensible, útil en sistemas que requieren validación lógica y
trazabilidad.
Eficiencia computacional, ideal para dispositivos embebidos o con pocos recursos.
Complemento útil en etapas iniciales del procesamiento de voz (detección de silencio,
segmentación, etc.).
Este tipo de técnicas podrían ser especialmente valiosas en contextos donde el consumo
energético, el costo o la transparencia del algoritmo sean críticos.
12
CONCLUSIONES
3. CONCLUSIONES
Este informe ha demostrado que el reconocimiento de voz es una tecnología esencial y
en crecimiento, con aplicaciones reales en sectores como la banca, donde mejora la
atención y la seguridad del usuario. Se evidenció que, aunque los autómatas celulares
han sido usados en otros campos, tienen potencial en el procesamiento de señales
acústicas gracias a su estructura basada en reglas discretas.
Uno de los hallazgos más relevantes es que los autómatas celulares pueden
complementar los sistemas de reconocimiento de voz actuales, especialmente en tareas
como la detección de fonemas o la segmentación del habla, ofreciendo ventajas como
bajo consumo de recursos y mayor explicabilidad.
Desde el punto de vista profesional, este tema permite aplicar conocimientos de
estructuras discretas a soluciones reales, fortaleciendo habilidades clave en áreas como
desarrollo de software, inteligencia artificial y sistemas embebidos. Su estudio abre la
puerta a enfoques innovadores que combinan eficiencia, simplicidad y aplicabilidad
práctica.
13
BIBLIOGRAFIA
BIBLIOGRAFIA
Cano Rojas, A., & Rojas Matas, Á. (2016). Autómatas celulares y aplicaciones.
Revista Unión, 46, 33–48.
[Link]
Gómez, J. C. (2013). Procesamiento digital de señales de voz. Bioingeniería I,
Universidad Nacional de Entre Ríos. [Link]
Nuance Communications. (s.f.). Voice biometrics and speech recognition solutions.
[Link]
Wikipedia. (s.f.). Nuance Communications. Recuperado de
[Link]
Sánchez, M. (2023). Autómatas celulares: explorando la estructura e importancia de
estos modelos matemáticos. Medium. [Link]
[Link]
[Link]
14