0% encontró este documento útil (0 votos)

28 vistas8 páginas

Informe Final

El documento describe el desarrollo de un sistema de reconocimiento de comandos de voz utilizando técnicas de procesamiento de señales digitales (PDS), enfocándose en la gestión de señales de voz para identificar cinco órdenes específicas. Se detalla el proceso de adquisición, preprocesamiento, reconocimiento y clasificación de patrones, utilizando herramientas como MATLAB para implementar la interfaz gráfica y realizar pruebas de reconocimiento. Se concluye que el sistema es efectivo para reconocer comandos de voz independientemente del locutor, con aplicaciones potenciales en sistemas mecatrónicos activados por voz.

Cargado por

CARMEN JULIANA GUERRERO SILVA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

28 vistas8 páginas

Informe Final

Cargado por

CARMEN JULIANA GUERRERO SILVA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL

PEDRO RUIZ GALLO

Facultad de Ciencias Físicas y Matemáticas.

Escuela profesional de Ingeniería en

Computación e Informática.

ALUMNO:
BARRETO ROJAS JEAN CARLOS
CHAVEZ ARBILDO JEISON PAUL
GUERRERO SILVA CARMEN
TANTARICO BANCES ERINSON

DOCENTE:
REYES LESCANO LUIS

CICLO:
2021– I
Reconocimiento de comandos de voz
utilizando técnicas de PDS

Un Sistema de Reconocimiento Automático del Habla (SRAH) es aquel sistema

automático que es capaz de gestionar la señal de voz emitida por un individuo. Dicha
señal ha sido pasada por un proceso de digitalización para obtener elementos de
medición (muestras), las cuales permiten denotar su comportamiento e implementar
procesos de tratamiento de la señal, enfocados al reconocimiento. Bajo este esquema,
la señal de voz se ve inmersa en dos bloques importantes: entrenamiento y
reconocimiento. El reconocimiento de voz generalmente es utilizado como una interfaz
entre el ser humano y la computadora a través de algún software.
Debe cumplir con las siguientes tareas:
a) Preprocesamiento: convierte la entrada de voz a una forma que el reconocedor
pueda procesar.
b) Reconocimiento: identifica lo que se dijo (traducción de señal a texto).
c) Comunicación: envía lo reconocido al sistema (software/hardware) que lo requiere.

Los procesos de preprocesamiento, reconocimiento y comunicación son invisibles al

usuario. El usuario lo nota de manera indirecta como: certeza en el reconocimiento y
velocidad. Estas características las utiliza para evaluar una interfaz de reconocimiento
de voz. El objetivo fue crear un sistema de reconocimiento de palabras aisladas que
sea capaz de reconocer 5 órdenes distintas, las cuales son: adelante, atrás, izquierda,
derecha y alto, aplicando técnicas de reconocimiento de voz conocidas.
Desarrollo
Las técnicas utilizadas en el reconocimiento del habla dependen, en buena parte, del
tipo de enunciado objeto de reconocimiento, del número de locutores, del vocabulario
y del tipo de micrófono utilizado. En un sistema que sólo tenga que tratar palabras
aisladas, la tarea se reduce, en esencia, a comparar la palabra de entrada con una
plantilla almacenada previamente de la misma palabra, contemplando, no obstante,
las posibles variaciones entre locutores o los cambios de duración debidos a
diferentes velocidades de elocución. En el entorno doméstico, la incorporación del
reconocimiento facilita el control de electrodomésticos, por ejemplo la programación
de un video. En un coche, el reconocimiento de palabras aisladas puede resultar útil
para ayudar a una conducción más segura, dado que permite, por ejemplo, encender
la radio, seleccionar una emisora o poner en marcha la calefacción sin apartar las
manos del volante ni la vista de la carretera. El desarrollo de este trabajo se realizó
bajo el seguimiento del algoritmo mostrado en la Figura 1. En los siguientes subtemas
se detalla el desarrollo e implementación de cada una de estas etapas.
1) Adquisición, Cuantificación y Muestreo

La primera etapa consiste en la adquisición, la cuantificación y el muestreo.

Para ello, MATLAB cuenta con librerías especialmente diseñadas para el
trabajo con señales de audio. La librería o función utilizada para esta etapa es:
WAVRECORD (N, FS, CH) donde graba N muestras de audio (*.wav) a una
frecuencia de muestreo FS desde CH números de canales de entrada. Las
tasas de muestreo estándar son: 8000, 11025, 22050, 44100 Hz. En este caso
se tomó como FS = 11025 Hz. CH puede ser 1 o 2 dependiendo como se
desee, (1=mono, 2=estéreo). Para este sistema se utiliza sólo una entrada
(mono). Para la cuantificación, el valor por default es double = 16 bits por
muestra. Mediante la utilización de un micrófono multimedia se implementó la
adquisición de las señales de voz, por medio de la tarjeta de sonido de una PC.
2) Cortar silencio

A la hora de adquirir la señal, la mayoría de las veces existe al principio de la

señal un tramo sordo. Para contrarrestar esto, se utiliza la función
especialmente diseñada para obtener sólo los tramos donde la señal es sonora
(función cort_sil(x)), dada la siguiente ecuación:

Donde Es es la energía promedio de cada segmento s de tamaño N; ET es la

energía total promedio de la señal completa x de longitud L. Entonces, si la
energía promedio del segmento es mayor que la energía promedio de la señal
completa por un umbral, se dice que el segmento es sonoro sí se cumple la
siguiente condición.

3) Preénfasis

El filtro de preénfasis (función filtro(x)) permite acentuar las frecuencias de la

señal de voz, esto debido a que el modelo del tracto vocal no filtra de buena
manera las señales de frecuencias altas (no sonoras, por ejemplo
consonantes), a diferencia de las frecuencias bajas (sonoras, por ejemplo:
vocales). El filtro de preénfasis esta dado por la función de transferencia:
Se dice que la señal de voz es cuasi–estacionaria a intervalos cortos de 20 a
30 ms. Se ha utilizado la función segmentos(x) para una segmentación de 20
ms, con un solapamiento de 10 ms (50 %), multiplicado por la ventana de
Hamming también de 20 ms (220 muestras). En esta etapa se obtiene una
matriz de: número de segmentos por 220 muestras (num_seg*220). Lo que
significa que cada segmento consta de 220 muestras.

4) Predicción Lineal

El método de predicción lineal o LP (Linear Prediction) es históricamente uno

de los métodos más importantes para el análisis de la voz. Su fundamento se
basa en establecer un modelo de filtro del tipo todo polo, para la fuente de
sonido. Es equivalente a un modelo Auto–regresivo (AR) que utiliza la función
de autocorrelación de la señal para generar una función de transferencia
racional que sólo tiene polos en el plano Z.

Donde G es la ganancia del filtro, P es el número de coeficientes deseados (de

10–15).

5) Coeficientes Cepstrum

Se define como: la transformada inversa de Fourier del logaritmo de la

magnitud de la transformada de Fourier. Esta técnica homomórfica sirve para
separar la acción del tracto vocal (filtro lineal variable en el tiempo) de la señal
de excitación. La señal de voz s(n) se descompone en una parte de excitación
e(n) y en un filtro lineal H(es ). Para la obtención de estos coeficientes se utilizó
la función de MATLAB rceps(x), la cual devuelve los coeficientes Cepstrum de
un vector dado.

6) Olinomios Ortogonales

Esta técnica se utiliza para la caracterización de las palabras, la ecuación para

la calcularlos es la siguiente:
Donde b son los coeficientes característicos de primer orden, xj es el vector de
entrada, y P1j es una matriz igual a j–5 filas= (–4:4) y columnas= tamaño del
vector de entrada.

7) Clasificación de patrones

El algoritmo utilizado para este fin es el «Alineamiento temporal dinámico,

Dynamic Time Warping». En esta etapa se relacionan, la palabra de entrada
(matriz de características) con las diferentes palabras almacenadas. Esta
técnica es óptima cuando se trata de vocabularios reducidos, es decir, cuando
se tienen pocos comandos por reconocer como es el caso.

8) Determinación y decisión

En esta etapa final que es la que decide que palabra se pronunció, se plantean
una serie de condiciones para obtener la menor distancia, que se obtuvieron al
comparar.

9) Clasificación de patrones de voz

Cada uno de los comandos existentes en la base de datos con el comando de

entrada. La función [dmin,ind]=min([d0,d1,d2,d3,d4]), nos regresa el elemento
mínimo del vector junto con su índice, éste es el que utilizamos para hacer la
decisión y mostrar los resultados.

DISCUSIÓN DE RESULTADOS

Para el procesamiento y análisis de la voz se desarrolló la interfaz gráfica de

usuario en MATLAB (GUI, Graphical User Interfaces) de MathWorks, Inc. Para
utilizar la interfaz no es necesario que el usurario tenga conocimientos
avanzados sobre procesamiento de voz. Como se puede observar en la Figura
4, la interfaz muestra las etapas antes mencionadas, cabe destacar que para
probar físicamente este desarrollo, se utilizó el puerto paralelo (PP) de una
computadora, a cada uno de los comandos (ordenes) se le asigno un bit del PP
y a su vez se conecto un diodo emisor de luz (LED) para representar los cinco
comandos. En la Tabla 1 se muestra la distribución antes mencionada. Un 1
significa orden reconocida (LED encendido), mientras que un cero LED
apagado u orden no reconocida.

Se capturaron 10 veces cada palabra para encontrar la siguiente tabla de confusión

(Tabla 2). Cabe destacar que la prueba se hizo con cuatro usuarios diferentes y se
obtuvieron los mismos resultados.
CONCLUSIONES
El objetivo de reconocer comandos de voz utilizando diferentes técnicas de PDS se
cumplió ampliamente; sin embargo, una aplicación futura de este trabajo puede estar
encaminada a sistemas mecatrónicos activados por habla, tales como sillas de ruedas
dirigidas por voz, el encendido y apagado de las luces de una habitación, el encendido
de la radio, etc. El sistema al comparar con cada una de las palabras muestra el
resultado por el PP como unos y ceros. Con las pruebas que se hicieron queda
demostrado que el sistema puede funcionar para cualquier locutor, ya que este
sistema reconoce sólo palabras no locutores.

También podría gustarte

Tipos de Reconocimiento de Voz
100% (1)
Tipos de Reconocimiento de Voz
8 páginas
Calculadora Controlada Por Voz
50% (2)
Calculadora Controlada Por Voz
9 páginas
Reconocimientos Vocales
Aún no hay calificaciones
Reconocimientos Vocales
10 páginas
Reconocimiento de Voz Mediante Coeficientes LSP para El Control de Un Ascensor PDF
Aún no hay calificaciones
Reconocimiento de Voz Mediante Coeficientes LSP para El Control de Un Ascensor PDF
10 páginas
Trabajo Dps (Reparado)
Aún no hay calificaciones
Trabajo Dps (Reparado)
30 páginas
Curso de Reconocimiento de Voz - Galindo
Aún no hay calificaciones
Curso de Reconocimiento de Voz - Galindo
57 páginas
Reconocimiento de Voz en MATLAB
Aún no hay calificaciones
Reconocimiento de Voz en MATLAB
29 páginas
Reconocimiento de Voz con MATLAB
Aún no hay calificaciones
Reconocimiento de Voz con MATLAB
4 páginas
Sistema de Seguridad por Voz
Aún no hay calificaciones
Sistema de Seguridad por Voz
80 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - 001
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - 001
82 páginas
La Voz Humana Texto Aux
Aún no hay calificaciones
La Voz Humana Texto Aux
66 páginas
Análisis de Voz en Matlab: Filtros y FFT
Aún no hay calificaciones
Análisis de Voz en Matlab: Filtros y FFT
3 páginas
VelázquezConstantino Gabriela 213037
Aún no hay calificaciones
VelázquezConstantino Gabriela 213037
9 páginas
Cacic 2012
Aún no hay calificaciones
Cacic 2012
10 páginas
Proyecto. Sistema de Reconocimiento de Voz
Aún no hay calificaciones
Proyecto. Sistema de Reconocimiento de Voz
19 páginas
2022 Examen Parcial ESAV Audio Ordinario
Aún no hay calificaciones
2022 Examen Parcial ESAV Audio Ordinario
4 páginas
Articulo 03 Reconocimiento de Voz Con Redes Neuronales DTW y MOM
Aún no hay calificaciones
Articulo 03 Reconocimiento de Voz Con Redes Neuronales DTW y MOM
6 páginas
Aplicaciones del Reconocimiento de Voz
Aún no hay calificaciones
Aplicaciones del Reconocimiento de Voz
15 páginas
Reconocimiento Vocal con MATLAB
Aún no hay calificaciones
Reconocimiento Vocal con MATLAB
18 páginas
ALGORITMOS METODOS RECONOCIMIENTO VOZ JLOropeza 2005 IPN PDF
Aún no hay calificaciones
ALGORITMOS METODOS RECONOCIMIENTO VOZ JLOropeza 2005 IPN PDF
181 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - Unlocked PDF
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) - Unlocked PDF
81 páginas
Reconocimiento de Voz Offline para Robótica
0% (1)
Reconocimiento de Voz Offline para Robótica
14 páginas
Informe DSP Reconocedor de Voz
Aún no hay calificaciones
Informe DSP Reconocedor de Voz
24 páginas
Recocimiento de Voz en Labview
100% (1)
Recocimiento de Voz en Labview
5 páginas
Sistema Reconocimiento de Voz
Aún no hay calificaciones
Sistema Reconocimiento de Voz
26 páginas
Maci 2011
Aún no hay calificaciones
Maci 2011
4 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME)
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME)
82 páginas
Reconocimiento de Habla en Ruido
Aún no hay calificaciones
Reconocimiento de Habla en Ruido
115 páginas
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) PDF
Aún no hay calificaciones
Sistema de Seguridad Por Reconocimiento de Voz (Tesis de Ingenieria ESIME) PDF
81 páginas
Reconocimiento de Voz y Fonética Acústica
Aún no hay calificaciones
Reconocimiento de Voz y Fonética Acústica
317 páginas
Reconocimiento de Voz en Telesalud
Aún no hay calificaciones
Reconocimiento de Voz en Telesalud
5 páginas
Reconocimiento de Voz
Aún no hay calificaciones
Reconocimiento de Voz
18 páginas
Practica 6 Reconocimiento de Voz Por LPC
Aún no hay calificaciones
Practica 6 Reconocimiento de Voz Por LPC
11 páginas
Sintetizador de Voz Basado en LPC
Aún no hay calificaciones
Sintetizador de Voz Basado en LPC
10 páginas
Rpic 2013
Aún no hay calificaciones
Rpic 2013
6 páginas
Detección de Vocales en Matlab
Aún no hay calificaciones
Detección de Vocales en Matlab
6 páginas
Historia y Sistemas de Reconocimiento de Voz
Aún no hay calificaciones
Historia y Sistemas de Reconocimiento de Voz
11 páginas
Reconocimiento de Voz con LabVIEW
Aún no hay calificaciones
Reconocimiento de Voz con LabVIEW
76 páginas
P1 FFT - TiempoReal - 1
Aún no hay calificaciones
P1 FFT - TiempoReal - 1
10 páginas
Ciencia, Docencia y Tecnología 0327-5566: Issn: Cdyt@uner - Edu.ar
Aún no hay calificaciones
Ciencia, Docencia y Tecnología 0327-5566: Issn: Cdyt@uner - Edu.ar
28 páginas
Reconocimiento Voz a Texto con NLP
Aún no hay calificaciones
Reconocimiento Voz a Texto con NLP
27 páginas
Identificación de Hablante con Cepstro y Curva Melódica
Aún no hay calificaciones
Identificación de Hablante con Cepstro y Curva Melódica
48 páginas
Modelos Acústicos en Reconocimiento de Voz
Aún no hay calificaciones
Modelos Acústicos en Reconocimiento de Voz
16 páginas
Balanced Scorecard en Papelería DALLA
Aún no hay calificaciones
Balanced Scorecard en Papelería DALLA
6 páginas
Procesamiento de Voz en Tiempo Real Empleando Un Procesador Digital de Señales PDF
Aún no hay calificaciones
Procesamiento de Voz en Tiempo Real Empleando Un Procesador Digital de Señales PDF
124 páginas
Acustica Forense Libro
Aún no hay calificaciones
Acustica Forense Libro
217 páginas
Análisis y Diseño de Reconocedor Vocales
Aún no hay calificaciones
Análisis y Diseño de Reconocedor Vocales
8 páginas
Procesamiento de Señales de Audio
100% (3)
Procesamiento de Señales de Audio
7 páginas
Reconocimiento de Voz y Electroacústica
Aún no hay calificaciones
Reconocimiento de Voz y Electroacústica
34 páginas
Reconocimiento de Voz Resumen
Aún no hay calificaciones
Reconocimiento de Voz Resumen
4 páginas
Informe Del Grupo 9
Aún no hay calificaciones
Informe Del Grupo 9
14 páginas
Proyecto RAL PDF
Aún no hay calificaciones
Proyecto RAL PDF
12 páginas
Informe Mana
Aún no hay calificaciones
Informe Mana
2 páginas
Reconocimiento de Vocales por Formantes
Aún no hay calificaciones
Reconocimiento de Vocales por Formantes
5 páginas
Misioneros y Caníbales
Aún no hay calificaciones
Misioneros y Caníbales
2 páginas
Problemas de Puertas Lógicas 4º ESO
Aún no hay calificaciones
Problemas de Puertas Lógicas 4º ESO
2 páginas
Evaluación de Ingeniería de Software
Aún no hay calificaciones
Evaluación de Ingeniería de Software
10 páginas
Guía de Lenguaje de Manipulación de Datos
100% (1)
Guía de Lenguaje de Manipulación de Datos
27 páginas
RM #400 2020 Minedu Anexos para La Entrega
Aún no hay calificaciones
RM #400 2020 Minedu Anexos para La Entrega
7 páginas
Cuestionario Del Capítulo 2 - Revisión Del Intento
100% (2)
Cuestionario Del Capítulo 2 - Revisión Del Intento
5 páginas
Condiciones de Kuhn-Tucker en Control Óptimo
Aún no hay calificaciones
Condiciones de Kuhn-Tucker en Control Óptimo
12 páginas
Compiladores-Act-1 2 2
Aún no hay calificaciones
Compiladores-Act-1 2 2
2 páginas
Plantilla Presupuesto Ventas
Aún no hay calificaciones
Plantilla Presupuesto Ventas
9 páginas
Informe de Nuevo... Informatica
Aún no hay calificaciones
Informe de Nuevo... Informatica
25 páginas
Alcaldes y Contactos en Cundinamarca
Aún no hay calificaciones
Alcaldes y Contactos en Cundinamarca
9 páginas
Ciencias Naturales 5°
100% (1)
Ciencias Naturales 5°
2 páginas
Libro de Actas EMCI 2021
Aún no hay calificaciones
Libro de Actas EMCI 2021
616 páginas
AA2-EV01 Inf de Identificación Del Proceso Logístico Desde La Política
100% (4)
AA2-EV01 Inf de Identificación Del Proceso Logístico Desde La Política
4 páginas
Catalogo de Monitores Agosto
Aún no hay calificaciones
Catalogo de Monitores Agosto
3 páginas
Revista Blenderianos: Edición 1
Aún no hay calificaciones
Revista Blenderianos: Edición 1
96 páginas
Caudio - Pulse - 4x300 - 2x650 - 2x1100w (Es)
Aún no hay calificaciones
Caudio - Pulse - 4x300 - 2x650 - 2x1100w (Es)
35 páginas
Manual de Mi Bluetooth Headset Basic
Aún no hay calificaciones
Manual de Mi Bluetooth Headset Basic
12 páginas
Carta de Compromiso Consolidación
Aún no hay calificaciones
Carta de Compromiso Consolidación
2 páginas
Teoría de La Información y Encriptamiento de Datos
100% (1)
Teoría de La Información y Encriptamiento de Datos
186 páginas
Examen de Repaso Excel 2010
Aún no hay calificaciones
Examen de Repaso Excel 2010
7 páginas
Analisis y Perspectiva de La Administracion de Personal en Venezuela - Lcda Yoiraliz Navarro.
Aún no hay calificaciones
Analisis y Perspectiva de La Administracion de Personal en Venezuela - Lcda Yoiraliz Navarro.
5 páginas
Representación de Números Irracionales
Aún no hay calificaciones
Representación de Números Irracionales
2 páginas
Ejercicios Diseño Conceptual
100% (1)
Ejercicios Diseño Conceptual
2 páginas
Compendio de Organizadores Gráficos
Aún no hay calificaciones
Compendio de Organizadores Gráficos
30 páginas
Guía para Crear Hipervínculos en Office
Aún no hay calificaciones
Guía para Crear Hipervínculos en Office
9 páginas
Manual-VDSL PLUS MITRASTAR PDF
Aún no hay calificaciones
Manual-VDSL PLUS MITRASTAR PDF
31 páginas
Catálogo 2023 Plasco
Aún no hay calificaciones
Catálogo 2023 Plasco
22 páginas
Detalles Constructivos de Estructuras de Acero
Aún no hay calificaciones
Detalles Constructivos de Estructuras de Acero
22 páginas
Cuidado y Mantenimiento de Impresoras
Aún no hay calificaciones
Cuidado y Mantenimiento de Impresoras
9 páginas
Listado de Empresas
Aún no hay calificaciones
Listado de Empresas
12 páginas
Habilidades de Steve Jobs
Aún no hay calificaciones
Habilidades de Steve Jobs
3 páginas
Lista de Precios Repuestos 20171025
Aún no hay calificaciones
Lista de Precios Repuestos 20171025
461 páginas
UT2 EJ ModeloEntidadRelacion2
Aún no hay calificaciones
UT2 EJ ModeloEntidadRelacion2
3 páginas