RECONOCIMIENTO DE VOZ
MÉTODOS DE PROCESAMIENTO Y ANÁLISIS DE SEÑALES PARA EL RECONOCIMIENTO
DE VOZ. (CONTINUACIÓN)
ESCOM - IPN
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
El tipo más común de banco de filtros
utilizado para el reconocimiento de voz es el
banco de filtros uniforme, donde la
frecuencia central 𝑓𝑖 del filtro de paso de
banda i-ésimo se define como:
Donde 𝐹𝑠 es la tasa de muestreo de la señal
de voz, y 𝑁 es el número de filtros
espaciados uniformemente requeridos para
abarcar el rango de frecuencia del habla.
El número real de filtros usados en el banco
de filtros, 𝑄, satisface la relación
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
con igualdad cuando se utiliza en el análisis
todo el rango de frecuencia de la señal de
voz. El ancho de banda 𝑏𝑖 del filtro 𝑖-ésimo
generalmente satisface la propiedad:
Donde la igualdad significa que no hay
superposición de frecuencia entre canales de
filtro adyacentes, y la desigualdad indica
que los canales de filtro adyacentes se
𝐹𝑠
solapan. (Si 𝑏𝑖 < , entonces ciertas partes
𝑁
del espectro de voz quedarían fuera del
análisis y el espectro resultante no tendría
mucho sentido).
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
La figura muestra un conjunto de 𝑄 filtros
paso de banda idénticos y no
superpuestos que cubren el rango desde
𝐹𝑠 1 𝐹𝑠
𝑎 (𝑄 + )
𝑁 2 𝑁
En esta figura se muestra un conjunto de
𝑄 filtros superpuestos de manera más
realista, cubriendo aproximadamente el
mismo rango.
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
El esquema alternativo al banco de filtros
uniforme es el banco de filtros no uniforme,
diseñado según algún criterio para espaciar los
filtros en frecuencia.
Un criterio común es espaciar los filtros
uniformemente en una escala de frecuencia
logarítmica.
Así, para un conjunto de 𝑄 filtros de paso de
banda con frecuencias centrales 𝑓𝑖 y anchos de
banda 𝑏𝑖 , 1 ≤ 𝑖 ≤ 𝑄, definimos:
Donde 𝐶 y 𝑓1 son el ancho de banda y la
frecuencia central arbitrarios del primer filtro, y 𝛼
es el factor de crecimiento logarítmico.
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
Los valores más comúnmente usados de 𝛼 son 𝛼 = 2, lo que da un
espaciamiento de una octava entre filtros adyacentes, y 𝛼 = 4/3, que da
un espaciamiento de 1/3 de octava entre filtros.
Considere el diseño de un banco de filtros de cuatro bandas, espaciados por
octavas, no superpuestos, que cubren el rango de frecuencias de 200 a
3200 Hz (con una tasa de muestreo de 6.67 kHz).
La figura (a) muestra los filtros ideales para este banco de filtros. Los valores
para 𝑓1 y 𝐶 de 300 Hz y 200 Hz se utilizan, dando las siguientes
especificaciones para los filtros:
• Filtro 1: 𝑓1 = 300 𝐻𝑧, 𝑏1 = 200 𝐻𝑧
• Filtro 2: 𝑓2 = 600 𝐻𝑧, 𝑏2 = 400 𝐻𝑧
• Filtro 3: 𝑓3 = 1200 𝐻𝑧, 𝑏3 = 800 𝐻𝑧
• Filtro 4: 𝑓4 = 2400 𝐻𝑧, 𝑏4 = 1600 𝐻𝑧
Un ejemplo de un banco de filtros ideal de 12 bandas y 1/3 de octava, que
cubre el rango de aproximadamente 200 a 3200 Hz, se muestra en la
figura (b).
Para este ejemplo, 𝐶 = 50 𝐻𝑧 𝑦 𝑓1 ≈ 225 𝐻𝑧.
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
Un criterio alternativo para diseñar un banco de filtros no
uniforme es utilizar directamente la escala de banda
crítica.
El espaciamiento de los filtros a lo largo de la banda
crítica se basa en estudios perceptuales y está destinado a
elegir bandas que den una contribución igual a la
articulación del habla. La forma general de la escala de
banda crítica se muestra en la figura.
La escala es aproximadamente lineal para frecuencias por
debajo de 1000 Hz (es decir, el ancho de banda es
esencialmente constante como función de 𝑓) y es cercana a
logarítmica para frecuencias por encima de 1000 𝐻𝑧 (es
decir, el ancho de banda es esencialmente exponencial
como función de 𝑓).
TIPOS DE BANCOS DE FILTROS UTILIZADOS PARA EL
RECONOCIMIENTO DE VOZ
Se han utilizado varias variantes de la escala
de banda crítica, incluidas la escala Mel y la
escala Bark.
Las diferencias entre estas variantes son
pequeñas y, en su mayor parte,
insignificantes con respecto al diseño de
bancos de filtros para propósitos de
reconocimiento de voz.
Por ejemplo, la figura (c) muestra una
especificación de banco de filtros de 7
bandas basada en la banda crítica.
IMPLEMENTACIÓN DE LOS BANCOS DE FILTROS
Un banco de filtros se puede implementar de varias
formas, dependiendo del método utilizado para
diseñar los filtros individuales.
Los métodos de diseño para filtros digitales se
dividen en dos grandes clases:
(1) Respuesta infinita al impulso (IIR) y
(2) Métodos de respuesta finita al impulso (FIR).
Para los filtros IIR (también llamados comúnmente
filtros recursivos en la literatura), la forma más
directa y generalmente la implementación más
eficiente es realizar cada filtro de paso de banda
individual como una estructura en cascada o
paralela.
IMPLEMENTACIÓN DE LOS BANCOS DE FILTROS
Para los filtros FIR, existen varios métodos
posibles para implementar los filtros de paso
de banda en el banco de filtros.
La implementación más directa y sencilla es la
estructura de forma directa. En este caso, si
denotamos la respuesta al impulso para el
canal 𝑖-ésimo como ℎ𝑖 𝑛 , 0 ≤ 𝑛 ≤ 𝐿 − 1,
entonces la salida del canal 𝑖, 𝑥𝑖 (𝑛), puede
expresarse como la convolución discreta y
finita de la señal de entrada, 𝑠(𝑛), con la
respuesta al impulso, ℎ𝑖 𝑛 , es decir:
IMPLEMENTACIÓN DE LOS BANCOS DE FILTROS
El cálculo de la ecuación se itera en cada canal i,
para 𝑖 = 1,2, … , 𝑄.
Las ventajas de la estructura de forma directa
convolucional son su simplicidad y el hecho de que
funciona para ℎ𝑖 𝑛 arbitrario.
La desventaja de esta implementación es el
elevado requisito computacional. Esto es porque,
para un banco de filtros con 𝑄 canales, donde
cada filtro de paso de banda FIR tiene una
duración de 𝐿 muestras en la respuesta al impulso,
se requiere:
Para una evaluación completa de 𝑥𝑖 𝑛 , 𝑖 =
1, 2, … , 𝑄 , en un único valor de 𝑛.
IMPLEMENTACIÓN DE LOS BANCOS DE FILTROS
Una implementación alternativa y menos
costosa puede derivarse para el caso en que
cada respuesta al impulso del filtro de paso
de banda pueda representarse como una
ventana de paso bajo fija, 𝑤(𝑛), modulada
por la exponencial compleja 𝑒 𝑗𝑤𝑖 𝑛 es decir:
Que en nuestro caso se convierte en:
Donde 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) es la transformada de
Fourier de corto tiempo de 𝑠(𝑛) en la
frecuencia = 2𝜋𝑓𝑖 .
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
La transformada de Fourier de corto
tiempo de la secuencia 𝑠(𝑚) se define
como:
Si evaluamos 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) para un valor fijo
𝑛 = 𝑛0 , podemos interpretar la ecuación
como:
donde 𝐹𝑇[−] denota la transformada de
Fourier.
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Por lo tanto, 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) es la transformada
de Fourier convencional de la señal
segmentada 𝑠 𝑚 𝑤(𝑛0 − 𝑚) evaluada
en la frecuencia 𝜔 = 𝜔𝑖 .
La figura ilustra las señales 𝑠(𝑚) y
𝑤(𝑛 − 𝑚) en los tiempos 𝑛 = 𝑛0 =
50,100,200 para mostrar las partes de
𝑠(𝑚) utilizadas en el cálculo de la
transformada de Fourier de corto tiempo.
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Dado que 𝑤(𝑚) es un filtro FIR (de tamaño finito), si
denotamos ese tamaño por 𝐿, usando la interpretación
convencional de la transformada de Fourier de 𝑆𝑛 (𝑒 𝑗𝑤 ),
podemos afirmar lo siguiente:
1. Si 𝐿 es grande en relación con la periodicidad de la señal
(tono), entonces𝑆𝑛 (𝑒 𝑗𝑤 ) proporciona una buena resolución
de frecuencia. Es decir, podemos resolver los armónicos
individuales del tono, pero solo visualizar de manera
aproximada el envolvente espectral global de la sección
de la señal dentro de la ventana.
2. Si 𝐿 es pequeño en relación con la periodicidad de la
señal, entonces 𝑆𝑛 (𝑒 𝑗𝑤 ) proporciona una mala resolución
de frecuencia (es decir, no se resuelven armónicos del
tono), pero ofrece una buena estimación de la forma
espectral global.
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Para ilustrar estos puntos, las figuras muestran
ejemplos de señales segmentadas 𝑠 𝑚 𝑤(𝑛 −
𝑚) (parte a de cada figura) y los espectros de
magnitud logarítmica resultantes,
20 log10 𝑆𝑛 (𝑒 𝑗𝑤 ) (parte b de cada figura).
La figura muestra resultados para una ventana de
Hamming de 500 puntos aplicada a una sección
de habla sonora.
La periodicidad de la señal es visible tanto en la
forma de onda segmentada en el tiempo como en
el espectro de corto tiempo, donde la frecuencia
fundamental y sus armónicos aparecen como picos
estrechos en frecuencias igualmente espaciadas.
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Para ilustrar estos puntos, las figuras muestran
ejemplos de señales segmentadas 𝑠 𝑚 𝑤(𝑛 − 𝑚)
(parte a de cada figura) y los espectros de
magnitud logarítmica resultantes,
20 log10 𝑆𝑛 (𝑒 𝑗𝑤 ) (parte b de cada figura).
La figura muestra una comparación similar para una
ventana de Hamming de 𝐿 = 50 puntos. Para
ventanas tan cortas, la secuencia temporal
𝑠 𝑚 𝑤(𝑛 − 𝑚) no muestra la periodicidad de la
señal, ni tampoco su espectro.
De hecho, lo que se observa en la transformada de
Fourier de corto tiempo son algunos picos bastante
amplios que corresponden aproximadamente a los
formantes del habla.
INTERPRETACIÓN EN EL DOMINIO DE LA FRECUENCIA DE
LA TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Las figuras muestran los efectos de usar ventanas en una
sección de habla no sonora (correspondiente al fricativo
/𝑠ℎ/) para una ventana de 500 muestras (figura superior)
y una ventana de 50 muestras (figura inferior).
Dado que no hay periodicidad en la señal, el espectro de
magnitud de corto tiempo para la ventana de 500
muestras en la figura superior muestra una serie irregular
de picos y valles locales debido a la naturaleza aleatoria
del habla no sonora.
El uso de la ventana más corta suaviza las fluctuaciones
aleatorias en la magnitud espectral de corto tiempo y
nuevamente muestra claramente el envolvente espectral
global.
INTERPRETACIÓN DE FILTRADO LINEAL DE LA
TRANSFORMADA DE FOURIER DE CORTO TIEMPO
La interpretación de filtrado lineal de la
transformada de Fourier de corto tiempo
se deriva considerando 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ), para
valores fijos de 𝜔𝑖 , en cuyo caso tenemos:
Es decir, 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) es una convolución de
la ventana de baja frecuencia 𝑤(𝑛) con
la señal 𝑠(𝑛) modulada a la frecuencia
central 𝜔𝑖 .
Esta interpretación de filtrado lineal de
𝑆𝑛 (𝑒 𝑗𝑤𝑖 )se ilustra en la figura.
INTERPRETACIÓN DE FILTRADO LINEAL DE LA
TRANSFORMADA DE FOURIER DE CORTO TIEMPO
Si denotamos las transformadas de Fourier convencionales
de 𝑠(𝑛) y 𝑤(𝑛) por 𝑆(𝑒 𝑗𝑤 ) y 𝑊(𝑒 𝑗𝑤 ) entonces la
transformada de Fourier de 𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) es simplemente:
Dado que 𝑊(𝑒 𝑗𝑤 ) aproxima 1 en una banda estrecha y
es 0 en cualquier otro lugar, podemos ver que, para
valores fijos de 𝜔𝑖 , la transformada de Fourier de corto
tiempo proporciona una representación del espectro de la
señal en una banda alrededor de 𝜔.
Por lo tanto, la transformada de Fourier de corto tiempo
𝑆𝑛 (𝑒 𝑗𝑤𝑖 ) representa el análisis espectral de la señal en la
frecuencia 𝜔𝑖 mediante un filtro cuya banda es la de
𝑊(𝑒 𝑗𝑤 ).
REFERENCIAS
[1] L.R. Rabiner and B. Gold, Theory and Application of Digital Signal Processing, Prentice Hall, Englewood Cliffs, NJ, 1975.
[2] L.R. Rabiner and R.W. Schafer, Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, NJ, 1978.
[3] R.E. Crochiere and L.R. Rabiner, Multirate Digital Signal Processing, Prentice Hall, Englewood Cliffs, NJ, 1983.
[4] B.A. Dautrich, L.R. Rabiner, and T.B. Martin, “On the Effects of Varying Filter Bank Parameters on Isolated Word Recognition,” IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-31 (4): 793–807, August
1983.
[5] B.A. Dautrich, L.R. Rabiner, and T.B. Martin, "The Effects of Selected Signal Processing Techniques on the Performance of a Filter Bank Based Isolated Word Recognizer," Bell System Tech. J., 62 (5): 1311–
1336, May-June 1983.
[6] J.D. Markel and A.H. Gray, Jr., Linear Prediction of Speech, Springer-Verlag, 1976. [7] G.M. White and R.B. Neely, “Speech Recognition Experiments with Linear Prediction, Bandpass Filtering, and
Dynamic Programming,” IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-24 (2): 183–188, 1976.
[8] L.R. Rabiner, B.S. Atal, and M.R. Sambur, "LPC Prediction Error-Analysis of its Variation with the Position of the Analysis Frame," IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-25 (5): 434-442, October
1977.
[9] H. Strube, "Determination of the Instant of Glottal Closure from the Speech Wave,” J. Acoust. Soc. Am., 56 (5): 1625–1629, November 1974.
[10] B.S. Atal and S.L. Hanauer, “Speech Analysis and Synthesis by Linear Prediction of the Speech Wave," J. Acoust. Soc. Am., 50 (2): 637–655, August 1971.
[11] S. Furui, "Speaker Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum,” IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-34 (1): 52-59, February 1986.
[12] J.-H. Juang, D.Y. Wong, and A.H. Gray, Jr., “Distortion Performance of Vector Quantization for LPC Voice Coding,” IEEE Trans. Acoustics, Speech, Signal Proc., ASSP-30 (2): 294– 304, April 1982.
[13] O. Ghitza, “Auditory Nerve Representation as a Basis for Speech Processing,” in Advances in Speech Signal Processing, S. Furui and M. Sondhi, Eds., Marcel Dekker, NY, 453–485, 1991.
Gracias por su atención