Comunicaciones Digitales Cuapa Olivares Luis Angel
Primavera 2020
Características de la señal de voz
• Frecuencia de la señal de voz:
–Rango de frecuencias audibles: de 20 Hz a 20 kHz
–Rango mínimo de frecuencias para la voz: de 350 Hz a 4 kHz (telefonía)
–Rango razonable para la voz: de 60 Hz a 6 kHz
–Caída de 6 dB/octava para frecuencias altas
–El rango de frecuencia elegido condiciona la frecuencia de muestreo
•Intensidad de la señal de voz:
–Rango típico: de 50 dBA a 70 dBA
–Rango extendido: de 30 dBA (susurro) a 90 dBA (gritos a corta distancia)
–Rango de 60 dB: equivalentemente Amax/ Amin= 1000
–Cuantización uniforme: requiere del orden de 2000 niveles si la ganancia está
perfectamente ajustada (11 bits).
*Típicamente se usan 12 o 16 bits con cuantización uniforme
*8 bits para cuantización con compresión instantánea (ley-mu o ley-A)
Estadística de la señal de voz
Hay varios aspectos a estudiar sobre la naturaleza estadística de la voz. Estos son: función de densidad
de probabilidad, estacionariedad y ergodicidad1. Cuando se aplican nociones estadísticas a la señal
de voz, es necesario estimar la función de densidad de probabilidad (pdf).
La pdf se puede estimar mediante un histograma de las amplitudes sobre un número suficientemente
grande y representativo de muestras de señal. Se ha demostrado que la estadística de la voz queda
bien representada por una distribución laplaciana o, en mejor medida, por una distribución gamma.
Estas distribuciones son válidas si observamos la señal en tramos muy largos y para varios locutores.
Función de densidad de la distribución Gamma
Función de densidad de la distribución Laplaciana
1
Un Proceso Ergódico se define como aquel proceso donde los promedios estadísticos son iguales a los
temporales
Si fuese el caso hacer una observación en intervalos cortos, no más de unas decenas de milisegundos,
estas distribuciones ya no tienen la misma validez. En ese caso la distribución correcta depende del
sonido que se esté produciendo y cambia con las transiciones fonémicas.
Normalmente, en la mayoría de técnicas de extracción de características, conviene hacer la
suposición de que la voz es un proceso estocástico ergódico. Esto da lugar a un modelo muy simplista,
pero los resultados que se obtienen en la práctica justifican su validez. Por ejemplo, la autocorrelación
de un proceso ergódico puede ser obtenida mediante la estimación de un promedio temporal
conveniente. Esta estimación se tiene que hacer con un segmento suficientemente largo, aunque
finito, de la señal. La validez del modelo ergódico está íntimamente ligada a la suposición de
estacionariedad. Si ésta no es válida tampoco lo será la de ergodicidad.
En la realidad la voz es un proceso estacionario o no según la longitud del intervalo de observación.
La señal de voz es una señal de evolución lenta en el sentido de que, cuando se examina en intervalos
de tiempo suficientemente cortos (típicamente, entre 20 y 60 ms), sus características son
prácticamente estacionarias. Se habla, entonces, de señal casi estacionaria. Sin embargo, vista en
intervalos largos (del orden de ¼ de segundo o más) las características de la señal cambian para
reflejar los diferentes sonidos que se están pronunciando. Así, da lugar a una señal no estacionaria.
En consecuencia, la validez de la ergodicidad ha de entenderse en los intervalos donde sea cierto que
la señal es estacionaria.
Ley A y Ley μ
La cuantización no uniforme se usa en los codificadores PCM, ya que durante la mayor parte de
tiempo los niveles de potencia de la voz son bajos y conviene tener una relación S/N relativamente
constantes en un amplio rango dinámico de señal. Este proceso consiste en cuantizar con intervalos
más pequeños las señales de menor amplitud instantánea, y con niveles más espaciado las muestras
de mayor amplitud instantánea de la señal.
El efecto de cuantización no uniforme se logra también amplificando más los niveles pequeños de
señal, es decir, comprimiendo las muestras de mayor amplitud, antes de un conversor A/D. Para
lograr esto, a menudo se usa un sistema de comparación.
El companding es un sistema qué está formado por dos procesos (comprensión y expansión) en el
que la información se comprime primero, se transmite a través de un canal de ancho de banda
limitado y se expande en el extremo receptor. Con frecuencia se usa para reducir los requisitos de
ancho de banda para transmitir voz de calidad telefónica.
El CCIT (Comité Consultivo Internacional Telegráfico y Telefónico, ahora conocido como UIT-T
(Unión Internacional de Telecomunicaciones)) ha desarrollado estándares para determinar el
tamaño adecuado de la cuantización: la Ley A y la Ley μ.
Ley A
La ley A es el estándar de comparación utilizado en toda Europa. La ley A se define en la Ecuación 1,
donde A es el parámetro de compresión (A = 87.7 en Europa), x es el número entero normalizado a
comprimir y sgn(x) es la función signo o la amplitud máxima de la señal analógica de entrada sin
comprensión..
𝐴|𝑥| 1
|𝑥| ≤
1+ln 𝐴 𝐴
𝐹(𝑥) = 𝑠𝑔𝑛(𝑥) { 1+ln 𝐴|𝑥| 1
1+ln 𝐴 𝐴
≤ |𝑥| ≤ 1
Ec. 1 – Ley A: función Tx
La función que se presenta en el receptor es:
|𝑦|(1 + ln(𝐴)) 1
|𝑦| <
𝐹 −1 (𝑦) = 𝑠𝑔𝑛(𝑦) = 𝐴 1 + ln 𝐴
exp(|𝑦|(1 + ln 𝐴) − 1) 1
{ ≤ |𝑦| < 1
𝐴 1 + ln 𝐴
Ec. 2 – Ley A: función Rx
Ley μ
La Ley μ es utilizada en Estados Unidos y Japón. La ley μ se define en la Ecuación 3, donde μ es el
parámetro de compresión (μ = 255 en los EE. UU. Y Japón), 𝑥 es el número entero normalizado a
comprimir y sgn(x) es la función signo o la amplitud máxima de la señal analógica de entrada sin
comprensión.
𝑠𝑔𝑛(𝑥)
𝑦 = 𝐹(𝑥) = ln[1 + 𝜇|𝑥|] −1 ≤ 𝑥 ≤ 1
ln(1 + 𝜇)
Ec. 3 – Ley Mu: función Tx
En el receptor, la expansión analógica viene dada por:
1
𝐹 −1 (𝑦) = 𝑠𝑔𝑛(𝑦) ((1 + 𝜇)|𝑦| − 1) −1≤𝑥 ≤1
𝜇
Ec. 4 – Ley Mu: función Rx
Gráfico 1. Ley A y Ley Mu
Comprensión y Expansión de la
señal de voz
Fuentes:
1
Mesa, J. L. (s.f.). Procesador Acústico: El Bloque de Extracción de Características. (D. d. Comunicaciones, Ed.)
Obtenido de
[Link]
2
A Law and Mu Law
Obtenido de
[Link]
3
Pérez, E. H. (2002). Comunicaciones II: comunicación digital y ruido : una introducción a la teoría de la
comunicación digital y el ruido. México: Limusa.