0% encontró este documento útil (0 votos)

111 vistas14 páginas

Introducción al Procesamiento de Audio

Este documento presenta una introducción al procesamiento de audio. Explica conceptos básicos de señales y sistemas, diseño de filtros, acústica, codificación de audio, efectos sonoros, reconocimiento y síntesis del habla. El objetivo es combinar la teoría con aplicaciones prácticas del procesamiento de audio. Se divide en tres bloques principales - conceptos de señales y sistemas, desarrollo de conceptos de audio, y aplicaciones en el habla - que contienen módulos teóricos y ejerc

Cargado por

Cristian Luque

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

tecnologías del habla,
psicoacústica,
reverberación,
transformada Z,
características del habla,
ruido de fondo,
cuantificación digital,
medición del sonido,
transformada de Fourier,
percepción del sonido

0% encontró este documento útil (0 votos)

111 vistas14 páginas

Introducción al Procesamiento de Audio

Cargado por

Cristian Luque

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

tecnologías del habla,
psicoacústica,
reverberación,
transformada Z,
características del habla,
ruido de fondo,
cuantificación digital,
medición del sonido,
transformada de Fourier,
percepción del sonido

Procesamiento de

audio
Helenca Duxans Barrobés
Marta Ruiz Costa-jussà
PID_00154788
CC-BY-NC-ND • PID_00154788 Procesamiento de audio

Helenca Duxans Barrobés Marta Ruiz Costa-jussà

El encargo y la creación de este material docente han sido coordinados

por el profesor: David García Solórzano (2012)

Primera edición: febrero 2012

© Helenca Duxans Barrobés, Marta Ruiz Costa-jussà
Todos los derechos reservados
© de esta edición, FUOC, 2012
Av. Tibidabo, 39-43, 08035 Barcelona
Diseño: Manel Andreu
Realización editorial: Eureca Media, SL
Depósito legal: B-3.154-2012

Los textos e imágenes publicados en esta obra están sujetos –excepto que se indique lo contrario– a una licencia de
Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de Creative Commons. Podéis copiarlos, distribuirlos
y transmitirlos públicamente siempre que citéis el autor y la fuente (FUOC. Fundación para la Universitat Oberta de Catalunya),
no hagáis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en [Link]
licenses/by-nc-nd/3.0/es/[Link]
CC-BY-NC-ND • PID_00154788 3 Procesamiento de audio

Introducción

Esta asignatura es una continuación de Señales y sistemas I y II, y al mismo tiem-

po se presenta como un complemento perfecto de la asignatura Procesamiento
de imagen, por lo que dota a los estudiantes de unos conocimientos transver-
sales del ámbito del procesamiento de la señal. Por lo tanto, una asignatura
como esta es fundamental para cualquier ingeniero del itinerario de Audiovi-
suales del grado de Tecnologías de Telecomunicación, y que, probablemente,
utilizará el conocimiento adquirido en esta asignatura en algún momento de
su vida profesional.

El procesamiento de audio incluye diferentes aplicaciones tecnológicas, como

la reproducción de música en alta fidelidad, el reconocimiento del habla o la
síntesis del habla. Esta asignatura, en concreto, pretende combinar una expli-
cación teórica de los principales conceptos del procesamiento de audio y ver
sus aplicaciones más relevantes, con una vertiente práctica que permita lograr
mejor algunos de los conceptos expuestos.

Finalmente, hemos de comentar que esta asignatura es una de las tres de au-
dio que hay en el itinerario de Audiovisuales, junto a las de Acústica y Elec-
troacústica. Por lo tanto, al acabar el grado, el estudiante tendrá un amplio
conocimiento del ámbito del audio, que irá desde tratar la señal de audio (lo
veremos en esta asignatura) y condicionar espacios (Acústica) hasta conocer el
funcionamiento de varios dispositivos de captación y transmisión de la señal
acústica (Electroacústica).

Estos apuntes pretenden ser una introducción experimental al procesamiento

de audio. Están organizados en tres bloques principales y cada bloque está
dividido en módulos. Cada módulo contiene teoría, ejemplos, resúmenes y
ejercicios. Asimismo, os presentamos continuamente bibliografía de referencia
por si queréis ampliar conocimientos.

El primer bloque presenta, en el primer módulo, conceptos ya vistos sobre

señales y sistemas, y en el segundo módulo, explica el diseño de filtros.

El primer�módulo hace un repaso de los principales conceptos de señales y

sistemas que usaremos en esta asignatura. Básicamente incluye los contenidos
siguientes: la definición y clasificación de señal y sistema; la caracterización
de señales y sistemas mediante la transformada de Fourier y la transformada
Z; así como la conversión entre el dominio analógico y discreto.

El segundo�módulo explica el diseño de filtros. El objetivo principal del mó-

dulo es explicar la teoría�básica�de�diseño�de�filtros�digitales�y�analógicos.
Concretamente, se pretende dar al estudiante la capacidad de aprender a utili-
CC-BY-NC-ND • PID_00154788 4 Procesamiento de audio

zar cualquier software de diseño de filtros y que así pueda diseñar sus propios
filtros dadas unas especificaciones concretas. Asimismo, se combina la teoría
y la práctica del diseño�de�filtros� con el estudio de diferentes utilidades de los
filtros digitales y analógicos en el área de procesamiento de la señal de audio.

A continuación, entramos en el bloque 2, que se centra en desarrollar con-

ceptos de audio. Por lo tanto, es el bloque más largo de los tres. Este bloque
incluye los módulos 3, 4 y 5.

El tercer�módulo lleva a cabo una introducción a la acústica. Se desarrollan

en él conceptos como qué es el sonido y cómo lo percibimos, medimos, se
genera y se propaga. Concretamente, estudiaremos cómo funciona la acústica
fisiológica, es decir, de qué modo percibe el sonido el oído humano, cómo
emite el sonido el sistema de fonación humana y cuál es la directividad de
la voz humana. Dentro de las herramientas de percepción del sonido defini-
remos las curvas isofónicas, los filtros de ponderación y el nivel de ruido de
fondo, y dentro de la medición del sonido veremos el sonómetro. También
analizaremos la tipología de fuentes sonoras existentes y el comportamiento
que tienen en diferentes tipos de recintos. Por último, veremos cómo se pro-
paga el sonido y qué son la reverberación y la inteligibilidad del sonido.

El cuarto�módulo presenta el proceso de codificación que sigue la señal de

audio para almacenarse o transmitirse digitalmente. Veremos la cuantificación
digital y algunos conceptos que están relacionados, como el sobremuestreo,
el tramado (dithering) y la conformación del ruido (noise shaping). También
conoceremos las codificaciones principales que actualmente se utilizan para
el audio y distinguiremos entre codificadores de audio generalistas y codifica-
dores específicos para la voz. En este módulo veremos cómo se utiliza la psi-
coacústica, es decir, las características de la percepción del sonido en el oído
humano, para mejorar la eficiencia de los codificadores. Finalmente, la última
parte del cuarto módulo está dedicada a presentar los formatos de ficheros de
audio más utilizados en el mundo digital, para almacenamiento o transmisión,
sobre todo en el ámbito de redes IP, como Internet.

En el quinto�módulo conoceremos un ejemplo real del modo como se aplica la

teoría vista en los módulos anteriores en el campo del procesamiento de audio:
la creación de efectos sonoros. Después de presentar qué es un efecto digital de
audio haremos una pequeña introducción a los efectos digitales de audio más
habituales, sobre todo en el mundo de la producción musical, proporcionando
–junto a las bases teóricas del procesamiento digital de la señal de los sistemas
que los generan– ejemplos y referenciando creaciones musicales que puedan
resultaros fáciles de encontrar.

El tercer bloque de la asignatura presenta dos aplicaciones de procesamiento

de audio, pero centradas en el ámbito del habla: el reconocimiento y la síntesis
del habla. Este bloque está formado por los módulos 6, 7 y 8.
CC-BY-NC-ND • PID_00154788 5 Procesamiento de audio

El sexto�módulo es un módulo introductorio a las características del habla que

nos permitirá tener los conocimientos básicos para entender los fundamentos
de las técnicas presentadas en los módulos siguientes. Antes de nada, veremos
cómo se produce la voz en el sistema fonador humano y cuáles son las carac-
terísticas acústicas de la voz. Por último, haremos el paso entre la acústica y
la fonética para presentar cómo se clasifican fonéticamente todos los sonidos
que somos capaces de articular.

En el séptimo�módulo introducimos el concepto de reconocimiento automá-

tico del habla y haremos un repaso de las técnicas más importantes. Concre-
tamente, analizaremos dos de las etapas de los reconocedores: la extracción
de características acústicas sobre las que se basará el reconocimiento y el al-
goritmo de reconocimiento. Veremos cómo se puede transformar el reconoci-
miento en un problema de búsqueda, utilizando modelos acústicos y modelos
de lenguaje valorados previamente para reducir su complejidad. Por último,
conoceremos las herramientas que nos permiten medir el grado de “bueno”
de un reconocedor.

El octavo�módulo está dedicado a la síntesis del habla. Concretamente, ve-

remos los convertidores de texto a voz, cuya finalidad es transformar en voz
cualquier texto escrito. Dentro de todas las técnicas que hay para sintetizar
voz, este módulo focaliza el tema en los sistemas de síntesis por concatena-
ción, resaltando la importancia que tiene el corpus (o base de datos), tanto
en la selección de los segmentos que se deben concatenar como en la calidad
final de la voz sintetizada. Como en el módulo séptimo, proporcionaremos
herramientas para medir la calidad de los convertidores de texto a voz para
poderlos comparar entre sí.
CC-BY-NC-ND • PID_00154788 6 Procesamiento de audio

Actividades
Conceptos�de�señales�y�sistemas

1. Dibujad una señal analógica, una señal discreta en tiempo y una señal digital.

2. ¿Qué puede ayudar a mejorar la reconstrucción ideal, si nos fijamos en el convertidor A/D?

Diseño�y�análisis�de�filtros�en�procesamiento�de�audio

3. ¿Cuál es la respuesta impulsional del filtro paso bajo ideal? Razonad por qué no es realizable
un filtro paso bajo ideal.

4. Haced un filtro paso bajo de orden 2 siguiendo el esquema del ejemplo [SLPF], con coefi-
ciente . ¿Qué se obtiene?

5. Hemos visto el diseño de dos grandes tipos de filtros: FIR e IIR. En esta actividad queremos
comparar estas dos variantes de filtros. La comparativa la llevaremos a cabo mediante la
herramienta del FDAtool ayudándonos del ejemplo del apartado 5.2.2.

En primer lugar, se pide que diseñéis con FDAtool un filtro paso banda con banda de paso
entre 4 kHz y 8 kHz, y atenuación de 6 dB en las frecuencias de 2 kHz y 10 kHz. Comparad
diferentes métodos FIR e IIR. ¿Cuál es el método que requiere un orden más bajo para cumplir
las especificaciones? ¿Cuál en este orden? Visualizad la resposta impulsional.

En segundo lugar, se pide que defináis unas especificaciones para un filtro paso alto. Uti-
lizad nuevamente FDAtool para diseñar un filtro IIR. Experimentad qué aproximación
(Butterworth,Txebyxev, inversa de Txebyxev o Cauer) cumple las especificaciones con el mí-
nimo orden y por qué.

6. Demostrad que la respuesta impulsional de un filtro IIR tiene un número infinito de mues-
tras diferentes de cero.

Introducción�a�la�acústica

7. En el diseño acústico de teatros, auditorios o cines, es muy importante tener en cuenta los
coeficientes de absorción de los materiales (como butacas, cortinas o moqueta) que se ponen
en las salas. Buscad en [Link] y poned un ejemplo de material muy absorbente
(con un ), un material medianamente absorbente ( ) y un material poco
absorbente ( ). Considerad como frecuencia 1 kHz.

8. Los fenómenos de reververación y eco dependen del solapamiento del sonido directo y re-
flejado. Vamos a analizar estos conceptos con un ejemplo práctico. Si la velocidad del sonido
es de 350 m/s y el objeto reflector introduce un camino extra de 10 m respecto al camino
directo, ¿qué retraso tendrá la señal reflejada respecto a la señal directa? ¿Se puede considerar
eco o será reverberación? ¿Qué sucede si el objeto reflector se encuentra a 50 m de la fuente?
Realizad la comprobación con Audacity.

9. Sabemos que hay diferentes formas de calcular el tiempo de reverberación. Vamos a ana-
lizarlas y compararlas con un ejemplo prá[Link] una sala rectangular de 3 × 4 × 5 m
(altura × anchura × profundidad). El techo es de madera; las paredes, de vidrio, y el suelo,
de parqué. Calculad el tiempo de reverberación para las frecuencias de 125 Hz, 250 Hz y 500
Hz, según Sabine, Eyring y Millington. Comentad si los tiempos que se obtienen son iguales
o diferentes y por qué.

La tabla siguiente muestra los coeficientes de absorción de los diferentes materiales utilizados:

Coeficiente 125 Hz 250 Hz 500 Hz

de absorción

Madera 0,15 0,11 0,10

Vidrio 0,18 0,06 0,04

Parqué 0,04 0,04 0,07

Codificación�del�audio
CC-BY-NC-ND • PID_00154788 7 Procesamiento de audio

10. Escribid la secuencia de 0 y 1 de la señal codificada de la siguiente figura:

11. ¿Qué cambios introduce la cuantificación logarítmica en un cuantificador uniforme para

que este cuantificador uniforme sea no uniforme?

12. Pensad cómo afecta aumentar el número de bits por muestra y la frecuencia de muestreo
en la cantidad de memoria necesaria para almacenar el audio codificado. Haced estas compa-
raciones para calidad CD (16 bits por muestra y 44,1 kHz) y para 24 bits por muestra y 96 kHz:

a) 30 minutos de música estéreo.

b) Y si lo guardábamos en formato MP3, con una tasa de bits de 128 kbps, ¿cuál sería el factor
de compresión?

Efectos�digitales�de�la�señal�de�audio

13. Identificad los efectos siguientes:

Audio original Audio con efecto Tipo de efecto

1 1

2 2

3 3

14. ¿Cuál es el diagrama de bloques de un sistema digital que introduce tres ecos en un audio
original y que aplica un trémolo solo al audio original?

15. Cread un efecto sonoro con Audacity. Abrid Audacity y grabad una palabra cualquiera.
Seleccionad la señal grabada y añadid el efecto eco. Podéis jugar con el factor de atenuación
(inverso de la ganancia) y el tiempo de retraso (siempre mayor de 50 milisegundos) para ver
cómo se modifica la señal. Ahora añadid un eco con un retraso de menos de 50 milisegundos.
¿Notáis alguna diferencia?

Reconocimiento�automático�del�habla

16. Los reconocedores de palabras clave, denominados también word spotting, se diseñan para
detectar solo las palabras que el usuario indica al sistema, y por lo tanto ignora el resto de
la voz. Entre las posibles implementaciones de estos reconocedores existe toda una familia
que se basa en hacer modelos HMM de toda la palabra clave que se ha de detectar. Estos
modelos, junto con modelos filler o garbage, que modelan el resto de la voz que no es una
palabra clave, se utilizan en el bloque de descodificación para encontrar una transcripción
del tipo siguiente: palabra clave, filler + palabra clave, filler + palabra clave + filler o palabra
CC-BY-NC-ND • PID_00154788 8 Procesamiento de audio

clave + filler. Indicad los pasos necesarios para introducir una palabra clave nueva en este
tipo de sistemas.

17. Calculad el porcentaje de error de inserción, sustitución y eliminación para la transcrip-

ción siguiente. ¿Cuál es el valor de la WER?

• Transcripción de referencia: “a la reunión asistieron diez personas”.

• Transcripción automática: “en la reunión dijeron sí diez personas”.

18. Buscad dos reconocedores del habla que incluyan el castellano entre los idiomas que
reconocen.

Síntesis�del�habla

19. Identificad qué bloques de un TTS basado en concatenación acústica hay que modificar
para introducir una voz en un idioma nuevo. ¿Y si se quiere introducir una voz nueva, pero
en un idioma de los que ya existen?

20. Buscad los puntos de síntesis y la secuencia de ventanas que se han de concatenar para
la señal de voz siguiente, si se quiere hacer una modificación de velocidad constante de 1,4
(es decir, una modificación de duración de 1/1,4) y una modificación de altura tonal de 1,1.

Instantes de análisis: 300 ms, 309 ms, 318 ms, 327 ms, 335,5 ms, 344 ms, 352 ms, 360 ms
y 368 ms.
CC-BY-NC-ND • PID_00154788 9 Procesamiento de audio

Solucionario
Conceptos�de�señales�y�sistemas

2. Por ejemplo, utilizar un cuantificador de más bits.

Diseño�y�análisis�de�filtros�en�procesamiento�de�audio

3. Es una sinc centrada en su origen. No es realizable porque la respuesta impulsional es

infinita.

4. y[n] = {1,3,6,9,12,15,18,21,24,27} (v(n) = [0;0], b = [1,1,1], M = 2)]

5. IIR elíptico de orden 4.

6. Cauer requiere el mínimo orden porque tiene un comportamiento con rizado de amplitud
constante en las bandas de paso y atenuada.

Introducción�a�la�acústica

7. Material muy absorbente: fibra de vidrio.

Material medianamente absorbente: alfombra sobre cemento.

Material poco absorbente: mármol.

8. En el primer caso, el retraso es de 28 ms; por lo tanto, se considera reverberación.

En el segundo caso, el retraso es de 142 ms; por lo tanto, se considera eco.

TR (s) 125 250 500

Sabine 0,77 1,64 1,82

Eyring 0,73 1,58 1,76

Millington 0,71 1,57 1,75

Codificación�del�audio

10.

0111 1001 1011 1100 1101 1110 1110 1111 1111 1111 1110 1110 1101 1100 1010 1001 0111
0110 0101 0011 0010 0001 0000 0000 0000 0000 0000 0001 0001 0010 0011 0101 0110

11. El cuantificador logarítmico incorpora previamente al cuantificador uniforme una etapa

de compresión y a la salida del cuantificador uniforme añade una expansión logarítmica que
modifica la señal.

12.

a) Calidad CD: [Link] bits; para la otra codificación: [Link] bits.

b) 230.400.000 bits, factor de compresión para calidad CD 11,025; para la otra codificación:
18.

Efectos�digitales�de�la�señal�de�audio

[Link]-wah, trémolo, eco.

14.
CC-BY-NC-ND • PID_00154788 10 Procesamiento de audio

15. Cuando el tiempo de retraso es más pequeño de 50 milisegundos, el efecto que se percibe
es una reverberación.

Reconocimiento�automático�del�habla

16.

1.º Generar la transcripción fonética de la palabra clave.

2.º Incluir la palabra clave en el diccionario del modelo de lenguaje.

3.º Generar el HMM de la palabra clave. Si podemos hacer grabaciones nuevas: hacer múlti-
ples grabaciones con diferentes usuarios de la palabra clave, procesar el audio y extraer los
MFCC y entrenar un único HMM. Si no podemos hacer grabaciones nuevas: generar el HMM
concatenando los HMM de los trifonemas que forman la palabra clave.

4.º Incluir el HMM generado en el modelo acústico del reconocedor de palabras clave.

5.º Opcionalmente, volver a valorar el HMM filler o los HMM filler.

Todos los cambios en el reconocedor de palabras clave se llevan a cabo en la fase de entrena-
miento. La fase de ejecución del sistema continúa igual.

17.

Porcentaje de error de inserción: 1/7 * 100 = 14,29%

Porcentaje de error de sustitución: 1/7 * 100 = 14,29%

Porcentaje de error de omisión: 1/7 * 100 = 14,29%

WER = 42,86%

18.

Veamos algún ejemplo:

Nuance

Loquendo

Microsoft

IBM

Verbio

Síntesis�del�habla

19. Para una voz nueva en un idioma nuevo:

Todo el módulo de procesamiento de lenguaje natural: el analizador morfosintáctico, el trans-

criptor fonético y el generador prosódico. El corpus de unidades acústicas (diseño del corpus
+ grabación + etiquetado).
CC-BY-NC-ND • PID_00154788 11 Procesamiento de audio

Para una voz nueva en un idioma que ya existe:

El corpus de unidades acústicas (grabación + etiquetado).

20. Primer instante de síntesis: 300 ms.

Primera ventana: 0.

Segundo instante de síntesis: 300 ms + (309 300)/1,1 = 308,18 ms.

Instante virtual central de la segunda ventana: 308,18 + (308,18 300) * 1,4 = 311,45 ms.

Segunda ventana: 1 (ventana con instante central más cercano a 311,45 ms).

Tercer instante de síntesis: 308,18 + (318 309)/1,1 = 316,36 ms.

Instante virtual central de la tercera ventana: 316,36 + (316,36 308,18) * 1,4 = 327,81 ms.

Tercera ventana: 3 (ventana con instante central más cercano a 327,81 ms).

Cuarto instante de síntesis: 316,36 + (335,5 327)/1,1 = 324,09 ms.

Instante virtual central de la cuarta ventana: 324,09 + (324,09 316,36) * 1,4 = 334,91 ms.

Cuarta ventana: 4 (ventana con instante central más cercano a 334,91 ms).

Quinto instante de síntesis: 324,09 + (344 335,5)/1,1 = 331,82 ms.

Instante virtual central de la quinta ventana: 331,82 + (331,82 324,09) * 1,4 = 342,64 ms.

Quinta ventana: 5 (ventana con instante central más cercano a 342,64 ms).

Sexto instante de síntesis: 331,82 + (352 344)/1,1 = 339,09 ms.

Instante virtual central de la sexta ventana: 339,09 + (339,09 331,82) * 1,4 = 349,27 ms.

Sexta ventana: 6 (ventana con instante central más cercano a 349,27 ms).

Séptimo instante de síntesis: 339,09 + (360 352)/1,1 = 346,36 ms.

Instante virtual central de la séptima ventana: 346,36 + (346,36 339,09) * 1,4 = 356,54 ms.

Séptima ventana: 7 (ventana con instante central más cercano a 356,54 ms).
CC-BY-NC-ND • PID_00154788 12 Procesamiento de audio

Contenidos

Módulo didáctico 1
Conceptos de señales y sistemas
Marta Ruiz Costa-jussà y Helenca Duxans Barrobés
1. Señales y sistemas
2. Transformación del dominio temporal al dominio frecuencial

Módulo didáctico 2
Diseño y análisis de filtros en procesamiento de audio
Marta Ruiz Costa-jussà y Helenca Duxans Barrobés
1. Concepto y tipos de filtros. ¿Por qué se debe aprender cómo funciona
un filtro?
2. Conceptos básicos para el diseño de filtros digitales
3. Filtros reales: plantilla de especificación de un filtro
4. Diseño de filtros digitales
5. De la teoría a la práctica

Módulo didáctico 3
Introducción a la acústica
Marta Ruiz Costa-jussà y Helenca Duxans Barrobés
1. Definición y caracterización del sonido y del ruido
2. Percepción humana del sonido. Fenómenos sonoros
3. Fuentes sonoras y propagación del sonido

Módulo didáctico 4
Codificación del audio
Marta Ruiz Costa-jussà y Helenca Duxans Barrobés
1. Introducción al audio digital
2. Cuantificación
3. Cuantificación inversa
4. Procesos del audio digital
5. Clasificación de los codificadores de audio
6. Codificadores de forma de onda
7. Codificadores perceptivos
8. Codificaciones específicas para voz
9. Formatos de ficheros de audio

Módulo didáctico 5
Efectos digitales de la señal de audio
Helenca Duxans Barrobés y Marta Ruiz Costa-jussà
1. Introducción y clasificación de los efectos digitales de audio
2. Efectos sonoros basados en retardadores
3. Efectos sonoros basados en moduladores
4. Efectos sonoros basados en sistemas lineales
CC-BY-NC-ND • PID_00154788 13 Procesamiento de audio

5. Efectos sonoros basados en sistemas no lineales

6. Otros tipos de efectos

Módulo didáctico 6
Introducción al habla
Helenca Duxans Barrobés y Marta Ruiz Costa-jussà
1. Introducción a las tecnologías del habla
2. La producción de la voz en tres pasos
3. Propiedades acústicas de la señal de voz
4. Clasificación fonética de los sonidos
5. Unidades acústicas utilizadas en las tecnologías del habla

Módulo didáctico 7
Reconocimiento automático del habla
Helenca Duxans Barrobés y Marta Ruiz Costa-jussà
1. Introducción al reconocimiento automático del habla
2. Aplicaciones de los reconocedores automáticos del habla
3. Funcionamiento básico de los reconocedores
4. El módulo de extracción de características
5. El módulo de descodificación
6. Técnicas de adaptación
7. Evaluación de la transcripción automática

Módulo didáctico 8
Síntesis del habla
Helenca Duxans Barrobés y Marta Ruiz Costa-jussà
1. Introducción a la síntesis del habla
2. Aplicaciones de los convertidores de texto a voz
3. Los convertidores de texto a voz
4. Síntesis por concatenación
5. Modificaciones prosódicas
6. Medidas de calidad de la voz sintetizada
CC-BY-NC-ND • PID_00154788 14 Procesamiento de audio

Bibliografía

Carrión Isbert, A. (1998). Diseño acústico de espacios arquitectónicos. Barce-

lona: Edicions UPC.

Cremer, L.; Muller, H. A. (1982). Principles and Applications of Room

Acoustics(vol. 1). Londres: Applied Science Publishers.

ETSI SE 202 050 V1.1.1 (2002-2010). “Speech processing, transmission and

quality aspects (STQ); distributed speech recognition; advanced frente-end
feature extraction algorithm; compression algorithms” (ref. DES/STQ-00008)

Franco Contadini, M. (2010). “Oversampling with averaging to increase

ADC resolution”.

González, M. D. (2006). “Comparación de filtros FIR de fase lineal, por Mé-

todo Óptimo y de Ventanas”.

Iosu, D. (1999). “Análisis de Fourier”.

Irizar Picón, A. (2002). “Tratamiento Digital de Señal”.

Kompis, M.; Dillier, N. (1993). “Simulating transfer functions in a reverbe-

rant room including source directivity and head-shadow effects”.JASA(núm.
93, pág. 2779-2787).

Lamba, D. (2010). “Audio Signal Filtering”.

Mariño, J. B. y otros (1999). Tratamiento digital de la señal: una introducción

experimental. Barcelona: Edicions UPC.

McClellan, J. H.; Parks, T. W. (2005). “A personal history of the Parks-

McClellan algorithm”. Signal Processing Magazine, IEEE (vol. 22, núm. 2, marzo,
pág. 82-86). Atlanta, GA, EE. UU.: Georgia Institute of Technology.

Molina, R. (2008). “Cuantificación Escalar”.

Moreno, A. (2003). “Cuantificación”. Universitat Politècnica de Catalunya.

Wagner, B.; Barr, M. (2007). “Filtres FIR i IIR”.

Proakis, J. G.; Manolakis, D. G. (2007). Tratamiento digital de señales. Ma-

drid: Pearson Prentice Hall.

Smith, J. O. (2008, octubre). “Spectral Audio Signal Processing”.

Smith, J. O. (2011). . “Amplitude response”.

[Link] (2012). “Filtros analógicos”.

Zawistowski, Th.; Shah, P. (2005). “An Introduction to Sampling Theory”.

También podría gustarte

UNSO - Procesos Digitales 1 - Programa 2024 Con Notas EDGAR
Aún no hay calificaciones
UNSO - Procesos Digitales 1 - Programa 2024 Con Notas EDGAR
6 páginas
Cartilla U4 Semana 7
Aún no hay calificaciones
Cartilla U4 Semana 7
10 páginas
UNSO - Procesos Digitales 1 - Programa 2024
Aún no hay calificaciones
UNSO - Procesos Digitales 1 - Programa 2024
5 páginas
Sistema embebido para procesamiento de audio
Aún no hay calificaciones
Sistema embebido para procesamiento de audio
158 páginas
Transmision de Audio
Aún no hay calificaciones
Transmision de Audio
11 páginas
Sonido Digital I: Acústica y Edición
Aún no hay calificaciones
Sonido Digital I: Acústica y Edición
5 páginas
Audio Digital
Aún no hay calificaciones
Audio Digital
12 páginas
Fundamentos de Audio
Aún no hay calificaciones
Fundamentos de Audio
14 páginas
Fundamentos del Audio y Edición Digital
Aún no hay calificaciones
Fundamentos del Audio y Edición Digital
5 páginas
Procesamiento de Audio: Técnicas y Aplicaciones
Aún no hay calificaciones
Procesamiento de Audio: Técnicas y Aplicaciones
9 páginas
Voz a Texto con Modulación ASK en MATLAB
Aún no hay calificaciones
Voz a Texto con Modulación ASK en MATLAB
63 páginas
Procesamiento de Audio e Imagen HD
Aún no hay calificaciones
Procesamiento de Audio e Imagen HD
12 páginas
UNSO - Procesos Digitales - Programa 2024
Aún no hay calificaciones
UNSO - Procesos Digitales - Programa 2024
4 páginas
Procesamiento de Audio (Modulo 4)
Aún no hay calificaciones
Procesamiento de Audio (Modulo 4)
44 páginas
1 Estudio de La Tecnología de La Música Introducción
Aún no hay calificaciones
1 Estudio de La Tecnología de La Música Introducción
5 páginas
Planeación de Clases de Sonido Digital
Aún no hay calificaciones
Planeación de Clases de Sonido Digital
4 páginas
Tema - 6 - Procesadores de Audio
Aún no hay calificaciones
Tema - 6 - Procesadores de Audio
40 páginas
Avances
Aún no hay calificaciones
Avances
6 páginas
Temint Sonido
Aún no hay calificaciones
Temint Sonido
3 páginas
Ut. 1 Sonido Y Audio Analógico Y Digital: Electroacústica
Aún no hay calificaciones
Ut. 1 Sonido Y Audio Analógico Y Digital: Electroacústica
35 páginas
Sonido Digital I Lucas Samaruga Regular
Aún no hay calificaciones
Sonido Digital I Lucas Samaruga Regular
5 páginas
Curso de Tratamiento Digital de Sonido
Aún no hay calificaciones
Curso de Tratamiento Digital de Sonido
4 páginas
Máster en Acústica y Sonología
Aún no hay calificaciones
Máster en Acústica y Sonología
22 páginas
Tecnologías del Sonido en Comunicación Audiovisual
Aún no hay calificaciones
Tecnologías del Sonido en Comunicación Audiovisual
4 páginas
Simulación de LPC en Procesamiento de Voz
Aún no hay calificaciones
Simulación de LPC en Procesamiento de Voz
15 páginas
Módulo de Electroacústica 1º Audiovisuales
Aún no hay calificaciones
Módulo de Electroacústica 1º Audiovisuales
13 páginas
Procesamiento de Voz en Tiempo Real
Aún no hay calificaciones
Procesamiento de Voz en Tiempo Real
124 páginas
Captura y Procesamiento de Sonido en Tie
100% (1)
Captura y Procesamiento de Sonido en Tie
158 páginas
Imsv38 Tecnicas de Sonido
Aún no hay calificaciones
Imsv38 Tecnicas de Sonido
9 páginas
Proyecto de Aula 2024-1 - SyS
Aún no hay calificaciones
Proyecto de Aula 2024-1 - SyS
11 páginas
Procesamiento de Señales de Audio
100% (3)
Procesamiento de Señales de Audio
7 páginas
P1 FFT - TiempoReal - 1
Aún no hay calificaciones
P1 FFT - TiempoReal - 1
10 páginas
Procesamiento Digital de Voz e Imagen
Aún no hay calificaciones
Procesamiento Digital de Voz e Imagen
5 páginas
Codificación y Compresión de Fuentes
Aún no hay calificaciones
Codificación y Compresión de Fuentes
58 páginas
Procesador de Audio Digital para Radios FM PDF
100% (1)
Procesador de Audio Digital para Radios FM PDF
61 páginas
Cronograma Teoría y Práctica del Sonido
Aún no hay calificaciones
Cronograma Teoría y Práctica del Sonido
2 páginas
Fundamentos de Acústica Aplicada
Aún no hay calificaciones
Fundamentos de Acústica Aplicada
2 páginas
Reconocimiento de Voz y Fonética Acústica
Aún no hay calificaciones
Reconocimiento de Voz y Fonética Acústica
317 páginas
Procesamiento Digital de Voz
Aún no hay calificaciones
Procesamiento Digital de Voz
9 páginas
Aislamiento Acústico Practico
Aún no hay calificaciones
Aislamiento Acústico Practico
2 páginas
Edición y Procesado Digital de Sonido
Aún no hay calificaciones
Edición y Procesado Digital de Sonido
52 páginas
Tesis Analisis y Procesamiento de Senales Digitales
100% (2)
Tesis Analisis y Procesamiento de Senales Digitales
107 páginas
Técnicas en Composición Electroacústica
Aún no hay calificaciones
Técnicas en Composición Electroacústica
14 páginas
Técnicas en Composición Electroacústica
Aún no hay calificaciones
Técnicas en Composición Electroacústica
14 páginas
Tesis Sat Amh
Aún no hay calificaciones
Tesis Sat Amh
107 páginas
Formatos de Audio y Video en Streaming
Aún no hay calificaciones
Formatos de Audio y Video en Streaming
23 páginas
Curso de Producción Musical Online
Aún no hay calificaciones
Curso de Producción Musical Online
4 páginas
Procesamiento de Señal
Aún no hay calificaciones
Procesamiento de Señal
4 páginas
Tecnicas y Materiales Electroacusticos 2014
Aún no hay calificaciones
Tecnicas y Materiales Electroacusticos 2014
10 páginas
Acustica y Sonido PDF
100% (3)
Acustica y Sonido PDF
168 páginas
Códecs de Compresión de Audio: Métodos y Tipos
Aún no hay calificaciones
Códecs de Compresión de Audio: Métodos y Tipos
20 páginas
Conversión A/D en Audio y Video
Aún no hay calificaciones
Conversión A/D en Audio y Video
19 páginas
Programación de Sonología y Musicología
Aún no hay calificaciones
Programación de Sonología y Musicología
4 páginas
La Bateria Gonzalo
Aún no hay calificaciones
La Bateria Gonzalo
10 páginas
Movimiento Oscilatorio: Análisis y Cálculos
Aún no hay calificaciones
Movimiento Oscilatorio: Análisis y Cálculos
5 páginas
Simulación de Ondas Sonoras en Acústica Subacuática
Aún no hay calificaciones
Simulación de Ondas Sonoras en Acústica Subacuática
126 páginas
Contaminantes Físicos en Minería: Ruido y Vibraciones
Aún no hay calificaciones
Contaminantes Físicos en Minería: Ruido y Vibraciones
9 páginas
Activación del Merkaba de Luz
100% (11)
Activación del Merkaba de Luz
21 páginas
Seguimiento y Evaluación Curricular 1° Grado
Aún no hay calificaciones
Seguimiento y Evaluación Curricular 1° Grado
4 páginas
Ejercicios y Propiedades de Logaritmos
100% (1)
Ejercicios y Propiedades de Logaritmos
4 páginas
Sonido, Ruido y Silencio: Definiciones
Aún no hay calificaciones
Sonido, Ruido y Silencio: Definiciones
4 páginas
Acordes de Quinta para Guitarra
Aún no hay calificaciones
Acordes de Quinta para Guitarra
7 páginas
Electroglotografia
Aún no hay calificaciones
Electroglotografia
11 páginas
Introducción al Beat-Juggling
Aún no hay calificaciones
Introducción al Beat-Juggling
7 páginas
Dramaturgia de Neuquén: Homenaje a Finzi
Aún no hay calificaciones
Dramaturgia de Neuquén: Homenaje a Finzi
11 páginas
Ejercicios de Fonación y Resonancia
100% (1)
Ejercicios de Fonación y Resonancia
2 páginas
Suma de Decibeles PDF
Aún no hay calificaciones
Suma de Decibeles PDF
5 páginas
Cuadro Sinoptico de La Acustica Del Sonido
50% (2)
Cuadro Sinoptico de La Acustica Del Sonido
1 página
Ruedas de Coplas en Jujuy: Experiencias Sociales
Aún no hay calificaciones
Ruedas de Coplas en Jujuy: Experiencias Sociales
29 páginas
Catalogo de Cuerdas de Guitarra Knobloch
Aún no hay calificaciones
Catalogo de Cuerdas de Guitarra Knobloch
5 páginas
Estrategias de Intervención Vocal
Aún no hay calificaciones
Estrategias de Intervención Vocal
44 páginas
MUSICA - Primaria - 6° 2019 PDF
100% (5)
MUSICA - Primaria - 6° 2019 PDF
10 páginas
Primaria Sexto Grado Educacion Artistica Libro de Texto PDF
0% (2)
Primaria Sexto Grado Educacion Artistica Libro de Texto PDF
98 páginas
Tipos de micrófonos y su clasificación
Aún no hay calificaciones
Tipos de micrófonos y su clasificación
6 páginas
Taller Musical: Colores y Violín 2020
Aún no hay calificaciones
Taller Musical: Colores y Violín 2020
1 página
Programa de Piano 2do Año - Conservatorio
Aún no hay calificaciones
Programa de Piano 2do Año - Conservatorio
5 páginas
El Sonido para Cuarto de Primaria
Aún no hay calificaciones
El Sonido para Cuarto de Primaria
4 páginas
Propiedades Eléctricas de la Madera
Aún no hay calificaciones
Propiedades Eléctricas de la Madera
80 páginas
El Fotoliptófono: Innovación Sonora
Aún no hay calificaciones
El Fotoliptófono: Innovación Sonora
14 páginas
Apuntes de Sonido
100% (1)
Apuntes de Sonido
21 páginas
Introducción a la Apreciación Musical
Aún no hay calificaciones
Introducción a la Apreciación Musical
6 páginas
Contenidos-PDA Primaria - FASE 3
Aún no hay calificaciones
Contenidos-PDA Primaria - FASE 3
18 páginas
NTC2884
Aún no hay calificaciones
NTC2884
23 páginas