Manuel Bizuet Nava Aguilera
La sntesis de habla es la produccin artificial de habla humana. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS). Un sistema que usa la sntesis de habla recibe el nombre de sintetizador de habla.
Su inteligibilidad: Con qu facilidad/dificultad es entendida?.
Su naturalidad: En qu medida se asemeja a la voz real de un humano?
En 1779, Christian Gottlieb Kratzenstein construy modelos del tracto vocal que podra producir las cinco vocales largas.
Wolfgang von Kempelen describi una mquina accionada con un fuelle. Esta mquina tena, adems, modelos de la lengua y los labios, para producir consonantes, as como vocales.
En 1837 Charles Wheatstone produjo una 'mquina parlante' basada en el diseo de von Kempelen En 1857 M. Faber construy la mquina 'Euphonia En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER
Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas.
El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 El primer sistema completo texto a voz se finaliz en 1968.
Sntesis concatenativa
Sntesis de formantes Sntesis articulatoria
Sntesis por seleccin de unidades
Sntesis de difonos
Sntesis especfica para un dominio
Sntesis por seleccin de unidades
Utiliza una base de datos de voz grabada Durante la creacin de la base de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones.
Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido.
Sntesis de difonos
Usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos depende de la fonotctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes
Sntesis especfica para un dominio
Concatena palabras y frases grabadas para crear salidas completas. Se usa en aplicaciones donde la variedad de textos que el sistema puede producir est limitada a un particular dominio, como anuncios de salidas de trenes o informacin meteorolgica.
No usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial.
Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial
Se basa en modelos computacionales del tracto vocal y el proceso de articulacin. Pocos de los modelos son suficientemente avanzados o eficientes computacionalmente para ser usados en sistemas comerciales de sntesis de voz. El sistema, que fue comercializado por primera vez en 1994, proporciona una conversin texto a voz articulatoria completa mediante una analoga de gua de onda o lnea de transmisin de los tractos vocal y nasal humanos.
Desafos de la normalizacin de texto
Desafos de los sistemas Texto a fonema
Desafos de la normalizacin de texto
Los textos estn llenos de homgrafos, nmeros y abreviaturas que tienen que ser transformados en una representacin fontica. Muchos sistemas de texto a voz no generan representaciones semnticas de los textos de entrada. Decidir cmo convertir nmeros en palabras es otro problema. De esta misma forma podemos tener las abreviaturas.
Desafos de los sistemas Texto a fonema
Los sintetizadores de voz usan dos aproximaciones bsicas al problema de determinar la conversin texto a fonema. La aproximacin ms simple es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. La otra aproximacin es la basada en reglas, donde dichas reglas se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita.
El rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico. Los Conversores de Texto-Voz producen generalmente voz de hombre.
Las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos. La voz masculina ofrece mejor calidad sonora que la femenina.
En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable.