0% encontró este documento útil (0 votos)
51 vistas17 páginas

Presentacion Síntesis de Voz

La síntesis de habla, conocida como text-to-speech (TTS), es la producción artificial de voz humana mediante sintetizadores. A lo largo de la historia, se han desarrollado diversas tecnologías y métodos, desde máquinas del siglo XVIII hasta sistemas computarizados modernos, que enfrentan desafíos como la naturalidad y la inteligibilidad del habla. Los sintetizadores actuales utilizan diferentes enfoques, como la síntesis concatenativa y la síntesis de formantes, aunque muchos todavía presentan un sonido robótico.

Cargado por

Manix_Nava
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
51 vistas17 páginas

Presentacion Síntesis de Voz

La síntesis de habla, conocida como text-to-speech (TTS), es la producción artificial de voz humana mediante sintetizadores. A lo largo de la historia, se han desarrollado diversas tecnologías y métodos, desde máquinas del siglo XVIII hasta sistemas computarizados modernos, que enfrentan desafíos como la naturalidad y la inteligibilidad del habla. Los sintetizadores actuales utilizan diferentes enfoques, como la síntesis concatenativa y la síntesis de formantes, aunque muchos todavía presentan un sonido robótico.

Cargado por

Manix_Nava
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Manuel Bizuet Nava Aguilera

La sntesis de habla es la produccin artificial de habla humana. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS). Un sistema que usa la sntesis de habla recibe el nombre de sintetizador de habla.

Su inteligibilidad: Con qu facilidad/dificultad es entendida?.

Su naturalidad: En qu medida se asemeja a la voz real de un humano?

En 1779, Christian Gottlieb Kratzenstein construy modelos del tracto vocal que podra producir las cinco vocales largas.

Wolfgang von Kempelen describi una mquina accionada con un fuelle. Esta mquina tena, adems, modelos de la lengua y los labios, para producir consonantes, as como vocales.

En 1837 Charles Wheatstone produjo una 'mquina parlante' basada en el diseo de von Kempelen En 1857 M. Faber construy la mquina 'Euphonia En los aos 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y sintetizador del habla operado por teclado que era claramente inteligible. Homer Dudley refin este dispositivo y creo VODER

Los primeros sintetizadores de voz sonaban muy robticos y eran a menudo inteligibles a duras penas.

El primer sistema de sntesis computarizado fue creado a final de la dcada de 1950 El primer sistema completo texto a voz se finaliz en 1968.

Sntesis concatenativa
Sntesis de formantes Sntesis articulatoria

Sntesis por seleccin de unidades

Sntesis de difonos

Sntesis especfica para un dominio

Sntesis por seleccin de unidades

Utiliza una base de datos de voz grabada Durante la creacin de la base de datos, el habla se segmenta en algunas o todas de las siguientes unidades: fonemas, slabas, palabras, frases y oraciones.

Normalmente, la divisin en segmentos se realiza usando un reconocedor de voz modificado para forzar su alineamiento con un texto conocido.

Sntesis de difonos

Usa una base de datos mnima conteniendo todos los difonos que pueden aparecer en un lenguaje dado. El nmero de difonos depende de la fonotctica del lenguaje: el espaol tiene unos 800 difonos, el alemn unos 2500. La calidad del habla resultante es generalmente peor que la obtenida mediante seleccin de unidades pero ms natural que la obtenida mediante sintetizacin de formantes

Sntesis especfica para un dominio

Concatena palabras y frases grabadas para crear salidas completas. Se usa en aplicaciones donde la variedad de textos que el sistema puede producir est limitada a un particular dominio, como anuncios de salidas de trenes o informacin meteorolgica.

No usa muestras de habla humana en tiempo de ejecucin. En lugar de eso, la salida se crea usando un modelo acstico. Parmetros como la frecuencia fundamental y los niveles de ruido se varan durante el tiempo para crear una forma de onda o habla artificial.

Muchos sistemas basados en sntesis de formantes generan habla robtica y de apariencia artificial

Se basa en modelos computacionales del tracto vocal y el proceso de articulacin. Pocos de los modelos son suficientemente avanzados o eficientes computacionalmente para ser usados en sistemas comerciales de sntesis de voz. El sistema, que fue comercializado por primera vez en 1994, proporciona una conversin texto a voz articulatoria completa mediante una analoga de gua de onda o lnea de transmisin de los tractos vocal y nasal humanos.

Desafos de la normalizacin de texto

Desafos de los sistemas Texto a fonema

Desafos de la normalizacin de texto

Los textos estn llenos de homgrafos, nmeros y abreviaturas que tienen que ser transformados en una representacin fontica. Muchos sistemas de texto a voz no generan representaciones semnticas de los textos de entrada. Decidir cmo convertir nmeros en palabras es otro problema. De esta misma forma podemos tener las abreviaturas.

Desafos de los sistemas Texto a fonema

Los sintetizadores de voz usan dos aproximaciones bsicas al problema de determinar la conversin texto a fonema. La aproximacin ms simple es la basada en diccionario, donde se almacena en el programa un gran diccionario que contiene todas las palabras de la lengua y su correcta pronunciacin. La otra aproximacin es la basada en reglas, donde dichas reglas se aplican a palabras para extraer sus pronunciaciones basadas en su forma escrita.

El rechazo por parte de los usuarios que no le perdonan su falta de naturalidad y su timbre robtico. Los Conversores de Texto-Voz producen generalmente voz de hombre.

Las personas que trabajaban en los laboratorios eran hombres y stos empleaban su propia voz durante los experimentos. La voz masculina ofrece mejor calidad sonora que la femenina.

En los ltimos tiempos han aparecido sintetizadores que utilizan voz de mujer de calidad aceptable.

También podría gustarte