Capitulo II.
Sntesis de Voz
La Sntesis de voz, como ya lo mencionbamos, es traducir o procesar una voz o
seal de audio a partir de un texto dado [Schmandt, 1994], nos sirve como herramienta
para apoyar el crecimiento en los avances que hoy en da se estn dando. En si es una
emulacin que realiza el ser humano por medio de las cuerdas vocales.
La sntesis de Voz, realizada a travs de los TTS (Text to Speech) o sistemas de
procesamiento de texto al habla, son sistemas que transforman texto introducido (ya sea
por algn operador o capturado por otro medio, como el OCR, Optical Code Register)
en sonidos que podemos reconocer como voz [Meza, 1999].
2.1 Mtodos existentes para la sntesis de voz
Sintetizadores Articulatorios
El objetivo de estos sintetizadores es controlar un modelo del aparato fonador,
de manera similar como lo hace el cerebro al construir los parmetros circuitales, estos
tienen la dificultad para la obtencin de los parmetros, es decir, presenta dificultades
en el anlisis de la posicin de los rganos articulatorios de una persona que habla
normalmente. Esto hace que no sean desarrollados con frecuencia.
Todo tipo de sintetizador que contenga este tipo de sntesis, estn basados en
mecanismos naturales del procesamiento de la voz, sus parmetros son, el tamao de la
cavidad oral, la traquea y la posicin en la que se encuentre la lengua. [Meza, 1999]. El
habla o las producciones de palabras que son generadas por el ser humano, son
analizadas de acuerdo con un modelo de produccin de la misma, y esta a su vez
almacena los valores caractersticos como secuencias en el tiempo.
Al poder almacenar de esta manera la informacin, redituara en varias ventajas,
ya que se reducir la cantidad de informacin as como los parmetros que sean
almacenados. Con esto se pude controlar los ritmos, entonaciones y expresiones dentro
de las pronunciaciones, pero se corre el riesgo de afectar la naturalidad de la voz, y esto
causara que el sistema no funcionara correctamente.
Dentro de los trminos reales, las aplicaciones comerciales no existen, ya que los
experimentos han sido realizados para la realizacin y comprobacin de esta tcnica, y
son muy costosos para poder comercializarse. [Barbosa, 1997].
Sintetizadores por Formantes
Constituidos por filtros que tienen la tarea de modelar la resonancia del tracto
vocal, su ventaja es que trabaja de manera directa con los parmetros que mantienen una
comunicacin directa con el habla, adems de que son fcilmente manipulables en el
control del sintetizador.
Sntetizadores paramtricos
Es la emulacin de la onda sonora que reproduce el ser humano, esto se da
cuando se copian los patrones al formarlas, y son lneas y picos de energa que pueden
apreciarse en un espectrograma.
Algunas de las resonancias entre las que se encuentran la nasal y la oral, no son
mezcladas, pero si existe un cambio en el movimiento dentro de los rganos
articulatorios. En particular, donde se encuentran estos rganos, principalmente los
articulatorios, existe un formante que produce este cambio en una posicin, y se le llama
frecuencia fundamental y es denominado como (f1), y as consecutivamente.
El identificador entre persona y persona es conocido como la frecuencia
fundamental, ya que este varia dependiendo del modo, nfasis, y expresiones con las
que sea pronunciada, pero la magnitud y la relacin de las frecuencias de los formantes,
es la que facilita que la voz pueda o no ser identificable. [Rowden, 1991].
Sintetizadores por concatenacin
Estos sintetizadores intentan reducir al mximo el ruido de la codificacin, y se
realiza por medio de una concatenacin de unidades digitalizadas que son grabadas
previamente y es ajustada a la nueva produccin de frase por medio de la prosodia
original. En especial, dentro de estos sintetizadores se encuentran los que utilizan la
seleccin de unidades por medio de una concatenacin dependiendo de sus
caractersticas prosdicas. Este ser nuestro caso y el tipo de sintetizador ser en base a
lo llamado UNIT SELECTION.
Un sintetizador del tipo concatenativo, es decir que forma la voz pegando
unidades de voz digitalizadas, como lo son los fonemas, di fonemas, silabas, etc.
[Meza, 1999]. Dentro de la investigacin se encontr que este tipo de sintetizador es
usado por sistema o programa de sntesis de voz, llamado Festival TTS, con el cual se
trabaja para ofrecer mejores resultados.
Algunos de los segmentos que son utilizados en la sntesis concatenativa, son
almacenadas a partir de grabaciones hechas por algn locutor con el propsito de
conservar las propiedades fonolgicas de los segmentos [Barbosa, 1997]. Este
sintetizador debe elegir algunos o los mejores candidatos para poder ser concatenados
de acuerdo con la trascripcin fontica que se hay realizado con anterioridad para
despus ser concatenada.
10
La concatenacin se puede dar de varias formas:
A partir de fonemas: son las unidades naturales que dan plasticidad a los
sistemas de voz, y es costeable por el contenido de unidades. Dentro del espaol
hay 18 consonantes, 23 fonemas y 5 vocales [Uraga, 1999], pero a su vez estas
estn sometidas a variaciones contextuales, y dado esto se puede tener una mala
pronunciacin, por la calidad generada.
A partir de di fonemas: Estos, son las unidades que se consideran
coarticuladas, ya que dependen del contexto que se encuentre a sus lados, es
decir a la derecha o a la izquierda. Especficamente es la unin de dos fonemas,
y existen 232
posibles di fonemas, que son el resultado de la combinacin de
las 23 unidades que se manejan en el vocabulario de nuestra lengua.
A partir de trifonemas: Es el tipo de concatenacin de mejor calidad ya
que las coarticulaciones son generadas a partir de los contextos que contienen
una parte derecha y una izquierda, es decir, toma la mitad del primer fonema, el
segundo fonema es tomado por completo, y el tercero lo toma solo en su mitad.
El inconveniente que se presenta en este tipo de concatenacin, es que no todas
las frases se pueden representar por este medio, y es cuando recurre a los
fonemas y di fonemas para poder realizar la concatenacin de una frase.
A partir de la Concatenacin de Slabas: Este tipo de concatenacin es
usado en el proyecto realizado por Leonardo Flores, lo realiza a partir de las
longitudes en la coarticulacin, hace uso de los fonemas y trifonemas y hace
referencia a que las unidades pueden ser mas grandes y mas completas segn
[Rownden, 1991].
11
A partir de la Concatenacin de Palabras: Esta concatenacin es la del
mas alto nivel, ya que se obtiene mayor naturalidad en la voz, y es la que
principalmente utilizaremos en el desarrollo de este proyecto, usando un corpus
de voz mas grande, realizado por Martn, compaero que realizo la creacin del
corpus de voz a usar, este corpus se ha etiquetado en su mayora e incluye dos
tipos de voz, es decir de hombre y de mujer,
2.2 Como crear la Voz en una Computadora
El poder convertir un texto, cualquiera que este sea, a una seal de audio, es el
propsito fundamental de esta investigacin, en la actualidad se cuenta con un
sintetizador dentro de laboratorio de automatizacin de voz ( TLATOA ) dentro de la
UDLA, tomando en cuenta el trabajo de otro compaero, se mejorara el desarrollo del
sintetizador ya creado, para obtener una mejor claridad de sonido y pronunciacin.
Es necesario conocer los dispositivos que, dentro de los sistemas
computacionales nos ayudaran a la creacin de dicho sintetizador as como los
elementos requeridos para el procesamiento de la voz y seal, as que esto se explicara
en este capitulo.
2.2.1 Cmo se Procesa la voz
En las tecnologas actuales existen preocupacin por la manipulacin de cmo se
lleva a cabo el proceso de una voz a travs de una computadora, pero para esto esta el
reconocimiento y la sntesis de voz, estos dos son esenciales para los medios de
comunicacin como la comunicacin Humano Computadora.
El hombre produce una seal acstica, que da como resultado lo que llamamos
reconocimiento de voz, a diferencia de la sntesis, ya es lo contrario, esta va de la
traduccin de un texto a la seal de audio.
12
Dado que todo este proceso necesita ser llevado a cabo en lo mejor posible,
necesitamos poder interpretar claramente lo que es la seal de voz. Para ello contamos
con la digitalizacin del audio con las transformaciones de Fourier. Estas
transformaciones estn dadas por unos sinusoides que integran la seal, se da en una
muestra de estos mismos para que puedan ser representadas.
El teorema de Nyquist [Witten, 1986], nos dice que el muestreo de la frecuencia
necesaria para poder convertir una seal anloga a digital se necesita el doble de la seal
de voz para que esta pueda ser procesada, es decir necesitamos entre (8 Khz.) si es que
la seal contiene de (0 a 4 khz.) [Vargas, 2001], y para que pueda reproducirse en un
sistema se alta calidad son necesarios 16 khz.
Ya que la voz que hemos procesado ha sido totalmente digitalizada, es necesario
que se lleve a cabo un proceso de codificacin, esto es, debemos encapsular toda la
informacin que se ha ido almacenando de todas las muestras tomadas, sin este proceso
la informacin puede llegar a un punto donde se pierda la seal, y desarrollando el
proceso, podemos regenerar la seal, si es que se ha perdido.
Esto se realiza con una tcnica llamada PCM, que es la modulacin por
codificacin de los pulsos, en ella se realiza la sinterizacin y al prediccin lineal,
[Rownden, 1991], estas son tecnologas que realizan acciones basadas en los
parmetros, como lo es el espectro de la voz, que es lo que influye para que la voz
pueda ser producida. Una vez que se haya visto el tema de sntesis de voz podemos
retomar y poner en claro los procesos que tenemos que tomar en cuenta para la
produccin de voz.
13
En algunas ocasiones la sntesis de voz no tiene implicaciones, esto se da para
idiomas en los cuales su estructura gramatical o fnica esta bien establecida, ya que o
tiene variaciones en sus fonemas como las hay en el espaol.
Tenemos que tener claro que lo que estamos desarrollando es un sintetizador, lo
cual implica los siguientes pasos que son importantes para la produccin del mismo:
El ambiente en que se trabajara.
Las unidades que se van a emplear.
o Fonemas
o Di fonemas
o Trifonemas
o Silabas
La evaluacin del costo de beneficio perdida.
Mecanismo utilizado para generar la voz.
Arquitectura del Sintetizador.
Dentro del punto en el que hay que evaluar el costo de lo que se conoce como trade off,
es necesario aclarar que esto se da solo para saber que nivel de calidad tiene nuestro
sistema.
Lo siguiente a evaluar es la metodologa que se utilizara para generar la voz.
Despus de este elemento le seguir la representacin de la arquitectura que el
sintetizador de texto al audio debe te contener para la realizacin de este proceso.
14
Dentro de este trabajo, la bsqueda de las unidades se dar principalmente por
palabra (.wrd) y por fonema, (.phn) de esta manera, forzaremos que dentro de la
bsqueda de las palabras a sintetizar se den los candidatos a concatenar, en caso de
que no sean encontradas las palabras, entonces se creara una lista de candidatos de
fonemas y de ah tomaremos la mejor unidad para la construccin de la palabra a
sintetizar.
2.3 Arquitectura del sistema de un TTS
En al actualidad los sistemas de procesamiento de texto al habla, conllevan una
parte muy similar en cuanto a su arquitectura. Y estn constituidos en parte por el NLP
(Natural Language Processing), que es el encargado de tomar un texto y darle un
significado, originar su trascripcin fontica, as como darle la entonacin necesaria.
Otra parte de la constitucin de la arquitectura es el Proceso de Sntesis, que es el que
modifica la informacin dentro del NLP para darle una salida al habla. [Barbosa, 1997].
Fig. 2.1 Arquitectura General de Un TtS
15
La arquitectura est constituida por un analizador de texto, un convertidor de
texto a fonemas y un generador prosdico. El analizador, toma cualquier texto y le da el
formato necesario para que pueda ser procesado por la siguiente etapa, que es la que
realiza la trascripcin fontica del texto, y es la reciprocidad que hay entre una palabra,
y los fonemas que componen a la palabra.
Tabla de Transcripciones fonticas de algunas palabras
novecientos
n o v e s i e n tc tos
Gobierno
gc go v i e r n o
Recursos
rr e kc k u r s o s
Fig. 2.2 Ejemplo de trascripcin fontica.
Cuando los fonemas llegan al generador prosdico, se les asigna la duracin y
entonacin, esta informacin es proporcionada al proceso de sntesis, que es el que nos
regresara el audio, o la transformacin del texto al habla.
2.4 Comparacin De Los Sistemas De Sntesis Ms Utilizados
Los sintetizadotes por medio de onda, presentan una ventaja que hace que los
diferencie de los dems, ya que permiten operar de manera adecuada las caractersticas
presentadas por la seal de voz. A su vez los que utilizan la sintetizacion por
concatenacin, su fuente es primordial, es decir, la voz, y que es pregrabada con di
fonemas, frases u oraciones para formar el corpus de voz, para ello cabe mencionar que
la persona que sea participe de esta grabacin deber de tener la misma entonacin para
poder mantener una alta calidad de voz, esto es para que no se susciten cambios de
manera usual dentro de las silabas.
16
Con el mtodo de concatenacin, se obtienen los mejores resultados ya que este
permite la naturalidad dentro del proceso de sintetizacion, es decir es mas claro y de
mejor calidad.
2.5 Aplicaciones
Sabemos que en la actualidad, nuestro pas ha ido creciendo a pasos agigantados,
y tambin sabemos que existen personas con deficiencias fsicas las cuales no les
permiten desarrollar las mismas habilidades, es por eso que una de las aplicaciones de la
sntesis de voz sea destinada para ayudar a estas personas, es decir podemos aplicarla en
los correos, lectura automtica de algn texto, entre otras. Dentro de la industria
podemos localizar una aplicacin que es de gran utilidad para el ser humano, como lo
son los reportes de algunas fallas en el desarrollo de aplicaciones, esto se da por medio
de mensajes de errores producidos.
2.6 Resumen
Dentro del desarrollo del capitulo, nos dimos cuenta de cmo se lleva a cabo el
proceso de sintetizacin, codificacin y los tipos de sintetizacin que podemos
encontrar. Vimos como es que se pueden formar las palabras y como es que se pueden
sintetizar, como lo es el caso de los fonemas trifonemas, palabras, etc. Encontramos lo
que se conoce como la flexibilidad de la calidad de la voz, recordemos que nuestro
propsito es encontrar la mejor unidad dentro de las palabras y los fonemas. Adems de
la estructura que debemos tomar en cuenta para lograr tener un buen sintetizador.
17