0% encontró este documento útil (0 votos)
12 vistas2 páginas

TTS y La Inteligencia Artificial

Documento escrito hace más de tres años. Recién me adentraba más a fondo en el mundo de síntesis de voz, así que fue un intento de reflejar un proceso de evolución, ahora ridículamente aceptable.

Cargado por

Mateo Cedillo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
12 vistas2 páginas

TTS y La Inteligencia Artificial

Documento escrito hace más de tres años. Recién me adentraba más a fondo en el mundo de síntesis de voz, así que fue un intento de reflejar un proceso de evolución, ahora ridículamente aceptable.

Cargado por

Mateo Cedillo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

TTS y la inteligencia artificial

Autor: Mateo Cedillo.

En este documento hablaré sobre el TTS (Texto A Voz, Text To Speech en inglés) sobre su concepto
principal y un poco de su evolución.

Introducción:
Hace muchos años, incluso algunas pocas décadas, la tecnología ha ido avanzando de a poco y
se han ido creando nuevas técnicas que pueden satisfacer a la gente. El TTS (Text To Speech,
texto a voz) fue una de ellas, por lo que hace unas cuatro o cinco décadas se han creado
métodos de estos. Estos métodos o funciones de síntesis de voz se le llaman “sintetizadores” y
se han ido creando muchos de ellos, entre ejemplos de estos que se destacan son keynote gold
(KNG), Eloquence (producto de paga que ha sido vendido por algunas compañías como Speech
Works e IBM), DECtalk, entre otros. Un claro concepto de texto a voz es una utilidad, una
alternativa que hace que cualquier texto que escribamos, incluso este mismo texto, pueda ser
leído en voz alta. A lo largo de los años, en principio los sintetizadores eran muy pequeños, es
decir que tenían una base de datos incluso un sonido pobre por así decirlo, pero con este tiempo
las cosas han ido evolucionando. Por lo tanto, esta alternativa se ha utilizado en muchos modos,
en muchas formas, en muchos ámbitos, por ejemplo, en los cajeros electrónicos, en los buzones
telefónicos, en automóviles, GPS, teléfonos, computadoras, celulares, etcétera. Eso demuestra
que en el transcurso de la evolución también han conseguido adaptar el TTS en estos sentidos,
por lo que es un buen avance. Además, puedo enfatizar que esto también es un beneficio para
las personas con discapacidad visual, ya que esta utilidad es usada en lectores de pantalla, que
cumplen la función, principalmente entre muchas otras, de verbalizar todo el texto que se
encuentre en la pantalla, controlando el teclado o el puntero del mouse. Estos lectores de
pantalla los podemos encontrar en los últimos dispositivos tecnológicos de hoy en día y en los
últimos sistemas operativos como Android, IOS, Mac, Windows, Etcétera.

Avances:
Ya explicada la mayoría de la evolución del TTS, recurriremos sobre todo en la inteligencia artificial:

Pasando los años, se han creado los tipos de sintetizadores, que suelen ser diferentes, en el sentido del
procesamiento del texto y creación de fonemas, voces, diccionarios, etcétera. Varias compañías han
nacido también y han investigado nuevas formas de innovar el texto a voz. Desde hace no mucho, se ha
descubierto que hay tipos de síntesis que se basan en grabaciones de una persona humana, y no de un
robot. Este tipo de síntesis ya existía apenas a principios de los dos mil, pero muy pocos se han dado
cuenta de lo que era y cómo funcionaba en realidad, es en el caso de Loquendo, NeoSpeech, Infovox,
Svox, Acapela, entre muchas más.

A mediados de dos mil diecisiete, una empresa canadiense se había expandido frente a un gran público,
cuyo tema era de un programa (Lyrebird) que trataba sobre la clonación de voces, que consistía en que
tenías que grabar un minuto de voz, ya sea oraciones o un conjunto de frases, y luego podías escribir
cualquier texto y lo leía con tu voz, aunque ese programa estaba solamente en inglés, pero de todos
modos la noticia ha sido expandida a nivel internacional. La gente, por supuesto, se quedó sorprendida
ante la noticia.

En dos mil dieciocho, Google había lanzado un sintetizador de voz, que también se basó en la
inteligencia artificial. Tacotron, también fue reconociéndose y expandiéndose. Este sintetizador, con una
base de datos de grabaciones de una persona y mucho entrenamiento, tenía un sonido natural, de tal
forma que no se podía diferenciar si es realmente la voz de la persona o un sintetizador, aunque ya a
estas alturas no puede decirse sintetizador… puede ser más. De ahí el TTS ha ido evolucionando
enormemente y partió al Voice Cloning (clonación de voces). Así mismo, se habían creado
procesamientos de vocales (vocoders) que determinan el sonido de esa voz. Natural, robótico, neutro.
Google sorprendentemente creó el vocalizador waveNet, que es un vocalizador que ofrece un sonido
humano y natural, y efectivamente este se usa junto a Tacotron (aunque en este sintetizador se pueden
usar otros vocoders).

Desde entonces en adelante, era algo satisfactorio para la gente pero cuando se fue más allá de clonar
voces puede ser, en parte, algo temeroso.

Después, se han ido creando los sintetizadores basados en redes neuronales. Lo que quiere decir que se
necesita mucha potencia, entrenamiento y basado en varios componentes como vocalizadores, de tal
forma que hacen que el sonido sea muy natural como del humano, de hecho hay un vocalizador que
está basado en redes neuronales. Esta tecnología está a día de hoy. De hecho, este artículo escrito tiene
una versión en audio con mi voz, de tal forma que puedes ir escuchando el proceso de evolución.

Conclusiones:
Para finalizar, el texto a voz se ha ido cada vez convirtiendo en un avance sorprendentemente increíble,
junto al avance de la tecnología. En conclusión, es una utilidad muy valiosa que se puede y debe
aprovechar, siempre y cuando de una manera adecuada y adaptativa para tus necesidades, sobre todo
ahora en los avances de la clonación de voces, sobre todo indica que debemos ser cuidadosos, ya que de
lo contrario podría ser algo muy peligroso y perjudicial en caso de malas intenciones.

También podría gustarte