TTS y La Inteligencia Artificial

Documento escrito hace más de tres años. Recién me adentraba más a fondo en el mundo de síntesis de voz, así que fue un intento de reflejar un proceso de evolución, ahora ridículamente aceptable.

Cargado por

Mateo Cedillo

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

12 vistas2 páginas

TTS y La Inteligencia Artificial

Cargado por

Mateo Cedillo

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

TTS y la inteligencia artificial

Autor: Mateo Cedillo.

En este documento hablaré sobre el TTS (Texto A Voz, Text To Speech en inglés) sobre su concepto
principal y un poco de su evolución.

Introducción:
Hace muchos años, incluso algunas pocas décadas, la tecnología ha ido avanzando de a poco y
se han ido creando nuevas técnicas que pueden satisfacer a la gente. El TTS (Text To Speech,
texto a voz) fue una de ellas, por lo que hace unas cuatro o cinco décadas se han creado
métodos de estos. Estos métodos o funciones de síntesis de voz se le llaman “sintetizadores” y
se han ido creando muchos de ellos, entre ejemplos de estos que se destacan son keynote gold
(KNG), Eloquence (producto de paga que ha sido vendido por algunas compañías como Speech
Works e IBM), DECtalk, entre otros. Un claro concepto de texto a voz es una utilidad, una
alternativa que hace que cualquier texto que escribamos, incluso este mismo texto, pueda ser
leído en voz alta. A lo largo de los años, en principio los sintetizadores eran muy pequeños, es
decir que tenían una base de datos incluso un sonido pobre por así decirlo, pero con este tiempo
las cosas han ido evolucionando. Por lo tanto, esta alternativa se ha utilizado en muchos modos,
en muchas formas, en muchos ámbitos, por ejemplo, en los cajeros electrónicos, en los buzones
telefónicos, en automóviles, GPS, teléfonos, computadoras, celulares, etcétera. Eso demuestra
que en el transcurso de la evolución también han conseguido adaptar el TTS en estos sentidos,
por lo que es un buen avance. Además, puedo enfatizar que esto también es un beneficio para
las personas con discapacidad visual, ya que esta utilidad es usada en lectores de pantalla, que
cumplen la función, principalmente entre muchas otras, de verbalizar todo el texto que se
encuentre en la pantalla, controlando el teclado o el puntero del mouse. Estos lectores de
pantalla los podemos encontrar en los últimos dispositivos tecnológicos de hoy en día y en los
últimos sistemas operativos como Android, IOS, Mac, Windows, Etcétera.

Avances:
Ya explicada la mayoría de la evolución del TTS, recurriremos sobre todo en la inteligencia artificial:

Pasando los años, se han creado los tipos de sintetizadores, que suelen ser diferentes, en el sentido del
procesamiento del texto y creación de fonemas, voces, diccionarios, etcétera. Varias compañías han
nacido también y han investigado nuevas formas de innovar el texto a voz. Desde hace no mucho, se ha
descubierto que hay tipos de síntesis que se basan en grabaciones de una persona humana, y no de un
robot. Este tipo de síntesis ya existía apenas a principios de los dos mil, pero muy pocos se han dado
cuenta de lo que era y cómo funcionaba en realidad, es en el caso de Loquendo, NeoSpeech, Infovox,
Svox, Acapela, entre muchas más.

A mediados de dos mil diecisiete, una empresa canadiense se había expandido frente a un gran público,
cuyo tema era de un programa (Lyrebird) que trataba sobre la clonación de voces, que consistía en que
tenías que grabar un minuto de voz, ya sea oraciones o un conjunto de frases, y luego podías escribir
cualquier texto y lo leía con tu voz, aunque ese programa estaba solamente en inglés, pero de todos
modos la noticia ha sido expandida a nivel internacional. La gente, por supuesto, se quedó sorprendida
ante la noticia.

En dos mil dieciocho, Google había lanzado un sintetizador de voz, que también se basó en la
inteligencia artificial. Tacotron, también fue reconociéndose y expandiéndose. Este sintetizador, con una
base de datos de grabaciones de una persona y mucho entrenamiento, tenía un sonido natural, de tal
forma que no se podía diferenciar si es realmente la voz de la persona o un sintetizador, aunque ya a
estas alturas no puede decirse sintetizador… puede ser más. De ahí el TTS ha ido evolucionando
enormemente y partió al Voice Cloning (clonación de voces). Así mismo, se habían creado
procesamientos de vocales (vocoders) que determinan el sonido de esa voz. Natural, robótico, neutro.
Google sorprendentemente creó el vocalizador waveNet, que es un vocalizador que ofrece un sonido
humano y natural, y efectivamente este se usa junto a Tacotron (aunque en este sintetizador se pueden
usar otros vocoders).

Desde entonces en adelante, era algo satisfactorio para la gente pero cuando se fue más allá de clonar
voces puede ser, en parte, algo temeroso.

Después, se han ido creando los sintetizadores basados en redes neuronales. Lo que quiere decir que se
necesita mucha potencia, entrenamiento y basado en varios componentes como vocalizadores, de tal
forma que hacen que el sonido sea muy natural como del humano, de hecho hay un vocalizador que
está basado en redes neuronales. Esta tecnología está a día de hoy. De hecho, este artículo escrito tiene
una versión en audio con mi voz, de tal forma que puedes ir escuchando el proceso de evolución.

Conclusiones:
Para finalizar, el texto a voz se ha ido cada vez convirtiendo en un avance sorprendentemente increíble,
junto al avance de la tecnología. En conclusión, es una utilidad muy valiosa que se puede y debe
aprovechar, siempre y cuando de una manera adecuada y adaptativa para tus necesidades, sobre todo
ahora en los avances de la clonación de voces, sobre todo indica que debemos ser cuidadosos, ya que de
lo contrario podría ser algo muy peligroso y perjudicial en caso de malas intenciones.

También podría gustarte

Capitulo 1
Aún no hay calificaciones
Capitulo 1
10 páginas
Guía de Conversores Texto-Voz TTS
Aún no hay calificaciones
Guía de Conversores Texto-Voz TTS
3 páginas
Jaws Sistema para Ciegos
Aún no hay calificaciones
Jaws Sistema para Ciegos
2 páginas
Teoria Speech de Text
Aún no hay calificaciones
Teoria Speech de Text
15 páginas
Traducción Robots Con Mal Acento, Convivir Con El Habla Sintética (2008) - Marc Bohlen, Colectivo Pliegue
Aún no hay calificaciones
Traducción Robots Con Mal Acento, Convivir Con El Habla Sintética (2008) - Marc Bohlen, Colectivo Pliegue
12 páginas
Presentacion Síntesis de Voz
Aún no hay calificaciones
Presentacion Síntesis de Voz
17 páginas
Introducción al Voice AI y su Impacto
Aún no hay calificaciones
Introducción al Voice AI y su Impacto
29 páginas
Diagrama de Bloques de Móvil
Aún no hay calificaciones
Diagrama de Bloques de Móvil
4 páginas
Revisión de La Tecnología de Síntesis de Voz y Recursos Lingüísticos Existentes para El Idioma Español
Aún no hay calificaciones
Revisión de La Tecnología de Síntesis de Voz y Recursos Lingüísticos Existentes para El Idioma Español
14 páginas
IA Generativa Audio y Video
Aún no hay calificaciones
IA Generativa Audio y Video
58 páginas
Síntesis de Habla: Tecnología y Usos
Aún no hay calificaciones
Síntesis de Habla: Tecnología y Usos
1 página
Guia de Aprendizaje # 12
Aún no hay calificaciones
Guia de Aprendizaje # 12
24 páginas
Revisión de Herramientas IA de Clonación de Voz
Aún no hay calificaciones
Revisión de Herramientas IA de Clonación de Voz
6 páginas
Producción de Habla 2
Aún no hay calificaciones
Producción de Habla 2
84 páginas
Guía Tiflotecnología: Lectura Asistida
Aún no hay calificaciones
Guía Tiflotecnología: Lectura Asistida
13 páginas
Trabajo Escrito Sintesis de Voz Metodo Cientifico - Final
Aún no hay calificaciones
Trabajo Escrito Sintesis de Voz Metodo Cientifico - Final
10 páginas
Creación de Audios Con Inteligencia Artificial - 2
Aún no hay calificaciones
Creación de Audios Con Inteligencia Artificial - 2
15 páginas
La Interpretación Automática y La Síntesis de Voz Neuronal
Aún no hay calificaciones
La Interpretación Automática y La Síntesis de Voz Neuronal
2 páginas
Instructions For ACL Proceedings 1
Aún no hay calificaciones
Instructions For ACL Proceedings 1
4 páginas
TP Final de IA GrupoC
Aún no hay calificaciones
TP Final de IA GrupoC
12 páginas
Ejemplos de Asistentes Virtuales
Aún no hay calificaciones
Ejemplos de Asistentes Virtuales
21 páginas
Informe Asistentes Virtuales (2) 2
Aún no hay calificaciones
Informe Asistentes Virtuales (2) 2
21 páginas
Revisión de La Tecnología de Síntesis de Voz y Recursos Lingüísticos Existentes para El Idioma Español
Aún no hay calificaciones
Revisión de La Tecnología de Síntesis de Voz y Recursos Lingüísticos Existentes para El Idioma Español
14 páginas
Llisterri 03 Tecnologias Habla Ingenieria Linguistica PDF
Aún no hay calificaciones
Llisterri 03 Tecnologias Habla Ingenieria Linguistica PDF
15 páginas
Interacción de Asistentes Virtuales con Humanos
Aún no hay calificaciones
Interacción de Asistentes Virtuales con Humanos
4 páginas
Historia Digital de la Música
Aún no hay calificaciones
Historia Digital de la Música
19 páginas
Informatica
Aún no hay calificaciones
Informatica
20 páginas
Manual de Software de Voz: Amazon Polly y Balabolka
Aún no hay calificaciones
Manual de Software de Voz: Amazon Polly y Balabolka
6 páginas
Eleven Labs Presentacion
Aún no hay calificaciones
Eleven Labs Presentacion
10 páginas
Correcciónes Seidy Altamiranda - Ensayo
Aún no hay calificaciones
Correcciónes Seidy Altamiranda - Ensayo
7 páginas
Asistentes Virtuales
Aún no hay calificaciones
Asistentes Virtuales
9 páginas
Reconocimiento de voz en radiología
Aún no hay calificaciones
Reconocimiento de voz en radiología
5 páginas
Ámbitos de La Aplicación IA
Aún no hay calificaciones
Ámbitos de La Aplicación IA
22 páginas
Derribando La Torre de Babel
Aún no hay calificaciones
Derribando La Torre de Babel
2 páginas
Historia y Sistemas de Reconocimiento de Voz
Aún no hay calificaciones
Historia y Sistemas de Reconocimiento de Voz
11 páginas
Asistentes Virtuales
Aún no hay calificaciones
Asistentes Virtuales
11 páginas
PFC Emilia Mendez Barrios
Aún no hay calificaciones
PFC Emilia Mendez Barrios
91 páginas
Reconocimiento de Voz 2017
Aún no hay calificaciones
Reconocimiento de Voz 2017
8 páginas
Cecilia Gestora,+6.rufino
Aún no hay calificaciones
Cecilia Gestora,+6.rufino
21 páginas
Fonética
Aún no hay calificaciones
Fonética
16 páginas
Whisper: Voz a Texto con IA
Aún no hay calificaciones
Whisper: Voz a Texto con IA
3 páginas
Inteligencia Artificial y (Ra) (VR) Erre
Aún no hay calificaciones
Inteligencia Artificial y (Ra) (VR) Erre
11 páginas
Fausto-Asistentes Virtuales
Aún no hay calificaciones
Fausto-Asistentes Virtuales
2 páginas
Evolución IA en Reconocimiento de Voz
Aún no hay calificaciones
Evolución IA en Reconocimiento de Voz
10 páginas
Sintesis de Voz en Español PDF
Aún no hay calificaciones
Sintesis de Voz en Español PDF
76 páginas
Herramientas de Texto a Voz y OCR
Aún no hay calificaciones
Herramientas de Texto a Voz y OCR
16 páginas
Practica # 3
Aún no hay calificaciones
Practica # 3
1 página
Codificador de Voz y Seguridad
100% (1)
Codificador de Voz y Seguridad
9 páginas
Revista Electrónica y Servicio
Aún no hay calificaciones
Revista Electrónica y Servicio
84 páginas
Informe Mana
Aún no hay calificaciones
Informe Mana
2 páginas
Herramientas IA para Crear Audios y Videos
Aún no hay calificaciones
Herramientas IA para Crear Audios y Videos
27 páginas
Presentación Proyecto RHVoice EC
Aún no hay calificaciones
Presentación Proyecto RHVoice EC
7 páginas
Tipos y beneficios de asistentes virtuales
0% (1)
Tipos y beneficios de asistentes virtuales
10 páginas
Ciencia y Sonido: Innovaciones Asombrosas
Aún no hay calificaciones
Ciencia y Sonido: Innovaciones Asombrosas
5 páginas
Scolari, C. A. - Inteligencia Artificial, Entre El Deseo y El Miedo
Aún no hay calificaciones
Scolari, C. A. - Inteligencia Artificial, Entre El Deseo y El Miedo
9 páginas
Programas gratis para voz a texto
Aún no hay calificaciones
Programas gratis para voz a texto
23 páginas
El Firewall
Aún no hay calificaciones
El Firewall
19 páginas
Currículum
Aún no hay calificaciones
Currículum
2 páginas
Baneado
Aún no hay calificaciones
Baneado
1 página
Ayuda Traducida de Blastbay-Game-Toolkit (BGT)
Aún no hay calificaciones
Ayuda Traducida de Blastbay-Game-Toolkit (BGT)
485 páginas
MCY Radio Manual Español
Aún no hay calificaciones
MCY Radio Manual Español
2 páginas
Para El Ser Especial
Aún no hay calificaciones
Para El Ser Especial
1 página
AI Tutorial
Aún no hay calificaciones
AI Tutorial
1 página
Despedida
Aún no hay calificaciones
Despedida
1 página
Poema - Flores Del Corazón
Aún no hay calificaciones
Poema - Flores Del Corazón
2 páginas
Lo Que Dice El Corazón
Aún no hay calificaciones
Lo Que Dice El Corazón
1 página
Poema Testamento de Mateo Cedillo
Aún no hay calificaciones
Poema Testamento de Mateo Cedillo
2 páginas
Poema - Por Qué Enemigos
Aún no hay calificaciones
Poema - Por Qué Enemigos
2 páginas
Norma Tecnica Colombiana
Aún no hay calificaciones
Norma Tecnica Colombiana
23 páginas
Introducción a los dibujos en 2D
Aún no hay calificaciones
Introducción a los dibujos en 2D
14 páginas
Manejo y Almacenamiento de Matpel
Aún no hay calificaciones
Manejo y Almacenamiento de Matpel
1 página
La Influencia de Las Ntics en Marketing
Aún no hay calificaciones
La Influencia de Las Ntics en Marketing
10 páginas
Operaciones en Montículo Binario
Aún no hay calificaciones
Operaciones en Montículo Binario
5 páginas
Guia IDVSD ATV71 HMI
Aún no hay calificaciones
Guia IDVSD ATV71 HMI
1 página
Expresiones Lambda en C#
Aún no hay calificaciones
Expresiones Lambda en C#
6 páginas
Informe Practica 4 - Sincronizacion Del Osciloscopio
Aún no hay calificaciones
Informe Practica 4 - Sincronizacion Del Osciloscopio
5 páginas
Capacitación y Desarrollo Profesional Del Personal - GestioPolis
Aún no hay calificaciones
Capacitación y Desarrollo Profesional Del Personal - GestioPolis
38 páginas
Guía de Configuración NAT Empresarial
Aún no hay calificaciones
Guía de Configuración NAT Empresarial
7 páginas
Manual de Bancarización en Bolivia
Aún no hay calificaciones
Manual de Bancarización en Bolivia
8 páginas
Curso de Programación de Llaves con Chip
Aún no hay calificaciones
Curso de Programación de Llaves con Chip
2 páginas
Definición y Tipos de Ancho de Banda
Aún no hay calificaciones
Definición y Tipos de Ancho de Banda
3 páginas
2 - La Especificación de Caso de Uso
Aún no hay calificaciones
2 - La Especificación de Caso de Uso
6 páginas
Modelo de Reingeniería
Aún no hay calificaciones
Modelo de Reingeniería
5 páginas
Manual Sony v77d PDF
Aún no hay calificaciones
Manual Sony v77d PDF
92 páginas
Trabajo de Grafos
Aún no hay calificaciones
Trabajo de Grafos
15 páginas
Ejercicios Prácticos de Componentes Electrónicos
Aún no hay calificaciones
Ejercicios Prácticos de Componentes Electrónicos
6 páginas
KDL50W807B W805B Es
Aún no hay calificaciones
KDL50W807B W805B Es
48 páginas
Monitores Citymax Convencionales Ref 8022-8023 V11 - 06
Aún no hay calificaciones
Monitores Citymax Convencionales Ref 8022-8023 V11 - 06
2 páginas
Memo Fichas CGR 2022 2026
Aún no hay calificaciones
Memo Fichas CGR 2022 2026
4 páginas
Documentación Técnica de Obra
Aún no hay calificaciones
Documentación Técnica de Obra
50 páginas
Ofimatica y Procesos de La Información
Aún no hay calificaciones
Ofimatica y Procesos de La Información
10 páginas
Manual Presentación y Pago Virtual ReteICA V2
Aún no hay calificaciones
Manual Presentación y Pago Virtual ReteICA V2
33 páginas
Maya
Aún no hay calificaciones
Maya
10 páginas
CV PDF
Aún no hay calificaciones
CV PDF
4 páginas
Equipos en Sistemas de Energía Eléctrica
Aún no hay calificaciones
Equipos en Sistemas de Energía Eléctrica
29 páginas
Gestión Logística y Cadena de Suministro
Aún no hay calificaciones
Gestión Logística y Cadena de Suministro
27 páginas
Línea de tiempo del mouse inalámbrico
Aún no hay calificaciones
Línea de tiempo del mouse inalámbrico
13 páginas