Revisión de herramientas de clonación de voz mediante Inteligencia Artificial
Jibran Zaedt Rodríguez García*, Andrea Magadán Salazar*, Nimrod Gonzalez Franco*
*TECNM/Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca, Morelos, México
(email: {m23ce077, andrea.ms, nimrod.gf }@cenidet.tecnm.mx).
Abstract: The advent of artificial intelligence voice cloning has revolutionized the field of speech
synthesis, offering unparalleled authenticity and personalization. The applications of this technology are
numerous and diverse, spanning the entertainment sector, accessibility, digital marketing, and pioneering
approaches to content creation and digital communication. The paper analyses some of the main voice
cloning platforms and their practical applications. It reviews the functionality, features, and impact of each
platform on communication. Furthermore, it also discusses the primary ethical concerns associated with
their utilization, including fraud, privacy, misinformation, and the potential impact on the employment of
voice artists. Voice cloning offers entirely new experiences in many areas, including the use of character
voices in films and the creation of audiobooks with historical voices. Furthermore, it provides insights into
the underlying engines and algorithms that power these applications. It also explains how the integration of
neural networks with high-level models enables the customization of digital voices. The paper concludes
by discussing the necessity for an ethical and regulatory framework that ensures responsible voice cloning
practices, protecting individual rights and the value of human labor in the evolving technological
environment.
Palabras clave: Voice cloning tools, cloning algorithms, cloning applications, artificial intelligence.
1. INTRODUCCIÓN 2. Creación de espectrogramas Mel con Tacotron: Los
fonemas se convierten en espectrogramas Mel utilizando una
En la actualidad, los asistentes de voz o altavoces inteligentes
red basada en la atención secuencia a secuencia, Tacotron. Esta
están ganando protagonismo y ya forman parte de nuestra vida.
red emplea el enfoque secuencia a secuencia con capas
Por ejemplo, se pueden controlar otros dispositivos como
semejantes a la red Long Short-Term Memory en la secuencia
termostatos, aires acondicionados, luces, refrigeradores,
para procesar y generar muchos fotogramas del espectrograma
televisores, entre otros, mediante la voz. Los teléfonos
al mismo tiempo, lo que lo hace más eficiente y de alta calidad.
inteligentes han sido los precursores en estos desarrollos de la
voz como elemento primordial. Las aplicaciones son variadas 3. Conversión a audios con WaveRNN: El espectrograma de
y van desde los asistentes personales para ejecutar ordenes, Mel alimenta a una red neuronal autorregresiva llamada
para reconocer dictados, leer textos, para añadir realismos en WaveRNN para generar audio, muestra por muestra. En ese
los videojuegos, etc. nivel, la señal de audio se genera a partir del espectrograma
mismo por la red neuronal, y el control de la velocidad y la
Los sistemas de reconocimiento de voz y generación de voz
calidad se realiza mediante una optimización adicional. Este
que pueden procesar de forma natural un diálogo entre humano
proceso no utiliza los datos de voz exactos que uno podría
y máquina se encuentran bajo el término de sistemas o
desear simular. En cambio, utiliza una voz de archivo en el
interfaces de voz natural que se destinan a aplicaciones de
proceso de creación de los fonemas asociados para el texto
cliente-servidor en entornos conversacionales. La generación
dado y, por lo tanto, realmente pierde mucho en términos de
de voz es el proceso mediante el cual un dispositivo inteligente
fidelidad para simular la voz de una persona real.
produce secuencias de habla artificial. El reconocimiento de
voz es el proceso mediante el cual las computadoras En los últimos años ha surgido otra área de desarrollo conocida
interpretan y digitalizan las señales de voz, tanto para su como clonación de voz. En términos sencillos, la clonación de
análisis de contenido como para la interpretación de órdenes. voz es el proceso de copiar la voz de una persona para
reproducirla o generarla en un contexto diferente al original.
El proceso de conversión de texto a voz en los asistentes
Es producir una voz artificial que tenga las mismas
virtuales consta de tres etapas principales (Achanta et al.,
características (suene igual) como si la hubiera pronunciado
2021).
una persona objetivo (Achanta et al., 2021).
1. Entrada de texto y conversión fonémica: El texto se
La clonación de voz no es nueva; sin embargo, las nuevas
transforma en una cadena de fonemas, incluyendo puntuación
herramientas de inteligencia artificial logran mayores niveles
y límites de palabras. Esto permite al modelo capturar mejor la
de autenticidad y personalización. Este progreso se ha
prosodia y los ritmos del habla.
utilizado para replicar la voz humana de formas que ensalzan
en sectores como el entretenimiento, la accesibilidad y el mediante suscripción. Utiliza algoritmos que maximizan la
marketing digital. La clonación de voz está liderando estabilidad y similitud de las voces, ajustables a través de su
actualmente la creación de contenido y las experiencias de API. ElevenLabs ha proporcionado en GitHub la
comunicación digital (Extracta, 2024). Si bien algunas documentación y los ejemplos de código necesarios para
aplicaciones consideran texto para la clonación de voz, no se integrarlo con herramientas como Python y Java. Los modelos
recomienda porque suele provocar pérdida de información en disponibles en esta plataforma incluyen Multilingual v2,
el proceso de transmisión oral de un mensaje. English v1, Turbo v2 y Turbo v2.5.
El objetivo de este artículo es presentar las principales 2. VocaliD (2024): Crea voces personalizadas para personas
plataformas para la clonación de voz y sus aplicaciones en la con discapacidades del habla. Para la generación de voz
vida real Los sistemas revisados se basan en las tendencias de combina las características vocales de los usuarios con voces
las comunidades en activas como: Discord (2024), GitHub pregrabadas para generar una voz única mediante la
(2024) y similares, donde los desarrolladores y entusiastas combinación de su base de datos "Human Voicebank", que
comparten su experiencia de primera mano y sus preferencias incluye más de 14.000 donantes en 110 países. La integración
por dichas técnicas. Se pretende examinar cómo funcionan las de estas voces en dispositivos de asistencia como Tobii
herramientas, en qué entornos y qué cambian en la Dynavox dice mucho sobre la personalidad y las emociones
comunicación digital. Esto hace que la revisión, de las del usuario.
herramientas de clonación de voz, sea relevante no solo para
investigadores y desarrolladores, sino también para cualquier 3. Applio (IAHispano, 2024): Es una aplicación de clonación
persona que esté interesado en los avances en la Inteligencia de voz de uso gratuito sin límites para crear su modelo de
Artificial y sus consecuencias para las sociedades. clonación de voz. Permite la síntesis de voz a texto y de voz a
voz. Realiza la transformación de audio utilizando diferentes
Para comprender mejor el potencial de la clonación de voz, a algoritmos de extracción de tono como Pitch Marking,
continuación, se presenta una lista de aplicaciones útiles de Harvest, DIO, Rmvpe y Rmvpe_gpu. Permite varias opciones
esta tecnología en diversos sectores. para ajustar el procesamiento de audio para brindar variedad
entre ser experimental y una aplicación más profesional para
2. HERRAMIENTAS DE CLONACIÓN DE VOZ fines específicos. Esta aplicación es de uso público y gratuito,
A diferencia de los avances en la detección de deepfakes en mediante la cual los usuarios pueden crear modelos de
imágenes, se observa una escasez de trabajos dedicados a la clonación de voz sin límite alguno. Además, ofrece otras
detección de voces clonadas (Meta, 2020). Esto subraya la herramientas, como la descarga de modelos de voces ya
necesidad de investigaciones adicionales en este campo para entrenados y listos para ser utilizados.
abordar los desafíos específicos asociados con la manipulación
4. RVC (RVC-Project, 2024): Esta aplicación cuenta con una
de audio. La importancia de este campo radica en la necesidad
versión web, está disponible para el público en general de
de proporcionar al usuario final una mayor confianza en los
forma gratuita. A través de ella, los usuarios pueden crear
sistemas de comunicación y verificación de identidad. A
modelos de clonación de voz sin restricciones. Además de esta
medida que las técnicas de falsificación de voces se vuelven
función principal, la aplicación ofrece diversas opciones
más sofisticadas, se incrementa también la urgencia de
adicionales como cambiar el audio de la grabación
desarrollar métodos de detección igualmente avanzados. Esto
seleccionando la frecuencia de muestreo (40k o 48k) y
no solo contribuye a la seguridad personal y empresarial, sino
seleccionar el algoritmo de extracción, que puede ser Pitch
que también juega un papel crucial en la preservación de la
Marking, Harvest, DIO o Rmvpe, con opciones de 0 a 8
integridad de la información y la prevención del fraude
subprocesos de CPU. La alternativa flexible para quienes
Se llevó a cabo una investigación sobre varias herramientas de necesitan personalizar los modelos de voz.
preferencia gratuitas que pueden generar audios de voces
5. Voice.ia (Voice.ai, 2024): Esta aplicación cuenta con una
clonadas de manera convincente, evitando sonidos
amplia variedad de voces desarrolladas por la comunidad.
"antinaturales". Las siguientes herramientas de clonación de
Puede proporcionar un cambio de voz en tiempo real y dar
voz tienen distintas capacidades que se utilizan según las
acceso a una gran cantidad de voces creadas y almacenadas.
necesidades del usuario y/o de las aplicaciones.
Es una aplicación paga, aunque incluye la opción de recibir
1. ElevenLabs (2024): Es una herramienta avanzada de una paga mínima diaria por iniciar sesión, que se pueden usar
Inteligencia Artificial (IA) que ofrece tecnologías de Texto a para comprar más voces. Las voces se pueden usar sin
Voz, Voz a Voz y Clonación de voz. Con esta aplicación, es restricciones una vez compradas. No se menciona ningún
posible generar audio hablado de alta calidad en una variedad algoritmo de extracción, lo que puede afectar a los usuarios
de voces, estilos e idiomas (actualmente 32) así como ajustar que buscan detalles técnicos específicos.
géneros, edades, tonos y acentos según las preferencias del
3. CARACTERÍSTICAS UTILIZADAS POR LAS
usuario. Su modelo de IA captura de manera excepcional la
HERRAMIENTAS
entonación y las inflexiones humanas, ofreciendo una
experiencia de voz sumamente realista. Las herramientas de clonación de voz ofrecen un equilibrio de
funciones que brindan la flexibilidad que el usuario necesita
Para evitar el uso de su tecnología en la creación de deepfakes, para moldear y ajustar las voces generadas a los requisitos.
ElevenLabs ha adoptado controles, permitiendo que este
producto esté disponible solo para usuarios verificados
Algunas de las características que se mencionan dentro de las 6. Modelos multilingües: Estos modelos incluyen Multilingual
propias herramientas son: v1 y Multilingual v2, que ofrecen estabilidad y soporte para 29
idiomas.
1. Tono: La voz puede modularse para transmitir diferentes
contextos y personalidades. 7. Turbo: Turbo v2 y Turbo v2.5 son algoritmos de baja
latencia optimizados para conversaciones en tiempo real,
2. Firmeza: Es la capacidad de mantener la calidad de la voz diseñados para quienes requieren hablar de manera rápida y
en distintas situaciones. sencilla.
3. Similitud: Qué tan realista parece la voz clonada con 8. CREPE: Es un algoritmo de seguimiento de tono
respecto a la original. monofónico basado en una red neuronal simple para lograr la
4. Frecuencia respiratoria: Control de velocidad para la segmentación de notas monofónicas.
entonación más natural del discurso. Conocer los algoritmos básicos detrás de la clonación de voz
5. Estilo del discurso: Personalización del estilo de voz a un puede permitirnos apreciar en profundidad cómo estas
estilo emocional, neutral o profesional. herramientas logran resultados precisos y de alta calidad.
6. Efectos de sonido: Agrega efectos de sonido para darle vida 5. APLICACIONES DE LA CLONACIÓN DE VOZ
a tu audio. Las aplicaciones de la tecnología de clonación de voz están
encontrando rápidamente aplicaciones en diversas áreas, lo
7. Idioma: Soporte para múltiples idiomas, como en el caso de
que demuestra su capacidad para cambiar la forma en que se
ElevenLabs, con hasta 32 idiomas. crea, consume y experimenta el contenido de audio. Estas son
8. Frecuencia de muestreo: Opciones para elegir una algunas áreas donde se podría utilizar esta tecnología:
frecuencia de muestreo diferente
1. Clonación de voz en cinematografía: La clonación de voz
9. Unidad central de procesamiento: es la cantidad de CPU ayuda a crear audio para películas animadas y si un actor
dedicada a procesar el algoritmo, cuanto mayor sea la cantidad, enfrenta problemas de salud que afectarán su voz, permite la
menos tiempo de procesamiento tendrá, pero consumirá más continuidad del trabajo. Con esta tecnología, los estudios
recursos computacionales. podrán mantener la misma voz de los personajes durante toda
la serie y los episodios cuando los actores de voz originales ya
Estas características permiten que muchos aspectos del habla no estén disponibles. Esto es especialmente útil para
de la voz clonada sean ajustados por el propio usuario, pero producciones largas donde la continuidad puede ser muy
también se basan en algoritmos avanzados que funcionan en el importante. Además, los cineastas pueden experimentar con
núcleo de tales aplicaciones. Por ello, es importante los diferentes diálogos y entonaciones en la posproducción, lo que
algoritmos que llevan a cabo la personalización y construcción realmente les abre vías más creativas para explorar en términos
de la voz. de narración (Deepdub, 2024).
4. ALGORITMOS UTILIZADOS POR LAS 2. Industria de los videojuegos: La clonación de voces puede
HERRAMIENTAS proporcionar una mayor interacción con los personajes y un
diálogo más profundo en los juegos. Los estudios pueden
Los algoritmos forman una parte esencial en la clonación de
aprovechar esto y crear dobles digitales de las voces de sus
voces porque son la base de la construcción de las
actores, creando mucho más contenido sin tener que grabar
herramientas en el análisis, ajuste y reproducción de las voces
cada línea de diálogo. Hay muchas cuestiones éticas y morales
con precisión. Las técnicas aplicadas incluyen:
en este proceso, pero algunas empresas, como se indica en
1. Redes neuronales profundas: Se utilizan para analizar y (Replica Studios, 2024), han llegado a acuerdos con los
reproducir características vocales. sindicatos de actores para un uso justo y una compensación.
Por ejemplo, la asociación entre Replica y SAG-AFTRA
2. Pitch Marking: El algoritmo se utiliza en el procesamiento significa que los grandes estudios ahora pueden trabajar con
del habla para detectar cambios en la frecuencia fundamental actores de voz afiliados de acuerdo con las mejores prácticas y
o el tono. Es útil para analizar la calidad de la voz y en la estándares legales de la industria. En un contexto de mundo
síntesis de voz. abierto donde el crecimiento de personajes y métodos de
interacción es prácticamente infinito, esta tecnología satisface
3. Harvest: Un algoritmo de extracción de tono que se utiliza
la creciente demanda de voces al agilizar el diálogo y la
para aplicar el tono de la voz original a la voz clonada.
creación de personajes.
4. DIO: Es un método para estimar la frecuencia fundamental,
3. Restauración de voces de actores muertos: Las aplicaciones
son técnicas de procesamiento paralelo o distribuido en
incluyen clonación de voces para continuar con las voces de
sistemas informáticos.
actores muertos y preservarlas en nuevos proyectos. Por
5. Modelo robusto para la estimación del tono vocal en música ejemplo, en el caso de Star Wars, se consideró si el personaje
polifónica: Se utiliza para estimar el tono vocal en música de Carrie Fisher podría continuar tras la muerte de la actriz
polifónica. (Respeecher, 2024). Pero el uso de la clonación de voces
plantea cuestiones éticas fundamentales sobre el
consentimiento y la cuestión de la imagen póstuma del actor. persona a tener su propia voz y hasta qué punto puede copiarse
Empresas como Respeecher (2024) están mostrando un gran sin consentimiento.
interés en los beneficios de esta tecnología para mejorar la
creación de contenidos, con Sony Interactive Entertainment Algunas empresas han intentado solucionar este problema
entre sus clientes clave (Respeecher, 2024). creando algún tipo de acuerdo o contrato de uso que especifica
el propósito y las restricciones del uso de la voz simulada y la
4. Marketing y Publicidad: La clonación de voz permite a las monetización del propietario de esa voz. Estos acuerdos tienen
empresas crear campañas publicitarias utilizando voces como objetivo preservar los derechos individuales definiendo
familiares, lo que incrementa el impacto emocional del claramente lo que se puede y lo que no se puede hacer con el
mensaje. Esta tecnología facilita la personalización de sonido.
anuncios, permitiendo adaptar las voces a distintos mercados
y utilizando voces locales o conocidas para mejorar la 3. Manipulación de la información y desinformación: La
conexión con el público. Un ejemplo destacado es la campaña clonación de voz puede permitir crear grabaciones de audio
Say It With OREO, en la cual Oreo empleó la voz del actor falsas de una figura pública, imitar declaraciones que nunca se
Farhan Akhtar para interactuar con el público en India, hicieron o alterar confesiones. Esto, por supuesto, aumenta el
personalizando así la experiencia de la marca y generando una riesgo de desinformación y manipulación de la opinión
conexión más cercana con los consumidores (Resemble AI, pública, ya que dichas grabaciones de audio son
2023). indistinguibles de las grabaciones reales. El abuso de estas
tecnologías está cambiando la confianza del público en los
5. Audiolibros y contenidos narrados por voces icónicas: medios y las instituciones, aumentando la demanda de
Empresas como ElevenLabs (2024) tienen acuerdos de regulación y tecnologías adicionales que puedan permitir la
licencia con propiedades que otorgan permiso para clonar las detección de audio manipulado.
voces de las fallecidas Judy Garland, James Dean, Burt
Reynolds y Sir Laurence Olivier, para narrar audiolibros En medios de comunicación y plataformas de redes sociales,
(ElevenLabs, 2024). ElevenLabs lanzó una aplicación Reader la detección de voces sintéticas desempeña un papel vital en la
que convierte artículos, archivos PDF, ePubs, boletines y prevención del abuso y la desinformación. La tecnología
libros electrónicos en historias generadas por IA con una permite identificar y mitigar el uso de voces generadas por
calidad superior. Esta aplicación permite a los oyentes computadora para crear discursos de odio, noticias falsas y
disfrutar de textos en cualquier lugar y en cualquier momento, mensajes perjudiciales. Esto contribuye a mantener un entorno
ofreciendo matices emocionales que fluyen del contexto al en línea seguro y confiable, donde la información precisa y
contenido para una experiencia rica y atractiva. respetuosa prevalece,
Estos datos reflejan la versatilidad y el impacto transformador 4.Impacto en la integridad personal y profesional: La
de la clonación de voz, que está mejorando no solo la forma en clonación de voces de figuras públicas, si se realiza sin
que se crea el contenido, sino también la forma en que se permiso, afecta gravemente su integridad y reputación. Las
consume. La tecnología permite descubrir nuevas formas de grabaciones de audio falsas con declaraciones manipuladas
comunicar y contar historias en industrias tan diversas como el dañan su imagen personal y profesional y afectan su carrera y
entretenimiento, la educación y el marketing, métodos que sus relaciones. Dicho abuso puede causar daños permanentes,
requieren un debate ético. lo que requiere controles y prácticas estrictos que limiten su
uso sin el consentimiento explícito de la persona involucrada.
6. ÉTICA
5. Impacto en el empleo en doblaje y locución: Al igual que
La replicación de voz plantea algunas cuestiones éticas graves otras industrias, la simulación de voz con IA está reduciendo
relacionadas con el posible abuso de la tecnología. A la demanda de trabajos de locución y locución tradicionales.
continuación, se detallan algunos de los principales problemas La situación plantea cuestiones éticas sobre cómo estos lugares
éticos de acuerdo con (Hutiri, Papakyriakopoulos y Xiang, de trabajo pueden seguir siendo productivamente sostenibles,
2024): mientras que muchos en la industria enfrentan incertidumbre
sobre lo que podrían implicar sus carreras futuras. La
1. Fraude y robo de identidad: La clonación de voz, a su vez,
tecnología de simulación de voz plantea interrogantes sobre el
conduce a la creación de grabaciones de audio falsas. Uno
valor del talento humano y cómo la IA está impactando la
ayuda sin su consentimiento. casos en consecuencia. Lo que
industria creativa. Las empresas responsables se dan cuenta de
incluye robo de identidad o fraude. Los ejemplos incluyen
esto y se están uniendo a los sindicatos para firmar contratos
estafas telefónicas en las que los delincuentes imitan las voces
que reconozcan el derecho a hablar por una remuneración
de familiares o amigos para pedir dinero o acceder a
justa.
información confidencial. Este uso indebido puede provocar
daños importantes, tanto personales como financieros, y En conjunto, estas cuestiones éticas se traducen en una
resalta la importancia de implementar salvaguardias que topografía regulatoria muy necesaria que puede ayudar a
limiten el acceso a esta tecnología. garantizar el uso responsable de la clonación de voz. Si bien el
núcleo de estas tecnologías viables es la preservación de la voz
2. Privacidad y consentimiento: la simulación de voz real
y los asistentes personales, las aplicaciones particularmente
requiere una grabación de voz del destinatario. La mayoría de
ricas y potencialmente abusivas requieren un mayor escrutinio
las veces esto se puede hacer sin que la persona lo sepa o le dé
y análisis ético. Los acuerdos de modelos de uso y suscripción
permiso. Esto plantea más preguntas sobre el derecho de una
creados por empresas que desean actuar de manera GitHub, 2024. GitHub. Disponible en: https://github.com/
responsable limitan el acceso al uso de voces clonadas. [Accedido el 14 de octubre de 2024].
Además, las empresas están discutiendo el tema directamente
con los sindicatos para suavizar el golpe a los lugares de Hutiri, W., Papakyriakopoulos, O., y Xiang, A., 2024. Not My
trabajo. Cualquier desarrollo de la IA en esta dirección debe Voice! A Taxonomy of Ethical and Safety Harms of Speech
realizarse teniendo en cuenta la ética y centrarse en la Generators. arXiv preprint arXiv:2402.01708. Disponible en:
protección de los derechos individuales y el valor/dignidad del https://arxiv.org/abs/2402.01708 [Accedido el 16 de octubre
trabajo humano. de 2024].
7. CONCLUSIÓN IAHispano, 2024. Applio. Disponible en:
https://github.com/IAHispano/Applio [Accedido el 14 de
La clonación de voz con herramientas de Inteligencia Artificial octubre de 2024].
hasta este momento desarrolladas, se utilizan en diversas
aplicaciones que van desde la accesibilidad hasta el Meta, 2020. Deepfake Detection Challenge Results: An open
entretenimiento y el marketing. ElevenLabs, VocaliD, Applio, initiative to advance AI. Disponible en:
RVC y Voice.ia muestran el desarrollo de la síntesis de voz en https://ai.meta.com/blog/deepfake-detection-challenge-
cuanto a precisión y personalización, lo que permite funciones results-an-open-initiative-to-advance-ai/ [Accedido el 16 de
avanzadas y algoritmos específicos que permiten configurar octubre de 2024].
parámetros clave como el tono, la estabilidad y la frecuencia
Morise, M., 2017. ‘Harvest: A High-Performance
respiratoria.
Fundamental Frequency Estimator from Speech Signals’,
Sin embargo, con el aumento de la sofisticación y la Proceedings of Interspeech 2017, pp. 2321-2325. doi:
accesibilidad surgen una serie de preguntas, las relacionadas 10.21437/Interspeech.2017-68 [Accedido el 14 de octubre de
con la ética de uso y, en ocasiones, las limitaciones técnicas. 2024].
Por sí solas, la evolución de estos modelos y la correcta
Replica Studios, 2024. Video Game AI Voice Generator.
incorporación de las mejores prácticas en la implementación
Disponible en:
serán inexorables si se quiere que el uso de la clonación de voz
https://www.replicastudios.com/solutions/video-game-ai-
en el futuro sea responsable y se aproveche todo su potencial.
voice-generator [Accedido el 16 de octubre de 2024].
Esta revisión ofrece una descripción general de las opciones
Resemble AI, 2023. How Are Companies Using AI In
disponibles en el mercado y sus funcionalidades clave para
Marketing? Oreo Case Study. Disponible en:
guiar a los usuarios en la selección de la herramienta adecuada.
https://www.resemble.ai/ai-marketing-oreo/ [Accedido el 16
A medida que las tecnologías de IA sigan evolucionando, la
de octubre de 2024].
clonación de voz seguirá expandiéndose aún más y encontrará
nuevas formas de impulsar las comunicaciones digitales en la Respeecher, 2024. Film & TV Production. Disponible en:
sociedad. https://www.respeecher.com/film-tv-production [Accedido el
16 de octubre de 2024].
8. REFERENCES
Achanta, S., Antony, A., Golipour, L., Li, J., Raitio, T., Respeecher, 2024. Respeecher Synthesized Younger Luke
Rasipuram, R., Rossi, F., Shi, J., Upadhyay, J., Winarsky, D., Skywalker's Voice for Disney's Mandalorian. Disponible en:
y Zhang, H., 2021. On-device neural speech synthesis. arXiv https://www.respeecher.com/case-studies/respeecher-
preprint arXiv:2109.08710. Disponible en: synthesized-younger-luke-skywalkers-voice-disneys-
https://doi.org/10.48550/arXiv.2109.08710 [Accedido el 16 mandalorian [Accedido el 16 de octubre de 2024].
de octubre de 2024]. RVC-Project, 2024. Retrieval-based Voice Conversion
Deepdub, 2024. Voice cloning in animated films. Disponible WebUI. Disponible en: https://github.com/RVC-
en: https://deepdub.ai/post/voice-cloning-in-animated-films Project/Retrieval-based-Voice-Conversion-WebUI [Accedido
[Accedido el 16 de octubre de 2024]. el 14 de octubre de 2024].
Discord, 2024. Discord. Disponible en: https://discord.com/ VocaliD, 2024. Your Voice AI Company. Disponible en:
[Accedido el 14 de octubre de 2024]. https://vocalid.ai/ [Accedido el 16 de octubre de 2024].
ElevenLabs, 2024. Free Text to Speech & AI Voice Generator. Voice.ai, 2024. Free Real Time Voice Changer with AI.
Disponible en: https://elevenlabs.io/ [Accedido el 16 de Disponible en: https://voice.ai/ [Accedido el 16 de octubre de
octubre de 2024]. 2024].
Extracta, 2024. Exploring the Impact of AI Voice Cloning: Wei, H., Cao, X., Dan, T. y Chen, Y., 2023. RMVPE: A
Transforming Digital Storytelling. Disponible en: Robust Model for Vocal Pitch Estimation in Polyphonic
https://extracta.ai/exploring-the-impact-of-ai-voice-cloning- Music. arXiv. Disponible en:
transforming-digital-storytelling/ [Accedido el 16 de octubre https://doi.org/10.48550/arXiv.2306.15412 [Accedido el 14
de 2024]. de octubre de 2024].
Wu, S., 2023. CREPE Notes: A new method for segmenting
pitch contours into discrete notes. arXiv. Disponible en:
https://arxiv.org/abs/2311.08884 [Accedido el 14 de octubre
de 2024].