0% encontró este documento útil (0 votos)

30 vistas4 páginas

Implementación TTS y STT

El documento describe la implementación de un sistema que convierte respuestas de texto a audio utilizando la biblioteca pyttsx3 en un servidor FastAPI. Se añade una nueva ruta que permite obtener respuestas tanto en texto como en formato de audio, generando nombres de archivo únicos para evitar sobrescrituras. Además, se sugiere la posibilidad de mostrar el archivo de audio en el frontend y se proponen opciones adicionales para mejorar la funcionalidad del sistema.

Cargado por

Adrian Montero

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

30 vistas4 páginas

Implementación TTS y STT

Cargado por

Adrian Montero

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ESTO ES LO QUE HICE PARA QUE ME DEVOLVIERA LA RESPUESTA EN ARCHIVO DE AUDIO, AL IGUAL QUE LA

RESPUESTA EN TEXTO:

Esto está en CHAPGPT: "Chatbot Project Overview"

Primero instalo las librerías en el PATCH:

pip install pyttsx3
Esta función TTS la agrego al script de las funciones: "implementacion.py"

import pyttsx3

######################################################
###### TTS
######################################################

def text_to_speech(text: str, output_file: str = "output.mp3"):

"""
Function that converts text to speech and saves it as an audio file.

Parameters:
text (str): The text to be converted to speech.
output_file (str): The name of the output file where the audio will be saved.
"""
engine = pyttsx3.init()
engine.save_to_file(text, output_file)
engine.runAndWait()

Ahora vamos a agregar una nueva Ruta /question/{question} en api.py:

Esta nueva ruta manejará las preguntas para que, además de devolver la respuesta en formato de texto, también
convierta esa respuesta a un archivo de audio usando la función TTS.

#############################################################
# Audio Route (TTS)
#############################################################
@app.post("/tfm4/question_audio/{question}")
def llama_rag_audio(question: str):
try:
# Obtener la respuesta de la pregunta
result = tfm_rag_llama(question)

# Convertir la respuesta a voz y guardarla en un archivo MP3

audio_filename = "response.mp3"
text_to_speech(result, audio_filename)

# Devolver la respuesta en texto y el nombre del archivo de audio

return {"Response": result, "Audio file": audio_filename}
except Exception as e:
result = "files not loaded!!!"
return {"data": result, "error": str(e)}
2. Probar la Funcionalidad

Con esta modificación, cuando envíes una pregunta al servidor, recibirás como respuesta tanto el texto como
el nombre del archivo de audio que contiene la respuesta convertida a voz.

Aquí te explico cómo podrías probarlo:

1. Ejecuta el servidor: Asegúrate de que tu servidor esté corriendo con python -m uvicorn api:app.
2. Envía una pregunta: Ve a la ruta /docs en tu navegador o utiliza un cliente como Postman.
3. Obtén la respuesta: Al enviar una pregunta, deberías recibir una respuesta en formato JSON que
incluya tanto el texto de la respuesta como el nombre del archivo de audio generado.
4. Escucha la respuesta: El archivo de audio (response.mp3) debería estar guardado en la carpeta
desde donde ejecutaste tu servidor. Puedes reproducirlo para escuchar la respuesta.

Opciones Adicionales

 Descarga de archivos: Podrías implementar una ruta adicional en la API que permita descargar el
archivo de audio generado.
 Personalización de TTS: Podrías agregar opciones para que el usuario elija la voz, la velocidad del
habla, o incluso el nombre del archivo de salida.
 Manejo de múltiples respuestas: Si planeas tener múltiples consultas, podrías generar un nombre de
archivo único para cada respuesta, como response_<timestamp>.mp3, para evitar sobrescribir
archivos.

Con esta implementación, cada vez que hagas una consulta al PDF, obtendrás la respuesta en texto y en audio
de manera automática, mejorando la interacción con tu chatbot.

genial, una consulta: se puede hacer que este archivo mp3 se le muestre al usuario en la parte frontend para que pueda
escuchar la respuesta además de leerla, verdad? Pero esto ya es en el frontend, además leí algo como para que no se
sobreescriba el archivo mp3 creado debo usar la opción que se guarde como timescap, así se conservan cada archivo y
no se borra el anterior?

Opciones Adicionales

 Descarga de archivos: Podrías implementar una ruta adicional en la API que permita descargar el archivo de
audio generado.
 Personalización de TTS: Podrías agregar opciones para que el usuario elija la voz, la velocidad del habla, o incluso
el nombre del archivo de salida.
 Manejo de múltiples respuestas: Si planeas tener múltiples consultas, podrías generar un nombre de archivo
único para cada respuesta, como response_<timestamp>.mp3, para evitar sobrescribir archivos.

VEAMOS COMO QUEDA LA RUTA CON LA CREACIÓN DE UNA CARPETA DONDE SE GUARDEN
LOS AUDISO GENERADOS POR LA FUNCIÓN TTS, Y QUE ESTOS AUDIOS SE CREEN CON
NOMBRES DISTINTOS PARA QUE NO SE SOBREESCRIBAN…
En api.py ingreso estas líneas arriba: Las subrayadas se están anexando:

import os
import time
from fastapi import FastAPI
from fastapi.staticfiles import StaticFiles

Así quedaría las modificaciones a la ruta de TTS:

app = FastAPI()

# Montar la carpeta de archivos estáticos donde se guardarán los MP3

app.mount("/audio", StaticFiles(directory="audio"), name="audio")

# Asegurarse de que la carpeta 'audio' existe

if not os.path.exists("audio"):
os.makedirs("audio")

@app.post("/tfm4/question_audio/{question}")
def llama_rag_audio(question: str):
try:
# Obtener la respuesta de la pregunta
result = tfm_rag_llama(question)

# Generar un nombre de archivo único con timestamp

timestamp = int(time.time())
audio_filename = f"response_{timestamp}.mp3"
audio_path = f"audio/{audio_filename}"

# Convertir la respuesta a voz y guardarla en un archivo MP3

text_to_speech(result, audio_path)

# Devolver la respuesta en texto y la URL del archivo de audio

audio_url = f"/audio/{audio_filename}"
return {"Response": result, "Audio file URL": audio_url}
except Exception as e:
result = "files not loaded!!!"
return {"data": result, "error": str(e)}
Explicación de los cambios:

1. Carpeta de almacenamiento de archivos MP3:

o Utilizo la función os.makedirs() para crear la carpeta audio en caso de que no exista. Esta
será la carpeta donde se guardarán todos los archivos MP3.
o Carpeta estática: La carpeta audio está montada como estática en el servidor, lo que permite
que los archivos MP3 sean accesibles públicamente a través de la URL
/audio/{archivo.mp3}.
2. Generación de nombres únicos:
o Para cada consulta, se genera un nombre de archivo único utilizando un timestamp
(response_<timestamp>.mp3). El timestamp asegura que no se sobrescriban archivos, ya que
cada consulta tendrá un nombre de archivo diferente.
o Esto te ayudará cuando implementes el frontend, ya que cada archivo de audio tendrá un
nombre único, lo que facilitará la carga y reproducción del archivo correspondiente a cada
consulta.

Beneficios de esta implementación:

 Evitar sobrescribir archivos: Cada archivo MP3 tendrá un nombre único basado en el tiempo, lo que
evita conflictos y permite manejar múltiples consultas simultáneamente.
 Facilitar la integración con el frontend: Con cada respuesta, el backend devolverá un archivo de
audio específico que puede ser reproducido en el frontend, ofreciendo una mejor experiencia al
usuario.

Con estos ajustes, cuando trabajes en el frontend, podrás fácilmente mostrar el archivo MP3 correspondiente
a cada consulta junto con la respuesta en texto.

Esto es para editar la ruta STT, haciendo que la transcripción de audio a texto pase a la
función TTS y que responda en texto y audio.

# Obtener la respuesta usando el texto generado

response = tfm_rag_llama(transcript)
# Generar el archivo de respuesta en audio (TTS)
audio_filename = generate_unique_filename()
text_to_speech(response, os.path.join(audio_directory, audio_filename))

return {
"Response": response,
"Audio file": audio_filename }

También podría gustarte

Bot Final
Aún no hay calificaciones
Bot Final
2 páginas
Convertir Texto a Voz en Python
Aún no hay calificaciones
Convertir Texto a Voz en Python
5 páginas
Creación de Chatbots con Python y NLP
Aún no hay calificaciones
Creación de Chatbots con Python y NLP
10 páginas
Scripts para Webmin y Spotify a YouTube
Aún no hay calificaciones
Scripts para Webmin y Spotify a YouTube
18 páginas
API Serverless para Texto a Voz con AWS
Aún no hay calificaciones
API Serverless para Texto a Voz con AWS
17 páginas
Chatbot SMS con OpenAI y Twilio
Aún no hay calificaciones
Chatbot SMS con OpenAI y Twilio
3 páginas
Creación de Chatbots Inteligentes en NLP
Aún no hay calificaciones
Creación de Chatbots Inteligentes en NLP
16 páginas
Manual de Usuario - Conversor de Audio A Texto
Aún no hay calificaciones
Manual de Usuario - Conversor de Audio A Texto
13 páginas
Integración de wav2vec2 en Raspberry Pi
Aún no hay calificaciones
Integración de wav2vec2 en Raspberry Pi
3 páginas
Trabajo
0% (1)
Trabajo
2 páginas
Patron Dev Oz
Aún no hay calificaciones
Patron Dev Oz
2 páginas
Casos Prácticos de IA en Educación
Aún no hay calificaciones
Casos Prácticos de IA en Educación
21 páginas
Asistente Por Voz en PC Basica
Aún no hay calificaciones
Asistente Por Voz en PC Basica
3 páginas
Implementación de un Chatbot en Python
Aún no hay calificaciones
Implementación de un Chatbot en Python
4 páginas
Barra de Estado
Aún no hay calificaciones
Barra de Estado
6 páginas
Chatbot RAG con Llama3 y FAISS
Aún no hay calificaciones
Chatbot RAG con Llama3 y FAISS
9 páginas
Asistente de IA con Vosk y Gemini
Aún no hay calificaciones
Asistente de IA con Vosk y Gemini
9 páginas
Código de asistente Jarvis en Python
Aún no hay calificaciones
Código de asistente Jarvis en Python
3 páginas
Ase Cifuentes Erazo Mosquera Practica 10 Preparatorio
Aún no hay calificaciones
Ase Cifuentes Erazo Mosquera Practica 10 Preparatorio
5 páginas
Prompt para Replit
Aún no hay calificaciones
Prompt para Replit
3 páginas
Doctype HTML
Aún no hay calificaciones
Doctype HTML
13 páginas
Chatbots en la Educación Universitaria
Aún no hay calificaciones
Chatbots en la Educación Universitaria
8 páginas
M2 GUIA - Preparación Introducción A Los Chatbots y Asistentes Virtuales
Aún no hay calificaciones
M2 GUIA - Preparación Introducción A Los Chatbots y Asistentes Virtuales
69 páginas
Agente de IA Json Completo
Aún no hay calificaciones
Agente de IA Json Completo
99 páginas
Integración de Amazon Connect con ChatGPT
Aún no hay calificaciones
Integración de Amazon Connect con ChatGPT
3 páginas
Chat Bot
Aún no hay calificaciones
Chat Bot
17 páginas
Transcribir Audio Con IA (Python)
Aún no hay calificaciones
Transcribir Audio Con IA (Python)
1 página
Whisper - Guía
Aún no hay calificaciones
Whisper - Guía
2 páginas
API de La Camara
Aún no hay calificaciones
API de La Camara
4 páginas
Desarrollo de Chatbot con PDF en Python
Aún no hay calificaciones
Desarrollo de Chatbot con PDF en Python
6 páginas
Laboratorio 3
Aún no hay calificaciones
Laboratorio 3
2 páginas
Instalación de Librerías para Chatbot
Aún no hay calificaciones
Instalación de Librerías para Chatbot
7 páginas
Curso Chatbot para WhatsApp Con ChatGPT - 2023
Aún no hay calificaciones
Curso Chatbot para WhatsApp Con ChatGPT - 2023
39 páginas
ChatBot de Recomendaciones con Árboles
Aún no hay calificaciones
ChatBot de Recomendaciones con Árboles
71 páginas
Layer7 - Speech Analytics MIddleware
Aún no hay calificaciones
Layer7 - Speech Analytics MIddleware
8 páginas
INVESTIGACION
Aún no hay calificaciones
INVESTIGACION
7 páginas
Chatbot Educativo para Ingenieros Informáticos
Aún no hay calificaciones
Chatbot Educativo para Ingenieros Informáticos
3 páginas
Dominio Avanzado de Prompts Multimodales y Llamadas A Funciones en OpenAI GPT-4o y Gemini 2
Aún no hay calificaciones
Dominio Avanzado de Prompts Multimodales y Llamadas A Funciones en OpenAI GPT-4o y Gemini 2
32 páginas
VEGAS CANAS Text2LSE 4398577 1680165950
Aún no hay calificaciones
VEGAS CANAS Text2LSE 4398577 1680165950
212 páginas
Primeros Pasos Con ChatGPT e Ingeniería de Prompts
Aún no hay calificaciones
Primeros Pasos Con ChatGPT e Ingeniería de Prompts
15 páginas
Clasificación de Texto y Chatbots en Python
Aún no hay calificaciones
Clasificación de Texto y Chatbots en Python
27 páginas
100 Prompts de ChatGPT para IA
Aún no hay calificaciones
100 Prompts de ChatGPT para IA
14 páginas
"Funcionamiento Técnico de Voiceflow"
Aún no hay calificaciones
"Funcionamiento Técnico de Voiceflow"
6 páginas
FreeSWITCH: Plataforma de Telefonía Open Source
Aún no hay calificaciones
FreeSWITCH: Plataforma de Telefonía Open Source
12 páginas
Implementación de un Chatbot en Python
Aún no hay calificaciones
Implementación de un Chatbot en Python
4 páginas
Guía de Asterisk y Festival
100% (2)
Guía de Asterisk y Festival
11 páginas
TFG Miguel Ciurana Tomas
Aún no hay calificaciones
TFG Miguel Ciurana Tomas
39 páginas
Guion Tema 2
Aún no hay calificaciones
Guion Tema 2
6 páginas
Amazon Polly: Texto a Voz en AWS
Aún no hay calificaciones
Amazon Polly: Texto a Voz en AWS
4 páginas
Análisis y Diseño de Reconocedor Vocales
Aún no hay calificaciones
Análisis y Diseño de Reconocedor Vocales
8 páginas
Chatbot para IDbox: Diseño e Implementación
Aún no hay calificaciones
Chatbot para IDbox: Diseño e Implementación
60 páginas
IA Personal Artemis
Aún no hay calificaciones
IA Personal Artemis
2 páginas
Descargar música de YouTube con Python
Aún no hay calificaciones
Descargar música de YouTube con Python
1 página
Chatbots en Spotify: NLP y Machine Learning
Aún no hay calificaciones
Chatbots en Spotify: NLP y Machine Learning
3 páginas
Preguntas de Ia
Aún no hay calificaciones
Preguntas de Ia
6 páginas
Chatbot Serverless con AWS y Dialogflow
Aún no hay calificaciones
Chatbot Serverless con AWS y Dialogflow
80 páginas
Plantilla N1
Aún no hay calificaciones
Plantilla N1
2 páginas
Francess
Aún no hay calificaciones
Francess
6 páginas
Modulo de Frances 12turismo
Aún no hay calificaciones
Modulo de Frances 12turismo
3 páginas
Curso Brandwatch
Aún no hay calificaciones
Curso Brandwatch
1 página
Planillas Tribunal Electoral Mayo 2025
Aún no hay calificaciones
Planillas Tribunal Electoral Mayo 2025
324 páginas
Análisis de Lanzamiento del Nissan LEAF en Alemania
Aún no hay calificaciones
Análisis de Lanzamiento del Nissan LEAF en Alemania
2 páginas
Estadística Inferencial Con Microsoft Excel
Aún no hay calificaciones
Estadística Inferencial Con Microsoft Excel
13 páginas
Fundamentos de la Dirección Administrativa
Aún no hay calificaciones
Fundamentos de la Dirección Administrativa
1 página
Informe de Limpieza de Agua Potable 2023
Aún no hay calificaciones
Informe de Limpieza de Agua Potable 2023
25 páginas
Los Problemas de La Propiedad Intelectual en Internet
100% (2)
Los Problemas de La Propiedad Intelectual en Internet
27 páginas
Finanzas e Inflación: Impacto y Actualización
Aún no hay calificaciones
Finanzas e Inflación: Impacto y Actualización
32 páginas
SPA5322101000 - Sec - 5 - EdA0 - Manual - de - Conduccion - Modos de Conducción
Aún no hay calificaciones
SPA5322101000 - Sec - 5 - EdA0 - Manual - de - Conduccion - Modos de Conducción
190 páginas
Ley de Colegios Profesionales 1974
Aún no hay calificaciones
Ley de Colegios Profesionales 1974
14 páginas
Actividades Historia 3 7a Semana
Aún no hay calificaciones
Actividades Historia 3 7a Semana
4 páginas
Cultivo de Maralfalfa para Ganado en Paraguay
Aún no hay calificaciones
Cultivo de Maralfalfa para Ganado en Paraguay
29 páginas
Plantilla Excel Analisis Estado Financiero
Aún no hay calificaciones
Plantilla Excel Analisis Estado Financiero
10 páginas
M-3iA B-83154SP - 02
Aún no hay calificaciones
M-3iA B-83154SP - 02
108 páginas
1033 - DUTY CATALOGO 2022 Respiracion
Aún no hay calificaciones
1033 - DUTY CATALOGO 2022 Respiracion
7 páginas
Características y Configuración de PHP
Aún no hay calificaciones
Características y Configuración de PHP
8 páginas
Formato Autorizacion Suministro de Medicamentos MARELIS MORA
Aún no hay calificaciones
Formato Autorizacion Suministro de Medicamentos MARELIS MORA
17 páginas
Mutuales del Bicentenario: Organización Juvenil
Aún no hay calificaciones
Mutuales del Bicentenario: Organización Juvenil
33 páginas
Laboratorio Química I: Guía de Asignatura
Aún no hay calificaciones
Laboratorio Química I: Guía de Asignatura
4 páginas
Responsabilidad Social en Universidades
Aún no hay calificaciones
Responsabilidad Social en Universidades
4 páginas
Costes Industriales de LIDER, S.A.
Aún no hay calificaciones
Costes Industriales de LIDER, S.A.
2 páginas
Dura Plate 154 Ms Ds
Aún no hay calificaciones
Dura Plate 154 Ms Ds
6 páginas
Apuntes Derecho Societario
100% (1)
Apuntes Derecho Societario
92 páginas
Normativa de Instalaciones Eléctricas EM.010
Aún no hay calificaciones
Normativa de Instalaciones Eléctricas EM.010
4 páginas
Extracto 202308 Cuenta de Ahorros 7893
Aún no hay calificaciones
Extracto 202308 Cuenta de Ahorros 7893
1 página
"Proyecto de Instalación de Una Planta de Tara
Aún no hay calificaciones
"Proyecto de Instalación de Una Planta de Tara
3 páginas
Presentacion Power Point
Aún no hay calificaciones
Presentacion Power Point
5 páginas
Tipos de Conexiones en Motores DC
Aún no hay calificaciones
Tipos de Conexiones en Motores DC
7 páginas
Protección Contra Incendios 2017
Aún no hay calificaciones
Protección Contra Incendios 2017
34 páginas
Microorganismos en La Industria Farmaceutica
50% (4)
Microorganismos en La Industria Farmaceutica
15 páginas
Fundamentos Basicos - Mercados de Capitales
Aún no hay calificaciones
Fundamentos Basicos - Mercados de Capitales
15 páginas