Proyecto 1 de Procesamiento de Contenido Multimedia
Programa de Ingeniería Electrónica
Profesor: RAFAEL DAVID LINERO RAMOS, MSc.
rlineror@[Link]
Proyecto Evaluativo 1: Comparación de Métodos de Clasificación en Audio e
Imágenes
Procesamiento de Contenido Multimedia
Objetivo General:
Evaluar la diferencia en precisión entre dos métodos de clasificación, uno basado en
las características extraídas directamente de archivos de audio y otro basado en la
clasificación de espectrogramas generados a partir de dichos audios.
Objetivos Específicos:
1. Extraer características relevantes de archivos de audio y utilizarlas en un
modelo de clasificación.
2. Convertir los audios en espectrogramas y evaluar la clasificación sobre las
imágenes generadas.
3. Comparar el desempeño de ambos enfoques en términos de precisión.
Metodología y Pasos del Proyecto
Fase 1: Adquisición y Preparación de Datos
1. Selección del dataset
o Elegir un conjunto de archivos de audio categorizados (pueden ser
sonidos ambientales, música, habla, etc.).
o Asegurar que haya un número balanceado de muestras por clase.
2. Preprocesamiento del audio
o Normalización de amplitud.
o Remoción de ruido si es necesario.
o Segmentación en fragmentos de duración uniforme (e.g., 3 segundos).
Proyecto 1, Procesamiento de Contenido Multimedia
Página 1 de 4
Proyecto 1 de Procesamiento de Contenido Multimedia
Programa de Ingeniería Electrónica
Profesor: RAFAEL DAVID LINERO RAMOS, MSc.
rlineror@[Link]
Fase 2: Clasificación Basada en Características de Audio
3. Extracción de características de audio
o Amplitud
o Valores pico a pico
o Valores RMS
o Espectro de energía y centroides espectrales.
o Correlaciones
o MFCCs (Mel Frequency Cepstral Coefficients).
4. Entrenamiento de modelos de clasificación
o Selección de modelos (SVM, Random Forest, Redes Neuronales, etc.).
o Entrenamiento y validación cruzada.
5. Evaluación del desempeño
o Medición de precisión.
o Análisis de matriz de confusión.
Fase 3: Clasificación Basada en Espectrogramas
6. Conversión de audio a imágenes
o Generación de espectrogramas con STFT (Short-Time Fourier Transform) o
Wavelet.
o Guardado de espectrogramas como imágenes en escala de grises o
color (usando Matplotlib u otra herramienta).
7. Entrenamiento de modelos de visión por computadora
o Uso de CNNs (Convolutional Neural Networks) como ResNet, VGG o
modelos personalizados.
o Aplicación de técnicas de aumento de datos para mejorar la
generalización.
Proyecto 1, Procesamiento de Contenido Multimedia
Página 2 de 4
Proyecto 1 de Procesamiento de Contenido Multimedia
Programa de Ingeniería Electrónica
Profesor: RAFAEL DAVID LINERO RAMOS, MSc.
rlineror@[Link]
8. Evaluación del desempeño
o Medición de precisión, sobre la clasificación de los espectrogramas.
o Comparación con la clasificación basada en audio crudo.
Fase 4: Comparación de Resultados y Conclusión
9. Comparación de métricas
o Comparar la precisión de ambos métodos.
o Analizar si hay diferencias significativas en la clasificación.
10. Discusión de ventajas y desventajas
• ¿El modelo basado en audio es más eficiente computacionalmente?
• ¿El modelo basado en espectrogramas mejora la precisión a costa de mayor
procesamiento?
11. Conclusiones finales
• Reflexionar sobre la aplicabilidad de cada método en diferentes escenarios.
• Proponer mejoras para futuros estudios.
Evaluación:
1. Entregables:
1.1. Los archivos de multimedia empleados en los ítems del punto 1 (Audios e
Imágenes) y los códigos desarrollados en Matlab (.m o .mlx) o en Python (.py
o .ipynb) en el proyecto.
1.2. Documento ejecutivo y presentación en la que se expliquen las técnicas
empleadas, lógica, construcción y funcionamiento de las fases 1, 2 y 3.
1.3. Un vídeo (grabación de pantalla en Matlab o Python) en el que se evidencie
usted explicando el funcionamiento de las fases 2 y 3.
Proyecto 1, Procesamiento de Contenido Multimedia
Página 3 de 4
Proyecto 1 de Procesamiento de Contenido Multimedia
Programa de Ingeniería Electrónica
Profesor: RAFAEL DAVID LINERO RAMOS, MSc.
rlineror@[Link]
2. Distribuciones:
100 %
Calidad del proyecto en documento y presentaciones 20 %
Presentación del proyecto en videos y sustentación 20 %
Diseño de las técnicas métodos de clasificación 20 %
Precisión de la clasificación de las señales (AeI) 20 %
Originalidad de los códigos desarrollados 20 %
3. Anotaciones:
Realice un punto y/o procesamiento a la vez.
En la fase 1 les sugiero ejemplos, pero lo que ustedes desean procesar es de libre
elección.
En los vídeos explicativos de sustentación del funcionamiento de sus
procesamientos, una herramienta muy útil es Teams, permite grabar pantalla y
tienen acceso a esta herramienta con sus correos institucionales.
Los videos explicativos de sustentación del funcionamiento de sus clasificaciones
pueden quedar almacenados en un link y este lo pueden agregar a las
presentaciones.
Realizar todos los entregables en una sola carpeta comprimida .rar o .zip.
Fecha de entrega: máximo el martes 11 de marzo de 2025 a las 03:59 p.m.
Al correo institucional rlineror@[Link]
Proyecto 1, Procesamiento de Contenido Multimedia
Página 4 de 4