SIMULACIÓN III:
PRESENTADO POR:
DANIEL ALEJANDRO RINCON HERNANDEZ
20241678015
JUAN CAMILO POLOCHE GARZON
20231678015
DIEGO FELIPE PEREZ AVILA
20222678034
DOCENTE
GERARDO CASTANG MONTIEL
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
FACULTAD TECNOLÓGICA
INGENIERÍA TELEMÁTICA
TEORÍA DE LA INFORMACIÓN
BOGOTA D.C.
2025
Introducción
En el entorno digital contemporáneo, donde la creación, distribución y consumo de contenidos
multimedia crecen exponencialmente, la compresión eficiente de audio y video se ha convertido en
una necesidad crítica. La cantidad de datos que generan estos archivos puede llegar a ser
inmanejable si no se emplean técnicas adecuadas de codificación.
En este contexto, los códecs (codificadores/decodificadores) juegan un papel fundamental, ya que
permiten representar señales de audio y video de forma más compacta, facilitando tanto el
almacenamiento como la transmisión. Un aspecto clave en este proceso es la cuantización, que
determina cuánta información se conserva o se pierde durante la codificación.
FFmpeg, una herramienta de código abierto ampliamente reconocida en la industria y la academia,
proporciona una plataforma versátil para experimentar con distintos esquemas de compresión y
cuantización. Su capacidad para operar a través de la línea de comandos, junto con el soporte para
múltiples formatos, lo convierte en una solución ideal para implementar y analizar códecs
experimentales.
Este documento describe el proceso de diseño, implementación y evaluación de un códec
experimental utilizando FFmpeg. Se analizarán diferentes profundidades de cuantización y se
evaluará el impacto de diversos formatos de compresión en la calidad final de las señales
multimedia.
Objetivo General
Diseñar e implementar un códec experimental para la codificación y decodificación de archivos de
audio y video utilizando la herramienta FFmpeg, permitiendo:
● Explorar los efectos de diferentes niveles de cuantización (de 4 a 24 bits).
● Comparar formatos de compresión populares en términos de calidad y eficiencia.
● Evaluar la calidad percibida de las señales comprimidas mediante métricas objetivas y
análisis visual/auditivo.
Justificación del Uso de FFmpeg
El uso de FFmpeg como herramienta principal se fundamenta en sus múltiples ventajas:
● Versatilidad: Admite cientos de códecs de audio y video, lo cual facilita la comparación de
múltiples escenarios de compresión.
● Eficiencia: Optimizado para el procesamiento rápido de archivos multimedia, sin necesidad
de recursos computacionales excesivos.
● Portabilidad y Accesibilidad: Funciona en múltiples sistemas operativos (Linux, Windows,
macOS) y no requiere entornos gráficos, lo que permite su ejecución en servidores o
entornos automatizados.
● Automatización y Scripting: Compatible con scripts de Bash, Python y otros lenguajes,
facilitando la automatización de pruebas y el procesamiento masivo de archivos.
Gracias a estas características, FFmpeg es ideal para simular procesos de codificación, experimentar
con diferentes niveles de cuantización, y generar salidas en formatos estándar para su análisis
posterior.
Niveles de Cuantización Evaluados
La cuantización es un proceso esencial en la compresión digital, en el que los valores continuos de
una señal se aproximan a valores discretos. En este estudio se han definido tres grupos de prueba:
Grupo A: Cuantización de baja resolución (4, 6, 8 bits)
● Alta pérdida de información.
● Útil para análisis en condiciones extremas de compresión.
● Aplicaciones en sistemas con ancho de banda muy limitado.
Grupo B: Cuantización media (10, 12, 14 bits)
● Equilibrio entre calidad y compresión.
● Se explorarán tanto cuantización uniforme (lineal) como no uniforme (logarítmica o
perceptual).
Grupo C: Cuantización de alta resolución (16, 20, 24 bits)
● Mínima pérdida de calidad perceptible.
● Apta para aplicaciones de alta fidelidad, como audio profesional o video en alta definición.
● Estos niveles permitirán analizar cómo la resolución de cuantización afecta tanto la calidad
percibida como el tamaño de archivo resultante.
Cuantificación Uniforme y No Uniforme
Definición:
La cuantificación convierte señales continuas en valores discretos. Se puede implementar de dos
formas:
● Cuantificación Uniforme (CU):
○ Espaciado constante entre niveles de cuantización.
○ Simplicidad y eficiencia computacional.
○ Más adecuada para señales con distribución uniforme (por ejemplo, ruido blanco).
○ Usada típicamente en niveles bajos y altos (4, 6, 8 y 16, 20, 24 bits).
● Cuantificación No Uniforme (CNU):
○ Espaciado entre niveles varía según la percepción humana (logarítmica o
µ-law/A-law).
○ Mejora la eficiencia perceptual, especialmente en audio.
○ Más adecuada para señales donde pequeñas variaciones son importantes a niveles
bajos (10, 12, 14 bits).
Aplicaciones:
● Audio de baja calidad puede usar CU para facilitar compresión extrema.
● Audio de calidad intermedia o profesional (como Dolby o música) puede beneficiarse del
uso de CNU para mejorar la percepción sin aumentar excesivamente el tamaño del archivo.
Esquema para pruebas
Grupo Bits Cuantificación Ejemplos de prueba
A 4, 6, 8 Uniforme Audio comprimido, voz baja calidad
B 10,12,14 No uniforme Música o habla con compresión media
C 16,20,24 Uni/No uniforme Video HD, audio Dolby
Formatos de salida y su aplicación
● Audio:
○ MP3: estándar con pérdida, fácil de comparar.
○ OGG: libre, buena compresión perceptual.
○ Dolby/AC-3: usado en cine, requiere fidelidad.
● Video:
MPEG: comparación histórica, baja eficiencia.
○ MP4 (H.264): estándar moderno, balance ideal.
OGG Theora: alternativa libre.
Formatos de Salida Analizados
Los archivos generados serán exportados en distintos formatos para evaluar el comportamiento de
diversos algoritmos de compresión en combinación con los niveles de cuantización.
Audio
● MP3: Códec con pérdida ampliamente utilizado. Permite analizar la eficiencia de
compresión a tasas de bits variables.
● OGG/Vorbis: Códec libre con características similares a MP3, pero con diferente modelo de
psicoacústica.
● Dolby/AC-3: Códec avanzado utilizado en entornos cinematográficos y de transmisión
digital.
Video
● MPEG: Estándar antiguo pero todavía relevante, útil para comparaciones básicas.
● MP4 (H.264/AAC): Formato moderno, balance entre calidad y compresión. Empleado para
evaluaciones de eficiencia.
● OGG (Theora/Vorbis): Alternativa de código abierto, útil para estudios comparativos con
formatos propietarios.
La selección de formatos permite comparar el rendimiento entre códecs libres y comerciales en
distintos escenarios.
Duración de las Muestras
Con el fin de asegurar resultados representativos sin generar un exceso de datos, se han establecido
las siguientes duraciones:
Audio: 2 minutos por muestra.
Video: 1 minuto por muestra.
Estas duraciones permiten ejecutar múltiples pruebas sin afectar significativamente el tiempo de
procesamiento ni el uso de recursos, manteniendo la relevancia técnica de los resultados.
Metodología
La metodología utilizada para el desarrollo del códec experimental incluye:
1. Selección del Material de Prueba:
● Archivos de audio y video representativos en contenido y calidad original.
2. Procesamiento con FFmpeg:
● Aplicación de distintas profundidades de cuantización mediante opciones de bitrate, sample
format (-sample_fmt), y filtros de audio/video.
● Conversión a diferentes formatos utilizando parámetros estándar y personalizados.
3. Evaluación de Resultados:
● Análisis visual (comparación de fotogramas) y auditivo (escucha controlada).
● Uso de métricas objetivas como PSNR, SSIM (para video) y PEAQ o PESQ (para audio).
4. Documentación de Resultados:
● Registro detallado de parámetros utilizados, tamaño final de los archivos, tiempo de
procesamiento y métricas de calidad obtenidas.
Simulación
44100 ← Frecuencia de muestreo (Hz)
12.345678 ← Duración (en segundos)
1411200 ← Bitrate (en bits por segundo)
16 ← Profundidad de bits
Codificamos audios en formato WAV utilizando diferentes profundidades de bits: 8, 16, 32 y 64
bits, a distintas frecuencias de muestreo (de 5000 a 44100 Hz). Luego analizaste estos archivos con
ffprobe.
Profundidad Formato Ejemplo de Tipo de Tipo de dato
PCM codec cuantificación
8 bits pcm_u8 PCM unsigned Cuantificación Entero sin
8 uniforme signo
16 bits pcm_s16le PCM signed 16 Cuantificación Entero con
LE uniforme signo
32 bits pcm_f32le PCM float 32 Cuantificación (float) Punto flotante
64 bits pcm_f64le PCM float 64 Alta precisión Doble flotante
(análisis)
Formato PCM Profundidad máxima típica
pcm_u8 (unsigned) 8 bits Sonido muy básico, calidad baja
pcm_s16le 16 bits Estándar para CD
pcm_s24le 24 bits Uso profesional
pcm_s32le 32 bits (entero) Alta calidad, más precisión
pcm_f32le 32 bits (punto flotante) Muy usado en edición de audio
pcm_f64le 64 bits (punto flotante) Máxima precisión, raramente usado
ffmpeg -i [Link] -c:a pcm_u8 output_8bit.wav
ffmpeg -i [Link] -c:a pcm_s16le output_16bit.wav
ffmpeg -i [Link] -c:a pcm_s32le output_32bit_int.wav
ffmpeg -i [Link] -c:a pcm_f32le output_32bit_float.wav
ffmpeg -i [Link] -c:a pcm_f64le output_64bit.wav
Si el codec es pcm_s16le, pcm_f32le, etc. → Uniforme
Si el codec es pcm_mulaw o pcm_alaw → No uniforme
Salida txt
Bitrate = Frecuencia de muestreo × Profundidad de bits × Número de canales
8 bits a 10000 Hz = 10,000 × 8 = 80,000 bits/s = 80 kbps
16 bits a 20000 Hz = 20,000 × 16 = 320,000 bits/s = 320 kbps
32 bits a 44100 Hz = 44,100 × 32 = 1,411,200 bits/s = 1411 kbps
64 bits a 44100 Hz = 44,100 × 64 = 2,822,400 bits/s = 2822 kbps
Esto se refleja claramente en los archivos analizados. El aumento del número de bits incrementa la
fidelidad, pero también duplica o cuadruplica el tamaño del archivo.
Resultados e interpretación
Interpretación técnica
Ventajas por nivel de codificación:
8 bits:
● Muy baja calidad, útil para pruebas de compresión extrema.
● Cuantificación uniforme
● Muy bajo peso (ideal en contextos donde se prioriza el espacio.
16 bits:
● Estándar para calidad de CD de audio.
● Buena fidelidad, poco peso relativo.
● Cuantificación uniforme (PCM signed).
32 bits:
● Se usan puntos flotantes → más precisión
● Permiten la representación de valores con mucho rango dinámico.
● Ideales para procesamiento digital de señales (DSP).
64 bits:
● Precisión máxima, pero no perceptible para el oído humano.
● Se usan para análisis, no para distribución.
● Poco eficientes en términos de almacenamiento.
Característica Cuantificación Uniforme Cuantificación No Uniforme
Distribución de niveles Equidistantes Más niveles para señales suaves
Rango dinámico Constante por bit Optimizado para voz
(logarítmico)
Precisión en señales Menor Mayor
suaves
Calidad de audio Alta fidelidad Reducción de fidelidad general
Tamaño del archivo Grande Más eficiente
Algoritmo requerido Simple Necesita
codificador/decodificador
Usos comunes Música, masterización, análisis Telefonía, VOIP, grabadoras
acústico antiguas
Cuantificación uniforme
● Trata todos los niveles de amplitud por igual.
● Genera más ruido de cuantificación en niveles bajos.
● Afecta la claridad de sonidos suaves o transitorios.
● Requiere más bits para lograr la misma calidad perceptual que la no uniforme.
Cuantificación no uniforme
● Imita la respuesta no lineal del oído humano (que es logarítmica).
● Permite representar mejor las variaciones pequeñas a bajo volumen.
● Reduce el ruido perceptible, incluso usando menos bits.
● Muy usada en telefonía (μ-law, A-law) y codificadores perceptuales (MP3, AAC).
5G y 5G ADVANCE
FFmpeg incluye soporte para codecs 5G por una razón fundamental: es el estándar universal de
procesamiento multimedia que debe mantenerse compatible con todas las tecnologías de
comunicación existentes y futuras.
usar 5G - está obligado a hacerlo para mantener su rol como la librería multimedia universal. Es
supervivencia tecnológica: evolucionar con los estándares o volverse obsoleto.
Es la misma razón por la que soporta MP3, AAC, H.264: porque el mundo digital depende de que
FFmpeg sea compatible con todo formato importante.
FFmpeg no es solo un programa, es LA librería que usan:
● YouTube, Netflix, Spotify → Para procesar videos/audio
● WhatsApp, Telegram → Para comprimir multimedia en chats
● Navegadores web → Chrome, Firefox usan FFmpeg internamente
● Sistemas operativos → Android, iOS, Windows, Linux
● Aplicaciones móviles → 90% usan FFmpeg para multimedia
Por eso DEBE soportar todos los formatos existentes y futuros
2. Demanda de la Industria de Telecomunicaciones
Operadores móviles necesitan FFmpeg para:
● Verizon, AT&T, Vodafone → Procesar llamadas 5G
● Samsung, Apple, Huawei → Integrar en sus teléfonos
● Infraestructura 5G → Torres celulares procesan audio
● Servicios VoLTE/VoNR → Requieren conversión en tiempo real
3. Estándares Internacionales Obligatorios
3GPP (Organización de estándares móviles) exige:
● EVS → Obligatorio para certificación 5G
● IVAS → Requerido para 5G Advanced
● LC3 → Estándar para Bluetooth LE Audio
Conclusión
El desarrollo de un códec experimental mediante FFmpeg ha demostrado ser una herramienta
potente para el análisis de técnicas de compresión y cuantización. La capacidad de personalizar
niveles de bits y exportar en múltiples formatos permite simular escenarios reales de transmisión y
almacenamiento multimedia.
Este estudio no solo proporciona un entendimiento práctico de cómo afectan las decisiones de
cuantización a la calidad del audio y video, sino que también ofrece una base para futuras
investigaciones en optimización de códecs, desarrollo de algoritmos perceptuales y aplicaciones en
sistemas de bajo ancho de banda. FFmpeg, por su naturaleza abierta, flexible y escalable, se
posiciona como una herramienta indispensable en estudios técnicos relacionados con el
procesamiento multimedia
● La profundidad de bits define la resolución de cuantificación, y tiene un impacto directo en
la calidad y el tamaño de archivo.
● La frecuencia de muestreo determina el rango de frecuencias que pueden representarse. Por
ejemplo, 44100 Hz permite representar hasta 22050 Hz (Teorema de Nyquist).
● 16 bits, 44100 Hz para distribución final / 32 bits float, 48000 Hz o superior para
procesamiento interno.