0% encontró este documento útil (0 votos)
22 vistas13 páginas

Simulación III

El documento presenta el diseño e implementación de un códec experimental utilizando FFmpeg, enfocado en la compresión de audio y video mediante diferentes niveles de cuantización. Se evalúan los efectos de la cuantización y se comparan formatos de compresión para determinar su impacto en la calidad de las señales multimedia. Además, se discuten las aplicaciones de FFmpeg en la industria y su importancia en el procesamiento de medios en diversas plataformas.

Cargado por

Diego Avila
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
22 vistas13 páginas

Simulación III

El documento presenta el diseño e implementación de un códec experimental utilizando FFmpeg, enfocado en la compresión de audio y video mediante diferentes niveles de cuantización. Se evalúan los efectos de la cuantización y se comparan formatos de compresión para determinar su impacto en la calidad de las señales multimedia. Además, se discuten las aplicaciones de FFmpeg en la industria y su importancia en el procesamiento de medios en diversas plataformas.

Cargado por

Diego Avila
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

SIMULACIÓN III:

PRESENTADO POR:​

DANIEL ALEJANDRO RINCON HERNANDEZ

20241678015

JUAN CAMILO POLOCHE GARZON

20231678015

DIEGO FELIPE PEREZ AVILA

20222678034

DOCENTE

GERARDO CASTANG MONTIEL

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS

FACULTAD TECNOLÓGICA

INGENIERÍA TELEMÁTICA

TEORÍA DE LA INFORMACIÓN

BOGOTA D.C.

2025
Introducción

En el entorno digital contemporáneo, donde la creación, distribución y consumo de contenidos


multimedia crecen exponencialmente, la compresión eficiente de audio y video se ha convertido en
una necesidad crítica. La cantidad de datos que generan estos archivos puede llegar a ser
inmanejable si no se emplean técnicas adecuadas de codificación.

En este contexto, los códecs (codificadores/decodificadores) juegan un papel fundamental, ya que


permiten representar señales de audio y video de forma más compacta, facilitando tanto el
almacenamiento como la transmisión. Un aspecto clave en este proceso es la cuantización, que
determina cuánta información se conserva o se pierde durante la codificación.

FFmpeg, una herramienta de código abierto ampliamente reconocida en la industria y la academia,


proporciona una plataforma versátil para experimentar con distintos esquemas de compresión y
cuantización. Su capacidad para operar a través de la línea de comandos, junto con el soporte para
múltiples formatos, lo convierte en una solución ideal para implementar y analizar códecs
experimentales.

Este documento describe el proceso de diseño, implementación y evaluación de un códec


experimental utilizando FFmpeg. Se analizarán diferentes profundidades de cuantización y se
evaluará el impacto de diversos formatos de compresión en la calidad final de las señales
multimedia.

Objetivo General

Diseñar e implementar un códec experimental para la codificación y decodificación de archivos de


audio y video utilizando la herramienta FFmpeg, permitiendo:

●​ Explorar los efectos de diferentes niveles de cuantización (de 4 a 24 bits).


●​ Comparar formatos de compresión populares en términos de calidad y eficiencia.
●​ Evaluar la calidad percibida de las señales comprimidas mediante métricas objetivas y
análisis visual/auditivo.

Justificación del Uso de FFmpeg

El uso de FFmpeg como herramienta principal se fundamenta en sus múltiples ventajas:


●​ Versatilidad: Admite cientos de códecs de audio y video, lo cual facilita la comparación de
múltiples escenarios de compresión.
●​ Eficiencia: Optimizado para el procesamiento rápido de archivos multimedia, sin necesidad
de recursos computacionales excesivos.
●​ Portabilidad y Accesibilidad: Funciona en múltiples sistemas operativos (Linux, Windows,
macOS) y no requiere entornos gráficos, lo que permite su ejecución en servidores o
entornos automatizados.
●​ Automatización y Scripting: Compatible con scripts de Bash, Python y otros lenguajes,
facilitando la automatización de pruebas y el procesamiento masivo de archivos.

Gracias a estas características, FFmpeg es ideal para simular procesos de codificación, experimentar
con diferentes niveles de cuantización, y generar salidas en formatos estándar para su análisis
posterior.

Niveles de Cuantización Evaluados

La cuantización es un proceso esencial en la compresión digital, en el que los valores continuos de


una señal se aproximan a valores discretos. En este estudio se han definido tres grupos de prueba:

Grupo A: Cuantización de baja resolución (4, 6, 8 bits)

●​ Alta pérdida de información.


●​ Útil para análisis en condiciones extremas de compresión.
●​ Aplicaciones en sistemas con ancho de banda muy limitado.


Grupo B: Cuantización media (10, 12, 14 bits)

●​ Equilibrio entre calidad y compresión.


●​ Se explorarán tanto cuantización uniforme (lineal) como no uniforme (logarítmica o
perceptual).

Grupo C: Cuantización de alta resolución (16, 20, 24 bits)

●​ Mínima pérdida de calidad perceptible.


●​ Apta para aplicaciones de alta fidelidad, como audio profesional o video en alta definición.
●​ Estos niveles permitirán analizar cómo la resolución de cuantización afecta tanto la calidad
percibida como el tamaño de archivo resultante.

Cuantificación Uniforme y No Uniforme

Definición:​
La cuantificación convierte señales continuas en valores discretos. Se puede implementar de dos
formas:

●​ Cuantificación Uniforme (CU):


○​ Espaciado constante entre niveles de cuantización.
○​ Simplicidad y eficiencia computacional.
○​ Más adecuada para señales con distribución uniforme (por ejemplo, ruido blanco).
○​ Usada típicamente en niveles bajos y altos (4, 6, 8 y 16, 20, 24 bits).​

●​ Cuantificación No Uniforme (CNU):


○​ Espaciado entre niveles varía según la percepción humana (logarítmica o
µ-law/A-law).
○​ Mejora la eficiencia perceptual, especialmente en audio.
○​ Más adecuada para señales donde pequeñas variaciones son importantes a niveles
bajos (10, 12, 14 bits).

Aplicaciones:

●​ Audio de baja calidad puede usar CU para facilitar compresión extrema.


●​ Audio de calidad intermedia o profesional (como Dolby o música) puede beneficiarse del
uso de CNU para mejorar la percepción sin aumentar excesivamente el tamaño del archivo.

Esquema para pruebas

Grupo Bits Cuantificación Ejemplos de prueba

A 4, 6, 8 Uniforme Audio comprimido, voz baja calidad


B 10,12,14 No uniforme Música o habla con compresión media

C 16,20,24 Uni/No uniforme Video HD, audio Dolby

Formatos de salida y su aplicación

●​ Audio:
○​ MP3: estándar con pérdida, fácil de comparar.
○​ OGG: libre, buena compresión perceptual.
○​ Dolby/AC-3: usado en cine, requiere fidelidad.​

●​ Video:​
MPEG: comparación histórica, baja eficiencia.
○​ MP4 (H.264): estándar moderno, balance ideal.​
OGG Theora: alternativa libre.

Formatos de Salida Analizados

Los archivos generados serán exportados en distintos formatos para evaluar el comportamiento de
diversos algoritmos de compresión en combinación con los niveles de cuantización.

Audio

●​ MP3: Códec con pérdida ampliamente utilizado. Permite analizar la eficiencia de


compresión a tasas de bits variables.
●​ OGG/Vorbis: Códec libre con características similares a MP3, pero con diferente modelo de
psicoacústica.
●​ Dolby/AC-3: Códec avanzado utilizado en entornos cinematográficos y de transmisión
digital.

Video

●​ MPEG: Estándar antiguo pero todavía relevante, útil para comparaciones básicas.
●​ MP4 (H.264/AAC): Formato moderno, balance entre calidad y compresión. Empleado para
evaluaciones de eficiencia.
●​ OGG (Theora/Vorbis): Alternativa de código abierto, útil para estudios comparativos con
formatos propietarios.

La selección de formatos permite comparar el rendimiento entre códecs libres y comerciales en


distintos escenarios.

Duración de las Muestras

Con el fin de asegurar resultados representativos sin generar un exceso de datos, se han establecido
las siguientes duraciones:

Audio: 2 minutos por muestra.

Video: 1 minuto por muestra.

Estas duraciones permiten ejecutar múltiples pruebas sin afectar significativamente el tiempo de
procesamiento ni el uso de recursos, manteniendo la relevancia técnica de los resultados.

Metodología
La metodología utilizada para el desarrollo del códec experimental incluye:

1.​ Selección del Material de Prueba:

●​ Archivos de audio y video representativos en contenido y calidad original.


2.​ Procesamiento con FFmpeg:
●​ Aplicación de distintas profundidades de cuantización mediante opciones de bitrate, sample
format (-sample_fmt), y filtros de audio/video.
●​ Conversión a diferentes formatos utilizando parámetros estándar y personalizados.

3.​ Evaluación de Resultados:

●​ Análisis visual (comparación de fotogramas) y auditivo (escucha controlada).


●​ Uso de métricas objetivas como PSNR, SSIM (para video) y PEAQ o PESQ (para audio).

4.​ Documentación de Resultados:

●​ Registro detallado de parámetros utilizados, tamaño final de los archivos, tiempo de


procesamiento y métricas de calidad obtenidas.
Simulación

44100 ← Frecuencia de muestreo (Hz)


12.345678 ← Duración (en segundos)
1411200 ← Bitrate (en bits por segundo)
16 ← Profundidad de bits
Codificamos audios en formato WAV utilizando diferentes profundidades de bits: 8, 16, 32 y 64
bits, a distintas frecuencias de muestreo (de 5000 a 44100 Hz). Luego analizaste estos archivos con
ffprobe.

Profundidad Formato Ejemplo de Tipo de Tipo de dato


PCM codec cuantificación

8 bits pcm_u8 PCM unsigned Cuantificación Entero sin


8 uniforme signo

16 bits pcm_s16le PCM signed 16 Cuantificación Entero con


LE uniforme signo

32 bits pcm_f32le PCM float 32 Cuantificación (float) Punto flotante

64 bits pcm_f64le PCM float 64 Alta precisión Doble flotante


(análisis)

Formato PCM​ Profundidad máxima típica​


pcm_u8 (unsigned)​ 8 bits​ Sonido muy básico, calidad baja
pcm_s16le​ 16 bits​ Estándar para CD
pcm_s24le​ 24 bits​ Uso profesional
pcm_s32le​ 32 bits (entero)​ Alta calidad, más precisión
pcm_f32le​ 32 bits (punto flotante)​ Muy usado en edición de audio
pcm_f64le​ 64 bits (punto flotante)​ Máxima precisión, raramente usado

ffmpeg -i [Link] -c:a pcm_u8 output_8bit.wav


ffmpeg -i [Link] -c:a pcm_s16le output_16bit.wav
ffmpeg -i [Link] -c:a pcm_s32le output_32bit_int.wav
ffmpeg -i [Link] -c:a pcm_f32le output_32bit_float.wav
ffmpeg -i [Link] -c:a pcm_f64le output_64bit.wav
Si el codec es pcm_s16le, pcm_f32le, etc. → Uniforme
Si el codec es pcm_mulaw o pcm_alaw → No uniforme

Salida txt
Bitrate = Frecuencia de muestreo × Profundidad de bits × Número de canales
8 bits a 10000 Hz = 10,000 × 8 = 80,000 bits/s = 80 kbps
16 bits a 20000 Hz = 20,000 × 16 = 320,000 bits/s = 320 kbps
32 bits a 44100 Hz = 44,100 × 32 = 1,411,200 bits/s = 1411 kbps
64 bits a 44100 Hz = 44,100 × 64 = 2,822,400 bits/s = 2822 kbps

Esto se refleja claramente en los archivos analizados. El aumento del número de bits incrementa la
fidelidad, pero también duplica o cuadruplica el tamaño del archivo.

Resultados e interpretación

Interpretación técnica
Ventajas por nivel de codificación:
8 bits:
●​ Muy baja calidad, útil para pruebas de compresión extrema.
●​ Cuantificación uniforme
●​ Muy bajo peso (ideal en contextos donde se prioriza el espacio.

16 bits:
●​ Estándar para calidad de CD de audio.
●​ Buena fidelidad, poco peso relativo.
●​ Cuantificación uniforme (PCM signed).
32 bits:
●​ Se usan puntos flotantes → más precisión
●​ Permiten la representación de valores con mucho rango dinámico.
●​ Ideales para procesamiento digital de señales (DSP).

64 bits:
●​ Precisión máxima, pero no perceptible para el oído humano.
●​ Se usan para análisis, no para distribución.
●​ Poco eficientes en términos de almacenamiento.

Característica Cuantificación Uniforme Cuantificación No Uniforme

Distribución de niveles Equidistantes Más niveles para señales suaves

Rango dinámico Constante por bit Optimizado para voz


(logarítmico)

Precisión en señales Menor Mayor


suaves

Calidad de audio Alta fidelidad Reducción de fidelidad general

Tamaño del archivo Grande Más eficiente

Algoritmo requerido Simple Necesita


codificador/decodificador

Usos comunes Música, masterización, análisis Telefonía, VOIP, grabadoras


acústico antiguas

Cuantificación uniforme
●​ Trata todos los niveles de amplitud por igual.
●​ Genera más ruido de cuantificación en niveles bajos.
●​ Afecta la claridad de sonidos suaves o transitorios.
●​ Requiere más bits para lograr la misma calidad perceptual que la no uniforme.
Cuantificación no uniforme
●​ Imita la respuesta no lineal del oído humano (que es logarítmica).
●​ Permite representar mejor las variaciones pequeñas a bajo volumen.
●​ Reduce el ruido perceptible, incluso usando menos bits.
●​ Muy usada en telefonía (μ-law, A-law) y codificadores perceptuales (MP3, AAC).

5G y 5G ADVANCE
FFmpeg incluye soporte para codecs 5G por una razón fundamental: es el estándar universal de
procesamiento multimedia que debe mantenerse compatible con todas las tecnologías de
comunicación existentes y futuras.

usar 5G - está obligado a hacerlo para mantener su rol como la librería multimedia universal. Es
supervivencia tecnológica: evolucionar con los estándares o volverse obsoleto.

Es la misma razón por la que soporta MP3, AAC, H.264: porque el mundo digital depende de que
FFmpeg sea compatible con todo formato importante.

FFmpeg no es solo un programa, es LA librería que usan:

●​ YouTube, Netflix, Spotify → Para procesar videos/audio


●​ WhatsApp, Telegram → Para comprimir multimedia en chats
●​ Navegadores web → Chrome, Firefox usan FFmpeg internamente
●​ Sistemas operativos → Android, iOS, Windows, Linux
●​ Aplicaciones móviles → 90% usan FFmpeg para multimedia

Por eso DEBE soportar todos los formatos existentes y futuros

2. Demanda de la Industria de Telecomunicaciones

Operadores móviles necesitan FFmpeg para:


●​ Verizon, AT&T, Vodafone → Procesar llamadas 5G
●​ Samsung, Apple, Huawei → Integrar en sus teléfonos
●​ Infraestructura 5G → Torres celulares procesan audio
●​ Servicios VoLTE/VoNR → Requieren conversión en tiempo real

3. Estándares Internacionales Obligatorios

3GPP (Organización de estándares móviles) exige:

●​ EVS → Obligatorio para certificación 5G


●​ IVAS → Requerido para 5G Advanced
●​ LC3 → Estándar para Bluetooth LE Audio
Conclusión

El desarrollo de un códec experimental mediante FFmpeg ha demostrado ser una herramienta


potente para el análisis de técnicas de compresión y cuantización. La capacidad de personalizar
niveles de bits y exportar en múltiples formatos permite simular escenarios reales de transmisión y
almacenamiento multimedia.

Este estudio no solo proporciona un entendimiento práctico de cómo afectan las decisiones de
cuantización a la calidad del audio y video, sino que también ofrece una base para futuras
investigaciones en optimización de códecs, desarrollo de algoritmos perceptuales y aplicaciones en
sistemas de bajo ancho de banda. FFmpeg, por su naturaleza abierta, flexible y escalable, se
posiciona como una herramienta indispensable en estudios técnicos relacionados con el
procesamiento multimedia

●​ La profundidad de bits define la resolución de cuantificación, y tiene un impacto directo en


la calidad y el tamaño de archivo.
●​ La frecuencia de muestreo determina el rango de frecuencias que pueden representarse. Por
ejemplo, 44100 Hz permite representar hasta 22050 Hz (Teorema de Nyquist).
●​ 16 bits, 44100 Hz para distribución final / 32 bits float, 48000 Hz o superior para
procesamiento interno.

También podría gustarte