0% encontró este documento útil (0 votos)
648 vistas5 páginas

FFT en Compresión de Audio MP3

La transformada rápida de Fourier (FFT) es una versión más rápida de la transformada discreta de Fourier (DFT) que utiliza algoritmos inteligentes. Una aplicación importante de la FFT es el formato de audio MP3, el cual usa la transformada de Fourier para comprimir archivos de audio mediante la eliminación de sonidos que el oído humano no puede discernir. El formato MP3 se convirtió en el estándar para streaming y compresión de audio debido a su capacidad de ajustar la calidad en función del bitrate y tamaño del archivo.

Cargado por

Camilo Sepulveda
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
648 vistas5 páginas

FFT en Compresión de Audio MP3

La transformada rápida de Fourier (FFT) es una versión más rápida de la transformada discreta de Fourier (DFT) que utiliza algoritmos inteligentes. Una aplicación importante de la FFT es el formato de audio MP3, el cual usa la transformada de Fourier para comprimir archivos de audio mediante la eliminación de sonidos que el oído humano no puede discernir. El formato MP3 se convirtió en el estándar para streaming y compresión de audio debido a su capacidad de ajustar la calidad en función del bitrate y tamaño del archivo.

Cargado por

Camilo Sepulveda
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Comunicaciones i Grupo ii - Junio 2020 - Universidad Tecnológica de Pereira ​1

Aplicación de la Transformada Rápida de


Fourier en Audio MP3
Application of the Fast Fourier Transform into MP3 Audio

Autor 1: Santiago Sánchez Pulgarín


Autor 2: Camilo Sepulveda Caviedes
Autor 3: Valentina Gomez Isaza

Universidad Tecnológica de Pereira, Colombia

Resumen— ​ La FFT es la forma optimizada de la DFT, logrando La transformada rápida de fourier es la versión más rápida de
así menos complejidad en sus algoritmos pudiéndose aplicar en la transformada discreta de fourier (FDT). La FFT utiliza
temas “complejos” para realizar sus procedimientos de una algunos algoritmos inteligentes para hacer lo mismo que la
manera más fácil o más analítica. sus diferentes e innumerables DFT pero en mucho menos tiempo.
aplicaciones dan a demostrar su gran efectividad en el campo de
La DFT es extremadamente importante en el área del análisis
la ciencia y la ingeniería. Una de sus aplicaciones, el MP3, hizo
posible el intercambio de ficheros musicales en internet y la de la frecuencia debido que se necesita una señal discreta en
compresión de los audios digitales para que estos pudieran tener el dominio del tiempo y que transforma la señal en su
un menor tamaño de archivo. representación de dominio de frecuencia discreta.

Una de sus aplicaciones es el MP3, este formato fue


Palabras clave— ​FFT, DFT, algoritmo, MP3.
desarrollado principalmente por Karlheinz Brandenburg,
director de tecnologías de medios electrónicos del instituto
​ The FFT is the optimized form of the DFT, achieving
Abstract—
Fraunhofer IIS. En julio de 1995 Brandenburg usó por primera
less complexity in their algorithms and can be applied to
“complex” issues to make their procedures easier or more vez el formato .mp3 para los archivos de audio que guardaba
analytical way. its various and innumerable applications en su ordenador.
demonstrates its great effectiveness in the field of science and El formato MP3 se convirtió en el estándar utilizado para
engineering. One of its applications, the MP3, made possible the streaming de audio y compresión de audio con pérdida de
exchange of music files on internet and the compression of digital mediana fidelidad gracias a la posibilidad de ajustar la calidad
audios so they could have a smaller file size. de la compresión, proporcional al tamaño por segundo
(bitrate), y por tanto el tamaño final del archivo, que podía
​ FFT, DFT, algorithms, MP3.
Key Word — ocupar entre 12 y 15 veces menos que el tamaño original sin
comprimir.

I. INTRODUCCIÓN En este artículo haremos énfasis en la aplicación de la FFT en


el audio MP3.
Jean Baptiste Joseph Fourier (Auxerre, Francia, 21 de marzo
de 1768 - París, 16 de mayo de 1830) fue un matemático físico
francés conocido por sus trabajos sobre la descomposición de
funciones periódicas en series trigonométricas convergentes II. CONTENIDO
llamadas series de fourier. La transformada de fourier recibe
el nombre en su honor. A. Contexto
FFT es la abreviatura usual del inglés Fast Fourier Transform
de un eficiente algoritmo que permite calcular la transformada 1. Definición MP3
discreta de fourier y su inversa.

Fecha de Recepción: (Letra Times New Roman de 8 puntos)


Fecha de Aceptación: Dejar en blanco
2 ​Comunicaciones i Grupo ii - Junio 2020 - Universidad Tecnológica de
Pereira

MPEG-1 Audio Layer III o MPEG-2 Audio Layer III, más Nota: El Link de la imagen se encuentra dentro de esta.
comúnmente conocido como MP3, es un formato de
compresión de audio digital patentado que usa un algoritmo 3. Conceptos de la transformada rápida de fourier
con pérdida para conseguir un menor tamaño de archivo. Es
un formato de audio común usado para música tanto en ● La FFT es un algoritmo que calcula la transformada
ordenadores como en reproductores de audio portátil. discreta de Fourier y su inverso
Un MP3 creado usando una compresión de 128kbit/s tendrá ● La FFT produce exactamente el mismo resultado que
un tamaño de aproximadamente unas 11 veces menor que su evaluar la DFT directamente, pero la FFT produce
homónimo en CD. Un MP3 también puede comprimirse una respuesta mucho más rápida.
usando una mayor o menor tasa de bits por segundo, ● En general, el DFT se encuentra usando la ecuación:
resultando directamente en su mayor o menor calidad de audio
final, así como en tamaño de archivo resultante.

2. Concepto básico detrás de la compresión de MP3

Con MP3, las muestras de sonido se transforman utilizando


métodos que involucran transformaciones de la serie Fourier.
Un análisis de frecuencia del sonido es la base de esta
transformación. En base a este análisis de frecuencia, el
sonido se divide en bandas de frecuencia, cada banda Donde X 0 ...X N −1 son números complejos y k = 0… N-1
correspondiente a un rango de frecuencia particular.
B. Ficheros Musicales
Con MP3, se utilizan 32 bandas de frecuencia. Basado en el ¿ Qué hay en un Fichero MP3?
análisis de frecuencia, el codificador utiliza lo que se llama un
modelo psicoacústico para calcular la importancia de cada Todos hemos descargado alguna vez ficheros de música en
banda para la percepción humana del sonido. La idea es que el formato MP3 y los hemos pasado a nuestro reproductor o
oído humano solo puede discernir sonidos de 20Hz a 20KHz, teléfono móvil, o los hemos escuchado en ​streaming desde
por lo que cualquier dato fuera de este umbral puede una página web. Pero, ¿sabemos realmente qué contiene uno
descartarse para reducir el tamaño del archivo. de estos ficheros?
Para explicarlo con claridad, debemos mencionar a un buen
La información que queda después del análisis de frecuencia y número de personajes y de descubrimientos; El primero de
el uso de un modelo psicoacústico se codifica de manera ellos es el matemático francés Jean-Baptiste Joseph Fourier
eficiente con (una variante de) ​la codificación de Huffman . (1768-1830), quien demostró que toda función periódica se
MP3 admite velocidades de bits de 32 a 320 kbps y las puede expresar como la suma de funciones sinusoidales de
velocidades de muestreo de 32, 44.1 y 48 kHz. El formato diferentes frecuencias y amplitudes. La ​transformada de
también admite tasas de bits variables (la tasa de bits varía en Fourier​, llamada así en su honor, es una transformación
diferentes partes del archivo). Un codificador de MP3 también matemática que convierte una función periódica en otra
almacena metadatos sobre el sonido, como el título de la pieza función en el dominio de las frecuencias, que expresa para
de audio, el álbum y el nombre del artista y otros datos cada frecuencia la proporción con la que la sinusoide
relevantes. correspondiente contribuye a la función original.

Los sonidos se pueden representar como funciones continuas


en el dominio del tiempo. Un micrófono transforma el sonido
en una señal eléctrica que varía en el tiempo llamada señal de
audio​. Para poder almacenar una señal de audio en un
ordenador hay que convertirla previamente en números. Esto
se hace mediante un ​muestreo​: se toman las amplitudes de la
señal a intervalos temporales regularmente espaciados y los
voltajes resultantes se convierten a números en base dos. Cada
muestra se almacena en 16 bits, lo que da una precisión desde
cero a algo más de 65.000 para expresar cada voltaje.
3​ ​Comunicaciones i Grupo ii - Junio 2020 - Universidad Tecnológica de Pereira

Las frecuencias que el oído humano puede percibir varían en


un rango de 20 a 20.000 hercios (un hercio es una vibración El algoritmo general se divide en 4 partes principales:
por segundo). Para no perder las frecuencias altas, el muestreo
ha de hacerse a una frecuencia como mínimo el doble de la 1. Divide la señal de audio en partes más pequeñas, que
más alta que queramos registrar. Un sencillo cálculo nos dice se llaman cuadros. Luego se realiza un filtro MDCT
que un solo segundo de música estéreo genera 44.100 en la salida.
muestras, por dos canales, por 16 bits, dando un total de 1,4 2. Pasa la muestra a una FFT de 1024 puntos, y luego se
megabits por segundo. O bien, un minuto de música ocupa aplica el modelo psicoacústico. Otro filtro MDCT se
10,6 megabytes en un CD, y una hora, más de 600 megabytes. realiza en la salida.
Estos volúmenes son demasiado “pesados” para transmitirlos 3. Se cuantifica y codifica cada muestra. Esto también
por la red. El éxito del formato MP3 se debe a que es capaz de se conoce como asignación de ruido. La asignación
dividir por 11 el volumen ocupado por las señales de sonido, de ruido se ajusta para cumplir con los requisitos de
sin perder apenas calidad al reproducirlas por un altavoz. velocidad de bits y enmascaramiento de sonido.
4. Se formatea el flujo de bits, llamado marco de audio.
El siguiente invento es el algoritmo informático llamado Un cuadro de audio se compone de 4 partes, el
transformada rápida de Fourier,​ o FFT en sus siglas en encabezado, la verificación de errores, los datos de
Inglés, debido a los matemáticos norteamericanos James audio y los datos auxiliares.
Cooley y John Tukey en 1965. Es la versión discreta y
eficiente de la transformada de Fourier: dado un conjunto de ​n ● Las muestras de audio entrantes, s(n), se normalizan
muestras de amplitud de una señal, nos da las muestras de sus según la siguiente ecuación x(n):
n frecuencias más representativas. La transformación es
reversible: dadas las frecuencias, se pueden recuperar las
muestras iniciales sin perder precisión. Para generar un fichero
MP3 a partir de una señal de audio muestreada por ejemplo a
44,1 KHz, primero se convierte la señal al dominio de las
Donde N es la longitud FFT de la muestra y b es el número de
frecuencias mediante la FFT.
bits en la muestra
Tras la conversión de la señal de audio al dominio de las
● El umbral de enmascaramiento de la muestra se
frecuencias, se seleccionan un número pequeño de ellas
encuentra usando una estimación del espectro de
(menos de 600) para ser almacenadas en el fichero, sin perder
densidad de potencia, P(k). P(k) se calcula utilizando
calidad apreciable por ello. Además, se hace de un modo
una FFT de 1024 puntos.
adaptado a la forma de la señal: en los tramos en que la señal
es más simple, se almacena menos información y en los
tramos más complejos se almacena más. Esta selección es
responsable de una parte de la compresión del fichero. Otra
parte de la compresión tiene que ver con reducir el número de PN es el término de normalización de potencia, generalmente
bits de las muestras cuando son de una amplitud parecida. En es alrededor de 96 decibelios.
ese caso, se almacena una base común para un conjunto de
muestras y luego las diferencias se codifican en unos pocos 1. Transformada del Coseno discreto modificado
bits. (MDCT)
Cuanta más diferencia haya entre las frecuencias, más se
comprime el fichero. Un fichero MP3 se lee típicamente a una la MDCT es una transformada relacionada con fourier basada
velocidad de 128 kilobits por segundo (es decir, contiene 1/11 en la DCT.
de la información original muestreada a 1,4 megabits/seg), y
durante la lectura se lleva a cabo su descodificación. ● En general, se diseñó para ejecutarse en bloques de
conjuntos de datos más grandes y consecutivos.
Ahora, cuando pulsemos el botón de nuestro reproductor MP3 ● La MDCT es una función lineal que tiene la mitad de
ya sabremos todo lo que sucede detrás de este. las salidas que las entradas.
● Esta función lineal transforma 2N números reales en
C. Algoritmo N números reales de acuerdo con la ecuación:

La FFT se utiliza como un banco de filtros en una muestra de


audio. Se utiliza para filtrar datos no deseados o innecesarios
en la muestra.

____________________________
4 ​Comunicaciones i Grupo ii - Junio 2020 - Universidad Tecnológica de
Pereira

D. Demo de Ejemplo

En esta sección haremos dos demostraciones de ejemplos


acerca de la aplicación de la transformada rápida de fourier en
audios MP3.

1. Demo i

Imagen 3. Ejecutamos el código y esperamos a que se realice


la conversión de los audios.

Imagen 1. Este código se encarga de convertir un archivo .wav


a .mp3
Imagen 4. Si comparamos el tamaño de ambos archivos (.wav
y .mp3) podemos ver que efectivamente se ejecutó el proceso
de compresión.
A pesar de que en este código se enseña a como convertir un
audio a mp3, el proceso no se muestra extrínsecamente debido
a que es realizado por librerías de terceros (pydub y ffmpeg).

Para solucionar esta incógnita se presenta un segundo demo


realizado por la universidad nacional de córdoba.

2. Demo ii

Imagen 2. Para ejecutar este archivo necesitamos antes uno o


más audios .wav

Imagen 5. Este programa fue realizado en el software


LabView por José Miguel Hobaica, inspirado originalmente
por el código hecho en MATLAB por el licenciado Raúl
Pedro Castro Vidal.
5​ ​Comunicaciones i Grupo ii - Junio 2020 - Universidad Tecnológica de Pereira

Este programa nos permite reproducir un audio en formato


wav, aplicarle la Transformada de fourier, hacer la respectiva
compresión y por último generar la señal original (ya
comprimida). Aparte, nos permite reproducir ambos audios
para poder apreciar auditivamente el resultado de la
compresión con respecto al audio original.

Ambos códigos fuentes serán anexados con el artículo.

CONCLUSIONES

● El .mp3 Al ser un tipo de archivo comprimido,


facilitan la transferencia de archivos a través de
Internet sin perder calidad de audio, lo que los ha
llevado al primer lugar de preferencias como formato
de archivos de audio para ser utilizados en la web y
en otros dispositivos portátiles de reproducción
multimedia.
● Un archivo MP3 (MPEG-1 Audio Layer III o
MPEG-2 Audio Layer III), es un formato de
compresión de audio digital que utiliza un algoritmo,
que permite reducir el tamaño de los archivos de
audio sin perder calidad de reproducción, ya que
dicho algoritmo recorta la frecuencia de la señal
auditiva, eliminando aquellas frecuencias que no son
perceptibles por el oído humano.
● Una utilidad de un archivo MP3, es que puede
reducir en unas 11 veces el tamaño de un archivo de
audio común de un CD (.wav), sin perder calidad de
audio.

REFERENCIAS

[Link]
Transforms_in_MP3_Audio_Compression

[Link]
A1pida_de_Fourier_y_su_aplicaci%C3%B3n_en_tratamiento
_de_im%C3%A1genes_y_audio

[Link]
/[Link]

[Link]
57_666713.html

____________________________

También podría gustarte