Compressão de Áudio
INF01124 – Classificação e Pesquisa de Dados
Afonso Comba de Araújo Neto 0052/99-7
Francisco José Prates Alegretti 1433/99-1
Natália Nunes Pinto Lopes 2667/99-4
Rodrigo Gasparoni Santos 3072/99-8
Tópicos Analisados
Introdução
Digitalização do Som
Compressão de Sons
Análise dos Formatos
MP3
TwinVQ
AAC
Comparações entre os formatos
Conclusões
Introdução
Formatos de Áudio não comprimido:
Wave File - *.WAV (mais conhecido)
Formatos comprimidos
MPEG Layer III - *.MP3;
Windows Media Audio - *.WMA;
Advanced Audio Coding - *.AAC;
Real Audio - *.RA;
TwinVQ - *.VQF;
... e muitos outros.
Digitalização do Som
Som = onda.
Digitalização consiste em amostrar a
onda um de terminado número de
vezes por unidade de tempo,
codificando a sua amplitude.
Quanto mais amostras por unidade de
tempo, e quanto maior a escala de
quantização de amplitudes, melhor a
fidelidade do som amostrado.
Digitalização do Som
Uma boa amostragem de som é
definida como o dobro do período
máximo de variação de sua
amplitude.
Portanto, um som que possui
uma variação de amplitude
média de 10KHz deve ter sua
amostragem feita a uma taxa de
20KHz.
Digitalização de Som
Portanto:
Voz humana pode ser amostrada a
uma taxa de 11KHz;
Uma música inteira deve ser
amostrada a uma taxa de 44KHz.
16 bits por amostra foi identificado
como a quantização ideal para um
som fidedigno.
Digitalização de Som
Qualidade de CD então é definida
como uma amostragem de 44KHz,
16 bits por amostra.
Compressão de Sons
A compressão de sons é um
procedimento complexo, pois
ondas amostradas raramente
possuem padrões, que são
utilizados nos métodos de
compressão tradicionais.
Compressão de Sons
Existem então dois principais tipos de
técnicas de compressão:
Compressão dos dados propriamente
ditos (ex. Huffman coding);
Eliminação de sons imperceptíveis ao
ouvido humano.
As técnicas de eliminação de sons
imperceptíveis são as que realmente
produzem resultados.
Compressão de Sons
Essa técnica é uma técnica de
compressão com perdas, ou seja, o
arquivo final é diferente do original.
De qualquer forma, qualquer método
de compressão sem perdas,
especificamente no caso de sons
não consegue uma taxa de
compressão maior do que 2:1 ou
3:1.
Compressão de Sons
Um arquivo em Qualidade de CD a
esta taxa de compressão possui um
tamanho inviável, chegando a uma
média de 8 a 10 megabytes por
minuto.
Sendo assim, as técnicas de
compressão de som aqui vistas,
entre outras, são sim de muita valia.
Análise dos formatos
Vamos fazer uma breve descrição
de como funciona a compressão de
alguns dos formatos mais comuns,
sendo eles:
MPEG-1 Layer III;
TwinVQ;
Advanced Audio Coding (AAC).
MP3
MP3 é o formato mais conhecido e
difundido no mundo.
Suas principais vantagens são:
Pouco consumo de CPU para tocar
um arquivo;
Tamanho de arquivo muito pequeno;
Qualidade muito próxima à original.
MP3
Utiliza, resumidamente, as seguintes
técnicas para diminuir a quantidade
de dados de um arquivo:
The minimal audition threshold;
The masking effect;
The reservoir of bytes;
The Joint Stereo;
The Huffman coding.
The minimal audition
threshold
Segundo a lei de Fletcher e Munson,
somente ondas na faixa de 2KHz até
5KHz são importantes para o som
(em uma música, por exemplo), pois
fora desta faixa são praticamente
imperceptíveis, sendo então não
codificadas.
The masking effect
Esta etapa da compressão identifica
sons muito fracos que ficam
mascarados por outros muito mais
fortes. Estes então são removidos
do conjunto.
Nesta etapa é onde o conjunto de
sons começa a realmente ficar
menor.
The reservoir of bytes
A mp3 é na verdade codificada de modo
a utilizar uma taxa de amostragem que
não garante o tempo todo a melhor
qualidade de som. Ao invés disso, é
utilizada uma amostragem que
possibilita a codificação de uma parte
considerável da música, e os trechos
que necessitam de maior qualidade têm
sua codificação estendida em uma área
reservada de dados.
The Joint Stereo
Esta parte faz dois procedimentos:
Primeiro, identifica todas as partes do
conjunto onde ambos os canais são
iguais ou muito parecidos e os codifica
como um canal mono;
Depois, são identificadas todas as
partes stereo que sobraram e, ao
invés de codificar os canais R e L,
codifica L+R e L-R, o que no final
utiliza menos bits
The Joint Stereo
Opcionalmente, ao primeiro
procedimento são salvos dados extras
que possibilitam a reconstrução dos
canais R e L sem perdas.
Tanto essa reconstrução quanto a
identificação dos canais R e L
originais codificados pelo segundo
passo são feitos em tempo de
execução pelo Player.
The Huffman coding
Finalmente, utiliza-se da técnica de
codificação desenvolvida por
Huffman para as amostras finais,
que agora são muito mais
padronizadas, tendo um ganho de
até 20% no tamanho do arquivo.
CD x MP3
Bitrate Qualidade Kbyte/Min Tamanho
1411 CD 10584 41,3 MB
192 Perfeita 1440 5,6 MB
160 Perfeita 1200 4,7 MB
128 Excelente 960 3,8 MB
112 Quase CD 840 3,3 MB
96 Quase CD 720 2,8 MB
64 FM 480 1,9 MB
32 AM 240 0,9 MB
16 Reconhecível 120 0,5 MB
TwinVQ
Formato relativamente novo, que até
ganhou algum destaque devido a
sua boa qualidade e ao seu tamanho
de arquivo menor (25% menor que o
MP3).
Entretanto necessita de um
computador muito mais potente para
rodar as músicas satisfatoriamente.
TwinVQ
Outro fator decisivo para a sua
queda é a sua necessidade que um
tempo muito maior para codificação.
Por exemplo, comparado com um
compressor MP3 esse tempo é de 3
até 4 vezes maior.
Na verdade, isso é o que garante o
tamanho de arquivo menor, como
veremos a seguir.
TwinVQ
A compressão para vqf utiliza-se de
características de codificação
perceptual assim como o mp3.
A principal diferença é a sua
codificação. Os dados depois de
comprimidos são organizados em
vetores de segmentos de padrões,
que são depois comparados com
vetores já existentes.
TwinVQ
São codificadas então somente a
identificação destes vetores, diminuindo
o tamanho do espaço necessário para a
codificação.
Daí que surge a sua necessidade de
mais poder de computação para sua
codificação/decodificação.
O resultado é um som bem mais limpo,
mas com uma perda um pouco maior de
detalhes.
TwinVQ
Mesmo assim, o som obtido no final
é bastante parecido com o original.
Portanto, normalmente não se
considera que a codificação vqf é
melhor ou pior que a mp3, ela é
simplesmente diferente.
A tecnologia TwinVQ faz parte do
padrão MPEG 4 para codificação de
sons.
Advanced Audio Coding
Formato com padronização
MPEG-2.
É a mais nova padronização de
codificação perceptiva de sons feita
pela MPEG.
Utiliza um sistema complexo de
codificação que envolve inúmeras
técnicas.
Advanced Audio Coding
Entre outras, algumas delas são:
Huffman coding;
Quantization and scaling;
M/S Matrixing;
Intensity Stereo;
Coupling channel;
Backward adaptive prediction;
Temporal noise shaping;
Modified discrete cosine transform;
Gain control and hybrid filter bank (polyphase
quadrature filter).
Advanced Audio Coding
Assim como o formato vqf, necessita
de um computador mais rápido para
codificação e para decodificação que
o mp3.
Entretanto, dos 3 formatos é o que
possui a melhor qualidade final
(mais próximo do original).
Advanced Audio Coding
Possui um tamanho de arquivo
aproximado ao do vqf.
Um dos seus maiores problemas é a
existência de várias versões do
padrão, incompatíveis diretamente
entre si (possuem significativa
diferença de codificação).
Faz parte, junto com o vqf, do
padrão MPEG-4.
Comparações entre os
formatos
Tamanho do arquivo
Disponibilidade de software
Disponibilidade de músicas
Consumo de CPU
Qualidade do som
O melhor formato
Algumas conclusões
Tamanho do arquivo
Comparação com o wav original
Tamanho do arquivo
Comparação entre os formatos
Tamanho do Arquivo
Type Size Ratio Bitrate
Wav 44,1 MB 1:1 -
MP3 3,99 MB 1:11 128kbps
VQF 3,0 MB 1:14 96kbps
ISO AAC 3,14 MB 1:14 128kbps
Astrid/Quartex 3,96 MB 1:11 128kbps
AAC
Disponibilidade de software
Formato Rank
MP3 1
VQF 2
ISO AAC 3
Astrid/Quartex AAC 4
Disponibilidade de músicas
Formato Rank
MP3 1
VQF 2
Astrid/Quartex AAC 3
ISO AAC 4
Consumo de CPU
Formato % uso Programa Rank
MP3 35% Winamp 2.64 1
Astrid/Quartex AAC 40% K-Jofol .51 2
VQF 70% Yamaha 3
SounVQ Player
ISO AAC 73% Lorentz Istvan's 4
AAC Plugin for
Winamp v. 1.1
OBS.: Os testes foram feitos em um Pentium 133MHz
Qualidade do Som
Formato Rank
Astrid/Quartex AAC 1
MP3 2
VQF 3
ISO AAC 4
O melhor formato
Formato Rank Motivos
MP3 1 Disponibilidade de software e
música, qualidade e menor uso de
CPU
VQF 2 Disponibilidade de música e
tamanho de arquivo
Astrid/Quartex 3 Boa qualidade, mas pouca
AAC disponibilidade de software e
músicas
ISO AAC 4 Baixa qualidade e alto consumo
de CPU
Conclusões
Vale lembrar que a escolha de um
melhor formato é subjetiva. Pode-se
chegar a resultados diferentes se
considerarmos itens com pesos
distintos.
Apesar da menor qualidade, a maior
popularidade do mp3 está ligada a
maior quantidade de músicas e
softwares disponíveis. Certamente não
sairá de cena tão cedo.
Bibliografia
http://www.mp3-tech.org
http://www.firstpr.com.au/
audiocomp/aac-mp3-vq.html
http://www.math.auth.gr/~axonis/
studies/audio.htm
http://cad-audio.fsn.net/