DITHERING
Esto es medio complicado de explicar sin gráficos... y tampoco lo tengo tan fresco,
porque nunca lo aplico (todavía trabajo a 16bits... pure yer ol' skool).
Es importante saber que la cantidad de bits que se usan para una codificación digital de
audio sólo determina la resolución con la que se van a representar las variaciones de
nivel de la señal... es decir, cuantos más bits, más escalones para representar distintos
"volúmenes" (niveles) de cada "instante" (sample).
Es decir, si sampleamos audio con palabras de 16bits, vamos a tener menos escalones
que representen distintos niveles que si usamos palabras de 24bits.
El dithering es un ruido que se agrega cerca del piso de ruido de la grabación digital
cuando la bajamos de resolución (grabamos a 24 pero el audio final va a 16bits en cd-
audio, por ejemplo). Se usa para disimular falencias que el downsample (resamplear a
una menor resolución) produce en determinados puntos de la palabra sampleada.
Cada palabra de audio digital (cada una de las 44.100 que, por ejemplo, hay por
segundo por canal en el audio sampleado a 44.1 stereo) tiene bits más importantes que
otros, dependiendo la información que contengan. Los más importantes son los que
contienen la información más cercana al nivel 0dB (nivel de calidad óptima al samplear)
y los menos importantes son los que se acercan al piso de ruido. Se llaman MIB y LIB,
si mal no recuerdo... most important bits, less important bits...
Cuando se achica la cantidad de bits a usar para reproducir una señal, los primeros que
se descartan son los LIBs, lo cual genera errores o artifacts en el encodeo de los niveles
más sutiles (al final de los fade outs, por ejemplo). Donde antes teníamos, por ejemplo 4
bits, para reproducir las variaciones de nivel de un sonido, ahora tenemos 1... es decir,
que pasamos de tener un montón de escalones, a unos pocos. Perdemos definición...
resolución para representar las variaciones de la señal.
El ruido que agrega el dithering apunta a disimular psicoacústicamente los errores que
se producen al bajar la resolución. Cuando agregamos ruido cercano al piso, al oído le
cuesta un poco más darse cuenta de las falencias del escalonamiento de las variaciones
de nivel causado por la reducción de información para representar la realidad. Todo esto
actúa y se nota en sonidos sutiles... no esperen notar cambios donde tienen audio a un
buen nivel... se usa para trabajar los fades o pasajes muy, pero muy sutiles de audio, de
esos que en música electrónica no existen, pero son muy comunes en música clásica.
Otro dato:
El oído humano, teóricamente escucha hasta 20khz... es decir, 20000 impulsos por
segundo, pero esto no quiere decir que escuche 20mil impulsos por segundo... si no que
escucha ondas que oscilan hasta esa frecuencia.
En audio digital, es necesario el doble de samples para representarlo adecuadamente... y
muchos más (en el caso de los 96khz) si se quieren reproducir armónicos muy altos en
frecuencia que son imperceptibles pero generan interacciones con frecuencias menores
que si son perceptibles en algunos casos, en oídos muy atentos.
Esto no quiere decir que si al oído le llegan dos impulsos separados por 1/22000
segundos, los vaya a interpretar como impulsos separados... si mal no recuerdo, a partir
de unos pocos milisegundos (1/1000 segundos) es donde recién se empiezan a
interpretar como separados, dos impulsos. Prueben con un delay... agarren un sonido
corto, un click por ejemplo, y pongan un delay de 1ms... van a escuchar el sonido un
poco más largo, no dos sonidos... vayan subiendo de a poco el tiempo y van a ver que a
partir de cierto momento recién lo escuchan como dos sonidos distintos.
Hermosa charla de domingo!
Saludos,