0% encontró este documento útil (0 votos)
21 vistas78 páginas

Introducción a Señales Digitales

El documento aborda la diferencia entre señales analógicas y digitales, destacando que las señales analógicas son continuas y difíciles de manejar, mientras que las digitales son discretas y más fáciles de procesar. Se explica el proceso de conversión de señales analógicas a digitales, que incluye muestreo, cuantificación y codificación binaria, y se discuten las estructuras de muestreo y la profundidad de bits en la producción audiovisual. Además, se mencionan diferentes formatos de muestreo y su aplicabilidad en la postproducción de video.

Cargado por

uzumakidimotta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
21 vistas78 páginas

Introducción a Señales Digitales

El documento aborda la diferencia entre señales analógicas y digitales, destacando que las señales analógicas son continuas y difíciles de manejar, mientras que las digitales son discretas y más fáciles de procesar. Se explica el proceso de conversión de señales analógicas a digitales, que incluye muestreo, cuantificación y codificación binaria, y se discuten las estructuras de muestreo y la profundidad de bits en la producción audiovisual. Además, se mencionan diferentes formatos de muestreo y su aplicabilidad en la postproducción de video.

Cargado por

uzumakidimotta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Licenciatura en Audiovisión

Esp. Postproducción Audiovisual

Tecnología de Postproducción 1
Prof. Adrián Costoya

Apunte

Rev.2016-04
Cátedra Costoya Introducción a las Señales Digitales

Señales Analógicas y Digitales

La característica fundamental de las señales analógicas es que son continuas pudiendo alcanzar,
teóricamente, infinitos valores de amplitud en función del tiempo. Visto de otro modo, cualquier señal es
válida dentro del ancho de banda en que se opera. Estos factores hacen imposible su tratamiento,
almacenamiento y recuperación respetando exactamente los valores originales ya que el manejo de infinitos
valores sin distorsiones está más allá de las capacidades de las tecnologías creadas por el hombre.

Las señales digitales por el contrario son discretas tanto en amplitud como en tiempo lo que, si bien limita su
precisión y capacidades de representación de formas de onda complejas, les permite estar compuestas por
un conjunto de datos definido y de este modo codificarse adoptando solo dos valores. Si bien cada vez se
maneja mayor cantidad de información mediante las señales digitales es fácil advertir que comparada con
infinitos valores este conjunto de datos constituye una cantidad de información extraordinariamente inferior.

Las señales digitales entonces adoptan solo dos valores: los conocidos unos y ceros lógicos y éstos se pueden
definir claramente como dos niveles bien diferenciables en su implementación como señales concretas. Cada
unidad elemental de información en este domino puede valer cero o uno y se la denomina bit por la
contracción de las palabras binary digits, que en inglés significan dígitos binarios. La posibilidad de trabajar
con sólo dos valores asegura un tratamiento mucho más seguro y exacto al tiempo que implica codificaciones
y decodificaciones.

A los fines del texto adoptamos el concepto inicial de señal digital en la medida que ésta se componga de
dígitos binarios pero vale la pena mencionar que se puede operar con sistemas discretos en los cuales las
codificaciones utilizan más de dos valores.

Si bien las capacidades para preservar la información codificada mediante señales digitales es claramente
superior debemos destacar que la mayor parte del tiempo tanto el sistema de TV como la mayoría de los
sistemas de imagen en movimiento se ocupan de capturar, manipular y reproducir imágenes a partir de la
realidad y ésta es definitivamente analógica. Dicho de otro modo, la mayor parte del tiempo se dedica a
manejar imagen de tipo fotográfico más que imágenes sintéticas. Por esta razón se han desarrollado los
conversores necesarios para que en alguna etapa de la cadena, preferentemente lo antes posible en la
adquisición, las señales analógicas implícitas en tomas de escenas reales puedan transformarse en señales
digitales.

Conversión analógico/digital

Volviendo a la forma de onda del video analógico en cuanto a su representación como intensidad en función
del tiempo, podemos tener una primera aproximación simplificada del proceso de conversión analógica a
digital diciendo que se aplica un sistema de coordenadas cartesianas tal que permita definir cada punto de la
forma de onda en base a ellas y que estas últimas, adecuadamente codificadas, se podrán transformar en
una sucesión de unos y ceros conocido como flujo de datos o bistream.

En concreto la conversión de señales analógicas a señales digitales, habitualmente expresada como


conversión A/D o ADC consta de tres pasos: muestreo o sampling, cuantificación o quantization y codificación
binaria o binary coding.

Muestreo o sampling

El muestreo o sampling consiste en la determinación del valor alcanzado por la señal a intervalos regulares de

©2002-2015 Adrian A. Costoya Rev-2015-04 1


Cátedra Costoya Introducción a las Señales Digitales

tiempo, es decir que se determinan las características de la señal en base a muestras tomadas
periódicamente. El resultado de aplicar muestreo o sampling consiste en alcanzar tiempo discreto. En la vista
del gráfico podríamos decir que se define una primera grilla de líneas verticales que determina qué intervalo
de señal se muestrea para obtener un solo valor de amplitud en cada caso, a esta frecuencia se la llama
frecuencia de muestreo (sampling frequency). Esta frecuencia se expresa en Hz y son parámetros habituales
en la actualidad para el sampling de video de componentes 13.5MHz en luminancia y 6.75MHz en cada una
de las diferencias color (R-Y y B-Y) mientras que originalmente se empleó en video compuesto 4xFsc (4 veces
la frecuencia de SC PAL de 4.43MHz). Por su parte, el sampling standard de audio profesional se realiza a
48KHz y el disco compacto (CD) emplea un valor muy próximo de 44.1KHz.

En el primer gráfico podemos ver los valores de tensión obtenidos al realizar las muestras en los tiempos T1,
T2, T3, etc. Se puede apreciar que al aplicar este procedimiento se obtuvieron números en base diez y no
binarios.

12

11

10

9
TENSIÓN

T1 T2 T3 T4 T5 T6 T7 T8
9 10 10 7 4 3 3 5 TIEMPO

Resulta intuitivo o por lo menos deducible de la representación gráfica que cuanto más seguido se toman las
muestras más fiel será la conversión. La elección de la frecuencia de sampling tiene relación con el tipo de
señal a muestrear y debe ser suficientemente alta. El siguiente ejemplo nos muestra un caso de frecuencia de
sampling insuficiente y el consecuente error del sistema para representar una señal. La frecuencia adoptada
es suficiente para la forma de onda de la izquierda pero nos llevará a errores con la forma de onda de la
derecha.

Esta ambigüedad geométrica tiene consecuencias muy negativas en su aplicación concreta al campo de las
señales, de hecho produce una distorsión que se conoce como efecto de aliasing y que ha sido estudiada por
varios matemáticos preocupados por determinar los máximos alcanzables por estas señales a principios del

©2002-2015 Adrian A. Costoya Rev-2015-04 2


Cátedra Costoya Introducción a las Señales Digitales

siglo XX. Mediante esos estudios se determinó el teorema del muestreo de Nyquist/Shannon (o Whittaker–
Nyquist–Kotelnikov–Shannon ya que varios científicos trabajaban en la misma problemática por el mismo
tiempo) que permitió establecer los fundamentos para la regla de adopción de la mínima frecuencia de
muestreo o sampling: la mínima frecuencia de muestreo o sampling es igual al doble del ancho de banda de
la señal analógica a muestrear.

Cuantificación o quantization

Los resultados del muestreo arrojan una cantidad discreta de valores continuos por lo que el concepto de
infinitos valores persiste de modo que debe aplicarse otro proceso para pasar de amplitud continua a
amplitud discreta. Conocemos a ese proceso como cuantificación o quantization. Cuando se habla de
cuantificación se refiere concretamente a niveles de cuantificación ya que el pase de amplitud continua a
amplitud discreta consiste en subdividir el rango dinámico muestreado en un número finito de escalones o
niveles.

Una vez más resulta intuitivo o por lo menos deducible de la representación gráfica que cuanto mayor
cantidad de niveles se empleen más fiel será la conversión.

DISCRETO

Es evidente que se requiere un justificativo técnico de la cantidad de niveles de cuantificación aceptables


para convertir una señal analógica. A diferencia del muestreo cuyo mínimo se puede determinar
matemáticamente el enfoque en cuanto a la cuantificación o quantization se basa en aspectos
fundamentalmente perceptuales como punto de partida y de calidad de postprocesamiento resultante en
última instancia. Así se determinaron valores habituales para cuantificación de video en principio de 256
niveles y ahora más habitualmente de 1024 niveles y en audio de 65536 niveles.

Como se mencionó que la determinación de los niveles de cuantificación aceptables es fundamentalmente


perceptual se puede afirmar que el oído (percepción auditiva) es mucho más sensible a los cambios de
amplitud que el ojo (percepción visual).

Codificación binaria

A fin de generar un flujo de datos o bitstream cuyas unidades de información adopten uno de dos valores
posibles, uno o cero (o mínimo o máximo) es preciso realizar la codificación del tren de datos expresado
como nivel de cuantificación por muestra en palabra binaria por muestra.

Para tomar como ejemplo en el caso inicial de video se debe codificar en base 2 (binario) los 256 niveles que
se denominarán 0 a 255. En términos sencillos se requiere un contador binario capaz de contar de 0 a 255 y
para hacerlo con dos valores posibles por bit se aplican las potencias de 2 que contengan el número mayor.
En este caso 28=256 por lo que se establece que con 8 bits se pueden representar todos los valores de niveles
de cuantificación determinados entre 0 y 255. Otra manera de establecerlo consiste en determinar cuántos
dígitos necesita un contador para alcanzar progresivamente números mayores, así se da el caso que para

©2002-2015 Adrian A. Costoya Rev-2015-04 3


Cátedra Costoya Introducción a las Señales Digitales

contar 8 niveles (de 0 a 7) se necesitan 3 bits según la siguiente progresión:


0 000
1 001
2 010
3 011
4 100
5 101
6 110
7 111
lo que también se puede expresar como 2 3=8 o parafrasear como que en base binaria (2) se necesitan 3 bits
(dígitos) para contar hasta 8.

Reformulando lo antes expresado podemos decir ahora que las codificaciones típicas de video y audio se
realizan a 8bits (256 niveles), 10 bits (1024 niveles) y 16bits (65536 niveles).

Las ventajas fundamentales de los sistemas digitales se evidencian tanto en los casos de grabación y
recuperación de información como así también en su transporte. En los sistemas de producción y
postproducción la grabación y procesamiento digital extienden considerablemente el número de
generaciones posibles sin degradación objetable.

En el siguiente gráfico están representadas las distintas instancias de transformación (conversión, sampling,
quantization) de las señales analógicas en señales digitales.

TIEMPO DISCRETO
TENSIÓN CONTINUA

TENSIÓN DISCRETA

TIEMPO CONTINUO TIEMPO DISCRETO

TIEMPO CONTINUO

©2002-2015 Adrian A. Costoya Rev-2015-04 4


Cátedra Costoya Introducción a las Señales Digitales

Estructuras de Muestreo (Sampling Formats)

En concordancia con los modelos predominantes de reproducción de color basados en el estímulo triple las
imágenes en color se han construido y se construyen predominantemente utilizando sistemas de tres canales
de información. Esta información se puede registrar, manipular y reproducir como capas físicas en el caso de
la emulsión de la película fotográfica o cinematográfica o como señales o muestras en el caso de la imagen
electrónica analógica y digital.

Las imágenes electrónicas digitales suelen estructurarse como conjuntos de tres canales R, G y B en el caso
de los gráficos de computadora y como canales Y’, Cb, y Cr en el caso del video digital. En el primer caso se
utilizan muestras para rojo, verde y azul como colores primarios del sistema y en el segundo caso como
luminancia y diferencias color según se estandarizaron las señales tanto en grabación como transporte a fin
de explotar limitaciones de la percepción visual.

La conocida limitación de resolución en color de la percepción visual humana permitió en el manejo de


señales de televisión original la aplicación de filtros pasa-bajos para reducir el ancho de banda (y
consecuentemente la cantidad de información) por razones de economía mientras que las estructuras de
muestreo de la imagen digital de televisión tuvieron su correlato en los orígenes como chroma subsampling
siendo la estructura típica [Link]. Vale la pena mencionar que en el caso de RGB no existe fundamento para
utilizar estructuras asimétricas y que la estructura típica es [Link].

Se verá en algunos casos que aparece un cuarto dígito que se utiliza en los gráficos de computadora de
cuatro canales para el alpha channel.

Nota: la aplicación de la nomenclatura no es un dígito para cada canal en todos los casos. Se encontrara la
explicación a la nomenclatura utilizada luego del análisis de los distintos casos.

La aplicación de chroma subsampling en proporciones como la indicada en [Link] produce una pérdida de
calidad poco perceptible al utilizarla para transporte y exhibición. De hecho, se utilizan estructuras más
agresivas tales como [Link] y [Link] pero todas ellas resultan desfavorables a la hora de producir originales o
masters de alta calidad y sobre todo en los casos de manipulaciones demandantes tales como el manejo de
color avanzado, la composición y el procesamiento intensivo.

Casos de estructuras de sampling

[Link] Es la estructura de tres canales de mayor calidad y se puede utilizar en el ambiente de producción y
postproducción tanto para imágenes RGB como Y’CbCr. No utiliza subsampling de chroma y ofrece los
mejores resultados. Todos los gráficos de computadora en nuestro campo de aplicación utilizan esta
estructura y en el caso de video se la utiliza en los equipamientos y workflows de alta gama (o high end)
produciendo impactos lineales sobre capacidad de almacenamiento y alineales sobre performance y familias
de productos afectando consecuentemente los costos de producción y postproducción. Al no utilizar
subsampling podemos considerarla como base 100% para la comparación con otras estructuras. Es empleada
por formatos de VTR Sony HDCAM-SR y los file formats de alta calidad en workflows de largometraje y
publicidad.

[Link] es considerada una estructura de video de producción y postproducción de video de alta calidad. La
luminancia mantiene todas las muestras mientras que la información de color se reduce a la mitad. Resulta
adecuada para manejo de color y composición de propósitos generales. La cantidad de información
comparada con la imagen original es del 67%. Muchos formatos de VTR utilizan esta estructura, tales como
Sony Digital Betacam, Sony HDCAM, Panasonic DVCPRO HD, Panasonic AVC-Intra/100, Sony XDCAM HD422 e

©2002-2015 Adrian A. Costoya Rev-2015-04 5


Cátedra Costoya Introducción a las Señales Digitales

innumerables file formats que forman parte del núcleo de las operaciones de televisión.

[Link] es considerada una estructura de producción de noticias y en alguna medida de campo (ENG y EFP) y es
altamente utilizada en sistemas de contribución y distribución sobre todo satelital. Como es habitual la
luminancia mantiene todas las muestras mientras que la información de color se reduce a la cuarta parte. La
cantidad de información comparada con la imagen original es del 50%. Se utiliza en varios sistemas de
adquisición ENG y algunos EFP tales como HDV XDCAM HD y AVC-Intra/50 y los formatos domésticos tales
como DVD y BluRay.

[Link] es una estructura en desuso en la medida que el formato de VTR que la empleó preponderantemente,
DV y sus variantes DVCAM y DVCPRO (25), se van dejando de utilizar. En este caso también la luminancia
mantiene todas las muestras mientras que la información de color se reduce a la cuarta parte. La
organización de la reducción a un cuarto de las muestras en la dirección horizontal la hacen poco aconsejable
para trabajos de bluescreen/greenscreen, composición y manejo avanzado de color. La cantidad de
información comparada con la imagen original es del 50%. No es un esquema significativo en el ambiente de
media files.

Profundidad de bits (bit depth)

Desde el establecimiento de la recomendación 601 (Studio Encoding Parameters Of Digital Television


[Link]-R_BT-601-5) se especificó la imagen de video digital con 256 niveles de cuantificación o codificación
binaria de 8-bit con opción a 10-bit. Con la estandarización de la televisión de alta devinición (HDTV) la
recomendación 709 (Parameter values for the HDTV standards for production and international programme
exchange [Link]-R BT.709-4) mantuvo las especificaciones de 8-bit y 10-bit.

Los valores 8-bit y 10-bit permanecen inalterables en el núcleo de las operaciones de televisión mientras que
valores superiores tales como 12-bit comienzan a utilizarse en casos donde se requiere muy alta calidad
acompañando workflows [Link] alcanzando 16-bit lineales en tope de las aplicaciones. Este último aún poco
frecuente por la altísima demanda de almacenamiento, ancho de banda y procesamiento involucrado.

©2002-2015 Adrian A. Costoya Rev-2015-04 6


Cátedra Costoya Introducción a las Señales Digitales

ITU - International Telecommunication Union

La ITU se formó en 1934 como combinación de la International Telegraph Convention de 1865 y la


International Radiotelegraph Convention de 1906.

Se establecieron varios comités, tales como:


CCITT (International Telephone and Telegraph Consultative Committee) 1956-1992
CCIR (International Radio Consultative Committee) 1927-1992

En 1992 se realizó una reforma según la cual se cambiaron sus denominaciones:


CCITT pasó a denominarse ITU-T
CCIR pasó a denominarse ITU-R

Vale la pena mencionar que para que la ITU pueda establecer una recomendación debe lograrse acuerdo
unánime de todos los Estados miembro.

URL: [Link] / [Link]

IEC - International Electrotechnical Commission

Fue fundada en 1906 como continuación de las reuniones mantenidas en el Congreso Eléctrico Internacional
de París en 1900 en las que tomaron parte la British Institution of Electrical Engineers el American Institute of
Electrical Engineers y otras instituciones. Su objetivo, establecer standards internacionales para todos las
tecnologías eléctricas y electrónicas (conocidas como “electrotecnología”). Se trata de una organización no
gubernamental sin fines de lucro establecida bajo la ley Suiza. Actualmente sus standards se reconocen por
su numeración dentro del rango de 60000 al 79999. Argentina es miembro pleno de la IEC.

ISO –International Organization for Standardization

Fue fundada en 1947 para “facilitar la coordinación y unificación de standards industriales”. Actualmente
promueve standards tanto industriales como comerciales. Se trata de una organización no gubernamental sin
fines de lucro establecida bajo la ley Suiza y es una Agencia de las Naciones Unidas siendo una de las
primeras en alcanzar el status de consultor general en el ECOSOC (United Nations Economic and Social
Council). Sus lenguajes oficiales son Inglés, Francés y Ruso. Argentina es miembro pleno con derecho a voto
de la ISO.

ISO/IEC JTC 1 - Joint ISO/IEC Technical Committee 1

Aborda en conjunto todas las actividades relacionadas con la Tecnología de la Información y es responsable
por alrededor del 30% de los standards de la ISO y la IEC.

URL: [Link]

Nota: En 2009 se creó el ISO/IEC JTC 2 Joint Project Committee – Energy efficiency and renewable energy sources - Common
terminology con el propósito de estandarización en los campos de la eficiencia energética y las fuentes de energía renovables.

©2002-2015 Adrian A. Costoya Rev-2015-04 7


Cátedra Costoya Introducción a la Reducción de la Tasa de Bits

Reducción de la Tasa de Bits (BRR / Bit Rate Reduction)

Introducción

La reducción de la tasa de bits o Bit Rate Reduction (BRR) en inglés es la denominación científica del proceso
comúnmente conocido como compresión y muchas veces referido en la industria del procesamiento de
imágenes como compresión digital de video. Dicha reducción tiene por objeto producir representaciones de
datos de las imágenes y los sonidos (o audio y video en banda base) con un número de bits menor que el
determinado por su codificación sin compresión para un standard de estructura de sampling y niveles de
cuantificación dados.

La reducción de la tasa de bits (BRR) se pone en práctica toda vez que se pretenda que determinada
información ocupe menor espacio de almacenamiento en su condición estática y menor ancho de banda en
su condición de información en movimiento (o en transferencia) y se puedan afrontar los costos tanto
económicos como de capacidad de procesamiento, presupuesto de energía, carga térmica, retardo (delay) o
latencia (latency) y por supuesto la disponibilidad de esa tecnología.

Es importante mencionar que la estandarización de las técnicas de compresión mediante la publicación por
organismos de standards (IEEE, ITU, ISO, IRAM, etc.) tienen por objeto facilitar la interoperabilidad de modo
que productos de distintos fabricantes puedan interactuar directamente y formar parte de flujos de trabajo
secuenciales sin intervención de terceros. Entre otras cosas se define la sintaxis de los datos comprimidos y el
método por el cual se los debe decodificar para obtener las imágenes o sonidos descomprimidos. Nótese que
se mencionan las imágenes o sonidos descomprimidos (o decodificados) sin hacer referencia a ellos como
imágenes o sonidos originales ya que dependiendo del esquema de compresión el resultado puede ser tanto
idéntico bit por bit en el caso de la compresión sin pérdida o lossless como diferente en cuyo caso se
denominará compresión con pérdida o losy.

Cronología de los codecs orientados a la imagen en movimiento

1990 - H.261 - Orientado a Videotelefonía mediante redes switcheadas como ISDN. ISDN: Integrated Services
Digital Network.

1993 - MPEG-1 Video - Orientado a video de consumidor en CD.

1994 - MPEG-2 Video / H.262 - Orientado a SDTV & HDTV TV Broadcast, ATM packet networks. ATM:
Asynchronous Transfer Mode.

1995, 1997 – H.263 - Orientado a Comunicaciones de video por redes móviles y redes switcheadas como
PSTN y la Internet. PSTN: Public Switched Telephone Network.

1998 - MPEG-4 Visual or part 2 - Orientado a ATM packet networks; redes switcheadas como PSTN y la
Internet y redes móviles (ISO/IEC 14496, Oct 98)

2003 - H.264 de la ITU-T (también conocido como International Standard 14496-10 or MPEG-4 part 10
Advanced Video Coding (AVC) de la ISO/IEC).

2013 – H.265 de la ITU-T (también conocido como HEVC o High Efficiency Video Coding)

©2010-2014 Adrian A. Costoya Rev-2014-04 1


Cátedra Costoya Introducción a la Reducción de la Tasa de Bits

Standards de Codificación de Video (VC: Video Coding) - Requerimientos

Interoperabilidad: debe asegurar que los encoders y decoders implementados por diferentes fabricantes
puedan trabajar combinados sin dificultades.

Innovación: es esencial que se desempeñe mejor que un standard anterior.

Competencia: se debe especificar con suficiente flexibilidad para que los distintos fabricantes compitan y el
éxito se deba al mérito técnico. Para lograrlo se especifica solamente la sintaxis del bitstream y el proceso de
decodificación.

Independencia de los medios de transmisión y almacenamiento: se debe poder utilizar en un amplio rango de
aplicaciones.

Compatibilidad (Forward compatibility): debe decodificar los bitstreams de las versiones anteriores del
standard.

Retrocompatibilidad (Backward compatibility): los decoders desplegados basados en versiones anteriores del
standard deben decodificar parcialmente nuevos bitstreams.

Breve reseña de los primeros codecs orientados a la imagen en movimiento

H.261
Es una recomendación (International Standard) de codificación de video que la ITU denominó “Line
transmission of non-telephone signals / Video codec for audiovisual services at p x 64 Kbit/s”. Corresponde al
área de trabajo del VCEG (Video Codec Experts Group) de la ITU. Para ser más precisos el VCEG en realidad es
el nombre sencillo para denominar al Question 6 (Visual coding) del Working Party 3 (Media coding) del Study
Group 16 (Multimedia coding, systems and applications) of the ITU-T (o ITU-T Q.6/SG 16) que es el
responsable de los standards de codificación y las tecnologías relacionadas con la línea de codecs de video
"H.26x" e imagen "T.8xx".

El standard H.261 se estableció en Noviembre de 1988 y su última modificación es de Marzo de 1993. Si bien
no fue el primero y registra como antecedente H.120 de 1984, H.261 fue el primero en alcanzar el status de
standard de codificación de video práctico. La recomendación H.261 influyó significativamente en el Standard
MPEG-1 Part 2 (ISO/IEC-11172-2) y su investigación, desarrollo y procedimientos de estandarización
marcaron el camino para los sucesivos H.262/MPEG-2 Part 2, H.263, MPEG-4 Part 2, and H.264/MPEG-4 Part
10.

Es el primer miembro de la familia de standards de codificación H.26x y su recomendación fue para utilizarse
principalmente con video bitrates desde 40 Kbit/s hasta 2 Mbit/s operando con imágenes no-entrelazadas de
29.97 fps que se codifican en Y, Cb y Cr con una estructura de muestras de 352x288 para luminancia y
176x144 para diferencias color.

H.261 es un standard de compresión con pérdida que utiliza Transformada del Coseno Discreto (DCT:
Discreet Cosine Transform) para intra-coding aplicada a bloques de 8x8 muestras, lectura ZigZag, Run Length
Coding y Compensación de Movimiento (MC: Motion Compensation) para inter-coding optativa aunque en la
mayoría de los casos se la emplea.

Se lo emplea habitualmente con frame rates de 7.5fps a 30fps y bitrates múltiplo de 64Kbps.

©2010-2014 Adrian A. Costoya Rev-2014-04 2


Cátedra Costoya Introducción a la Reducción de la Tasa de Bits

Se aplica a Internet Video Streaming, Videoconferencing, Videotelephony, Video en Wireless 3G.

MPEG-1
El Moving Pictures Expert Group (MPEG) proveniente de ISO/IEC JTC1/SC29/WG11 se formó en 1988 y en
Noviembre de 1992 publicó el standard ISO/IEC 11172 “Information technology—Coding of moving pictures
and associated audio for digital storage media at up to about 1.5 Mbit/s”.
El standard consta de 5 partes:
ISO/IEC 11172-1: Systems
ISO/IEC 11172-2: Video
ISO/IEC 11172-3: Audio
ISO/IEC 11172-4: Conformance Testing
ISO/IEC 11172-5: Software
Como la especificación de video corresponde a la parte 2 en el ámbito de la imagen nos referimos a MPEG-1
como MPEG-1 part 2.

El propósito del standard fue que un largometraje se pudiera comprimir para ser almacenado en un CD-ROM
a alrededor de 1.5Mbit/s (visualmente comparable con la calidad de un VHS) y se aplicara la misma bitrate
para comprimir un Audio CD de modo que se alcanzaran relaciones de alrededor de 26:1 y 6:1
respectivamente. Esto hizo posible la aparición del Video CDs, Televisión Digital por Cable o Satélite y Digital
Audio Broadcasting (DAB).

MPEG-1 Parte 2 se trata de compresión con pérdida y utiliza estructura de sampling de formato [Link], DCT,
lectura zig-zag , Run Lenght Encoding (RLE) y codificación Huffman para secuencias de bits que se repiten
frecuentemente. Las principales diferencias con respecto a H.261 son compensación de movimiento bi-
direccional con precisión de ½ pixel. Es decir que en vez de solo emplear predicción forward (utiliza el cuadro
anterior como referencia) también aplicar predicción backward (utilizando el cuadro futuro),
consecuentemente los GOPs (Group of Pictures) están compuestos de cuadros I, P y B y además en vez de
codificar vectores de movimiento enteros mejora la precisión a ½ pixel (lo que luego requiere interpolación).
Con respecto a los formatos MPEG-1, el típico es 352x240 para NTSC y 352x288 para PAL pero el usuario
puede especificar otros formatos por los que la imagen puede llegar a ser tan amplia como 4096x4096 pixels
o 4K x 4K con frecuencias de cuadro de 24, 25 y 30fps.

Vale la pena mencionar que la Audio Layer 3 de la Parte 3 (Audio) de MPEG-1 es la que especifica la
codificación conocida corrientemente como MP3.

MPEG-2 / H.262
MPEG-2 o H.262 fue desarrollado en conjunto por el VCEG y el MPEG y fue publicado conjuntamente por las
dos organizaciones como ITU-T Recommendation H.262 y como ISO/IEC 13818-2 lo que resulta en dos
documentos idénticos y permite la denominación indistinta de MPEG-2 Parte 2 o H.262 para referirse al
mismo estandard de codificación de video.

El comité comenzó a trabajar en 1990 y publicó las Partes 1, 2 y 3 del standard ISO/IEC 13818 en Noviembre
de 1994 conocido como “Information technology — Generic coding of moving pictures and associated audio
information”. Consta de diez partes:
ISO/IEC 13818-1: Systems
ISO/IEC 13818-2: Video
ISO/IEC 13818-3: Audio
ISO/IEC 13818-4: Compliance Testing
ISO/IEC 13818-5: Software

©2010-2014 Adrian A. Costoya Rev-2014-04 3


Cátedra Costoya Introducción a la Reducción de la Tasa de Bits

ISO/IEC 13818-6: DSM-CC


ISO/IEC 13818-7: NBC Audio
ISO/IEC 13818-8: 10-Bit Video (esta ha sido abandonada)
ISO/IEC 13818-9: Real-Time Interface
ISO/IEC 13818-10: DSM-CC Conformance

El objetivo fundamental de MPEG-2 es codificar video de alta calidad en el rango de 4 a 15Mbit/s para VOD
(Video On Demand), televisión digital por aire, medios de almacenamiento digital tales como DVD (Digital
Versatile Disc), televisión de alta definición (HDTV), televisión digital por cable y por satélite y otras
aplicaciones de video de alta calidad. Entre los requerimientos se destaca el acceso random y la conmutación
veloz de canales lo que impone la necesidad de cuadros I como así también modos de codificación escalables
para ofrecer un amplio rango de calidades, formatos y frame rates.

A fin de acotar la complejidad del sistema se definieron Profiles y Levels. Un Profile se define como un
subconjunto específico de sintaxis y funcionalidad del bitstream MPEG-2 a fin de soportar una clase de
aplicaciones ( por ejemplo videoconferencia de bajo retardo, medios de almacenamiento, etc.) y dentro de
cada Profile se establecen Levels a fin de definir diferentes requerimientos de calidad (tales como resolución
espacial, bitrate o estructuras de sampling) .

Los Profiles de MPEG-2 son siete: Simple, Main, SNR Scalable, Spatially Scalable, High, [Link] y Multiview
mientras que los niveles son cuatro: Low (imágenes de baja resolución), Main (imágenes ITU-T R-601), High-
1440 (para imágenes HDTV europeas), y High (para imágenes HDTV de los [Link].).

Las principales diferencias y mejoramientos con respecto a MPEG-1 son amplio rango de bitrates, formatos
[Link] y [Link], imágenes progresivas e Imágenes entrelazadas, DCT adaptativa para imágenes progresivas y
entralazadas, compensación de movimiento para imágenes progresivas y entrelazadas.

Todos los decoders que cumplen con MPEG-2 son capaces de decodificar MPEG-1.

Vale la pena mencionar que si bien se trabajó sobre un standard MPEG-3, éste nunca vio la luz como tal y las
especificaciones para HDTV a altas bitrates que tuvo como objetivo se incorporaron a MPEG-2.

©2010-2014 Adrian A. Costoya Rev-2014-04 4


Cátedra Costoya Introducción a la Reducción de la Tasa de Bits

Nociones de BRR

Entropía y Redundancia
En la teoría de la información la entropía es la medida de no-predictibilidad del contenido de información. En
términos muy simples podría decirse que la entropía es la información verdaderamente original y por lo tanto
no predecible y mucho menos redundante.

Para Shannon “si se puede predecir, no es información” lo que dicho de otro modo es “redundancia” y
podemos considerarlos como opuestos. Entropía es lo opuesto de Redundancia.

Compresión sin pérdida (lossless)


Podría decirse que en base a la definición anterior resulta posible eliminar la redundancia (quedarse con la
entropía) sin perder información.

Pues bien, la reducción de la tasa de bits se puede encarar en primera instancia de este modo y desarrollar
un algoritmo que permita eliminar totalmente la redundancia. De este modo podríamos obtener compresión
lossless o sin pérdida. En el caso de aplicación a la imagen podemos decir que a partir de los datos fuente que
representan a una imagen podríamos obtener un conjunto de datos menor mediante este algoritmo de
compresión. Luego aplicando el algoritmo inverso se podrían reconstruir todos los datos de la fuente y
resultaría un conjunto de datos idéntico bit por bit, lo que dicho de otro modo implica que la imagen no sufre
ninguna alteración o distorsión medible (y mucho menos visible).

Ejemplos de algoritmos lossless son RLE y LZW que se aplican a formatos de imagen gráfica tales como Targa
y TIFF.

Compresión con pérdida (lossy)


Las ventajas de la compresión sin pérdida son evidentes pero en términos prácticos la imagen fotográfica (la
que obtenemos utilizando cualquier tipo de cámara) en la mayoría de los casos no permite alcanzar buenas
tasas de compresión con estos algoritmos.

Quiere decir que habitualmente utilizamos algoritmos de compresión lossy o con pérdida tales como JPEG en
el caso de la imagen gráfica o DCT, MPEG y similares en la imagen en movimiento.

La mayoría de los algoritmos empleados en video profesional son lossy, sin embargo explotan un conjunto de
técnicas de compresión (algunas de las cuales aparecen a continuación) que permiten aprovechar dos
características de la imagen fija y de la imagen en movimiento.

La imagen de video vivo en tanto se corresponde a una sucesión de imágenes fijas posee las dos
características, está altamente correlacionada en el espacio (ancho y alto de la imagen fija) y altamente
correlacionada en el tiempo (sucesión de imágenes correspondientes a una misma situación).

Es decir que cuando consideramos dos dimensiones (el espacio del cuadro) podremos aplicar la codificación
intra-frame (o intra coding) y cuando agregamos la dimensión del tiempo podremos adicionar codificación
inter-frame (o inter coding).

©2010-2014 Adrian A. Costoya Rev-2014-04 5


Cátedra Costoya BRR

BRR o Bit Rate Reduction (según diferentes autores)

Video Engineering Third Edition – 3.10 Video Data Compression (pg. 74) – Traducción literal

Cuando se analiza la transmisión y almacenamiento de video en términos de bit rates en bruto y


requerimientos de anchos de banda analógicos, los números son tan grandes que muchas tareas parecen
poco prácticas. Sin embargo, esta visión no toma en cuenta el potencial del audio y del video para ser
comprimidos -es decir, para ser reducidos. Debido a que existe gran cantidad de redundancia en los
datos de video se pueden alcanzar factores de compresión de 100:1 o más en ciertos casos. Esta es la
razón por la que pronto todos los sistemas de transmisión de video serán digitales.

Es una paradoja evidente que los formatos de video digital, que comienzan con más ancho de banda que
los formatos analógicos pueden utilizarse para reducir la data rate requerida por las señales de video. Las
tecnologías para reducir la data rate de las señales de video por medio de la compresión de datos están
altamente desarrolladas en la actualidad. Se ha estimado que más de 40 compañías en el mundo están
involucradas en esta empresa. La compresión de video digital puede acomodar los requerimientos
crecientes de las computadoras, los satélites, los sistemas de cable y la HDTV.

Durante varios años la comunidad técnica de video ha estado involucrada en dos programas de desarrollo
principales – HDTV y compresión de video – ambos dirigidos hacia un uso más eficiente del espectro pero
con diferentes objetivos. El principal propósito del desarrollo de la HDTV es la mejora de la calidad de la
imagen de televisión con pequeño incremento de los requerimientos de ancho de banda. El principal
propósito de los desarrollos de compresión de video es reducir los requerimientos de datos con una
mínima pérdida de calidad de imagen.

Estos desarrollos se han reunido en el sistema de televisión digital ATSC que ha sido adoptado en los
[Link]. y en el proyecto DVB en Europa. Mediante la compresión de video MPEG y un creativo sistema de
transmisión digital video en HD y sonido de alta fidelidad multicanal se transmiten sobre los mismos
canales de 6MHz que en la actualidad manejan el video analógico NTSC.

La teoría de la comunicación muestra que bajo las condiciones encontradas en los sistemas de video
prácticos, la tasa a la que la información se puede transmitir en un canal de comunicaciones es
proporcional a su ancho de banda. El nombre del juego en la compresión de los datos de video es reducir
la cantidad de información necesaria para enviar imágenes de video.

Si las señales de video fueran variaciones de tensión al azar, la reducción de datos no sería posible sin
una pérdida mayor en calidad de imagen. Afortunadamente ese no es el caso. Las señales de video son
altamente estructuradas, y son repetitivas en el tiempo y correlacionadas en el espacio. Además, la tasa
de transferencia de información varía ampliamente de cuadro a cuadro y en diferentes áreas de la
imagen. Áreas de la imagen con movimiento rápido y gran cantidad de detalle requieren más datos que
áreas inmóviles con poco detalle. El rol de la compresión de datos es hacer uso de esas propiedades para
reducir esta tasa con un mínimo de pérdida de calidad de imagen. Alguna compresión se puede lograr sin
pérdida de calidad, ésta es llamada lossless y es utilizada ampliamente en la industria de la computación
sobre todo tipo de datos. Sin embargo, el grado de reducción en los datos por los métodos sin pérdida en
video es usualmente de 2:1 o menor.

Para alcanzar compresión de video significativa, se deben utilizar los métodos llamados lossy. Se debe
enfatizar que cualquier sistema de compresión de datos lossy resultará en alguna reducción de la calidad
de imagen, como por ejemplo la pérdida de resolución en los bordes de las imágenes de objetos en
movimiento.

©2004-2014 Adrián A. Costoya Rev-2014-03 1


Cátedra Costoya BRR

Tecnologías de Compresión de Datos

La compresión de video de alta calidad requiere procesamiento extremadamente complejo y se continúa


mejorando la efectividad de las técnicas y el hardware. A un método de compresión se lo denomina
algoritmo, éste es una descripción de los procesos matemáticos que realizan la compresión o la
descompresión requerida para restaurar las señales comprimidas a su forma original. Existen muchos
algoritmos para diferentes propósitos y diferentes niveles de calidad. Debido a la tremenda diversidad de
los algoritmos existentes y el vasto potencial que todavía existe para nuevos desarrollos, ha sido difícil
establecer standards. Hay buenos standards en uso; sin embargo, ellos han dejado la puerta abierta para
más mejoras en el futuro.

Algoritmos

Como con otras funciones de procesamiento digital complejo, el algoritmo es la herramienta básica para
especificar las operaciones matemáticas que se deben realizar para comprimir. La figura 3.13 es un
diagrama de algunas de las diferentes técnicas de compresión que se pueden combinar en un algoritmo.
Cada una de estas técnicas es potencialmente aplicable al video digital a niveles de pixels o líneas
(espacial) o de cuadros (temporal).

Técnicas Fijas y Adaptativas

La figura 3.13 ilustra las cinco técnicas de compresión de video más comunes:

Básica
Interpolada
Predictiva
Transformada
Estadística

De ninguna manera esta es una lista completa de técnicas, pero ilustra el rango de posibilidades.

Las técnicas tienen dos modos, "fijo" y "adaptativo". En el modo fijo, su aplicación es independiente del

©2004-2014 Adrián A. Costoya Rev-2014-03 2


Cátedra Costoya BRR

contenido de la imagen. En el modo adaptativo, su aplicación depende del contenido – por ejemplo, el
sistema puede operar de manera diferente para imágenes con un gran cantidad de detalle o movimiento.
El algoritmo resultante procesa las señales de video digital entrantes continuamente y la salida es un bit
stream comprimido.

Truncado

El truncado es una técnica de fuerza bruta que reduce la bit rate eliminando uno o más de los bits menos
significativos o LSBs (less significant bits). En el modo fijo el truncado tiene el problema obvio de que
carece de habilidad para distinguir entre los niveles de brillo representados por los LSBs, y las variaciones
de brillo de la imagen serán discontinuas. Esto se puede evitar por una transformada adaptativa que
elimine los LSBs sólo en la medida que la cantidad de detalle de la imagen lo permita.

El bitstream con longitud de palabra variable se envía a un buffer, después del cual se restauran los LSBs.
El problema potencial con este sistema es que el buffer se puede sobrecargar si la imagen contiene una
cantidad inusual de movimiento o detalle.

Subsampling e Interpolación

El subsampling y la interpolación son técnicas de compresión ampliamente utilizadas, y también se las


puede emplear con muestras que ni siquiera han sido digitalizadas. La figura 3.14 ilustra un ejemplo de la
técnica. La frecuencia de sampling es reducida a la mitad (subsampling) y las muestras de las líneas
adyacentes son desplazadas a la mitad del intervalo de muestra. Los valores de las muestras que se
saltean son el resultado del subsampling y son interpolados de los valores de elementos adyacentes
muestreados tanto horizontales como verticales. Las dos posibles ecuaciones de interpolación para el
ejemplo de la figura 3.14 son:

i=b+c+d+e (3.3)
4

i=c+d + b–e (3.4)


2 2

La ecuación (3.3) es el promedio aritmético de los valores de las muestras adyacentes. A esta se la
denomina algunas veces interpolación "A". La ecuación (3.4) es el valor promedio de los puntos
adyacentes en la misma línea más el cambio en los valores de los puntos en una línea adyacente – una
función de las componentes de alta frecuencia de la señal. La elección entre estas fórmulas es altamente
subjetiva.

©2004-2014 Adrián A. Costoya Rev-2014-03 3


Cátedra Costoya BRR

Predicción

Las técnicas de predicción espacial se basan en similitudes entre un objeto y su predecesor. Utilizar el
predecesor para predecir el nuevo objeto y luego codificar sólo su diferencia a menudo resulta en una
necesidad de transmisión de datos menor.

Un ejemplo de predicción se basa en el hecho de que la diferencia en niveles de señal entre pixels
adyacentes es generalmente pequeña. Si este es el caso, la diferencia se puede representar con un
número menor de bits por muestra, digamos 4 en vez de 8. Esta técnica se conoce como Differential
Pulse Code Modulation (DPCM).

Un sistema DPCM también tiene el problema de que la amplitud de cada señal de cada pixel es la suma
de la amplitud de la señal del pixel anterior y la diferencia. Si un error aparece en uno de los pixels, éste
se repetirá hasta que el nivel se resetee. Debido a estos problemas, la DPCM no es ampliamente usada
sola, pero es una técnica útil cuando se la combina con otras.

La predicción también se puede realizar temporalmente examinando cuadros adyacentes y encontrando


qué partes de un cuadro ya existían en el cuadro precedente. Estas partes de nuevo cuadro no se deben
transmitir nuevamente. Esta técnica se denomina motion compensation.

Transformadas

Otra posibilidad para la compresión de video es transformar los valores de un grupo de pixels en un
conjunto diferente que se pueda transmitir con menos datos. Luego de la transmisión, se realiza la
transformada inversa para recuperar los valores originales.

Las transformadas han sido objeto de amplias investigaciones, siendo su objetivo ser efectivas y operar
velozmente en tiempo real. Como un simple ejemplo, supongamos que los valores A, B, C, D son
transformados a los valores W, X, Y, Z por las ecuaciones:

W=A
X=B-A
Y=C-A
Z=D-A

Se transmiten W, X, Y, Z. Ya que X, Y y Z son valores de diferencia serán generalmente menores que los
originales sin transformar B, C y D y no requerirán tantos bits por palabra.

Luego de la transmisión, A, B, C y D se recuperan con la transformada inversa:

A=W
B=W+X
C=W+Y
D=W+Z

La transformación adaptativa es otra técnica. La cantidad de información que debe ser transmitida para
una porción determinada de la imagen es proporcional a la finura de detalle en esa porción. Una porción
de la imagen con poco detalle se puede transmitir con menos bits, y esto provee tiempo extra para
transmitir porciones con alto nivel de detalle. Se utiliza un buffer para restaurar la relación espacio
temporal original. Si la imagen completa tiene alto nivel de detalle, el buffer se puede sobrecargar y la
tasa de información a transferir se puede reducir incrementando los intervalos cuánticos. Esto, por
supuesto, reduce la calidad de la imagen aumentando los artifacts.

©2004-2014 Adrián A. Costoya Rev-2014-03 4


Cátedra Costoya BRR

Las transformadas han sido objeto de grandes análisis matemáticos, y muchas están en uso. Algunas de
las mejor conocidas son la transformada de Hadamard, la transformada de Fourier y la transformada del
coseno discreto (DCT).

Transformada del coseno discreto

La DCT es una versión de la transformada de Fourier que utiliza el hecho de que la entrada es un limitado
set de muestras tomadas de una forma de onda continua (de allí el término discreto). Una transformada
de Fourier produce tanto términos seno y coseno en su salida para especificar la fase de las componentes
de frecuencia. Sin embargo, al realizar la transformada discreta de un bloque de muestras y su imagen
espejo los términos seno se pueden cancelar dejando solamente los términos coseno. Esta es una
simplificación que permite explicar la aparición de la palabra coseno en el nombre de la transformada.

La DCT se aplica típicamente en bloques de 8 x 8, de modo que hay 64 muestras en total para procesar
tal como se muestra en la Figura 3.15(a). La salida de la transformada son 64 nuevos valores que
representan los coeficientes de las componentes de frecuencia espacial en el bloque como se ve en la
Figura 3.15(b). Hasta aquí, no hay compresión porque entraron 64 valores y salieron 64 valores. El
coeficiente frecuencia cero es conocido como el coeficiente de corriente continua (DC en inglés); es el
promedio del valor de todos los pixels en el bloque. Los coeficientes restantes expresan frecuencias
espaciales finitas dentro del bloque. La belleza de esta transformada es que define que la mayor parte de
la información del bloque en las frecuencias espaciales inferiores y muchos de los coeficientes de alta
frecuencia resultan ser cero. Esto se debe a que los valores de los pixels adyacentes muchas veces son
similares. Si bien la transformada por si misma no provee ninguna compresión, los valores de la
transformada son favorables para realizar una compresión sustancial en procesos subsecuentes como se
describe más abajo.

En la mayoría de los algoritmos, los coeficientes DCT se cuantifican de acuerdo a una tabla adaptativa y
luego se ordenan por frecuencias espaciales ascendentes lo que causa que la mayoría de los valores cero
se agrupen. Esto facilita compresiones adicionales por técnicas estadísticas o de codificación por longitud
de corrida.

Debido a que las ecuaciones de la DCT involucran funciones trascendentes, que sólo se pueden aproximar

©2004-2014 Adrián A. Costoya Rev-2014-03 5


Cátedra Costoya BRR

en un sistema real, esta transformada es inherentemente lossy. Sin embargo, la transformada conduce a
que la pérdida sea invisible in la mayoría de las imágenes y por lo tanto es una técnica de compresión
altamente efectiva.

Técnicas estadísticas

Las técnicas estadísticas se pueden utilizar para reducir el ancho de banda haciendo uso del hecho de que
algunas imágenes se encuentran con menos frecuencias que otras. Se utilizan palabras más cortas para
definir los valores encontrados con mayor frecuencia lo que permite una reducción en el número total de
bits. Esta técnica conocida como codificación Huffman requiere de la transmisión de una tabla de códigos
de modo que cada palabra se pueda identificar en el extremo receptor.

Compresión en cascada

Para alcanzar el grado de compresión deseado, usualmente es necesario combinar más de una técnica y
comprimir la señal en una serie de pasos sucesivos. Por ejemplo, una compresión de 32 a 1 se puede
alcanzar mediante compresiones 4:1, 4:1 y 2:1 aplicadas sucesivamente.

Compresión JPEG y MPEG

La Comisión Electrotécnica Internacional (IEC) reconoció hace unos años la necesidad de standards de
compresión de audio y video y formó el Motion Picture Expert Group (MPEG) para desarrollar standards
en esta importante área de la tecnología. El trabajo del MPEG condujo a los standards MPEG-1 y MPEG-2,
que se volvieron la base para las formas más ampliamente distribuidas de video comprimido. Otros
standards MPEG continúan en desarrollo.

El MPEG fue, en realidad, precedido por otro grupo de trabajo de la IEC, el Joint Photographic Expert
Group (JPEG) para la estandarización de la compresión de las imágenes fijas. Esto fue importante porque
la compresión de la imagen fija es ampliamente aplicable a los campos de artes gráficas, fax, imágenes
médicas, etc. JPEG desarrolló un standard que es configurable y aplicable a un amplio rango de usuarios.
El standard soporta una variedad de algoritmos y define cómo se combinan para diferentes aplicaciones.

La idea de configurabilidad es significativa porque no traba a la industria en el uso de un sólo algoritmo;


de hecho, incluso permite que nuevos algoritmos se incorporen en el futuro. Esto junto con la flexibilidad
de procesamiento controlado por software permite que la performance del sistema de compresión siga
creciendo. Los conceptos del esquema de compresión de imágenes fijas JPEG forman la base de la
compresión de video MPEG.

Compresión de imágenes fijas JPEG

El standard JPEG soporta tanto compresiones sin pérdida como compresiones con pérdida de imágenes
de casi cualquier tamaño y cualquier estructura de pixels. Es parametrizable de modo que el usuario
puede establecer compromisos en el grado de compresión versus calidad y tiene cuatro modos de
operación:

1. Secuencial – Codifica en el orden en que la imagen fue escaneada.


2. Progresivo – Codifica mediante múltiples pasadas de modo que se transmite rápidamente una imagen
grosera, seguida por pasadas repetitivas que agregan resoluciones más altas progresivamente.
3. Sin pérdida – Se garantiza una reproducción exacta (todos los otros modos son con pérdida).
4. Jerárquica – La imagen se codifica en múltiples resoluciones.

©2004-2014 Adrián A. Costoya Rev-2014-03 6


Cátedra Costoya BRR

La compresión con pérdida JPEG utiliza el algoritmo DCT, codificando bloques de 8x8 pixels por vez. Los
coeficientes resultantes de la DCT se cuantifican de acuerdo a la tabla de cuantificación provista por la
aplicación. En este punto el algoritmo es configurable – la tabla de cuantificación se vuelve parte del flujo
de datos comprimidos. El paso siguiente, llamado ordenamiento zigzag, se muestra mediante la línea
punteada de la Figura 3.15(b). Esto acomoda los coeficientes de la DCT en serie de modo que los
coeficientes de valor cero tienden a agruparse al final de cada bloque como se ve en la Figura 3.15(c). Un
código de fin de bloque (EOB) identifica el punto más allá del cual todos los coeficientes son cero. Esto
facilita el próximo paso, que es la codificación estadística. Aquí se utiliza la codificación Huffman y,
nuevamente, la tabla de codificación es configurable.

Con la mayoría de las imágenes de alta resolución, JPEG puede comprimir aproximadamente 10:1 con
excelentes resultados. Por ejemplo, una imagen de 16 o 24bpp se puede transmitir con menos de 2bpp y
reproducirse sin pérdida de resolución visible. En algunos casos, se puede alcanzar relaciones de
compresión de 30:1. La cantidad que se puede utilizar depende de los contenidos de la imagen y de las
condiciones de visualización de la imagen final descomprimida.

El standard JPEG se utiliza para compresión de video aplicando el algoritmo separadamente para cada
cuadro de una secuencia de movimiento. Esto se denomina motion-JPEG y se utiliza ampliamente en
situaciones que no requieren de la máxima compresión. Sin embargo, falla en aprovechar las
oportunidades que son inherentes a la redundancia entre los cuadros de una secuencia de movimiento.
Los algoritmos MPEG se diseñaron para hacer eso.

Arquitectura MPEG

La técnica para aprovechar la redundancia entre cuadro y cuadro se denomina motion compensation y se
aplica para reducir los datos de los cuadros antes que se codifiquen con técnicas similares a JPEG.

Motion Compensation

La idea básica de la compensación de movimiento es encontrar las partes de cada cuadro que se han
movido o cambiado con respecto al cuadro precedente y codificar sólo los cambios que se denominan
residuales. Entonces cada cuadro se construye agregado los residuales decodificados a la predicción
basada en el cuadro anterior. Esta es una forma de predicción adaptativa, donde los cuadros anteriores
predicen al cuadro siguiente excepto en los lugares donde algo ha cambiado o se ha movido. A estos
cuadros se los denomina "P".

El ejemplo de la Figura 3.16 muestra cómo los cuadros se dividen en bloques para los propósitos de la
compensación de movimiento (el número de bloques se reduce para simplificar la figura). Los cuadros se
tomaron de una secuencia de un cuervo volando sobre una ciudad. La cámara acompañó el movimiento
del cuervo, de modo que el fondo de la ciudad se está moviendo hacia la izquierda. Se buscan en el
cuadro anterior los bloques presentes en el cuadro actual, a este procedimiento se lo denomina block
matching. Si se encuentra una coincidencia, se codifica la ubicación del bloque (motion vector) del cuadro
anterior. Se construye un cuadro tentativo moviendo bloques del cuadro anterior con la aplicación de los
vectores de movimiento (este proceso se muestra en la figura para un bloque). El cuadro predictivo se
resta del actual para producir una imagen residual que se codifica para transmisión. En el extremo
receptor el proceso se invierte: el cuadro predictivo se construye con el anterior, la imagen residual se
decodifica y se agrega al cuadro predictivo.

©2004-2014 Adrián A. Costoya Rev-2014-03 7


Cátedra Costoya BRR

Buscar en todo el cuadro anterior un bloque del cuadro nuevo requiere una importante cantidad de
cómputo. Dado que al probabilidad de encontrar el bloque decae a medida que se busca más lejos de la
posición del bloque en el cuadro nuevo, la búsqueda se puede restringir a una pequeña región alrededor
de la nueva posición. Esto se define por un parámetro del encoder denominado search range. Si el search
range es muy pequeño, el encoder se sobrecargará para pequeñas cantidades de movimiento de un
cuadro al siguiente. Un search range más amplio permite que se maneje más movimiento, pero hace al
encoder más caro.

Transmitir una secuencia de movimiento larga por medio de la cuadros predictivos tiene dos problemas:

1. Si surge un error en un cuadro, éste tenderá a propagarse a cuadros futuros hasta que el cambio lo
supere. Esto hace los errores más visibles.
2. En muchos casos el video debe ser editable, lo que significa que debería ser posible cortar cualquier
grupo de cuadros de una secuencia y utilizarlos en otra secuencia. Con codificación predictiva una
secuencia de video siempre debe comenzar con el primer cuadro.

Ambos problemas se resuelven enviando periódicamente un cuadro completo que no es la predicción de


el anterior (similar a una imagen JPEG). Si esto se realiza a una tasa moderada (por ejemplo cada 10
cuadros) no agrega muchos datos al data stream. De este modo, en un sistema de 30 cuadros por
segundo las ediciones se pueden iniciar en uno cualquiera de tres puntos dentro de un segundo. Esto no
es edición con precisión de cuadro pero es suficiente para muchos propósitos. Estos cuadros completos se
conocen como intracode o cuadros "I".

Hay una tercera estrategia para la codificación de cuadros en MPEG que utiliza interpolación bidireccional
entre dos cuadros. Estos son los cuadros denominados "B" y proveen la más alta compresión, pero a la
vez son los que requieren de mayor procesamiento durante la compresión y la estrategia de
descompresión más compleja. La Figura 3.17 muestra cómo los tres tipos de cuadro se combinan en un

©2004-2014 Adrián A. Costoya Rev-2014-03 8


Cátedra Costoya BRR

data stream y cómo dependen mutuamente uno de otro. La secuencia de cuadros exacta es configurable.

MPEG-1 y MPEG-2

El primer standard MPEG fue el MPEG-1 que se diseñó para data rates de hasta 1.5Mb/s. Este soporta la
velocidad de los lectores CD-ROM que se utilizan en computadoras y los canales de comunicación T-1. La
performance del MPEG-1 es a menudo descripta como similar a la grabación en cinta VHS. Es satisfactoria
para muchas aplicaciones de entretenimiento o para display en un sector de la pantalla de las
computadoras, pero no es tan buena como la radiodifusión en PAL o NTSC.

MPEG-2 se diseñó para data rates más altas, de hasta 15Mb/s, y más alta performance, incluyendo
HDTV. Soporta display a pantalla completa tanto en computadoras como en televisores.

MPEG-4 y MPEG-7 se encuentran en desarrollo. Extenderán la aplicación del MPEG a multimedia


incluyendo interactividad y todas las formas de gráficos, texto y animación así como audio y video.

Sumario

Es seguro decir que la tecnología de video digital ha alcanzado el punto donde es el enfoque preferido
para todos los nuevos diseños de sistemas. En la mayoría de los casos, la performance del video digital
comparado con su costo ha superado a los sistemas analógicos. La radiodifusión por satélite ya es digital,
y con la DTV, la radiodifusión terrestre y los sistemas de cable serán digitales. La tecnología de video
digital permite la integración con las redes de datos de computadoras y será un ingrediente esencial del
desarrollo de la superautopista de la información.

- Fin -

Bibliografía:
Video Engineering Third Edition – Arch Luther, Andrew Inglis – Mac Graw-Hill – 1999

©2004-2014 Adrián A. Costoya Rev-2014-03 9


MPEG video coding
A simple introduction
Dr. S.R. Ely (BBC)

The core element of all DVB


systems is the MPEG-2 vision
1. Introduction coding standard, which is based
The Moving Pictures Expert Group (MPEG) upon a flexible toolkit of techniques
started in 1988 as Working Group 11, Sub- for bit-rate reduction.
committee 29, of ISO/IEC JTC11 with the aim of
The MPEG-2 specification only
defining the standards for digital compression of
video and audio signals. It took as its basis the defines the bit-stream syntax and
ITU-T2 standard for video-conferencing and decoding process. The coding
video-telephony [1], together with that of the Joint process is not specified, which
Photographic Experts Group (JPEG) which had means that compatible improve-
initially been developed for compressing still ments in the picture quality will
images such as electronic photography [2]. continue to be possible.
The first goal of MPEG was to define a video In this article, the author provides a
coding algorithm for digital storage media, in simple introduction to the techni-
particular CD-ROM. The resulting standard was calities of the MPEG-2 video coding
published in 1993 as ISO/IEC 11172 [3] and com- standard.
prises three parts, covering the systems aspects
(multiplexing and synchronization), video coding
and audio coding. This standard has been applied
In 1990, MPEG began work on a second standard
in the CD-i system to provide full motion video
which would be capable of coding interlaced
playback from CD, and is widely used in PC
pictures directly, originally to support high-quality
applications for which a range of hardware and
applications at bit-rates in the range of about 5 to
software coders and decoders are available.
10 Mbit/s. MPEG-2 now also supports high-
definition formats at bit-rates in the range of about
MPEG-1 is restricted to non-interlaced video for-
15 to 30 Mbit/s. The MPEG-2 standard was first
mats and is primarily intended to support video
published in 1994 as ISO/IEC 13818, again com-
coding at bit-rates up to about 1.5 Mbit/s.
prising three parts – systems, video and audio. A
second version of the standard was published in
1. Joint Technical Committee No. 1 of the International 1995 [4].
Organisation for Standardisation and the International
Electrotechnical Commission. It is important to note that the MPEG standards
Original language: English
2. International Telecommunication Union specify only the syntax and semantics of the bit-
Manuscript received 30/11/95. – Telecommunication Standardization Bureau. streams and the decoding process. They do not

12 EBU Technical Review Winter 1995


Ely
specify the coding process: this is left mainly to the – the limit of temporal resolution (i.e. the abil-
discretion of the coder designers, thus giving scope ity of the eye to track fast-moving images).
for improvement as coding techniques are refined Temporal resolution means, for example,
and new techniques are developed. that a change of picture (a shot-change)
masks the fine detail on either side of the
change.
2. Video coding principles
If we take a studio-quality 625-line component
3. MPEG video compression
picture and digitize it according to ITU Recom- toolkit
mendations BT.601 [5] and BT.656 [6] (i.e. if we Sample-rate reduction is a very effective method
use [Link] sampling as shown in Fig. 1), a bit- of reducing the bit-rate but, of course, it introduces
stream of 216 Mbit/s is used to convey the lumi- irreversible loss of resolution. For very low bit-
nance and the two chrominance components. For rate applications (e.g. in MPEG-1), alternate fields
bandwidth-restricted media – such as terrestrial or are discarded and the horizontal sampling-rate is
satellite channels – a method is required to reduce reduced to around 360 pixels-per-line (giving
the bit-rate needed to represent the digitized about 3.3 MHz resolution). The sample rate for
picture. the chrominance is half that of the luminance, both
horizontally and vertically. In this way, the bit-rate
A video bit-rate reduction (compression) system can be reduced to less than one fifth that of a con-
operates by removing the redundant and less- ventional definition ([Link]) sampled signal.
important information from the signal prior to
transmission, and by reconstructing an approxima- For “broadcast quality” at bit-rates in the range 3
tion of the image from the remaining information to 10 Mbit/s, horizontal sample-rate reduction is
at the decoder. In video signals, three distinct not advisable for the luminance or chrominance
kinds of redundancy can be identified: signals, nor is temporal sub-sampling. However,
for distribution and broadcast applications, suffi-
1) Spatial and temporal redundancy cient chrominance resolution can be provided if
the sampling frequency of the vertical chromi-
Here, use is made of the fact that the pixel values
nance is halved. Thus, for most MPEG-2 coding
are not independent but are correlated with their
applications, [Link] sampling is likely to be used
neighbours, both within the same frame and
rather than [Link]. However, [Link] and [Link] sam-
across frames. So, to some extent, the value of
pling are also supported by MPEG-2. It may be of
a pixel is predictable, given the values of the
interest to note that a conventional delay-line PAL Figure 1
neighbouring pixels.
decoder effectively yields the same vertical sub- [Link] sampling.

2) Entropy redundancy
For any non-random digitized signal, some
13.5 MHz
code values occur more frequently than others. 5.75 MHz 8 bits
This can be exploited by coding the more-
frequently occurring values with shorter codes R ADC Y
than the rarer ones. This same principle has
long been exploited in Morse code where the 6.75 MHz
most common letters in English, “E” and “T”, RGB
2.75 MHz 8 bits
are represented by one dot and one dash, res- to ADC
G CB
pectively, whereas the rarest letters, “X”, “Y” YUV
matrix
and “Z”, are each represented by a total of four
dots and dashes. 6.75 MHz
2.75 MHz 8 bits

3) Psycho-visual redundancy B ADC CR

This form of redundancy results from the way


the eye and the brain work. In audio, we are
familiar with the limited frequency response of Y  8  13.5  108
the ear: in video, we have to consider two limits: C B  8  6.75  54
C R  8  6.75  54
– the limit of spatial resolution (i.e. the fine
detail which the eye can resolve); Total  216 Mbits

EBU Technical Review Winter 1995 13


Ely
sampling of the chrominance signals as does [Link] of a different DCT “basis” function to the original
sampling. image block. The lowest frequency basis function
(top-left in Fig. 3) is called the DC coefficient and
Apart from sample-rate reduction, the MPEG tool- may be thought of as representing the average
kit includes two different kinds of tools to exploit brightness of the block.
redundancy in images:
The DCT does not directly reduce the number of
1) Discrete Cosine Transform (DCT) bits required to represent the block. In fact, for an
The purpose of using this orthogonal transform 8 x 8 image block of 8-bit pixels, the DCT pro-
– which is similar to the Discrete Fourier Trans- duces an 8 x 8 block of at least 11-bit DCT co-
form (DFT) – is to assist the processing which efficients, to allow for reversibility! The reduction
removes spatial redundancy, by concentrating in the number of bits follows from the fact that, for
the signal energy into relatively few coeffi- typical blocks of natural images, the distribution of
cients. coefficients is non-uniform – the transform tends
to concentrate the energy into the low-frequency
2) Motion-compensated interframe coefficients, and many of the other coefficients are
prediction near zero. The bit-rate reduction is achieved by not
transmitting the near-zero coefficients, and by
This tool is used to remove temporal redun- quantizing and coding the remaining coefficients
dancy. It is based on techniques similar to the as described below. The distribution of the non-
well-known differential pulse-code modulation uniform coefficients is a result of the spatial redun-
(DPCM) principle. dancy present in the original image block.

3.1. Discrete cosine transform Many different forms of transformation have been
investigated for bit-rate reduction. The best trans-
The luminance signal of a [Link]-sampled digitized forms are those which tend to concentrate the ener-
625-line picture comprises about 704 pixels hori- gy of a picture block into a few coefficients. The
zontally and about 576 lines vertically (see Fig. 2). DCT is one of the best transforms in this respect
In MPEG coding, spatial redundancy is removed and has the advantage that the DCT and its inverse
by processing the digitized signals in 2-D blocks of are easy to implement in digital processing. The
8 pixels by 8 lines (taken from either one field or choice of an 8 x 8 block-size is a trade-off between
two, depending on the mode of operation). the need to use a large picture area for the trans-
form, so the energy compaction described above is
As Fig. 3 illustrates, the DCT transform is a revers- most efficient, and the fact that the content and
ible process which maps between the normal 2-D movement of the picture varies spatially, which
presentation of the image and one which repre- would tend to support a smaller block-size. A large
sents the same information in what may be thought block-size would also emphasize variations from
of as the frequency domain. Each coefficient in the block-to-block in the decoded picture; it would
8 x 8 DCT domain block indicates the contribution also emphasize the effects of “windowing” by the
block structure.

88 blocks
3.2. Coefficient quantization

704 pixels After a block has been transformed, the transform


coefficients are quantized. Different quantization
72 blocks

is applied to each coefficient depending on the


spatial frequency within the block that it repre-
576 lines

sents. The objective is to minimize the number of


8 bits which must be transmitted to the decoder, so
that it can perform the inverse transform and re-
construct the image: reduced quantization accura-
cy reduces the number of bits which need to be
transmitted to represent a given DCT coefficient,
8 but increases the possible quantization error for
that coefficient. Note that the quantization noise
introduced by the coder is not reversible in the
Figure 2 decoder, so the coding and decoding process is
Block-based DCT. “lossy”.

14 EBU Technical Review Winter 1995


Ely
d.c. coefficient
Horizontal Increasing cycles per
8 frequencies picture width

frequencies
DCT

Vertical
8 8
IDCT Figure 3
DCT transform pairs.

8
Increasing cycles
per picture height

More quantization error can be tolerated in the tern, which is preferable for pictures without a
high-frequency coefficients, because HF noise is strong vertical structure, there is no bias and the
less visible than LF quantization noise. Also, scan proceeds diagonally from top left to bottom
quantization noise is less visible in the chromi- right, as illustrated in Fig. 4. The coder indicates
nance components than in the luminance compo- its choice of scan pattern to the decoder.
nent. MPEG uses weighting matrices to define the
relative accuracy of the quantization of the differ- The strings of coefficients produced by the zigzag
ent coefficients. Different weighting matrices can scanning are coded by counting the number of zero
be used for different frames, depending on the pre- coefficients preceding a non-zero coefficient, i.e.
diction mode used. run-length coded. The run-length value, and the Figure 4
value of the non-zero coefficient which the run of Scanning of DCT
The weighted coefficients are then passed through zero coefficients precedes, are then combined and blocks and run-
a fixed quantization law, which is usually a linear coded using a variable-length code (VLC). The length coding with
law. However, for some prediction modes there is VLC exploits the fact that short runs of zeros are variable-length codes
more likely than long ones, and small coefficients (Entropy coding).
an increased threshold level (i.e. a dead-zone)
around zero. The effect of this threshold is to max-
imize the number of coefficients which are quan- d.c. coefficient
tized to zero: in practice, it is found that small devi-
ations around zero are usually caused by noise in
the signal, so suppressing these values actually Horizontal frequencies
“improves” the subjective picture quality.

Quantization noise is more visible in some blocks


than in others; for example, in blocks which con-
tain a high-contrast edge between two plain areas.
In such blocks, the quantization parameters can be
Vertical frequencies

modified to limit the maximum quantization error,


particularly in the high-frequency coefficients.

3.3. Zigzag coefficient scanning,


run-length coding, and
variable-length coding

After quantization, the 8 x 8 blocks of DCT co-


efficients are scanned in a zigzag pattern (see
Fig. 4) to turn the 2-D array into a serial string of
quantized coefficients. Two scan patterns are de-
fined. The first is usually preferable for picture
material which has strong vertical frequency com-
ponents due to, perhaps, the interlace picture struc- Note 1: Zigzag scanning.
ture. In this scan pattern, there is a bias to scan Note 2: Run/amplitude coding: the run of zeros and the amplitude of the DCT
vertical coefficients first. In the second scan pat- coefficient are given one Variable Length Code (VLC) (Huffman Code).

EBU Technical Review Winter 1995 15


Ely
Buffer occupancy control

Y, CR or CB Line-scan
Run-
to Zigzag
DCT Quantization length VLC Buffer
block-scan scan code Output
conversion

Figure 5 are more likely than large ones. The VLC allocates complexity of the picture information and the
Basic DCT coder. codes which have different lengths, depending amount and type of motion in the picture. To pro-
upon the expected frequency of occurrence of each duce the constant bit-rate needed for transmission
zero-run-length / non-zero coefficient value com- over a fixed bit-rate system, a buffer is needed to
bination. Common combinations use short code smooth out the variations in bit-rate. To prevent
words; less common combinations use long code overflow or underflow of this buffer, its occupancy
words. All other combinations are coded by the is monitored and feedback is applied to the coding
combination of an escape code and two fixed- processes to control the input to the buffer. The
length codes, one 6-bit word to indicate the run DCT quantization process is often used to provide
length, and one 12-bit word to indicate the co- direct control of the input to the buffer: as the
efficient value. buffer becomes full, the quantizer is made coarser
to reduce the number of bits used to code each DCT
One VLC code table is used in most circumstances. coefficient: as the buffer empties, the DCT quanti-
However, a second VLC code table is used for zation is made finer. Other means of controlling
some special pictures. The DC coefficient is the buffer occupancy may be used as well as, or
treated differently in some modes. However, all instead of, the control of DCT coefficient quanti-
the VLCs are designed such that no complete code- zation.
word is the prefix of any other codeword: they are
similar to the well-known Huffman code. Thus the Fig. 5 shows a block diagram of a basic DCT codec
decoder can identify where one variable-length with, in this example, the buffer occupancy con-
codeword ends and another starts, when operating trolled by feedback to the DCT coefficient quanti-
within the correct codebook. No VLC or combina- zation.
tion of codes is allowed to produce a sequence of
23 contiguous zeros – this particular sequence is It is important to note that the final bit-rate at the
used for synchronization purposes. output of an MPEG video encoder can be freely
varied: if the output bit-rate is reduced, the buffer
DC coefficients in blocks contained within intra will empty more slowly and the coder will auto-
macroblocks (see Section 3.7.) are differentially matically compensate by, for example, making the
encoded before variable-length coding. DCT coefficient quantization coarser. But, of
course, reducing the output bit-rate reduces the
3.4. Buffering and feedback quality of the decoded pictures. There is no need
to lock input sampling rates to channel bit-rates, or
The DCT coefficient quantization, the run-length vice-versa.
Figure 6 coding and the variable-length coding processes
Basic DPCM coder. produce a varying bit-rate which depends upon the 3.5. Reduction of temporal
redundancy: interframe
prediction

Input Quantized In order to exploit the fact that pictures often


Quantizer prediction error change little from one frame to the next, MPEG
+ve to channel includes temporal prediction modes: that is, we
–ve
attempt to predict one frame to be coded from a
previous “reference” frame.

Fig. 6 illustrates a basic differential pulse code


Locally-decoded modulation (DPCM) coder in which we quantize
output and transmit only the differences between the input
Predictor
and a prediction based on the previous locally-
decoded output. Note that the prediction cannot be

16 EBU Technical Review Winter 1995


Ely
Prediction
Input error
DCT Quantizer DCT of
+ve prediction error

–ve

Inverse
DCT

Figure 7
DCT with interframe
prediction coder.

Frame
delay

based on previous source pictures, because the pre- One method of determining the motion that has
diction has to be repeatable in the decoder (where occurred between the block being coded and the
the source pictures are not available). Consequent- reference frame is a “block-matching” search in
ly, the coder contains a local decoder which recon- which a large number of trial offsets are tested in
structs pictures exactly as they would be in the the coder (see Fig. 9).
actual decoder. The locally-decoded output then
forms the input to the predictor. In interframe pre- The “best” offset is selected on the basis of a mea- Figure 8
diction, samples from one frame are used in the surement of the minimum error between the block Motion-compensated
prediction of samples in other “reference” frames. being coded and the prediction. Since MPEG de- interframe predictiom

In MPEG coding, we combine interframe predic-


tion (which reduces temporal redundancy) with Frame n–1 (previous)
the DCT and variable-length coding tools that
were described in Section 3.3. (which reduce spa-
tial redundancy), as shown in Fig. 7. The coder
subtracts the prediction from the input to form a
prediction-error picture. The prediction error is Non-motion-
Macroblock compensated
transformed with the DCT, the coefficients are vector offset prediction
quantized, and these quantized values are coded
using a VLC.
Frame n (current)
The simplest interframe prediction is to predict a
block of samples from the co-sited (i.e. the same
spatial position) block in the reference frame. In
this case the “predictor” would comprise simply a
delay of exactly one frame, as shown in Fig. 7.
This makes a good prediction for stationary re-
gions of the image but is poor in moving areas. 16
Macroblock used for
motion-compensated 16
3.6. Motion-compensated prediction
interframe prediction

A more sophisticated prediction method, known as


motion-compensated interframe prediction, off- Macroblock grid
sets any translational motion which has occurred
between the block being coded and the reference
Position of macroblock
frame, and uses a shifted block from the reference in previous frame
frame as the prediction (see Fig. 8).

EBU Technical Review Winter 1995 17


Ely
ent from frame to frame. However, increasing the
Search block Search area size of the search area greatly increases the proces-
sing needed to find the best match: various tech-

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ
(macroblock)
niques such as hierarchical block matching are

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ used to try to overcome this dilemma.

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ Bi-directional prediction (see Fig. 10) consists of

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ forming a prediction from both the previous frame

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ and the following frame, by a linear combination

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ
of these, shifted according to suitable motion esti-
mates.

ÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂÂ Bi-directional prediction is particularly useful


where motion uncovers areas of detail. However,
Search block is reference Search block moved around
search area to find best match to enable backward prediction from a future frame,
the coder re-orders the pictures so that they are
transmitted in a different order from that in which
Figure 9 fines only the decoding process, not the coder, the they are displayed. This process, and the process
Principle of choice of motion measurement algorithm is left to of re-ordering to the correct display sequence in
block-matching the designer of the coder and is an area where con- the decoder, introduces considerable end-to-end
motion. siderable difference in performance occurs be- processing delay which may be a problem in some
tween different algorithms and different imple- applications. To overcome this, MPEG defines a
mentations. A major requirement is to have a profile (see Section 4) which does not use bi-
search area large enough to cover any motion pres- directional prediction.

Frame n–1 (previous)

Macroblock
vector offset Intra
prediction

Frame n (current)

Position of macroblock
in frame n+1

Bi-directional Frame n+1 (next)


prediction

Position of macroblock
in frame n–1
Macroblock
vector offset

Figure 10
Motion-compensated
bi-directional
prediction.

18 EBU Technical Review Winter 1995


Ely
Prediction
Input error
DCT Quantizer DCT of
+ve prediction error

–ve

Inverse
DCT

Figure 11
Motion-compensated
interframe prediction
DCT.
Variable
delay

Fixed
delay

Motion
compensation Displacement
unit vectors

Whereas the basic coding unit for spatial redun- prediction. For example, a macroblock may be
dancy reduction in MPEG is based on an 8 x 8 “forward predicted” from a past picture, “back-
block, motion-compensation is usually based on a ward predicted” from a future picture, or “inter-
16 pixel by 16 line macroblock. The size of the polated” by averaging a forward and backward
macroblock is a trade-off between the need to prediction. Another option is to make a zero-
minimize the bit-rate required to transmit the mo- value prediction, such that the source image block
tion representation (known as motion vectors) to rather than the prediction error-block is DCT-
the decoder, which supports the case for a large coded. Such macroblocks are known as intra- or
macroblock size, and the need to vary the predic- I-coded.
tion process locally within the picture content and
movement, which supports the case for a small ma- Although no prediction information is needed for
croblock size. intra-macroblocks, they can carry motion vector
information. In normal circumstances, the motion
To minimize the bit-rate needed to transmit the vector information for an I-coded macroblock is
motion vectors, they are differentially-encoded not used, but its function is to provide a means of
with reference to previous motion vectors. The concealing the decoding errors when data errors in
motion vector value prediction error is then vari- the bit-stream make it impossible to decode the
able-length coded using another VLC table. data for that macroblock.

Fig. 11 shows a conceptual motion-compensated Fields of a frame may be predicted separately from
inter-frame DCT coder in which, for simplicity, we their own motion vector (field prediction coding),
illustrate implementing the process of motion- or together using a common motion vector (frame
compensated prediction by suggesting a “variable prediction coding). Generally, in the case of image
delay”. In practical implementations, of course, sequences where the motion is slow, frame predic-
the motion-compensated prediction is implement- tion coding is more efficient. However, when mo-
ed in other ways. tion speed increases, field prediction coding be-
comes more efficient.
3.7. Prediction modes
In addition to the two basic modes of field and
In an MPEG-2 coder, the motion-compensated frame prediction, two further modes have been de-
predictor supports many methods for generating a fined:

EBU Technical Review Winter 1995 19


Ely
Decoder
input Input VLC Inverse Inverse
buffer decoder quantizer DCT

Difference
picture Coded Not coded
Motion
vectors

Display Decoder
Previous Adder
Motion Forward buffer output
I or P
compensation prediction
picture store
Prediction
Interpolated
Interpolator
prediction

Future Backward No
Motion
I or P prediction
compensation prediction
picture store

Figure 12 1) 16 x 8 motion compensation pictures (see Section 3.8) when there have been
Decoding a “B” no B-pictures between the P-picture and its ref-
macroblock. This mode uses at least two motion vectors for
erence frame. In this case, a motion vector and
each macroblock: one vector is used for the up-
a differential-offset motion vector are trans-
per 16 x 8 region and one for the lower half. (In
mitted.
the case of B-pictures (see Section 3.8), a total
of four motion vectors are used for each macro-
For field pictures, two motion vectors are
block in this mode, since both the upper and the
derived from this data and are used to form two
lower regions may each have motion vectors
predictions from two reference fields. These
referring to past and future pictures.):
two predictions are combined to form the final
prediction.
The 16 x 16 motion compensation mode is per-
mitted only in field-structured pictures and is
intended to allow that, in such cases, the spatial For frame pictures, this process is repeated for
area covered by each motion vector is approxi- each of the two fields: each field is predicted
mately equal to that of a 16 x 16 macroblock in separately, giving rise to a total of four field
a frame structure picture. predictions which are combined to form the fi-
nal two predictions. Dual prime mode is used
as an alternative to bi-directional prediction,
2) Dual prime mode
where low delay is required: it avoids the frame
Figure 13 This mode may be used in both field- and frame- re-ordering needed for bi-directional prediction
MPEG picture types. structured coding but is only permitted in P- but achieves similar coding efficiency.

I B B P B B P B
picture picture picture picture picture picture picture picture

Forward prediction
Backward prediction

Note 1: An intra-coded (I) picture is coded using information only from itself.
Note 2: Predictive-coded (P) pictures are coded with reference to a previous I or P picture.
Note 3: Bidirectionally-predictive (B) pictures are coded with reference to both the previous I or P picture and the next (future) I or P picture.

20 EBU Technical Review Winter 1995


Ely
For each macroblock to be coded, the coder 3) Bi-directionally-predictive pictures
chooses between these prediction modes, trying to (B-pictures)
minimize the distortions on the decoded picture
These use both past and future I- or P-pictures
within the constraints of the available channel bit-
for motion compensation, and offer the highest
rate. The choice of prediction mode is transmitted
degree of compression. As noted above, to en-
to the decoder, together with the prediction error,
able backward prediction from a future frame,
so that it can regenerate the correct prediction.
the coder re-orders the pictures from the natural
display order to a “transmission” (or “bit-
Fig. 12 illustrates how a bi-directionally coded stream”) order so that the B-picture is trans-
macroblock (a B-macroblock) is decoded. The mitted after the past and future pictures which
switches illustrate the various prediction modes it references (see Fig. 14). This introduces a
available for such a macroblock. Note that the delay which depends upon the number of con-
coder has the option not to code some macro- secutive B-pictures.
blocks: no DCT coefficient information is trans-
mitted for those blocks and the macroblock ad- 3.9. Group of pictures
dress counter skips to the next coded macroblock.
The decoder output for the uncoded macroblocks The different picture types typically occur in a re-
simply comprises the predictor output. peating sequence termed a Group of Pictures or
GOP. A typical GOP is illustrated in display order
in Fig. 14(a) and in transmission order in Fig.
3.8. Picture Types
14(b).
In MPEG-2, three “picture types” are defined (see
A regular GOP structure can be described with two
Fig. 13). The picture type defines which predic-
parameters:
tion modes may be used to code each macroblock:
– N (the number of pictures in the GOP);
1) Intra pictures (I-pictures) – M (the spacing of the P-pictures).
These are coded without reference to other pic-
The GOP illustrated in Fig. 14 is described as
tures. Moderate compression is achieved by
N = 9 and M = 3.
reducing spatial redundancy but not temporal
redundancy. They are important as they pro-
For a given decoded picture quality, coding – using
vide access points in the bit-stream where de-
each picture type – produces a different number of
coding can begin without reference to previous
bits. In a typical sequence, a coded I-picture needs
pictures.
three times more bits than a coded P-picture, which
itself occupied 50% more bits than a coded B-
2) Predictive pictures (P-pictures) picture.
These are coded using motion-compensated
prediction from a past I- or P-picture and may 4. MPEG profiles and levels
be used as a reference for further prediction. By
reducing spatial and temporal redundancy, P- MPEG-2 is intended to be generic, supporting a di-
pictures offer increased compression compared verse range of applications. Different algorithmic
to I-pictures. elements or “tools”, developed for many applica-

Dr. Bob Ely is an R&D manager at BBC Research and Development Department, Kingswood Warren,
Surrey, UK.
Currently, he is working with the BBC’s Digital Broadcasting Project which aims to investigate the techni-
cal and commercial feasibility of digital terrestrial broadcasting and to implement technical field-trials and
demonstrations.
After completing his PhD in computer communications systems at Daresbury Nuclear Physics Laboratory,
Bob Ely joined BBC Research Department to work on RDS and related data transmission systems. He later
led the BBC team which developed the Nicam digital stereo-sound-with-television system. For many years,
he was Chairman of the EBU Specialist Group on RDS, a Vice-Chairman of Working Party R and has also
been a member of EBU Groups on conditional access systems.

EBU Technical Review Winter 1995 21


Ely
tions, have been integrated into a single bit-stream profile suitable for low-delay applications such
syntax. as video conferencing.

To implement the full syntax in all decoders is un- 2) Main profile


necessarily complex, so a small number of subsets This adds support for B-pictures which im-
or profiles of the full syntax have been defined. proves the picture quality for a given bit-rate but
Also, within a given profile, a “level” is defined increases the delay. Currently, most MPEG-2
which describes a set of constraints such as maxi- video decoder chip-sets support main profile.
mum sampling density, on parameters within the
profile. 3) SNR profile
The profiles defined to date fit together such that This adds support for enhancement layers of
a higher profile is a superset of a lower one. A de- DCT coefficient refinement, using signal-to-
coder which supports a particular profile and level noise ratio (SNR) scalability.
is only required to support the corresponding sub-
set of the full syntax and a set of parameter 4) Spatial profile
constraints. To restrict the number of options This adds support for enhancement layers carry-
which must be supported, only selected combina- ing the image at different resolutions, using the
tions of profile and level are defined as confor- spatial scalability tool.
mance points (see Table 1). These are:
5) High profile
1) Simple profile
This adds support for [Link]-sampled video.
Figure 14
This uses no B-frames and, hence, no backward
Example Group of or interpolated prediction. Consequently, no All MPEG-2 decoders will also decode MPEG-1
Pictures (GOP). picture re-ordering is required which makes this pictures (but not vice-versa).

a Display order

B–1 B0 I1 B2 B3 P4 B5 B6 P7 B8 B9 I10 B11 B12 P13


etc ...

Sequence repeats ...

Forward prediction
Backward prediction

b Transmission order

I1 B–1 B0 P4 B2 B3 P7 B5 B6 I10 B8 B9 P13 B11 B12


etc ...

Re-ordered frames

22 EBU Technical Review Winter 1995


Ely
Profile and maximum total bit-rate (Mbit/s)
Maximum Simple Main SNR Spacial High
sampling profile (SP) profile (MP) profile profile profile (HP)
density (scalable) (scalable)
(Hor/Vert/Freq)
High level (HL) _ MP@HL _ _ HP@HL
(1920/1152/60) 80 Mbit/s 100 Mbit/s
+ lower layers
High–1440 _ MP@H–14 _ Spt@H–14 HP@H–14
(1440/1152/60) 60 Mbit/s 60 Mbit/s 80 Mbit/s
+ lower layers + lower layers
Level Main level (ML) SP@ML MP@ML SNR@ML _ HP@ML
(720/576/30) 15 Mbit/s 15 Mbit/s 15 Mbit/s 20 Mbit/s
+ lower layers + lower layers
Low level (LL) _ MP@LL SNR@LL _ _
(352/280/30) 4 Mbit/s 4 Mbit/s
ISO 11172 _ _ _ _ _ Table 1
(MPEG-1) MPEG profiles and
1.856 Mbit/s levels.
Note 1: All decoders shall be able to decode ISO/IEC 11172 bitstreams.
Note 2: SP@ML decoders are required to decode MP@LL bitstreams.

5. Conclusions [3] ISO/IEC 11172: Information technology


coding of moving pictures and associated
MPEG has been outstandingly successful in defin- audio for digital storage media up to about
ing the standards for video compression coding, 1.5 Mbit/s. Part 1: system.
serving a wide range of applications, bit-rates,
[4] ISO/IEC 13818-[Link] Information
qualities and services. The standards are based Technology – Generic coding of moving
upon a flexible toolkit of techniques of bit-rate re- pictures and associated audio informa-
duction. The specification only defines the bit- tion: Video.
stream syntax and decoding process: the coding
process is not specified and the performance of a [5] ITU-R Recommendation BT.601-3:
coder will vary depending upon, for example, the Encoding parameters of digital television
quality of the motion-vector measurement, and the for studios.
processes used for prediction mode selection. [6] ITU-R Recommendation BT.656-1:
Interfaces for digital component video
The picture quality obtained through an MPEG co- signals in 525-line and 625-line television
dec depends strongly upon the picture content, but systems operating at the [Link] level of
as experience with MPEG coding grows, the bit- Recommendation 601.
rate needed for a given picture quality is likely to
reduce. Further reading:
Tudor, P.: MPEG-2: What it is and what it
Acknowledgements isn’t.
The author gratefully acknowledges the contribu- IEE Colloquium on Video Compression,
tions of his BBC colleagues Nick Wells, Phil Tu- January 1995.
dor and Paul Burfield in writing this article, which Wells, N. et al.: DCT source coding and
is based on published and unpublished work by current implementations for HDTV.
these three MPEG video experts. EBU Technical Review No. 251, Spring 1992.

Wells, N.: Bit-rate reduction of digital tele-


Bibliography vision for transmission: an introductory
[1] ITU-T Standard H.261: Video codec for review.
audiovisual services at P x 64 kbit/s. BBC R&D Department Report No. 1994/2.

[2] ISO/IEC 10918-1: Information Technology Sandbank, C.P. (editor): Digital Television.
– Digital compression and coding of John Wiley, Chichester, 1990.
continuous-tone still images. ISBN 0 471 92360 5.

EBU Technical Review Winter 1995 23


Ely
Cátedra Costoya Introducción a las Señales Digitales

©2002-2014 Adrian A. Costoya Rev-2014-04 1


Cátedra Costoya El proceso de postproducción

El proceso de postproducción

El proceso de postproducción es complejo y adquiere variadas rutinas determinando diversas tipologías.


Entre los distintos esquemas que se pueden plantear se desarrollará a continuación una modalidad clásica
y ortodoxa utilizada con frecuencia en postproducción de alto nivel tanto en el ámbito local como
internacional. En él se describen fundamentalmente los pasos que tienen que ver con la postproducción
de la imagen de material originado en film para su presentación como producto terminado en video
(televisión, videoproyección, punto de venta, etc.). Los productos que habitualmente cumplen esta rutina
son comerciales, aperturas de programas e institucionales de importancia.

La siguiente es la secuencia típica correspondiente al caso bajo análisis.

El registro
Se entiende por registro la adquisición de la imagen viva o material vivo. Para nuestros propósitos se
define el alcance de este término como la obtención de imágenes de personas o cosas puestas frente a
una lente (de cine o TV) lo cual obliga al reconocimiento de la denominación imagen "sintética" cuando
ésta se obtiene por medio de gráficos de computadora (Computer Graphics Imaginery o CGI). La
adquisición o captura de la imagen viva se realiza mediante el registro cinematográfico y/o el registro en
video. No es habitual en el esquema planteado que éstos se utilicen simultáneamente en el mismo
proyecto sino que el gráfico plantea dos caminos iniciales alternativos, siendo el que sigue el registro
cinematográfico el más complejo y el que presenta más especificidades.

Transfer a una luz (telecine a una luz)


Si se registra en film (de 16mm o 35mm) el primer paso consiste en la transferencia o transfer de las
imágenes a video (film-to-tape transfer). La naturaleza de la imagen que ingresa a este proceso es
fotográfica (más precisamente fotoquímica) y está representada por variaciones de densidad en función
del espacio mientras que la imagen que se obtiene a la salida tiene caracter electrónico, o sea que está
representada por variaciones de tensión en función del tiempo (señal de video) y le sigue el
almacenamiento en medios magnéticos; éstos últimos permiten que variaciones de campo magnético en
función del tiempo se registren como variaciones de orientación en función del espacio gracias a la
componente de velocidad de cinta que provee el movimiento del medio. Este cambio radical en la
naturaleza y soporte de las imágenes de entrada y salida, hace que se denomine al proceso transfer (y no
copia) ya que se pasa de imagen fotoquímica a imagen electrónica con sustento magnético.

El transfer a una luz tiene dos propósitos principales: visualizar el material, ya que no es posible analizar
la imagen del negativo cinematográfico por otro medio que permita evaluar el registro realizado; y
disponer de los videocassettes necesarios para alimentar al equipo off-line y realizar esa primera edición.

En el primer caso (visualizar el material) se debe destacar que el registro cinematográfico plantea
normalmente un serio grado de incertidumbre ya que el camarógrafo puede tener razonable confianza
sobre el encuadre que ha registrado visto en el viewfinder o mediante video-assist pero, sin embargo, el
director de fotografía y su equipo de cámara no puede garantizar la precisión del enfoque ni de la
exposición y mucho menos conocer de antemano defectos de fabricación del film ni errores que podrían
producirse durante el proceso de revelado en el laboratorio. Este escenario parece francamente
preocupante, pero más de 100 años de imágenes en movimiento producidas con tecnología fotoquímica
han permitido ajustar la metodología y los usuarios profesionales hace décadas que están capacitados
para alcanzar un altísimo grado de eficiencia. Aún así, la comprobación final proviene de la proyección en
pantalla de cine de una copia de trabajo del negativo filmado (cuando se trata de un proyecto para
exhibición final en cines) o de la visualización del negativo en monitores de video de alta calidad (en los

©1998-2004 Adrián A. Costoya Rev-2004-05 1


Cátedra Costoya El proceso de postproducción

casos de exhibición en televisión, etc.).

Durante el transfer a una luz se transfiere todo el material filmado. Es decir que en la máquina de
telecine se cargan, uno a la vez, los rollos de negativo original de cámara que ya ha sido revelado por el
laboratorio cinematográfico.

El término a una luz se refiere a que durante este proceso de transferencia se emplea un solo setting (o
ajuste) de la imagen (brillo, contraste, saturación, etc.). El procedimiento consiste en rodar en PLAY en el
telecine un par de minutos del primer rollo de negativo y ajustar los controles hasta obtener una imagen
correcta, luego se rebobina hasta el comienzo y se transfiere (es decir que el telecine estará en PLAY y
una VTR del formato seleccionado en RECORD) sin modificar los settings, cuando llega al final del
negativo se para la grabación mientras se enhebra el rollo siguiente y cuando está listo se repite el
proceso de transfer (telecine en PLAY y VTR en RECORD) con el mismo setting que el anterior y así
sucesivamente se transfiere todo el material que se filmó. Cabe destacar que durante una sesión de
transfer a una luz los operadores eventualmente realizan pequeñas correcciones "on-the-fly" sin detener
la grabación.

La característica de único ajuste técnico válido para toda la sesión de transfer (la misma para todos los
rollos) es la que le da el nombre “a una luz”. Este es un término heredado de los procesos de laboratorio
cinematográfico clásicos para largometraje, ya que en ellos todos los días se realizan copias positivo de
trabajo "a una luz" del negativo registrado, es decir, con un solo ajuste de la luz de copia. Estas copias de
película positivo a una luz son conocidas según distintas denominaciones, en la Argentina se las llama
campeones y en países de habla inglesa dailies o rushes. Estos últimos casos dan idea de la realización
diaria de copias y también de material procesado velozmente a una luz.

El resultado de una sesión de transfer a una luz será uno o más videocassettes que contienen la imagen y
en ella aparecerá superpuesta (quemada) la información de time-code y KeyKode, cuando estos códigos
aparecen en pantalla es común que se describa a esta característica del material como time-code y
keykode visible o time-code y keykode en ventana (window dubs). Los formatos de VTR elegidos
habitualmente para la grabación del transfer a una luz son U-matic o Betacam SP, pues son formatos
menores que el que se utilizará para el producto terminado y son formatos que normalmente se
encuentran disponibles en las salas de off-line.

La tecnología empleada para la transferencia se basa fundamentalmente en un equipo denominado


Telecine. El telecine es un sofisticado y costoso equipo que consta de un sistema de transporte mecánico
muy refinado ya que debe manejar negativo original de cámara entre cuyas características se debe
considerar su gran fragilidad y el gran valor agregado que se ha depositado en él lo que lo hace muy
costoso de repetir y, en algunas ocasiones, es irremplazable. El mecanismo del telecine permite un
control flexible de la película con Shuttle, Jog, STEP, FFWD y REW parecido al control de los
videocassettes, sin maltrato ni daño del negativo. Por otra parte, la transferencia se basa en la
transducción (o pase de una forma de energia a otra) luz-corriente por lo que los telecines operan con
alguna clase de fuente de luz que incide sobre la película y sistemas ópticos de precisión que la dirigen
hacia dispositivos sensores de diversas tecnologías que entregan corriente eléctrica. Esta luego de un
procesamiento de señal formará la señal de video resultante.

El time-code es el código de tiempo que permite la identificación inequívoca de cada frame o cuadro de
video en el videocassette y se expresa en horas, minutos, segundos y frames (cuadros) mediante ocho
dígitos separados por dos puntos de la forma HH:MM:SS:FF. Esta información queda registrada en un
track (pista) especial y todas las VTRs profesionales graban time-code cada vez que entran en modo de
grabación. En todas ellas el usuario puede seleccionar, antes de cada grabación, desde qué número

©1998-2004 Adrián A. Costoya Rev-2004-05 2


Cátedra Costoya El proceso de postproducción

iniciará el conteo este “reloj”.

El KeyKode es un código que permite la identificación inequívoca de cada frame o cuadro de película en el
negativo cinematográfico y se expresa mediante un código alfanumérico que identifican al fabricante de
la película, el tipo de emulsión y un contador de cuadros que en cinematografía habitualmente se conoce
como “pietaje”. La sintaxis del KeyKode está compuesta por 2 letras + 10 números + 2 números. Todos
los negativos cinematográficos que se fabrican en la actualidad poseen KeyKode pero, a diferencia del
video, donde el usuario puede estipular los números, el KeyKode viene puesto por el fabricante de la
película (Kodak y Fuji) desde el día que manufacturó el film. Es el fabricante quien se ocupa de garantizar
que los números no se repitan dentro de un lote de película y por ello utiliza más dígitos y una base más
amplia (base 10) que el time-code, para que se repitan con menor frecuencia.

La grabación de time-code y KeyKode en ventana del U-matic o Betacam SP hace que estos números
formen parte de la imagen y no se los pueda remover por ningún medio.

Las razones para “quemar” el time-code y el KeyKode en ventana es mantener de la mejor manera
posible la organización de la postproducción pudiendo en cualquier momento encontrar las tomas
necesarias para el proceso de que se trate; ya sea de manejo de film o de video.

Para lograr la inclusión de time-code y KeyKode en pantalla se emplean equipos complementarios


habituales en toda sala de telecine que, por una parte leen el KeyKode escrito como código de barras en
el negativo y lo decodifican para mostrarlo como caracteres reconocibles, y por otra parte, generan time-
code con números seleccionables por el usuario que se escriben en el track correspondiente del
videocassette. La coherencia de presentación en pantalla de estos dos códigos es posible porque este
equipamiento especializado recibe señales de control del telecine que le permiten determinar su velocidad
de avance o retroceso.

Off-line
Con el U-matic o Betacam SP resultante del transfer a una luz se ingresa el material al sistema de edición
off-line para realizar el boceto preciso de la compaginación y el borrador de los efectos. Aunque la sesión
de edición off-line tenga algunas limitaciones técnicas impuestas por los costos, se trata de una edición
que debe ser fundamentalmente precisa pues sólo de este modo las decisiones que se tomen se pueden
considerar finales, quiere decir que cortes, fundidos, wipes y velocidades variables empleadas en el
armado off-line se respetarán exactamente en los pasos posteriores.

Los equipos empleados en off-line en la actualidad poseen un gran número de herramientas para la
realización de efectos visuales y es bueno que se dedique tiempo a bocetarlos con la mayor aproximación
posible. Aún cuando se sepa que la calidad técnica menor del sistema no permite un refinamiento visual
extremo y que la lista de decisión de ediciones (EDL) no reflejará los parámetros de esos efectos ya que
fue creada décadas atrás, el tiempo empleado en esta sesión para bocetarlos contribuirá
significativamente a reducir el tiempo requerido para su realización manual en el on-line.

Cabe destacar que los U-matic o Betacam SP de transfer a una luz son mudos porque el negativo
cinematográfico no registra sonido. Entonces, el asistente de edición ingresa la imagen con los
videocassettes de transfer a una luz y luego, si existe registro de sonido directo, ingresará el sonido de
uno o varios DATs (u otros sistemas de grabación) y lo sincronizará con la imagen toma por toma. La
razón por la que esta tarea de se debe repetir toma por toma es que la cámara de cine y el grabador de
audio habitualmente no cuentan con sincronización entre ellos y que, aunque se sincronizaran sus
disparos, las características mecánicas (balística) hasta alcanzar la velocidad de operación de uno y otro

©1998-2004 Adrián A. Costoya Rev-2004-05 3


Cátedra Costoya El proceso de postproducción

transporte son diferentes. Sin embargo, esta tarea no es librada a la interpretación ya que la marca de la
claqueta (slate) en filmación se realiza cuando ambos servos han enganchado (servo-lock) y el asistente
de edición en el off-line buscará el cuadro de video en que se cierra la claqueta y lo sincronizará con el
sonido (o en un caso con la forma de onda) del golpe. Claquetas más avanzadas permiten generar time-
code y mostrar sus dígitos en pantalla a la vez que se graban en los sistemas de grabación de audio que
lo permiten en el track dedicado.

Por otra parte, es importante que el asistente de edición desglose y catalogue lo mejor posible las tomas
a medida que las ingresa para que más tarde el editor senior encuentre mejor el material y pueda
compaginar más rápido. Debe tomarse en cuenta que el aprovechamiento de un sistema no-lineal se
reduce considerablemente si el editor se encuentra que 3 horas de material crudo para realizar la
compaginación se le presenta como 3 clips de una hora.

La tecnología empleada para la sesión de edición off-line acorde a la envergadura del proceso de
postproducción planteado es habitualmente no-lineal, pero su aplicación off-line define que se tratará de
equipamiento de costo moderado, fundamentalmente con algunas limitaciones técnicas, a fin de articular
el conocido planteo presupuestario: muchas horas de off-line para tomar decisiones a un costo moderado
y pocas horas de on-line para obtener el producto terminado (finish).

Vale la pena mencionar que los editores no-lineales son designados en muchas publicaciones en inglés
por su sigla NLE sin detallar que se refiere a Non Linear Editor.

Las limitaciones técnicas a las que se hizo referencia más arriba son, en general, relacionadas con
velocidad de transferencia, capacidad de almacenamiento y tecnología de captura y reproducción de
video. La mayoría de los editores no-lineales dedicados al off-line sólo pueden operar con compresión
digital de video, quiere decir que manejan una representación aproximada de la misma imagen
empleando una técnica denominada reducción de la tasa de bits (o BRR – Bit Rate Reduction) con la cual
se obtienen varios minutos u horas de capacidad con data-rates reducidas. Esto ofrece una calidad de
imagen razonablemente buena con tecnología de costo moderado; en general, la tecnología aplicada al
off-line tiene una relación de costo de 1:3 a 1:5 con respecto a los equipos on-line aplicables en el mismo
contexto presupuestario.

Por otra parte, en la medida que se sigue operando mayoritariamente con imágenes de TV de la misma
resolución que se determinó hace más de 50 años mientras que la industria informática avanza en una
progresión geométrica, las data-rates y capacidades de almacenamiento de los sistemas de costo
moderado ya alcanzan en muchos casos los requerimientos del video sin compresión. Sin embargo, aún
se plantean casos paradójicos ya que algunas computadoras y algunos softwares de edición permiten la
operación sin compresión (o 1:1), pero aún así el refinamiento y costo de la placa de captura introduce
distorsiones en la señal con lo que se obtienen imágenes "sin BRR" pero igualmente degradadas. Este
escenario es compatible con su utilización off-line pero plantea algunas decepciones ante análisis técnicos
incompletos.

Volviendo al proceso, cuando la sesión off-line concluye, es decir que se obtuvo la aprobación de este
armado, el editor produce tres elementos que se utilizarán en las tareas siguientes para la continuación
del proceso:
1- Se genera la EDL o lista de decisión de ediciones en diskette
2- Se imprime una versión de la misma EDL
3-Se vuelca la imagen y el sonido armados a uno o más videocassettes de los formatos que se requiera.

El editor genera fácilmente la lista en diskette con un simple comando de la interfase gráfica ya que el

©1998-2004 Adrián A. Costoya Rev-2004-05 4


Cátedra Costoya El proceso de postproducción

software ha mantenido internamente las referencias de time-code que representan cada acción realizada,
el editor debe tomar en cuenta además el tipo de diskette que debe utilizar (habitualmente 2DD), el
formato de disco (habitualmente MS-DOS) y el formato de lista EDL que permitirá continuar con el
proceso de acuerdo a la tecnología on-line que se planee emplear. Del mismo modo, la impresión de la
lista en papel es un paso simple y le permitirá a usuarios de los procesos posteriores organizar sus tareas
de un modo accesible. Vale la pena destacar que es común que se solicite el diskette con un formato de
lista y la lista impresa con otro formato, las razones son que en el diskette existe la obligación de formato
compatible con el aceptado por el sistema on-line y en la lista impresa es recomendable el formato más
grato para la lectura humana.

Con respecto a los videocassettes producidos en esta etapa, es habitual que se empleen videocassettes
U-matic o Betacam SP y que se etiquete a éstos como “digital cut”. Se debe recordar que esta es una
poco feliz denominación que se le da en el ambiente de edición, porque tanto el formato U-matic como el
Betacam SP son absolutamente analógicos, pero cuando se opera en off-line no-lineal se entiende que el
"corte" o la edición es digital.

Consecuentemente, una copia denominada Digital Cut se envía al editor de sonido, alguna otra se puede
producir para enviar a agencias de publicidad o clientes y por sobre todo se debe mantener una copia
disponible para tener como referencia durante la sesión on-line. Debe reconocerse que, en definitiva, lo
aprobado es la imagen y el sonido que muestra el Digital Cut y no una serie de letras, números y signos
de puntuación que es lo que contiene la EDL por lo que en última instancia se debe asegurar que en el
on-line se llegue a satisfacer un fin que es la obtención del mismo resultado audiovisual más que la de un
medio que es cumplir con la lista.

Transfer dosificado (telecine dosificado)


Basándose en la información obtenida durante la sesión de edición off-line se realiza el transfer
dosificado.

En la sesión de transfer dosificado se transfieren a video (de la máxima calidad que permita el
presupuesto) solamente las tomas elegidas durante el off-line. En esta oportunidad se cargan los rollos
de negativo original de cámara y se realiza un minucioso ajuste de la imagen toma por toma al que se
llama dosificación o corrección de color. Para esta tarea se emplea, además del telecine, un sofisticado
equipo de manejo de color (o corrector de color) y un reductor de ruido y equipos complementarios tales
como switcher, compositor digital y almacenador de cuadros (still store) además del equipo utilitario para
manejo de time-code y KeyKode que ya se empleó en sesiones de transfer anteriores.

Según la modalidad de trabajo de cada proyecto o productora, en el telecine se cargan los rollos
originales del mismo negativo que se utilizó durante el transfer a una luz sin modificaciones o, para
ahorrar costo originado en carga, descarga y bobinado de varios rollos; la productora realiza un corte de
negativo previo y entrega un rollo que ya cuenta con las tomas elegidas completas (sin edición al cuadro
y no necesariamente ordenadas). Para este caso el cortador de negativo necesitó referencia de las tomas
de film elegidas y ésta se obtuvo del KeyKode en ventana que se visualiza de pantalla en el off-line o en
el videocassette que se denomina digital cut gracias a haber puesto el KeyKode en ventana durante el
transfer a una luz.

Cuando no se produce corte de negativo, los coloristas de la sesión de transfer dosificado adoptan
diferentes modalidades para determinar "cuales son las tomas elegidas". La información es, sin duda,
consecuencia de la sesión off-line y las modalidades de referencia van desde el empleo de la EDL
impresa en papel para identificar las tomas por la lectura de time-code, pasando por la lectura de
pantalla de la misma lista en una computadora de la sala de transfer llegando hasta la visualización en la

©1998-2004 Adrián A. Costoya Rev-2004-05 5


Cátedra Costoya El proceso de postproducción

sala de transfer del Digital Cut con lo cual se obtiene la lectura del número de pantalla de video y la
comparación visual de las tomas.

Se debe comprender que los tres métodos arrojarán el mismo resultado pues son tres maneras distintas
de presentar la misma edición. Sin embargo, como se sabe que las EDLs sólo contienen números de time-
code, es el riguroso respeto de la metodología lo que permite encontrar las tomas de forma expeditiva ya
que se adopta una convención que rige tanto para transfer a una luz como para transfer dosificado por la
cual se establece un número de hora "en punto" en la marca de laboratorio (cruz) que antecede a todo
negativo preparado para transfer que se carga en una máquina de telecine. Entonces, bastará con volver
a setear el time-code con el número de rollo de que se trate cada vez que se lo cargue en el telecine; ya
sea para la sesión a una luz, dosificado o en cualquier re-transfer posterior.

En lo que respecta a la tecnología de transfer propia del dosificado, el corrector de color cumple la tarea
fundamental de manejo de señal en tiempo real para producir "looks" determinados, memorizando
además los parámetros de tratamiento de cada toma e identificando los "cambios" por su time-code; pero
a la vez ofrece un control integrado de otros equipos de la sala, entre ellos el telecine y el reductor de
ruido. En la sesión de transfer dosificado el telecine, el corrector de color y el reductor de ruido forman
una trilogía indisoluble y toda sala de transfer en el mundo cuenta con ellos.

En un contexto de tratamiento avanzado de la imagen, la señal debe ser optimizada en cada paso, lo que
justifica que sea habitual en toda sala de transfer el empleo de tres o cuatro instrumentos de medición
dedicados tales como monitores de forma de onda y vectorscopios tanto analógicos como digitales y el
reconocimiento de dos procedimientos de ajuste (o corrección) bien diferenciados que operan en conjuto:
primario y secundario.

Corrección primaria es un ajuste analógico fundamentalmente técnico que sucede dentro del telecine en
tiempo-real y contempla el manejo de la luz incidente sobre la película mediante la rotación de un filtro
variable de densidad neutra, y el manejo de la electrónica de los tres canales (RGB) de procesamiento
analógico de señal (ASP). Este procesamiento incluye ajustes de Black, Gamma y Gain para manejar la
respuesta por valor al determinar tres zonas y el negative matching que ofrece controles R, G y B tanto
para Black como Gain además del procesamiento de FPN (Fixed Pattern Noise) en el caso de los telecines
CCD.

Corrección secundaria es un ajuste digital eminentemente creativo que sucede en tiempo-real en el


corrector de color y permite el tratamiento de la señal con poderosos resultados visuales que operan
tanto sobre todo el cuadro como también mediante diferentes criterios de selección: por valor, por color,
por geometría y por key. En los equipos mejor dotados estas selecciones se pueden multiplicar y
combinar.

Los correctores de color más utilizados en la Argentina y America son los fabricados por daVinci con sus
modelos 2K y Renaissance [Link].

El reductor de ruido es un equipo dotado de sofisticados filtros y procesadores electrónicos de señal que,
respondiendo a complejos algoritmos, permiten disimular el ruido en la imagen sin afectar su resolución
con la menor cantidad de artifacts posible. La granularidad intrínseca de la película cinematografica hace
que su utilización sea mandatoria en cualquier sesión de transfer dosificado y su contribución permite
alcanzar excelentes resultados a partir de originales en formatos reducidos tales como 16mm y
Super16mm como así también en casos de altos índices de exposición en 35mm y forzado de negativos.

Además, las salas de transfer cuentan con un still store para almacenar cuadros relevantes del proyecto

©1998-2004 Adrián A. Costoya Rev-2004-05 6


Cátedra Costoya El proceso de postproducción

en curso y de proyectos pasados. En su uso habitual, a medida que se establece un tratamiento para
cada toma significativa, se almacena un cuadro de imagen (además del almacenamiento de parámetros
que realiza el corrector de color) y se lo llama cada vez que aparece una toma de las mismas
características a lo largo de la sesión, se debe tomar en cuenta que tomas de las mismas características o
diferentes encuadres de la misma escena pueden ser transferidos con diferencia de horas (a veces días) y
que la recuperación de los parámetros del corrector de color permite una gran aproximación, pero sólo
mediante la comparación directa, tanto visual como mediante instrumentos, de la imagen deseada
almacenada contra la que se encuentra siendo tratada se logrará el objetivo fundamental "continuidad de
color".

Se debe reconocer la gran dificultad que representa describir verbalmente un tratamiento o manejo de
color que se pretenda aplicar a una imagen. Por esta razón, otra de las aplicaciones del still store se
orienta a presentar un catálogo de posibilidades o "looks" creado en base a proyectos anteriores. De este
modo el colorista puede mostrar alternativas rápidamente y realizar el trabajo minucioso a partir de una
referencia cercana con lo que se miminizan los procesos de prueba y error basados en instrucciones
verbales.

Una tercera aplicación del still store es la asistencia a la dosificación de tomas de bluescreen o
greenscreen para la posterior realización de chroma keys. Las dificultades que se enfrentan son la
influencia no deseada de grandes áreas azules o verdes sobre la percepción visual que afectan el criterio
del colorista y la necesidad de "ver" la toma que se dosifica sobre el fondo previsto (o uno afin si aún no
se transfirió) para integrar las capas de la composición.

En este caso, el still store se utiliza en conjunto con un recorte "de servicio" que se realiza en el switcher
de video digital de la sala o en un compositor digital. El planteo de señal enruta una imagen apropiada
del still store para su empleo como background (BG) y la señal resultante del sistema de transfer para su
empleo como foreground (FG) y el colorista puede monitorear indistintamente la composición o la
máscara que se obtiene, así no solo maneja el color del personaje u objeto para lograr su mejor
integración con el fondo previsto sino que maneja el color azul o verde discriminados para asegurar
mayor precisión al recorte que se producirá en el on-line. Debe quedar claro que en la sesión de transfer
no se realizan recortes que se utilicen en el proyecto; ni siquiera se graban las máscaras o composiciones
que se monitorean sino que se siempre se graban las tomas de bluescreen o greenscreen dosificadas de
manera que ofrezcan las mejores posibilidades de recorte y coherencia de color.

Otro equipamiento fundamental de las salas de transfer dosificado es el puente de monitoreo integrado
por un monitor de video Grade-A e instrumental de medición analógico y digital. Los monitores Grade-A
son equipos de alta resolución (900TVLs o más), gran estabilidad tanto en períodos cortos como en el
largo plazo y ajuste automático (auto set-up) para re-calibración on-site sin necesidad de enviarlo al
laboratorio de electrónica. La cadena de instrumental se aplica en distintas etapas, se emplea
instrumental analógico para monitorear el origen RGB de la señal (en general los MAIN AMPs del
telecine), instrumental digital para monitorear niveles en el dominio digital antes y después del
procesamiento y nuevamente instrumental analógico para evaluar niveles y formas de onda de las
señales de video compuesto que se obtendrán en muchos casos luego de entregar el producto terminado.
Se debe recordar que el ambiente de postproducción de alto nivel opera en componentes digitales sin
compresión, pero que luego la emisión de televisión (y otros usos) operará en compuesto analógico por lo
que se analiza anticipadamente el impacto del manejo de color en esa instancia.

El producto de la sesión de transfer dosificado es un videocassette de formato digital D1 que


habitualmente se etiqueta como original de transfer (o Xfer). Allí encontramos solamente las tomas
elegidas con la mejor calidad técnica y el manejo creativo de la imagen realizado con el daVinci. Se debe

©1998-2004 Adrián A. Costoya Rev-2004-05 7


Cátedra Costoya El proceso de postproducción

destacar que en el D1 original de transfer no se graba ninguna sobreimpresión en pantalla (ni time-code
ni KeyKode).

On-line:
En la sesión on-line se obtiene el producto terminado y se trabaja con la máxima calidad que el
presupuesto permita. A esta sesión convergen varios elementos para que luego de su manipulación se
obtenga el master. Se debe disponer de una EDL en diskette que detallará las características del montaje
basándose fundamentalmente en los números de time-code, la banda de sonido terminada en DAT que el
músico o editor de sonido produjo con una copia digital cut como referencia, el o los videocassettes D1
originales de transfer (dosificado) y una copia del digital cut.

El proceso on-line varía considerablemente en cada proyecto, pero se puede generalizar diciendo que la
sesión con tecnología no-lineal sigue este orden:

1- Ingreso del audio y video del digital cut para ser utilizado como referencia.
2- Lectura de la EDL del diskette
3- Ejecución del auto-assemble. En este paso el editor on-line (la máquina) toma control de la VTR (u
otro transporte según corresponda) y pide por pantalla uno por uno los videocassettes o cassettes de
audio necesarios para el proyecto e ingresa al equipo los clips de audio y video requeridos según los
números de time-code de la lista. A este paso algunos equipos lo denominan auto-fetch.
4- Conform. Al presionar un botón así identificado el editor realiza el armado automático del proyecto
(conforma) con los clips de audio y video que ingresó, basándose en las instrucciones de la EDL.
5- Si el sonido no figuraba en la EDL (como sucede en general con el material producido en base a
registro cinematográfico), se ingresa el audio terminado entregado en DAT por el músico o editor de
sonido y se sincroniza sólo en el inicio con el armado de video. Luego, deben coincidir los sincros en toda
su extensión.
6- Se compara el armado on-line con el digital cut que se ingresó como referencia. Esta comparación se
realiza revisando toma por toma para verificar que coincidan “al cuadro” las ediciones realizadas.
7- Tomando el digital cut como referencia se realizan los efectos visuales bocetados, pero ahora con todo
detalle y calidad. Como no se dispone de parámetros de los efectos en la EDL, los efectos se replican
comparando visualmente.
8- Se vuelca el armado on-line terminado a videocassette D1 (tanto imagen como sonido) y se lo etiqueta
MASTER.

Luego se realizarán las copias a los formatos requeridos ya que D1 es un formato ideal para
postproducción pero por su alto costo no se utiliza en otras aplicaciones (canales, presentaciones,
agencias, productoras, etc.).

En el gráfico se puede ver también la interacción del equipo y la sesión on-line con el sistema de
composición y efectos y equipo o material producido por animación computada 3D. La utilización de
equipos en paralelo se produce tanto en los casos que las virtudes para producir efectos visuales del
sistema on-line (que es ante todo un editor) no son suficientes, como en los casos que por la dificultad o
cantidad de horas se distribuyen las tareas. El vínculo en dos sentidos entre sistema on-line y sistema de
composición y efectos se debe a que, según las características de cada proyecto, en algunas
oportunidades se conforma la lista primero y luego se pasan las tomas que requieren un manejo más
sofisticado a otro equipo específico y en otras oportunidades se inicia el trabajo varias horas o algunos
días antes en el equipo de composición y cuando llega la hora de la edición on-line éste le entrega la o las
tomas de efectos terminadas.

Este pasaje de tomas se produce en video de componentes digitales sin compresión entre el video out y

©1998-2004 Adrián A. Costoya Rev-2004-05 8


Cátedra Costoya El proceso de postproducción

el video in de cada máquina sin pérdida de calidad las veces que sea necesario.

Por su parte la sala de animación 3D puede realizar aportes a proyectos con mayoría de registro "vivo",
es el caso que denominaremos "contribución". En este caso la relación de los sistemas de animación
implican relaciones bi-direccionales con el sistema on-line y/o el sistema de composición y efectos ya que
puede estar entregando fondos u objetos o personajes a una u otra sala según convenga y en algunas
ocasiones puede estar recibiendo material editado para ajustar renders de imágenes que deban operar
"en registro".

- FIN -

©1998-2004 Adrián A. Costoya Rev-2004-05 9


El proceso de postproducción
EDL print
en papel

Beta SP o
Registro Transfer Sistema Beta SP o
cinematográfico DVCAM DVCAM
a una luz Time-code y KK off-line
en ventana Digital cut

Flex file en EDL file en


FDD / USB FDD / USB

Registro
en video

- 10 -
El proceso de postproducción
Beta SP o
EDL file en
DVCAM
FDD / USB
Digital cut

D-1 / D-1 / Digital


Sistema
Off-line Transfer Digital Betacam Betacam
de edición Master
info dosificado Transfer
original on-line Animación
3D

Beta SP o Músico o Sistema de


Banda de
DVCAM Editor de
sonido composición
Digital cut sonido
y efectos

- 11 -
Cátedra Costoya Fundamentos de fotografía

Fotografía básica

Cómo trabaja la película


En el centro de la comprensión del funcionamiento de la cámara se sitúa la comprensión de “qué” es la
película cinematográfica y “cómo” se comporta. Si bien el film viene en una variedad de dimensiones,
todas las películas cinematográfica tiene ciertas características de diseño en común.

Perforaciones
Todo tipo de película tiene perforaciones, que permiten que la cámara, el proyector, el equipo de edición
y la copiadora arrastren la película. Estas perforaciones deben ser de tamaño uniforme y encontrarse a
intervalos regulares de manera que el movimiento de la película sea parejo.

El diseño de la película
Un corte transversal de una película típica muestra que todos los “stocks” tienen una capa sensible a la
luz llamada la “emulsión” y un soporte posterior llamado la “base”.

Los elementos constitutivos de la emulsión son gelatina orgánica y haluro de plata sensible a la luz. Los
haluros de plata responden a la luz, produciendo la imagen fotográfica.

Rev-2002-04 1
Cátedra Costoya Fundamentos de fotografía

Los haluros de plata responden a la luz produciendo la imagen fotográfica. Su exposición a la luz debe
ser cuidadosamente controlada. La cámara de cine provee su control limitando tanto la duración de la
exposición (tiempo) como la intensidad de la luz que alcanza a los haluros. La habilidad de la cámara
para controlar la exposición es muy importante ya que se requieren 24 cuadros por segundo para
producir, en la proyección la ilusión de movimiento.

El diseño de las cámaras de cine

La cámara tiene un pin que se inserta en la perforación y avanza la película una distancia precisa. Este
luego libera la película (o tibubea dependiando del diseño de la cámara).

La película se detiene y, mientras está quieta, es expuesta a la luz.

La sección de la película expuesta es determinada por la ventanilla, una abertura de proporción fija
detras de la lente. El film es posicionado directamente detrás de la ventanilla, en un canal que la
mantiene quieta.

La intensidad de luz es controlada en parte por una apertura de tamaño variable que forma parte de la
lente llamado diafragma.

La duración de la exposición es controlada por una paleta rotativa llamada obturador (shutter), esta
paleta ocupa aproximadamente 180 grados de un disco completo.

A medida que gira, alternativamente bloquea la apertura de la ventanilla (mientras la película está en
movimiento) y luego sigue dando la vuelta permitiendo que la luz pase (la película resulta expuesta). Este
proceso completo ocurre 24 veces por segundo.

Rev-2002-04 2
Cátedra Costoya Fundamentos de fotografía

La duración normal de exposición es de 1/50vo. de segundo. Cuando se proyecta la serie de fotografías


individuales, el ojo retiene la imagen durante un tiempo. Esta “imperfección” de la visión causa que las
fotografías se mezclen entre sí y se cree la ilusión de movimiento. El juego de niños que emplea una
serie de dibujos en los bordes de una anotador para reflejar un movimiento simple es un ejemplo de este
principio, llamado retención de imagen y es lo que hace posible las películas con imágenes en
movimiento.

Estos don los componentes básicos de la cámara de cine. Un examen de los formatos más populares nos
dará cuenta más detallada de los principios del trabajo en la producción de film.

Formatos cinematográficos

Super 8
Hace unos pocos años Super 8 fue descripto como el formato del futuro. Es un stock de película de sólo
8mm de ancho y, por lo tanto, considerablemente menos costoso que aquellos 4 a 8 veces más grandes
como el 16mm y el 35 mm.

Rev-2002-04 3
Cátedra Costoya Fundamentos de fotografía

Pero tiene muchas limitaciones por lo que su interés se centra en aquellos que están comenzando en
cine, o en nuestro caso como punto de partida de la discusión sobre los desafíos técnicos que deben
superar los fabricantes de película cinematográfica.

Ventajas del Super 8


La mayor ventaja del Super 8 es su tamaño. Así como un formato pequeño significa reducción de costos
también posibilita cámaras más portátiles. Por lo que Super 8 parece ideal para noticias o documentales.

Desventajas del Super 8


Pero el tamaño pequeño también es una desventaja mayor. Ya que ampliar el cuadro de super 8 y llenar
la pantalla promedio de cine significará multiplicarlo 60 a 70 mil veces. Esto significa que cada raspón o
pelusa se ampliará en la misma proporción.

Esta imagen de poca calidad se puede aceptar en ciertas circunstancias. Pero el realizador de Super 8
deberá, además deberá enfrentarse a pobres diseños de cámara y servicio de laboratorio. De los dos el
pobre diseño de cámara será su mayor preocupación.

Muchos fabricantes ven al Super 8 como un formato amateur, y presumen que es más importante
privilegiar la facilidad de uso de la cámara por sobre el control óptimo de la imagen por parte del
operador de la cámara. Por lo tanto, la mayoría de los controles de las cámaras de Super 8 tienden a ser
automáticos, lo que dificulta la manipulación de la imagen que es el centro de la atención de un
realizador profesional.

También es un problema la poca estabilidad provista por los sistemas de transporte de película en la
mayoría de las cámaras de Super 8, la película tiende a oscilar de lado a lado detrás de la lente
proveyendo una imagen inestable.

El pobre servicio de laboratorio es el otro gran problema con el Super 8. La mayoría de las películas se
producen a lo largo de varios días y es de gran valor para los film-makers ver en pantalla la película del
día previo de filmación (rushes). Desafortunadamente a la mayoría de los laboratorios de Super 8 les
toma desde un mínimo de tres días hasta dos semanas para devolver la película. Además, su trabajo
algunas veces no se rige por altos standards y la información sobre que procedimientos y
especificaciones se emplearon el proceso e impresión del film es muchas veces rudimentaria. Como el
procesamiento juega un rol importante en la manipulación de la imagen, estas deficiencias colocan al
productor de películas Super 8 en una posición seriamente desventajosa.

Si además se toma en cuenta la pobre calidad de sonido del formato Super 8 y el hecho de que los
principales fabricantes de película no producen sus mejores emulsiones en este tamaño no es
sorprendente que el videotape con su facilidad de uso y relativo bajo costo haya atraído a muchos

Rev-2002-04 4
Cátedra Costoya Fundamentos de fotografía

productores. No quiere decir que el video no tenga sus propios problemas (y de hecho produce una
imagen más pobre en muchos aspectos que la película Super 8). No quiere decir tampoco que lo que es
cierto para la mayoría de las cámaras y laboratorios de Super 8 sea cierto para todos ellos. Por ejemplo,
la Braun Nizo y la Beaulieu 5008sm son estupendas cámaras de Super 8 y muchas grandes ciudades
tienen uno o dos muy buenos laboratorios que procesan Super 8.

Pero en la mayoría de los casos la imgen de Super 8 totalmente bajo control es algo tan dificil de obtener
que parece un objetivo inutil de perseguir cuando hay formatos más costosos ampliamente superiores
disponibles si la calidad de imagen es un requisito importante. Y si la calidad de imagen no es tan
importante el video ofrece una alternativa de relativo bajo costo.

Los requerimientos de los formatos profesionales

La razón por la que este libro analiza el formato Super 8 es porque su estudio sugiere un set de
requerimientos para los formatos profesionales:
1. Cámaras de alta calidad que ofrezcan al realizador control completo de la imagen.
2. Película y equipamiento de proyección de alta calidad que ofrecerán máxima calidad de reproducción
de imagen requiriendo de un mínimo de ampliación en la proyección.
3. Servicios profesionales de soporte que se comunican fluidamente con el film-maker y son capaces de
trabajar rápidamente (en el caso de los laboratorios, por la noche).
Afortunadamente, todos estos requerimientos son satisfechos por el formato de 16mm.

16 mm
En 1923 Eastman, en conjunto con Bell and Howell, desarrollaron un formato de cinco octavos de
pulgada de ancho (16mm) para el uso amateur. Antes de esto, los aficionados utilizaban stocks de 17.5
mm de ancho. Como este stock (17.5mm) podía ser cortado del standard de 35mm, le resultaba dificil a
los fabricantes controlar el mercado por lo que prefirieron 16mm.

Desarrollo de la cámara Arriflex


Por aquel entonces, el 16mm se consideraba del mismo modo que el 8mm hoy: como un formato que
requería de una gran ampliación en proyección con la consecuente pérdida de calidad. Pero el desarrollo
de la cobertura de noticias para televisión y el género documental trajo aparejada la necesidad del
desarrollo de cámaras livianas. Si bien el 35mm había sido utilizado tradicionalmente en la producción de
noticieros en la época anterior a la guerra, las cámaras de 35mm resultaban voluminosas por lo que
cuando Arnold y Richter desarrollaron una cámara de mano de alta calidad, la Arriflex 16mm, el formato
de 16mm comenzó a ser tomado en serio.

Rev-2002-04 5
Cátedra Costoya Fundamentos de fotografía

Lo destacable de la cámara Arriflex fue que podía operar con baterías a diferencia de las grandes
cámaras de estudio que debían conectarse a la red de energía. También podía aceptar lentes de alta
calidad y utilizaba un dispositivo llamado “pin de registro” que producía imágenes mucho más estables
que las que se habían creido posibles hasta entonces en 16mm.

Otras mejoras en 16mm


Otros fabricantes aportaron algunas otras mejoras, como el agregado de una cabeza de sonido dentro de
la cámara lo que permitía que se grabara sonido directamente en la película, lo que hizo del 16mm el
formato preferido de las noticias y los documentales y de un creciente número de dramas de televisión.

A partir de allí los avances verdaderamente revolucionarios del formato 16mm provinieron de las
dramáticas mejoras en la calidad del stock de película, que permitieron a los film-makers de 16mm
producir imágenes de alta calidad que antes solo hubieran sido posibles en 35mm.

Estas mejoras continúan aún hoy. Varios fabricantes han presentado nuevas películas con mejor
resolución de los detalles, reproducción de color más refinada y mayor sensibilidad a la luz.

Super 16
El sistema llamado Super 16 es un desarrollo relativamente reciente que es una mejora del 16mm que
emplea un área de imagen 40% mayor. Esto le confiere una mejora sensible en la calidad de la imagen
proyectada, ya que no tiene que ser ampliado tanto.

Robert Altman, quien utilizó este sistema en su película 'Come Back to the Five and Dime, Jimmy Dean,
Jimmy Dean', señala que la calidad e imagen del Super 16 es en términos generales la equivalente a la
producida por una cámara de 35mm con el empleo de filtros.

Por discutible que esto pueda parecer, el Super 16 ha sido seleccionado por muchos productores como
un formato relativamente menos costoso para producir largometrajes. Por otra parte, con las recientes
mejoras en la calidad de los stocks probablemente aumente el número de largometrajes rodados en
Super 16.

La producción de la imagen de calidad cinematográfica

La historia del formato de 16mm ayuda a ampliar los conceptos centrales para la producción de una
imagen fílmica de calidad que ya se habían delineado en la discusión sobre 8mm.

1. Cuanto más grande sea la imagen original, mejor será la imagen proyectada. Por lo tanto, el formato

Rev-2002-04 6
Cátedra Costoya Fundamentos de fotografía

16mm es 4 veces mejor que el 8mm así como el formato 35mm es al menos 4 veces mejor que el 16mm
2. Cuanto mejor sea la estabilidad de la película en el transporte de la cámara, mejor será la
reproducción de la imagen.
3. Cuanto mejor sea la calidad de la lente, mejor será la reproducción de la imagen.
4. Cuanto mejor sea la calidad de la película, mejor será la reproducción de la imagen.

Si bien todos estos problemas han sido enfrentados exitosamente en el diseño de las cámaras de cine de
16mm modernas y los stocks de película (resultando en una excelente calidad de imagen de 16mm) la
mayoría de los productores experimentados, cuyo presupuesto se los permite, utilizan el formato de
35mm para la producción de series de televisión.

35 mm
Treinta y cinco milímetros es el formato tradicional para relizar largometrajes, y la mayoría se produce de
esta manera en la actualidad.

Ha habido mucha investigación y desarrollo puestos en las cámaras de 35mm modernas y esto se refleja
en el costo de alquiler o compra del equipamiento de este formato. De hecho, la vasta industria del
soporte que ha crecido alrededor de la pruducción de películas en 35mm presupone que las películas
serán producidas por compañías, no personas individuales, y los costos del equipamiento lo confirman.
Para ser justos, este equipamiento, altamente especializado y complejo es caro de desarrollar y
mantener. Pero la lamentable consecuencia de esta necesaria estructura de precios es que la amplia
mayoría de los realizadores y los realizadores en ciernes quedan apartados del formato de producción
que llegará a las mayores audiencias.

Proceso Anamórfico
Junto con el formato de 35mm han evolucionado una serie de procesos fotográficos especializados. El
más intersante de ellos es el llamado sistema anamórfico, que hace uso de una lente especial
desarrollada por primera vez en los años treinta por un estadounidense llamado Sidney Newcome, que
recibió poca atención por entonces y luego por el físico francés Henri Chrétien. El sistema de Chrétien se
diseñó para los sistemas de periscopio de los tanques militares. Mediante la distorsión óptica comprimió
una imagen ancha en un plano visual angosto, y luego invirtió la distorsión al final del sistema para que
se pudiera ver nuevamente la imagen ancha original.

Rev-2002-04 7
Cátedra Costoya Fundamentos de fotografía

El sistema llamado Cinemascope fue uno de los primeros en utilizar este principio para el cine y su primer
antecedente es el film “The Robe”.

Cinemascope

El Cinemascope comprime una imagen ancha en el plano del film de 35mm mediante una lente
anamórfica especial y luego recrea las proporciones de la imagen original proyectándola a través de otra
lente anamórfica. La imagen estirada que se fotografía verdaderamente se puede ver a menudo sin
corrección en las secuencias de títulos o créditos de algunos films por televisión. Otros sistemas que
emplean este principio incluyen el Panavision, que es una de las cámaras más
populares disponbles en la actualidad para la producción de largometrajes.

Vista Vision

Otro sistema que emplea película de 35mm es Vista Vision, que utiliza una cámara en la que el transporte
de película es de lado a lado, de manera que brinda más espacio horizontal para una mejor fotografía
widescreen.

El Vista Vision se inició en los años cincuenta y recientemente se volvió nuevamente popular. Produce un
negativo original de gran tamaño, lo que resulta en gran calidad de imagen.

Widescreen es el standard actual para la producción de largometrajes. Lo que lo vuelve especial es el


incremento de ancho en relación a la altura de la pantalla. Esta relación de ancho por alto se denomina
“relación de aspecto”.

Relación de aspecto (Aspect ratio)


La relación de aspecto, o la relación del ancho y el alto del cuadro, fue establecida de algún modo
arbitrariamente por Thomas Edison cuando escogió la utilización de un cuadro que era tres partes de alto
por cada cuatro partes de ancho. Esta relación de aspecto en particular se conoce como “Academy” o
“Standard” y se la designa habitualmente como 1.33 a 1.

Rev-2002-04 8
Cátedra Costoya Fundamentos de fotografía

Reposicionamiento para televisión

La mayoría de las cámaras de 16mm utilizan esta relación del mismo modo que un número de cámaras
de 35mm, pero en especial 1.33:1 es la relación de aspecto de la televisión.
El hecho de que la televisión utilice la relación 1.33:1 puede presentar problemas para la emisión de
largometrajes filmados en pantalla ancha (widescreen). El formato Super Panavision, por ejemplo, tiene
una relación de ancho por alto de 2.4 a 1, si bien puede ser copiado en 1.85 a 1.

Esto significa que el radiodifusor tiene que eliminar parte de la imagen original para lograr poner el film
en la pantalla de televisión, o dejar dos amplias bandas negras en la parte superior e inferior del cuadro.
Otros radiodifusores refotografían la copia original con algunos resultados curiosos. Si, por ejemplo, dos
personas están en la toma original widescreen en los bordes del cuadro, ambos podrían quedar excluídos
de la imagen de TV. Lo que se hace en algunos casos es reencuadrar la imagen para crear dos primeros
planos sucesivos. Otra técnica consiste en encuadrar alternativamente los personajes paneando de un

Rev-2002-04 9
Cátedra Costoya Fundamentos de fotografía

lado al otro tratando de capturar la mayor parte de la acción. Ya sea que se emplee uno u otro sistema el
radiodifusor estará introduciendo cambios en la forma y consecuentemente en el significado del film,
alterando su estructura visual y a menudo minando la intención del realizador.

Pantalla ancha (Widescreen)

Hay una gran variedad de formatos de pantalla ancha. Los formatos más comunes son los conocidos
como European widescreen (relación de aspecto 1.66:1), y American widescreen (1.85:1). Hay, sin
embargo, una variedad de arribar a una relación de aspecto dado y la relación de pantalla ancha no
necesariamente significa una mejora en la imagen. Algunos largometrajes, por ejemplo, se filman en
Academy pero las partes superior e inferior del cuadro se enmascaran a negro en filmación o en
proyección para crear las relaciones de aspecto de 1.66:1 o 1.85:1.

Aún algunos films de 16mm que se ampliarán luego (blow up) a 35mm para distribución se enmascaran
durante la fotografía para crear una relación de aspecto de pantalla ancha. Desafortunadamente, esto
significa que se emplea un área menor para la información de imagen lo que resultará en una calidad de
imagen más pobre que la producida con sistemas como el Super 16.

Super 16

Probablemente la mejor solución para 16mm que se vaya a ampliar a 35mm consiste en filmar
originalmente en el formato Super 16. El hecho de que el Super 16 tiene la misma relación de aspecto
que el la copia de distribución de 35mm significa que nada de la imagen se perderá en la ampliación. Se
debe notar, sin embargo, que si se selecciona Super 16 como formato de producción obligatoriamente
deberá ser ampliado a 35mm para distribución ya que se deberá colocar el sonido en una franja que
corre a lo largo del film a un costado de la imagen. Esta (junto con una de las perforaciones) es el área
utilizada para extender el cuadro convencional de 16mm a Super 16, por lo que mientras en 35mm existe
el espacio para el sonido, en el original Super 16 se ha eliminado.

Rev-2002-04 10
Cátedra Costoya Fundamentos de fotografía

Imax

Otro interesante sistema que prácticamente no tiene aplicación en la realización de películas


convencionales pero es visualmente espectacular es Imax. Del mismo modo que el Vista Vision, pasa la
película horizontalmente a través de la cámara de manera que el tamaño potencial del cuadro no está
limitado por el ancho del film. Emplea película de 70mm (a diferencia de Vista Visión que emplea película
de 35mm) y el resultado es un cuadro de 69.6mm por 48.5mm. Las imágenes que produce en la pantalla
son impresionantes varios cines especiales se han acondicionado para la presentación de este tipo de
películas.
Pero el costo del negativo, y el peso de la cámara, como así también el costo del equipo de proyección
significa que Imax será siempre un sistema destacable pero poco utilizado.

Proyección de pantalla ancha (widescreen)


Mucho de lo que, eventaualmente, se verá en el cine depende del proyeccionista. Si bien las películas se
filman en un variado número de relaciones de aspecto standard, el proyeccionista en general tiene sólo
un limitado número de lentes y ventanillas disponibles; algunas veces, cuando no cuenta con la lente
correcta y la ventanilla correspondiente el proyectorista hace lo mejor que puede con lo que tiene a la
mano y algunas veces se cortan partes de las imágenes.

Negativo (film stock)

El negativo esta hecho de varias capas. La capa superior es fotosensible. Responde a la luz produciendo
variaciones de densidad. La densidad está determinada por la intensidad de la luz y el tiempo durante el
cual el film se expone a esa luz creando lo que reconocemos como la imagen fotográfica. Esta capa está
pegada a una capa de soporte flexible que se llama la base.

La base
La flexibilidad de la base hace que el proceso de la cinematografía sea posible. Está hecha de acetato de
celulosa o triacetato de celulosa. Ambos son fuertes, translúcidos e incoloros y no responden a los
químicos que se utilizan en el proceso de revelado fotográ[Link] un considerable avance con
respecto al nitrato de celulosa que se utilizaba antes de 1951.

Nitrato de celulosa
El nitrato es inestable y extremadamente inflamable, al punto de que algunas veces se encendía dentro
del proyector. Aún hoy sigue siendo difícil de almacenar; se sabe que las películas viejas en las bóvedas
producen combustión espontánea o, menos espectacular, pero igual de triste para la historia del cine,
simplemente se desintegran dentro de las latas de almacenamiento. Muchos archivos acutlamente están

Rev-2002-04 11
Cátedra Costoya Fundamentos de fotografía

transfiriendo tantas películas de nitrato a triacetato de celulosa como pueden costear antes que una gran
parte de nuestra herencia cinematográfica se pierda.

Bases de poliéster
Actualmente se encuentran disponibles otras bases además del triacetato de celulosa. El poliéster es un
material ampliamente apreciado ya que es más resistente que el triacetato de celulosa, se puede utilizar
menos espesor y consecuentemente permite que más metros de película se puedan empacar en un sólo
rollo. La desventaja es que el poliéster requiere solventes especiales para su empalme.

La emulsión

La capa superior de la película cinematográfica (la capa fotosensible) es llamada emulsión. Está hecha de
dos materiales: gelatina y haluros de plata. Los haluros responden a la luz, pero tienen la desafortunada
tendencia de coagularse por lo que si se utilizaran solos no producirían una imagen reconocible. La
gelatina orgánica actúa como un medio de suspensión, desparramando en forma pareja los haluros sobre
la superficie de la película.

Cuando los cristales de haluro de plata son alcanzados por la luz, se rompen en dos partes: un depósito
de plata metálica, que puede ser de varias densidades dependiendo del tiempo y la intensidad de la
exposición a la luz, y halogeno. Cuando de procesa la película los haluros de plata “no expuestos” se
remueven en un proceso llamado fijado, dejando un patrón creado por el remanente de granos de plata
metálica.

Rev-2002-04 12
Cátedra Costoya Fundamentos de fotografía

Como las partículas de plata metálica serán de diferentes densidades, se creará una imagen reconocible
por sus variaciones tonales.

Los haluros y las diferentes características de la película


Los haluros se pueden seleccionar para alcanzar diferentes especificaciones. Puden, por ejemplo, ser muy
sensibles a la luz. Esto significa que necesitarán sólo una cantidad de exposición limitada para metalizarse
y producir una imagen. Alternativamente, los cristales pueden ser muy pequeños y estar distribuidos muy
próximos. Esto resultará en una imagen de detalles muy finos.

Amplio rango tonal del negativo (amplia latitud)


Algunos haluros pueden producir un amplio rango tonal, con negros densos y blancos claros. Esto ofrece
al realizador gran flexibilidad en el control de la imagen, y una gran precisión en el rendimiento de la
imagen. Este tipo de film es ideal para la cinematografía, pero puede ser un problema para la televisión,
que tiene una tolerancia mucho más limitada a los tonos muy claros y muy oscuros. Afortunadamente,
hay otros stocks de negativo y positivo de copia (la película a la cual se copia el negativo) que producen
imágenes con rangos tonales limitados. Estos stocks son más recomendables para su uso en televisión.
La fabricación de la película y sus características

Rev-2002-04 13
Cátedra Costoya Fundamentos de fotografía

Cómo responderán los haluros de plata a la luz depende en gran medida de que material se utilice en su
fabricación. En general los haluros son de bromuro de plata, cloruro de plata o ioduro de plata o una
combinación de estas partículas. El bromuro de plata es, más sensible a la luz que el cloruro de plata, en
especial a la luz azul, de manera que se volvió el material preferido. Se lo utiliza muy amenudo mezclado
con una pequeña cantidad de ioduro de plata (alrededor del 5%). El ioduro de plata es muy sensible a la
luz y consecuentemente incrementa la sensibilidad general del stock.

Velocidad o sensibilidad de la película (Film speed)


La sensibilidad a la luz de una emulsión de película se conoce como film speed. Para indicarla se utiliza
una escala standard o normalizada. La escala más comunmente usada en los Estados Unidos y en el
Reino Unido es la escala ASA (American Standard Association). Sin embargo, en muchas otras partes del
mundo se utiliza la escala DIN (Deutsche Industrie Normal).

ASA y DIN

Está generalmente aceptado que los números especificados en la escala ASA representarán sensibilidades
específicas en todas las circunstancias. En otras palabras, el número ASA representa una unidad de
medida acordada tal como los gramos lo hacen en la determinación del peso. DIN utiliza una progresión
logarítmica donde 3 grados DIN representan el doble de sensibilidad. La escala ASA es lineal, lo que la
vuelve más fácil de utilizar. El realizador sabrá, por ejemplo, que una película con sensibilidad ASA 100
tendrá la mitad de la sensibilidad que una película con sensibilidad ASA 200.

Como el control de la exposición se logra manteniendo un equilibrio entre la sensibilidad de la película, el


nivel de luz y la apertura del diafragma, se puede saber con seguridad que un negativo de ASA 200
requeriría la mitad de la luz para producir una correcta exposición (o, alternativamente, la mitad de
apertura del diafragma) que un negativo de ASA 100.

Sobre y sub-exposición intencional

El realizador puede decidir algunas veces utilizar un número ASA superior o inferior al indicado por el
fabricante para sus cálculos de exposición con el objeto de producir varios efectos visuales, esto también
puede suceder por indicación del laboratorio, que en algunos casos sugiere sub-exposición o sobre-
exposición para alcanzar mejores resultados. Siempre es buena idea consultar al laboratorio y hacer
algunas pruebas antes de comenzar la filmación de una película.

Rev-2002-04 14
Cátedra Costoya Fundamentos de fotografía

Relación entre la sensibilidad y la calidad


Los negativos con diferentes sensibilidades traen aparejadas ciertas desventajas, las películas con un ASA
bajo están hechas de pequeños haluros muy próximos, lo que produce un grano fino y una imagen bien
definida. Cualquier película con un número de ASAs debajo de 75 se considera lenta. Esto puede ser un
problema en un documental, donde los niveles de luz natural son a menudo muy bajos.
Sin embargo, en las producciones donde la iluminación está bajo control la falta relativa de sensibilidad
de un stock de película no es un gran problema considerando que un grano fino y una imagen más
definida son una gran ventaja.

Películas de sensibilidad media y alta


El negativo de 75 a 125 ASAs se considera de senbilidad media. Muchos stocks utilizados en las más
grandes producciones caen dentro de este rango, ya que ofrecen una combinación de aumento en la
sensibilidad con una estuctura de grano razonable.

Por encima de 150 ASA la película se considera de alta sensibilida (o rápida) y esto significa mayores
haluros con una imagen consecuentemente más burda. Sin embargo, existen en la actualidad varios
stocks que, más allá de su alta sensibilidad (350-400) mantienen una estructura de grano fino. La
película Kodak utiliza en la actualidad lo que ellos llaman el Grano T (T-Grain), que, a diferencia del grano
convencional (haluros) que es plano. Esto significa que una emulsión más fina, que aporta menor
refracción interna y haluros distribuidos más próximos entre sí, y por consecuencia una imagen más
claramente definida y menos “granulosa” con la ventaja adicional de la alta sensibilidad.

Indice de exposición (EI - Exposure index)

El realizador en algunas ocasiones se encontrará con el término indice de exposición. El índice de


exposición se puede utilizar de manera alternativa con ASA. De hecho, los fabricantes no han aceptado
oficialmente la terminología ASA, de manera que IE (EI) es el término técnicamente correcto.

Referencias al f-stop

Los realizadores profesionales habitualmente utilizan el termino stop (punto) como una unidad de medida
en sus discusiones acerca de la sensibilidad de la película o la apertura del diagfragma. Por ejemplo,
cuando la intensidad de luz de la escena se duplica, el realizador probablemente diga que subió un
punto. Esta es una utilización incorrecta, ya que las unidades de medida de luz son foot-candles y
lumens. Sin embargo, el sistema de stops es conveniente en la medida que ayuda al realizador a
mantener el equilibrio entre los cambios de la iluminación y los cambios en la apertura del diafragma.

Exposición

La fórmula de exposición

Los haluros de plata de la emulsión de la película responden a la luz. La luz que alcanza la emulsión debe
ser cuidadósamente controlada en la duración de la exposición y en su intensidad.
Expresado como fórmula sería:

tiempo x intensidad = exposición

El tiempo de exposición de una cámara de cine está controlado por un obturador rotativo. Como las
cámaras de cine generalmente corren a una velocidad fija, el tiempo de exposición en general es fijo
(1/50 de segundo). La cámara de cine corriendo a velocidad normal para toma con sonido opera a 24

Rev-2002-04 15
Cátedra Costoya Fundamentos de fotografía

(fotografías individuales) frames por segundo, para la televisión europea se emplean 25 frames por
segundo y en algunos casos se filma a 30 frames por segundo para la televisión de los Estados Unidos.
La película avanza, se reposiciona y se detiene en la ventanilla mientras el obturador está cerrado. El
obturador entonces continúa su giro y deja pasar la luz, en ese momento comienza a exponerse un
nuevo cuadro de película.

Intensidad
La intensidad de la luz depende de un número de factores. La intensidad luminosa es la intensidad de la
fuente de luz original. Pero la intensidad de la luz que alcanza la cámara también depende de la cantidad
de luz reflejada por el sujeto. Por lo tanto, la intensidad luminosa multiplicada por la reflectancia del
sujeto determinará la iluminación que es la cantidad de luz que alcanza el elemento frontal de la lente.

Diafragma o Apertura

La intensidad de luz que alcanza la película está controlada por unq apertura de tamaño variable que
utiliza hojuelas superpuestas y está construída dentro de la lente. El tamaño de esta apertura es
comúnmente llamado F-stop.

Rev-2002-04 16
Cátedra Costoya Fundamentos de fotografía

F-stop

El F-stop se determina mediante la fórmula:

Distancia focal de la lente  Diámetro de la apertura de la lente = F-stop

Por lo tanto una lente de 100mm con un diámetro de la apertura de 50mm será f2 (10050)

Los f-stops standard son:

Cada stop representa duplicar o reducir a la mitad la cantidad de luz admitida por el diafragma,
dependiendo de si el diafragma se abre o se cierra. Por lo tanto se puede decir que f5.6 deja pasar la
mitad de la luz que f4, un cuarto de la luz admitida por f2.8, un octavo de la cantidad de luz admitida por
f2 y un dieciseisavo de la cantidad de luz del f1.4.

Se debe recordar que los fabricantes de película cinematográfica recomiendan niveles específuicos de luz
para la exposición correcta de cada stock para cada diafragma en particular.

Por ejemplo, un stock con un ASA de 100, expuesto a la obturación standard de 1/50vo de segundo y
con una intensidad de luz de 100 foot-candles iluminando un objeto de reflectancia promedio, tiene un
diafragma recomendado de f2.8. Si, por el contrario, la intensidad de luz se incrementa a 200 foot-
candles y el realizador desea mantener consistencia en la exposición, entonces sólo la mitad de la luz
debe pasar a través del diafragma. Esto se logra cerrando el diafragma un punto (un stop) con lo que se
logrará que la misma cantidad de luz que en la primera exposición (100 fc) alcance el negativo en la
segunda exposición (200 fc).

Vale la pena recordar la primera línea de esta tabla para poder determinar diafragma, índice de
exposición o intensidad de la luz en cualquier circunstancia.

Rev-2002-04 17
Cátedra Costoya Fundamentos de fotografía

Gris neutro y control de la exposición

Sabemos que la exposición correcta está determinada por la selección del tamaño correcto de la apertura
del diafragma para un nivel de luz en particular y que el nivel de luz de determina multiplicando
la luminancia de la fuente de luz por la reflectancia del sujeto. Cuando se mide el nivel de luz
que sale del sujeto es imposible determinar las proporciones de cuanto se debe a alta
reflectancia y cuanto a intensidad luminosa. Para simplificar las mediciones de luz, la
reflectancia es considerada normalmente constante. El gris del 18 por ciento es el tono
promedio que se emplea como constante de reflectancia. Los fotómetros (dispositivos utilizados
para medir luz) están calibrados con este principio en mente. Ciertos medidores, llamados
medidores de luz incidente, miden solamente la luminancia originada por la fuente de luz y, por
lo tanto, dan una “correcta” lectura de apertura para el gris neutro. Correcta significa que la
apertura producirá una fotografía en la que el gris tendrá el mismo valor tonal que en la
naturaleza.

El hecho de que puede no haber ningún gris neutro en la escena es irrelevante, ya que la relación de
tonos iluminados entre sí es constante. En otras palabras, si el blanco es el doble de brillante que el gris,
debería mantener la relación así en la naturaleza como en el film. Por lo tanto, si el gris se expone
correctamente, el blanco se mantendrá dos veces más brillante y se reproducirá correctamente.

Tono clave

Esta concentración en obtener un solo tono correcto se llama “seguir el tono clave”. Algunos directores
de fotografía aplicarán el “seguir el gris”, mientras que otros utilizarán su mano como medida en
conjunto con el medidor para “seguir” los tonos de la piel. Cualquiera sea el método empleado debe
haber una reflectancia constante.

Rev-2002-04 18
Cátedra Costoya Fundamentos de fotografía

Curva característica - Clave para su comprensión

Los fabricantes de película cinematográfica producen un gráfico que muestra las caracteristicas de cada
una de sus emulsiones. Esta curva se llama apropiadamente curva característica. Se determina
exponiendo una tira de película a niveles de luz crecientes. Las densidades resultantes de estos niveles
de luz se miden y grafican. En el negativo revelado, cuando la intensidad de la luz aumenta también
aumenta la densidad.

Con película reversible sucede lo contrario. La curva graficada tiene dos límetes significativos. El primero
es donde los niveles de luz son tan bajos que el film no produce más cambios de densidad sin importar
los niveles de exposición. El segundo límite es cuando los niveles de luz son tan altos que los haluros sólo
pueden producir una densidad constante sin importar las variaciones en la intensidad de la luz. Estos
están nombrados como el talón y el hombro (toe and shoulder) de la curva respectivamente.

La parte lineal (recta) de la curva característica

La porción de la curva entre el talón y el hombro se conoce como la zona lineal. Idealmente, debería ser
una recta en un ángulo de 45 grados, lo que indica una correlación directa entre los cambios de
intensidad de luz y los cambios en la densidad resultante. Una curva de menos de 45 grados reducirá las
diferencias tonales de la imagen original en un rango menor de densidades.

Rev-2002-04 19
Cátedra Costoya Fundamentos de fotografía

Película de bajo contraste

Las películas con curvas características considerablemente menores que 45 grados son considerados
negativos de bajo contraste. Producen una imagen con diferencias menos pronunciadas entre los tonos
claros y oscuros (los negros se “arratonan” y los blancos se “grisan” produciendo una imagen de bajo
contraste).

Película de alto contraste


Si la curva graficada de un negativo es más pronunciada que 45 grados, entonces sutiles
variaciones tonales o de exposición de la imagen original resultan acentuadas, produciendo una
imagen con blancos y negros más pronunciados y una pérdida en los medios tonos. Esta se llama
imagen de alto contraste y estará producida por una película de alto contraste.

Rev-2002-04 20
Cátedra Costoya Fundamentos de fotografía

Este tipo de negativo es ideal para ciertos tipos de fotografía como por ejemplo títulos. La película de alto
contraste muy raramente se utiliza en realizaciones convencionales.
Para el realizador deseoso de comparar stocks puede superponer las curvas características y comparar el
contraste.

De la curva característica se puede derivar otras informaciones, por ejemplo, la distancia entre el talón y
el hombro indica la latitud de exposición.

Latitud de exposición

La latitud de exposición es la cantidad de sub-exposición y sobre-exposición que puede tolerar un


determinado stock. En circunstancias normales, cuando una película es correctamente expuesta, los
tonos que se aproximan al gris neutro estarán en el medio de la curva. Las superficies más claras u
oscuras, o las áreas con mayor o menor iluminación (se debe recordar que la iluminación es el resultado
de la iluminación por la reflectancia), se dispersarán a lo largo de la curva produciendo varias densidades.
El director de fotografía en general hace todo lo posible para que los sujetos clave de la acción caigan en
la zona lineal de la curva. Pero cuando el sujeto tiene alto contraste con altas variaciones en la
iluminación, hay partes de la imagen que irán más allá del talón y hombro de la curva y no lograrán
producir una imagen discernible. El negativo con amplia latitud (una gran distancia horizontal entre talón
y hombro) poducirá detalle en las sombras y en las porciones brillantes de la escena simultáneamente. El
negativo con poca latitud (una corta distancia horizontal entre talón y hombro) perderá detalle tanto en
las sombras como en las áreas iluminadas más brillantes. El realizador puede, por supuesto, compensar y
reducir el contraste de la escena iluminando las sombras y reduciendo la intensidad de la luz en las
partes brillantes del cuadro.

La curva característica y la sensibilidad de la película

La conclusión final que se obtendrá de la curva característica es la sensibilidad de la película (su


velocidad). Cuanto más a la izquierda llegue mayor será la sensibilidad. Las películas de alta sensibilidad
pueden producir más altas densidades para bajos niveles de exposición.

Rev-2002-04 21
Cátedra Costoya Fundamentos de fotografía

La relación entre los cambios en la relación de exposición y las medidas logarítmicas en la


curva

La curva característica se mide en progresión logarítmica, 0.3 representa aproximadamente un stop, 0.6
dos stops, 0.9 tres stops y 1.2 cuatro stops. Si la exposición se reduce en un stop la curva se mueve 0.3
a la izquierda del gráfico. Con película negativo esto significa que los tonos que estaban enterrados en
primera instancia no lo estarán luego del cambio de exposición, y los tonos que estaban sobre-expuestos
caerán en la porción lineal de la curva.

Repaso de la curva característica


Es importante comprender que la curva característica es la pieza clave de la comprensión de la manera
en que la película responde a la luz. Grafica la relación de la iluminación con la densidad, con el gris
neutro aproximadamante a la mitad de la curva y con otros tonos distribuidos a lo largo de la porción
lineal. Los sujetos sub-expuestos y sobre-expuestos estarán más allá del talón y el hombro de la curva y
consecuentemente no se producirán imágenes reconocibles en esas áreas.

La fabricación de stocks de película


El método por el cual se producen los haluros también afecta a sus características. Un haluro de plata se
puede formar simplemente combinando plata metálica con un halógeno (Ag + Cl = AgCl), pero esto no
necesariamente producirá el haluro preciso que se requiere para el negativo cinematográfico.
Por lo tanto, el fabricante disuelve la plata metálica en ácido y luego lo mezcla en una solución de agua,
potasio y gelatina. Allí tiene lugar una doble descomposición:
AgNo3 + KBr = AgBr + KNo3

nitrato de sodio + bromuro de potasio = bromuro de plata + nitrato de potasio.

El bromuro de plata es insoluble. Este proceso causa la precipitación que lo debería dejar en grandes
grumos después de la coagulación. Pero la geletina evita que esto ocurra y se produce un liquido
suspendido en un líquido conocido químicamente como una suspensión y conocido en fotografía como
una emulsión.

La próxima etapa en la manufactura es conocida como “ripening” y se realiza mediante un tratamiento de


calor. Esto hace que los granos más finos se vuelvan solubles, y deja un remanente de grandes granos.
El tamaño de los granos son de vital importancia ya que se sabe que los granos más grandes tienden a
ser más sensibles a la luz y los granos más pequeños menos sensibles y que los granos grandes
producen imágenes más groseras y los granos finos imágenes más finas. De manera que los stocks de
película que son muy sensibles a la luz tienden a ser “granulosos”.

El fabricante tiene variadas maneras de controlar el tamaños del grano, incluyendo la temperatura al cual
manufactura la película, la cantidad de gelatina utilizada y el balance químico de la solución original.
Idealmente la película tendrá una gran variedad de tamaños de granos, y esto producirá detalles
fotográficos anto en las zonas oscuras (granos grandes y sensibles) como en las partes brillantes (granos
pequeños). Estos son los stocks de amplia latitud. Una emulsión en la que todos los granos son del
mismo tamaño produce una imagen con un look muy duro de “alto contraste”, ya que todos los granos
responderán simultáneamente a un nivel de luz específico, o no responderán si el nivel no es
suficientemente grande. Producirá negros, producirá blancos, pero habrá muy pocos grises entre ellos.

Después de la emulsificación y el ripening, la película sufre otros tratamientos (chilling, shredding,


washing, otro tratamiento de calor despues del hardening, estabilización y el agregado de agentes
humectantes) para crear un stock con las características de sensibilidad, grano y contraste.

Rev-2002-04 22
Cátedra Costoya Fundamentos de fotografía

Como los fabricantes de películas pueden producir películas cinematográficas de una variedad de
especificaciones, el realizador puede elegir el que mejor se adapte a su aplicación. No es práctica común
mezclar diferentes stocks de película en la misma producción, pero los fabricantes de películas han
desarrollado recientemente dos stocks de negativo, uno de alta velocidad y otro de velocidad media que
son suficientemente similares en grano, contraste y rendimiento de color que permite juntarlos. Una
película de alta velocidad se puede usar en las condiciones de baja luz y un negativo de velocidad media,
con un grano más fino para el resto de la producción

Traducido y adaptado de “The technique of film production” by Steven Bernstein. Focal Press.

Rev-2002-04 23
Cátedra: Costoya Introducción a la tecnología no lineal

Introducción a la tecnología no-lineal

Métodos de acceso a la información

Lineal (habitualmente asociado a la cinta magnética)


Para acceder tanto para lectura como para escritura a una porción de la información dada se debe pasar por
todos los datos que nos separan de ella o su lugar de escritura prevista.

No lineal (habitualmente asociado a los discos rígidos)


Para acceder tanto para lectura como para escritura a una porción de la información dada el medio de
soporte se dirige a ella de un modo más directo con muchos menos pasos intermedios.

Entonces, la caracterización de una tecnología como “lineal” o “no lineal” tiene que ver exclusivamente con
el método de acceso a la información y el factor principal que determina la característica lineal o no lineal de
una tecnología dada es la geometría del medio y la disposición de la información en él.

En el caso lineal se cuenta con una tira angosta y delgada de gran longitud, la cinta magnética, que se
desplaza y la información se dispone a lo largo de estos metros de cinta de manera contínua, ya sea con
tracks longitudinales como helicoidales o una combinación de ellos. En el caso no lineal el medio de
almacenamiento es circular (distintos tipos y número de discos) y esto permite que la/las cabezas de lectura
o escritura se dirijan de un sector a otro del medio desplazándose por el radio del círculo reduciendo
considerablemente el tiempo de acceso.

El tiempo real y la cantidad de información

Un caso de aplicación de la tecnología no lineal es el off-line por lo que se tratará seguidamente una parte de
la problemática del manejo de contenidos de imagen y sonido o “media” en el entorno de computadoras.

Una manera práctica de encarar esta problemática consiste en analizar la necesidad de operaciones de
tiempo real y su relación con la cantidad de información y su manejo.

Tiempo real: En el entorno de edición off-line no lineal se dice que se satisface la necesidad de tiempo real
cuando se obtiene acceso y transferencia de la información a la velocidad que requieren los procesos de
entrada y salida en forma sostenida.

Es importante que se analice esta situación considerando que todas las operaciones que a nivel del usuario
pueden adoptar variadas descripciones y cubrir diferentes necesidades son, desde el punto de vista de la
tecnología, casos de acceso y transferencia de la información.

Entonces, precisaremos algunas situaciones de entrada y salida en tiempo real a las que se refiere la
definición de tiempo real que son fundamentales en una sesión off-line no lineal.

Se produce un proceso de entrada en tiempo real durante el ingreso de material al equipo off-line, es decir
que una VTR estará en PLAY y la aplicación de edición sobre la computadora de que se trate estará en modo
de captura o grabación. Es evidente que el PLAYBACK de la VTR sucede en tiempo real y que se necesita que
la computadora y sus periféricos respondan adecuadamente.

©2002-2014 Adrián A. Costoya Rev.2014-04 1


Cátedra: Costoya Introducción a la tecnología no lineal

Un ejemplo consecuente de salida en tiempo real es la realización del PLAYOUT (digital cut). La computadora
y sus periféricos entregan audio y video para que una VTR en modo RECORD los grabe y esto sólo puede
suceder correctamente en tiempo real.

Estos dos ejemplos son mandatorios, sin ellos satisfechos no se podría operar, pero hay otro proceso de
salida de tiempo real que es vital para la calidad y velocidad de la edición y es la visualización y monitoreo.
No se puede compaginar una secuencia si no se la puede revisar (imagen y sonido) en tiempo real. La
dimensión del tiempo no se puede alterar en compaginación ya que esta facultad es una herramienta
creativa del editor (o montajista o compaginador). Entonces, aunque una operación sobre el producto (por
ejemplo el agregado de un fundido) lleve un tiempo de cálculo o render, una vez concluido la secuencia debe
poder ser visualizada en tiempo real.

Por otra parte, se indica en la definición que se debe lograr este acceso y transferencia en forma sostenida.
Se refiere a un equipo de edición off-line bien diseñado y configurado debe asegurar que se disponga de
tiempo real durante toda la duración del material. Es decir, que si hay espacio en los discos rígidos para
almacenar una hora de material y se dispone de un videocassette de 60 minutos completo para ingresar, se
debería poder hacer el ingreso en una sola operación y durante una hora el proceso no deberá presentar
fallas ni interrupciones. Lo mismo se debe lograr en “salida”, tanto durante la visualización y monitoreo como
durante la grabación del PLAYOUT (digital cut).

Data rate: Se han considerado los alcances operativos de la relación entre tiempo real y manejo de la
información, pero para analizar y comparar las tecnologías se requiere de parámetros que permitan la
medida del flujo de información. El parámetro por excelencia para medir el flujo de información es la data
rate (o tasa de datos) que expresa la cantidad de información por unidad de tiempo y por ello es habitual que
se mida en:

Kbps: Kilobits por segundo


Mbps: Megabits por segundo
KB/s: KiloBytes por segundo
MB/s: MegaBytes por segundo

Se debe prestar especial atención a la nomenclatura ya que b minúscula corresponde a bits y B mayúscula
corresponde a Bytes siendo cantidades de información muy distintas.

Data rates habituales para satisfacer el requisito de tiempo real:

VIDEO COMPRESION DATA RATE APLICACION

ITU-601-5 (D-1) No 20.95 MB/s On-line SDTV

Desktop PRO M-JPEG (5:1) ~3.9 MB/s Off-Line SDTV

Desktop Home AVI, QUICKTIME < 1 MB/s Consumer

AUDIO COMPRESION DATA RATE

CD: 44.1KHz No ~90KB/s (0.09MB/s)

AES/EBU: 48KHz No ~120 KB/s (0.12MB/s)


©2002-2014 Adrián A. Costoya Rev.2014-04 2
Cátedra: Costoya Introducción a la tecnología no lineal

De la tabla de video surge un parámetro significativo, el video de componentes digitales sin compresión,
vulgarmente llamado D1 pues es la señal que graba ese formato de VTR, tiene una data rate de 20.95MB/s.
Es decir que, cuando la imagen de video digital se representa fielmente con todos los elementos que la
componen, el flujo de información motivado por el tamaño de la imagen y la sucesión de 25 fps (frames per
second o cuadros por segundo) del sistema PAL obliga a manejar 20.95MB/s.

Reducción de la bit rate (Compresión digital de video): Es indudable que esta data rate nos ofrece la mejor
calidad de imagen y esto es imprescindible en el transfer dosificado y el on-line, pero para lograr tecnología
que permita una optimización de costos y brinde tecnología de menor costo para las sesiones off-line se
debe reducir considerablemente la tasa de datos o data rate (o bit rate).

En este caso se emplean técnicas llamadas de reducción de la tasa de datos que son habitualmente
conocidas como compresión digital de video. Esto facilita el empleo de tecnología de costo moderado gracias
a que se debe manejar velocidades de transferencia mucho menores y permite el mejor aprovechamiento de
los medios de almacenamiento ya que en un disco rígido de un tamaño dado se pueden almacenar muchos
más minutos de video comprimido que de video sin compresión.

Cabe destacar que ésta es una compresión con pérdida, es decir que la imagen que se recupera al
descomprimir los archivos para volver a presentarlos en pantalla no tiene la calidad de la original, pero es la
única manera de efectuar reducciones de la tasa de bits verdaderamente significativas.

Como se puede ver en la tabla, un sistema típico de edición off-line no lineal (allí denominado Desktop PRO)
puede operar ofreciendo muy buena calidad de imagen con data rates de 3.9 MB/s (el ejemplo dado
corresponde a la Avid Video Resolution AVR-27 del Avid Media Composer).

Es evidente que la relación entre la data rate de D1 y de este off-line es de alrededor de 5:1 (estamos
comparando 20.95 con 3.9) y así se refiere comúnmente a la relación de compresión, entonces diríamos que
el video que se presenta en este caso de off-line tiene una relación de compresión de 5 a 1.

Se pueden aplicar relaciones de compresión mayores dentro de las sesiones off-line para lograr un mayor
aprovechamiento de el espacio de almacenamiento en discos rígidos y la calidad de la imagen será cada vez
menor. Es decisión de el editor con qué calidad va a trabajar y la puede estipular de diferente manera en
cada proyecto. Inclusive, existen facilidades en los editores off-line para primero cargar el total del material
“muy comprimido”, avanzar con el descarte y la edición gruesa, borrar el video (media) de los discos sin
borrar el proyecto y volver a cargar sólo las tomas necesarias con una relación de compresión mucho menor
para realizar el ajuste fino de la edición y el bocetado de los efectos (atención: sigue siendo off-line).

Por otra parte, en aplicaciones más modestas como por ejemplo Multimedia se debe reducir aún más la data
rate con más sacrificio de calidad de imagen y mucho más aún en aplicaciones de Internet debido a la
reducida “data rate” que los modems telefónicos ofrecen y la todavía más baja data rate que una
transferencia desde un servidor con mucha demanda puede alcanzar.

Con respecto al audio en su forma digital, la tabla muestra que operar con audio profesional de la mejor
calidad demanda 0.12MB/s y se puede calcular que esta data rate es 175 veces menor que la de video D1 y
33 veces menor que la del ejemplo de AVR-27 del off-line. Por esta razón es de muy poca utilidad en una
estación en la que se va a realizar edición de imagen comprimir el audio. Como ejercicio teórico se puede
decir que al manejar 10 minutos de audio en un proyecto de audio y video, el comprimirlo a la mitad sólo
permitiría el ingreso de 9 segundos de video AVR-27 por lo que, en general, resulta poco aconsejable
comprimir audio sabiendo que el oido es muy sensible a la compresión.

©2002-2014 Adrián A. Costoya Rev.2014-04 3


Cátedra: Costoya Introducción a la tecnología no lineal

No Lineal - Impacto de su introducción en la producción y postproducción

Off-line

 Paso de campeones armados con copias de trabajo positivas a una luz en moviola a la edición electrónica
de transfers a una luz con mayor potencia y velocidad y sin deterioro del material.

 Ilimitadas versiones.

 Posibilidad de producir copias en video de los armados para aprobación o referencia.

 Creación de listas de decisión de edición EDLs para auto-assemble de las sesiones on-line.

 Adquisición de KeyKode para emisión de listas de corte de negativo.

 Boceto y visualización previa de efectos, recortes, composiciones, titulado y edición de audio.

On-line

 Audio y video digital sin compresión manipulable un ilimitado número de veces sin pérdida o
degradación.

 Composición digital, multi-layering, retoque de imágenes, corrección de color, excelentes keys,


estabilización y tracking, morphing, importación de imágenes y modelos de otras aplicaciones,
manipulaciones espaciales y temporales animables, etc.

 Montaje digital de ilimitadas bandas de sonido con mixdowns y efectos automatizados internos.

 Automatización de la edición bocetada (auto-assemble conform).

 Archivo digital y sub-masters sin pérdidas.

 Reducción de espacio y del número de VTRs.

 Trabajo simultáneo en varias estaciones (especializado y jerárquico).

 Cine electrónico.

 Autoría de media para otras plataformas.

- FIN -

En el gráfico de la siguiente página aparece un sistema de edición off-line tal como se lo utilizaba en la
década del 90 y a principios del siglo XXI. Allí aparecen presentados placas y dispositivos del sistema típicos
en forma discreta para su mejor comprensión ya que actualmente se encuentran en varios casos integrados
en motherboards o incorporados en el interior del gabinete de la workstation.

©2002-2014 Adrián A. Costoya Rev.2014-04 4


BIN EDIT MONITOR
DE VIDEO
Monitor Inputs
R G B Sync R G B Sync
CH.A: VTR Monitor Out
CH.A CH.B R-Y Y B-Y CH.B: Media Composer Out (Compuesto)
Componentes: Media Composer Out (Y,R-Y,B-Y)
Media Composer
y loop a Betacam SP
Video In: Component (Betacam SP)
Audio In: Digital (DAT y CD v a DAT)

Off-Line No Lineal - Cableado Media Composer y Betacam SP, CD Player y DAT


Audio In: Analog CH.1 & CH.2 (Betacam SP)
Power PC
Betacam SP
Video In: Y,R-Y,B-Y (Media Composer)
Audio In: CH.1 & CH.2 (Media Composer)
SCSI Controller

R-Y In R-Y Out


Y In Y Out
B-Y In
VTR B-Y Out
Composite Out

BETACAM SP Monitor Out

CH.1 In Remote CH.1 Out


CH.2 In CH.2 Out
Audio Interface

SCSI Terminator

Analog Out
CD CH.L CH.R

DIG
CH.1 In CH.1 Out
CH.2 Out Pro Tools Out Analog Out

DAT
CH.2 In

DIG In (AES)
DAT DIG Out (AES) 1 2 3 4 DIG In Computer
(AES) 1 2 3 4

Analog In (AES)

Digital In: Media Composer


Analog In: CD (Balanced)
Cátedra: Costoya Arrays RAID

Introducción a los Arrays RAID

Introducción de la estructura RAID

El almacenamiento de media files y especialmente de video plantea altas demandas de capacidad y velocidad
de transferencia. Estas han ido aumentando progresivamente durante los últimos 20 años a medida que se
sucedieron hitos tales como el pase de la edición no lineal off-line (inicialmente altamente comprimida) a la
edición no lineal on-line (inicialmente sin compresión) y más adelante con los incrementos de muestras
ocasionados por el pase de SDTV a HDTV y superiores como así también de estructuras de muestras [Link] a
[Link] y niveles de cuantificación de 8-bit a 10-bit y hasta 16-bit y no se debe dejar de considerar finalmente
el impacto de los incrementos en las frecuencias de cuadro.

En los años ochenta (1980) la industria de tecnología de la información creó soluciones de almacenamiento
basadas en discos individuales cada vez más grandes y veloces. No obstante recién a fines de los ochenta se
llegó a producir drives de discos rígidos que fueron capaces de almacenar por primera vez video altamente
comprimido. Eran tiempos de discos de 1GB por los que se debía pagar alrededor de USD 4.000. Esto les
valió un acrónimo para definirlos que fue SLEDs por Single Large Expensive Disk.

Quedó claro por entonces que ese enfoque (SLEDs) estaba desalineado con respecto a la capacidad de la
industria para progresar en otras ramas como el procesamiento y por lo tanto condicionarían fuertemente
otros avances. Entre los nuevos enfoques propuestos por entoces se destaca la introducción de los arrays
RAID, cuya sigla en inglés significa Reduntant Array of Inexpensive Disks. Uno de los primeros papers que
refiere al tema con esa denominación y tipifica distintos tipos, o niveles, de arrays fue publicado por David A.
Patterson y otros de la División de Ciencias de la Computación de la Universidad de California Berkeley en el
journal de la ACM (Association for Computer Machinery) [Link] en 1988 detallando los
niveles 1 a 5. Se puede encontrar en [Link]
En este paper se propone superar las limitaciones de capadidad de los SLEDs realizando agrupamientos de
discos de capacidad y precio promedio en cantidades suficientes para superar ampliamente la ofrecida por
los SLEDs a un costo considerablemente menor y de modo modular, es decir que se puedan reunir y
reorganizar los discos en base a las necesidades individuales sin depender ni esperar hasta que el disco
apropiado para cada necesidad de capacidad, velocidad y costo esté siendo producido por algún fabricante.
Vale la pena mencionar que uno de los grupos de interés de la ACM afines a la industria audiovisual es el
ACM SIGGraph [Link]

Objetivos de los Arrays RAID

Los objetivos esenciales de los arrays RAID son:


Capacidad
Velocidad de Transferencia (throughput)
Tolerancia a Fallos

Capacidad: cuando se require una capacidad de almacenamiento para la cual la industria aún no ofrece
drives no se puede disponer de un volumen único que cubra las necesidades sin arrays. Por ejemplo a la
fecha no se ofrecen discos de 10TB, si surge una necesidad para configurar una estación de edición o un
sistema de almacenamiento de 15TB no hay disco en el mercado que lo logre. En este caso agrupar 5 discos
de 4TB ofrecería la posibilidad de disponer de un volumen único de 20TB.

©2014 Adrián A. Costoya Rev.2014-10 1


Cátedra: Costoya Arrays RAID

Velocidad de Transferencia (throughput): cuando se require una velocidad de transferencia para la cual la
industria aún no ofrece drives no se puede disponer de un volumen único que cubra las necesidades sin
arrays. Por ejemplo a la fecha no se ofrecen discos rígidos de 200MB/s sostenidos, si surge una necesidad
para reproducir 3 streams HD en tiempo real a aproximadamenet 600MB/s no hay disco en el mercado que
lo logre. En este caso agrupar 14 discos de 50MB/s ofrecería la posibilidad de disponer de un volumen único
con una velocidad de transferencia de 700MB/s.

Tolerancia a fallos: en los dos casos anteriores se advierte que rápidamente los arrays crecen en cantidad de
discos para lograr sus objetivos, el lado bueno de estos agrupamientos es que se alcanzan capacidades y
velocidades de transferencia que cubren las necesidades pero como contrapartida se debe considerar que a
mayor cantidad de discos aumenta la posibilidad estadística de fallo de almacenamiento ya que constituir
arrays con agrupamientos simples enfocados solamente en dividir la información a almacenar entre los
discos miembro conlleva que el fallo de cualquier disco causa la perdida de toda la información almacenada y
desde luego la capacidad de seguir leyendo o escribiendo por lo que el sistema de almacenamiento queda
fuera de servicio. Para enfocar esta realidad además de los objetivos anteriores es que cobra vital
importancia el empleo de redundancia como establece la primera letra de la sigla RAID.

Nota: los valores de capacidad y velocidad de transferencia expresados se adoptan al solo efecto de
ejemplificar y no deben ser considerados literalmente en el diseño y planificación de sistemas de
almacenamiento para su implementación real.

Tipos de Arrays RAID

Las tipologías, tipos o niveles de arrays RAID se caracterizan por una identificación numérica. Los casos cuya
descripción reviste mayor interés para aplicaciones en el entorno de postproducción son: RAID-0, RAID-1,
RAID-3, RAID-5 y RAID-6. Es habitual encontrar dos o tres de estas tipologías en uso simultáneamente en
organizaciones medianas a grandes.

Una de las recomendaciones generales más importantes (no obligatoria) en la creación de arrays de discos
para uso profesional es que todos los discos que integren el array sean idénticos. Entendiendo por idénticos,
misma marca, modelo y firmware por lo que se aconseja al momento de construirlo adquirir tanto los discos
que estarán en operación como los reemplazos que a lo largo de la vida útil del array serán necesarios.

A continuación se resumen las características principales de estas tipologías. Se debe destacar que en ellas se
busca satisfacer los objetivos señalados anteriormente en distintas combinaciones desde uno solo de ellos
hasta los tres y que alcanzar estos objetivos de forma combinada con arrays redundantes tiene
consecuencias significativas en el costo de la solución de almacenamiento que se suele expresar por unidad
de almacenamiento de modo que además de analizar los aspectos técnicos de debe ponderar cuántos
dólares por GigaByte (USD/GB) implica cada uno de los enfoques.

RAID-0 - Stripping
Curiosamente llamado RAID no es redundante. Aplica subdivisión de la información entre los discos miembro
del array (stripping) sin redundancia directa (mirroring) ni corrección de error (check o parity). Es la manera
más económica de alcanzar capacidades y velocidades de transferencia superiores a las del mayor disco
individual en el mercado. Todo el dinero invertido en discos es visto como almacenamiento disponible (100%
de utilización).

El riesgo es la pérdida total de información y la salida de servicio del sistema de almacenamiento ante el fallo
de cualquiera de los discos miembro.
©2014 Adrián A. Costoya Rev.2014-10 2
Cátedra: Costoya Arrays RAID

Se utiliza en postproducción cuando las necesidades no están acompañadas del presupuesto que permita
costear la tolerancia a fallos con otra tipología. Se asume el riesgo y es recomendable que se comunique
adecuadamente a las partes involucradas para que planifiquen sus estrategias de backup, archive o planes de
contingencia para la continuidad del proyecto (y en algunos casos del negocio).

Ejemplo: 4 discos de 1TB / 20MB/s permiten integrar un array de 4TB que opera a 80MB/s.

RAID-1 - Mirroring
Es totalmente redundante. Aplica replicación de la información entre los discos miembro del array
(mirroring) sin stripping ni check o parity. Es la manera más conservadora de alcanzar tolerancia a fallos y se
pueden agregar más discos para disponer de más copias idénticas de la misma información sin agregado de
capacidad de almacenamiento. Lo usual es constituir arrays RAID-1 con dos discos, en ese caso la mitad del
dinero invertido en discos es visto como almacenamiento disponible (50% de utilización). Dicho de otro
modo el costo en USD/GB se duplica.

No es habitual utilizarlo en postproducción ya que no ofrece ninguna ventaja para el almacenamiento de


media pero si se lo emplea en los discos de sistema de estaciones de trabajo (workstations) y servidores
(servers).

La tolerancia a fallos habitual (arrays mirror de 2 discos) es 1 disco.

Ejemplo: 2 discos de 1TB / 20MB/s permiten integrar un array de 1TB que opera a ~20MB/s. 3 discos de
1TB / 20MB/s permiten integrar un array de 1TB que opera a ~20MB/s (lo que mejora es la tolerancia a fallos
que asciende a 2 discos).

RAID-3 – Parity Disk


Es redundante. Aplica computo de un check o parity (or exclusivo) que se almacena en un disco dedicado a
paridad. La paridad actúa como código de detección y corrección de error, se almacena el dato A1, el B1 y la
paridad de ambos P1 y así sucesivamente.

Es una manera práctica de alcanzar tolerancia a fallos y requiere un mínimo de 3 discos. En ese caso dos
tercios del dinero invertido en discos es visto como almacenamiento disponible (66% de utilización). Dicho de
otro modo el costo en USD/GB aumenta en un 50%.

Era habitual utilizarlo en postproducción aunque actualmente se prefiere RAID-5 basado en los mismos
principios generales.

La tolerancia a fallos es 1 disco.

Ejemplo: 3 discos de 1TB / 20MB/s permiten integrar un array de 2TB que opera a >20MB/s.

RAID-5 – Distributed Parity


Es redundante. Aplica computo de un check o parity (or exclusivo) del mismo modo que RAID-3 pero éste se
almacena distribuido proporcionalmente entre todos los discos miembros del array. La paridad actúa como
código de detección y corrección de error, se almacena el dato A1, el B1 y la paridad de ambos P1 y así
sucesivamente.
©2014 Adrián A. Costoya Rev.2014-10 3
Cátedra: Costoya Arrays RAID

Es una manera práctica de alcanzar tolerancia a fallos y requiere un mínimo de 3 discos. En ese caso dos
tercios del dinero invertido en discos es visto como almacenamiento disponible (66% de utilización). Dicho de
otro modo el costo en USD/GB aumenta en un 50%.

Es uno de los más utilizados en postproducción por su balance capacidad/velocidad de


transferencia/tolerancia a fallos/costo.

La tolerancia a fallos es 1 disco. En arrays con muchos discos aumenta el riesgo por fallo de un segundo disco
mientras el array opera degradado porque ya se ha producido un fallo, en este caso (fallo de 2do. disco) se
produce pérdida total de la información.

Ejemplo: 3 discos de 1TB / 20MB/s permiten integrar un array de 2TB que opera a >20MB/s.

RAID-6 – Dual Distributed Parity


Es redundante. Aplica computo de un check o parity (or exclusivo) del mismo modo que RAID-5 pero éste se
almacena “dos veces” distribuido proporcionalmente entre todos los discos miembros del array. La paridad
actúa como código de detección y corrección de error, se almacena el dato A1, el B1 y la paridad de ambos
P1 y P1 (dos veces) y así sucesivamente.

Es una manera muy segura de alcanzar tolerancia a fallos y requiere un mínimo de 4 discos. En ese caso la
mitad del dinero invertido en discos es visto como almacenamiento disponible (50% de utilización). Dicho de
otro modo el costo en USD/GB aumenta en un 100%.

Es utilizados en postproducción en casos de sistemas masivos (en general almacenamiento centralizado) por
su balance capacidad/velocidad de transferencia/tolerancia a fallos asumiendo un incremento de costo
significativo.

La tolerancia a fallos es 2 discos. La pérdida total de la información solo se produciría si fallara un tercer
disco.

Ejemplo: 4 discos de 1TB / 20MB/s permiten integrar un array de 2TB que opera a >20MB/s.

- FIN -

©2014 Adrián A. Costoya Rev.2014-10 4

También podría gustarte