0% encontró este documento útil (0 votos)
97 vistas36 páginas

Funcionamiento de cámaras digitales y video

El documento explica el proceso de captura digital de imágenes. Las cámaras digitales convierten la luz en señales eléctricas que son almacenadas como valores binarios, permitiendo el almacenamiento digital de la imagen. Los sensores miden los niveles de luz roja, verde y azul en cada píxel para representar el color. La resolución y frecuencia de fotogramas determinan la calidad espacial y temporal de la imagen digital.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como ODT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
97 vistas36 páginas

Funcionamiento de cámaras digitales y video

El documento explica el proceso de captura digital de imágenes. Las cámaras digitales convierten la luz en señales eléctricas que son almacenadas como valores binarios, permitiendo el almacenamiento digital de la imagen. Los sensores miden los niveles de luz roja, verde y azul en cada píxel para representar el color. La resolución y frecuencia de fotogramas determinan la calidad espacial y temporal de la imagen digital.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como ODT, PDF, TXT o lee en línea desde Scribd

Video

Digital
Una imagen se forma al incidir la luz en un soporte fotosensible tras pasar a
través del objetivo de una cámara. Este soporte fotosensible puede ser una
película fotográfica o un soporte electrónico. Estos dispositivos electrónicos se
ocupan de asignar un valor de voltaje eléctrico que se corresponde con el
nivel de luminosidad de cada uno de los puntos (píxeles) que conforman la
imagen y posteriormente de convertir estos impulsos eléctricos en valores
binarios que puedan ser almacenados en un soporte digital.

En el dispositivo de captura de imágenes existen dos zonas: la zona fotoactiva


y la zona de transmisión. En la zona fotoactiva, los condensadores acumulan
una carga eléctrica proporcional a la intensidad de la luz que reciben en ese
píxel concreto. Un circuito de control (zona de transmisión) permite que cada
condensador transmita esa carga, midiendo su voltaje y codificando para ser
almacenada en una memoria digital.

Este proceso se repite para cada uno de los píxeles de la imagen y tantas
veces por segundo como requiera el sistema de vídeo con el que se está
grabando.

Las cámaras, con sus sensores, analizan las tres componentes de color de la
imagen: verde, azul y rojo. A partir de estas componentes, las células
fotoeléctricas son capaces de registrar cualquier color visible con todos sus
matices.
Muchas cámaras profesionales disponen de tres CCD y dedicarán cada uno de ellos a escanear cada componente de
color de la imagen. Para descomponer una imagen en sus canales de color RGB, se utilizan unos filtros de color
denominados prismas dicroicos. El prisma dicroico separa las componentes de color rojo, verde y azul y se codifican tres
señales independientes que contienen cada una la información de color que corresponde a cada uno de los píxeles de la
imagen.

Sin embargo la mayoría de las cámaras que se fabrican utilizan un solo CCD mediante la tecnología de la máscara de
Bayer, que proporciona una trama para cada cuadrado de cuatro píxeles, de forma que un píxel registra luz roja, otro luz
azul y dos píxeles se reservan para la luz verde (tal como ocurre en el ojo humano, que es más sensible a la luz verde que
a los colores rojo o azul) está formada por un 50% de filtros verdes, un 25% de rojos y un 25% de azules. Interpolando dos
muestras verdes, una roja y una azul se obtiene un píxel de color. En los archivos raw se guarda la información del patrón
de Bayer de forma directa, sin interpolaciones.
La resolución, o grado de detalle con que la fotografía reproduce el motivo captado, dependerá del número de células
fotoeléctricas que tenga el sensor. A mayor número de píxeles, mayor resolución.

El tamaño del sensor tiene también una influencia directa en la profundidad de campo. Las cámaras con sensores más
grandes, por las características de la óptica que utilizan, dan menos profundidad de campo. Por este motivo, en televisión
se han utilizado habitualmente sensores pequeños, más sencillos de ajustar y que dan mucha profundidad de campo. Es
una característica muy efectiva para grabaciones rápidas realizadas por un solo operador. En cine, con película de 35 mm,
el foco era más crítico dando lugar a bellas imágenes que utilizan el enfoque selectivo. Las cámaras digitales de cine han
heredado esa característica por lo que utilizan sensores grandes.
Operatividad y compatibilidad

Una vez que las imágenes han sido codificadas en una señal eléctrica, la información puede ser almacenada, en
dispositivos analógicos o digitales, o transmitida por una red de telecomunicaciones y presentada en los distintos
dispositivos de recepción y reproducción de imágenes en movimiento. Para asegurar la compatibilidad de los equipos de
captación de imagen, grabación, transmisión y recepción, desde los inicios de la televisión fue necesario establecer
estándares tecnológicos internacionales. Mediante estas normas técnicas se han establecido los distintos modelos de
televisión que se han utilizado en el mundo, concretando aspectos como la resolución de la imagen, la frecuencia de
fotogramas por segundo o los procesos de exploración.
Resolución espacial

La resolución es la cantidad de información escaneada por el sensor y determina la capacidad de la imagen de reproducir
los detalles. Se denomina resolución espacial el número total de píxeles que forman la imagen aunque generalmente se
indica el número de píxeles horizontales y verticales. Cuanto mayor sea la resolución espacial mayor calidad tendrá la
imagen. Así cuando nos referimos a una imagen de 1.920 píxeles horizontales por 1.080 verticales estamos ante una
imagen de 2.073.600 pixeles de resolución espacial. Es lo que en el mercado doméstico de la fotografía, para simplificar,
se expresa como una resolución de 2 megapíxeles. Pero en la industria del video profesional y la postproducción se
emplea generalmente la forma más precisa 1920x1080.

Para las resoluciones más altas que se utilizan en cine digital se suele usar otra forma para indicar la resolución espacial:
para el formato 1:85 se utiliza la abreviatura 2K para la resolución 1998x1080 y 4K para 3996x2160.

A este valor se le añade la relación de aspecto del píxel o Pixel Aspect Ratio, que nos indica si el píxel es cuadrado o
ligeramente rectangular.
La relación de aspecto expresa la proporción entre el alto y el ancho de la imagen. La televisión adoptó en sus inicios una
relación de aspecto de 4:3 (1,33:1) siguiendo la tradición del formato académico del cine. Pero en los años 50, para la
producción y exhibición cinematográfica, se desarrollaron los formatos panorámicos consiguiendo así un elemento
diferenciador y aumentando la espectacularidad del formato. En los años 2000, aprovechando la migración digital, se
implantó mundialmente en televisión el formato de pantalla ancha 16:9 (1,77:1).

En cine y televisión se han utilizado dos formas distintas para indicar la relación de aspecto: en televisión se usa un
quebrado, por ejemplo 4:3 o 16:9, mientras que en cine se emplea un decimal en relación a 1, por ejemplo 1,33:1 o 1,77:1

La normalización establecida para el cine digital DCI es 1,85:1 y 2,39:1 para formatos panorámicos. En televisión, el
estándar es el formato 16:9.

A efectos prácticos, conviene destacar que el formato 1,85:1 del cine es prácticamente igual que el 16:9 de la televisión,
tan solo con un ligero recorte. Por tanto, la relación de aspecto funciona correctamente tanto en televisión como en cine,
simplemente se tiene que aplicar un ligero recorte.
4:3 1.85:1

Relacién de aspecto Resolucién espacial


1,85:1 3.996x 2.160
Cine digital 4K (DCI) 2,39:1 4.096x 1.716
1,90:1 (full) 4.096x2.160
Televisién 4K (BT-2020) 16:9 3.840 x 2.160
Resolución temporal

Es la frecuencia de fotogramas, número de imágenes por segundo, que se presentan para crear la ilusión del movimiento.

Desde los inicios del cine, la idea de proyectar varias imágenes fijas, de forma consecutiva, es conseguir la ilusión de
movimiento. Se calcula que el cerebro, y nuestra persistencia retiniana, a partir de aproximadamente 10 o 12 imágenes
deja de ver imágenes individuales y ve una imagen en movimiento. Las primeras películas mudas tenían una frame rate
de entre 14 y 24 fps, con la llegada del cine sonoro se estableció en 24 fps y no ha variado hasta la actualidad.

En el mundo de la televisión originalmente había dos frame rate, 30 fps en aquellos países en que la frecuencia eléctrica
era de 60 Hz (América del Norte y algunos países de Sudamérica) y 25 fps en los que la frecuencia eléctrica era de 50 Hz
(resto del mundo)

Los sistemas de edición de vídeo que se utilizan hoy en día ofrecen mucha flexibilidad a la hora de definir la frecuencia de
fotogramas o frames por segundo (fps) de una secuencia o un proyecto.

Las cámaras digitales pueden grabar con cualquiera de estos valores de frecuencia y los sistemas de postproducción
ofrecen herramientas para hacer las conversiones que puedan ser necesarias.

Cuantos más fotogramas se tomen de una acción, más información se registrará sobre el movimiento que produce. Por
ello, la frecuencia de fotogramas por segundo (frame rate) de una secuencia se denomina resolución temporal.
El ajuste de la resolución temporal en la cámara también afectará a la definición de los bordes de los objetos en
movimiento y al efecto de desenfoque de movimiento (motion blur). Un aumento en la frecuencia de captación implica un
aumento de la velocidad de obturación en la cámara generando así imágenes más nítidas con un efecto de desenfoque de
movimiento reducido.
https://frames-per-second.appspot.com/

Los videojuegos, en su búsqueda de realismo, tienen frame rate muy superiores a los del cine y la televisión y pueden
llegar a los 100 o 120 fps. También se alcanzan frame rates muy altos con las cámaras especializadas en slow motion,
como la Phantom que puede llegar a los 4000 fps.
https://www.youtube.com/watch?v=LRo-L9zYf-M
Para Ultra HD y para cine digital se han especificado resoluciones temporales superiores que se conocen como High
Frame Rate (HFR). Cuando se amplía el tamaño de representación, es decir, para pantallas de mayor tamaño, es
conveniente también aumentar el número de fotogramas por segundo para obtener mayor nitidez y reproducir fielmente el
movimiento. Las frecuencias de 48 fps o superiores se consideran HFR.
Estéticamente hay una diferencia notable: el desenfoque de movimiento que el espectador está acostumbrado a ver en el
cine grabado a 24 fps, resulta artísticamente interesante. La frecuencia HFR produce, a veces, una sensación más fría y
más real que puede no agradar a todo el mundo.
Pero los gustos del público también evolucionan con la tecnología y esta calidad de la representación se está imponiendo.
Cuando el movimiento se percibe con un efecto estroboscópico, con tirones o falta de suavidad, es debido a dos factores:
la ausencia de desenfoque de movimiento y una resolución temporal insuficiente. Al contrario, las imágenes grabadas y
reproducidas en HFR son más nítidas (por la ausencia de desenfoque de movimiento) y el movimiento es más suave.
La norma BT-2020 contempla, además de los 48 fps, frecuencias de 50 y 60 fps en exploración progresiva. Los
proyectores de cine digital, siguiendo la norma DCI, también incluyen la posibilidad de proyectar en las salas de exhibición
a 48 fps.
Los nuevos desarrollos para la televisión Ultra HD consideran valores de resolución temporal más altos aún. En las
recomendaciones de DVB (Digital Vídeo Broadcasting) y SMPTE (Society of Motion Picture & Television Engineers) está
previsto alcanzar los 120 fps. Las cámaras de cine profesional, e incluso alguna de gama inferior, ya ofrecen también la
posibilidad de aumentar la resolución temporal.
Las frecuencias más habituales en difusión son: 25 fps, 29,97 fps, 24 fps, 23,98 fps y 48 fps.

https://www.p remiumbeat.com/blog/cinematic-action-with-high-shutter-speed/
https://vimeo.com/blog/post/frame-rate-vs-shutter-speed-setting-the-record-str/
The Hobbit
Marvel's Captain
America
La exploración de la imagen

En los inicios de la televisión, con la finalidad de aumentar la frecuencia de presentación de imágenes y evitar la
percepción de un efecto de parpadeo, las normas técnicas establecieron la división de cada fotograma o cuadro en
dos campos, el primero compuesto por las líneas impares de la imagen y el segundo por las líneas pares. Es lo que
se ha denominado como barrido entrelazado. Más adelante, con la aparición de los sistemas informáticos, se
definió otra norma para la exploración de la imagen consistente en un barrido continuado, línea tras línea, de toda la
superficie del fotograma o cuadro. Es lo que se denominó exploración progresiva.

Exploración entrelazada
La técnica de vídeo entrelazado divide cada cuadro en dos campos, mejorando así la percepción del movimiento.
La velocidad de exploración en la norma europea de televisión en color PAL es de 25 cuadros por segundo y por lo
tanto de 50 campos por segundo.
En sus inicios la exploración entrelazada se implantó en la televisión analógica precisamente para aumentar la
frecuencia de exposición, ya que el efecto de parpadeo es muy notable a una frecuencia de 25 imágenes por
segundo y desaparece completamente a 50. Este efecto sensorial se produce por la persistencia retiniana, es decir,
la permanencia de las imágenes en la retina del ojo, que facilita, en el sistema de percepción visual, la ilusión de
movimiento.
En la actualidad las televisiones aumentan la frecuencia de exposición de imágenes hasta 100 por segundo
(televisores de 100Hz), repitiendo dos veces cada cuadro, consiguiendo así mayor estabilidad en el brillo de cada
píxel.
Fold Fxzld 2

Frame
Exploración progresiva

La exploración progresiva consiste en la exploración secuencial de cada línea de la imagen. El efecto parpadeo se
compensa utilizando una frecuencia de barrido de 50 o 100 Hz en el equipo de visionado.
Tanto los monitores de ordenador como la mayoría de las pantallas de alta definición LCD o plasma, utilizan la
exploración progresiva. Se puede afirmar por lo tanto que los entornos digitales han adoptado mayoritariamente el
sistema de exploración progresiva. El aumento de dispositivos de visionado basados en exploración progresiva
está permitiendo que todo el proceso de adquisición, procesamiento, transmisión y reproducción de las señales se
haga con un mismo sistema de exploración, lo que está evitando efectos derivados de la conversión de entrelazado
a progresivo.
Una de las desventajas de la exploración progresiva es que necesita mayor ancho de banda que la entrelazada
para la transmisión de las señales. Este es el motivo por el cual las nuevas normas de televisión de alta definición
siguen considerando válida la opción de la exploración entrelazada como es el caso del formato de HDTV 1080i.
Por otra parte, como hemos visto anteriormente, el sistema PAL de exploración entrelazada descompone el
movimiento en 50 campos por segundo, consiguiendo así mayor fluidez en la representación del movimiento que
con el sistema progresivo a 25 imágenes por segundo.
Cuando un dispositivo de monitorización, basado en exploración progresiva recibe una señal entrelazada, es
preciso pasar de entrelazado a progresivo mediante un proceso de desentrelazado.
Las aplicaciones de edición y posproducción de vídeo permiten trabajar con ambas formas de exploración, y
aunque estemos utilizando un vídeo con las imágenes exploradas en entrelazado podremos verlo en el monitor del
ordenador gracias a la conversión que realiza el propio reproductor.
El color de una imagen se sintetiza en sus tres componentes de color fundamentales: el rojo, el verde y el azul.
El sistema de mezcla de colores utilizado es el aditivo, que a partir de los colores primarios de la luz (rojo, verde y
azul) puede formar el blanco y el resto de colores visibles por el ojo humano.
La información sobre brillo y color que recogen los píxeles de las cámaras de fotografía y vídeo tiene que ser
codificada de forma normalizada para que pueda ser posteriormente interpretada por los diferentes dispositivos de
almacenamiento y de reproducción.

Profundidad de color (bit depth)

Otro indicador fundamental de la calidad de una imagen digital es la profundidad de color (color depth) o profundidad
de bits (bit depth), que indica la cuantificación de la señal, es decir, cuántos bits se utilizan para describir cada píxel.
Con este dato se expresa cuántos valores distintos de brillo y color están disponibles para codificar la imagen.
Cada pixel puede ser codificado con un número variable de bits. El bit es la unidad mínima de la codificación
binaria que solo tiene dos estados: uno o cero. Por lo tanto si solo disponemos de un bit para describir un pixel
podremos usarlo para indicar si es blanco (1) o negro (0). Si disponemos de más bits para describir un pixel
podremos utilizarlo para expresar toda una gama de niveles de gris y la utilización de varios bits para cada
componente de color RGB nos permitirá alcanzar la precisión de color necesaria.
El numero de bits que se utiliza para cada componente de color se conoce como la profundidad de color o la
profundidad de bits (Component bit depth). Mayor profundidad de color (más bits de información por píxel) significa
más colores disponibles y representación del color más precisa.
La profundidad de color más habitual es de 8 bits por canal, es decir una imagen de 24 bits (8 bits para la
componente roja, 8 para el verde y 8 para el azul). Es lo que también se conoce como color verdadero (true color)
porque es la resolución de color que se necesita para una imagen de calidad fotográfica.
Para elementos gráficos compuestos con colores planos, se podría utilizar una profundidad de color inferior,
pero 24 bits es suficiente para cubrir la capacidad perceptiva del ojo humano.
Para aplicaciones de alta calidad como el cine digital o determinadas herramientas de postproducción se
puede utilizar mayor profundidad de color: 10 bits, 16 bits e incluso 32 bit por canal para la imágenes de alto rango
dinámico (HDR) que contienen más información de brillo y color de la que puede ver el ojo humano en un monitor
digital.

8bits -> 0-255 (256 niveles diferentes)


10bits -> 0-1023 (1024 niveles diferentes)

Como hemos dicho, un píxel de la imagen final está representado por una combinación de sus componentes R, G y B.
Por ejemplo, para una profundidad de color de 8 bits, cada pixel puede representar:
8×3 = 24 bits, es decir, 16.8 millones de colores diferentes

O para una profundidad de color de 10bits:


10×3 = 30 bits, es decir, 1073.7 millones de colores diferentes
¿Qué significa, por ejemplo, que una imagen tiene una profundidad de color de 8 bits? Pues como trabajamos en
un sistema binario supone que cada pixel tiene 2 elevado a la 8ª potencia, o sea 256, posibilidades de color en cada una
de sus componentes, R, G y B. Si tenemos en cuenta las tres componentes será 256 x 256 x 256, o lo que es lo mismo
16.777.216 posibilidades de color. Si en vez de 8 bits, nuestra profundidad de color es de 10 bits, entonces pasamos a
tener 2 elevado a la 10ª potencia posibilidades de color para cada pixel en cada componente; lo que considerando las tres
componentes nos da 2 elevado a la 30ª posibilidades de color (1.073.741.824, más de un billón de colores). Así, lo que
parecía una pequeña diferencia en profundidad de color, de 8 a 10, se ha convertido en una enorme diferencia cuando
vemos la información de color que guarda un archivo de 8 bits (16,7 millones de colores) frente a un archivo de 10 bits
(más de un billón de colores). Tenemos que tener en cuenta que la profundidad de color se mueve en progresión
exponencial y que por tanto un salto de 8 a 10, es un salto mucho más grande de lo que a simple vista pudiera parecer.

Cuando trabajamos con una mayor profundidad de color vamos a tener más datos que nos definen cada color y
la diferencia la vamos a notar rápidamente, sobre todo, en algunos tipos de imágenes como, por ejemplo, los degradados.
Si queremos aplicar a nuestra imagen una corrección de color, con un programa como Davinci Resolve, será muy
importante que tengamos una imagen con la mayor profundidad de color posible, ya que cuando aplicamos
correcciones de color es cuando más notamos la riqueza de información de los colores. Es mucho más fácil hacer una
corrección de color, y que no surjan artefactos, en una imagen de 10 o 12 bits que no en una imagen de 8 bits. Por eso es
importante que nos fijemos en la profundidad de color de cada códec y si en nuestro proceso de trabajo hay una
corrección de color, intentar trabajar con un códec de 10 o 12 bits.
bit x pfxel oolozes

UB
Calidad de vídeo y tasa de bits

Información que se genera:


1920 x 1080 = 2073600 píxels (2.1Mpx) por fotograma

2.1Mpx x 24 bits (8 bits para rojo, 8 para verde, 8 para azul) = 50.4Mbits por fotograma
50.4Mbits x 30fps = 1512Mbits por segundo (Mbps)

Es decir, aproximadamente 185MB/s (1 byte = 8 bits). Esta sería la tasa de bits (bitrate) de la secuencia de vídeo sin
aplicar ningún tipo de compresión.

¿Cuánto ocuparía una secuencia de 1 minuto?

185MB/s x 60s = 11GB/min


Por lo tanto, 1 hora de grabación: 660GB/h

Sin embargo, en todo ese volumen de datos hay mucha información redundante. Utilizando algoritmos de compresión se
puede reducir la cantidad de datos sin pérdida de información.
El procesador de la cámara utiliza un codec (codificador / compresor) para comprimir la señal de vídeo y generar una tasa
de bits más baja.
La tasa de bits (bitrate) está muy relacionada con la calidad del vídeo, aunque dependerá del tipo de codificación y de la
eficiencia del codec. En cada situación hay que encontrar un compromiso entre calidad y recursos necesarios para
alcanzar esa calidad.

¿Con qué tasas de bits se consigue una calidad razonablemente buena?

Por ejemplo para youtube se recomiendan estas tasas de bits:

● Para Full HD (1080p): 8Mbps (para 24-30fps) y 12Mbps (para 50-60fps)


● Para 4K (2160p): 35-45Mbps (para 24-30fps) y 53-68Mbps (para 50-60fps)

Si subimos vídeos con tasas superiores no se notará una mejora de la calidad apreciable en el producto final, porque el
codec de youtube generará el vídeo que aparece publicado en su plataforma para esas tasas de bits, que considera
adecuadas para una buena calidad de reproducción.

Recuerda el ejemplo inicial:

1080p / 8bits / 30fps: 1512Mbps (sin ningún tipo de compresión)


1080p / 8bits / 30fps: 8Mbps (con compresión para una calidad aceptable en streaming)
Cómo ves, el ratio de compresión es altísimo, y sin embargo la calidad que se aprecia en los vídeos de youtube es
relativamente buena en la mayoría de los casos.
Submuestreo de color

En una imagen RGB cada pixel tiene una coordenada R (rojo), G (verde) y B (azul), a partir de estas tres coordenadas
podemos reconstruir cualquier color, ya que todos los colores son una mezcla de estos tres. Esta forma de descomponer
las imágenes en sus tres componentes de color es muy adecuada y muy válida en el sector gráfico y la fotografía en los
que tratamos con imágenes únicas, pero no tanto para el vídeo, en el que tenemos que procesar ingentes cantidades de
imágenes:

La Televisión Digital codifica la señal de forma binaria. Esto permite reproducir una imagen idéntica al original al final
de una cadena de transmisión, sin ninguna perdida y sin incorporación de ruido. Pero para reducir el ancho de
banda necesario para la transmisión se utiliza una técnica de codificación denominada submuestreo de color.
Esta técnica está basada en la fisiología del ojo humano: en la retina hay dos tipos de fotorreceptores: bastones y
conos. Los bastones detectan niveles de luz (ven en blanco y negro) mientras que los conos detectan el color. La
proporción de bastones es mucho mayor, en una relación aproximada de 20:1 (20 bastones por cada cono)
Dicho de otra forma, la visión humana da mucha más importancia a los niveles de luz (niveles de grises) que al
color.
Cada punto (color individual) se puede representar como una combinación de luminancia y crominancia (información
de nivel de luz + información de color). Los canales de crominancia se suelen llamar Cb y Cr en el mundo digital.
RG B ( 5 S , 1 8 \ , 2 0 2) YC b Cr 1 4 4, 1 S 4, 7 6)

Cr
neg ro
B negro

Cb
El submuestreo de color es un sistema de codificación por el que se reduce la información de croma de la
señal aprovechando que la visión humana es más sensible al brillo que al color. La norma para aplicaciones
profesionales de video digital es el submuestreo de color 4:2:2, que establece 4 muestreos para la luminancia (Y) y
tan solo dos muestreos para cada una de las señales de diferencia de color (U y V). Todos los píxeles llevan
información de luminancia, pero solo uno de cada dos lleva la información de color. Esta norma se utiliza en
entornos de producción, también conocido como ‘calidad de estudio’ o ‘calidad broadcast’.
Para aplicaciones de postproducción que utilizan el color como llave, tipo chroma-keys, máscaras, etc.; así
como los ordenadores multimedia que trabajan en RGB se utiliza una señal 4:4:4. En esta norma, se toman
muestras de luminancia (Y) y color (U y V) para todos los pixeles que conforman la imagen, o lo que es lo mismo no
hay submuestreo. Por tanto a partir de la codificación 4:4:4 se puede recomponer con toda su resolución la señal
RGB para aplicaciones de edición y postproducción de alta calidad.
Para situaciones que requieren menor calidad y menor ancho de banda de transmisión, como puede ser la
producción de periodismo electrónico (programas informativos de TV) y las aplicaciones de vídeo doméstico, se
utiliza el submuestreo de color 4:1:1 o 4:2:0. En este caso se codifica solamente la información de color de uno de
cada cuatro pixeles: todos los píxeles activos tienen información de brillo pero solo una cuarta parte tienen
información color. Aunque tenga menos registros de color que la norma 4:2:2, la percepción humana no lo detecta,
cumpliéndose con los objetivos de comprimir la señal sin pérdida de calidad subjetiva. Sin embargo esta norma no
sería adecuada para su uso en aplicaciones de postproducción que requieren la información completa de color de
cada píxel.
RG B iufMd crom a (Cr y Cb)

4:4: 4 (10 0
b)

4:2:Z(sO%)
4:2:2
Por cada 4 muestras horizontales, en la primera línea cogemos dos de cada una de los componentes de color y
en la segunda línea volvemos a hacer lo mismo. Tenemos el doble de muestras de color que en el 4:1:1 y el
4:2:0. Este tipo de muestreo se hizo frecuente con el Betacam Digital y DVC Pro 50. Hoy es frecuente en códecs
de buena calidad como el XF de Canon o algunos Apple ProRes y DnxHD, muy conocidos en el mundo de la
edición.

El muestreo de color o color sampling es, por tanto, una alternativa a la compresión de datos y la mayoría de las
veces más efectiva. Lo que no quita que tengamos muy en cuenta cuál es el muestreo de color, sobre todo cuando
tenemos que hacer un chroma key o una corrección de color intensa. Es muy importante que en estos casos
evitemos códecs con un sampleado inferior al 4:2:2; hacer un chroma key con una imagen en un códec 4:2:0 es
complicado y muchas veces los resultados no serán satisfactorios. Lo mismo vale para las correcciones de color
agresivas, nos faltarán datos de color y se verán artefactos que estropearán nuestro trabajo.
4:1:1.
De cada 4 muestras horizontales que tenemos en nuestra región de vídeo, en la primera línea horizontal solo
cogemos una de cada una de las componentes de color, y en la segunda línea horizontal volveremos a coger
otra muestra de cada una de las componentes de color.

4:2:0. Por cada 4 muestras horizontales que tenemos en nuestra región de vídeo, en la primera línea horizontal
cogemos dos de cada una de los componentes de color, y en la segunda línea horizontal no cogemos ninguna.
Este tipo de muestreo es muy frecuente actualmente y se utiliza en el h264 de las DSLR de Nikon y Canon, y en el
AVCHD de Sony y Panasonic. También se utiliza en DV PAL. El número de muestras de color es el mismo que en
el 4:1:1, pero con otra distribución geográfica.
Compresión

● supone codificar la información utilizando menos bits, menos datos de información, que la representación original. La compresión
puede ser sin pérdida, lossless, o con pérdida, lossy. Sin pérdida es aquella en la que se reduce la información eliminando sólo
aquellos datos que son redundantes, no se elimina, por tanto, ninguna información que sea relevante. En la compresión con pérdida o
lossy se intenta eliminar la información que es menos relevante y que afecta menos a la calidad del archivo. Casi todas las
compresiones de vídeo son con pérdida, el bitrate de los archivos de vídeo es muy elevado (pensad que cada segundo de vídeo ocupa
lo mismo que 24, 25, o 30 imágenes) y necesitamos reducir estos altos bitrate mediante una compresión.

● Compresión sin pérdida: Este tipo de algoritmos funciona de forma similar a los algoritmos de compresión de ficheros (ZIP, RAR, etc.). El
funcionamiento se basa en eliminar la redundancia que contiene la información original, pero de tal forma que se puede recuperar
posteriormente en su totalidad.

Un ejemplo sencillo de entender sería el siguiente: imagina una escena en la que toda la imagen es de un único color, por ejemplo verde.
La información original sería por ejemplo 2.1 millones de pixels, cada uno codificado con 24bits de color (un montón de MB de datos). Sin
embargo, esa misma imagen se puede codificar indicando el color del primer píxel y luego indicando cuántos píxels se repiten en secuencia
(en este ejemplo 2.1 millones, ya que son todos iguales). El resultado es un fichero de 5-10 bytes. La información de la imagen se puede
recuperar perfectamente a partir de esos 5-10 bytes y obtendríamos exactamente la misma información inicial.

Lógicamente en el mundo real no se pueden conseguir esos rendimientos. De hecho con este tipo de compresión se suele obtener una
eficiencia bastante baja en vídeo, y hay que valorar también si compensa el tiempo de procesamiento.
● Compresión con pérdida (lossy). Prácticamente todas las cámaras utilizan codecs que comprimen los datos con pérdida de información.
Sólo en las producciones cinematográficas o producciones de vídeo de alto presupuesto se trabaja con formatos sin compresión o con
formatos de compresión sin pérdida de información.
Hay muchas técnicas y algoritmos para conseguir la compresión de vídeo con la menor pérdida posible de calidad de imagen. Los
algoritmos se basan en dos tipos de compresión: compresión intraframe y compresión interframe, además se usa mucho la técnica de
submuestreo de crominancia (chroma subsampling).

● La compresión intraframe considera el vídeo como una sucesión de imágenes estáticas e independientes, con lo cual la compresión se
hace dentro de cada imagen sin tener en cuenta las imágenes anteriores y las posteriores.

● En la compresión interframe, sin embargo, no se consideran las imágenes independientemente sino que se compara cada imagen con las
imágenes que la preceden. En que en la mayoría de las escenas de vídeo tienen redundancia espacial y temporal a lo largo de la
secuencia. Es decir, en el mundo real los objetos no pueden moverse de un punto a otro de forma instantánea, por lo que entre un
fotograma y el siguiente es muy probable que una gran parte de la escena sea muy similar. La compresión interframe lo que hace es coger
un fotograma completo como referencia (fotograma I, keyframe, etc.) y lo compara con los siguientes fotogramas para ver qué diferencias
hay. Para cada uno de esos fotogramas sólo se almacena la información de la diferencia, no la información completa.
El ciclo se repite para un número determinado de fotogramas. Los fotogramas que intervienen en cada ciclo forman un grupo de
fotogramas (GOP – group of pictures).
En el caso de MPEG por ejemplo se utiliza una secuencia IPB. Hay un fotograma completo que sirve de referencia. Varios
fotogramas después se genera un fotograma P que almacena una predicción de la escena. Y entre esos dos fotogramas están los
fotogramas B, que contienen información de los objetos en movimiento.
Cuanto mayor sea el grupo de fotogramas (Long GOP) mayor será el ratio de compresión, pero habrá más probabilidades de perder
fidelidad con respecto a la escena real.
● La compresión interframe es muy eficiente y no da problemas si lo único que
necesitamos es reproducir un archivo de vídeo. La cosa cambia radicalmente si lo
que queremos es editar el vídeo. Al hacer un corte, puedes eliminar una imagen que
contiene información clave y a la que otras imágenes están referenciadas. El editor
de vídeo no sabrá recomponer la información de esas imágenes porque su
fotograma de referencia se ha eliminado. Actualmente se ha conseguido solventar
estos problemas y poder editar con códecs de vídeo que tienen una compresión
interframe, pero este proceso de datos sigue siendo muy intensivo, tanto, que en
la práctica a veces nuestros software no saben solventar el enorme proceso de datos
que se les requiere. En estas circunstancias la solución pasa por convertir nuestros
archivos con códec interframe a otros cuya compresión sea intraframe, por ejemplo
Apple ProRes o DnxHD).

http://www.norender.com/guia-norender-com-codecs-lista-de-codecs/
El formato:

Se puede definir el formato como el contenedor de las imágenes. Nos informa de que manera está empaquetada la información y viene definido
por la extensión del archivo. Son una forma de recoger la señal de video y audio (ya codificada) dentro de un «paquete» o formato (.mov, .mp4, .avi,
etc) junto a otra información adicional, es decir, el video ya codificado iría dentro de un container o formato que hace posible la reproducción.

El códec.

La abreviatura de codificador-decodificador nos muestra de qué forma se debe comprimir o descomprimir un archivo, y será el principal
responsable de la calidad de la imagen así cómo del espacio en disco que van a ocupar nuestras imágenes . Los códecs están estrechamente
relacionados con los formatos, ya que determinados códecs trabajan con determinados formatos, y dependiendo del formato en que estemos
trabajando podremos optar a una lista u otra de codificaciones.

Clasificación de los códecs

- Códecs nativos de cámara

- Códecs de intermediación o de postproducción ProRes - DNX

- Códecs de masterización y archivo

- Códecs de difusión
Los códecs de intermediación se emplean en postproducción para el montaje online y para la corrección de color. Tratan de mantener la
calidad de las imágenes originales con una compresión mínima y procurando que el peso final de los archivos no sea muy alto.
También se emplean códecs de intermediación para el montaje offline, creación de dailies de visionado, etc. Normalmente estos van
asociados a niveles mayores de compresión y menor peso de archivo.
Existen muchos códecs de intermediación, aunque los más utilizados son los ProRes de Apple y los DNxHR de Avid.

https://support.apple.com/es-es/HT202410
Códecs de masterización y archivo

Una vez terminada la postproducción se utilizará un códec de máxima calidad para archivar el material. En este momento de la cadena de
producción, el espacio que ocupe el fichero ya no es tan relevante, por lo tanto,se utilizarán códecs sin compresión o con compresión sin
pérdidas, especialmente en cine digital. Es habitual utilizar secuencias de imágenes fijas, es decir, una imagen fija independiente para cada
fotograma. La ventaja de este sistema es que si, por algún motivo, se corrompe un fichero, el resto de los fotogramas quedan intactos.
Ofrece también cierta garantía de que el formato no quedará anticuado o descatalogado con el paso del tiempo.
El inconveniente de estos formatos de archivo es que ocupan muchísimo espacio de almacenamiento. Los formatos más utilizados son
DPX, QuickTime (QT) sin compresión y MXF. El formato DPX es el más recomendable hoy en día porque MXF o QT demandan más
capacidad de proceso a la máquina.

Códecs de difusión

El estándar de difusión del cine digital es el DCP (Digital Cinema Package). El DCP utiliza el códec JPEG 2000, que es una secuencia de
fotogramas con compresión JPG que se encapsula en MXF. Tiene un sistema propio de encriptación para evitar usos ilegítimos de las
copias de alta calidad que se proyectan en las salas.
El DCP es uno de los pocos ejemplos en los que el sistema de masterización y el de emisión coinciden. Es decir, el DCP que se masteriza
en el laboratorio tiene exactamente la misma calidad y características que el que se proyecta en el cine, no hay transformaciones
intermedias.
Para la difusión en televisión se utilizan códecs orientados a optimizar el ancho de banda de transmisión. Se utilizan los códecs MPEG2 o
MPEG4 (H.264) para la televisión digital de resolución estándar y de alta definición. El nuevo salto en esta familia de códecs es el MPEG-H
Vídeo, más conocido como HEVC (H.265), el códec que se está utilizando para la ultra alta definición.
Conectores de video

HDMI

Los cables HDMI se han convertido en una de las formas más comunes y sencillas de conectar un dispositivo a otro para transmitir audio y
vídeo.

Tipos de conectores HDMI

Los cables siempre incluyen conectores macho y están disponibles con tres tipos de conectores: standard, mini y micro. Estas conexiones
también reciben a veces el nombre de A, C y D respectivamente.

● El conector estándar o de tipo A es el más común y es el normal en la gran mayoría de los casos. Las teles, consolas y
otros dispositivos de tamaño medio incluye conectores para este tipo de conector.
● El conector mini o de tipo C tiene un tamaño más compacto y se creó con dispositivos más pequeños en mente, como
cámaras de vídeo. Físicamente es parecido al conector de tipo A, aunque mucho más plano.
● El conector micro o de tipo D es todavía más pequeño y similar a un conector microUSB (que es un cable totalmente
distinto). Es común verlo en dispositivos de pequeño tamaño como cámaras de fotos.
El estándar HDMI ha sido mejorado sucesivamente en distintas versiones, y los cables son diseñados de modo que sean compatibles
con una u otra versión de HDMI. La última versión de HDMI es la versión 2.1, aunque el tipo de cable que encontrarás en tiendas es
comúnmente HDMI 2.0. Estas son las versiones y sus cambios más importantes:

● HDMI 1.0: fue la primera versión lanzada en 2002 y que era básicamente como unir DVI con audio en una única conexión.
Es difícil que encuentres cables HDMI 1.0 hoy en día, capaz de transmitir vídeo Full HD a 60 Hz.
● HDMI 1.1: añade el soporte para DVD Audio.
● HDMI 1.2: el principal cambio fue que permitía el uso de resoluciones y configuraciones personalizadas en lugar de limitarse
a una lista preaprobada, dando más flexibilidad a los fabricantes.
● HDMI 1.3: soporta la transmisión a resolución 2560 × 1440 a 60 Hz y el uso de Dolby TrueHD y DTS-HD Master Audio.
Con esta versión se añadió el conector tipo C (mini).
● HDMI 1.4: soporta 4K aunque solo a 24 Hz además de la posibilidad de actuar también como un conector de red Ethernet.
Se añadió en esta versión el soporte para 3D y el nuevo conector tipo D (micro).
● HDMI 2.0: el más extendido hoy en día y añade soporte para 4K a 60Hz, hasta cuatro streams de audio, y soporte para
HDR dinámico.
● HDMI 2.1: la última versión aumenta todavía más el ancho de banda, permitiendo hasta 8K a 120 Hz, aunque este nuevo
ancho de banda es solo aprovechable con un tipo especial de cable llamado 48G.
SDI (Serial Digital Interface)

Está indicado para instalaciones broadcasts, o sea, que es un conector profesional. Esto, lo podemos constatar porque tiene un conector
con anclaje del tipo bayoneta (comúnmente denominado BNC) que le da una robustez bastante alta. También lo podemos comprobar
porque al contrario que los demás conectores que vamos a ver, éste nos va a permitir transportar la señal de vídeo a distancias más
grandes.

Pueden transportar vídeo y el audio (embebido) sin comprimir.

● SD-SDI: Velocidad de bits: 270 Mbps. Formato de vídeo compatible: PAL (720 x 576) a 25 fps. La recomendación ITU-R BT.601
establece una transmisión de señal de nivel 4:2:2.
● HD-SDI: Velocidad de bits aproximada: 1,5 Gbps (1,485 Gbps en realidad). Es similar a SD-SDI, pero soporta resoluciones de
1080i y 720p.
● 3G-SDI: Velocidad de bits aproximada: 3 Gbps (2,97 Gbps en realidad). Soporta resoluciones de 1080p 60 y DCI (cine digital).
● 6G-SDI: Velocidad de bits: 6 Gbps. Formato de vídeo: 2160p 30. Esta norma especifica las características eléctricas y físicas de la
señal, cables y conectores coaxiales.
● 12G-SDI: Velocidad de bits: 12 Gbps. Formato de vídeo: 4K 60p. Garantiza ocho veces la velocidad de transmisión de datos de
HD-SDI con un sólo cable.
● 24G-SDI: Velocidad de bits: 24 Gbps. Formato de vídeo hasta 8K 120p

También podría gustarte