0% ont trouvé ce document utile (0 vote)
723 vues417 pages

Null

Transféré par

I'm otaku
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
723 vues417 pages

Null

Transféré par

I'm otaku
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

secrets de

Les
l’image vidéo
Colorimétrie - Éclairage - Optique - Caméra - Signal vidéo
Compression numérique - Formats d’enregistrement
CHEZ LE MÊME ÉDITEUR
Dans la même collection

F. RUMSEY, T. MCCORMICK.
Son et enregistrement, théorie et pratique.
1re édition 1994, 6 e tirage 2000, 15,5 X 23,5, 352 pages, N° G00501.
Nouvelle édition à paraître (2002).

C. HUGONNET, P. WALDER
Théorie et pratique de la prise de son stéréophonique
2e édition 1998, 17 X 24, 272 pages, n° G09813

F. RUMSEY, J. WATKINSON
Le guide des interfaces numériques
AES u UER u SPDIF u MADI u SDI u Codage u Synchronisation u Métrologie
1re édition 1999, 17 X 24, 432 pages, n° G05506

A. RICHARD
Guide pratique de la sonorisation
1re édition 1999, 17 X 24, 192 pages, n° G05509

J. WATKINSON.
La réduction de débit en audio et vidéo.
JPEG u MPEG1 u MPEG2 u Redondance u Entropie u Inter u Intra.
1re édition 1999, 17 X 24, 272 pages, N° G09814.

F. RATCLIFF.
Time Code – Mode d’emploi.
Guide professionnel.
1re édition 1999, 17 X 24, 320 pages, N° G05508.

H. BERNARD.
L’image numérique et le cinéma.
1re édition 2000, 17 X 24, 216 pages, N° G05517.

A. LUTHER.
Audio et vidéo numériques, principes et applications.
1re édition 2001, 17 X 24, 546 pages, N° G05513.

J.M. MARIANI.
Conduite de projets broadcast radio & TV.
1re édition 2001, 17 X 24, 376 pages, N° G11021

Hors collections

D. LYVER, G. SWAINSON.
Découvrir l’éclairage vidéo.
1re édition 2000, 13,5 X 21,5, 216 pages, N° G05518.

R. BROCA, C. JACQUEMART.
Découvrir les métiers du cinéma d’animation et des effets spéciaux.
1re édition 2000, 13,5 X 21,5, 152 pages, N° G05519.

Dans la collection Vidéo Numérique

S. SMITH
Vos vidéos avec iMovie
1re édition 2001, 23 X 23, 160 pages, N° G09295, + DVD-Rom Mac.
secrets de
Les
l’image vidéo
Colorimétrie - Éclairage - Optique - Caméra - Signal vidéo
Compression numérique - Formats d’enregistrement

Philippe Bellaïche

QUATRIÈME ÉDITION
EDITIONS EYROLLES
61, Bld Saint-Germain
75240 Paris cedex 05
[Link]

Le code de la propriété intellectuelle du 1er juillet 1992 interdit en effet


expressément la photocopie à usage collectif sans autorisation des ayants
droit. Or, cette pratique s’est généralisée notamment dans les établissements
d’enseignement, provoquant une baisse brutale des achats de livres, au point
que la possibilité même pour les auteurs de créer des œuvres nouvelles et de
les faire éditer correctement est aujourd’hui menacée.
En application de la loi du 11 mars 1957, il est interdit de reproduire intégralement ou par-
tiellement le présent ouvrage, sur quelque support que ce soit, sans autorisation de l’Éditeur
ou du Centre Français d’Exploitation du Droit de Copie, 20, rue des Grands-Augustins,
75006 Paris.
© Éditions Eyrolles 2002, ISBN 2-212-11025-1
ISBN Adobe eBook™ édition: 2-212-28240-0
Distribution numérique par GiantChair, Inc.
Sommaire

Préface............................................................................................................................. XIII

Chapitre 1. La colorimétrie 1

1.1. La lumière ....................................................................... 2


1.1.1. La composition de la lumière ............................... 2
1.1.2. Les sources de lumière ......................................... 4
1.1.3. La propagation de la lumière................................ 5
1.1.4. Les principales grandeurs photométriques ........... 8
1.2. L’œil et la vision ............................................................. 10
1.2.1. Constitution de l’œil ............................................. 10
1.2.2. Les cônes et les bâtonnets..................................... 12
1.2.3. La courbe de visibilité relative ............................. 13
1.2.4. Les imperfections de l’œil .................................... 14
1.3. La couleur ....................................................................... 15
1.3.1. La couleur d’un corps ........................................... 15
1.3.2. Les filtres .............................................................. 16
1.3.3. Luminance, teinte, saturation................................ 17
1.4. La température de couleur .............................................. 18
1.4.1. Le rayonnement du corps noir.............................. 18
1.4.2. Les blancs étalons ................................................. 19
1.4.3. La caméra et l’œil : quelles différences ?............ 21
1.5. Les bases de la trichromie .............................................. 21
1.5.1. Les primaires de la CIE ........................................ 22
1.5.2. La synthèse additive des couleurs ........................ 22
1.5.3. Les composantes trichromatiques......................... 23
1.5.4. L’espace RVB ....................................................... 24

I
LES SECRETS DE L’IMAGE VIDÉO

1.5.5. L’espace XYZ ....................................................... 26


1.5.6. Le diagramme de chromaticité (x, y) ................... 27
1.5.7. Le diagramme de chromaticité uniforme (u’, v’) ... 29
1.6. La chaîne colorimétrique de télévision en couleurs ....... 31
1.6.1. Les primaires de la télévision ............................... 31
1.6.2. Espaces colorimétriques d’analyse et
de synthèse............................................................ 33
1.6.3. Le signal vidéo...................................................... 35
1.7. La reproduction de l’image vidéo................................... 37
1.7.1. Le tube cathodique................................................ 37
1.7.2. Le balayage entrelacé ........................................... 39
1.7.3. Le balayage progressif.......................................... 42

Chapitre 2. L’éclairage en studio 43

2.1. Les spécificités de l’éclairage en studio de télévision.... 44


2.1.1. Les exigences techniques de la caméra ................ 44
2.1.2. La restitution sur un petit écran ............................ 44
2.1.3. La multiplicité des angles de prise de vues .......... 45
2.2. Face, contre-jour, ambiance : les bases de l’éclairage
type.................................................................................. 45
2.3. Les lampes ...................................................................... 47
2.3.1. Les lampes à incandescence tungstène/halogène
(TH)....................................................................... 47
2.3.2. Les lampes à décharge à halogénures métalliques
(HMI) .................................................................... 48
2.3.3. Les tubes fluorescents........................................... 50
2.3.4. L’indice de rendu des couleurs « Ra »................ 50
2.4. Les projecteurs ................................................................ 51
2.4.1. Le projecteur à lentille de Fresnel ........................ 51
2.4.2. Le projecteur ouvert.............................................. 52
2.4.3. Le projecteur de découpe...................................... 53
2.4.4. Le projecteur de poursuite .................................... 53
2.4.5. Les ambiances....................................................... 54
L’ambiance cyclorama ........................................ 54

II
Sommaire

2.4.6. Les boîtes à lumière froide ................................... 56


2.4.7. Les projecteurs automatisés.................................. 57
[Link]. Le « Vari*lite » ..................................... 57
[Link]. Le « Telescan » ..................................... 58
2.4.8. Les jeux d’orgue .................................................. 58
2.4.9. Comment doser la lumière.................................... 60
2.4.10. L’éclairage d’un visage....................................... 62
2.4.11. Le contrôle en régie ............................................ 64

Chapitre 3. L’optique 67

3.1. Le vocabulaire de l’optique ............................................ 68


3.1.1. La lentille .............................................................. 68
3.1.2. La construction d’une image ................................ 69
[Link]. Construction d’une image
par une lentille convergente ................... 69
[Link]. Construction d’une image
par une lentille divergente...................... 73
3.1.3. Les plans principaux d’un objectif ....................... 74
3.2. Le cadrage....................................................................... 75
L’angle de champ ................................................ 77
3.3. Le choix de la focale....................................................... 79
3.3.1. Caractéristiques des focales courtes ......................... 83
3.3.2. Caractéristiques des focales longues ........................ 84
3.4. Le zoom .......................................................................... 84
La mise au point arrière (tirage optique) ............. 88
3.5. Le diaphragme ................................................................ 89
3.5.1. L’ouverture relative d’une lentille ........................ 89
3.5.2. L’échelle des valeurs de diaphragme.................... 90
3.5.3. L’ouverture photométrique ................................... 93
3.5.4. Le ramping............................................................ 93
3.6. La profondeur de champ................................................. 94
3.6.1. La distance hyperfocale ........................................ 95
3.6.2. Le cercle de confusion.......................................... 96
3.7. Les principaux défauts optiques ..................................... 97

III
LES SECRETS DE L’IMAGE VIDÉO

3.7.1. Les aberrations chromatiques ............................... 97


[Link]. L’aberration chromatique longitudinale ... 97
[Link]. L’aberration chromatique latérale ......... 98
[Link]. Correction des aberrations chromatiques 99
3.7.2. Les aberrations géométriques ............................... 100
[Link]. L’aberration sphérique........................... 100
[Link]. La coma .................................................. 101
[Link]. L’astigmatisme........................................ 101
[Link]. La courbure de champ............................ 102
[Link]. La distorsion........................................... 102
3.7.3. La diffraction ........................................................ 103
3.7.4. Le vignettage et la loi du cosinus puissance 4 ..... 105
3.7.5. Le flare (diffusion optique)................................... 106
3.8. La fonction de transfert de modulation .......................... 106
3.9. Les compléments optiques.............................................. 110
3.9.1. Les convertisseurs de focales ............................... 110
3.9.2. Les multiplicateurs de focales intégrés................. 111
3.9.3. Les filtres de conversion de couleur..................... 112
3.9.4. Le filtre polarisant................................................. 113
3.10. La mise au point interne ................................................. 113
3.11. Le stabilisateur optique................................................... 115
3.12. Les objectifs à servosystème numérique ........................ 116

Chapitre 4. La caméra 119

4.1. Le séparateur optique...................................................... 120


4.2. Les filtres ........................................................................ 122
4.3. Les capteurs CCD .......................................................... 123
4.3.1. Un peu d’histoire .................................................. 123
4.3.2. Principe de fonctionnement d’une cellule............... 123
4.3.3. Conversion optoélectronique par une cellule ....... 126
4.3.4. Transfert des charges ............................................ 127
4.3.5. La structure à transfert interligne (CCD IT)......... 129
[Link]. Principe du transfert interligne.............. 129
[Link]. Choix du temps d’intégration................. 132

IV
Sommaire

[Link]. Le smear ................................................. 134


4.3.6. La structure à transfert d’image (CCD FT) .......... 135
4.3.7. La structure à transfert d’image interligne
(CCD FIT)............................................................. 137
4.3.8. Les capteurs HAD................................................. 139
4.3.9. Les microlentilles.................................................. 141
4.3.10. L’obturateur électronique.................................... 142
4.3.11. L’aliasing............................................................. 143
[Link]. Le décalage spatial ............................... 145
[Link]. Le filtre optique passe-bas.................... 146
4.4. Le traitement vidéo dans une caméra CCD.................... 147
4.4.1. Les avantages du numérique................................. 147
4.4.2. L’échantillonnage.................................................. 149
4.4.3. La correction de flare............................................ 151
4.4.4. La correction de taches au noir............................. 153
4.4.5. La correction de taches aux blancs....................... 153
4.4.6. La correction de masking ..................................... 154
4.4.7. La correction des pixels défectueux ..................... 156
4.4.8. La correction d’ouverture ..................................... 158
4.4.9. La correction de contour....................................... 158
[Link]. Le signal de contour............................... 158
[Link]. Les réglages de la correction
de contour............................................... 160
4.4.10. La correction de contre-tops (Black Pulse) ........ 163
4.4.11. La compression des blancs ................................. 163
4.4.12. La correction de gamma ..................................... 165
4.4.13. La conversion analogique/numérique
sur 12 bits............................................................ 167
4.5. La caméra et son environnement .................................... 169
4.5.1. Caméscope, ENG, EFP, studio ............................. 169
4.5.2. L’équipement de prise de vues ............................. 170
[Link]. La voie de commande............................. 171
[Link]. Le pupitre d’exploitation ........................ 171
[Link]. Le pupitre de réglages centralisé ........... 171
4.5.3. La liaison voie de commande/tête de caméra....... 172
[Link]. La liaison multiconducteur..................... 173

V
LES SECRETS DE L’IMAGE VIDÉO

[Link]. La liaison triaxiale ................................. 173


[Link]. Les liaisons sans fil ................................ 174
4.6. Les réglages d’exploitation............................................. 174
4.7. Le format de l’image : du 4/3 au 16/9............................ 180
La commutation 4/3-16/9 sur une caméra CCD... 181
4.8. Les caméras à haute définition ....................................... 183

Chapitre 5. Le signal vidéo analogique et numérique 185

5.1. Le signal vidéo analogique ............................................. 186


5.1.1. Le signal composite .............................................. 187
[Link]. Réduction de la bande passante de la
chrominance ........................................... 188
[Link]. Imbrication du spectre de la chromi-
nance dans celui de la luminance .......... 189
[Link]. Organisation du signal composite.......... 191
[Link]. La résolution de l’image vidéo............... 192
[Link]. Le NTSC ................................................. 193
[Link]. Le PAL .................................................... 194
[Link]. Le SECAM .............................................. 195
5.1.2. Les systèmes en composantes............................... 196
5.2. Le signal vidéo numérique.............................................. 198
5.2.1. La genèse de la vidéo numérique ......................... 198
5.2.2. Signal analogique et signal numérique :
quelles différences ?.............................................. 199
[Link]. Le signal analogique .............................. 199
[Link]. Le signal numérique ............................... 201
5.2.3. Principe de la conversion analogique/numérique.... 203
5.2.4. Les signaux vidéo à numériser ............................. 205
5.2.5. L’échantillonnage.................................................. 206
[Link]. La loi de Shannon et Nyquist ................. 206
[Link]. Les fréquences d’échantillonnage
du signal vidéo........................................ 210
5.2.6. La norme [Link]...................................................... 211
5.2.7. Choix de la structure d’échantillonnage ............... 213
5.2.8. La quantification ................................................... 215

VI
Sommaire

[Link]. Principe de base ..................................... 215


[Link]. La quantification du signal vidéo........... 217
5.2.9. La correction d’erreurs ......................................... 218
[Link]. L’entrelacement des données.................. 220
[Link]. La dissimulation ..................................... 221
5.2.10. Le codage de canal ............................................. 221
[Link]. NRZ (Non Retour à Zéro)..................... 222
[Link]. S-NRZ
(Scrambled NRZ = NRZ embrouillé) ... 222
[Link]. NRZI (Non Retour à Zéro Inversé)....... 222
[Link]. Biphase Mark........................................ 222
[Link]. Miller, ou MFM (Modified Frequency
Modulation) .......................................... 222
[Link]. Miller carré (Miller2) ........................... 223
5.2.11. La ligne vidéo numérique ................................... 224
5.2.12. La trame vidéo numérique.................................. 225
5.2.13. Les interfaces numériques parallèle et série....... 227
[Link]. Sérialisation du signal [Link] ................ 229
[Link]. Désérialisation du signal [Link]............ 230

Chapitre 6. La compression numérique 233

6.1. La compression numérique : pourquoi ? ........................ 234


6.2. La compression numérique : comment ?........................ 235
6.2.1. Compressions « lossless » et « lossy » ................. 236
6.2.2. Les redondances de l’image vidéo ....................... 237
[Link]. La redondance spatiale .......................... 237
[Link]. La redondance temporelle ...................... 237
[Link]. La redondance subjective ....................... 238
[Link]. La redondance statistique....................... 238
6.3. Quelques ordres de grandeur .......................................... 239
Les débits avant compression.............................. 239
6.4. Les normes de compression : JPEG, MPEG-1, MPEG-2 242
6.4.1. JPEG ..................................................................... 242
6.4.2. MPEG-1 ................................................................ 243
6.4.3. MPEG-2 ................................................................ 243

VII
LES SECRETS DE L’IMAGE VIDÉO

6.5. JPEG : la compression des images fixes ....................... 245


6.5.1. Du domaine temporel au domaine fréquentiel :
la Transformée en Cosinus Discrète (DCT) ......... 245
6.5.2. Les six fonctions clés de l’algorithme JPEG........ 246
[Link]. Première fonction : décomposition en
blocs........................................................ 247
[Link]. Deuxième fonction : Transformée en
Cosinus Discrète (DCT) ......................... 247
[Link]. Troisième fonction : quantification
des coefficients DCT............................... 250
[Link]. Quatrième fonction : balayage en
zigzag de la matrice................................ 252
[Link]. Cinquième fonction : codage à
longueur variable ................................... 252
[Link]. Sixième fonction : codage entropique .... 252
6.5.3. Synoptique de l’algorithme de compression JPEG. 253
6.6. MPEG-1 : la compression vidéo pour le multimédia .... 255
6.6.1. Le format source SIF (Source Intermediate
Format) de MPEG-1............................................. 256
6.6.2. Les «GOP» en MPEG........................................... 257
6.6.3. L’estimation de mouvement en MPEG ................ 260
6.6.4. La régulation du débit........................................... 262
6.6.5. Le codeur MPEG .................................................. 263
6.6.6. Le décodeur MPEG .............................................. 264
6.7. MPEG-2 : la compression vidéo broadcast ................... 265
6.7.1. Les Profils et Niveaux de MPEG-2 ...................... 266
[Link]. Les Profils de MPEG-2 .......................... 266
[Link]. Les Niveaux de MPEG-2 ........................ 268
6.7.2. Le MPEG-2 422 (ou 422P@ML)......................... 269
Les « plus » du Profil [Link]................................. 270
6.7.3. La technologie The Mole ...................................... 272
6.8. Les applications de la compression numérique .............. 274
6.8.1. Les formats d’enregistrement vidéo ..................... 274
[Link]. M-JPEG .................................................. 274
[Link]. DV........................................................... 275
[Link]. MPEG-2 422........................................... 276
[Link]. Panorama des formats d’enregistrement

VIII
Sommaire

compressés.............................................. 276
6.8.2. L’enregistrement sur disques durs :
les serveurs vidéo.................................................. 278
[Link]. Constitution d’un disque dur.................. 279
[Link]. La technologie RAID .............................. 280
6.8.3. Le montage virtuel................................................ 282
[Link]. Montage on line, montage off-line ......... 282
[Link]. Les bases du montage virtuel ................. 283
6.8.4. Le DVD................................................................. 284
6.8.5. La diffusion numérique......................................... 287
6.8.6. La vidéo sur internet ............................................. 288
[Link]. Téléchargement et streaming.................. 289
[Link]. Les différents réseaux de diffusion
sur Internet ............................................. 290
6.9. MPEG-4 et MPEG-7....................................................... 291
6.9.1. MPEG-4 : le codage des objets audiovisuels ....... 292
Les applications de MPEG-4 .............................. 294
6.9.2. MPEG-7 : la description des contenus multimédia. 296
Les applications de MPEG-7 .............................. 298

Chapitre 7. Les formats d’enregistrement 299

7.1. Notions d’enregistrement magnétique ............................ 300


7.1.1. Principe de l’enregistrement/lecture ..................... 300
7.1.2. Le cycle d’hystérésis............................................. 300
7.1.3. La bande magnétique............................................ 302
7.2. Les spécificités de l’enregistrement du signal vidéo...... 303
7.2.1. La plage de fréquences à enregistrer .................... 303
7.2.2. L’enregistrement hélicoïdal .................................. 304
7.2.3. Les pistes longitudinales....................................... 306
7.2.4. L’azimut ................................................................ 306
7.2.5. Le time code ......................................................... 307
7.2.6. Les pertes et défauts de l’enregistrement ............. 308
[Link]. Effet d’éloignement................................. 308
[Link]. Effet d’azimut.......................................... 308
[Link]. Les drop-out............................................ 309
7.3. Les méthodes d’enregistrement vidéo analogiques ........ 309

IX
LES SECRETS DE L’IMAGE VIDÉO

7.3.1. L’enregistrement direct du signal composite


(2", 1"B, 1"C) ....................................................... 309
7.3.2. Le procédé « under color » (U-Matic, VHS,
8mm) ..................................................................... 310
7.3.3. Le composite séparé Y/C (S-VHS, Hi8) .............. 310
7.3.4. L’enregistrement en composantes
(Betacam, Betacam SP) ........................................ 312
7.4. Les méthodes d’enregistrement vidéo numériques ........ 312
7.4.1. Les formats en composantes numériques
(D1, D5) ................................................................ 312
7.4.2. Les formats composites numériques (D2, D3) ..... 313
7.4.3. Les formats numériques compressés .................... 313
7.5. La famille VHS............................................................... 314
7.5.1. Le VHS ................................................................. 314
7.5.2. Le VHS-C ............................................................. 315
7.5.3. Le VHS-HiFi......................................................... 317
7.5.4. Le S-VHS.............................................................. 318
7.6. La famille 8mm............................................................... 320
7.6.1. Le 8mm ................................................................. 320
[Link]. L’audio.................................................... 321
[Link]. La bande et les pistes ............................. 322
[Link]. Le suivi des pistes................................... 322
7.6.2. Le Hi8 ................................................................... 324
La bande ME (Metal Évaporé)............................ 324
7.7. Le Betacam SP................................................................ 325
7.7.1. Du Betacam au Betacam SP ................................. 325
7.7.2. La compression temporelle des signaux de
différence de couleurs........................................... 326
7.7.3. Les caractéristiques du format Betacam SP ......... 327
7.7.4. Le suivi dynamique des pistes :
les têtes « Dynamic Tracking (DT) » ................... 328
7.7.5. La compatibilité Betacam/Betacam SP ................ 330
7.7.6. Le Betacam SP avec audio numérique ................. 330
7.8. Le D1 .............................................................................. 331
7.8.1. La segmentation.................................................... 331
7.8.2. La structure d’enregistrement ............................... 332
7.8.3. Le tambour de têtes............................................... 333

X
Sommaire

7.8.4. Le traitement vidéo ............................................... 335


7.8.5. Le traitement audio ............................................... 337
7.9. Le D2 .............................................................................. 337
7.9.1. La structure d’enregistrement ............................... 338
7.9.2. Le tambour de têtes............................................... 340
7.9.3. La fonction pre-read, ou de lecture avancée ........ 340
7.9.4. Le traitement du signal ......................................... 341
7.10. Le D3 .............................................................................. 342
7.10.1. La structure d’enregistrement ............................. 342
7.10.2. Le tambour de têtes............................................. 343
7.10.3. Le traitement du signal ....................................... 345
7.11. Le D5 .............................................................................. 346
7.11.1. La bande et les têtes............................................ 346
7.11.2. Le traitement du signal ....................................... 347
Le 16/9 à définition horizontale améliorée ......... 348
7.12. Le Digital Betacam ......................................................... 349
7.12.1. La structure d’enregistrement ............................. 350
7.12.2. Le tambour de têtes............................................. 351
7.12.3. Le traitement du signal ....................................... 352
7.13. Le DV (Digital Video) .................................................... 355
7.13.1. Le signal vidéo du DV........................................ 356
7.13.2. La réduction de débit en DV .............................. 358
7.13.3. La structure d’enregistrement ............................. 359
7.13.4. Les cassettes........................................................ 361
7.13.5. L’interface IEEE1394 ......................................... 362
7.14. Le DVCAM .................................................................... 362
7.15. Le DVCPRO25 (D7) ...................................................... 364
7.16. Le DVCPRO50 ............................................................... 366
7.17. Le D9 .............................................................................. 368
7.18. Le Betacam SX ............................................................... 369
7.18.1. Un format MPEG-2 422 inter-image.................. 369
7.18.2. Les caractéristiques techniques........................... 371
7.18.3. Le système de tracking ....................................... 372
7.19. Le MPEG-IMX (D10) .................................................... 373
7.19.1. Un format MPEG-2 422 intra-image.................. 373
7.19.2. La compatibilité avec la famille Betacam ............. 374

XI
LES SECRETS DE L’IMAGE VIDÉO

7.19.3. Les caractéristiques techniques .............................. 374


7.19.4. La liaison SDTI................................................... 375
7.20. Le Digital8 ...................................................................... 378
7.21. Le D-VHS ....................................................................... 380
7.22. Les formats à haute définition ........................................ 383
7.22.1. Le D6 .................................................................. 384
7.22.2. Le D5-HD ........................................................... 385
7.22.3. Le D9-HD ........................................................... 385
7.22.4. Le DVCPRO-HD................................................ 385
7.22.5. Le HDCAM ........................................................ 386
7.23. 24p : un standard universel pour la haute définition ...... 387
7.23.1. Une résolution de 1920 × 1080
à 24 images/seconde ........................................... 387
7.23.2. La conversion 24p/TV standard ......................... 388
7.23.3. Le 24p segmenté (24psf) .................................... 390
7.24. Le MICROMV................................................................ 391

Index ......................................................................................... 393

XII
Préface

Voici la quatrième édition des Secrets de l’image vidéo, un


ouvrage devenu, depuis sa première parution, une véritable réfé-
rence tant dans les milieux professionnels que dans les écoles
formant aux métiers de l’audiovisuel. L’auteur a conservé au
livre sa structure logique initiale, toujours pertinente, mais il l’a
enrichi, comme à chaque réédition, remaniant l’ensemble des
chapitres en prenant en compte les toutes dernières innovations
technologiques. Car Philippe Bellaïche sait de quoi il parle :
ingénieur de la vision depuis 1987 à Canal+, il exploite quoti-
diennement les équipements vidéo permettant de mettre en
image toutes les productions internes de la chaîne cryptée. Il col-
labore par ailleurs régulièrement à différentes publications tech-
niques, ce qui lui donne l’occasion, plusieurs fois par an, de par-
courir les stands des industriels de la vidéo dans les grands
salons internationaux du NAB, au printemps à Las Vegas, et de
l’IBC, à Amsterdam à l’automne, mais aussi d’assister à de nom-
breuses conférences sur les nouvelles technologies. Cette vision
sur la durée et les multiples contacts qu’il a noués tout au long
de ces années, conjugués à son expérience professionnelle dans
les studios de télévision, donnent à son propos une profondeur
particulièrement intéressante. Le domaine de la vidéo, comme
celui du son, est en effet paradoxal car il fait cohabiter l’ancien
et le nouveau. Si l’analogique est aujourd’hui restreint au pre-
mier stade de la captation du signal et à l’ultime étape de sa res-
titution, le numérique, lui, a colonisé toute la chaîne de l’analyse,
du traitement, de la manipulation, du stockage et du transport
d’un message à la fois électronique et informatique. Malgré leur
fulgurante évolution, les outils de prise de vues s’exploitent tou-
jours de la même manière, imposant à leurs utilisateurs des
règles codifiées de mise en œuvre pérennes pour l’éclairage et le

XIII

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

cadrage. En revanche, nombre d’équipements récents sont direc-


tement issus de l’informatique et ont introduit de nouvelles pra-
tiques professionnelles, quand ce ne sont pas de nouveaux
métiers. Cette évolution permanente n’est d’ailleurs pas en passe
de s’arrêter puisqu’elle affecte le cinéma – avec la production en
haute définition et la norme 24p – mais aussi l’Internet dont la
mutation vers les applications à large bande n’attendent plus que
les réseaux à haut débit pour concurrencer les médias électro-
niques traditionnels.

Philippe Pelaprat,
Grand reporter à 01 Réseaux

XIV

© Éditions Eyrolles
1 La colorimétrie

Quelles sont les principales unités permettant de caractériser la lumière ?


Comment notre œil perçoit-il les couleurs ?
Qu’est-ce que la courbe de visibilité de l’œil ?
Qu’est-ce que la température de couleur d’une lumière ?
Comment une caméra reproduit-elle les couleurs ?
Quelles sont les différences de perception entre l’œil et la caméra ?
Qu’est-ce que la trichromie ?
Selon quels critères les couleurs primaires de la télévision ont-elles été définies ?
Qu’est-ce que le diagramme de chromaticité ?
Comment le signal vidéo couleur a-t-il été défini ?
Comment est reproduite une image vidéo sur un téléviseur ?
Quels sont les avantages et inconvénients du balayage entrelacé ?
Qu’est-ce que le balayage progressif ?

Ce premier chapitre expose les notions de base de la colorimétrie, passage obligé


entre le monde réel et celui des systèmes de reproduction d’images que nous uti-
lisons couramment. Après un rappel succint de quelques généralités sur la nature
de la lumière et le principe de la vision humaine, nous nous intéresserons aux
propriétés de la synthèse additive et aux différents espaces géométriques per-
mettant de placer les couleurs. Puis nous verrons comment toute cette théorie a
été appliquée à la télévision. Tout cela nous conduira à la définition du signal
vidéo, puis au processus de restitution des images sur un téléviseur en couleurs.

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

1.1 La lumière

1.1.1. La composition de la lumière


La lumière constitue une petite fraction du spectre des radiations
électromagnétiques, dont nous connaissons également les ondes
radio ou les ondes radar, par exemple. Les ondes électromagné-
tiques qui composent la lumière se propagent dans le vide à une
vitesse proche de c = 300 000 km/s (cette vitesse est la plus éle-
vée connue dans l’univers). Chaque radiation est caractérisée par
une longueur d’onde λ et une fréquence d’oscillation f, qui sont
telles que λ = c/f. Les radiations perceptibles par l’œil sont celles
dont la fréquence est comprise entre 7,9.1014 et 3,85.1014 Hz, ce
qui équivaut à des longueurs d’ondes de 380 à 765 nm
(1 nm = 10 –7 cm). La plus petite longueur d’onde visible cor-
respond au violet, la plus élevée, au rouge. Entre ces deux limites,
les longueurs d’ondes correspondent au bleu, au vert, au jaune et
à l’orange, avec plusieurs centaines de nuances, notamment dans
le vert, auquel l’œil est très sensible. Les longueurs d’ondes
situées en dessous du spectre visible sont celles du rayonnement
ultraviolet, puis des rayons X. Les longueurs d’ondes situées au-
dessus du spectre visible sont les radiations infrarouges, suivies
des ondes radio. Notons que les termes « ultra » et « infra » se
réfèrent au classement des radiations par fréquences, et non à celui
par longueurs d’onde utilisé en optique.
À chacune des fréquences ou longueurs d’ondes de radiations
lumineuses correspond une couleur pure : on parle de lumière
monochromatique. Mais à quelques exceptions près (laser,
lampes à vapeur de sodium...), la plupart des sources de lumière
délivrent un mélange complexe de plusieurs radiations mono-
chromatiques. On parle alors de lumière polychromatique. C’est
l’amplitude relative de chacune de ces radiations qui détermine
la dominante colorée observée. Une lumière constituée de toutes
les composantes du spectre visible à énergie égale est une
lumière blanche ou grise (selon son intensité), c’est-à-dire don-
nant l’impression d’absence de couleur. La lumière solaire en est
une bonne approximation. On appelle stimulus de couleur tout

© Éditions Eyrolles
1 • La colorimétrie

rayonnement physiquement défini qui pénètre dans l’œil et pro-


duit une sensation de couleur.

380 460 510 580 620 765

Oranges
Jaunes
Ultraviolets Violets Bleus Verts Rouges Infrarouges

Longeur d'onde (nm)

300 400 500 600 700 800

Fréquence (1014 Hz) 7,9 6,5 5,9 5,2 4,8 3,85


Faisceaux hertziens

Spectre
Radiodiffusion MF

Rayons gamma
visible
Radiodiffusion
Radiographie

Ultraviolets
Infrarouges
Télévision

Rayons X
et

Satellites
Radars

Fréquence

1 10 102 1 10 102 1 10 102 1 10 102 103 106 108

Kilohertz Mégahertz Gigahertz Térahertz

Figure 1.1
Répartition des fréquences et longueurs d’ondes du spectre visible dans l’ensemble du spectre des ondes électromagnétiques.

Tableau 1.1
Correspondance entre les couleurs principales et leurs longueurs d’onde.

Couleur Longueur d’onde Couleur Longueur d’onde

Violet 380 à 435 nm Vert jaunâtre 530 à 560 nm


Indigo 435 à 465 nm Jaune verdâtre 560 à 575 nm
Bleu 465 à 482 nm Jaune 575 à 580 nm
Bleu verdâtre 482 à 487 nm Jaune orange 580 à 587 nm
Cyan ou turquoise 487 à 492 nm Orange 587 à 596 nm
Vert bleuté 492 à 498 nm Rouge orange 596 à 620 nm
Vert 498 à 530 nm Rouge 620 à 765 nm

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

La lumière peut être considérée comme un rayonnement d’énergie électromagnétique. Chaque


radiation, caractérisée par une longueur d’onde, donne une couleur pure. Mais la plupart des
couleurs visibles sont composées d’un mélange de plusieurs couleurs pures.

Précisons cependant qu’il existe une famille de couleurs qui


n’ont pas de longueur d’onde propre, mais dont chacune résulte
du mélange à dosage variable de deux couleurs, l’une située dans
les rouges, l’autre dans les bleus-violets ; ces lumières bichro-
matiques sont appelées pourpres.

Écran
blanc
Lumière solaire
Rouge
Prisme Orange
Jaune
Vert
Bleu
Indigo
Violet

Figure 1.2
En 1966, le physicien et mathématicien britannique Isaac Newton découvre qu’un faisceau de lumière solaire se décompose
au travers d’un prisme en sept couleurs principales. La raison en est que les couleurs ont des vitesses différentes dans le
même verre. La couleur dont la longueur d’onde est la plus courte est la plus ralentie, donc la plus réfractée. En déviant
inégalement les lumières colorées, le prisme révèle ainsi la composition de la lumière qui le frappe. L’arc-en-ciel est une
illustration naturelle de ce phénomène, la dispersion de la lumière étant réalisée par les goutelettes de pluies qui agissent
comme des prismes.

1.1.2. Les sources de lumière


On distingue les objets lumineux par eux-mêmes et les objets
éclairés. Les objets lumineux, tels que le Soleil ou les corps
incandescents, sont de véritables sources de lumière puisqu’ils
émettent leurs propres rayons lumineux. Les objets éclairés ne
font, quant à eux, que réfléchir une partie plus ou moins impor-
tante de la lumière qu’ils reçoivent.

© Éditions Eyrolles
1 • La colorimétrie

Les sources chaudes émettent de la lumière du fait de leur tem-


pérature élevée. Le Soleil est une source de lumière naturelle (sa
température est de l’ordre de 6 000 °C à sa surface), tandis
qu’une lampe est une source de lumière artificielle (elle émet de
la lumière lorsque son filament est porté à l’incandescence par le
passage d’un courant).
Les sources froides émettent de la lumière sans avoir à être sou-
mises à un échauffement important ; citons, pour exemple, les
diodes électroluminescentes (LED), ou l’écran d’un tube de télé-
vision.

1.1.3. La propagation de la lumière


La lumière se propage dans des milieux soit transparents, soit
translucides. Un milieu transparent, tel que l’eau ou le verre, se
laisse totalement traverser par la lumière ; les objets y sont par-
faitement visibles. Un milieu translucide transmet également la
lumière, mais en la diffusant, empêchant ainsi d’y distinguer les
objets. Un corps opaque ne laisse pas passer la lumière ; il en
absorbe une partie et réfléchit l’autre.
Dans un milieu transparent et homogène, la lumière se propage
en ligne droite. Son intensité par unité de surface diminue avec
le carré de la distance à la source. Tout trajet rectiligne suivi par
la lumière est appelé rayon lumineux (notons bien que cette défi-
nition est théorique car il est impossible dans la pratique d’isoler
un rayon lumineux).
Un faisceau lumineux est un ensemble de rayons lumineux. Il est
divergent si tous ses rayons sont issus d’un même point, convergent
si, au contraire, ses rayons aboutissent à un même point ; enfin, il
est cylindrique si tous ses rayons sont parallèles.
La lumière qui frappe un corps opaque est réfléchie dans des
directions déterminées si la surface du corps est polie, et dans
toutes les directions (de manière diffuse) si la surface du corps
est mate ou rugueuse. Certaines fréquences sont réfléchies plus
que d’autres, ce qui donne aux objets leur couleur caractéris-
tique. Le système optique de tout équipement de prise de vues
répond à des rayons lumineux réfléchis. Les tableaux 1.2 et 1.3

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

donnent quelques autres valeurs de réflexion moyennes de cer-


tains matériaux et couleurs.

Tableau 1.2
Valeurs de réflexion moyenne de certains matériaux.

Matériau Réflexion
Plâtre 85 %
Papier blanc 84 %
Marbre blanc 83 %
Carreaux de faïence 70 %
Ciment 55 %
Chêne naturel 33 %
Brique rouge 20 %
Acajou 12 %
Ardoise 10 %

Tableau 1.3
Valeurs de réflexion moyenne de certaines couleurs.

Couleur Réflexion
Jaune citron 70 %
Bleu clair 48 %
Gris clair 45 %
Beige 43 %
Rose saumon 42 %
Orange 40 %
Vert d’eau 38 %
Bleu turquoise 27 %
Rouge clair 21 %
Vert prairie 19 %
Bleu outremer 10 %
Violet 7%

Un objet lumineux émet de la lumière, alors qu’un objet éclairé reçoit et réfléchit une quantité
de lumière, qui dépend de la nature de l’objet. On voit, on photographie, on filme les objets
grâce à la lumière qu’ils réfléchissent.

Lorsqu’un rayon lumineux franchit la surface de séparation entre


deux milieux transparents ou translucides, il change de direction.
C’est le phénomène de réfraction. Un milieu transparent est
caractérisé par un indice de réfraction, « n », égal au rapport de
la vitesse de la lumière dans le vide (ou dans l’air) et dans le
milieu considéré (respectivement c et v). Le rapport n = c/v est

© Éditions Eyrolles
1 • La colorimétrie

égal à 1 dans l’air, à 1,3 dans l’eau, et est compris entre 1,45 et
1,85 pour les verres optiques. Plus l’indice de réfraction est
élevé, plus le rayon réfracté se rapproche de la normale au point
d’incidence, et réciproquement. Il existe un rapport constant
entre le sinus de l’angle d’incidence, « i », et celui de l’angle de
réfraction, « r » ; il est donné sur la figure 1.3.

Faisceau cylindrique Faisceau convergent Faisceau divergent


Miroir plan

Objet réel Image virtuelle

Principe de
la réflexion

Rayon réfléchi

Rayon incident

[Link](i) = [Link](r)

i
Milieu 1 Principe de
indice de réfraction n1 la réfraction
Surface de séparation

Milieu 2
indice de réfraction n2 r
Rayon réfracté

Figure 1.3
Faisceau cylindrique, faisceau convergent, faisceau divergent. Principes de la réflexion et de la réfraction.

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

1.1.4. Les principales grandeurs


photométriques
Nous allons à présent passer en revue les principales unités per-
mettant de définir les grandeurs photométriques.
– Le flux énergétique : c’est la puissance qui frappe une surface
éclairée donnée. Son unité est le watt (symbole W).
– Le flux lumineux : c’est cette même puissance, mais pondérée
par la sensibilité relative de l’œil (dont il est question plus loin
dans ce chapitre). Son unité est le lumen (symbole lm).
– L’intensité lumineuse : c’est le flux transmis uniformément dans
un cône d’angle solide unitaire et d’axe la direction de la source.
Son unité, le candela (symbole cd), est l’unité de base de la pho-
tométrie ; elle équivaut au lumen par stéradian. Un rappel de la
définition de l’angle solide est donné sur la figure 1.4.

Figure 1.4 S
Rappels sur l’angle solide Ω : Ω=
R2
soit un cône dont le sommet
coïncide avec le centre d’une
sphère de rayon R. Ce cône
découpe la surface de la S
sphère en une zone de
surface S intérieure au cône.
L’angle solide dont l’unité
est le stéradian a pour
expression Ω = S/R2. R

– L’éclairement : c’est le flux reçu par unité de surface de l’élé-


ment éclairé. Il s’exprime en lux : un flux lumineux de 1 lumen
atteignant une surface de 1 m2 y produit un éclairement de
1 lux. L’éclairement E reçu par un sujet placé à une distance D
d’une source de lumière (et dans son axe) délivrant une inten-
sité lumineuse I est E = I/D2. Si le sujet n’est pas perpendicu-
laire à la source, il faut multiplier la valeur de l’éclairement par
le cosinus de l’angle α entre la surface et la normale à l’axe de
la source :

© Éditions Eyrolles
1 • La colorimétrie

E = I2 . cos α
D

Le lux (symbole lx) est l’unité de mesure de l’intensité de l’illu-


mination d’un lieu. Dans les pays anglo-saxons, c’est le foot
candle qui est utilisé : 1 foot candle équivaut à 10,764 lux.

Tableau 1.4
Quelques valeurs d’éclairement moyennes.

Journée ensoleillée à midi 50 000 à 100 000 lux


Journée ensoleillé dans l’après-midi 35 000 lux
Ciel couvert 32 000 lux
Plateau de télévision 800 à 1 600 lux
Comptoir d’un grand magasin 500 à 700 lux
Guichet de gare 650 lux
Quai de station de métro 300 lux
Appartement, lampes domestiques 100 à 300 lux
Rue de nuit bien éclairée 20 à 100 lux
Lumière d’une bougie à 10 cm 10 lux
Pleine lune 0,1 à 1 lux

– La luminance : c’est, dans une direction donnée, l’intensité


lumineuse fournie par l’unité de surface apparente d’une
source (on parle également de brillance). La luminance, qui
s’exprime en cd/m2, ou nit, est le paramètre qui détermine
l’ouverture du diaphragme de la caméra. La limite supérieure
de tolérance de l’œil se situe aux alentours de 80 000 cd/m2 ;
un écran de télévision au blanc produit une luminance de
100 cd/m2, et le seuil de séparation entre vision diurne (photo-
pique) et nocturne (scotopique) est évalué à 0,1 cd/m2. Pour
les scènes naturelles éclairées par la lumière du jour, l’intensité
lumineuse peut varier de 10 – 6 à 50 000 cd/m2, soit dans un
rapport d’environ 1011.

L’intensité d’illumination d’un lieu s’exprime en lux. Un ciel couvert produit un éclairement
de 32 000 lux, tandis qu’un appartement est éclairé sous 100 à 300 lux par des lampes
domestiques.

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Flux = 1 lumen

Source lumineuse
intensité = 1 candela
Éclairement = 1 lux

1m2

r = 1m Flux total = 12,56 lumens

Figure 1.5
Une source lumineuse d’intensité 1 candela placée au centre d’une sphère de rayon 1 mètre produit, sur une calotte sphérique
de surface 1 m2, un éclairement de 1 lux (1 lm/m2). Sur la surface totale de la sphère, le flux est de 12,56 lumens.

1.2 L’œil et la vision

1.2.1. Constitution de l’œil


L’œil et son système sensoriel constituent un système d’analyse
complexe, faisant correspondre un signal à une image observée.
L’œil focalise l’image de la scène regardée sur la rétine ; cette
dernière analyse et code l’image avant de l’envoyer au cerveau.
Un flux lumineux qui frappe l’œil pénètre dans la cornée, puis
traverse successivement l’iris (diaphragme de l’œil), le cristallin
(lentille biconvexe), le corps vitré, avant d’atteindre la rétine, qui
constitue le traducteur image/influx nerveux.

10

© Éditions Eyrolles
1 • La colorimétrie

Sclérotique
Rétine

Cristallin

Chambre antérieure
humeur aqueuse

Cornée Point aveugle


tache de Mariotte

Nerf optique
Iris

Corps vitré

Figure 1.6
Coupe transversale de l’œil.

L’œil a un contrôle volontaire de la mise au point de l’image cap-


tée par un phénomène d’accommodation, et un contrôle réflexe
de la quantité de lumière y pénétrant par action de l’iris. Les cel-
lules sensibles qui tapissent le fond de la rétine sont excitées par
l’image qui s’y forme et transmettent au cerveau, via les fibres
du nerf optique, des informations codées sous forme d’une série
d’impulsions. L’image projetée sur la rétine est donc décompo-
sée en un nombre fini de surfaces élémentaires, la rétine ne trans-
mettant qu’une seule information par cellule sensible. Le centre
visuel du cerveau décode les impulsions et les interprète sous
forme de sensations subjectives traduites par la notion de cou-
leur.

11

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

1.2.2. Les cônes et les bâtonnets


La vision d’une couleur est un phénomène qui dépend de deux
sensations élémentaires : d’une part celle liée à la teinte, d’autre
part celle liée à la clarté, ou luminosité. Ces deux sensations font
intervenir deux sortes de cellules photosensibles de la rétine, res-
pectivement les cônes et les bâtonnets.
La couleur est analysée par les cônes, dont on distingue trois
types : ceux sensibles au rouge, ceux sensibles au vert et ceux
sensibles au bleu. On dit que la vision humaine est trichrome :
elle correspond à une analyse et une décomposition de la lumière
incidente en proportions de rouge, de vert et de bleu. Cependant,
certaines personnes ne possèdent que deux types de cônes et ne
reconstituent les images qu’avec les deux seules couleurs qu’ils
perçoivent dans le spectre visible. Leur vision est dichromatique.
Dalton, qui était atteint de cette altération de la vue, lui a donné
son nom. Si les cônes sont le siège de la vision colorée, ils sont
en revanche d’une sensibilité relativement faible à la lumière.
La luminosité, ou clarté, est analysée par les bâtonnets. Ceux-ci
ne font aucune distinction de couleur (ils ne perçoivent que le
noir, le blanc et les nuances de gris), mais sont mille fois plus
sensibles que les cônes ; ils sont pratiquement les seuls à réagir
aux très faibles lueurs.
L’œil est donc caractérisé par deux comportements différents
selon la luminosité. La vision diurne fait intervenir les cônes, qui
fournissent l’impression colorée. La vision nocturne ne fait
appel qu’aux bâtonnets et est donc dénuée de notion de couleur.
Précisons cependant qu’il existe une discontinuité entre les
plages de fonctionnement de ces deux types de cellules. C’est ce
qui explique, par exemple, la difficulté de l’œil à former l’image
d’un objet regardé à la tombée de la nuit.

La rétine renferme deux types de cellules photosensibles : les cônes sont responsables de la
sensation colorée – si la quantité de lumière est suffisante –, tandis que les bâtonnets n’inter-
prètent que la luminosité.

12

© Éditions Eyrolles
1 • La colorimétrie

Figure 1.7
Sensibilité
Sensibilité relative des cônes
et des bâtonnets.
1 Bâtonnets

0,5 V R

B
Cônes Longueur
d'onde
(nm)
0
400 500 600 700

1.2.3. La courbe de visibilité relative


Intéressons-nous à présent au comportement de l’œil face à une
lumière colorée. Les mesures de la sensation provoquée chez un
observateur moyen par chaque composante monochromatique
d’une lumière blanche ont permis d’établir une courbe de visibilité
relative. Celle-ci constitue une caractéristique fondamentale de
l’œil humain « normal ». Précisons que lorsque nous parlons de
variation de sensibilité relative de l’œil en fonction de la longueur
d’onde, nous ne considérons que la notion de luminosité. Cette
courbe (fig. 1.8) révèle que l’œil réagit de manière sélective aux
différentes couleurs, certaines paraissant plus lumineuses que
d’autres. On remarque ainsi que la sensation lumineuse la plus
forte est obtenue pour la couleur vert-jaune correspondant à la lon-
gueur d’onde 555 nm (en vision diurne). En revanche, la visibilité
des rouges d’une part et des bleus d’autre part est beaucoup plus
faible. Cela signifie que pour ressentir une impression de lumino-
sité équivalente, l’œil a besoin de davantage d’énergie bleue ou
rouge que d’énergie verte. Notons par ailleurs que la courbe de
visibilité relative se décale légèrement vers les faibles longueurs
d’onde en vision nocturne (à la tombée de la nuit en effet, les cou-

13

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

leurs bleuissent). Cependant, toutes les grandeurs photométriques


et colorimétriques se réfèrent à la courbe en vision diurne, qui a été
adoptée en 1931 par la Commission Internationale de l’Éclairage
(CIE) comme courbe de luminosité standard.

Figure 1.8
Courbes de visibilité relative 507 nm 555 nm
100 %
de l’œil normal moyen, en
vision diurne et en vision
Vision Vision
nocturne.
nocturne diurne
Visibilité relative

50 %

Longueur
450 500 550 600 650 700 d’onde (nm)

L’œil humain n’est pas pareillement sensible à toutes les couleurs. Pour que l’œil ait l’impres-
sion de même luminosité, il faut par exemple qu’il reçoive beaucoup plus de puissance d’une
lumière violette que d’une lumière verte.

1.2.4. Les imperfections de l’œil


L’œil présente deux imperfections majeures qui ont été pleine-
ment exploitées par la télévision. Tout d’abord, il est plus sen-
sible aux détails en noir et blanc qu’aux détails en couleurs. Cette
constatation a permis de diminuer la quantité d’informations
transportant la couleur de l’image vidéo, jusqu’à 25 % de celle
véhiculant ses variations de luminosité. D’autre part, l’œil garde
systématiquement en mémoire, pendant environ 1/15 s, tout sti-
muli lumineux qui le frappe. Ce phénomène bien connu de per-
sistance rétinienne est tel que l’œil ne peut pas séparer des sti-
mulations visuelles très proches, percevant alors une impression
de continuité. La télévision, comme le cinéma, ont tiré profit de
ce défaut en limitant le nombre d’images successives à afficher
par seconde pour reproduire un rendu correct des mouvements.

14

© Éditions Eyrolles
1 • La colorimétrie

1.3 La couleur

1.3.1. La couleur d’un corps


La désignation de la couleur d’un objet est directement liée à
la lumière qui l’éclaire, et n’a de sens que si celle-ci est
une lumière blanche, qu’elle soit naturelle ou artificielle. La
lumière blanche naturelle perçue par l’œil humain est un équi-
libre entre la lumière du Soleil et celle du ciel. Cependant, les
lumières artificielles, de la lampe à pétrole aux tubes fluores-
cents, fournissent elles aussi des lumières que nous appelons
blanches, puisque notre œil les considère en tant que telles et les
prend comme référence au bout d’un certain temps d’accommo-
dation.
La lumière incidente vient frapper l’objet qui, en fonction de sa
composition, peut la réfléchir (en totalité ou en partie), la trans-
mettre (ou la diffuser), ou encore l’absorber (en totalité ou en par-
tie). Par conséquent, la couleur perçue dépend d’une part de la
répartition spectrale de la lumière incidente, et d’autre part de la
façon dont l’objet transmet les différentes radiations. En effet,
l’amplitude de chaque composante monochromatique d’une
lumière incidente change lorsqu’elle est transmise ou réfléchie par
un objet. Par exemple, un objet est rouge s’il absorbe toutes les
composantes autres que celles correspondant au rouge : il diffuse
les radiations électromagnétiques correspondant à la couleur
rouge. De manière plus générale, on dira d’un corps qu’il est :
– blanc s’il diffuse toutes les radiations visibles incidentes sans
aucune absorption et dans toutes les directions ;
– noir si, au contraire, il absorbe toutes les radiations incidentes ;
– gris s’il diffuse ou transmet partiellement, mais dans des pro-
portions identiques, toutes les radiations incidentes ;
– d’une certaine couleur s’il absorbe certaines radiations et en
diffuse d’autres. La couleur du corps est celle des radiations
qui n’ont pas été absorbées ;
– transparent s’il se laisse traverser par toutes les radiations
visibles qui le frappent, sans les modifier.

15

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Un corps absorbe et diffuse d’une manière sélective les différentes composantes monochroma-
tiques d’une lumière blanche. Les composantes qu’un corps réfléchit caractérisent sa couleur.

1.3.2. Les filtres


Figure 1.9
Transmittance
Courbes d’absorption et de 100 %
transmittance d’un filtre
coloré.

380 780
Longueur d’onde (nm)
Absorption
100 %

380 780
Longueur d’onde (nm)

Un filtre est un corps qui absorbe une partie de la lumière qui le


frappe, et laisse passer l’autre partie. La courbe de transmittance
et la courbe d’absorption d’un filtre sont complémentaires.

16

© Éditions Eyrolles
1 • La colorimétrie

Un filtre est neutre s’il absorbe de façon proportionnelle les


énergies correspondant aux différentes longueurs d’onde de la
lumière incidente. Il est coloré s’il modifie les proportions rela-
tives de ces énergies, interceptant certaines radiations et laissant
passer d’autres radiations. Par exemple, un filtre rouge absorbe
presque toutes les radiations autres que celles correspondant aux
longueurs d’onde du rouge. Si l’on projette sur ce filtre rouge
une lumière exempte de rouge, aucune lumière ne doit théori-
quement le traverser.

1.3.3. Luminance, teinte, saturation


La vision colorée est caractérisée par trois sensations distinctes,
traduites par des grandeurs subjectives qui sont la luminance, la
teinte et la saturation.
La luminance qualifie l’impression d’intensité ou de vivacité
d’une lumière ; elle est liée à la puissance du rayonnement reçu
par l’œil, et bien sûr, à la sensibilité de celui-ci en fonction de la
longueur d’onde.
La teinte est la sensation colorée que notre éducation nous fait
interpréter en fonction de la longueur d’onde dominante de la
radiation.
La saturation est liée à la pureté de la radiation. On dit qu’une
couleur pure a un facteur de pureté égal à 1, quand elle ne com-
porte aucune trace de lumière blanche ; elle est saturée au maxi-
mum. Une couleur qui contient un taux relativement élevé de
lumière blanche est dite désaturée, ou lavée de blanc ; c’est le cas
des teintes pastel. Le facteur de pureté caractérise donc le
mélange d’une couleur avec du blanc.
Une couleur peut être vive (claire et saturée), pâle (claire et désa-
turée), profonde (foncée et saturée), ou rabattue (foncée et désa-
turée).

17

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

1.4 La température de couleur

1.4.1. Le rayonnement du corps noir


La lumière fournie par la flamme d’une bougie ne possède pas
les mêmes proportions de rouge, vert, bleu que celles d’une
lampe halogène ou d’un ciel clair en haute montagne. Les varia-
tions de la composition de la lumière émise par les différentes
sources incandescentes, naturelles ou artificielles, se traduisent
par une variation de leur couleur. Pour définir avec précision la
composition spectrale d’une lumière, on fait appel à une gran-
deur appelée température de couleur. Il est facile de constater
qu’un corps porté à incandescence prend une couleur qui dépend
de sa température. Par exemple, un morceau de fer chauffé à
800 °C devient rouge, à 1 000 °C il devient jaune et à 1 500 °C
(température de fusion), il devient blanc. Après de nombreuses
études réalisées au début du siècle dernier, les physiciens ont
créé un modèle de source thermique parfait : le corps noir. Il
s’agit d’un corps opaque parfait, totalement absorbant, dont le
spectre lumineux dépend uniquement de sa température. Une
échelle de valeurs de température de couleur a alors été établie.
On appelle température de couleur d’une source lumineuse la
température à laquelle il faudrait porter le corps noir pour que la
lumière dégagée par sa combustion soit similaire. Pour les
lampes à incandescence, cette équivalence est facile à obtenir, le
spectre du filament étant très proche de celui du corps noir. En
revanche, la corrélation avec le rayonnement du corps noir est
presque impossible à établir pour les sources fonctionnant sur le
principe de la décharge électrique dans un gaz, car leur spectre
comporte un certain nombre de raies prédominantes. On donne
dans ce cas une température de couleur équivalente.
La température de couleur s’exprime en Kelvin, et non pas en
degré Kelvin comme on le dit souvent. La température en Kelvin
est définie à partir du zéro absolu, soit – 273 °C ; elle est reliée à
la température en Celsius par la relation suivante :
TK = TC + 273

18

© Éditions Eyrolles
1 • La colorimétrie

Une température de couleur inférieure à 5600 K (lumière du jour


moyenne) se traduit par une lumière de dominante jaune-orangé,
tandis qu’une température de couleur supérieure à 5600 K donne
une lumière bleuâtre.

La température de couleur d’une source de lumière détermine la dominante colorée de la


lumière produite. Un ciel dégagé est caractérisé par une température de couleur élevée (domi-
nante bleutée), alors qu’une lampe au tungstène est caractérisée par une température de cou-
leur faible (dominante jaune orangée).

Tableau 1.5
La température de couleur approximative de différentes sources de lumière.

Source de lumière Température de couleur

Bougie 1 800 K
Lever/coucher du soleil 2 000 K
Lampe TH domestique 2 800 – 2 900 K
Lampe TH de studio 3 200 K
Lampe à halogénures métalliques 5 600 K
Lumière du jour, ciel dégagé 5 600 K
Lumière du jour, ciel couvert 8 000 K

1.4.2. Les blancs étalons


Les lumières fournies par le Soleil et les lampes d’éclairage sont
différentes, et pourtant elles donnent toutes cette sensation d’ab-
sence de couleur, autrement dit de blanc. C’est pourquoi il
convient de les différencier par leur température de couleur. La
Commision Internationale de l’Éclairage (CIE) a normalisé trois
étalons de blancs dits A, B et C, auxquels est venu s’ajouter le
D65 défini spécialement pour la télévision en couleurs :
– le blanc A est celui donné par les lampes à incandescence
lorsque la température de leur filament de tungstène est portée
à 2 856 K ;
– le blanc B est donné par les rayons solaires directs à midi en
été. Très légèrement jaunâtre, il correspond au rayonnement
d’un corps incandescent porté à une température théorique de
4 874 K ;

19

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– le blanc C représente une lumière moyenne du jour uniformé-


ment filtrée par les nuages ; il est plus bleuté que celui fourni
par les rayons solaires, puisque sa température de couleur est
de 6 774 K ;
– le blanc D65 a été défini par l’Union Européenne des
Radiodiffuseurs (UER). C’est en Europe le blanc de référence
pour la reconstitution d’une image vidéo sur l’écran d’un télé-
viseur couleur. Sa température de couleur est de 6 500 K.
Précisons que les tubes des récepteurs de télévision en noir et
blanc sont caractérisés par une température de couleur beau-
coup plus élevée, avoisinant 13 000 K. Leur blanc est très sen-
siblement bleuté.
Le blanc d’égale énergie, ou équiénergétique, auquel nous avons
déjà fait allusion, est un blanc théorique dont la puissance ne
dépend pas de la longueur d’onde. Sa représentation spectrale est
donc un segment de droite horizontal entre les valeurs 380 et
765 nm. On le note blanc E. Sa température de couleur est 5 600 K
et son aspect visuel est un blanc légèrement rosé.

Énergie
relative

150

C : 6 774 K
100 E : 5 600 K
B : 4 874 K

50

A : 2 856 K Longueur
d’onde (nm)

400 500 600 700

Figure 1.10
Courbes représentatives des énergies relatives des blancs A, B, C, E.

20

© Éditions Eyrolles
1 • La colorimétrie

1.4.3. La caméra et l’œil :


quelles différences ?
Notre cerveau se charge d’intégrer ces différences de températures
de couleur en effectuant la transposition adéquate lorsque nous
passons par exemple d’une pièce éclairée par une ampoule élec-
trique à une zone ensoleillée. Ce n’est cependant pas le cas de la
caméra, qui ne sait pas s’adapter toute seule à un changement de
température de couleur. Elle capte sans intelligence l’image qu’elle
reçoit et la traite en fonction de ses préréglages. Certes, la caméra
est conçue pour fournir une bonne image avec les couleurs justes
sous les éclairages les plus divers. Mais pour qu’elle restitue fidè-
lement les couleurs de la scène cadrée sans y ajouter de dominante,
elle doit être étalonnée en colorimétrie en fonction de la tempéra-
ture de couleur de la lumière ambiante. En studio, la référence de
blanc est une surface incolore, éclairée par un projecteur dont la
température de couleur est de 3 200 K. Ainsi, par exemple, une
caméra étalonnée à 3 200 K fournira une image bleutée si elle
cadre une scène en plein jour à 5 600 K. Inversement, une caméra
étalonnée sur la lumière du jour donnera une image jaune-orangée
d’une scène éclairée par une source de lumière artificielle.

Contrairement au système visuel humain, la caméra ne s’adapte pas toute seule aux différences de
température de couleur des sources de lumière. Pour qu’elle puisse restituer fidèlement les couleurs
des objets, il faut effectuer un étalonnage colorimétrique adéquat à chaque changement de tempé-
rature de couleur de l’environnement lumineux.

1.5 Les bases de la trichromie

Une couleur C quelconque peut, nous l’avons vu, être décrite par
trois caractéristiques qui sont la teinte, la saturation et la lumi-
nosité. Or, l’utilisation de ces trois grandeurs s’avère fort peu
pratique pour la transmission d’une image en couleurs, pour plu-
sieurs raisons : il n’est pas aisé de mesurer simplement les lon-
gueurs d’onde, la notion de pureté est difficilement quantifiable,
et le volume des informations à transmettre pour reconstituer à

21

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

la réception le spectre de la lumière serait de toute manière


gigantesque. C’est pourquoi il a été décidé de remplacer ces trois
grandeurs par trois autres, plus homogènes.

1.5.1. Les primaires de la CIE


Une expérience classique montre qu’il est possible d’égaliser
toute couleur du spectre visible par un mélange, dans des pro-
portions adéquates, de trois couleurs primaires, qui sont le rouge,
le vert et le bleu. Ces couleurs primaires ont été normalisées par
la Commission Internationale de l’Éclairage (CIE) pour former
un système R, V, B de référence sur la base des radiations mono-
chromatiques suivantes :
Rouge : 700,0 nm – Vert : 546,1 nm – Bleu : 435,8 nm
Chacune de ces radiations est ajustée de manière que la somme
des trois produise visuellement une lumière blanche. La radiation
rouge est obtenue avec une lampe à incandescence et un filtre
rouge normalisé, les radiations verte et bleue correspondent res-
pectivement à la raie verte et à la raie bleue de l’arc au mercure.

1.5.2. La synthèse additive des couleurs


La reproduction d’une couleur C quelconque se résume donc à
déterminer les quantités (r, v, b) de chaque primaire (R, V, B)
qui, additionnées, provoquent sur l’œil la même sensation colo-
rée. C’est la synthèse additive trichrome, qui se traduit par
l’équation chromatique suivante :
C = r (R) + v (V) + b (B)
Précisons cependant que les coefficients de distribution r, v, b
peuvent parfois prendre des valeurs négatives, comme le mon-
trent les courbes de la figure 1.11. Cela signifie que certaines
couleurs ne peuvent être égalisées par une simple synthèse addi-
tive des primaires R, V, B. Auquel cas, C n’est pas égale à un
mélange de rouge, vert, bleu, mais C additionnée d’une couleur
est égale au mélange des deux autres couleurs. Par exemple :
C + r (R) = v (V) + b (B) ou C = v (V) + b (B) – r (R)

22

© Éditions Eyrolles
1 • La colorimétrie

Bien sûr, aucune source de lumière ne pourra délivrer physique-


ment la couleur négative introduite ci-dessus. Mais nous pou-
vons imaginer qu’une telle égalisation peut être obtenue à partir
d’une lumière blanche dont des filtres auront absorbé certaines
radiations.
Une autre expérience montre qu’il est possible de remplacer C
(définie par r, v, b) par un mélange de deux autres couleurs C’
(définie par r’, v’, b’) et C” (définie par r”, v”, b”). Les relations
découlant de ce principe d’additivité sont les suivantes :

r = r’+r” ; v = v’+v” ; b = b’+b”.

Toute couleur C peut être définie par la somme des quantités de chaque primaire R, V, B néces-
saires à l’égaliser. De plus, la somme de deux couleurs C’ et C’’ a pour équivalent la somme de
leurs composantes primaires respectives. Trois valeurs de primaires de référence ont été défi-
nies par la CIE en 1931.

1.5.3. Les composantes trichromatiques


Les courbes tracées sur la figure 1.11 représentent les quantités
(r, v, b) de chaque primaire (R, V, B) nécessaire à l’égalisation de
chacune des radiations monochromatiques du spectre visible.
Ces cœfficients (r, v, b) sont appelés composantes trichroma-
tiques spectrales.
La trichromie présente trois intérêts majeurs. Elle permet de :
– repérer simplement et de façon universelle une couleur donnée
au moyen de trois valeurs qui sont ses composantes trichroma-
tiques ;
– définir les trois composantes trichromatiques d’une lumière
dont on connaît la composition spectrale, de manière à en
connaître sa teinte, sa saturation et sa luminance ;
– déterminer par avance au moyen d’un calcul la couleur qui
résultera du mélange de plusieurs autres couleurs.

23

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 1.11
Valeur
Courbes des variations des coefficients r
relatives des énergies des 1
trois couleurs primaires
nécessaires à l’égalisation de
b
toutes les lumières
monochromatiques du v
spectre visible.

0,5

450 550 650 λ (nm)


0
400 500 600 700

– 0,2

1.5.4. L’espace RVB


Nous venons de voir que les couleurs peuvent être définies à
l’aide d’un jeu de coordonnées R, V, B. Une représentation dans
un espace géométrique vient naturellement à l’esprit ; elle est
donnée sur la figure 1.12.
Figure 1.12 V
Représentation des lumières
monochromatiques
dans l’espace RVB
à trois dimensions.

24

© Éditions Eyrolles
1 • La colorimétrie

La courbe tracée joint un ensemble de droites passant par l’origine


et se déplaçant du rouge au vert, puis au bleu et enfin au violet. Les
deux droites extrêmes (rouge et violet) délimitent un plan appelé
plan des pourpres. Ce plan ne contient que des lumières dites
« bichromatiques » puisque constituées d’un dosage variable de
rouge et de violet. L’ensemble des couleurs réelles est compris
dans un volume délimité par le cône s’appuyant sur cette courbe
et le plan des pourpres. Les points de même luminance sont pla-
cés dans un plan appelé plan de luminance constante.
Pour des raisons de commodité géométrique, cet espace des cou-
leurs (fig. 1.12) est conventionnellement déterminé par une
courbe en forme de fer à cheval (fig. 1.13).
Cette représentation dans l’espace RVB a cependant un certain
nombre d’inconvénients : difficulté de raisonner dans un espace à
trois dimensions, luminance peu accessible, valeurs négatives des
coordonnées amenant des complications de calculs.

Figure 1.13 E
Cône des couleurs « réelles » V
dans l’espace RVB.

600 nm

Plan des pourpres

400 nm

25

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

1.5.5. L’espace XYZ


La CIE a défini une représentation graphique des couleurs plus
pratique que celle dans l’espace RVB. Ses deux atouts majeurs
sont d’une part l’élimination des coefficients négatifs, et d’autre
part la séparation de la luminance et de la chrominance. Les nou-
velles coordonnées, appelés X, Y, Z, sont telles que la luminance
est portée exclusivement par l’axe Y et est indépendante de X et
de Z. Les luminances des axes X et Z sont donc nulles ; on dit
que (X, Z) forme le plan de luminance nulle. Par ailleurs, un
choix judicieux des axes dans ce plan (X, Z) permet de suppri-
mer toute coordonnée négative.
Le système XYZ se déduit du système RVB par une transforma-
tion linéaire de coordonnées :
X = 2,77 R + 1,75 V + 1,13 B
Y= R + 4,59 V + 0,06 B
Z= 0,05 V + 5,59 B
Ces nouvelles primaires X, Y, Z sont dites irréelles puisqu’elles
ne correspondent pas à une lumière que l’on peut produire. Dans
la pratique, il a été convenu d’effectuer un changement d’échelle
et d’utiliser les coefficients réduits x, y, z vérifiant la relation
x + y + z = 1. La connaissance de seulement deux de ces coeffi-
cients permet d’en déduire le troisième.
X Y Z
x= y= z=
X+Y+Z X+Y+Z X+Y+Z
Le calcul de x, y, z pour chaque couleur spectrale conduit aux
trois nouvelles courbes de la figure 1.14, dont on remarque
immédiatement qu’elles ne présentent aucun lobe négatif
(contrairement aux courbes r, v, b de la figure 1.11).
Réciproquement, on peut écrire :
x 1–x–y
X= .Y Y=Y Z= .Y
y y
Il apparaît ainsi clairement que pour une couleur donnée, les
coordonnées x et y donnent l’information de chromaticité, tandis

26

© Éditions Eyrolles
1 • La colorimétrie

que la valeur de Y porte l’information de luminance. Il devient


donc possible de placer n’importe quelle couleur dans le plan
(x, y). La valeur de z exclue de cette représentation plane se
déduit simplement par la relation z = 1 – x – y.

Figure 1.14 Valeur


Valeurs des coefficients x, y,
des coefficients
z en fonction de la longueur
d’onde, pour les primaires 1,8
z
irréelles X, Y, Z. 1,7
1,6
1,5
1,4
1,3
1,2 x
y
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Longueur d’onde (nm)
0
400 450 500 550 600 650 700

La CIE a défini un nouvel espace des couleurs X, Y, Z qui présente deux avantages fondamen-
taux par rapport à l’espace RVB : élimination des coordonnées négatives et séparation de la
luminance et de la chrominance.
X, Y, Z sont alors remplacés par des coefficients simplifiés x, y, z tels que x + y + z = 1.

1.5.6. Le diagramme de chromaticité (x, y)


Sur cette représentation dans le plan (x, y), le tracé de l’ensemble
des points représentant le lieu de toutes les couleurs pures prend
la forme d’une courbe en fer à cheval, graduée en longueurs
d’onde (fig. 1.15).

27

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 1.15 Y
Le diagramme de
520 525
chromaticité (x,y) avec les
0,80 530
lieux des principales 515
535
couleurs. 540
510
545
0,70 550
505 Vert 555
saturé 560
0,60 565
570
Vert
500 575
jaune
0,50 580

ne
585

u
Vert

Ja
590
pâle
495 Orange
0,40
Blanc
équiénergie 600
610
0,30 490 Rouge 650

0,20 485 Pourpre


u
Ble

rouge
480
0,10

470
460 X
0
0,10 0,20 0,30 0,40 0,50 0,60 0,70

La droite reliant les deux extrémités de cette courbe représente la


ligne des couleurs issues du mélange du bleu et du rouge
(magenta, pourpre, violet...). La surface ainsi délimitée est
appellée spectrum locus (lieu spectral) ; elle contient toutes les
couleurs réelles, exprimées ici en coordonnées positives. Nous
venons de définir le diagramme de chromaticité (x, y) CIE31.
Cette représentation permet de situer avec précision une couleur
par ses paramètres de teinte et de pureté. Elle permet également
d’en déterminer graphiquement certaines grandeurs, comme sa
longueur d’onde dominante et sa couleur complémentaire.
La longueur d’onde dominante se trouve à l’intersection de la
droite reliant le blanc de référence et le point caractéristique de
cette couleur avec le contour du spectrum locus. La couleur com-
plémentaire est celle qui, ajoutée avec un dosage convenable à la
couleur considérée, donne le blanc de référence.

28

© Éditions Eyrolles
1 • La colorimétrie

Dans le plan (x, y), le blanc E d’égale énergie a pour coordon-


nées x = y = 1/3. Plus un point de couleur est proche du blanc E,
moins cette couleur est saturée. Sur le contour du diagramme, les
couleurs sont idéalement saturées, c’est-à-dire dotées d’un fac-
teur de pureté égal à 1.

L’espace à trois dimensions (x, y, z) est projeté sur le plan (x, y), sur lequel est tracé le dia-
gramme de chromaticité de la CIE qui sert de base à de nombreux calculs colorimétriques (le
coefficient z abandonné se déduit par un simple calcul). Dans cette représentation plane, toute
couleur est définie par ses paramètres de teinte et de saturation.

1.5.7. Le diagramme
de chromaticité uniforme (u’, v’)
Des expériences sur la sensibilité de l’œil moyen ont montré que
deux nuances de couleurs très voisines ne sont visuellement dis-
cernables que si la différence de chromaticité qui existe entre elles
dépasse une valeur minimale appelée seuil de chromaticité. De
plus, cette sensibilité différentielle est en général relativement
faible dans les zones du vert et du jaune, plus élevée pour les
rouges, et particulièrement grande pour les bleus. L’écart entre les
points colorimétriques à partir duquel deux plages de même lumi-
nance, mais de couleur différente, deviennent discernables est assi-
milé dans le plan (x, y) par une ellipse. Dans le diagramme (x, y)
CIE31, ces ellipses, représentées pour un certain nombre de points
de couleurs, sont grandes dans le vert et plus petites dans le bleu.
Dans le système de coordonnées (x, y), l’écart entre deux points ne
correspond donc pas à la perception humaine de la différence de
couleurs. C’est pourquoi il a été défini un autre diagramme, utili-
sant un autre espace colorimétrique, et dans lequel ces différents
seuils de chromaticité sont représentés de façon moins dispropor-
tionnée. Appelé diagramme de chromaticité uniforme (u’, v’)
CIE76, sa construction se déduit de celle du diagramme (x, y) par
une transformation linéaire de coordonnées. Ce système (u’, v’) est
très utilisé en télévision.

29

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 1.16 v'


Le diagramme de
chromaticité uniforme
(u’,v’).
0,6 520 530 540 550 560
570 580
590
V 600 610 620 630 640
700
0,5 R
D65

0,4 490

0,3
480

0,2
470
B
0,1
460
450 440
430
u’
0
0,1 0,2 0,3 0,4 0,5 0,6

Les coordonnées u’ et v’ se déduisent de x et y par les transformations suivantes :


4x 9y
u’ = v’ =
– 2x + 12y + 3 – 2x + 12y + 3

y v'

0,6
0,8
0,5

0,6
0,4

0,3
0,4

0,2

0,2
0,1
x u’
0 0
0,2 0,4 0,6 0,8 0,1 0,2 0,3 0,4 0,5 0,6 0,7

Figure 1.17
Les ellipses dites de MAC ADAM, agrandies dix fois, et représentées dans les systèmes de coordonnées (x, y) et (u’, v’).

30

© Éditions Eyrolles
1 • La colorimétrie

Le diagramme de chromaticité (x, y) présente un inconvénient majeur : les couleurs n’y sont pas
uniformément distribuées. C’est pourquoi un autre diagramme, dit de chromaticité uniforme
(u’, v’), a été défini en 1976. L’espace entre deux points y correspond mieux à la perception
humaine des différences de couleurs.

1.6 La chaîne colorimétrique de télévision en couleurs

1.6.1. Les primaires de la télévision


Les primaires utilisées en télévision ne sont pas exactement
celles définies par la CIE dont il a été question jusqu’à présent.
En voici les raisons.
La première est liée à une contrainte technologique. Il est en effet
évident que le système trichromatique doit être défini par les pri-
maires de restitution, donc par celles du tube récepteur. L’écran de
télévision est tapissé d’une mosaïque de pastilles de substances
fluorescentes à base de luminophores rouges, verts et bleus qui,
lorsqu’elles sont frappées par un faisceau électronique, deviennent
luminescentes. Or, ces luminophores ne peuvent pas reproduire les
couleurs très saturées correspondant à des longueurs d’ondes
monochromatiques (dont les points sont situés sur le contour du
diagramme du spectrum locus).
La seconde raison se rapporte à la sensibilité relativement faible de
l’œil au rouge et surtout au violet, comme le montrent les courbes
de la figure 1.8. Il y a tout intérêt à choisir pour le violet une lon-
gueur d’onde pas trop faible (correspondant en réalité à un bleu), et
pour le rouge une longueur d’onde pas trop élevée (le rouge télévi-
sion est alors légèrement orangé).
Lorsque, en 1954, la Federal Communication Commission (FCC)
a adopté, aux États-Unis, le système NTSC à 525 lignes, elle a
normalisé trois primaires, dites FCC, avec un rouge à 612 nm, un
vert à 530 nm et un bleu à 472 nm. Cependant, quand, plusieurs
années plus tard, les pays européens ont défini les standards PAL
et SECAM pour les systèmes à 625 lignes, il a été tenu compte de
l’évolution des luminophores restituant l’image sur le récepteur,

31

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

améliorés au niveau du rendement, mais également modifiés dans


leur teinte. C’est ainsi que l’Union Européenne de Radiodiffusion
a fait adopter en 1970 trois autres primaires TV, R’, V’, B’, dont
le tableau suivant regroupe les caractéristiques.

Primaire TV UER 70 Longueur d’onde (nm) x y

R’ 612 0,64 0,33


V’ 518 0,29 0,60
B’ 455 0,15 0,06

Au final, le gain en luminosité apporté par le choix de ces pri-


maires TV est assez important. Le blanc de référence est ici le
blanc D65, avec une température de couleur de 6 500 K. Très voi-
sines de celles du blanc d’égale énergie, ses coordonnées dans le
diagramme de chromaticité CIE sont x = 0,313 et y = 0,329.

Figure 1.18 y
Triangle des couleurs des
primaires R’, V’, B’ de la 0,80
télévision dans le diagramme
de chromaticité (x, y).
0,70
En gras, le triangle des
couleurs des primaires de la
V'
CIE. 0,60

0,50

0,40
R'
Blanc E
0,30 Blanc D65

0,20

0,10
B'
x
0
0,10 0,20 0,30 0,40 0,50 0,60 0,70

32

© Éditions Eyrolles
1 • La colorimétrie

Figure 1.19 y
Coordonnées trichromatiques 2 800 K
A
des étalons de blanc dans la 3 000
zone du « lieu du corps 0,40
3 200
noir ». Cette courbe décrit 3 500
les couleurs prises par le
4 000
corps noir lorsque sa
température varie. Elle passe
4 500
par le blanc E pour la valeur 5 000
0,35 B
5 600 K, tend vers le jaune
5 500
pour les températures de 6 000
couleur inférieures et vers le D 65 E
bleu pour les températures de 7 000
C
couleur supérieures. 8 000
0,30

10 000 x
0
0,30 0,35 0,40 0,45
Y

0,80

0,70

0,60

0,50

0,40

0,30

0,20

0,10
X
0
0,10 0,20 0,30 0,40 0,50 0,60 0,70

1.6.2. Espaces colorimétriques d’analyse


et de synthèse
La caméra a pour rôle de capter les informations lumineuses issues
de la scène cadrée, et de les transformer en signaux électriques
représentatifs. Le flux lumineux incident recueilli par l’objectif est
décomposé par un séparateur optique (ou séparateur dichroïque) en
trois composantes colorées correspondant aux trois couleurs pri-
maires d’analyse R, V, B. Ces trois flux lumineux sont projetés sur
les surfaces photosensibles des capteurs CCD. Ces derniers les
convertissent en signaux électriques, que nous noterons ER1, EV1,
EB1, et dont les variations traduisent les intensités lumineuses rouge,
verte et bleue reçues. Nous sommes dans l’espace colorimétrique
d’analyse. Les primaires sont données par la caméra et le blanc de
référence par l’environnement de la scène, soit généralement aux
alentours de 3 200 K en studio.

33

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Au niveau du récepteur, les triplets de luminophores rouge, vert et


bleu constituant chaque point élémentaire de l’écran sont de dimen-
sions trop faibles pour être distingués à distance normale d’obser-
vation par notre œil. Celui-ci les confond et réalise ainsi la synthèse
colorimétrique additive trichrome grâce à laquelle est reconstituée
l’image vidéo en couleurs. Nous sommes ici dans l’espace colori-
métrique de synthèse. Les primaires sont les luminophores du tube
récepteur et le blanc de référence est le D65 à 6 500 K.
La différence entre les primaires d’analyse et celles de synthèse
implique une correction colorimétrique dite de masking dans la
chaîne de traitement des signaux. La fidélité des couleurs de
l’image finale restituée sur l’écran de télévision dépend essen-
tiellement de la qualité de cette conversion d’un espace à l’autre.
Par ailleurs, revenons un instant sur les caractéristiques de trans-
mission des filtres du séparateur optique de la caméra, chargés de
sélectionner la partie du spectre à envoyer à chaque capteur CDD.
Ces caractéristiques doivent en théorie être calquées sur les courbes
de mélange données sur la figure 1.11. Or, ces courbes comportent
toutes trois des lobes négatifs, que les filtres optiques ne peuvent
évidemment pas reproduire. Il faut donc les reconstituer de manière
électronique. Cette correction repose sur un matriçage à coefficients
négatifs faibles des signaux primaires d’analyse ER1, EV1, EB1.

Espace colorimétrique Espace colorimétrique


d’analyse de synthèse
Blanc : 3 200 K en studio Blanc : 6 500 K

T
R R
D
M A C É
A É
R ER1 ER I O C
S T E
C R
D O
V EV1 K EV E A Transmission P V
I M D
G T
A B
B EB1 N EB E E I
G N G
O
T E
Séparateur Conversion Changement N
S
optique lumière/ de primaires
tension

Figure 1.20
Schéma colorimétrique d’une chaîne de télévision.

34

© Éditions Eyrolles
1 • La colorimétrie

Pour résumer, la correction de masking, qui est effectuée dans la


caméra, a pour but d’une part d’éviter les erreurs dues au chan-
gement de primaires à l’intérieur du triangle des couleurs, et
d’autre part de restituer les teintes extérieures à ce même triangle,
correspondant aux lobes négatifs des courbes de mélange. À l’is-
sue de la correction de masking, les trois signaux primaires
d’analyse ER1, EV1, EB1 sont transformés en trois signaux pri-
maires de synthèse ER, EV, EB. Ceux-ci sont dès lors considérés,
avec les approximations adéquates, comme représentant les
composantes trichromatiques du système de synthèse constitué
par les luminophores du tube récepteur. Ainsi, si ER = EV = EB,
l’écran affiche le blanc de référence D65 à 6 500 K.

L’espace colorimétrique d’analyse (scène réelle) n’est pas le même que l’espace colorimétrique
de synthèse (luminophores du tube récepteur). De plus, les lobes négatifs des courbes de
mélange ne peuvent être obtenus directement par les filtres optiques de la caméra. Un matriça-
ge électronique – correction de masking – permet de passer d’un espace colorimétrique à
l’autre et de reconstituer ces lobes négatifs ; il est effectué dans la caméra.

1.6.3. Le signal vidéo


Lorsque les normes de la télévision en couleurs ont été définies,
il est apparu indispensable de leur faire respecter certains critères
de compatibilité avec l’infrastructure du système en noir et blanc
existant. Les récepteurs monochromes devaient pouvoir, sans
aucune modification, utiliser les signaux codés de la télévision
en couleurs et afficher une image en noir et blanc cohérente et de
qualité convenable. Réciproquement, les récepteurs en couleurs
devaient être capables de reproduire une image en noir et blanc
lors de la diffusion d’anciens films ou d’émissions d’archives
par exemple. C’est pourquoi il a logiquement été décidé de sépa-
rer les informations de luminosité – luminance – des informa-
tions de couleur – chrominance.
Les variations de luminosité de l’image sont donc traduites par
un signal de luminance, obtenu à partir d’une pondération intro-
duite au cours du mélange électrique des signaux primaires ER,

35

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

EV, EB. Cette pondération est définie par l’équation fondamen-


tale de la colorimétrie appliquée à la télévision :
EY = 0,30 ER + 0,59 Ev + 0,11 EB
Précisons que cette équation a été établie à partir des primaires uti-
lisées en NTSC. Cependant, lorsque l’UER a défini les systèmes
PAL et SECAM avec ses propres primaires, il a été jugé préférable
de conserver la même équation, malgré les légères différences de
blanc que ce choix implique.
La nécessité de transmettre ce signal de luminance rend inutile la
transmission de l’ensemble des trois signaux portant les infor-
mations de chrominance. Deux d’entre eux suffisent, le troi-
sième se déduisant du signal EY par un dématriçage simple.
Les signaux de chrominance sont en fait des signaux de diffé-
rence de couleurs ER-EY et EB-EY, communément notés Dr et
Db. Leur particularité est de s’annuler pour le blanc de référence
et plus généralement pour toute image monochrome. Le choix de
la couleur à ne pas transmettre a été porté sur le vert. Les varia-
tions de cette couleur étant proches de celles de la luminance, le
signal différence EV-EY aurait en effet souvent été faible. Les
signaux de base utilisés par tous les systèmes de codage de télé-
vision en couleurs sont donc EY, ER-EY, EB-EY. Un récepteur en
noir et blanc ne traite que le signal EY.
La figure 1.21 montre la forme des signaux primaires pour une
mire de barres de couleur à 100 %. Cette mire est composée de
bandes verticales dont les couleurs, outre le blanc et le noir, sont
les trois primaires rouge, verte, bleue, ainsi que leurs complé-
mentaires respectives jaune, cyan (turquoise) et magenta
(mauve).

Ce ne sont pas les signaux électriques ER, EV, EB qui sont transmis, mais le signal de luminance
EY, et deux signaux de différence de couleurs ER-EY et EB-EY notés Dr et Db. La manière dont
sont combinés ces trois signaux dépend du type de codage utilisé.

36

© Éditions Eyrolles
1 • La colorimétrie

)
ve
)
ise

au
uo

(m
rq

ta
(tu

en

e
e
nc

an

ug
un

ir
u
t r
Ma
B la

No
B le
Cy

Ro
Ve
Ja

EY

0,7

ER – EY t

(Dr)
v
1
EB
t
0 0,88
1
ER t
EB – EY t
1
EV (Db)
t

Figure 1.21
Forme des signaux primaires pour la mire de barres de couleurs.

1.7 La reproduction de l’image vidéo

1.7.1. Le tube cathodique


Dans un tube cathodique, trois canons à électrons, commandés par
les trois signaux primaires ER, EV, EB, projettent sous vide trois
faisceaux électroniques (les rayons cathodiques) sur la face interne
de l’écran. Le flux de ces faisceaux est dévié par des bobines de
déflexion afin de balayer toute la surface de l’écran de haut en bas
et de gauche à droite. L’écran est tapissé d’une multitude de tri-
plets de luminophores (rouge, vert, bleu), chaque triplet étant
perçu par l’œil comme un seul et unique pixel, formé de la syn-
thèse additive des trois couleurs primaires. Devant cet ensemble

37

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

d’éléments microscopiques, est placée une grille (ou un masque)


perforée d’autant de trous qu’il y a de triades colorées de lumino-
phores. Ces trous sont disposés de telle sorte que chacun des trois
faisceaux électroniques ne puisse atteindre que le luminophore de
la couleur correspondante. La distance entre deux trous consécu-
tifs est appelée « pitch » ou « pas » de l’écran ; plus elle est faible,
plus l’image reproduite est fine. Chaque luminophore réagit alors
à la quantité de charge portée par le faisceau qui le bombarde et
s’illumine avec une intensité répondant à la loi de gamma (cha-
pitre 4, § 4.4.12.). Cette technique possède une faiblesse majeure :
la grille perforée occupe un fort pourcentage de la zone d’écran,
nuisant à la luminosité de l’image. À la fin des années 60, Sony a
inventé un tube particulier appelé Trinitron, dont la principale ori-
ginalité est d’utiliser des bandes verticales ininterrompues de
luminophores, alignées par couleurs. Du coup, la grille est dotée
de fentes verticales également continues (elle est en fait constituée
de milliers de filaments fins), et présente une surface beaucoup
moins importante que la grille à trous, ce qui engendre un gain
sensible en luminosité. Il existe d’autres technologies de tubes,
mais toutes sont dérivées de ces deux-ci.

Canon B Grille à trous

Points de
luminophores
Grille à fentes
R V (tube Trinitron)
Canon V
Bandes de
Faisceaux luminophores
Canon R R
R
B
V
V B
B

Figure 1.22
Restitution de l’image par le tube cathodique.

38

© Éditions Eyrolles
1 • La colorimétrie

1.7.2. Le balayage entrelacé


La mosaïque de points élémentaires qui forment l’image vidéo est
explorée selon des lignes quasiment horizontales et strictement
parallèles. Le nombre de ces lignes a été établi en fonction du for-
mat de l’image, du pouvoir séparateur de l’œil, ainsi que de la dis-
tance d’observation. Chez l’observateur de référence, le pouvoir
séparateur de l’œil est d’une minute d’angle. Cela signifie que
deux points très proches formant avec l’œil un angle de moins
d’une minute sont confondus par celui-ci en un point unique.
L’angle de vision vertical considéré comme confortable pour visua-
liser une image de format 4/3 à une distance de quatre fois la dia-
gonale de l’écran est de 8°33’. Ainsi, le nombre minimal de
lignes horizontales que doit afficher cette image est de 8°33/0°01
= 512. En Europe, en Asie et en Afrique, le nombre total de lignes
de l’image de télévision a été fixé à 625 (576 visibles), tandis
qu’aux États-Unis et au Japon, il est de 525 (480 visibles).
D’autre part, l’appareil visuel humain est caractérisé par un phé-
nomène de persistance rétinienne de l’ordre d’1/15 s. Le
nombre d’images à transmettre par seconde pour que l’œil per-
çoive une impression de continuité à partir d’une succession
d’images fixes doit par conséquent dépasser 15. Les systèmes à
625 lignes utilisent 25 images par seconde, et les systèmes à
525 lignes, 30. Ces deux valeurs sont des sous-multiples des fré-
quences du courant alternatif en vigueur dans les pays concernés,
ce qui évite des phénomènes de battement de fréquence
balayage/secteur. Cependant, il s’avère qu’à 25 ou 30 images par
seconde, il se produit un effet de papillotement assez insuppor-
table vu la luminosité d’un écran de télévision. C’est pourquoi
un artifice astucieux a été imaginé pour augmenter la fréquence
de rafraîchissement de l’écran, sans pour autant accroître le
volume d’informations transmis. Il consiste à effectuer le
balayage de l’image non pas dans l’ordre naturel des lignes, mais
de façon dite entrelacée. Les lignes impaires sont balayées
d’abord pour former une première trame, puis vient le tour des
lignes paires, qui tracent une seconde trame. De ce fait, le
nombre de trames est deux fois plus élevé que le nombre
d’images. Et notre système visuel se laisse tromper par ce pro-

39

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

cédé. Il voit en réalité 50 trames de 312,5 lignes en une seconde,


chaque trame n’affichant qu’une ligne sur deux de l’image, mais
il a l’impression de percevoir une image nouvelle tous les 1/50 s.
Le mouvement de chaque faisceau sur toute la surface de l’écran
est piloté par un ensemble de bobines de déviation disposées de
part et d’autre du tube : deux bobines dévient le faisceau dans le
sens horizontal, et deux autres dans le sens vertical. Chaque
ligne de l’écran est balayée par un mouvement horizontal du spot
qui comprend deux phases. Au cours de la durée aller – temps
d’une ligne utile –, le spot excite de gauche à droite les uns à la
suite des autres les éléments électroluminescents du tube pour
former une ligne d’image. Lorsque le spot atteint l’extrémité de
la ligne, il s’éteint et revient très rapidement sur la gauche de
l’image, en sautant une ligne. Cette période d’inactivité du spot
durant son retour est appelée instant de suppression ligne (hori-
zontale). Puis le spot trace une nouvelle ligne utile, et continue
ainsi son mouvement de zigzag jusqu’au bas de l’image.
Lorsqu’il atteint la dernière ligne, le spot s’éteint pour cette fois
remonter rapidement jusqu’à la première ligne de la trame sui-
vante : c’est l’instant de suppression trame (verticale), qui dure
généralement un nombre entier de lignes. Le spot parcourt alors
les 312,5 lignes laissées libres entre celles de la première trame,
et forme ainsi la deuxième trame de l’image.

Trame impaire
Trame paire

Figure 1.23
Principe du balayage entrelacé.

40

© Éditions Eyrolles
1 • La colorimétrie

Si le balayage entrelacé offre une excellente analyse des mouve-


ments, surtout dans les pays à 60 Hz, il présente en contrepartie
son lot d’inconvénients. Tout d’abord, la résolution verticale de
l’image est divisée par deux puisqu’à chaque instant, seule la
moitié des lignes est affichée. Ensuite, un scintillement inter-
ligne particulièrement gênant se produit sur les fines lignes hori-
zontales. En effet, un détail présent sur une seule ligne n’est affi-
ché qu’une trame sur deux (donc à 25 Hz). Enfin, même s’il est
considérablement réduit, le phénomène de papillotement reste
perceptible sur les grandes zones très claires de l’image. Notons
au passage que ce défaut de papillotement affecte aussi le cinéma
qui n’affiche que 24 images par seconde. Mais il y est à l’origine
moins visible du fait qu’un écran de projection est typiquement

Trame impaire Trame paire

Image complète

Figure 1.24
Une image vidéo résulte de l’entrelacement d’une trame paire et d’une trame impaire. La trame impaire commence son
balayage en milieu de ligne, la trame paire en début de ligne.

41

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

quatre fois moins lumineux qu’un écran de télévision ; il est de


surcroît réduit par une technique de double projection des
images. En télévision, le papillotement est véritablement éliminé
sur les récepteurs à 100 Hz, dans lesquels la fréquence d’affi-
chage des images est doublée.

1.7.3. Le balayage progressif


Le mode de balayage progressif, universellement répandu en
informatique et qui commence à être utilisé en vidéo par certains
standards en haute définition, affiche l’image en une seule passe,
dans son intégralité. À chaque instant, toutes les lignes de
l’image sont donc présentes, ce qui élimine totalement le défaut
de scintillement interligne propre au balayage entrelacé. En
revanche, la bande passante requise pour transmettre le signal
progressif est deux fois plus élevée. En informatique, cela n’est
pas un problème car le signal n’est pas diffusé sur de longues
distances, mais simplement acheminé par câble entre l’unité cen-
trale et le moniteur. En vidéo cependant, l’utilisation du balayage
progressif avec des infrastructures techniques standard impose
de travailler sur un signal qui occupe la même bande passante
que son équivalent entrelacé. La solution actuellement adoptée
consiste tout simplement à choisir une fréquence image qui soit
environ la moitié de la fréquence trame. C’est ainsi qu’a été
défini le standard 24p, basé sur une cadence de 24 images pro-
gressives par seconde, comme au cinéma (§ 7.23).

42

© Éditions Eyrolles
2 L’éclairage
en studio

Quelles sont les particularités de l’éclairage en télévision ?


Quelles sont les règles élémentaires auxquelles doit répondre un bon éclairage ?
Face, contre-jour, ambiance : quelles différences ?
Quels sont les différents types de lampes utilisés dans les projecteurs ?
Quels sont les catégories de projecteurs utilisées sur un plateau de télévision ?
Quels sont les avantages et les inconvénients de l’éclairage fluorescent ?
Comment fonctionne un projecteur automatisé ?
Qu’est-ce qu’un jeu d’orgues ?
Comment contrôler et doser la lumière ?
Quelles sont les bases de l’éclairage type d’un visage ?

Un plateau de télévision bien éclairé n’est pas un plateau plongé dans un bain de
lumière approximative suffisant à rendre visibles les éléments placés dans le
champ d’une caméra. L’art de l’éclairage repose sur une fusion subtile de consi-
dérations techniques, artistiques et pratiques. Le but de ce chapitre est de donner
les quelques règles élémentaires qu’il est bon d’observer pour réussir un éclai-
rage en télévision, avant de faire un tour d’horizon des principaux équipements
– lampes, projecteurs, jeux d’orgue – utilisés en studio.

43

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

2.1 Les spécificités de l’éclairage en studio de télévision

2.1.1. Les exigences techniques


de la caméra
L’éclairage d’un plateau de télévision doit tout d’abord satisfaire
un certain nombre d’exigences techniques imposées par la
caméra : quantité de lumière globalement suffisante au regard de
la sensibilité de la caméra, dynamique de contraste en adéquation
avec celle des capteurs CCD et cohérence de la température de
couleur sur tout le plateau. La différence de nature des lampes qui
peuvent être utilisées conjointement impose l’utilisation de filtres
de correction pour équilibrer la température de couleur de la
source minoritaire – généralement la lumière du jour – sur celle
de la source majoritaire – lumière artificielle. Il arrive cependant
que le directeur de la photographie ajoute à sa palette d’outils de
création ces différences de rendus colorimétriques. Des instru-
ments légers et compacts lui permettent d’évaluer avec précision
les niveaux d’éclairement et d’exposition, mais également d’ef-
fectuer des mesures de chromaticité dans les systèmes (x, y) ou
(u’, v’), ainsi que de la température de couleur des projecteurs.

2.1.2. La restitution sur un petit écran


L’éclairage doit par ailleurs répondre à des principes de base
conditionnant cette fois l’aspect esthétique de l’image : équilibre
entre le premier et l’arrière-plan, contrôle des ombres portées,
maîtrise de la brillance des hautes lumières, etc. Car la vision
d’une image concentrée sur une surface aussi restreinte que celle
d’un écran de télévision n’implique pas pour l’œil la même ana-
lyse que l’observation de la même scène en conditions réelles.
D’une part l’analyse des détails y est plus approfondie, et d’autre
part les notions de perspective, qui nous sont innées en milieu
naturel, deviennent plus confuses sur une image bidimension-
nelle. Si nos deux yeux permettent une vision stéréoscopique
d’une scène naturelle, il n’en n’est pas de même pour la caméra
qui ne capte qu’une image plane, par définition exempte de pro-

44

© Éditions Eyrolles
2 • L’éclairage en studio

fondeur. Le rôle de l’éclairage est alors de suggérer au téléspec-


tateur la dimension absente, en lui permettant d’interpréter sub-
jectivement les notions de distances, de proportions et de volume,
grâce à la mise en valeur de certaines tonalités et structures par le
jeu de la lumière et des ombres. Seul un éclairage minutieusement
travaillé, dosé et dirigé saura créer un modelé, renforcer l’aspect
visuel d’une scène et embellir le sujet. Par ailleurs, l’éclairage
peut jouer un rôle essentiel dans la création d’une atmosphère :
contrastes marqués par une lumière dure ou estompés par une
lumière diffuse, couleurs plus ou moins vives, climat chaleureux
à dominante orangée, climat froid à dominante bleutée...

2.1.3. La multiplicité des angles de prise


de vues
Contrairement au cas du cinéma ou de la photographie, un pla-
teau de télévision est couvert par plusieurs caméras fournissant
simultanément différents angles de cadrage d’une scène ou d’un
sujet. Cette multiplicité des axes de prise de vues est l’une des
grandes difficultés à laquelle est quotidiennement confronté le
directeur de la photographie. L’effet visuel donné par chaque
projecteur varie en fonction de la position de la caméra. Une
lumière travaillée pour une caméra cadrant sous un certain angle
peut parfois créer des surprises dans un autre axe.

2.2 Face, contre-jour, ambiance : les bases de l’éclairage type

Nous allons à présent donner les bases de l’éclairage type d’un


personnage à partir de trois points.
L’éclairage clé est fourni par une source principale, délivrant une
lumière très dirigée, dont l’intensité varie typiquement entre
1 000 et 2 000 lux. Communément appelée face, cette source est
généralement située à environ 30° à gauche ou à droite de l’axe
du regard. En azimut, l’angle moyen est également de 30°, mais
il peut varier selon les cas pour atténuer ou accentuer certaines

45

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

caractéristiques du sujet. Cette lumière franche est inévitable-


ment créatrice de zones d’ombres peu flatteuses, car souvent trop
marquées et donnant une image du sujet beaucoup trop dure. Il
faut alors adoucir ces ombres avec une deuxième source, moins
puissante (environ 500 lux) appelée lumière d’ambiance. Cette
source peut être placée dans l’axe du regard, et doit être suffi-
samment diffuse pour ne pas créer à son tour d’autres ombres.
Son rôle doit se limiter à éclaircir celles de la lumière principale.
Une lumière d’ambiance judicieusement combinée à l’éclairage
de face dont elle compense les défauts contribue à donner une
image agréable, aux reliefs apparents, mais aux contrastes non
exagérément endurcis.
Figure 2.1 Ambiance
Éclairage type d’un Face
personnage à partir de trois
points.

Contre-jour

Enfin, pour « décrocher » le personnage du fond et renforcer l’effet


tridimensionnel, une troisième source de lumière appelée contre-

46

© Éditions Eyrolles
2 • L’éclairage en studio

jour est placée derrière lui. Le contre-jour se justifie d’autant plus


que le contour du sujet et le fond sont de même densité. Il déverse
un flux de lumière sur les cheveux et les épaules du personnage, qui
sont ainsi détourés par un liseré lumineux. Le contre-jour est placé
en opposition avec la lumière principale, avec un angle vertical suf-
fisamment élevé pour ne pas provoquer un phénomène de diffusion
optique dans l’objectif de la caméra.
Voilà donc les trois paramètres fondamentaux qui régissent un
éclairage type : lumière principale, ou face, lumière d’ambiance
adoucissant les ombres créées par la première, et contre-jour
pour silhouetter le sujet. Nous allons à présent nous intéresser
aux différents équipements – lampes, projecteurs, jeux d’orgue –
qui permettent aux éclairagistes et au directeur de la photogra-
phie de construire tous types de lumières et d’effets sur un pla-
teau de télévision.

2.3 Les lampes

S’il existe une très large gamme de lampes de studio, chacune


trouvant son application, on en distingue toutefois trois grandes
catégories : les lampes tungstène/halogène, les lampes à
décharge, et les tubes fluorescents.

2.3.1. Les lampes à incandescence


tungstène/halogène (TH)
Les lampes à incandescence TH sont celles majoritairement utili-
sées pour l’éclairage d’un plateau de télévision. Très compactes et
très efficaces, elles permettent à des projecteurs de taille réduite de
fournir une lumière puissante, avec un spectre continu et une tem-
pérature de couleur de 3 200 K. Les lampes TH présentent l’avan-
tage de pouvoir être montées sur variateur de tension pour que soit
contrôlée leur intensité lumineuse – la température de couleur
variant avec la tension d’alimentation. Une lampe TH est consti-
tuée d’une enveloppe de verre dur ou de quartz contenant un fila-

47

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

ment de tungstène plongé dans un gaz halogène, généralement du


brome. Ce gaz maintient un rendement lumineux et une tempéra-
ture de couleur stables tout au long de la durée de vie de la lampe.
Il faut par ailleurs signaler que dans de nombreux studios, les
lampes TH sont utilisées avec une légère sous-tension, ce qui pro-
longe de façon notable leur durée de vie. Les lampes TH peuvent
être classées en deux catégories : celles à culot bilatéral et celles à
culot unilatéral. Les lampes à culot bilatéral sont tubulaires et pos-
sèdent des contacts à leurs deux extrémités ; les plus longues équi-
pent les projecteurs d’ambiance, les plus courtes les projecteurs
légers à réflecteur ouvert. Les lampes à culot unilatéral sont plus
compactes et équipent généralement les projecteurs à lentille de
Fresnel (§ 2.4.1).

2.3.2. Les lampes à décharge


à halogénures métalliques (HMI)
Les lampes à décharge HMI (Hydrargyrum, Mercure arc length,
Iodine) sont beaucoup plus efficaces que les lampes TH, puis-
qu’elles fournissent environ quatre fois plus de « lumen par watt ».
En revanche, leur température de couleur change lorsqu’elles
vieillissent. Bien que très proche de celui de la lumière du jour, leur
spectre d’émission est discontinu car constitué de creux et de pics.
On ne peut donc les caractériser que par une température équiva-
lente de 5 600 K. Une lampe HMI est exempte de filament : dans
une enveloppe de quartz pur (résistant aux températures élevées) se
trouvent deux électrodes plongées dans un gaz. La lumière est due
à l’apparition d’un arc électrique entre les deux électrodes, provo-
qué par l’ionisation du gaz, lorsque la différence de potentiel appli-
quée entre les deux électrodes est suffisamment élevée pour que le
courant circule entre elles. Une lampe HMI est alimentée par un
limiteur de courant ballast chargé de convertir le courant sinusoïdal
du secteur en un signal carré et de filtrer les transitoires. Un dispo-
sitif d’amorçage déclenche la décharge par l’envoi bref d’un courant
haute tension. Les lampes HMI ne peuvent pas être graduées,
contrairement aux lampes TH. Pour moduler l’intensité lumineuse
des lampes HMI, il faut recourir à un dispositif d’obturation.

48

© Éditions Eyrolles
2 • L’éclairage en studio

Lampes TH à culot

Lampe TH tubulaire courte pour projecteur face ouverte

Lampe TH tubulaire longue pour ambiances

Lampe HMI tubulaire

Lampe HMI à culot

Figure 2.2
Quelques exemples de lampes TH et HMI.

49

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Les lampes TH et HMI sont également disponibles en version


PAR, c’est-à-dire avec un réflecteur incorporé ; la concentration
du faisceau dépend de la lentille qui constitue la face avant de la
lampe.

2.3.3. Les tubes fluorescents


Les tubes fluorescents, qui existent en version « lumière du jour »
et en version « lumière artificielle », sont disposés côte à côte dans
une boîte à lumière réfléchissante. De forme carrée ou rectangu-
laire, celle-ci est équipée de volets coupe-flux amovibles et parfois
réversibles (argenté/noir). Les tubes fluorescents ne dégagent pra-
tiquement pas de chaleur et produisent une lumière uniforme douce
et diffuse, mais peu puissante. Ils sont donc limités à un éclairage
de proximité. Les sources fluorescentes sont certes plus onéreuses
à l’achat que les sources halogènes classiques, mais leur coût d’uti-
lisation sur une période de 3 à 5 ans s’avère bien inférieur. Il faut
en effet savoir que la durée de vie d’un tube fluorescent est de plus
de 10 000 heures, au lieu de 200 pour une lampe halogène – soit
environ quatre années d’utilisation à raison de 8 heures quoti-
diennes. D’autre part, l’énergie consommée par un studio éclairé
en lumière froide n’excède pas 1/8 de son équivalent en halogène,
ce qui engendre de considérables économies sur les factures d’élec-
tricité. Le dégagement en chaleur étant par ailleurs très faible, il
n’est pas nécessaire de disposer d’un système à air conditionné
puissant. Souvent, la climatisation ambiante peut suffire.

2.3.4. L’indice de rendu des couleurs « Ra »


La capacité d’une lampe à restituer les couleurs du spectre
visible est donnée par son indice de rendu des couleurs « Ra »,
dont la valeur maximale 100 est celle de la lumière blanche
d’égale énergie. En télévision, une reproduction fidèle des cou-
leurs impose que l’indice Ra soit supérieur à 85. Dans le cas
contraire, certaines couleurs correspondant à un creux spectral
apparaissent désaturées et grisâtres. L’indice de rendu des cou-

50

© Éditions Eyrolles
2 • L’éclairage en studio

leurs Ra d’une lampe TH est de 99 (comme celui du Soleil), celui


d’une lampe HMI est de 90, celui d’un tube fluorescent est de 85
pour les plus lumineux, et atteint 98 pour les moins lumineux.

2.4 Les projecteurs

Il existe différentes catégories de projecteurs, chacune conçue


pour fournir un type de lumière particulier.
Une lumière concentrée est une lumière dure qui produit des
ombres très marquées – comme la lumière directe du Soleil. Elle
donne des contrastes violents au sujet sur lequel elle est dirigée.
Une lumière diffuse est au contraire plus douce, moins agressive,
pas directive, et n’apporte pas d’ombres – comme par exemple
la lumière d’un ciel couvert. Elle enveloppe mieux le sujet, mais
gomme son volume.
De façon générale, pour obtenir une lumière directive, on utilise
un projecteur de type Fresnel ou à face ouverte, alors que pour
obtenir une lumière diffuse, on a recours à une ambiance.

2.4.1. Le projecteur à lentille de Fresnel


Le projecteur à lentille de Fresnel se compose d’une douille
porte-lampe montée sur un mécanisme mobile, avec un réflec-
teur pouvant se rapprocher ou s’éloigner de la lentille. Cette len-
tille de Fresnel est fabriquée avec des échelons qui réduisent son
poids et facilitent la dissipation de la chaleur. Sa face arrière est
généralement martelée pour briser l’image des filaments de la
lampe. C’est la position de la lampe et de son réflecteur par rap-
port à la lentille qui, en déterminant l’angle d’ouverture du fais-
ceau lumineux, modifie la focalisation de la lumière : plus la
lampe et son réflecteur sont proches de la lentille, plus le fais-
ceau est large ; plus ils en sont éloignés, plus le faisceau est
étroit. Le projecteur à lentille de Fresnel accepte les lampes TH
et les lampes HMI.

51

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Position « spot » Position « flood »

Réflecteur
sphérique
Lentille de Fresnel

Mécanisme mobile

Figure 2.3
Le projecteur à lentille de Fresnel. Lorsque la lampe et son réflecteur sont proches de la lentille, le faisceau est large
(position flood) ; lorsqu’ils en sont éloignés, le faisceau est concentré (position spot).

2.4.2. Le projecteur ouvert


Un projecteur ouvert (ou à face ouverte) est exempt de lentille en
face avant, mais conserve un réflecteur sur sa face arrière. La
focalisation reste possible en déplaçant la lampe par rapport au
réflecteur, ou inversement. Les bords du faisceau sont moins
définis qu’avec un projecteur de type Fresnel, mais l’absence de
lentille augmente son rendement lumineux. Le projecteur ouvert
est adapté aux lampes TH (tubulaires courtes) et HMI. Les pro-
jecteurs ouverts les plus répandus sont la « blonde » et la « man-
darine ».
Les projecteurs à face ouverte, comme ceux à lentille de Fresnel,
peuvent recevoir des volets montés sur charnières et fixés sur un
cadre métallique. Ces volets sont très souvent indispensables
pour canaliser le flux lumineux uniquement sur le sujet à éclai-
rer – par exemple sur le visage, et non pas sur la chemise blanche
du présentateur !...

52

© Éditions Eyrolles
2 • L’éclairage en studio

Figure 2.4
Le projecteur ouvert. Réflecteur
parabolique

Faisceau large Faisceau serré


flood spot

2.4.3. Le projecteur de découpe


Le rôle du projecteur de découpe est de projeter des motifs décou-
pées sur une plaquette en acier inoxydable, appelée gobo. Le pro-
jecteur de découpe contient en fait un système optique analogue à
celui d’un projecteur de diapositives classiques : un premier dis-
positif concentre la lumière sur le gobo, et un second sert à proje-
ter et à focaliser le faisceau « découpé » à une distance donnée.

Figure 2.5
Système optique
Réflecteur Lampe Gobo de projection
Le projecteur de découpe.

Condenseur

2.4.4. Le projecteur de poursuite


Le projecteur de poursuite fonctionne selon le même principe
que le projecteur de découpe, hormis le fait que son faisceau

53

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

n’est pas découpé, mais plein et au contour très net. Le projec-


teur de poursuite est utilisé pour isoler – si le reste du plateau est
dans l’obscurité – ou simplement faire ressortir un personnage
sur scène. Il est généralement équipé d’une lampe HMI et peut
recevoir des filtres correcteurs pour être adapté à la température
de couleur du studio.
Le projecteur de poursuite est monté sur pied, avec un méca-
nisme permettant à l’opérateur de le diriger pour suivre les mou-
vements de l’acteur sur la scène. Son système optique est à très
longue focale et fournit un angle de champ très faible. Plus le
projecteur est éloigné de son sujet, plus le faisceau est étroit et
plus les à-coups des mouvements sont amplifiés.

2.4.5. Les ambiances


L’ambiance produit une lumière douce et uniforme se répandant
sur une grande surface ; elle est souvent utilisée comme lumière
de remplissage en complément d’une lumière franche et direc-
tive. L’utilisation d’une ambiance nécessite cependant quelques
précautions car la lumière qu’elle fournit n’est pas facilement
contrôlable et déborde souvent du champ visé. En outre, son
intensité s’affaiblit très rapidement quand on l’éloigne du sujet.
Parfois, un diffuseur est requis pour disperser davantage la
lumière d’ambiance.

L’ambiance cyclorama
Le cyclorama est le décor le plus répandu sur les plateaux de télé-
vision. Il s’agit d’un mur ou d’un grand rideau tendu, dont les
coins et parfois la jointure avec le sol sont à angle arrondi. Le
cyclorama est généralement peint en un gris léger et se prête à une
multitude d’éclairages et d’effets. L’éclairage d’un cyclorama
doit aussi pouvoir être effectué de la façon la plus uniforme pos-
sible, sans inégalité entre le haut et le bas. Les ambiances cyclo-
rama ont été étudiées dans ce but : équipées de lampes tubulaires,
elles sont dotées d’un réflecteur à courbure ellipsoïdale dont la
particularité est d’offrir une excellente répartition de la lumière de

54

© Éditions Eyrolles
2 • L’éclairage en studio

haut en bas, en dépit de l’angle d’incidence du projecteur. Il


existe des unités à placer au sol, d’autres à suspendre ; le choix
des unes ou des autres dépend de la surface du studio, de l’espace
au sol disponible, mais également du type de tournage à réaliser.

Figure 2.6
Les principaux types de
projecteurs.

Projecteur
ouvert
Projecteur
à lentille
de Fresnell

Ambiance
Découpe

Poursuite

55

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

2.4.6. Les boîtes à lumière froide


Les boîtes à lumière, renfermant une juxtaposition de tubes fluo-
rescents, sont de plus en plus utilisées en télévision. Écono-
mique, uniforme, consommant peu et ne dégageant pas de cha-
leur, l’éclairage fluorescent est avant tout la solution idéale pour
les « petites » chaînes thématiques au budget réduit. Bon nombre
d’entre elles sont en effet installées dans des immeubles et dis-
posent de plateaux plutôt exigus avec une hauteur sous plafond
dépassant rarement trois mètres. Du fait qu’elles ne chauffent
quasiment pas et qu’elles génèrent une lumière diffuse, les boîtes
à lumière peuvent être placées à courte distance des personnages
sans les éblouir et sans gêner la lecture d’un prompteur.
L’éclairage fluorescent est également utilisé dans des studios
plus classiques, essentiellement sur les plateaux de journaux
télévisés, talk-show, mais aussi sur les tournages en incrustation.
L’éclairage uniforme du cyclorama, sans point chaud, ni ombres
multiples croisées, est dans ce cas un facteur primordial – pré-
sentation de la météo, studios virtuels... Les sources fluores-
centes sont par ailleurs les seules à être capables de délivrer un
éclairage vertical parfaitement uniforme et homogène sur une
grande surface horizontale – sports en salle, table de billard, etc.
Il est cependant clair qu’une boîte à lumière ne se substituera
jamais totalement à un projecteur à lentille de Fresnel, parce
qu’elle ne peut pas satisfaire toutes les situations d’éclairage.
La quantité de lumière produite reste relativement faible au
regard de la taille du tube, et pénètre très mal l’espace en pro-
fondeur. D’autre part, même si des accessoires, comme les
grilles nids d’abeille ou les volets coupe flux amovibles, per-
mettent de délimiter dans une certaine mesure la zone éclairée,
la lumière émise par une source fluorescente est très peu maîtri-
sable. Il s’agit en effet d’une véritable baie lumineuse produisant
un éclairage diffus semblable à la lumière du jour sous un ciel
couvert, donc très impersonnel. C’est pourquoi il est nécessaire
de pouvoir, sur un même plateau, mélanger des sources fluores-
centes avec un éclairage tungstène-halogène traditionnel, ce qui
impose une qualité spectrale compatible – les spectres des tubes
doivent être pleins et équilibrés. Il existe aujourd’hui des tubes

56

© Éditions Eyrolles
2 • L’éclairage en studio

fluorescents parfaitement calés sur les températures de couleurs


3 200 K et 5 600 K.

2.4.7. Les projecteurs automatisés


Les projecteurs automatisés sont apparus au début des
années 1980 sur le marché de l’éclairage scénique. Aujourd’hui
ils sont très utilisés sur les plateaux de télévision, essentiellement
pour la réalisation d’émissions musicales. On les emploie égale-
ment sur quelques émissions standard, en remplacement de pro-
jecteurs traditionnels, bien qu’ils ne puissent prétendre rivaliser
avec un projecteur à lentille de Fresnel en termes de puissance et
d’efficacité.
Les projecteurs automatisés offrent au directeur de la photogra-
phie une nouvelle palette de couleurs, d’une richesse exception-
nelle, et permettant une grande variété d’effets dynamiques – à
utiliser avec modération...
On distingue deux grandes catégories de projecteurs automatisés :
les Vari*lite, montés sur un support motorisé orientable, et les
Telescan, qui sont au contraire fixes, les mouvements du faisceau
étant réalisés grâce à un miroir orientable suivant les deux axes.

[Link]. Le « Vari*lite »
Le Vari*lite est un projecteur automatisé à microprocesseur,
monté sur un support rotatif, permettant des mouvements hori-
zontaux à 360° et verticaux à 270°. Les différents modèles se
distinguent notamment par leur taille, leur puissance, et les capa-
cités du système de changeur de couleurs – roues porte-filtres ou
tuner dichroïque permettant l’enchaînement des couleurs en
fondu avec temps programmé. Une console centralisée asservie
à un ordinateur permet de contrôler et de programmer la couleur,
l’intensité, la focalisation et l’angle d’ouverture du faisceau. Elle
sert également à choisir une forme de découpe (gobo) et à pro-
grammer différentes séquences de mouvement et de positionne-
ment du projecteur. Une interface permet en outre à la console de
piloter des équipements d’éclairage traditionnels.

57

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. Le « Telescan »
Le Telescan est un projecteur automatisé, équipé de différents
tiroirs motorisés et d’un miroir asservi sur les deux axes. Ce dernier
permet d’orienter le faisceau avec une précision de restitution allant
jusqu’à 1 cm, le projecteur lui-même restant fixe. Le Telescan est
plus encombrant que le Vari*lite mais, contrairement à ce dernier,
il ne nécessite aucun espace supplémentaire pour assurer les mou-
vements du faisceau. Les tiroirs s’interposant entre le ballast d’ali-
mentation et le miroir sont enfichables et peuvent donc être rem-
placés sans démontage. On trouve notamment un tiroir gobos – en
position fixe et tournant –, un tiroir iris – réglage progressif de 0 à
100 % –, un tiroir focus – doté d’un objectif asservi permettant le
réglage de la netteté du faisceau –, et un tiroir équipé d’un système
couleurs trichromique. L’engagement progressif et la combinaison
de trois verres dichroïques (magenta, jaune, cyan) donne accès à
une riche variété de couleurs.

Figure 2.7
Les projecteurs automatisés
Vari*lite et Telescan. Leur
faisceau, matérialisé par de
la fumée issue d’une
machine à bain d’huile, peut
être orienté, focalisé, densifié Le Telescan
et coloré à partir d’un pupitre
Le Vari*lite
de commande centralisé.

2.4.8. Les jeux d’orgue


Les systèmes de contrôle d’éclairage en studio, également appe-
lés jeux d’orgue, se composent de deux ensembles.
– Une console offrant différents organes de commande – potentio-
mètres rotatifs ou linéaires, boutons, etc. – pour varier, mémori-
ser et rappeler les niveaux lumineux d’un ou plusieurs projec-

58

© Éditions Eyrolles
2 • L’éclairage en studio

teurs. La console est installée soit en régie, soit à un endroit


duquel le pupitreur dispose d’une vue d’ensemble sur le plateau.
– Les gradateurs, qui sont les organes de distribution électriques
chargés de transmettre à chaque projecteur, sous forme de
valeurs électriques, les instructions provenant de la console.
Les gradateurs sont placés dans une armoire pour les installa-
tions permanentes, ou montés en racks portables pour les ins-
tallations temporaires.

Sources
incandescentes
240/12 V basse tension

Sources incandescentes

Sources fluorescentes

Gradateurs

Console de commande

Figure 2.8
Schéma d’un système de commande et de gradation de la lumière.

Durant la phase de préparation de l’éclairage d’un plateau, les


niveaux d’intensité des projecteurs, repérés chacun par un numéro,

59

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

sont préréglés et mémorisés individuellement. Des commandes


groupées peuvent également leur être appliquées par une manipu-
lation simple et rapide. Les changements d’état des projecteurs
actifs se font manuellement à l’aide de curseurs, ou automatique-
ment, selon des temps de montée et de descente programmés.
Toutes ces opérations sont visualisées sur un moniteur informa-
tique, affichant en temps réel les états de tous les projecteurs du
plateau, ainsi que différents renseignements sur les modes d’opé-
ration. Une émission de télévision est souvent découpée en plu-
sieurs séquences se déroulant en différents lieux du plateau – coin
talk-show, scène variété, etc. Par une simple action sur quelques
boutons, le pupitreur peut réaliser rapidement des enchaînements
entre différentes configurations, mais également piloter des effets
spéciaux dans le cadre d’un éclairage scénique.

2.4.9. Comment doser la lumière


Plusieurs solutions se présentent au directeur de la photographie
qui désire ajuster ou contrôler avec précision la quantité de
lumière à envoyer sur un sujet.
– Régler la focalisation du faisceau : on peut intensifier le flux
de lumière envoyé sur un élément de surface plus réduit, qui
devient alors très lumineux, ou, au contraire, élargir sa couver-
ture de champ à une surface plus étendue.
– Déplacer le projecteur : l’éclairement du sujet varie de façon
inversement proportionnelle au carré de la distance qui le sépare
du projecteur (loi de Lambert). Autrement dit, la même quantité
de lumière se répartit sur une surface qui varie proportionnelle-
ment au carré de la distance. Par exemple, à une distance trois
fois plus grande, le sujet reçoit neuf fois moins de lumière, et à
mi-distance, quatre fois plus. Ainsi, pour connaître l’éclairement
(en lux) reçu par un sujet, il faut diviser l’intensité lumineuse de
la source (en candelas) par le carré de la distance (en mètres) qui
le sépare du projecteur. Un projecteur délivrant une intensité
lumineuse de 32 000 candelas produira un éclairement de 2 000
lux à une distance de 4 m, de 3 550 lux à 3 m (soit 75 % de
lumière en plus si l’on s’approche de 1 m de la source), et de

60

© Éditions Eyrolles
2 • L’éclairage en studio

1 280 lux à 5 m (soit 22 % de lumière en moins si l’on s’éloigne


de 1 m de la source)... C’est dire combien les niveaux d’intensité
lumineuse changent vite, quand la distance entre le sujet et le pro-
jecteur varie – surtout lorsqu’elle est faible. De façon générale,
pour un niveau de lumière donné, on préfère un projecteur puis-
sant, éloigné du sujet, à un projecteur moins puissant, plus proche
du sujet.

Figure 2.9
L’éclairement est
proportionnel à l’inverse du
carré de la distance : à 4 m,
la surface couverte par le
champ du faisceau est quatre
fois plus grande qu’à 2 m.
Chaque unité de surface
reçoit quatre fois moins de
lumière qu’à 2 m.
2m

4m

32 000 candelas
1 280 lux 2 000 lux 3 550 lux

3m

4m
5m

Figure 2.10
Variation de l’éclairement d’un sujet en fonction de la distance qui le sépare du projecteur.

61

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– Graduer les projecteurs : cette solution n’est possible qu’avec


des sources incandescentes et fluorescentes – rappelons que
l’on ne peut pas graduer une lampe à décharge. La graduation
des projecteurs est à utiliser de manière modérée, car la chute
de température de couleur accompagnant la baisse du niveau
lumineux peut rapidement devenir perceptible sur l’image
vidéo. C’est pourquoi cette solution, pourtant si pratique, s’ac-
compagne de sévères réserves quand elle doit s’appliquer au
cas, toujours délicat, d’un visage, mais également à toute sur-
face blanche ou grise sur laquelle une dominante colorée (ici
dans les jaunes), même légère, est très vite visible.
– Utiliser un diffuseur pour adoucir la lumière, et des volets pour
la canaliser. Les diffuseurs sont des feuilles translucides à base
de verre ou de plastique traité, et dont l’opacité est plus ou
moins élevée. Placé devant un projecteur, un diffuseur permet
d’élargir la surface de la source éclairante en rendant la
lumière émise beaucoup moins directive, et en réduisant de
façon uniforme l’énergie lumineuse. Les diffuseurs sont sou-
vent utilisés sur les ambiances, mais ils trouvent également
leur place devant les projecteurs à lentille de Fresnel, dont ils
adoucissent agréablement la nature de la lumière. Ce sont des
accessoires simples – souvent fixés à l’aide de pinces à linge ! –,
mais qui permettent d’obtenir un éclairage équilibré et nuancé,
en atténuant les zones de surexposition et en estompant les
ombres projetées.
Par ailleurs, des volets, ou drapeaux, peuvent apporter leur
contribution pour contrôler avec précision et canaliser le flux
lumineux en l’empêchant d’atteindre certaines zones non visées.
Il est très fréquent, entre deux répétitions, d’avoir à rectifier la
position d’un volet ou d’ajouter un diffuseur pour corriger les
petits défauts de dernière minute.

2.4.10. L’éclairage d’un visage


Le visage est l’un des sujets les plus délicats à éclairer. C’est aussi
le sujet envers lequel le téléspectateur est le plus critique parce
qu’il sait parfaitement le détailler.

62

© Éditions Eyrolles
2 • L’éclairage en studio

Le travail sur un visage commence par le maquillage, dont on ne


dira jamais assez l’importance en télévision. Avec sa panoplie de
produits cosmétiques, la maquilleuse parvient, en jouant sur les
volumes, à dissimuler les défauts disgracieux d’un visage –
cernes, rides, boutons... – et à en uniformiser le teint. Elle le pro-
tège aussi efficacement des brillances qui apparaissent très vite
sous la chaleur des projecteurs (des retouches en cours d’émis-
sion sont souvent nécessaires).
Le directeur de la photographie doit alors travailler sa lumière pour
donner une image flatteuse de son sujet. Les azimuts et les sites de
ses projecteurs sont alors des facteurs particulièrement influents.
– Pour éclairer le visage d’une femme, le directeur de la photo-
graphie évitera une lumière à angle d’incidence vertical élevé.
Une face trop plongeante aura pour effet néfaste de creuser et
d’amplifier des imperfections de la peau. Elle assombrira les
orbites, provoquera des ombres portées longues sous le nez,
sous la lèvre inférieure et sur le cou ; elle accentuera aussi les
poches sous les yeux et fera ressortir certaines rides. Si l’éclai-
rage clé est placé plus bas, les ombres seront raccourcies et les
traits adoucis, à condition que la lumière soit bien diffusée.
Pour des cas particulièrement délicats, un petit projecteur d’ap-
point, également bien diffusé et placé au-dessus ou juste à côté
de la caméra, effacera complètement certains défauts du
visage. Le contre-jour doit être suffisamment présent pour
créer des brillances du plus bel effet sur des cheveux longs.
– Dans le cas d’un homme, les critères sont différents. La notion
d’embellissement n’a plus le même sens ; mais les principes à
appliquer restent similaires. Pour ce qui est du contre-jour, tout
dépend de la chevelure du sujet. Si ce dernier est grisonnant,
chauve ou juste dégarni, il ne supportera qu’un contre-jour très
léger (le crâne gagnera à être poudré par la maquilleuse).
Quoi qu’il en soit, l’éclairage doit toujours être adapté aux carac-
téristiques du personnage et à ses différentes positions. En effet,
si le sujet s’écarte de l’axe du projecteur de face ou s’il tourne la
tête, l’éclairage initial ne conviendra plus. Il faut en permanence
contrôler la lumière incidente et faire attention à la brillance, en
fonction de tous les axes de prise de vues. Des compromis sont
souvent inévitables...

63

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

2.4.11. Le contrôle en régie


Contrairement au cas du cinéma, il est possible, en vidéo, de
contrôler immédiatement le rendu de l’éclairage d’un plateau
dans les mêmes conditions que celles de la restitution finale. En
effet, lorsque le directeur de la photographie a bâti l’ossature de
sa lumière, il demande toujours à disposer d’au moins une
caméra étalonnée en colorimétrie et d’un moniteur bien réglé. Il
peut alors finaliser son éclairage avec une doublure lumière, en
se référant à l’image reproduite selon les différents axes de
cadrage par le moniteur. Celui-ci pourra en effet révéler cer-
taines parties de décor surexposées ou au contraire « enterrées »,
des brillances ou des zones d’ombre trop dures sur un visage,
mais également des différences de rendus colorimétriques que
l’œil ne perçoit pas sur le plateau.
En régie, l’ingénieur de la vision contrôle et corrige les images
provenant de toutes les caméras, avant et pendant une émission.
Son rôle est d’agir sur les réglages électroniques relatifs à diffé-
rents paramètres de chaque caméra, de sorte que l’image vidéo
traduise le plus fidèlement possible l’ambiance créée par le
directeur de la photographie. L’ingénieur de la vision peut modi-
fier l’ouverture du diaphragme pour ajuster l’exposition d’une
image, abaisser ou relever le niveau de noir général pour en
assombrir ou éclaircir les zones les plus sombres. Il peut aussi
avoir à peaufiner la correction colorimétrique des caméras en
ajustant les niveaux des trois couleurs primaires, et ce séparé-
ment sur les parties claires et foncées de l’image. Ces réglages,
entre autres, lui permettent par ailleurs d’équilibrer toutes les
caméras entre elles en fonction des nombreux angles de prise de
vues, pour homogénéiser l’ensemble du programme.
Ce n’est qu’avec une parfaite harmonie entre le directeur de la
photographie et l’ingénieur de la vision que l’effet pictural sera
cohérent, juste, efficace et fidèle à celui recherché sur le plateau.
Car même si nous avons longuement évoqué les aspects tech-
niques de la lumière en télévision, il reste une part essentielle de
sensibilité artistique, de créativité et d’expérience propre à
chacun, qui ne répond à aucune règle.

64

© Éditions Eyrolles
2 • L’éclairage en studio

Par Par
Ambiance Ambiance Ambiance
K ce

2K
5 ian

5K

Am 5
5K 5K
b

bi K
Am

an
ce
66
Contre
clavier
Ambiance

Effets de contres

Ambiance
5K

batteur au sol

5K
(Par 8 × 1 000 W )
Face
Découpe 1 K sur les
batteur Contre choristes
touches du clavier
1K 1K 1K

2K
1K

Contre Face
bassiste clavier 2K
2K
Rattrapage
clavier Contre
chanteur

1K

Rattrapage bassiste
1K 1K
2K 1K
1K Face bassiste
Faces choristes
Contre
5K chroniqueur 5K
Face invité
Face présentateur

2K 2K

Contre invité H H Contre présentateur


M M
I I
5K 5K

Rattrapage 1K
Face Rattrapage
chroniqueur(s)
Face chanteur (poursuite HMI, 1 200 W) sur pied

Figure 2.11
Plan d’éclairage d’un plateau avec une partie « talk-show » et une scène variétés.

65

© Éditions Eyrolles
3 L’optique

Comment une lentille forme-t-elle une image ?


Qu’est-ce que la distance focale d’un objectif ?
Comment déterminer l’angle de champ d’une caméra en fonction de sa distance focale ?
Qu’est-ce que le format d’un objectif ?
Comment trouver les focales équivalentes en vidéo, photo et film ?
Qu’est-ce que le tirage optique ?
Qu’est-ce que l’ouverture relative d’un objectif ?
De quoi dépend la profondeur de champ ?
Qu’est-ce que la distance hyperfocale ?
Quelles sont les principales aberrations apportées par un objectif ?
Qu’est-ce que le ramping ?
Qu’est-ce que la fonction de transfert de modulation d’un objectif ?
Comment fonctionne un filtre polariseur ?
Quel est le principe de la mise au point interne ?
Comment fonctionne un stabilisateur optique ?

L’objectif est un organe essentiel de la caméra, puisque c’est lui qui forme
l’image qui sera ensuite analysée par les circuits électroniques. Les premières
pages de ce chapitre proposent un rappel des bases élémentaires de l’optique.
Ensuite nous aborderons la notion de cadrage, en examinant tous les paramètres
qui entrent en jeu, avec de nombreuses illustrations, des exemples concrets et
quelques formules indispensables. Puis nous décrirons un objectif zoom, avec
ses fonctions, ses caractéristiques, ses défauts et leurs corrections. Nous termi-
nerons en présentant les innovations techniques récemment proposées par les
fabricants pour améliorer les performances et le confort d’utilisation des objec-
tifs de télévision.

67

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

3.1 Le vocabulaire de l’optique

3.1.1. La lentille
Dans le chapitre sur la colorimétrie, nous avons eu l’occasion
d’évoquer le phénomène de réfraction : lorsque la lumière
traverse la surface de séparation entre deux milieux d’indices de
réfraction différents, elle change de direction. L’élément fonda-
mental d’un objectif, la lentille, répond à ce principe de déviation
des rayons lumineux. Une lentille est un corps transparent réfrin-
gent en verre, délimité soit par deux calottes sphériques, soit par
une calotte sphérique et un plan. La ligne imaginaire qui joint les
centres de courbure des deux faces de la lentille est appelée axe
principal, ou axe optique. Le point d’intersection entre l’axe
optique et le centre de la lentille est appelée centre optique. Tout
rayon passant par le centre optique n’est pas dévié.
On distingue deux catégories de lentilles : les « lentilles conver-
gentes » et les « lentilles divergentes ».
Les lentilles convergentes sont moins épaisses aux extrémités
qu’au centre ; on dit qu’elles sont à bords minces. De type bicon-
vexe (deux faces bombées), plan convexe (une face bombée,
l’autre plane), ou ménisque (une face bombée, l’autre creuse),
les lentilles convergentes transforment un faisceau incident
parallèle en un faisceau se rétrécissant et convergeant en un point
unique, appelé foyer de la lentille.
Les lentilles divergentes sont plus épaisses aux extrémités qu’au
centre ; on dit qu’elles sont à bords épais. De type biconcave
(deux faces creuses), plan concave (une face creuse, l’autre
plane), ou ménisque (une face bombée, l’autre creuse), elles
transforment un faisceau incident parallèle en un faisceau diver-
gent.
En optique géométrique, on représente une lentille convergente
et une lentille divergente par deux symboles, indiqués sur la
figure 3.1.

68

© Éditions Eyrolles
3 • L’optique

Figure 3.1 Ménisque


Biconvexe Plan convexe Symbole
Les différentes catégories de convergent
lentilles.

axe optique

Lentilles convergentes, ou à bords mince

Biconcave Plan concave Ménisque Symbole


divergent

axe optique

Lentilles divergentes, ou à bords épais

3.1.2. La construction d’une image


[Link]. Construction d’une image par une lentille
convergente
Une lentille convergente forme une image réelle d’un objet,
c’est-à-dire pouvant être recueillie sur un écran. Considérons un
objet défini par deux points, A et B, et placé sur l’axe optique,
devant la lentille. Dans la réalité, les sujets à cadrer ne sont pas
positionnés sur l’axe optique, mais les opticiens ont adopté cette
configuration, simple pour les calculs, et qui donne des résultats
justes. Tous les rayons lumineux issus de la source ponctuelle B
et traversant la lentille se croisent en un point B’, l’image de B.
Pour représenter graphiquement ce point B’, on choisit des
rayons particuliers issus du point objet B (fig. 3.2).

69

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 3.2 f
Construction d’une image F = foyer objet
par une lentille convergente. B F’ = foyer réel
1 O = centre optique
f = distance focale
2
3 A’
F’ Axe optique
A F O
Objet
réel B’
Image
réelle

– Le rayon (1), parallèle à l’axe optique. Après avoir traversé


la lentille, il converge vers l’axe optique et le croise en un
point F’, appelé foyer image de la lentille. Le foyer image de
la lentille est, plus généralement, le point où convergent les
rayons lumineux venant de l’infini, considérés comme paral-
lèles à l’axe optique. Plus le foyer image est éloigné de la len-
tille, plus l’image formée est grande, et inversement.
– Le rayon (2) passe par le centre optique de la lentille. Il n’est
donc pas dévié.
– Le rayon (3) coupe l’axe optique en un point F appelé foyer
objet, et émerge de la lentille en étant parallèle à l’axe optique.
Les deux foyers F et F’ d’une lentille sont situés symétrique-
ment par rapport à son centre optique.
Quant au point A, du fait qu’il est placé sur l’axe optique, son
image A’ est elle aussi placée sur cet axe (le rayon lumineux
confondu avec l’axe optique n’est pas dévié par la lentille).
Ainsi, l’image de l’objet AB est A’B’, renversée par rapport à AB.

• Distance focale et vergence d’une lentille convergente


La distance focale, notée f, d’une lentille convergente est la dis-
tance entre l’un des deux foyers et le centre optique O. On écrit :
f = OF = OF’. Plus la lentille est convergente, plus le foyer image
F’ est proche de la lentille, donc plus la distance focale est petite.
Réciproquement, une lentille peu convergente possède un foyer
image F’ éloigné de son centre optique ; sa distance focale est

70

© Éditions Eyrolles
3 • L’optique

plus élevée. Signalons que les opticiens préfèrent parfois utiliser


l’inverse de la distance focale (surtout si celle-ci est faible),
appelée vergence. La vergence est élevée pour une lentille très
convergente, et faible pour une lentille peu convergente. Dans
l’égalité suivante, la vergence, notée C, s’exprime en dioptries,
et la distance focale f en mètres :
1
C=
f
Plus une lentille est courbe, plus sa distance focale est faible et
plus sa vergence est élevée (on dit aussi que sa « puissance » est
élevée parce qu’elle converge plus).
Retenons par ailleurs qu’une lentille convergente donne toujours
une image réelle du côté opposé à celui de l’objet réel, sauf si celui-
ci est situé entre le foyer objet et la lentille – comme dans le cas
d’une loupe, qui forme une image virtuelle du côté de l’objet
(fig. 3.3).

Figure 3.3 B’
Principe d’une loupe :
l’image virtuelle agrandie est
obtenue en plaçant l’objet
réel entre la lentille et son B
foyer objet.

A’ F A F’
Image Objet
virtuelle réel

Une lentille convergente forme une image réelle renversée d’un objet lorsque sa distance à la
lentille est supérieure à la distance focale ; cette image peut être recueillie sur un écran. Une
lentille convergente fait converger les rayons incidents venant de l’infini en un point unique,
appelé foyer image de la lentille.
Tous les rayons passant par le centre optique ne sont pas déviés.
Plus le foyer est éloigné de la lentille convergente, plus l’image formée est grande.
La distance entre le centre optique de la lentille et son foyer image est appelée distance focale.

71

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

• Notion de mise au point


Reprenons le cas d’une lentille qui forme à partir d’un objet AB
une image B’A’ renversée et pouvant être recueillie sur un écran
placé perpendiculairement à l’axe optique, derrière la lentille. À
chaque position de l’objet AB par rapport à la lentille correspond
une seule position où l’image recueillie de l’objet est nette.
Ainsi, si l’objet se rapproche de la lentille, son image s’éloigne
du foyer F’ et s’agrandit. Réciproquement, si l’objet s’éloigne de
la lentille, son image se rapproche du foyer F’ et se réduit.
Lorsque l’objet est à l’infini, son image se forme au niveau du
foyer F’.

Figure 3.4
Principe de la mise au point.

a) L’image et l’objet se déplacent toujours dans le même sens.

Plan de la
Objet surface
réceptrice
de l’image

Image

Objet

Image

b) Principe de la mise au point : si l’objet se rapproche de la caméra,


l’objectif sort à sa rencontre, et inversement.

72

© Éditions Eyrolles
3 • L’optique

Or, dans tout équipement de prise de vues, le plan de la surface


réceptrice de l’image (pellicule, capteur CCD) est toujours fixe.
Donc, pour que l’image nette se forme sur ce même plan lorsque
l’objet s’approche ou s’éloigne de la lentille, celle-ci doit se
déplacer sur son axe, dans le sens opposé à celui de l’objet. Nous
venons de définir la notion de mise au point sur laquelle nous
aurons l’occasion de revenir plus loin.

Le sujet et son image par une lentille convergente se déplacent dans le même sens. Pour main-
tenir fixe le plan de formation de l’image quand le sujet se déplace, il faut « faire le point ».

[Link]. Construction d’une image par une lentille


divergente
En utilisant les mêmes notations que précédemment, nous pou-
vons dire qu’une lentille divergente forme une image virtuelle
A’B’ d’un objet réel AB, qui ne peut être recueillie sur un écran.
Cette image n’est pas renversée et se forme du même côté que
l’objet par rapport à la lentille. Sur la figure 3.5, nous observons
que :
– le rayon (1) incident est parallèle à l’axe optique. Il ressort de
la lentille divergente en semblant provenir d’un point F’, qui
est le foyer virtuel image de la lentille divergente ;
– le rayon (2) se dirige vers le foyer virtuel objet et émerge de la
lentille parallèlement à l’axe optique.

Figure 3.5
Construction d’une image B
virtuelle par une lentille 1
divergente. 2
B’ 2

A F’ A’ F
Objet Image
réel virtuelle
F = foyer virtuel objet
F’ = foyer virtuel image

73

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Les foyers virtuels image et objet sont toujours symétriques par


rapport au centre optique.

3.1.3. Les plans principaux d’un objectif


Un objectif est composé d’un assemblage de lentilles convergentes
et divergentes. Il constitue cependant un ensemble globalement
convergent, puisqu’il forme une image réelle. Par souci de simplifi-
cation, nous avons considéré jusqu’ici le cas d’une lentille extrême-
ment mince, ce qui nous a permis d’admettre qu’elle ne possédait
qu’un seul point nodal (centre optique). Dans la réalité, un objectif
possède deux points nodaux, auxquels correspondent un plan prin-
cipal image, ou primaire, et un plan principal objet, ou secondaire.

Figure 3.6 Tirage optique


Les plans principaux d’un Plan principal Plan principal
objet image
objectif. Foyer
image

α
α

Distance focale
Diamètre du
faisceau d’entrée Point nodal image
Point nodal objet

À partir de la figure 3.6, nous pouvons définir :


– l’axe optique : c’est la droite perpendiculaire à l’objectif qui
passe par son centre ;
– le point nodal image par lequel passe le plan principal image ;
– le point nodal objet par lequel passe le plan principal objet. Les
rayons que nous avons identifiés comme « passant par l’axe
optique » (et dont nous avons dit qu’ils n’étaient pas déviés)
entrent en fait dans l’objectif par le point nodal objet, se dépla-
cent le long de l’axe optique, et ressortent par le point nodal
image en suivant la même direction. Cette précision faite, nous
allons continuer à travailler avec un seul point nodal ;

74

© Éditions Eyrolles
3 • L’optique

– la distance focale : c’est la distance qui sépare le point nodal


image et le foyer image de l’objectif – où l’on admet que se
forme l’image. Plus simplement appelée focale, elle constitue
une caractéristique essentielle de l’objectif, puisque c’est
d’elle dont dépendent l’angle de champ (§ 3.2.1) et les dimen-
sions sur l’image des éléments cadrés.

3.2 Le cadrage

Dans tout ce qui suit, nous allons admettre que l’objet à cadrer est
suffisamment loin de l’objectif (à plus de 3 mètres) pour considé-
rer que son image se forme au foyer. C’est le cas de la plupart des
conditions de prises de vues, et cela simplifie grandement les
choses puisque nous allons pouvoir établir des relations élémen-
taires entre les différentes grandeurs dont dépend un cadrage. Nous
obtenons ainsi la construction graphique de la figure 3.7, sur
laquelle l’objectif est représenté par une lentille convergente.

Figure 3.7
Relation entre la taille du
O
sujet, le format de l’image,
la distance de mise au point, i
et la focale.

Champ objet Champ image

D f

i = O
f D

• La taille de l’objet réel : O


On peut choisir de travailler sur la hauteur, la largeur ou encore la
diagonale de l’objet à cadrer, ici notée O et exprimée en mètres.

• La distance objet/caméra
C’est la distance de mise au point, que nous supposons
d’au moins 3 mètres, et qui est notée D. En photo ou en cinéma,
cette distance est donnée à partir du plan de la pellicule dont

75

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

l’emplacement est signalé sur le boîtier de l’appareil. En vidéo,


la distance de mise au point est donnée à partir de la lentille fron-
tale de l’objectif.

• Le format de l’image : i
Figure 3.8 Cercle image formé
La surface utile de l’image par l’objectif
analysée par la caméra Image analysée
par la caméra
s’inscrit dans le cercle image
formé par l’objectif.

Figure 3.9
Comparaison des formats
Vidéo
d’image vidéo avec ceux du 1"
2/3"
film et de la photo. 1/2"
9,6 16
6,6 11 4,8 8
12,8 8,8 6,4

35 mm Cinéma

Super 16 mm 16 mm
16 27,2
7,5 14,5 7,5 12,8

22 12,4 10,3

Photo

24 43,2

36

Attention, le terme format se réfère ici aux dimensions – largeur,


hauteur ou diagonale – de l’image formée sur la surface sensible

76

© Éditions Eyrolles
3 • L’optique

de l’appareil de prise de vues (capteur CCD, pellicule). L’objectif


fournit une image circulaire à l’intérieur de laquelle s’inscrit un
rectangle qui en délimite la surface utile (fig. 3.8), et dont les
dimensions sont proportionnelles à celles de l’image qui sera
visualisée au final. La figure 3.9 donne les principaux formats
d’image en vidéo comparés à ceux du film et de la photo.
À chaque format d’image correspond un format d’objectif.

• La distance focale : f
La distance focale détermine la valeur du plan et conditionne la
perspective de la composition globale de l’image en fonction du
point de vue choisi. Pour un format d’image donné, plus la
focale de l’objectif est courte, plus le champ couvert est vaste ;
plus la focale est longue, plus il est restreint. Remarquons que si
l’on fait varier la distance objet/caméra dans les mêmes propor-
tions que la valeur de la focale, la taille de l’objet sur l’image
reste la même. Il faut cependant bien comprendre qu’une valeur
de focale est implicitement attachée à un format d’objectif. Nous
y reviendrons plus loin (§. 3.3).
La focale (f, en mm) s’exprime directement en fonction de la taille
de l’objet à cadrer (O) en mètres, la dimension de l’image (i) en
millimètres, et la distance (D) en mètres entre l’objet et la caméra.
Elle est gravée sur l’objectif, sous la forme d’un nombre exprimé
en millimètres, précédé de la lettre f.
distance objet/caméra × dimension image
focale =
taille objet

L’angle de champ
L’angle de champ est la portion d’espace – ou plage angulaire –
captée par l’objectif ; il est lié à la distance focale et aux dimen-
sions de la surface sensible (format d’image).
L’angle de champ est le même à l’avant et à l’arrière de l’objec-
tif. Il peut être donné en horizontal, en vertical ou en diagonal ;
le principe de calcul étant absolument identique pour ces trois
cas, nous allons nous intéresser à l’angle de champ horizontal

77

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

(c’est le plus utilisé). Un triangle rectangle est défini par le demi-


angle de champ horizontal, la valeur de la distance focale (f), et
la moitié de la largeur de l’image formée (i). L’angle α/2 se cal-
cule facilement par sa tangente (fig. 3.10) :
α i i
tg = d’où α = 2 × arctg
2 2×f 2×f

Champ objet Champ image


Format Diagonale Hauteur Largeur
d’image (mm) (mm) (mm)
1" (Vidéo) 16,0 9,6 12,8
2/3" (Vidéo) 11,0 6,6 8,8
Angle de champ 1/2" (Vidéo) 8,0 4,8 6,4
horizontal 24x36 (Photo) 43,3 24,0 36,0
16 mm (Film) 12,8 7,5 10,3
Objet réel 35 mm (Film) 27,2 16,0 22,0
(taille = O)
Format A Focale A
=
Format B Focale B
Image formée par l’objectif
(taille = i)

α i
O

D f

i.D
O = = taille de l’objet (en horizontal, vertical, ou diagonal)
f
O.f
D = = distance de mise au point (distance objet-caméra)
i
O.f
i = = taille de l’image (en horizontal, vertical, ou diagonal)
D
i.D
f = = distance focale
O

α = 2arctg i = angle de champ (horizontal, vertical, ou diagonal)


2.f

(approximation pour distance objet/caméra supérieure à 3 m)

Figure 3.10
Angle de champ, format, focale.

78

© Éditions Eyrolles
3 • L’optique

Prenons pour exemple un objectif zoom de format 2/3", dont les


focales extrêmes sont 9,5 et 152 mm, avec une largeur d’image
de 8,8 mm. L’angle de champ maximal donné par la valeur de la
plus courte focale 9,5 mm est :
i 8,8
α = 2 × arctg = 2 × arctg 2 × 9,5 = 49,7°
2×f
Avec une valeur de focale de 152 mm, un calcul analogue donne
un angle de champ minimal de 3,3°. On calcule les angles de
champ en vertical et en diagonal en prenant pour i les dimen-
sions adéquates données par le format de l’image.

La distance focale est la distance séparant le centre optique de l’objectif et le plan de forma-
tion de l’image qu’il projette. Plus la distance focale d’un objectif est faible, plus l’angle de
champ qu’il couvre est grand, et réciproquement.

3.3 Le choix de la focale

Prenons l’exemple suivant : nous sommes sur le plateau du journal


télévisé, le présentateur est assis derrière sa table. Une caméra pla-
cée à 3 m de lui doit le cadrer à la poitrine, sur une hauteur de
0,6 m.
Cherchons la focale adéquate pour différents types de caméras,
en appliquant simplement la formule f = i.D/O. Les paramètres
fixes sont O = 0,6 et D = 3. Chaque type de caméra nous fournit
la valeur i en mm, qui correspond ici à la hauteur du format de
l’image (fig. 3.9).
– Caméra vidéo 1/2" : i = 4,8 donc f = (4,8 × 3)/0,6 = 24 mm
– Caméra vidéo 2/3" : i = 6,6 donc f = (6,6 × 3)/0,6 = 33 mm
– Caméra film 16 mm : i = 7,5 donc f = 37,5 mm
– Caméra film 35 mm : i = 16 donc f = 80 mm
– Appareil photo 24 × 36 : i = 24 donc f = 120 mm
Ces petits calculs nous montrent que les focales sont « plus
longues » en photo qu’en cinéma, et en cinéma qu’en vidéo. On
remarque, par exemple, que pour obtenir une même valeur de plan,
il faut une focale presque 4 fois plus élevée avec un appareil photo

79

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

24 × 36 qu’avec une caméra vidéo 2/3" (8,8 × 6,6) – attention tou-


tefois, les ratios ne sont pas tout à fait identiques. À focale égale,
un objectif 1/2" couvre un angle de champ plus étroit qu’un objec-
tif 2/3". Donc à chaque fois que l’on s’exprime en termes de
focales, il faut toujours préciser à quel type d’objectif celles-ci se
réfèrent. Pour comparer les caractéristiques des différents objec-
tifs, il s’avère parfois plus commode de recourir à la notion
d’angle de champ, car c’est une grandeur qui prend déjà en
compte le format de l’image, ainsi que la distance focale. Par
exemple, nos yeux ont un champ de vision moyen de 28° en ver-
tical et 37° en horizontal (notons le rapport 4/3 de ces nombres),
ce qui correspond environ à une focale de 50 mm pour un appa-
reil photo, 13 mm pour une caméra vidéo 2/3", et 9 mm pour une
caméra vidéo 1/2".
Notons que ces valeurs de focales dites « normales », ou « stan-
dard », qui correspondent approximativement au même champ de
vision que notre œil, sont dans chaque cas voisines de la diago-
nale du format à couvrir. Les focales beaucoup plus courtes que la
focale normale sont fournies par un objectif dit grand angle, et les
focales beaucoup plus longues, par un téléobjectif.
Nous retiendrons que pour des appareils différents et pour un
angle de champ donné, le rapport des focales est égal au rapport
des formats des objectifs. Par exemple, le rapport entre les for-
mats d’un objectif 2/3" et 1/2" est, en considérant les diagonales,
11/8, soit 1,375. Par conséquent, un même angle de champ est
obtenu avec une focale 1,375 fois plus élevée sur un objectif 2/3"
que sur un objectif 1/2".
Les « téléobjectifs » sont utilisés lorsque la caméra doit fournir
des plans serrés de sujets dont elle est éloignée et dont elle ne
peut se rapprocher – concerts, retransmission sportive dans un
stade... Les objectifs « grand angle » (wide angle) sont, quant à
eux, adaptés au tournage d’images panoramiques en extérieur.
Ils sont également assez souvent utilisés sur les plateaux de télé-
vision pour compenser le manque de recul, ou tout simplement
pour faire des plans très larges.

80

© Éditions Eyrolles
3 • L’optique

Angle de 80° 50° 30° 10° 5° 3° 1°


champ
horizontal
7 10 20 30 50 70 100 200 300 500 700 1 000 2 000 mm
Vidéo 1"

5 7 10 20 30 50 70 100 200 300 500 700 1 000 2 000 mm


Vidéo 2/3"
4 5 7 10 20 30 50 70 100 200 300 500 700 1 000
Vidéo 1/2"

10 20 30 50 70 100 200 300 500 700 1000 2 000 mm


Film 35 mm

5 7 10 20 30 50 70 100 200 300 500 700 1000 2 000 mm


Film 16 mm

18 24 35 50 100 200 400 800 mm


Photo 24 × 36

Figure 3.11
Échelle de correspondance des focales en vidéo, film et photo.
Le trait vertical représente la focale « normale », correspondant à notre champ de vision.

Figure 3.12 1,6


Rapports de conversion des
3,4
focales entre les différents
formats. 3,9
Attention toutefois car les
2,5
ratios ne sont pas toujours
identiques. 1,1

1/2" 2/3" 16 mm 35 mm 24 × 36
1,375

1,6 2,1

3,4

5,5

Pour obtenir un angle de champ donné, il faut une focale plus longue en photo qu’en cinéma,
et en cinéma qu’en vidéo.
Le rapport des focales est égal au rapport des formats des objectifs.
Pour un format donné, la focale normale, correspondant à notre champ de vision, est proche
de la diagonale de l’image formée.
Plus la focale est courte, plus les éléments cadrés apparaissent petits sur l’image. Plus la focale
est longue, plus ils sont grands.

81

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Tableau 3.1
Les angles de champ en fonction des focales courantes en vidéo, cinéma et photographie.
Angle de champ horizontal (degrés)
Focale
(mm) Vidéo Cinéma Photo
1/2” 2/3” 1” 35 mm Super 16 mm 16 mm 24 × 36
4 77,3 95,5
4,5 70,8 88,7
5 65,2 80,2
5,5 60,4 77,3
6 56,1 72,5 91,9 87,1
6,5 52,4 68,2 87,3 82,5
7 49,1 64,3 83,1 78,3
7,5 46,2 60,8 79,2 74,5
8 43,6 57,6 77,3 75,6 70,9
8,5 41,3 54,7 74,0 72,2 67,7
9 39,1 52,1 70,8 69,1 64,7
9,5 37,2 49,7 67,9 66,3 61,9
10 35,5 47,5 65,2 63,6 59,4
11 32,4 43,6 60,4 90,0 58,8 54,8
12 29,9 40,3 56,1 85,0 54,6 50,8
13 27,7 37,4 52,4 80,5 51,0 47,7
14 25,8 34,9 49,1 76,3 47,8 44,3
17 21,3 29,0 41,3 65,8 40,1 37,1 93,3
20 18,2 24,8 35,5 57,6 34,4 31,8 84,0
24 15,2 20,8 29,9 49,2 29,0 26,7 73,7
30 12,2 16,7 24,1 40,3 23,4 21,5 61,9
35 10,4 14,3 20,7 34,9 20,1 18,5 54,4
40 9,1 12,6 18,2 30,8 17,6 16,2 48,5
45 8,1 11,2 16,2 27,5 15,7 14,4 43,6
50 7,3 10,1 14,6 24,8 14,1 13,0 39,6
55 6,7 9,1 13,3 22,6 12,9 11,8 36,2
60 6,1 8,4 12,2 20,8 11,8 10,9 33,4
65 5,6 7,7 11,2 19,2 10,9 10,0 31,0
70 5,2 7,2 10,4 17,9 10,1 9,3 28,8
75 4,9 6,7 9,8 16,7 9,5 8,7 27,0
80 4,6 6,3 9,1 15,7 8,9 8,2 25,4
85 4,3 5,9 8,6 14,7 8,3 7,7 23,9
90 4,1 5,6 8,1 13,9 7,9 7,2 22,6
100 3,7 5,0 7,3 12,6 7,1 6,5 20,4
110 3,3 4,6 6,7 11,4 6,5 5,9 18,6
150 2,4 3,4 4,9 8,4 4,7 4,4 13,7
210 1,7 2,4 3,5 6,0 3,4 3,1 9,8
250 1,5 2,0 2,9 5,0 2,8 2,6 8,2
300 1,2 1,7 2,4 4,2 2,4 2,2 6,9
350 1,0 1,7 2,1 3,6 2,0 1,9 5,9
400 0,9 1,3 1,8 3,2 1,8 1,6 5,2
450 0,8 1,1 1,6 2,8 1,6 1,5 4,6
500 0,7 1,0 1,5 2,5 1,4 1,3 4,1
550 0,7 0,9 1,3 2,3 1,3 1,2 3,7
600 0,6 0,8 1,2 2,1 1,2 1,1 3,4
650 0,6 0,8 1,1 1,9 1,1 1,0 3,2
700 0,5 0,7 1,0 1,8 1,0 0,9 2,9
800 0,5 0,6 0,9 1,6 0,9 0,8 2,6
900 0,4 0,6 0,8 1,4 0,8 0,7 2,3
1 000 0,4 0,5 0,7 1,3 0,7 0,7 2,1

82

© Éditions Eyrolles
3 • L’optique

Exemples de calculs

• Quelle est, en vidéo 2/3", la focale qui correspond à 50 mm en photo 24 × 36 ?


Rapport des formats = 1/3,9 donc la focale est : 50/3,9 ≈ 13 mm.

• Avec un objectif 2/3" 15 × 8, quelle est la hauteur minimale d’un objet, notée O, que l’on peut prendre en
plein cadre à une distance de 30 m ?
i (vertical) = 6,6 mm f = 15 × 8 =120 mm D = 30 m, donc : O = D.i /f = 1,6 m

• Quel est, dans le cas précédent, l’angle de champ horizontal noté α ?


α = 2arctg (i/2.f), avec i (horizontal) = 8,8 mm, f = 120 mm, donc : α ≈ 4,2°

• Une caméra 2/3" est placée à 10 m d’une scène. Quelle largeur maximale de cette scène peut-on cadrer
avec les focales suivantes : 4,8 ; 5,5 ; 7 et 8,5 mm ?
O = D.i/f. On cherche O, avec D = 10 m i = 8,8 mm
si f = 4,8 mm, O = 18,3 m
si f = 5,5 mm, O = 16 m
si f = 7 mm, O = 12,5 m
si f = 8,5 mm, O = 10,3 m

Pour clore cette partie, voici résumées les principales caractéris-


tiques des focales courtes et des focales longues.

3.3.1. Caractéristiques des focales


courtes
Les objectifs à focales courtes, ou grand angle, fournissent des
plans particulièrement larges à des distances faibles, car ils cou-
vrent un angle de champ relativement important. Le sujet est plus
petit que pour une focale normale et les différents éléments du
plan semblent plus éloignés les uns des autres. C’est ce qui
explique que souvent les plateaux de télévision paraissent bien
plus spacieux sur l’écran qu’ils ne le sont dans la réalité. La pers-
pective est accentuée, mais elle n’est pas modifiée ; elle reste
totalement dépendante du point de vue. Les fuyantes convergent
davantage vers l’horizon, donnant une sensation de profondeur
plus prononcée. Mais un effet de trapèze dû aux déformations des
lignes verticales situées sur les bords de l’image est parfois
gênant (aberrations géométriques). Par ailleurs, ce rendement
perspectif engendre une accélération des mouvements dans l’axe
de l’objectif. Les objectifs « grand angle » sont caractérisés par
une grande profondeur de champ (§ 3.6).

83

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

3.3.2. Caractéristiques des focales


longues
Les objectifs à focales longues, ou téléobjectifs, délivrent des
plans très serrés à de grandes distances, car ils couvrent un champ
très étroit par rapport à une focale normale. Le sujet est plus
grand sur l’image, la perspective est écrasée et les fuyantes sont
peu marquées. Le relief semble compressé et l’image plus plate,
donnant une impression de diminution des distances. Les dépla-
cements dans l’axe sont ralentis, tandis que les à-coups et mou-
vements saccadés de la caméra sont amplifiés. La profondeur de
champ est faible : les éléments situés en avant et en arrière du
sujet net sont flous.

3.4 Le zoom

Le zoom est le dispositif mécanique, généralement motorisé,


permettant de déplacer certaines lentilles de l’objectif de façon à
parcourir continûment une certaine plage de focales. Il permet
ainsi de passer d’un plan large à un plan serré ou inversement,
tout en conservant la mise au point. Voyons brièvement quel est
son principe de fonctionnement.
La figure 3.13 montre que si une lentille convergente se déplace
le long de son axe optique, la taille de l’image formée change, et
la position de cette image également.
La figure 3.14 montre qu’en intercalant entre l’objet et la lentille
convergente une seconde lentille, cette fois divergente, il est pos-
sible de maintenir fixe le plan de formation de l’image, quel que
soit son grossissement.
Le type de configuration de la figure 3.14, employant un groupe
optique convergent et un autre divergent, est mis en œuvre dans
les objectifs à faible rapport de zoom, notamment en photogra-
phie. Bien que plus complexe dans sa constitution, un objectif
zoom de télévision repose globalement sur le même principe
(fig. 3.15) : un groupe de lentilles, appelé variateur, permet de

84

© Éditions Eyrolles
3 • L’optique

changer le grossissement de l’image, tandis qu’un ensemble,


appelé compensateur, est chargé de rattraper la mise au point
durant le changement de focale.

Figure 3.13
Avec une seule lentille, une
modification du
grossissement entraîne un
déplacement
de l’image formée.

Figure 3.14
La combinaison de deux
lentilles aux mouvements
coordonnés permet de
conserver la mise
au point quand le
grossissement change.

Un objectif zoom permet de faire varier progressivement la valeur de la focale pour changer le
grossissement de l’image, tout en conservant la mise au point.

85

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Groupe Groupe Groupe Groupe Séparateur


de mise variateur compensateur relais optique
au point

Position « grand angle »

Position « moyenne »

Position « téléobjectif »

Figure 3.15
Structure du zoom sur un objectif de télévision. Le variateur change le grossissement de l’image, tandis que le
compensateur maintient la mise au point.

86

© Éditions Eyrolles
3 • L’optique

En position « grand angle », le variateur se déplace à l’avant de


l’objectif, alors qu’en position « téléobjectif », il est renvoyé à
l’arrière. Les mouvements corrélatifs du variateur et du compen-
sateur sont déterminés par les lois de l’optique, et sont couplés
grâce à une pièce portant deux cames. L’une, linéaire, guide le
variateur entre ses deux positions extrêmes, l’autre, incurvée,
fait faire un aller-retour au compensateur sur toute la plage de
variation de la focale.

Figure 3.16 Came linéaire Came incurvée


Le mécanisme pour le pour le
d’entraînement à cames de variateur compensateur
l’objectif zoom.

Le rapport de zoom est le rapport entre les focales extrêmes


offertes par l’objectif. Il indique le nombre maximal de fois que
l’image obtenue en position grand angle peut être agrandie en
position téléobjectif. Bien sûr, plus ce rapport est important, plus
l’objectif est lourd et encombrant. En studio, on utilise générale-
ment sur les caméras lourdes un objectif 2/3" de rapport 20×,
avec une focale minimale de 8 mm, ce qui correspond à un angle
de champ horizontal maximal de l’ordre de 60°. Les caméras
portables sont, quant à elles, traditionnellement équipées d’un
rapport 15×, avec une focale minimale d’environ 8 mm égale-
ment (en 2/3"). Des objectifs grand angle pour caméras portables
permettent cependant d’obtenir une focale minimale descendant
à 4,5 mm, offrant ainsi un angle de champ horizontal maximal de
près de 90°. À l’opposé, il existe des téléobjectifs dotés de rap-
port 80× et plus, permettant d’obtenir un angle de champ hori-
zontal inférieur à 0,3°.
La désignation d’un objectif commence généralement par une
lettre renseignant sur le format, selon le code du constructeur,
suivie d’un premier nombre indiquant le rapport du zoom, le

87

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

signe multiplicateur, et un second nombre qui est la valeur de la


plus courte focale. Par exemple, le Fujinon H20×8 est un objec-
tif 2/3" (lettre H), de rapport 20× et de focale minimale 8 mm.

grand angle = focale courte = plan large


téléobjectif = focale longue = plan serré

Figure 3.17 5 mm
Variation de l’angle de 9 mm
champ horizontal en fonction
de la focale (objectif 2/3"). 50 mm
100 mm
200 mm 500 mm
1 000 mm

La mise au point arrière (tirage optique)


Si le plan de formation de l’image de l’objectif ne coïncide pas
parfaitement avec le plan de la surface sensible du capteur CCD,
il se produit une variation de la mise au point quand la focale
change. C’est pourquoi tout objectif de télévision est équipé d’un
mécanisme de réglage de mise au point arrière. Ce système per-
met, par le déplacement d’un groupe de lentilles situé à l’arrière
de l’objectif, d’ajuster avec précision la position du plan image.
Le réglage de la mise au point arrière est appelé tirage optique.
Il doit être effectué à chaque fois que l’image perd sa netteté
lorsque l’on active le zoom. Le tirage optique s’effectue en faible
lumière, à pleine ouverture, avec la plus faible profondeur de
champ possible. Il consiste à faire le point en longue focale sur
une mire spécifique (zone étoilée), puis à élargir le cadre et rat-
traper la perte de netteté au moyen de la bague de tirage (notée
Back focus, ou B.f). Une fois le réglage satisfaisant – il est géné-
ralement nécessaire de répéter la manipulation deux ou trois fois
pour l’affiner –, il faut bloquer cette bague. Il est vivement

88

© Éditions Eyrolles
3 • L’optique

conseillé de vérifier le réglage du tirage optique à chaque chan-


gement d’objectif.

Le réglage du tirage optique, ou Back focus, permet de s’assurer que la mise au point sera
conservée sur toute la plage de variation du zoom.

3.5 Le diaphragme

3.5.1. L’ouverture relative d’une lentille


On appelle ouverture relative N d’une lentille le rapport de sa
distance focale f sur son diamètre O :
f
N= (N est sans unité)
O
On dit par exemple qu’une lentille de diamètre 100 mm et de dis-
tance focale 200 mm ouvre à f/2.
Il est évident qu’à une distance focale donnée, une lentille de
grand diamètre laisse passer plus de lumière qu’une lentille de
faible diamètre. Ainsi, pour réduire la quantité de lumière tra-
versant une lentille, il suffit d’interposer, sur le trajet du faisceau
lumineux incident, un cache circulaire dont on fait varier le dia-
mètre. Par exemple, si l’on réduit le diamètre utile de notre len-
tille de 100 mm à 50 mm (toujours pour une distance focale de
200 mm), son ouverture relative est abaissée de 200/100 = f/2 à
200/50 = f/4. Dans la pratique, on dit que f/2 est une « grande
ouverture » – sous entendu grand diamètre de diaphragme, donc
petit nombre d’ouverture – alors que f/4 est une plus petite
ouverture – sous entendu plus petit diamètre de diaphragme,
donc plus grand nombre d’ouverture.

L’ouverture relative caractérise la luminosité d’une lentille, c’est-à-dire la quantité de lumière


qu’elle laisse passer. Elle s’exprime par le rapport de la distance focale sur le diamètre utile de
la lentille.

89

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

f = ouverture relative
N=
O

O = diamètre Foyer
de la
lentille

f = distance focale

O = 50 mm O = 25 mm
F F

f = 100 mm f = 100 mm

f 100 f 100
N = = =2 N = = =4
O 50 O 25
On dit que la lentille ouvre à f/2 f/4 est une ouverture deux fois plus petite que
f/2 et laisse passer quatre fois moins de lumière

Figure 3.18
L’ouverture relative d’une lentille.

3.5.2. L’échelle des valeurs


de diaphragme
Le diaphragme à iris est un cache circulaire, de diamètre
réglable, permettant de doser la quantité de lumière qui traverse
l’objectif pour que l’image formée soit correctement exposée.
En ouvrant le diaphragme, on augmente la quantité de lumière
quand la scène est sombre ; en le fermant, on diminue la quan-
tité de lumière quand la scène est très lumineuse.
Les nombres qui caractérisent les différentes valeurs de dia-
phragme sont gravés sur l’objectif. Appelés Nombres d’ouver-

90

© Éditions Eyrolles
3 • L’optique

ture, ils représentent le nombre de fois que le diamètre d’ouver-


ture est contenu dans la distance focale. Le diamètre d’ouverture
est le diamètre de l’image du diaphragme projetée sur la lentille
frontale de l’objectif ; on l’appelle également diamètre de la
pupille d’entrée.
focale f
Nombre d’ouverture = =
diamètre de la pupille d’entrée O

La position de la pupille d’entrée change avec le zoom, et son


diamètre change aussi proportionnellement à la distance focale :
il est faible en grand angle et élevé en longue focale.
Figure 3.19 Diaphragme
La pupille d’entrée d’un Pupille Pupille
objectif est l’image du d’entrée de sortie
diaphragme projetée
sur les lentilles frontales.
Diamètre
de la
pupille
d’entrée

Les nombres indiquant les différentes ouvertures du diaphragme


ont été choisis de sorte que le passage d’une valeur à la suivante
corresponde à un doublement de la quantité de lumière traver-
sant l’objectif. Or, pour que deux fois plus de lumière passe à tra-
vers l’objectif, l’ouverture du diaphragme délimitant le faisceau
lumineux incident doit être deux fois plus grande. Le diamètre

doit donc être multiplié par √2 , la surface d’un cercle étant pro-
portionnelle au carré du diamètre. Donc, à chaque fois que la
quantité de lumière doit être doublée, le diamètre du diaphragme

doit être multiplié par √2 , ce qui implique que le Nombre d’ou-

verture soit divisé par √2 . À la suite d’accords internationaux,
les valeurs suivantes ont été normalisées ; elles suivent une pro-

gression géométrique de raison √2 et sont sans unité car elles
sont le rapport de deux distances :
22 16 11 8 5,6 4 2,8 2 1,4 1

91

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 3.20
Avec un diaphragme réglé à
f/8, le diamètre d’ouverture Diamètre f/8
de la
de la pupille d’entrée est
pupille d’entrée
contenu huit fois dans la
f = 7 mm La quantité de
distance focale. Il est donc
lumière
plus grand lorsque la focale est la même
est plus longue.

Diamètre
f/8
de la
pupille d’entrée

f = 12 mm

Augmenter ou diminuer l’ouverture de 1 diaphragme revient à



diviser ou multiplier le Nombre d’ouverture par √2 . Ainsi, par
exemple, un diaphragme ouvert à f/5,6 laisse passer 4 fois moins
de lumière qu’un diaphragme ouvert de 2 diaphragmes de plus,
c’est-à-dire à f/2,8 (f représente la focale). f/4 laisse passer 2 fois
plus de lumière que f/5,6, mais 2 fois moins que f/2,8.

Figure 3.21
f/2,8 f/4 f/5,6
Un diaphragme ouvert à f/5,6
laisse passer quatre fois
moins de lumière qu’un
diaphragme ouvert à f/2,8.

1 S 1 S
4 4
S
1 S 1 S
4 4

On retiendra que pour une même ouverture relative (la quantité


de lumière traversant l’objectif est constante), le diamètre de la
pupille d’entrée varie proportionnellement à la distance focale.
Par exemple, pour N = 4, un objectif zoom réglé à la focale
100 mm a une pupille d’entrée de diamètre 2,5 cm, alors que
réglé à la focale 200 mm, sa pupille d’entrée a un diamètre 5 cm.

92

© Éditions Eyrolles
3 • L’optique

Le Nombre d’ouverture est proportionnel à la distance focale et inversement proportionnel au


diamètre utile. Plus le Nombre d’ouverture est faible, plus l’image formée par un objectif est
lumineuse.
Entre deux Nombres d’ouverture, l’énergie lumineuse fournie par un objectif change dans un
rapport de 2. Ouvrir un diaphragme – c’est-à-dire passer d’une valeur à celle qui lui est
immédiatement inférieure – revient à doubler la quantité de lumière traversant l’objectif.

3.5.3. L’ouverture photométrique


Dans la réalité, la lumière perd une partie non négligeable de son
énergie lorsqu’elle traverse les multiples lentilles d’un objectif
zoom. De ce fait, la surface photosensible de l’équipement de
prise de vue reçoit une quantité de lumière inférieure à celle cor-
respondant théoriquement à la valeur de diaphragme affichée.
C’est pourquoi une autre échelle de diaphragme, tenant compte
de la déperdition de lumière au travers du zoom, a été parallèle-
ment définie ; elle est basée sur une mesure de l’intensité lumi-
neuse à l’arrière de l’objectif. C’est l’échelle photométrique, que
l’on trouve sur les objectifs de caméra film. Elle y est gravée en
rouge ou précédée de la lettre T, T étant le coefficient de trans-
mission, alors que l’échelle géométrique est gravée en blanc. Les
ouvertures géométrique et photométrique sont liées entre elles
par la formule suivante :

TNo = FNo . 10
√ Transmittance (%)

3.5.4. Le ramping
Nous avons vu que le diamètre de la pupille d’entrée s’élargit
avec la focale. Cependant, à pleine ouverture, une fois que le dia-
mètre de la pupille d’entrée a atteint celui de la lentille frontale,
il ne peut augmenter davantage. Ainsi, si la focale continue de
croître, l’ouverture relative commence à chuter et l’image s’as-
sombrit : ce phénomène est connu sous le nom de ramping. Pour
l’éviter, il faudrait que le diamètre des lentilles du groupe de

93

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

focalisation soit au moins égal au diamètre théorique de la


pupille d’entrée à la plus longue focale et à pleine ouverture. En
pratique, cela se traduirait par des objectifs de taille, de poids et
de prix trop élevés. C’est pourquoi la plupart des objectifs ne
conservent pas leur ouverture relative maximale constante sur
toute leur plage de variation de focale. Les constructeurs spéci-
fient toujours, pour le plus long foyer de chacun de leurs zooms,
à quelle valeur chute l’ouverture relative maximale. La
figure 3.22 donne l’exemple d’un objectif 14 × 8 pour lequel
l’ouverture relative maximale est maintenue à f/1,8 sur la plage
de focales allant de 8 à 100 mm, puis chute à f/2 pour la plus
longue focale de 120 mm.

Figure 3.22 Nombre


Exemple de ramping. d’ouverture

1,4

2,8

4
Focale (mm)
8 20 40 80 100 120

À pleine ouverture du diaphragme, la luminosité de l’image diminue lorsque le zoom est en


longue focale : c’est le phénomène de ramping.

3.6 La profondeur de champ

Lorsque la mise au point est faite sur le sujet principal d’une


scène, celui-ci n’est pas le seul à apparaître net sur l’image : cer-
tains éléments situés devant et derrière lui le sont également. La
zone dans laquelle la plage de netteté est observée est appelée
profondeur de champ. La profondeur de champ est donc la dis-

94

© Éditions Eyrolles
3 • L’optique

tance maximale pouvant séparer deux plans situés en avant et en


arrière du plan de mise au point, entre lesquelles tous les élé-
ments sont visiblement nets sur l’image.
La profondeur de champ dépend à la fois de la focale, du dia-
phragme et de la distance entre l’objectif et le sujet principal
(distance de mise au point) :
– plus le diaphragme est fermé, donc plus N est grand, plus la
profondeur de champ est grande, et réciproquement ;
– plus la focale de l’objectif est longue, plus la profondeur de
champ est faible, la réciproque étant également vraie ;
– plus le sujet principal est éloigné de l’objectif, plus la profon-
deur de champ est grande, et inversement. La profondeur de
champ est plus élevée à l’arrière qu’à l’avant du sujet sur lequel
est faite la mise au point (proportions d’environ 2/3 – 1/3).

Figure 3.23 Distance de mise au point


La profondeur de champ.

Sujets flous Sujets nets Sujets flous

Diamètre du
cercle de confusion

Profondeur Profondeur
de champ de foyer

3.6.1. La distance hyperfocale


Lorsque l’on fait la mise au point sur l’infini, tous les objets
situés à l’infini sont nets, mais certains objets relativement
proches de la caméra le sont également. La distance à partir de
laquelle tous les objets sont nets, lorsque le point est fait sur l’in-

95

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

fini, est appelée distance hyperfocale. Quand on fait le point sur


un objet situé à la distance hyperfocale, la profondeur de champ
s’étend de la moitié de cette distance jusqu’à l’infini. La distance
hyperfocale se calcule avec la formule suivante :
(distance focale)2 × 0,001
dist. hyperfocale =
N. d’ouverture × diam. cercle de confusion

3.6.2. Le cercle de confusion


Le cercle de confusion caractérise le plus petit élément distin-
guable par l’œil sur l’écran reproduisant l’image finale. Il
dépend notamment du format de l’objectif et des performances
du moniteur. Tant que la défocalisation d’un élément pictural est
inférieure au diamètre du cercle de confusion (c, exprimé en mil-
limètres), cet élément est considéré comme net. En vidéo, les
valeurs moyennes des diamètres de cercles de confusion en fonc-
tion des formats d’image sont :
1/2" ⇒ c = 0,016 mm
2/3" ⇒ c = 0,021 mm
1" ⇒ c = 0,030 mm
Par exemple, avec un objectif 2/3" réglé à une focale de 48 mm et
un diaphragme de 5,6, la formule donnée plus haut (§ 3.6.1) per-
met de calculer une distance hyperfocale de 19,6 m. Si le point est
fait à 19,6 m ou au-delà, la netteté est obtenue de 9,8 m à l’infini.

La profondeur de champ est l’étendue de la zone située entre le premier et le dernier plan nets.
La profondeur de champ est d’autant plus élevée que :
– la focale est courte ;
– le diaphragme est fermé ;
– la distance de mise au point est élevée.
La profondeur de champ est plus élevée à l’arrière du plan de mise au point qu’à l’avant.
La mise au point s’effectue avec la meilleure précision en longue focale et à pleine ouver-
ture du diaphragme.

96

© Éditions Eyrolles
3 • L’optique

3.7 Les principaux défauts optiques

Nous allons à présent passer en revue les différents défauts d’un


objectif, en les classant par type, et en précisant pour chacun
d’eux la cause et le principe de correction.

3.7.1. Les aberrations chromatiques


Les aberrations chromatiques découlent directement de la nature
dispersive du verre, mise en évidence par l’expérience de la
décomposition de la lumière blanche au travers d’un prisme :
l’indice de réfraction du verre varie avec la longueur d’onde. On
peut en effet considérer qu’une lentille est constituée d’une mul-
titude de prismes superposés, et que, comme eux, elle dévie un
faisceau lumineux en le décomposant en rayons de différentes
couleurs. Un faisceau de lumière blanche incident traversant une
lentille est décomposé en ses composantes monochromatiques,
dont chacune possède son propre foyer.
On distingue deux types d’aberrations chromatiques : l’aberra-
tion longitudinale et l’aberration latérale.

[Link]. L’aberration chromatique longitudinale


Les radiations de courte longueur d’onde convergent plus près
de la lentille que les radiations de longueur d’onde élevée. Ainsi,
les rayons rouges forment leur foyer en un point R plus éloigné
que le foyer B des rayons bleus qui sont plus réfringibles. Quant
aux rayons verts, ils croisent l’axe optique en un point intermé-
diaire V. Autrement dit, l’image rouge se forme sur un plan plus
éloigné de l’objectif que les images bleue et verte.
C’est le défaut d’aberration chromatique longitudinale, ou de
position, qui se traduit sur l’image vidéo par un manque de
contraste sur les détails fins, en couleurs comme en noir et blanc.
Ce défaut est léger en courtes et moyennes focales, mais il tend
à s’accentuer en longues focales. Il est réduit aux faibles ouver-
tures du diaphragme.

97

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 3.24
L’aberration chromatique
longitudinale : les rayons Lumière
lumineux convergent en des blanche
plans différents selon leur
longueur d’onde.
B V R

Figure 3.25 R
L’aberration chromatique (mm)
0,2 V
longitudinale s’accentue
B
quand la focale augmente. 0,1
0
0,1
Grand angle Téléobjectif
0,2

[Link]. L’aberration chromatique latérale


Figure 3.26
R
L’aberration chromatique
latérale. Les images R, V, B V
ne sont pas de la même
B
taille.

(mm) R B V

0,01

-0,01 Grand angle Téléobjectif

L’aberration chromatique latérale, ou de grandeur, est due au fait


que le grossissement de l’image varie légèrement en fonction de

98

© Éditions Eyrolles
3 • L’optique

la longueur d’onde. L’image rouge est plus grande que l’image


verte, elle-même plus grande que l’image bleue. Cela se traduit,
sur l’image vidéo, par l’apparition de franges colorées sur cer-
tains contours, en particulier sur les bords du cadre, qui ne sont
pas sans rappeler les défauts de convergence des caméras à tubes.
Les effets de l’aberration chromatique latérale sur chaque couleur
changent avec le zoom. Le diaphragme n’a ici aucune influence.

Les aberrations chromatiques s’expliquent par le fait que les lentilles dévient différemment les
rayons lumineux selon leurs longueurs d’ondes.
Elles se traduisent par un manque de piqué sur les détails fins et par des irisations colorées sur
certains contours.

[Link]. Correction des aberrations chromatiques


Sur les caméras à tubes, il était possible de corriger – dans une
certaine mesure – les aberrations chromatiques longitudinales en
ajustant mécaniquement la position de chaque tube sur son axe.
Les aberrations latérales étaient, de leur côté, réduites en jouant
sur l’amplitude de balayage de chaque tube, pour compenser les
différences de tailles des images R, V, B. De telles corrections
sont aujourd’hui impossibles sur les caméras CCD, les capteurs
étant fixés définitivement en usine sur le séparateur optique. La
prévention de l’aberration chromatique longitudinale relève
donc, d’une part, du stade de la fabrication de la caméra, pour
laquelle la position des capteurs CCD a fait l’objet d’une stan-
dardisation, et, d’autre part, de l’objectif, qui doit être conforme
aux spécifications relatives à l’emplacement des points focaux
des trois images pour garantir l’interchangeabilité.
En optique, on combat les aberrations chromatiques en associant
des lentilles convergentes et divergentes taillées dans des verres de
pouvoirs dispersifs différents. On distingue en effet deux catégo-
ries de verres. Les flints, lourds, sont des silicates de potassium et
de plomb ; ils dispersent beaucoup – le cristal est un flint. Les
crowns, plus légers, sont des silicates de potassium et de calcium ;
ils dispersent moins. Un système convergent composé d’un couple
de lentilles minces accolées, l’une de type crown convergent,
l’autre de type flint divergent, est appelé doublet achromatique.

99

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 3.27 B
Principe d’un doublet R
achromatique. La lentille R+B
R
convergente ramène le rayon
bleu à l’intérieur, alors que la
B
divergente le repousse vers
l’extérieur.

3.7.2. Les aberrations géométriques


[Link]. L’aberration sphérique
Les rayons passant par les bords d’une lentille ne sont pas focali-
sés sur un même plan que ceux passant plus près de son centre
optique. Du coup, au centre de l’image, un point est entouré d’un
halo flou prenant l’aspect d’une petite tache. La figure 3.28
montre en effet que plus les rayons sont éloignés de l’axe optique,
plus ils convergent près de la lentille, car ils traversent une sur-
face plus inclinée. Il se produit un étalement des foyers. On com-
prend alors que l’aberration sphérique se minimise – jusqu’à dis-
paraître totalement – au fur et à mesure que l’on ferme le
diaphragme, car les rayons venant frapper la lentille à sa périphé-
rie – appelés rayons marginaux – sont supprimés. L’aberration
sphérique d’une lentille convergente peut être corrigée en lui
accolant une lentille divergente, qui dévie moins les rayons mar-
ginaux que les rayons paraxiaux (proches de l’axe optique).
Figure 3.28
Lentille sphérique Lentille asphérique
Réduction de l’aberration
sphérique par une lentille
Plusieurs foyers Un seul foyer commun
asphérique.

L’utilisation récente, sur des optiques de télévision, de lentilles


asphériques constitue cependant la solution la plus efficace pour

100

© Éditions Eyrolles
3 • L’optique

corriger l’aberration sphérique. La forme d’une lentille asphérique


est calculée de façon que les rayons la traversant par ses extrémi-
tés convergent au même point que ceux voisins de l’axe optique.

[Link]. La coma
On peut définir la coma comme étant l’aberration sphérique des
rayons obliques. Ainsi, dans les coins de l’image, la lumière
émise par un point est dispersée en une série de cercles s’inscri-
vant dans un cône, l’ensemble prenant l’aspect d’une traînée
lumineuse étirée rappelant une queue de comète – d’où le terme
coma –, pouvant se diriger vers l’intérieur ou vers l’extérieur de
l’image. La coma, qui diminue avec le diaphragme, est respon-
sable d’une baisse de contraste sur les bords de l’image. Un
objectif corrigé de l’aberration sphérique et de la coma est dit
aplanétique.
Figure 3.29 Point image
La coma : l’image affecté du défaut
d’un point a la forme de coma
d’une queue de comète.

Point objet Plan


image

[Link]. L’astigmatisme
En dehors de l’axe optique, on observe une différence de netteté
des lignes en fonction de leur orientation. En effet, les images
des lignes passant par l’axe optique (sagittales) et des lignes qui
leur sont perpendiculaires (tangentielles) se forment sur des plans
différents au lieu d’être confondues. C’est le défaut d’astigma-
tisme, qui est généralement réduit, mais pas complètement éli-
miné, aux faibles ouvertures du diaphragme, c’est-à-dire quand
la profondeur de champ est élevée. L’astigmatisme s’accom-
pagne toujours de coma, du fait de l’obiquité des rayons.

101

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 3.30 Ligne sagitalle


L’astigmatisme se manifeste (passe par l’axe optique si on la prolonge)
par une différence de netteté
entre les lignes horizontales
et les lignes verticales d’un
même objet.
Axe optique

Ligne tangentielle
(perpendiculaire aux lignes sagitalles)
Objet

[Link]. La courbure de champ


L’image fournie par un objectif ne se forme pas sur un plan, mais
sur une surface concave. On ne peut donc pas obtenir une mise au
point parfaite à la fois au centre et à la périphérie de l’image. C’est
le défaut de courbure de champ, qui s’atténue quand la profondeur
de champ est élevée, donc aux faibles ouvertures du diaphragme.
Figure 3.31
Image courbe
La courbure de champ :
l’image d’un plan est courbe.
Objet plan

Plan de mise au point


pour la périphérie de l’image

Plan de mise au point


pour le centre de l’image

[Link]. La distorsion
À ne pas confondre avec la courbure de champ, la distorsion est
le plus visible de tous les défauts optiques, puisqu’elle affecte la
forme générale de l’image en courbant les lignes droites. La dis-
torsion provient du fait qu’une lentille forme l’image des rayons
obliques à une distance différente de celle des rayons centraux.

102

© Éditions Eyrolles
3 • L’optique

Comme le grossissement est directement lié à cette distance, les


diverses parties de l’image sont agrandies dans des proportions
différentes.
En courte focale, on observe une distorsion en « tonneau », ou
« barillet », qui se traduit par des lignes incurvées vers l’exté-
rieur de l’image. En longue focale, la déformation s’inverse et
prend la forme d’un coussinet (lignes incurvées vers l’intérieur).
La distorsion est totalement indépendante du diaphragme
(comme quoi ce dernier n’arrange pas tout !), mais elle varie
avec la mise au point et, bien sûr, avec la focale.

∆H

Image originale Distorsion en tonneau ou barillet Distorsion en coussinet


(courte focale) (longue focale)

∆H x 100
Distorsion (%) =
H

+2%
Téléobjectif
+1%

Focale
–1%
Grand angle
–2%

Figure 3.32
Les deux types de distorsions.

3.7.3. La diffraction
Le phénomène de diffraction met en défaut le principe selon lequel
la lumière se propage de façon rectiligne. En effet, un faisceau
parallèle traversant une fente mince en ressort sous la forme d’un

103

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

faisceau divergent, d’autant plus ouvert que la fente est étroite : la


lumière se propage en dehors du faisceau délimité par cette ouver-
ture. Ainsi, l’image d’une source ponctuelle très fine n’est pas
ponctuelle, mais prend la forme d’une petite tache, entourée d’an-
neaux plus sombre. Plus le diaphragme est fermé, plus la dimen-
sion de cette tache de diffraction est importante. Autrement dit,
plus l’objectif est diaphragmé, plus l’image qu’il délivre manque
de définition ou de piqué. La diffraction s’explique par la nature
ondulatoire de la lumière : une source lumineuse émet ou réfléchit
des ondes, qui provoquent des interférences, ces dernières pouvant
être constructives – si les ondes sont en phase –, ou destructives
– dans le cas contraire.

Figure 3.33 Intensité


La diffraction. lumineuse

Ainsi, si nous avons vu qu’avec la fermeture du diaphragme, un


grand nombre d’aberrations sont minimisées, la diffraction tend,
quant à elle, à augmenter. La plage d’ouverture optimale d’un
objectif est donc d’autant plus proche de la pleine ouverture que
la correction des aberrations est efficace.

Quand l’ouverture du diaphragme diminue :


– les aberrations qui s’estompent sont :
• l’aberration chromatique latérale,
• l’aberration sphérique,
• la coma,
• l’astigmatisme,
• la courbure de champ ;
– l’aberration qui s’amplifie est :
• la diffraction ;
– les aberrations qui restent inchangées sont :
• l’aberration chromatique longitudinale,
• la distorsion.

104

© Éditions Eyrolles
3 • L’optique

3.7.4. Le vignettage et la loi du cosinus


puissance 4
La distribution de la lumière par un objectif n’est pas uniforme
sur toute la surface de l’image, celle-ci pouvant être légèrement
plus sombre en sa périphérie qu’en son centre. À cela deux rai-
sons : le vignettage et la loi du cosinus puissance 4.
Le vignettage est un problème de couverture inhérent à tout
objectif. Plus les rayons incidents sont obliques, plus ils sont
éclipsés par les différentes montures de l’objectif, ainsi que par
le diamètre des lentilles et de l’iris. Les rayons les plus inclinés
qui frappent la lentille frontale vers son extrémité ne peuvent
donc pas atteindre le plan de formation de l’image. Le vignettage
d’un objectif est donné par une courbe représentant les variations
de diaphragme relevées sur la diagonale du champ. Les pertes
sont ainsi évaluées entre le centre de l’image, qui sert de réfé-
rence à 100 %, et ses bords. Plus le diaphragme est fermé, plus
l’effet de vignettage est réduit, et meilleure est la distribution de
la lumière. Le vignettage pourrait être éliminé si le diamètre des
lentilles était suffisamment élevé, mais, en pratique, il est dans
une certaine mesure toléré pour autoriser la fabrication d’objec-
tifs relativement compacts. Il peut cependant être réduit en
jouant sur les limitations géométriques des barillets – pièces
métalliques dans lesquelles sont serties les lentilles –, qui cou-
pent les rayons obliques.
Même en l’absence de vignettage, un autre facteur est à l’origine
de la non-uniformité de la répartition de la lumière sur toute la
surface sensible. Il s’agit de la loi du cosinus puissance 4 :
l’éclairement sur les bords de l’image décroît proportionnelle-
ment au cosinus puissance 4 de l’angle de champ. Ce phénomène
est accentué en grand angle, l’éclairement dans les coins chutant
alors rapidement. En position téléobjectif, la diminution de
l’éclairement sur les coins est moins brusque et essentiellement
due au vignettage.

La chute de lumière parfois observée sur les bords de l’image est due au vignettage et à la loi
du cosinus puissance 4.

105

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

3.7.5. Le flare (diffusion optique)


Le défaut de flare est causé par une diffusion parasite de lumière
à l’intérieur de l’objectif. Il se traduit par une perte de constraste
de l’image – rehaussement du niveau de noir – et par l’apparition
de tâches colorées. Sur une caméra vidéo, ce défaut est compensé
électroniquement par un circuit qui évalue la valeur moyenne du
signal perturbé et lui soustrait une tension proportionnelle. Cette
tension est ajustée de manière à maintenir un niveau de noir fixe
quelle que soit la quantité de lumière contenue dans l’image.

3.8 La fonction de transfert de modulation

La performance globale d’un objectif est exprimée par sa fonc-


tion de transfert de modulation, en abrégé MTF, de l’anglais
Modulation Transfert Function, de la même manière que l’on
évalue la qualité d’un amplificateur audio par sa bande passante.
Prenons par exemple un signal sinusoïdal de fréquence crois-
sante, que l’on injecte à l’entrée d’un amplificateur audio, et
mesurons le niveau de sortie de ce dernier au fur et à mesure
qu’augmente la fréquence du signal d’entrée (fig. 3.34).
Jusqu’à une certaine valeur f de cette fréquence, le signal obtenu
en sortie de l’amplificateur conserve une amplitude constante.
Puis, au-delà de la valeur f, l’amplitude du signal commence à
décroître jusqu’à devenir nulle à la fréquence dite de coupure. La
réponse en fréquence de l’amplificateur est alors représentée par
une courbe donnant les variations de l’amplitude du signal de
sortie en fonction de la fréquence du signal d’entrée.
La mesure de la fonction de transfert de modulation d’un objec-
tif repose sur le même principe. Le « signal » à mesurer est ici
une mire test contenant des salves de lignes verticales noires et
blanches s’alternant, de plus en plus fines, et de plus en plus res-
serrées ; la finesse et l’espacement sont très précisément calcu-
lés pour chaque format d’objectif. Le nombre de paires de lignes
noire-blanche par millimètre – ou cycles – est appelé fréquence
spatiale.

106

© Éditions Eyrolles
3 • L’optique

Ampli audio f
Signal audio sinusoïdal
fc

Amplitude
Bande passante
de l’ampli

Fréquence

Mire test

Contraste
MTF DE L’OBJECTIF

Fréquence spatiale

Figure 3.34
Mesure de la MTF d’un objectif.

En vidéo, le nombre maximal de lignes horizontales par milli-


mètre – définition verticale – est limité par le nombre de lignes
utiles de l’image, soit 576 (dans les pays à 50 Hz), tandis que le
nombre maximal de traits verticaux par millimètre – définition
horizontale – est limité par la bande passante utilisée pour trans-
mettre le signal vidéo. On appelle fréquence spatiale le nombre
de paires de traits noir/blanc verticaux par millimètre (ou nombre
de cycles) :
bande passante × durée ligne utile
fréquence spatiale =
largeur surface sensible

107

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Avec une bande passante de 5 MHz et une durée de ligne utile de


52 µs, on obtient les fréquences spatiales suivantes :
Format Fréquence spatiale
correspondant à 5 MHz
(paires de lignes/mm)

1" 20
2/3" 29
1/2" 40

Figure 3.35 5 MHz


Exemple d’une mire utilisée
pour la mesure de la MTF 3 MHz
d’un objectif.

La courbe caractéristique de la MTF porte, en abscisses, les fré-


quences spatiales et en ordonnées la profondeur de modulation
en %. Cette dernière est égale à 100 % vers les basses fréquences,
c’est-à-dire quand les épais traits noirs et blancs de la mire se dis-
tinguent parfaitement. Puis elle commence à décroître au fur et à
mesure que les fréquences spatiales augmentent, c’est-à-dire
quand les traits noirs et blancs deviennent très fins. L’objectif
absorbe alors les transitions et brouille les lignes ; il les trans-
forme en une surface grisée : le contraste de l’image chute. La
fonction de transfert de modulation établit donc la relation entre
le contraste de l’image reproduite par un objectif et celui du sujet
réel. Sa mesure est réalisée grâce à une lanterne et un diffuseur

108

© Éditions Eyrolles
3 • L’optique

placés à l’arrière de l’objectif, qui permettent de projeter une mire


sur un écran. Un amplificateur de signal/calculateur permet,
d’après les transitions relevées sur l’écran de projection, de déter-
miner la valeur de la MTF pour différentes fréquences spatiales,
en 9 zones caractéristiques de l’image.

Figure 3.36
La valeur de la MTF Mire sur papier
correspond à la grandeur,
mesurée par projection et
exprimée en pourcentage,
qui caractérise le contraste
de l’image formée par un
objectif. Restitution idéale
contraste maximal
MTF = 100 %

Mire restituée
I max par l’objectif

I min

Imax – Imin
Valeur de MTF (%) =
Imax + Imin

Sur les caméras à tubes, la focalisation du faisceau qui balayait la


surface sensible, appelée cible, était moins bonne sur les coins de
l’image, si bien qu’une MTF plus faible était tolérée à ces
endroits.
Mais sur les caméras CCD, la réponse du capteur est uniforme sur
toute la surface utile, ce qui implique d’exiger de l’objectif une
restitution de contraste constante. Les défauts de coma et de cour-
bure de champ, qui affectent les performances optiques sur les
bords de l’image, doivent par conséquent être corrigés avec une
plus grande rigueur.
Comparons les deux courbes de la figure 3.37 représentant les
fonctions de transfert de modulation de deux objectifs différents.
La courbe n° 2 possède une fréquence de coupure plus élevée

109

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

que la courbe n° 1 ; l’objectif peut donc restituer des fréquences


spatiales plus importantes. Cependant, la bande passante du
signal de télévision est limitée à environ 5 MHz, ce qui corres-
pond à une fréquence spatiale de 29 cycles/mm pour le format
2/3". Et à cette valeur de fréquence spatiale, c’est la courbe n° 1
qui présente la meilleure MTF ; c’est ce point qui est important
en télévision.

Figure 3.37 MTF


Comparaison de la
performance de deux 100 %
objectifs de télévision
1
par leurs courbes de MTF.

50 % 2

29 Fréquence spatiale
(cycles/mm)

La fonction de transfert de modulation d’un objectif établit la relation entre le contraste du sujet
réel et celui effectivement transmis par l’objectif. Elle exprime en fait la bande passante de
l’objectif, donnée en pourcentage pour différentes valeurs de fréquences spatiales.
On appelle fréquence spatiale le nombre de paires de traits noir-blanc par millimètre à repro-
duire.

3.9 Les compléments optiques

3.9.1. Les convertisseurs de focales


Les convertisseurs de focales de type « bonnette » se fixent sur
la partie avant de l’optique, et sont utilisés occasionnellement
pour décaler la plage de focales d’un objectif zoom vers les
courtes ou les longues focales.
Par exemple, un convertisseur ×0,8 monté à l’avant d’un objectif
2/3" 8 × 12 décale la plage de variation du zoom de 12-96 mm

110

© Éditions Eyrolles
3 • L’optique

à 9,6-76,8 mm, ce qui permet d’augmenter l’angle de champ en


plus courte focale de 40° à 49°. L’ouverture reste inchangée,
puisque le convertisseur est fixé directement sur la première len-
tille, et l’objectif peut travailler sur la totalité de la nouvelle plage
du zoom. La distance minimale de mise au point diminue quant à
elle proportionnellement au carré du rapport de conversion.
Un convertisseur ×1,5 monté sur le même objectif réduit l’angle
de champ minimal de 5,2° à 3,4°, tout en conservant une ouver-
ture constante. Cependant, un convertisseur qui augmente les
focales ne permet d’utiliser l’objectif zoom que sur les longues
focales. Car pour être exploité aussi en courtes focales, il fau-
drait que son diamètre soit beaucoup plus grand, ce qui nuirait au
confort de prise en main de la caméra – en augmentant notam-
ment son poids vers l’avant. Quant à la distance minimale de
mise au point, elle augmente proportionnellement au carré du
rapport de conversion.
Le convertisseur de focales est un dispositif afocal, c’est-à-dire
sans foyer : il ne forme aucune image. Il est constitué d’une len-
tille divergente et d’une lentille convergente de même focale,
placées l’une à la suite de l’autre. Si la lentille divergente est pla-
cée en tête, la distance focale de l’objectif est diminuée, son
angle de champ est élargi. Si la lentille convergente est en tête,
le champ de l’objectif est réduit, sa distance focale est augmen-
tée (fig. 3.38).

Figure 3.38
Principe d’un convertisseur
de focales. Avec une lentille
divergente à l’avant, l’angle
de champ est augmenté ; avec
une lentille convergente à
l’avant, l’angle de champ est
réduit.

3.9.2. Les multiplicateurs de focales intégrés


Les multiplicateurs de focale intégrés sont incorporés dans la
partie arrière de l’objectif. Ils permettent de décaler la plage de

111

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

variation du zoom dans un certain rapport, mais comme ils sont


insérés après le diaphragme, ils multiplient dans le même rapport
le Nombre d’ouverture. Par exemple, un doubleur de focale
divise par deux la valeur de l’angle de champ de l’objectif, mais
double le Nombre d’ouverture et laisse donc passer 4 fois moins
de lumière que l’objectif « nu ». Un multiplicateur de focale inté-
gré ne modifie pas la distance minimale de mise au point et per-
met d’exploiter toute la plage du zoom.

Figure 3.39
Convertisseur de focales de type bonnette,
Différence entre un
que l’on fixe occasionnellement
convertisseur fixé à l’avant Multiplicateur
à l’avant de l’objectif
de l’objectif et un de focale incorporé
multiplicateur de focale à l’objectif
intégré.

3.9.3. Les filtres de conversion de couleur


Les filtres de conversion de couleur (communément appelés
filtres CC pour Color Conversion) ont pour rôle de compenser la
différence de température de couleur entre la lumière de la scène
cadrée et l’équilibrage colorimétrique de la caméra. La valeur de
correction d’un filtre de couleur est exprimée au moyen de
l’échelle mired (micro reciprocal degree), établie en divisant un
million par la température en Kelvin. L’intérêt de l’échelle mired
est de simplifier les calculs des filtres de conversion. Il suffit en
effet de connaître, en mired, l’écart de température de couleur
entre la source et celle de la caméra pour savoir quel filtre utili-
ser. Par exemple, pour filmer en lumière du jour de 5 600 K avec
une caméra étalonnée à 3 200 K, il faut placer sur l’objectif un
filtre « saumon » de valeur :

112

© Éditions Eyrolles
3 • L’optique

1 000 000 1 000 000


– = + 133 mired environ
5 600 3 200

3.9.4. Le filtre polarisant


Les ondes qui composent la lumière naturelle sont transversales :
elles vibrent dans toutes les directions, dans un plan perpendicu-
laire à l’axe de propagation. Mais la lumière réfléchie ne vibre
que dans une seule direction : elle est polarisée. Un filtre polari-
sant a pour rôle d’intercepter, en l’absorbant, la lumière réfléchie
polarisée par une vitre ou tout autre surface brillante non métal-
lique ; il permet ainsi d’atténuer ses reflets.

Figure 3.40
Le filtre polarisant ne laisse
passer que les ondes vibrant
dans une direction donnée.

Le filtre polarisant se place sur la face avant de l’objectif et doit être


tourné autour de son axe jusqu’à ce que son effet soit maximal.
Cependant, il réduit d’environ 1/4 la quantité de lumière incidente.
Le filtre polarisant donne par ailleurs plus de vigueur au bleu du
ciel et, de manière générale, renforce la saturation des couleurs.

3.10 La mise au point interne

Sur un objectif traditionnel, la mise au point s’effectue par le


déplacement, le long de l’axe optique, du groupe de lentilles
frontales, selon un mouvement hélicoïdal.

113

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Sur un objectif équipé d’un système de mise au point interne,


c’est seulement le second bloc optique, partiellement dissocié
des éléments frontaux, qui est mobile. La fixité de la partie fron-
tale présente plusieurs avantages. Il est par exemple reconnu que
le pare-soleil rectangulaire est le mieux approprié pour contrôler
le flux lumineux incident. Or, son utilisation sur les optiques
conventionnelles est impossible du fait de la rotation de la len-
tille frontale. Un objectif à mise au point interne autorise le
recours au pare-soleil rectangulaire, le seul en véritable adéqua-
tion avec l’image de télévision. D’autre part, il permet l’utilisa-
tion de filtres polarisants, absolument incompatibles avec une
optique à mise au point frontrale (en fixation directe). Enfin, le
mouvement de pompage engendré sur un objectif traditionnel
par les va-et-vient de lentilles en contact avec l’extérieur
entraîne un flux d’air à l’intérieur du corps de l’objectif ; des
poussières diverses se déposent alors entre les lentilles.

Figure 3.41 Groupe de Groupe fixe


Dans un système à mise au mise au point
Variateur
point interne, le groupe de
lentilles assurant le réglage
du point est dissocié de la
partie frontale de l’optique,
ce qui laisse les éléments
frontaux totalement
immobiles.

Optique à mise au point frontale

Groupe de
Groupe fixe
mise au point Variateur

Optique à mise au point interne

114

© Éditions Eyrolles
3 • L’optique

Sur un objectif à mise au point interne, les lentilles mobiles se


déplacent dans un espace clos, étanche à toute pénétration de
particules étrangères. La quasi totalité des objectifs broadcast
sont aujourd’hui équipés d’un dispositif de mise au point interne.

3.11 Le stabilisateur optique

La technologie du stabilisateur optique, qui a d’abord équipé cer-


tains objectifs photo professionnels, ainsi que certains camé-
scopes grand public haut de gamme, a récemment été portée sur
des objectifs vidéo broadcast à fort rapport de zoom. Ce système
compense les tremblements de mains ou les petites secousses
provoquées par un véhicule en mouvement, et stabilise l’image
dans les conditions de tournage les moins confortables. Il peut
être intégré directement dans l’objectif, ou se présenter sous la
forme d’un complément optique à ajouter à un objectif classique.

Figure 3.42 Prisme


Principe du stabilisateur à angle variable
optique selon Canon. Objectif Plan image
Soufflet
Conditions
statiques

Verre
plein

Liquide
Conditions
visqueux
de secousses
à haut indice
de réfraction

Le principe du stabilisateur optique repose sur l’utilisation d’un


prisme à angle variable, constitué de deux lames de verre sépa-
rées par un liquide visqueux à haut indice de réfraction. Les deux
lames de verre sont reliées entre elles par deux soufflets leur per-
mettant de se mouvoir en horizontal et en vertical l’une par rap-
port à l’autre. Deux détecteurs de vibrations envoient à un micro-

115

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

processeur des signaux proportionnels à l’amplitude et à l’orien-


tation du déplacement de l’axe optique provoqué par les
secousses. Le microprocesseur traite ces signaux et les envoie
modifier l’angle du prisme dans les deux plans, horizontal et ver-
tical. La trajectoire des rayons incidents est ainsi rectifiée en
temps réel ; ceux-ci viennent au final frapper la surface sensible
du capteur toujours au même endroit.
Le stabilisateur optique se révèle très efficace, surtout en longue
focale, quand le moindre mouvement de la main est vite ampli-
fié sur l’image captée. La qualité de l’image n’est en rien affec-
tée et l’angle de prise de vues n’est pas modifié.

3.12 Les objectifs à servosystème numérique

Tous les fabricants d’objectifs proposent depuis peu des optiques


intégrant un servosystème numérique, c’est-à-dire dont les prin-
cipales fonctions sont digitalisées. Les commandes de zoom et
de mise au point sont typiquement numérisées sur 13 bits et l’iris
sur 10 bits, ce qui se traduit par une précision plus de 2 fois supé-
rieure à celle des systèmes analogiques. Parmi les avantages opé-
rationnels apportés par ces optiques, on en retiendra trois :
– les fonctions de zoom et de mise au point disposent chacune de
plusieurs courbes de transfert, adaptées à différentes situa-
tions : réglage linéaire, fin en courte focale, fin en longue
focale, etc. ;
– la classique variation de focale (légère) qui se produit quand
on effectue la mise au point est ici totalement éliminée par
compensation : lorsque l’opérateur manipule la bague de
focus, le servosystème numérique applique au zoom un mou-
vement synchronisé afin de maintenir un angle de champ
constant ;
– l’effet de ramping est également compensé par asservissement
de l’ouverture du diaphragme à la focale. À pleine ouverture,
une fonction peut stopper automatiquement le mouvement du
zoom juste avant que l’image ne s’assombrisse.

116

© Éditions Eyrolles
3 • L’optique

À cela s’ajoutent les notions de mémorisation et de reproducti-


bilité, jusqu’alors totalement étrangères au monde de l’optique.
L’intérêt est à rechercher dans le cadre des productions en studio
virtuel combinant des images vidéo live avec des animations gra-
phiques générées par ordinateur, ainsi que dans les environne-
ments robotisés, qui peuvent ainsi bénéficier d’une transmission
des données optiques sous forme numérique.

117

© Éditions Eyrolles
4 La caméra

Quel est le rôle du séparateur optique ?


Comment fonctionne un capteur CCD ?
En quoi diffèrent les structures de capteurs IT, FT, FIT ?
Comment fonctionne un obturateur électronique ?
Qu’est-ce que le défaut d’aliasing ? Comment est-il compensé ?
Quels sont les avantages des caméras numériques ?
Comment est effectuée la correction du flare ?
Qu’est-ce que le smear ?
Comment est réalisée la correction de masking ?
Comment agit la correction de contour ?
À quoi sert la compression des blancs ?
Quel est le rôle de la correction de gamma ?
Quelles sont les différences entre une liaison triaxiale et une liaison multiconducteur ?
Quels sont les réglages d’une caméra sur lesquels on peut agir durant un direct ?
Comment est gérée la commutation de format 4/3-16/9 sur une caméra CCD ?

Ce chapitre est consacré à l’étude de la caméra vidéo CCD, qu’elle soit indé-
pendante pour une utilisation en studio ou intégrée à un caméscope. Après une
brève présentation des quelques éléments optiques présents en entrée de la
caméra, nous nous attarderons sur la description du capteur CCD et de ses dif-
férentes structures. Puis nous analyserons les principales étapes du traitement et
des corrections électroniques auxquels est soumis le signal vidéo dans la tête de
caméra. Enfin, nous passerons en revue l’ensemble des réglages d’exploitation
permettant d’agir durant un tournage sur les nombreuses caractéristiques de
l’image vidéo.

119

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

4.1 Le séparateur optique

L’image formée par l’objectif est envoyée sur un autre élément


optique, celui-ci intégré à la caméra, appelé séparateur optique
ou séparateur dichroïque. Il s’agit d’un dispositif d’aiguillage et
de filtrage de la lumière, qui achemine vers les capteurs CCD les
parties du spectre lumineux correspondant aux trois images pri-
maires rouge, verte et bleue. Ces images seront alors converties
en trois signaux électriques qui traverseront en parallèle tous les
circuits de traitement et de corrections de la caméra.
Le séparateur optique est constitué de miroirs, de miroirs semi-
transparents, de miroirs dichroïques (fig. 4.1), et de filtres colorés.
Il est caractérisé par un très faible taux d’absorption et un compor-
tement entre lumière transmise et lumière incidente de type passe-
bande.

Figure 4.1 Transmission


Caractéristiques types d’un
miroir dichroïque. 100 %
Longueur d’onde
de coupe
50 %
Réflexion

Longueur
d’onde (nm)
400 700

Intéressons-nous à la représentation du séparateur optique à trois


prismes donnée par la figure 4.2. Les rayons lumineux issus de
l’objectif pénètrent dans le premier prisme, qui possède une
couche dichroïque (1) ne réfléchissant que les rayons bleus. Ces
derniers frappent ensuite une seconde surface (2), totalement
réfléchissante, qui les envoie vers la surface sensible du capteur
CCD de la voie bleue. Les rayons rouges et verts passent, quant
à eux, au travers de la couche dichroïque bleue, et entrent dans
le second prisme. Seuls les rayons rouges sont réfléchis en (3),
puis en (4), avant d’atteindre leur capteur. Les rayons verts pour-
suivent leur trajectoire rectiligne jusqu’au capteur CCD de la

120

© Éditions Eyrolles
4 • La caméra

voie verte. Trois filtres de couleur sont placés en sortie de chaque


prisme du séparateur. Ils sont chargés de supprimer le faible
pourcentage de rayons résiduels ayant malgré tout été réfléchis
par les couches dichroïques censées les transmettre, et qui se
sont mélangés avec la couleur de chaque canal.

Figure 4.2 Capteur CCD


Le séparateur optique rouge
décompose l’image en trois
composantes rouge, verte et
bleue. 4
3
Objectif Capteur CCD
1 vert
2

Filtres
– passe-bas Capteur CCD
– quart d’onde bleu
– infrarouge

Figure 4.3 T (%)


Caractéristiques spectrales
d’un séparateur optique. 100 B V
R

50

λ (nm)
400 500 600 700

Le séparateur optique reçoit l’image formée par l’objectif et la décompose en trois compo-
santes primaires rouge, verte et bleue à destination des surfaces sensibles des trois capteurs
CCD de la caméra.

Pour des raisons de simplicité et d’économie, les caméscopes


grand public ne sont équipés que d’un seul capteur CCD ; ils sont

121

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

dits mono-CCD, les caméscopes broadcast étant dits tri-CCD. La


séparation des couleurs est alors assurée par une mosaïque de
filtres colorés (au pas du pixel) soit avec les couleurs primaires,
soit avec les couleurs complémentaires. La qualité de l’image,
tant sur le plan de la définition que sur celui de la colorimétrie,
est logiquement inférieure.

4.2 Les filtres

Devant le séparateur optique, on trouve les trois filtres suivants :


– le filtre infrarouge : le capteur CCD est en effet très sensible
aux rayons infrarouges – cette caractéristique est d’ailleurs
exploitée pour les applications de vidéosurveillance. Dans une
caméra broadcast, le filtre infrarouge a pour rôle de limiter
l’information lumineuse analysée au seul spectre visible ;
– le filtre quart d’onde : les rayons lumineux sont caractérisés
par leur longueur d’onde, certes, mais aussi par leur polarisa-
tion. Or le séparateur optique réagit différemment selon que
l’axe de polarisation des rayons incidents est horizontal ou ver-
tical. Le rôle du filtre quart d’onde est de rendre circulaire la
polarisation de tous les rayons lumineux, afin que le séparateur
optique ait le même comportement vis-à-vis de chacun d’eux ;
– le filtre passe-bas : il est chargé d’éliminer les détails extrême-
ment fins de la scène captée par l’objectif, réduisant ainsi le
phénomène d’aliasing que provoque l’échantillonnage de
l’image par les capteurs CCD.
Figure 4.4 Sensibilité
Le filtre anti-infrarouge a
pour but d’atténuer la Filtre anti-infrarouge
1
réponse du CCD dans
l’infrarouge, afin de la rendre CCD
cohérente avec notre propre
perception visuelle. Filtre anti-infrarouge × CCD
0,5

400 500 600 700 800 Longueur


d'onde

122

© Éditions Eyrolles
4 • La caméra

4.3 Les capteurs CCD

4.3.1. Un peu d’histoire


La genèse des analyseurs à état solide remonte à 1960, quand J.W.
Horton présente son Scannister, un réseau de photodiodes dispo-
sées sur une ligne et balayées par une tension en dents de scie.
Mais c’est en 1970 que Boyle et Smith de Bells labs font aboutir
dix années de recherches en intégrant sur une même puce les sur-
faces de conversion lumière-électricité (optoélectronique) et les
registres à décalage de lecture : le Dispositif à Transfert de
Charges DTC, en anglais Coupled Charge Device CCD, est né.
L’analyse d’une image vidéo par une caméra sans utilisation d’un
tube et de son faisceau de balayage est alors envisagée. Les pre-
mières images en noir et blanc issues d’un prototype de senseurs
solides sont présentées en 1973, et la première caméra profession-
nelle en couleurs équipée de capteurs CCD est proposée par RCA
en 1984 ; elle n’aura cependant aucune carrière commerciale.
Depuis, la maîtrise et l’expérience acquises dans cette technolo-
gie ont conduit à des performances exceptionnelles qui ont su
convaincre les utilisateurs les plus réticents. Car après avoir fait
exploser le marché des caméscopes grand public, les analyseurs à
état solide CCD sont aujourd’hui employés dans toutes les camé-
ras vidéo broadcast, qu’elles soient standard ou à haute définition.

4.3.2. Principe de fonctionnement


d’une cellule
L’appellation CCD se réfère à l’aptitude d’un ensemble de com-
posants à échanger, à l’intérieur d’un substrat semi-conducteur et
selon une séquence définie, une information analogique échan-
tillonnée sous la forme d’un paquet de charges électriques.
Imaginez un groupe de cellules juxtaposées les unes à la suite
des autres et communiquant entre elles par des portes : une cel-
lule se charge proportionnellement à la lumière qu’elle reçoit,
puis se vide dans la cellule voisine dès que s’ouvre la porte qui

123

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

les sépare. La première cellule est alors disponible pour


accueillir de nouvelles charges, et ainsi de suite. La cellule élé-
mentaire d’un capteur CCD se compose d’une zone de stockage
exposée à la lumière et d’une zone de transfert masquée de la
lumière. Le cycle stockage/transfert est géré par des tensions de
commande définissant les phases du fonctionnement, conformé-
ment aux caractéristiques du signal vidéo.

Figure 4.5 6
Exemple de configuration
d’un capteur CCD.

Zone image
582
457 000 pixels

18
5 786 25

« pixels aveugles » : masqués de la lumière,


ils donnent la référence de noir.

L’analyseur à état solide se présente sous la forme d’un circuit


intégré avec, sur sa face supérieure, une zone image dont les
dimensions varient selon le type de caméra : 12,8 × 9,6 mm (1") ;
8,8 × 6,6 mm (2/3") ; 6,4 × 4,8 mm (1/2") ; 4,3 × 3,2 mm (1/3") ;
ou encore 3,2 × 2,4 mm (1/4") pour les produits grand public. La
zone d’analyse renferme un réseau de plusieurs centaines de mil-
liers de sites de stockage photosensibles d’une dizaine de
microns de largeur. Le même circuit cumule les fonctions de
conversion optoélectronique et de lecture des informations.
L’image se formant sur un réseau de points, ou pixels, organisés
en lignes et en colonnes, elle est par conséquent échantillonnée
dès son analyse, ce qui implique de prendre un certain nombre
de précautions, comme nous le verrons par la suite. Le fonction-
nement d’un capteur CCD peut se résumer en trois étapes :
– la conversion de l’image optique en charges électriques propor-
tionnelles à l’énergie lumineuse reçue – conversion linéaire ;
– l’accumulation des paquets de charges ainsi générés dans les
cellules de stockage appelées photosites ou photocapteurs ;

124

© Éditions Eyrolles
4 • La caméra

– le transfert de ces charges selon un mode propre à la structure


du capteur – nous verrons qu’il y en a trois – vers la porte de
sortie du circuit, pour former un signal qui sera traité pour don-
ner par la suite le signal vidéo.

Les formats d’image vidéo


Les différentes valeurs qui caractérisent les formats des capteurs CCD se réfèrent en fait au diamètre
externe des tubes d’analyse qui étaient utilisés jusqu’à la fin des années 1980. Elles sont exprimées en
« pouces » : 1", 2/3", 1/2",... Le diamètre utile de l’image formée sur la surface sensible est cependant
inférieur à ces valeurs. Il est par exemple de 11 mm pour un capteur de format 2/3", alors que le
diamètre théorique du tube correspondant est de 18 mm. En clair, rien sur un capteur 2/3” ne mesure
réellement 2/3”. Toutes les caméras broadcast standard et à haute définition sont équipées de capteurs
2/3". Les caméras institutionnelles sont pourvues de capteurs 1/2", tandis que les caméscopes grand
public n’intègrent que des capteurs 1/3" ou, le plus souvent, 1/4".

Tubes
d = diamètre D = diamètre externe Dimensions de l’image
utile de l’image du tube 4/3 16/9
en millimètres en pouce l × h (mm) L × H (mm)
16 mm 25,4 1” 12,8 × 9,6 14 × 7,8
11 mm 17 2/3” 8,8 × 6,6 9,6 × 5,4
8 mm 12,7 1/2” 6,4 × 4,8 6,9 × 3,3
Format l×h L×H
image 4/3 16/9
Capteurs CCD

l
4/3
16/9
L
d
d

H h
D

Figure 4.6

125

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

4.3.3 Conversion optoélectronique


par une cellule
Le pixel est l’unité élémentaire de la zone image d’un capteur
CCD. Nous allons décrire sa constitution dans le cas d’une cel-
lule à capacité MOS (Métal Oxyde Semi-conducteur). Nous ver-
rons plus loin que des capteurs plus performants ont été déve-
loppés, mais la cellule MOS va nous permettre de commencer
par des explications simples.
Il faut tout d’abord savoir que la zone photosensible assurant la
capture de la lumière ne représente pas plus du tiers de la surface
totale du pixel. Le reste est occupé par différentes cellules asso-
ciées pour la circuiterie – portes, registres à décalage, etc.
L’élément photosensible (fig. 4.7) est composé d’un substrat
semi-conducteur en silicium dopé positivement, c’est-à-dire riche
en trous, sur lequel est déposée une fine couche isolante d’oxyde
(silice), elle-même surplombée d’une électrode métallique trans-
parente à la lumière.
Figure 4.7
Constitution d’une cellule
Électrode métallique transparente
photosensible.
Dioxyde de silicium

Substrat de silicium dopé P

Cette électrode est utilisée pour polariser la cellule de manière à


créer, dans le substrat, un champ électrique interne repoussant les
charges positives (trous) dues au dopage positif du silicium vers
le fond de la cellule. Le puits de potentiel (ou zone de déplétion)
alors formé est d’autant plus profond que la valeur de la tension
de polarisation est élevée. C’est dans cette zone ainsi désertée que
seront attirés les électrons libérés par effet photoélectrique. En
effet, lorsqu’un rayon lumineux pénètre dans le silicium, chaque
photon incident libère une paire électron/trou. L’électron et le
trou se séparent en raison de la polarisation de la cellule : le trou
est repoussé vers le fond de la cellule, où il rejoint les autres
charges positives ; l’électron est, quant à lui, attiré à la surface par

126

© Éditions Eyrolles
4 • La caméra

l’électrode métallique, mais il reste dans le puits car il ne peut tra-


verser la couche isolante. Au bout d’un laps de temps dit temps
d’intégration (équivalent au temps d’exposition en photographie),
le nombre d’électrons accumulés dans le puits est directement
proportionnel au nombre de photons incidents, donc à la quantité
de lumière reçue par la cellule durant cet instant.

Zone
de déplétion + Zone ++
de déplétion
Tension de Tension de
polarisation polarisation

Figure 4.8
La zone de déplétion est d’autant plus grande que la tension de polarisation de la cellule est élevée.

Photon

___________________________
_______________________
___________________
________
+

Chaque photon incident À la fin du temps d’intégration,


libère une paire les chargesrecueillies dans la zone
électron/trou. de déplétion sont proportionnelles
à l’intensité lumineuse reçue.

Figure 4.9
Comportement d’une cellule photosensible face à une excitation lumineuse.

4.3.4. Transfert des charges


Il reste alors à transmettre les charges de manière à libérer la cel-
lule ayant assuré la capture de la lumière, pour qu’un autre cycle
d’acquisition puisse être effectué. Si l’on applique une polarisa-
tion plus importante à une cellule voisine, sa zone de déplétion,

127

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

plus grande, attirera les électrons de la première cellule moins


polarisée – un champ électrique est engendré par la différence de
polarisation des cellules infiniment proches. Il suffit alors de
rythmer les phases d’accumulation et de transfert avec une ten-
sion d’horloge appliquée de façon séquentielle et appropriée aux
temps et durées du signal vidéo.
La figure 4.10 illustre le processus de transfert des charges
dans un élément de CCD formé d’un alignement de cellules
MOS.

Figure 4.10 V1 V2 V3
Principe du transfert de + ++ +
charges entre cellules
_ __ __ __ __ __ __
adjacentes dans un capteur _________
CCD.

V1 V2 V3
+ ++ +++

__ __ __ __ __ _ _______
____

V1 V2 V3
+ + ++
_ __ __ __ __ __ __
_________

Maintenant que nous avons expliqué le principe d’accumulation


et de déplacement des charges, nous allons pouvoir nous intéres-
ser aux différentes possibilités de lecture de ces charges par un
dispositif d’adressage et de transfert séquentiel. Il existe trois
structures de capteurs CCD, qui se distinguent essentiellement

128

© Éditions Eyrolles
4 • La caméra

par la façon dont les charges sont transférées vers le registre de


sortie.

Un capteur CCD – dispositif à couplage de charges – est un circuit intégré renfermant plu-
sieurs centaines de milliers de cellules photosensibles. Chaque cellule accumule une quantité
d’électrons proportionnelle à l’éclairement auquel elle est soumise pendant le temps d’intégra-
tion.

4.3.5. La structure à transfert interligne


(CCD IT)
[Link]. Principe du transfert interligne
Dans une structure IT, chaque cellule photosensible (ou photo-
capteur) est accollée à une cellule servant au stockage et au
transfert. Les cellules de stockage sont organisées en colonnes
formant des registres verticaux, qui alternent avec les colonnes
de photocapteurs. Les cellules photosensibles sont séparées par
des stoppeurs de canal (CSG : Channel Stopper Gate) empê-
chant la diffusion des charges d’une cellule vers les voisines, et
par des drains d’évacuation (OFD : OverFlow Drain) dans les-
quels sont écoulées les charges en excès produites par une forte
illumination. Chaque cellule photosensible est isolée de sa cel-
lule de stockage par une porte de lecture (ROG : Read Out Gate)
au travers de laquelle les charges vont circuler. Pendant la durée
utile de la trame, l’énergie lumineuse fournie par l’optique est
traduite en énergie électrique : les charges s’accumulent dans les
cellules photosensibles proportionnellement à la lumière reçue.
Puis au cours de l’intervalle de suppression trame, c’est-à-dire
pendant le laps de temps séparant la fin de l’analyse d’une trame
et le début de la suivante, une impulsion de forte amplitude est
appliquée simultanément aux électrodes de toutes les cellules de
stockage. La différence de potentiel établie entraîne alors un
déplacement latéral simultané de l’ensemble des charges des
photocapteurs vers les registres de transfert, qui sont évidem-
ment masqués de la lumière. À l’issue de l’intervalle de sup-
pression trame, les zones de déplétion des photocapteurs sont

129

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

vidées, donc prêtes à recevoir de nouvelles charges provenant de


l’analyse de la trame suivante.

Figure 4.11 Registre


CSG
Principe du transfert des vertical
charges des photocapteurs O
R
vers les cellules de stockage V3 Cellule de F
stockage O Photocapteur
des registres verticaux. C
G
G

V2 Cellule de
stockage CSG ROG :
Read Output Gate
O (porte de lecture)
R
Cellule de F
V1 O Photocapteur
stockage C OFCG :
G O Overflow Control Gate
G
F (porte d'évacuation)
Cellule de D
V4 stockage CSG
OFD :
Overflow Drain
O
R (drain anti-éblouissement)
Cellule de F
V3 stockage O Photocapteur
C CSG :
G
G Channel Stop Gate
(stoppeur de canal)

ROG
V1 ou V3
Acquisition _ __ __ __ __ __ __ __ __ __ __ OFCG
_________________
Photocapteur

Drain
d'évacuation

_ _ __ __ __ __ __ __ __ __ __ _
Lecture _
_ ___
_
_
_
____
____

Pendant la durée active de la trame, à chaque intervalle de suppres-


sion ligne, c’est-à-dire pendant les 12 µs qui séparent deux lignes
utiles, les charges des registres verticaux se décalent ligne par ligne
vers le bas jusqu’au registre horizontal de sortie, placé sous les
registres verticaux. Ce registre à décalage de sortie délivre alors une
à une toutes les charges d’une ligne en 52 µs. Il fournit ainsi une

130

© Éditions Eyrolles
4 • La caméra

analyse séquentielle échantillonnée de l’image. Lorsqu’arrive l’in-


tervalle de suppression trame, les photocapteurs, qui ont fini d’ac-
cumuler les charges d’une nouvelle trame, se vident vers les
registres verticaux. Et le processus de lecture se renouvelle.
Figure 4.12
CCD IT
Structure d’un CCD à
transfert interligne (IT). V3

V4

V1

V2

V3

V4

V1

V2

V3

V4

Figure 4.13 – Acquisition de l’image


Les différents timings de – Transformation en charges électriques proportionnelles
l’acquisition de l’image – Sortie de la ligne présente dans le registre à décalage horizontal
vidéo. – Décalage des charges
des registres verticaux
d'une ligne vers le bas

S h
u o
p r
p i
Zone image r z
20 ms 1 trame e o
s n
s t
i a
o l
n e
1,6 ms Suppression verticale

52 µs
12 µs

– Transfert des charges accumulées dans les photocapteurs


dans les éléments de registres verticaux

131

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

On remarquera que dans une telle structure IT, les registres de


transfert, ainsi que les autres éléments de protection et d’évacua-
tion, occupent une grande proportion de la surface de la zone
image du capteur. L’espace entre les cellules photosensibles est
donc important, ce qui engendre un pas d’échantillonnage élevé.

Dans un capteur de type IT, les charges accumulées durant le temps d’intégration – équivalent
au temps d’exposition en photographie – sont transférées dans un registre à décalage vertical
pendant la suppression ligne. Celui-ci les fait descendre ligne par ligne vers le registre hori-
zontal de sortie.

[Link]. Choix du temps d’intégration


Les photocapteurs de la puce CCD forment un réseau matriciel
dont nous allons considérer ici que chaque rangée correspond à
une ligne de l’image vidéo. Le balayage de l’image de télévision
étant effectué selon un mode entrelacé, le même procédé doit
être appliqué par le système de lecture du capteur. Deux solu-
tions sont proposées.

• Le mode intégration image


Pendant la durée d’une image, soit 40 ms, chaque rangée de pho-
tocapteurs se charge pour la trame paire ou impaire, selon la
ligne de l’image à laquelle elle est associée. Les charges des
lignes paires et des lignes impaires sont donc accumulées simul-
tanément, mais elles sont transférées alternativement dans les
registres de lecture verticaux, une trame sur deux. À chaque
trame, seule la moitié des pixels est par conséquent analysée.
• Le mode intégration trame
L’intégration s’effectue indépendamment pour chaque trame,
pendant donc 20 ms. L’image vidéo est par conséquent formée
suite à deux saisies. Il est en effet possible de combiner les
charges de deux rangées de photocapteurs consécutives lues
simultanément, l’une appartenant à la trame paire, l’autre à la
trame impaire. Les pixels sont ainsi lus toutes les trames, et non
toutes les images, soit deux fois plus souvent.

132

© Éditions Eyrolles
4 • La caméra

Figure 4.14
Principe des méthodes Intégration image : 40 ms Trame Trame
d’intégrations image et trame impaire paire
d’un capteur CCD à transfert
interligne (IT). a a

b b

c c

d d

e e

Intégration trame : 20 ms Trame Trame


impaire paire
a’
a’ + b’

b’
b’ + c’
c’
c’ + d’
d’
d’ + e’
e’

Pour respecter le balayage entrelacé, il suffit d’alterner la com-


binaison de rangées à chaque trame. Cette solution entraîne une
perte de résolution verticale, une ligne de l’image résultant du
moyennage de deux lignes du capteur. Mais la résolution dyna-
mique, qui est la faculté de conserver les détails dans des images
en mouvement, est nettement meilleure (plus le temps d’exposi-
tion est long, plus grand est le risque de voir apparaître flous des

133

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

sujets en déplacement rapide). La qualité subjective d’une image


issue d’une intégration trame est supérieure à celle produite par
une intégration image.
Le mode d’intégration d’un CCD IT peut être sélectionné en
fonction du type de prise de vues réalisée.

En mode intégration image, les cellules se chargent à la lumière pendant 1/25 s, alors qu’en
mode intégration trame, elles se chargent pendant seulement 1/50 s.
L’intégration à fréquence image donne une bonne résolution statique et est donc adaptée au
traitement des images fixes. L’intégration à fréquence trame est plus appropriée à l’analyse
d’images en mouvement.

[Link]. Le smear
Le défaut de smear se traduit à l’image par une raie verticale
blanche, ou plus rarement rouge, traversant une zone très lumi-
neuse, tel un projecteur ou un phare de voiture. Il est dû à la pol-
lution du registre vertical par des électrons parasites générés par
un excès de lumière, qui viennent s’ajouter aux données utiles au
cours de leur transfert. Deux raisons expliquent cette diffusion
de charges. La première est que la capacité du canal d’évacua-
tion OFD, certes prévue pour drainer un excédent d’électrons en
cas de forte lumière, est assez limitée. Ainsi, dans les cas
extrêmes, c’est-à-dire pour des niveaux d’illumination supé-
rieurs à dix fois le niveau nominal, certaines charges ne peuvent
être canalisées par ce conduit et atteignent le registre à décalage
vertical, malgré les blindages par barrières de potentiel qui le
protègent. Là, elles s’écoulent lentement, puisque le déplace-
ment dans ces registres s’effectue par décalage d’une ligne vers
le bas à chaque suppression horizontale. D’autre part, les élec-
trons générés par des rayons lumineux de longueur d’onde éle-
vée – proche de l’infrarouge –, issus de sources chaudes, peuvent
pénétrer en profondeur dans la structure de la cellule et s’intro-
duire par le bas dans le registre vertical dont elles modifient le
contenu. C’est la seconde explication du smear.
Il faut cependant savoir que sur les dernières générations de cap-
teurs IT, ce défaut a été considérablement réduit.

134

© Éditions Eyrolles
4 • La caméra

Figure 4.15
Les causes du smear.
Électrode

N P P
P N
P

e–
substrat

Registre ROG Senseur OFCG OFD CSG


vertical

Le défaut de smear se manifeste, sur un capteur IT, par l’apparition d’une ligne verticale rouge
ou blanche de part et d’autre d’un point lumineux intense. Sa cause principale est la pollution
des registres verticaux par les charges en excès.

4.3.6. La structure à transfert d’image


(CCD FT)
Un capteur à transfert d’image (FT, pour Frame Transfert) est
caractérisé par une zone image qui n’est constituée que de photo-
capteurs, sans aucun registre à décalage vertical. En dessous de
cette surface photosensible se trouve une zone de stockage, de
capacité équivalente à la zone image, à l’extrémité de laquelle
prend place le registre à décalage horizontal de sortie (fig. 4.16).
L’accumulation dans les photocapteurs s’effectue pendant la
période trame de durée 20 ms. Quand arrive l’intervalle de sup-
pression trame, toutes les charges descendent simultanément dans
la zone de mémoire tampon, qui devient alors une copie exacte de
ce qu’était la zone image à la fin du temps d’intégration. Les pho-
tocapteurs ainsi vidés sont alors prêts à effectuer l’intégration de
la trame suivante. Pendant ce temps, à chaque intervalle de sup-
pression horizontal, les charges présentes dans la zone mémoire
sont transférées ligne par ligne dans le registre horizontal. Les

135

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

photocapteurs assurent donc ici eux-mêmes le transfert vertical de


leurs charges vers la zone de stockage. Cela implique de masquer
cette opération par un obturateur asservi à chaque suppression
trame, pour conserver la résolution verticale. Le rendement des
obturateurs optoélectroniques n’étant pas suffisant, c’est un obtu-
rateur mécanique qui est utilisé, selon un principe analogue a celui
mis en place sur des caméras ou des projecteurs à pellicule.
Figure 4.16 CCD FT
Structure d’un CCD à
transfert d’image (FT).

Z
O
N
E

I
M
A
G
E

Z
O
N
E

M
É
M
O
I
R
E

L’avantage de la structure FT est qu’elle autorise une plus grande


densité d’éléments sensibles, puisque toute la surface de la zone

136

© Éditions Eyrolles
4 • La caméra

image n’est occupée que par des cellules photosensibles (rappe-


lons que dans un capteur IT, une colonne de pixels utiles alterne
avec un registre à décalage vertical). Le pas d’échantillonnage
est donc plus faible que dans une structure IT. Par ailleurs, l’ob-
turateur mécanique confère au capteur FT une totale immunité
face au smear. On observe en revanche un autre type de défaut
assez étrange, se manifestant sous la forme d’une sorte de mous-
tache de chat autour d’une source ponctuelle très lumineuse.

Dans un capteur de type FT, les charges accumulées durant le temps d’intégration sont simulta-
nément transférées dans une zone mémoire tampon, à chaque intervalle de suppression
trame. Puis elles sont transférées ligne par ligne dans un registre horizontal de sortie. Il n’y a
pas de registres verticaux, mais un obturateur mécanique est nécessaire pour masquer ce
mouvement massif des charges.

4.3.7. La structure à transfert d’image


interligne (CCD FIT)
La structure FIT (Frame Interline Transfert) résulte d’une com-
binaison astucieuse des deux structures précédentes : elle asso-
cie les registres verticaux du capteur IT à la zone mémoire tam-
pon du capteur FT (fig. 4.17).
Les charges accumulées dans chaque photocapteur pendant le
temps d’intégration sont transférées, durant la suppression trame,
vers les registres verticaux, qui les acheminent immédiatement
vers la zone mémoire de capacité une trame. Les charges sont
alors transmises ligne par ligne, à chaque intervalle de suppres-
sion horizontal, vers le registre à décalage de sortie. Les cellules
photosensibles assurent uniquement la fonction de conversion
optoélectronique, puisque le transfert dans la zone de stockage
s’effectue via les registres verticaux, occultés de toute lumière.
L’obturateur mécanique du capteur FT n’est donc plus utile.
Quant au smear, rappelons que, dans la structure IT, il était essen-
tiellement causé par la lenteur de déplacement des charges dans
les regitres verticaux. Dans la structure FIT, la vitesse de dépla-
cement des charges dans les registres verticaux est beaucoup plus
élevée, car celles-ci vont toutes simultanément dans la zone de

137

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

stockage durant la suppression verticale. Ainsi, les registres ver-


ticaux ne sont pas pollués longtemps par les électrons en excès
amenés par une forte illumination. Le phénomène de smear est
donc quasiment absent sur une structure FIT.
Figure 4.17
Structure d’un CCD à
CCD FIT
transfert d’image interligne
(FIT).
Z
O
N
E

I
M
A
G
E

Z
O
N
E

M
É
M
O
I
R
E

Dans un capteur de type FIT, les charges accumulées sont d’abord transférées durant la sup-
pression trame dans des registres verticaux (comme dans la structure IT). Puis elles sont toutes
envoyées simultanément dans une zone mémoire (comme dans la structure FT).

138

© Éditions Eyrolles
4 • La caméra

4.3.8. Les capteurs HAD


Les premières caméras CCD équipées de capteurs utilisant la
technologie MOS dont il a été question jusqu’ici présentaient
quelques inconvénients qui, s’ils n’étaient pas trop gênants pour
les applications de reportage, constituaient un sérieux obstacle
pour une utilisation en studio. Sony a, depuis, développé un nou-
veau type de capteur CCD à structure HAD (Hole Accumulated
Diode = diode à accumulation de trous). Ces capteurs HAD ont
permis de développer des caméras CCD très haut de gamme,
aussi bien standard qu’à haute définition.
Chaque cellule élémentaire du capteur HAD renferme une
couche photosensible en dioxyde de silicium, sur laquelle est
déposée une couche intermédiaire dopée P. Cette dernière consti-
tue la zone Hole Accumulated Diode (couche à accumulation de
trous). Le tout est déposé sur une base de substrat N, qui forme
le drain d’évacuation des charges excédentaires.
L’un des atouts majeurs de la structure HAD est le renvoi dans
la profondeur de la puce de ce drain d’évacuation (VOFD =
Vertical OverFlow Drain), qui était précédemment attenant aux
cellules photosensibles. De ce fait, le gain de place engendré a
permis d’augmenter horizontalement la partie photosensible de
22 à 32 % de la surface image totale d’un pixel sur un capteur
2/3” ; on dit que le rapport d’ouverture du pixel est de 32 %. La
largeur du pixel a, quant à elle, été réduite de 17 à 11 µm (la hau-
teur restant de 11 µm), ce qui a permis de loger davantage de
pixels sur une ligne.

Figure 4.18 Cellule MOS Cellule HAD


Tailles comparées du pixel
Pixel Surface utile Pixel
des capteurs MOS et HAD. Surface utile
Drain d’évacuation
latéral OFD
11 µm 11 µm

17 µm 11 µm

500 × 582 pixels 768 × 582 pixels


Surface photosensible Surface photosensible
22 % de la surface du pixel 32 % de la surface du pixel

139

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Dans une cellule HAD, l’électrode de polarisation est placée non


plus à la surface de la partie photosensible, mais dans sa profon-
deur. L’absence de toute couche recouvrant la zone photosensible
améliore la sensibilité spectrale du capteur, qui est relativement
faible dans les bleus sur une cellule MOS (les rayons bleus ne tra-
versaient pas sans pertes l’épaisseur de l’électrode transparente
d’une cellule MOS). Cette polarisation permanente de la cellule
par son épaisseur contribue en outre à réduire le phénomène de
smear. En effet, les charges provoquées par un éclairement de
grande énergie (vers le domaine des infrarouges) et qui, pénétrant
en profondeur dans le substrat, sont attirées vers le fond et canali-
sées dans le drain d’évacuation (alors que dans une cellule MOS,
ces charges atteignent le registre à décalage). Ainsi, la barre verti-
cale de smear n’est plus rouge mais blanche, et sa visibilité est
amoindrie.

Figure 4.19 Cellule MOS Cellule HAD


Structure d’une cellule HAD
comparée à celle d’une
Registre OFD Registre Zone HAD
cellule MOS. Senseur
vertical vertical Senseur

OFD

17 µm 11 µm

La zone HAD proprement dite est une couche de silicium dopée


P déposée à la surface du capteur. Son rôle est de compenser la
grande sensibilité des photocapteurs aux variations de tempéra-
ture. Elle absorbe en effet les électrons libres qui sont générés
par des impuretés à la surface du capteur avec la chaleur, et qui
se traduisent dans une cellule MOS par un courant d’obscurité
(ou courant de noir) pouvant être important. Dans une cellule
HAD, ces électrons parasites ne peuvent plus atteindre la zone de
déplétion et venir s’ajouter aux charges représentatives de l’in-
formation lumineuse. Cette solution est très efficace dans la lutte
contre le courant de noir, puisque le niveau de ce dernier est
réduit dans un facteur dix par rapport à celui d’une cellule MOS.

140

© Éditions Eyrolles
4 • La caméra

Figure 4.20
Réduction du smear dans une
cellule HAD.
Électrode
Zone HAD
N P
N
P

e– N VOFD

La cellule HAD est plus petite que la cellule MOS, ce qui permet d’en loger plus dans la zone
image du capteur, et sa surface photosensible est plus grande. L’image est formée avec un
nombre de pixels plus important et l’espace entre les pixels est réduit. De plus, le défaut de
smear est réduit, car les charges en surplus sont attirées par un drain d’évacuation situé en
profondeur, et non plus en surface.

4.3.9. Les microlentilles


Pour augmenter la sensibilité des capteurs CCD, une technique
aujourd’hui quasi généralisée consiste à placer sur leur surface un
réseau de microlentilles, afin d’y concentrer davantage de lumière.
Figure 4.21
Pixel sans microlentille Pixel avec microlentille
Les microlentilles
concentrent deux fois plus de Lumière supplémentaire
lumière sur chaque pixel. Lumière Lumière
normale normale

Élément photosensible Élément photosensible

En disposant une microlentille sur chaque pixel du capteur, on


parvient à doubler la sensibilité globale du capteur, ce qui permet

141

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

de gagner un diaphragme dans des conditions d’éclairage suffi-


santes.

4.3.10. L’obturateur électronique


Dans un capteur CCD, l’analyse de l’image est indépendante de
la lecture. De ce fait, il est possible de réduire dans une grande
plage le temps d’intégration d’une image de manière à augmen-
ter la résolution dynamique, quand il s’agit de capter des mou-
vements rapides.
Le principe de l’obturateur (fig. 4.22) consiste en effet à réduire
électroniquement le temps d’exposition de l’image, ce qui
revient à déterminer, pour la durée normale d’intégration – 20 ms
ou 40 ms – une période utile et une période d’obturation. Les
pixels restent continuellement soumis à la source lumineuse,
mais seules les charges emmagasinées au cours de la période
utile d’intégration sont transférées vers les registres de stockage.
Les charges créées pendant la période d’obturation sont élimi-
nées. L’analyse est toujours réalisée au rythme de 50 trames par
seconde, mais chacune de ces trames est saisie avec un temps de
pose plus court. On réalise ainsi un véritable obturateur électro-
nique qui, en optimisant la résolution dynamique, permet une
analyse fine d’objets en déplacement rapide et offre une grande
qualité de ralenti (chaque image du ralenti est nette). Il est évi-
dent que plus la durée d’obturation est élevée, plus il faut de
lumière pour maintenir un même niveau de luminosité d’image.
La perte de sensibilité inhérente à la mise en service de l’obtura-
teur électronique impose donc de travailler avec une ouverture de
diaphragme plus élevée, au détriment de la profondeur de champ.
En mode normal, le temps d’exposition en intégration trame est de
1/50 s. Toutes les caméras possèdent aujourd’hui des vitesses
d’obturation de 1/100, 1/250, 1/500, 1/1000 et 1/2000 s. Par
ailleurs, la plupart des obturateurs électroniques peuvent être acti-
vés en mode continu sur une certaine plage, généralement de
50 Hz à plus de 100 Hz. Ce mode permet notamment d’éliminer
la barre noire horizontale qui apparaît lors de la reprise d’un écran
informatique.

142

© Éditions Eyrolles
4 • La caméra

Figure 4.22 Suppression


Principe de l’obturateur trame
électronique.

Durée utile trame


Impulsion de transfert
vers les registres verticaux

Impulsions d'évacuation des charges à la masse


pendant la mise en action de l’obturateur

Accumulation des charges


sans obturateur Perte de
sensibilité
Accumulation des charges
avec obturateur

Obturateur « on » Obturateur « off »

Durée d'obturation Durée d’exposition

L’obturateur électronique permet de réduire le temps d’intégration de l’image. Il contribue à


améliorer la précision de restitution d’éléments en déplacement rapide. Il est réglable par pas
ou de manière continue sur une certaine plage de valeurs.

4.3.11. L’aliasing
L’image analysée par les capteurs CCD est sévèrement échan-
tillonnée horizontalement. Rappelons en effet que, dans le
meilleur des cas, le rapport d’ouverture d’un pixel n’est que de
32 %. Se pose alors le problème inhérent à tout échantillonnage :
la fréquence spatiale maximale de l’image doit être inférieure à
la moitié de la fréquence d’échantillonnage, ici fixée par le pas
des pixels. Si ce fameux critère de Nyquist n’est pas vérifié, il se

143

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

produit un phénomène de repliement de spectre, portant égale-


ment le nom d’aliasing, et se manifestant sur l’image sous la
forme d’un moiré fixe ou mobile, sur les zones garnies de détails
fins. Les détails de la scène peuvent en effet être focalisés à che-
val entre deux pixels, ou même uniquement sur les zones non
photosensibles du capteur. La figure 4.23 illustre ce défaut, avec
une mire composée d’une alternance de lignes verticales noires
et blanches très fines. On y remarque que l’échantillonnage d’un
tel motif ne reproduit correctement qu’un certain nombre de
lignes seulement. Il génère le reste du temps des informations
fausses, dues à une interaction entre la finesse des lignes de la
mire et la structure de points du capteur.

Figure 4.23
Le défaut d’aliasing se
manifeste quand la fréquence
spatiale de l’image analysée
est au moins deux fois
supérieure au cycle des
Capteurs
pixels.

Mire (motifs traits verticaux)


Informations correctes

Sortie
du
capteur

Informations fausses (défaut d’aliasing)

L’image fournie par un capteur CCD est fortement échantillonnée car au mieux, seulement 1/3
de la surface de chaque cellule photosensible est utilisé pour capter la lumière. Des détails très
fins de la scène ne sont pas correctement reproduits, donnant naissance à de faux motif : c’est
le défaut d’aliasing.

144

© Éditions Eyrolles
4 • La caméra

Pour éviter l’aliasing, il faudrait, en théorie, supprimer toutes les


fréquences spatiales de l’image supérieures à la moitié de la fré-
quence d’échantillonnage. Cette dernière se calcule par la for-
mule suivante :
Nombre de points par ligne
Fech =
Durée de la ligne
Si l’on considère un capteur de 786 points utiles par ligne et une
durée active de ligne égale à 52 µs, on obtient Fech = 15 MHz.
Il faudrait donc éliminer toutes les fréquences spatiales
supérieures à Fech/2, soit 7,5 MHz. Mais un tel filtrage optique,
réalisé sans autre traitement, aurait pour effet de diminuer de
manière inacceptable la résolution de l’image.

[Link]. Le décalage spatial


L’idéal serait en fait d’augmenter le nombre de pixels par ligne sur
le capteur. Mais cela entraînerait une diminution de leur taille car
la surface du capteur doit rester constante pour des raisons évi-
dentes de compatibilité. Les constructeurs ont imaginé une tech-
nique moins complexe et donnant des résultats satisfaisants. Elle
consiste à combler les zones aveugles du capteur en augmentant
indirectement la résolution de la luminance de la caméra. Le cap-
teur vert est décalé horizontalement d’un demi pixel par rapport
aux capteurs rouge et bleu (l’horloge pilotant le capteur vert tient
compte de ce décalage physique). Pour la luminance, qui est une
somme pondérée des informations R, V, B dans un ratio [Link],
cela revient (presque) à doubler la fréquence d’échantillonnage à
30 MHz. Du coup, la fréquence à partir de laquelle doit interve-
nir le filtrage optique est repoussée à Fech/2 = 15 MHz.

Figure 4.24
Grâce au décalage spatial
d’un demi pixel en horizontal V V V V V
du capteur vert, tout se passe
comme si le signal de
luminance était issu d’un R/B V R/B V R/B V R/B V R/B
échantillonnage à fréquence
double.

145

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 4.25
Réduction de l’aliasing par la
Sans décalage spatial
technique de décalage Réponse
Résolution luminance = 786 pts/ligne
spatial, appliquée à un
capteur de 786 pts/ligne
100 %
(sans filtre optique).

F (MHz)

5 MHz
1/2 Fech Fech
7,5 MHz 15 MHz
Recouvrement
Aliasing
de spectre

Avec décalage spatial


Résolution luminance = 1 572 pts/ligne
Réponse

100 %

Réponse luminance
échantillonnée

F (MHz)

5 MHz
1/2 Fech Fech F'ech = 2 Fech
7,5 MHz 15 MHz 30 MHz

Aliasing à 5 MHz réduit


(sans filtre optique)

[Link]. Le filtre optique passe-bas


Malgré l’effet très bénéfique du décalage spatial, il demeure tou-
tefois nécessaire de se débarrasser par voie optique des détails
extrêmement fins de la scène lumineuse, afin d’éviter tout risque
de repliement de spectre. Pour ce faire, il est fait appel à la pro-
priété de biréfringence des lames de quartz qui délivrent deux
images décalées d’un écart lié à leur épaisseur. L’axe optique de
ce cristal n’est pas horizontal mais oblique, si bien qu’un rayon

146

© Éditions Eyrolles
4 • La caméra

lumineux, même perpendiculaire à la surface, est divisé en deux ;


l’un est réfracté et change de direction dans le cristal, tandis que
l’autre n’est pas dévié. En accolant ainsi plusieurs lames de
quartz judicieusement calculées, on fabrique un filtre optique
passe-bas. Celui-ci est intercalé entre l’objectif et le séparateur
optique de manière que les points les plus fins de la scène à ana-
lyser soient dilatés. La réponse de ce filtre passe-bas résulte d’un
compromis entre la réduction de l’aliasing – déjà traité par le
décalage du capteur vert – et le maintien d’une résolution statique
acceptable (car l’image qu’il délivre est assez « molle »). Il fau-
dra bien évidemment restituer électroniquement les fines transi-
tions éliminées par ce filtre : c’est le rôle de l’indispensable cor-
rection de contour, dont il est question dans le paragraphe 4.4.8.

Figure 4.26 Lame de quartz


Principe du dédoublement
multiple de l’image par des
lames de quartz accolées, qui
jouent le rôle de filtre
optique passe-bas en dilatant
les détails fins.
e
Ax
ue
tiq
op

Le défaut d’aliasing est corrigé par deux moyens :


1/ par un décalage horizontal physique du capteur vert par rapport aux capteurs rouge et
bleu, permettant d’accroître artificiellement la résolution de la luminance ;
2/ par élimination des fréquences spatiales élevées de la scène au moyen d’un filtre optique
passe-bas.

4.4 Le traitement vidéo dans une caméra CCD

4.4.1. Les avantages du numérique


Dans les caméras CCD de première génération, le traitement du
signal vidéo s’effectuait au moyen de circuits analogiques. Les

147

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

composants discrets utilisés étaient immanquablement sujets à des


dérives et des fluctuations – vibrations, température, vieillisse-
ment, etc. –, ce qui contraignait les techniciens à vérifier et corri-
ger assez fréquemment les différents réglages, dont certains sont
très délicats et fastidieux. Dans les caméras CCD actuelles, la
quasi-totalité des traitements que subissent les signaux R, V, B
s’effectue en numérique, par des circuits à très haute échelle d’in-
tégration. Il en découle de nombreux avantages, tant sur le plan de
la facilité et de la précision des réglages, que sur celui de leur fia-
bilité. Avec la technologie numérique, les potentiomètres – plus
d’une centaine sur une caméra analogique haut de gamme –, sont
remplacés par des mémoires qui conservent, sous la forme d’un
code digital, les valeurs des différents paramètres d’exploitation et
de maintenance. Par conséquent, les caméras numériques bénéfi-
cient d’une excellente immunité face aux perturbations extérieures
physiques, telles que les variations de température, l’humidité, les
vibrations, etc. Chaque réglage étant clairement repéré par une
valeur chiffrée, il est par ailleurs très facile de retrouver l’état de
référence d’un paramètre après une fausse manipulation ou une
modification occasionnelle. Tous les réglages s’effectuent par
logiciel à l’aide de menus accessibles soit au niveau de la caméra,
soit en régie depuis le pupitre d’exploitation. Les menus sont
généralement regroupés en deux niveaux : les menus d’exploita-
tion, auxquels le cadreur peut accéder en reportage pour modifier
les paramètres qui sont typiquement de son ressort, et les menus
de maintenance, beaucoup plus nombreux et protégés par un mot
de passe, qui permettent à l’ingénieur de la vision d’intervenir sur
tous les réglages de la chaîne de traitement vidéo.
Évaluer l’état d’une caméra numérique revient à faire un relevé
des valeurs de tous les paramètres dans chaque voie de traite-
ment RVB. La moindre variation, qui serait difficile à apprécier
en analogique, parce que peu commode à mesurer rigoureuse-
ment, est alors immédiatement décelable. Une fois précisément
ajustés, les réglages peuvent être stockés sur une carte mémoire
qui se loge, selon le cas, soit dans la caméra, soit dans le pupitre
d’exploitation. Ainsi, une configuration particulière peut être
rapidement rechargée, même après une longue période. Il est par
ailleurs possible de recopier tout ou partie des réglages d’une

148

© Éditions Eyrolles
4 • La caméra

caméra vers plusieurs autres, de manière à obtenir un parfait éta-


lonnage à tous les niveaux. Outre le haut degré de flexibilité opé-
rationnelle et la facilité des contrôles qu’elle apporte, une caméra
numérique se caractérise également par une amélioration sen-
sible des performances vidéo, ainsi que par un enrichissement
des fonctions et réglages offerts.
Cependant toute caméra numérique comporte nécessairement un
étage de traitement analogique, destiné à mettre en forme le
signal issu des CCD : échantillonnage, gains vidéo et, dans cer-
tains cas, précompression de la dynamique. Ce n’est qu’ensuite
que le signal est converti en numérique, avec une quantification
sur 10 ou 12 bits.

Figure 4.27
R
Compression des blancs
Correction de contour

Exemple de synoptique du

Correction de pixels
Taches au blanc
Échantillonnage

et multiplexage
Modulation HF
Taches au noir

traitement vidéo dans une


R, V, B
Masking

caméra CCD. Gamma V


Gain

Flare

Horloge

Contrôle par microprocesseur


Générateur de
synchronisation

4.4.2. L’échantillonnage
Le signal recueilli en sortie du registre horizontal du capteur
CCD est absolument inexploitable tel quel. Les charges se pré-
sentant les unes à la suite des autres doivent d’abord être conver-
ties en niveaux de tension. Cette opération, effectuée par le cir-
cuit d’échantillonnage à la fréquence point ( 15 MHz), se
décompose en deux phases, représentées sur la figure 4.28.
Dans une première phase, la porte PG (Precharge Gate) se ferme
pour précharger la capacité à la valeur de la tension continue PD

149

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

de référence, qui sera utilisée pour éliminer l’enveloppe de bruit


parasite. Dans la seconde phase, le signal issu du registre hori-
zontal décharge cette capacité d’une valeur dépendant du niveau
de charge. Puis l’interrupteur se ferme à nouveau pour que la
capacité se charge à la tension PD, et le traitement se poursuit
ainsi jusqu’à la lecture de toutes les charges du registre horizontal
(correspondant à une ligne active vidéo). Arrive alors l’instant de
suppression horizontal, durant lequel les charges d’une nouvelle
ligne s’introduisent dans ce registre ; le procédé de lecture peut
alors reprendre.

PD

PG

Charges issues du
registre horizontal

Enveloppe de
Impulsion Tension de bruit parasite
parasite référence
PD
Donnée
utile

Échantillonnage de la tension de
référence PD

Échantillonnage de la donnée
utile

Figure 4.28
Le processus d’échantillonnage du signal sortant du capteur CCD.

Le signal qui découle de cette opération est constitué de grands


pics parasites d’échantillonnage – provoqués par la fermeture de

150

© Éditions Eyrolles
4 • La caméra

l’interrupteur –, de bruit, et d’informations utiles à faible niveau,


comme l’illustre la figure 4.28. Deux échantillonnages sont alors
nécessaires pour récupérer l’information avec précision, l’un
pour la référence PD, l’autre pour la donnée utile. La différence
entre ces deux valeurs donne l’information vidéo, sans bruit para-
site. Cette information est maintenue constante jusqu’à l’arrivée
du prochain échantillon – c’est-à-dire pendant la période d’échan-
tillonnage –, ce qui permet d’obtenir un signal continu à partir de
valeurs discrètes. Signalons par ailleurs que c’est dans la carte
d’échantillonnage que le signal de la voie verte est décalé d’une
durée correspondant au décalage spatial d’un demi pixel du cap-
teur vert, par rapport aux capteurs rouge et bleu. Les trois signaux
sortant de la carte d’échantillonnage sont préamplifiés avant d’at-
teindre les circuits de traitement vidéo, à commencer par les dis-
positifs de correction, qui ont pour but de réduire les défauts
apportés par la partie optique – objectif et séparateur – de la
caméra.

Le circuit d’échantillonnage récupère le signal issu du registre de sortie de chaque capteur, et


en extrait les informations utiles à partir desquelles sera formé le signal vidéo.

4.4.3. La correction de flare


Le défaut de flare est causé par une diffusion parasite de lumière
à l’intérieur de l’objectif. Plus précisément, quand l’ouverture ou
la focale de l’objectif varie, le niveau du noir de l’image peut
s’élever pour donner un gris foncé si le défaut affecte pareille-
ment les trois voies, ou se colorer si une voie est plus touchée
que les autres.
La correction de flare s’effectue à l’aide d’une mire blanche com-
portant en son centre un petit rectangle de velours noir. On cadre
dans un premier temps le rectangle noir en longue focale pour qu’il
occupe 90 % de l’image, afin de régler le niveau de noir général de
la caméra à 0 V. Puis on élargit jusqu’à ce que le rectangle noir
n’occupe à son tour que 10 % de l’image, le reste étant blanc. Il

151

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

faut alors compenser les éventuelles variations des niveaux de noir


en ajustant les réglages de flare de la voie (ou des voies) concer-
née(s), jusqu’à parvenir à la stabilité. Différentes mémoires de
valeurs sont généralement disponibles pour correspondre aux dif-
férentes caractéristiques des objectifs utilisés – marque, rapport de
zoom... Sur certains modèles de caméras, le réglage du flare est
directement accessible depuis le pupitre d’exploitation.

Figure 4.29 Zoom arrière laissant apparaître


Le défaut de flare se une grande quantité de blanc
caractérise par une variation autour de la zone noire,
du niveau de noir quand la Zone noire cadrée en gros plan qui devient grise
quantité de lumière
traversant l’objectif change.

0,7 V 0,7 V

t t
0V 0V
Signal vidéo parfaitement Défaut de flare :
collé au noir décollement du niveau de noir
à compenser électroniquement

Le principe du circuit de correction de flare consiste d’abord,


pour chaque voie R, V, B, à évaluer la valeur moyenne du signal
vidéo. Une tension continue proportionnelle à cette valeur
moyenne est alors ajoutée au signal vidéo, de sorte que le niveau
de noir soit maintenu constant quelle que soit la proportion de
blanc dans l’image.

Le flare est un phénomène de diffusion optique au travers de l’objectif, qui décolle et/ou colore
les noirs, donnant une impression d’image délavée. Ce défaut varie quand la quantité de lumiè-
re de la scène cadrée change. Un signal de compensation est appliqué sur les bas niveaux de
l’image.

152

© Éditions Eyrolles
4 • La caméra

4.4.4. La correction de taches au noir


Les taches au noir sont causées par des variations du courant
d’obscurité dans les capteurs avec la température. Elles se mani-
festent sous la forme d’une coloration indésirable de certaines
parties sombres de l’image. Ce défaut est corrigé indépendam-
ment dans le sens horizontal et vertical, en additionnant les
signaux nobles R, V, B à des signaux en forme de parabole, dents
de scie, et parfois cornes, générés par un circuit spécifique. Ces
signaux doivent être judicieusement combinés et dosés, en fonc-
tion de l’allure du défaut observé en ligne ou en trame. La cor-
rection des taches au noir est statique. Elle s’effectue dia-
phragme fermé.

4.4.5. La correction de taches aux blancs


Les caractéristiques spectrales du séparateur optique varient légè-
rement en fonction de l’angle d’incidence des rayons lumineux.
On peut dire que plus cet angle d’incidence est élevé, plus les
courbes représentées sur la figure 4.3 sont décalées vers les faibles
longueurs d’onde. Une caméra non corrigée du défaut de taches au
blanc ne délivre pas un signal d’amplitude parfaitement horizon-
tale lors de l’analyse d’une feuille blanche uniformément éclairée.
Ce phénomène se traduit, sur les zones claires de l’image, par l’ap-
parition de plages colorées horizontales ou verticales, générale-
ment de couleur verte ou magenta. Sa correction s’effectue au
moyen de signaux de compensation en forme de dents de scie et
parabole, qui sont cette fois multipliés avec les signaux nobles
R, V, B. L’opération est assez délicate, car elle s’effectue à partir
d’une mire blanche dont l’éclairage doit être parfaitement uni-
forme sur tout sa surface. Cette correction de taches au blanc est
dynamique : son effet varie avec l’amplitude du signal.
Par ailleurs, le problème du vignettage de l’objectif – perte de
lumière sur les bords de l’image – provoque lui aussi un défaut
de taches au blanc. Il est minimisé par une correction statique :
le signal compensateur en forme de cornes (à récurrence ligne ou
trame) est ici additionné au signal vidéo en fonction de l’ampli-
tude du défaut relevé sur chaque voie.

153

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 4.30
Image blanche
Les taches au blanc : défaut
et principe de correction.

Signal affecté d’un


Signal théorique défaut de taches
0,7 V 0,7 V au blanc

t t
0V 0V

Signal « taché » au blanc Signal corrigé

Signal correcteur

Les taches au noir sont causées par les variations du courant d’obscurité dans les capteurs avec
la température. Les taches au blanc sont dûes à une non-uniformité de la distribution de la
lumière par le séparateur optique. Ces deux phénomènes sont corrigés en combinant aux
signaux nobles R, V, B des signaux de compensation de forme opposée au défaut observé.

4.4.6. La correction de masking


La correction de masking a déjà été évoquée dans le chapitre 1.
Elle permet d’une part d’assurer le passage de l’espace colori-
métrique d’analyse assez étendu (scène réelle) à l’espace colori-
métrique de synthèse plus réduit (tube récepteur) en effectuant le
changement de primaires adéquat. Elle reconstitue d’autre part,
grâce à un matriçage électronique, les lobes négatifs décrits par
les courbes de mélange R, V, B (fig. 1.11) que le filtrage optique

154

© Éditions Eyrolles
4 • La caméra

unidirectionnel ne peut pas reproduire. On aurait pu, certes, uti-


liser dans le séparateur optique des filtres donnant les courbes du
système XYZ ne comportant pas de lobes négatifs. Cette solu-
tion, a priori séduisante, n’a pas été jugée acceptable, le passage
du système XYZ au système RVB du récepteur de télévision
étant effectué, pour chaque composante, par le biais d’une sous-
traction de valeurs importantes des deux autres. Cela aurait alors
engendré une addition des bruits, nuisant trop à la qualité de
l’image. C’est pourquoi il a été décidé d’utiliser des filtres adap-
tés au système RVB, dont la réponse spectrale correspond uni-
quement aux parties positives du jeu de courbes de mélange. Il
est alors fait appel à une transformation mathématique des
signaux électriques obtenus pour aboutir au système RVB du
tube récepteur. Cette transformation linéaire s’effectue typique-
ment à partir des signaux R-V et R-B dans la voie rouge, V-R et
V-B dans la voie verte, B-R et B-V dans la voie bleue (ce pro-
cédé permettant de réduire de neuf à six le nombre de paramètres
à régler). La transformation linéaire consiste à ajouter, à la
courbe de réponse de chaque analyseur, les lobes négatifs obtenus
à partir des deux autres courbes, au moyen de coefficients judi-
cieusement choisis. L’action de cette correction colorimétrique
s’annule pour le blanc, le noir, et les gris (c’est-à-dire quand
R = V = B), ce qui garantit la conservation de la neutralité de
l’échelle des gris, quelle que soit la valeur des coefficients.
Théoriquement, les six coefficients de ce matriçage sont définis
une fois pour toutes de manière à obtenir une fidélité colorimé-
trique optimale ; ils ne devraient pas avoir à être modifiés dans
les applications courantes. Mais la souplesse du traitement
numérique permet de les manipuler pour obtenir des rendus
colorimétriques particuliers – équilibrage avec des caméras de
marques différentes ou effets spéciaux –, tout en s’assurant de
pouvoir, à tout moment, revenir instantanément aux valeurs stan-
dard. Cela était loin d’être le cas en analogique, où l’on se gar-
dait bien d’intervenir sur ce circuit très délicat à ajuster sur mire.
Plusieurs mémoires de masking sont généralement disponibles
sur les caméras numériques haut de gamme.

155

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Courbes de synthèse Courbes d’analyse


Amplitude trichromatique à reproduire
lumineuse fournies par le séparateur optique :
il manque les lobes négatifs
Bleu
Rouge R1
B1
Vert V1

longueur d’onde
(nm)
0 0
400 500 600 700 400 500 600 700

V1
Vert

– k .B – k 2 .R1
1 1
Reconstitution des lobes négatifs de la courbe du signal du vert
à partir des signaux rouge et bleu inversés

Figure 4.31
Correction de masking sur la voie verte.

Le circuit de masking effectue deux opérations essentielles et extrêmement délicates. D’une


part, il assure le passage du système colorimétrique de la scène réelle très étendu vers le systè-
me colorimétrique de synthèse (tube récepteur) plus restreint, en effectuant le changement de
primaires adéquat. D’autre part, il reconstitue, par un matriçage électronique, les lobes néga-
tifs des courbes de mélange R, V, B qu’une simple synthèse trichromique additive ne peut pas
reproduire.

4.4.7. La correction des pixels défectueux


L’expérience montre que lorsque le CCD prend de l’âge, certains
pixels peuvent avoir un comportement au repos différent de celui
qu’ils avaient à l’origine. Ils deviennent soit plus sombres – on dit
qu’ils sont moins actifs –, soit plus clairs – ou plus actifs. Dans le
premier cas, le phénomène n’est visuellement pas très gênant. En

156

© Éditions Eyrolles
4 • La caméra

revanche, si un pixel devient plus actif, donc plus lumineux au


repos, cela se traduit par l’apparition permanente d’un point de
couleur rouge, verte, ou bleue. Ce point sera d’autant plus visible
qu’il se trouvera sur une zone sombre de l’image. Un pixel pro-
duisant ce type de défaut est un pixel dont la valeur de courant de
noir, ou d’obscurité, diffère de celle des autres. Ce phénomène a
une fâcheuse tendance à croître avec la température.
On distingue globalement deux systèmes de correction des
pixels défectueux. Le premier consiste à faire, en maintenance,
une acquisition des pixels dont le courant de noir est jugé trop
élevé, puis de mémoriser leurs coordonnées dans la tête de
caméra. En cours d’exploitation, les composantes R, V, B de cha-
cun de ces pixels hors normes sont tout simplement remplacées
par celles du pixel précédent sur la même ligne.
Le second système de correction des pixels défectueux est plus
efficace, parce que dynamique.
Figure 4.32
Correction dynamique
des pixels défectueux
sur 6 directions.

Ce système repose sur une analyse permanente de l’état des


pixels, libérant ainsi les techniciens de toute intervention de
maintenance. Un filtrage 2D permet de comparer l’amplitude de
chaque pixel avec celle de ses voisins, ce dans six directions. Si
l’amplitude d’un pixel donné est supérieure à la moyenne des
amplitudes des pixels voisins additionnée à un seuil dans ces
six directions, ce pixel peut être défectueux. Cette hypothèse
sera confirmée si cet écart de valeur n’est pas constaté sur le
pixel correspondant dans les autres voies de couleur. Si tel est le
cas, on procède en temps réel à un remplacement de la valeur du

157

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

pixel défectueux par la valeur moyennée des pixels alentours. Si,


en revanche, le même écart d’amplitude est relevé sur au moins
l’un des pixels aux mêmes coordonnées spatiales dans l’une des
deux autres voies de couleur, il y a de très fortes chances qu’il
s’agisse d’un pic de détail dans l’image. Aucune correction n’est
alors appliquée.

Avec le temps, le courant au repos – ou courant d’obscurité – de certains pixels peut augmen-
ter. Ce phénomène, qui croît avec la température, se traduit sur l’image par l’apparition per-
manente de points rouges, verts ou bleus. Selon la complexité du système de correction mis en
œuvre, un pixel défectueux est soit remplacé par la valeur du pixel précédent, soit recalculé en
fonction de la valeur des pixels qui l’entourent.

4.4.8. La correction d’ouverture


Le rôle de la correction d’ouverture est de réhausser le taux de
modulation du signal qui, après le filtrage optique anti-aliasing,
n’excède pas 65 % à 5 MHz. La correction d’ouverture élève ce
taux de modulation à environ 80 % (sans correction de contour),
de manière à accroître les possibilités de reproduction des tex-
tures fines de l’image.

4.4.9. La correction de contour


La correction de contour a pour rôle d’ajouter du piqué à l’image
rendue assez molle par le filtrage optique passe-bas. Elle agit en
renforçant électroniquement les transitions horizontales et verti-
cales, tout en minimisant l’apparition de bruit dans les plages
uniformes. La correction de contour a fait l’objet d’évolutions
significatives avec l’arrivée du traitement numérique, tant au
niveau de ses performances que de ses fonctionnalités.

[Link]. Le signal de contour


Le principe de la correction de contour consiste à extraitre les
hautes fréquences du signal vidéo, c’est-à-dire ses fines transi-
tions, afin de les amplifier, puis les lui réinjecter. Intéressons-nous
au cas des transitions horizontales (les notations qui suivent se rap-
portent à la figure 4.33).

158

© Éditions Eyrolles
4 • La caméra

Figure 4.33
Principe de la correction de
1
contour en horizontal. Signal original s(t)

2
Signal original retardé 2 fois
s(t) , s(t+1) , s(t+2)

Signal flou
3 = somme du signal original et des deux signaux retardés
et division par 3 de l'amplitude
s(t) + s(t+1) + s(t+2)
3

4 Signal de contour ligne

4 = s(t+1) – 3

5 Signal vidéo retardé avec correction de contour


5 = s(t+1) + 4

La première étape du circuit consiste à réaliser une image floue à


partir de l’image analysée. Chaque ligne du signal original (1) est
retardée d’une très faible durée, généralement 100 ns ; ces lignes
retardées subissent un nouveau retard de la même durée (2). Les
trois signaux obtenus sont additionnés pour former le signal flou
recherché (3). Après réduction de son amplitude à un tiers de sa
valeur, ce signal flou est soustrait au signal initial retardé une fois.
Le résultat de cette opération est un signal (4), constitué unique-
ment des transitions horizontales de l’image. Ce signal, dit de
contour horizontal, est amplifié avant d’être finalement ajouté au

159

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

signal initial retardé (5). Voilà donc comment les transitions hori-
zontales de l’image sont renforcées.
Le même principe est utilisé pour la correction de contour dans
le sens vertical, les retards s’exprimant ici non plus en termes de
points, mais de lignes. Les trames sont retardées deux fois suc-
cessivement de la durée d’une ligne complète (64 µs). Le pro-
cessus d’élaboration du signal contenant les transitions verticales
est ensuite analogue à celui décrit plus haut. Le signal de contour
peut être uniquement élaboré à partir de la voie verte (fig. 4.34).
Mais sur l’ensemble des caméras haut de gamme de dernière
génération, il est fabriqué également à partir des signaux des
voies rouge et bleue.

Figure 4.34 Signal original retardé


Synoptique simplifié de 100 ns
l’élaboration du signal de Voie verte +
+
contour sur la voie verte. -
64 µs Signal de
+ 1/3 100 ns +
contour
+
64 µs + 1/3
H et V
+
100 ns

Retard vertical Signal flou Retard horizontal Signal vertical


vertical horizontal
et vertical

[Link]. Les réglages de la correction de contour


De nombreux réglages sont aujourd’hui proposés sur les camé-
ras CCD numériques pour affiner la correction de contour et
adapter son influence au contenu de l’image. Sur les camé-
scopes, ces réglages sont généralement ajustés à des valeurs
standard. En studio cependant, leur dosage passe par la maîtrise
et la sensibilité de l’ingénieur de la vision, qui peut accéder à la
plupart d’entre eux depuis son pupitre d’exploitation. Les
réglages de la correction de contour sont les suivants :
– H/V ratio : équilibrage de la correction de contour en horizon-
tal et vertical ;
– crispening ou coring : élimination, par un écrêtage symétrique,
des faibles amplitudes de signal de contour qui sont assimilées
à du bruit. Ce réglage évite ainsi l’apparition de bruit sur les

160

© Éditions Eyrolles
4 • La caméra

plages uniformes de l’image. Sa plage d’action doit toutefois


être relativement modérée, car une correction de crispening
trop importante peut éliminer certaines petites transitions utiles
du signal de contour ;
– level depend : un seuil réglable permet de déterminer le niveau
vidéo à partir duquel la correction de contour entre en action ;
– peak frequency : réglage permettant de choisir la fréquence
centrale (typiquement entre 2 et 6 MHz) sur laquelle la correc-
tion de contour est maximale.
– skin detail : correction de contour supplémentaire, s’appli-
quant uniquement à une teinte particulière de l’image – géné-
ralement, deux teintes différentes peuvent indépendamment en
bénéficier. En sélectionnant, par exemple, la teinte chair, on
peut ainsi effacer les traces de l’âge sur un visage, sans affec-
ter le piqué du reste de l’image.

Figure 4.35 Cette plage s'élargit si la Signal de contour débruité


Débruitage du signal de correction de coring sur les plages uniformes
contour par le circuit de est élevée
coring ou crispening.

Signal de contour bruité

Signal de contour de faible


amplitude supprimé

Le bruit et les très faibles amplitudes du signal de contour


à l’intérieur de cette plage sont supprimés par l’écrétage
symétrique apporté par la correction de coring.

161

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Correction d'ouverture Correction de contour

Niveau

Réponse (%) Fréquence

100

Réponse
sans correction

Avec ouverture
Avec contour
F (MHz)

0 1 2 3 4 5 6

Figure 4.36
La correction d’ouverture et de contour avec réglage de l’amplitude et de la zone de fréquences.

La correction d’ouverture a pour but de compenser électroniquement les pertes de définition


engendrées par le filtre optique anti-aliasing.
La correction de contour renforce les transitions horizontales et verticales de l’image, un régla-
ge de coring ou crispening minimisant le bruit sur les plages uniformes.

162

© Éditions Eyrolles
4 • La caméra

4.4.10. La correction de contre-tops


(black pulse)
Le réglage de contre-tops permet de compenser les variations
des niveaux de noirs en fonction du gain de la chaîne vidéo. Ce
réglage s’effectue indépendamment sur chaque voie R, V, B en
sélectionnant différentes valeurs de gain (+3 dB, +6 dB, +9 dB,
etc.), l’objectif étant fermé.

4.4.11. La compression des blancs


Les capteurs CCD sont capables de restituer des niveaux six fois
supérieurs au niveau nominal du signal vidéo, c’est-à-dire ayant
une dynamique de 600 %. Cela constitue un atout appréciable
quant au comportement de la caméra face aux hautes lumières.
Cependant, le reste de la chaîne vidéo – enregistrement, diffusion,
affichage – est limité à une dynamique de 100 %, le fameux
« 1 Volt » au-delà duquel tout disparaît par écrêtage. Il faut donc
réduire les grandes différences de niveaux délivrées par le CCD
pour les faire tenir dans le gabarit du signal vision. C’est le rôle du
circuit de compression des blancs, ou compression dynamique de
contraste. Ce circuit est chargé de restituer, dans une assez large
mesure, les informations présentes dans les zones sur-illuminées
en atténuant leur amplitude. Les zones fortement éclairées sont
ainsi reproduites avec une dynamique réduite et conservent leur
contraste. Sur les caméras haut de gamme, deux réglages sont dis-
ponibles pour adapter la compression à la nature de l’image trai-
tée (fig. 4.37).

Figure 4.37 Sortie


Compression des blancs, Réglage de la pente
1
avec réglage du seuil et de la 0,9 (slope)
pente. 0,8
0,7
0,6 Réglage du coude
0,5 (knee)
0,4
0,3
0,2
0,1 Entrée
0 –1 0 1 2 3 4

163

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Le premier est le seuil de compression ou knee, c’est-à-dire le


niveau à partir duquel la compression entre en action (knee se tra-
duit par genou, mais on lui préfère le terme de coude pour dési-
gner le point d’infléchissement de cette courbe). Le second, slope,
permet d’ajuster la valeur de la pente, c’est-à-dire l’efficacité de la
compression.

Vidéo avant compression

Image surexposée dans le bleu

Compression sans restitution de couleur

R in R out

V in V out

B in B out Seul est compressé le signal R, V ou B dont le niveau


dépasse le signal nominal, ici le bleu. La colorimétrie
des zones surexposées n'est pas conservée.

Compression avec restitution de couleur


R in R out

V in Désaturation V out

B in B out

Max Knee Div.


ou y
Les trois signaux R, V, B sont soumis au même taux
de compression. La colorimétrie des zones surexposées
est conservée.

Figure 4.38
Action de la compression des blancs sur la colorimétrie.

164

© Éditions Eyrolles
4 • La caméra

La solution la plus simple pour compresser la dynamique du


signal vidéo repose sur un traitement indépendant dans chacune
des voies R, V, B. Seule est compressée la voie dépassant le
niveau nominal. Cependant, un tel procédé ne permet pas de
conserver la colorimétrie des zones surexposées.
Une autre technique, plus judicieuse, consiste à agir de manière
identique sur les trois signaux primaires, quel que soit celui pré-
sentant la valeur crête la plus élevée. Un tel système préserve la
colorimétrie des zones saturées de l’image puisqu’il conserve la
proportion de rouge, de vert, et de bleu d’origine. Un étage du
circuit détecte lequel des signaux d’entrée présente la crête la
plus élevée. Ce signal détermine la loi de compression, qui est
alors appliquée à l’ensemble des signaux primaires. Sur cer-
taines caméras, un circuit de désaturation est placé en fin de trai-
tement pour atténuer le niveau de couleur des zones compres-
sées, afin de renforcer le réalisme de la surexposition.

Le signal fourni par les capteurs CCD va très au-delà de la dynamique admissible en sortie de
la caméra. Il est cependant impensable de ne pas tenir compte des informations situées au-
dessus du niveau nominal.
La compression des blancs a pour rôle de restituer avec une dynamique réduite les zones de
l’image excessivement lumineuses, afin de conserver leur contraste.

4.4.12. La correction de gamma


Jusqu’à présent, nous avons toujours admis que la chaîne de télé-
vision était linéaire, tant au niveau de la caméra qui fournit des
signaux ER, EV, EB proportionnels aux tristimuli de la scène ana-
lysée qu’au niveau du tube récepteur, dont on supposait les tris-
timuli lumineux proportionnels aux signaux ER, EV, EB.
Dans la réalité, cette double hypothèse s’avère exacte pour la
caméra, mais pas pour le tube récepteur. Ce dernier, qui est
chargé de traduire en intensité lumineuse l’énergie électrique
cédée par les électrons des faisceaux de balayage, ne possède
malheureusement pas une réponse linéaire. Autrement dit, l’in-
tensité lumineuse émise par les luminophores de l’écran n’est
pas proportionnelle à la tension d’attaque appliquée au niveau du

165

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

canon électronique. La fonction de transfert du tube image suit


une loi exponentielle, comme le montre la figure 4.39. Si le noir
et le blanc sont correctement restitués, les gris sont en revanche
affaiblis, ce qui se traduit par une faible gamme de valeurs sur
les zones moyennement éclairées.

Tension
Lumière de sortie Lumière

700
590
480
Y = X2,2 Y = X0,45
330 Y = X0,45.2,2 = X
Tension 160
Tension Tension
35 130 300 475 700 d’entrée

Tube récepteur Correction de gamma Tube récepteur


gamma = 2,2 apportée dans la caméra gamma = 2,2
gamma = 0,45

Figure 4.39
La correction de gamma.

Deux possibilités se présentent alors pour remédier à cette dis-


torsion. La première consiste à intervenir dans le récepteur, en y
introduisant un circuit non-linéaire de caractéristique inverse de
celle du tube. Cela sous-entend cependant un accroissement de
la complexité du récepteur grand public – donc de son prix –,
avec des réglages supplémentaires délicats. La seconde solution,
celle qui a été adoptée, consiste à effectuer la compensation de
la non-linéarité du tube à l’émission, dans la chaîne de traitement
vidéo de la caméra. Le principe de cette correction, indispen-
sable en couleur comme en noir et blanc, repose sur une sur-
amplification des niveaux de gris correspondant à l’opposé de
l’atténuation qu’ils subissent à la réception.
La loi de gamma, qui lie l’intensité lumineuse produite à la ten-
sion d’attaque du tube récepteur, s’exprime par l’exposant de
l’équation de la courbe de transfert :
Y = Xγ

166

© Éditions Eyrolles
4 • La caméra

Pour un tube de télévision, la valeur moyenne de gamma norma-


lisée est 2,2. Par conséquent, la correction de gamma qui doit
être appliquée aux signaux primaires ER, EV, EB dans la caméra
doit être de l’inverse de 2,2, soit 0,45. La chaîne totale de télévi-
sion devient ainsi linéaire, son gamma est de valeur 1. Par
convention, on affecte le signe prime (’) à la notation des
signaux corrigés en gamma : E’R, E’V, E’B.

La correction de gamma compense, dans la caméra, la non-linéarité de la courbe de transfert


lumière/tension du tube cathodique, qui est du type y=x2,2. Elle soumet pour cela les signaux des
trois voies R, V, B à une fonction de transfert inverse, soit y=x0,45. Comme cette correction amplifie
les bas niveaux, elle présente en outre l’avantage de protéger le signal contre le bruit de fond.

4.4.13. La conversion
analogique/numérique sur 12 bits
Les caméras CCD numériques de dernière génération sont équi-
pées d’un convertisseur analogique numérique opérant sur
12 bits, au lieu de 10 précédemment. Voyons comment est géré
cet accroissement de précision et quelles sont les améliorations
apportées.
Un convertisseur A/N opérant sur 10 bits permet de distinguer 210,
soit 1 024 niveaux de luminance au total. Si ces 1 024 niveaux
devaient servir à coder la totalité de la dynamique de 600 %
fournie par les CCD, seuls 166 niveaux seraient attribués à la
plage nominale, ce qui est nettement insuffisant. C’est pourquoi
sur les caméras utilisant une conversion sur 10 bits, il est fait
appel à un étage de précompression analogique, qui entre en
action un peu au-dessus du niveau nominal, généralement à
130 %. Les niveaux d’entrée compris entre 130 et 600 % sont
alors atténués en analogique pour tenir sur une plage 130-220 %.
La dynamique à l’entrée du convertisseur est ainsi de 220 %. Sur
les 1 023 pas de quantification disponibles, 438 sont ainsi utili-
sés pour coder la plage nominale, comme le montre la figure 4.40
– le calcul tient compte du fait que le noir est au niveau 32.

167

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Un convertisseur A/N travaillant sur 12 bits est capable de dis-


criminer 4 fois plus de niveaux de luminance qu’en 10 bits, soit
un total de 4 096. Dès lors, deux possibilités sont offertes aux
constructeurs.
La première consiste à traiter toute la dynamique de 600 % avec
ces 4 096 niveaux. Aucune précompression analogique n’est
alors utilisée ; l’intégralité du traitement se fait en numérique et
672 niveaux sont de ce fait alloués à la plage nominale.
La seconde solution consiste à reprendre l’idée de la précom-
pression analogique, mais en la faisant entrer en action à un
niveau bien plus élevé qu’en 10 bits, soit à 350 % au lieu de
130 %. La plage d’amplitude comprise entre 350 % et 600 % est
ainsi ramenée dans le domaine analogique à une plage 350-
400 %. Dès lors le signal disponible en entrée de la circuiterie
numérique présente une dynamique de 400 %. Ainsi, sur les
4 096 niveaux de quantification que fournit le convertisseur
12 bits, 1 008 sont alloués au codage de la plage nominale.

10 bits 12 bits 12 bits


avec précompression analogique sans compression analogique avec précompression analogique
600 %

400 %
350 %
4 095
220 %
130 % 4 095
100 % 100 % 100 %
438 1 023 672 1 008
0% 0% 32 0% 64 0% 64

Figure 4.40
Mise en adéquation de la plage dynamique des convertisseurs A/N et de celle des CCD, avec une numérisation sur 10
et 12 bits.

La numérisation sur 12 bits au lieu de 10 apporte deux améliorations fondamentales dans le


traitement vidéo d’une caméra. D’une part, la précision d’analyse de la plage nominale du
signal vidéo est plus grande, ce qui se traduit notamment par une amélioration sensible de la
restitution dans les faibles lumières. D’autre part, la dynamique d’analyse est plus étendue, ce
qui améliore considérablement le rendu des zones surexposées.

168

© Éditions Eyrolles
4 • La caméra

4.5 La caméra et son environnement

4.5.1. Caméscope, ENG, EFP, studio


Les caméras broadcast se classent en trois catégories : les camés-
copes, les caméras portables et les caméras lourdes.
Les caméscopes monobloc, ou « combo », intègrent dans un cof-
fret unique une caméra et un enregistreur vidéo. Ils ont connu un
essor fulgurant avec l’apparition des nouveaux formats d’enre-
gistrement numériques compacts DV, DVCPRO, DVCAM,
MPEG-IMX, Digital Betacam, Betacam SX et D9. Ils offrent
aujourd’hui un niveau de performances très satisfaisant pour un
poids et un encombrement réduit. Ils sont massivement utilisés
dans les domaines grand public, institutionnels (vidéo d’entre-
prise, support de démonstration, etc.) et bien sûr broadcast.
Figure 4.41
Adaptateur
Les différentes liaison
configurations d’exploitation multiconducteur
d’une caméra portable.
Applications
EFP/studio
Adaptateur
liaison
triaxiale

Applications
Magnétoscope ENG

Les caméras portables se composent de deux blocs qui se


connectent l’un à l’autre. Le premier bloc est la tête de caméra ;
le second dépend de la configuration dans laquelle est exploitée
la caméra.
– En configuration ENG (Electronic News Gathering, traduit par
« journalisme électronique »), le bloc arrière est un magnéto-
scope embarqué qui est fixé à la caméra soit directement, soit
via un bloc interface adaptateur. L’ensemble fonctionne de
façon totalement autonome sur batterie.

169

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– En configuration EFP (Electronic Field Production, qui signi-


fie « production vidéo légère »), le bloc arrière est un adapta-
teur permettant de relier la caméra à une régie vidéo. Cette
configuration peut être mise en œuvre en studio, mais égale-
ment dans le cadre d’une production sur le terrain, avec une
régie mobile installée dans un car.
Les caméras lourdes sont équipées d’optiques dites « de studio »,
dont les dimensions permettent d’obtenir des rapports de zoom très
élevés (jusqu’à ×70). Elles bénéficient d’un grand viseur pouvant
afficher des repères de cadrage mémorisés et permettant également
de sélectionner l’une des trois voies R, V, B. Sur le plan technolo-
gique, les différences entre une caméra lourde et son équivalent
portable se sont progressivement réduites au fil des ans pour deve-
nir aujourd’hui quasiment nulles. En fait, les avantages d’une
caméra lourde sont à chercher non plus dans la qualité et le traite-
ment de l’image – les cartes vidéo sont les mêmes –, mais essen-
tiellement au niveau de l’intégration système : nombre de retours
vidéo, voie prompteur, nombre de canaux audio, sortie alimenta-
tion, etc. Cependant, la plupart des constructeurs proposent une
solution devenue très populaire, permettant de configurer une
caméra portable en caméra lourde, pour notamment l’utiliser plus
confortablement avec un grand viseur, un objectif de studio et ses
reports de commande (zoom et mise au point), et éventuellement
l’équiper d’un prompteur. Cette transformation s’effectue très sim-
plement en fixant le corps de la caméra légère dans un châssis
d’adaptation. Il faut quelques minutes pour passer d’une configu-
ration à l’autre.

En configuration ENG, une caméra portable est assemblée à un magnétoscope pour une utili-
sation autonome en reportage.
En configuration EFP, une caméra légère ou lourde est reliée à une régie fixe ou mobile.

4.5.2. L’équipement de prise de vues


Outre la caméra, l’équipement de prise de vues vidéo pour des
applications EFP ou studio se compose des éléments suivants.

170

© Éditions Eyrolles
4 • La caméra

[Link]. La voie de commande


La voie de commande, ou voie d’équipements, ou encore CCU
(Camera Control Unit), est une sorte de boîte noire électronique
que l’on peut considérer comme une interface de distribution des
signaux vidéo, audio, et des informations de commande vers les
équipements techniques externes. Elle permet également de cor-
riger et d’adapter les signaux provenant de la tête de caméra en
fonction de la longueur et du type de liaison utilisée. En
revanche, la voie de commande ne contient aucun circuit de trai-
tement de l’image. Elle renferme, sous la forme de cartes élec-
troniques enfichables, un système de transmission des signaux,
un générateur de synchronisation – pour asservir la caméra au
signal de référence du studio –, les différents blocs d’alimenta-
tion, les circuits d’interphonie et de retours vidéo, un ensemble
de codage, une interface pour la liaison entre le pupitre d’ex-
ploitation et la tête de caméra, ainsi qu’un microprocesseur.

[Link]. Le pupitre d’exploitation


Le pupitre d’exploitation, ou OCP (Operational Control Panel),
installé en régie, est placé sous le contrôle permanent de l’ingé-
nieur de la vision, qui effectue différents réglages sur l’image
pendant un tournage (§ 4.6). Les commandes effectuées sur le
pupitre d’exploitation sont envoyées sous forme numérique au
microprocesseur de la voie de commande, qui les transmet à celui
de la caméra pour que soient apportées les corrections sur les cir-
cuits concernés. Il y a autant de pupitres d’exploitation en régie
que de caméras sur le plateau.

[Link]. Le pupitre de réglages centralisé


Il permet de contrôler l’ensemble des paramètres d’exploitation et
de maintenance de toutes les caméras auquel il est relié. Il offre
également la possibilité de grouper des commandes à destination
de plusieurs caméras, mais aussi de recopier des valeurs de
réglages entre différentes caméras, ou encore d’effectuer des trans-
ferts vers ou depuis une carte mémoire. Si le pupitre centralisé n’est
pas un organe indispensable, il apporte un confort d’exploitation
très appréciable, surtout depuis l’avènement des caméras numé-
riques en raison de la stabilité et de la reproductibilité des réglages.

171

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

SALLE TECHNIQUE

1
VOIE DE
COMMANDE 1
VOIE DE
COMMANDE 2
VOIE DE
COMMANDE 3
2 VOIE DE
COMMANDE 4

4 1 2 3 4
PUPITRES D'EXPLOITATION

PLATEAU

Figure 4.42
La caméra et son environnement.

4.5.3. La liaison voie de commande/tête


de caméra
Le système de transmission entre la caméra et sa voie de com-
mande est bidirectionnel. Dans le sens caméra/voie, il transporte

172

© Éditions Eyrolles
4 • La caméra

essentiellement les signaux vidéo et des informations de service


– retour des états de la caméra vers le contrôle de voie. Dans le
sens voie/caméra, il transmet principalement tous les ordres de
correction provenant du pupitre d’exploitation, les signaux
audio, les signaux de synchronisation, les retours vidéo, ainsi
que les tensions d’alimentation. On distingue deux types de liai-
sons filaires entre la caméra et la voie de commande : la liaison
multiconducteur et la liaison triaxiale.

[Link]. La liaison multiconducteur


Une liaison multiconducteur transporte chaque signal noble sur
un fil séparé. Les signaux de commande sont, quant à eux, mul-
tiplexés et transmis sur un fil unique. Cette liaison est particuliè-
rement économique du fait de la relative simplicité de l’électro-
nique mise en œuvre dans la caméra et dans la voie de
commande. En contrepartie, elle impose un câble de diamètre
assez important, donc peu maniable, et dont la longueur ne peut
guère dépasser 300 mètres. On rencontre essentiellement ce type
de liaison dans le secteur institutionnel.

[Link]. La liaison triaxiale


La liaison triaxiale, de loin la plus répandue sur les plateaux de
télévision broadcast, repose sur un multiplexage en fréquence de
l’ensemble des signaux à transmettre, qui peuvent ainsi être
acheminés sur un seul câble de type triaxial (il s’agit d’un
coaxial blindé). Le câble triaxial présente l’avantage d’être relati-
vement fin, donc léger et maniable, et peut atteindre une longueur
de 3 000 mètres. Il transporte typiquement les informations sui-
vantes : le signal vidéo du téléprompteur, les signaux pleine bande
R, V, B ou Y, R-Y, B-Y – selon le constructeur –, les retours viseur,
les signaux audio d’interphonie et de retour programme, les infor-
mations de commande, les signaux d’asservissement du généra-
teur de base de temps de la tête de caméra, ainsi que l’énergie pour
alimenter la caméra. Les signaux sont multiplexés en fréquence,
une porteuse étant attribuée à chacun d’eux. La figure 4.43 donne
un exemple de répartition fréquentielle dans une transmission en
mode RVB utilisant les trois types de modulation.

173

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 4.43 Alimentation


Exemple d’allocation 230 V Caméra Contrôle de voie
Caméra Contrôle de voie
fréquentielle d’une liaison
triaxiale RVB. Audio et Retour
service viseur V R B Prompteur

0 10 MHz 30 MHz 50 MHz 70 MHz 150 MHz

Certaines caméras récentes utilisent une liaison dite « triaxiale


numérique ». Dans ce cas, la liaison transporte un signal [Link]
série en bande de base vers la voie de commande – sur une lon-
gueur maximale de 500 m. Ses avantages sont la transparence
totale de la liaison, ainsi que la stabilité des niveaux.

[Link]. Les liaisons sans fil


De type optique ou HF, les liaisons sans fil sont utilisées occa-
sionnellement pour accroître la mobilité du cadreur ou pour
transmettre des images sur de plus longues distances. Elles sont
cependant très coûteuses et assez complexes à mettre en œuvre.

Une liaison caméra/voie de type multiconducteur transporte chaque signal noble sur un fil
séparé et nécessite un câble volumineux. Une liaison triaxiale transporte tous les signaux sur
un seul fil, en attribuant à chacun une bande de fréquence ; le câble est plus fin et plus
maniable, mais le système est plus complexe et coûteux.

4.6 Les réglages d’exploitation

La figure 4.44 présente un pupitre d’exploitation type, à partir


duquel nous allons passer en revue les principaux réglages dont
dispose l’ingénieur de la vision pour optimiser la qualité des
images vidéo selon sa propre appréciation. Car même si les
caméras sont parfaitement étalonnées avant une émission, de
nombreux paramètres peuvent interférer sur le rendu de l’image,
qu’il faut donc corriger en temps réel (angle de prise de vue,
lumières incidentes, tons des visages, etc.).

174

© Éditions Eyrolles
4 • La caméra

Verrouillage du pupitre

ON AIR PREVIEW
LOCK /
UNLOCK
BARS Activation dents de scie
Voyant antenne
Voyant de présélection +18dB OFF
Activation mire de barres
1 0,35 +15dB 1/125
+12dB 1/250
2 0,45
+9dB 1/500
3 0,55
Correction de contraste +6dB 1/1000

OFF OFF +3dB 1/20000


Obturateur électronique
dans les noirs 0dB CLEAR SCAN

BLACK STRETCH GAMMA GAIN

Sélection du gamma SHUTTER

Sélection du gain par bond


SKIN H/V ratio
Réglages de la compression
POINT SLOPE
LEVEL LEVEL des blancs
Réglages du détail
CRISPENING PEAK
ON/OFF FREQUENCY ON/OFF AUTO

DETAIL WHITE COMPRESS

STORE 1 2 3 4 Mémoires de configuration


SCENE FILE

Saturation des couleurs FLARE FLARE


Réglage des flares RVB

ON Balance des blancs


GAIN WHITE BAL
SATURATION
Réglages des gains RVB
Ajustement automatique ABL
du niveau de noir BLACK BLACK BAL Balance des noirs

Réglage des noirs RVB


EFF 4
EFF 3
EFF 2 Position de la plage
Filtres d’effets EFF 1 RANGE de commande de l’iris
DAY
CLEAR
Sensibilité de la commande
CC FILTERS SENS. de l’iris
Potentiomètre de réglage IRIS AUTO
du niveau de noir général IRIS Automatisme de l’ouverture
de l’iris
CAP CALL
Levier de réglage de ND 4
ND 3
Commande d’appel
l’ouverture de l’iris du cadreur
ND 2
ND 1
CLEAR PRESET
Filtres de densité f number Réinitialisation de valeurs
ND FILTERS standard

Touche de présélection

Figure 4.44
Exemple d’un pupitre d’exploitation.

175

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

• La touche de préselection
L’ingénieur de la vision dispose d’une grille de sélection pour
commuter l’image des caméras sur son moniteur de contrôle.
Cette grille est généralement pilotée par une pression sur le
joystick de commande du diaphragme ou par une touche de pré-
selection située sur la partie basse du pupitre OCP.
• Les balances des noirs et des blancs
La préparation d’une caméra CCD avant un tournage se résume
essentiellement aux balances des noirs et des blancs. Ces deux
opérations s’effectuent en déclenchant un cycle de réglage auto-
matique depuis le pupitre d’exploitation ou directement sur la
caméra. Sur une caméra numérique, on peut même se contenter
de rappeler des valeurs de référence stockées en interne ou sur
une carte mémoire.
La balance des noirs consiste à égaliser les niveaux de noirs de
chaque voie R, V, B pour que, lorsque l’objectif est obturé de
toute lumière, les signaux vidéo primaires soient parfaitement
alignés les uns par rapport aux autres. Le noir de l’image ne
laisse ainsi apparaître aucune dominante colorée. Dans son prin-
cipe, cet automatisme aligne en fait les niveaux de noir du rouge
et du bleu sur celui du vert, qui sert de référence.

Figure 4.45 Balance des blancs


Principe de la balance des
blancs et des noirs. Dans les 700 mV
deux cas, le niveau du vert Balance des noirs
est pris comme référence.

30 mV
R V B R V B

La balance des blancs a pour but d’adapter les circuits colorimé-


triques de la caméra à la température de couleur de la lumière de
la scène. Elle nécessite de cadrer au préalable, avec une exposi-
tion correcte, une surface blanche uniformément éclairée par la
lumière qui sera utilisée lors du tournage. Un circuit équilibre
alors automatiquement sur ce blanc de référence les gains des
signaux vidéo de chaque voie R, V, B au niveau nominal de
700 mV. Ce réglage doit être effectué dans les mêmes conditions

176

© Éditions Eyrolles
4 • La caméra

sur toutes les caméras d’une production. C’est la condition sine


qua non pour assurer un étalonnage colorimétrique de base juste
et homogène.
• Les gains et niveaux de noirs individuels
En cours d’exploitation, l’ingénieur de la vision corrige manuel-
lement les niveaux de gain de chaque voie pour modifier légère-
ment le rendu colorimétrique de la caméra, en fonction cette fois
du contenu réel de la scène, de l’axe de prise de vues, de l’angle
de champ, etc. Il corrige également les niveaux de noir indivi-
duels des trois voies afin d’obtenir l’équilibre souhaité et de sup-
primer d’éventuelles dominantes colorées sur les basses lumières
(très facilement perceptibles sur les costumes noirs par
exemple). Ces corrections manuelles permettent d’optimiser les
raccords colorimétriques entre les différentes caméras qui cou-
vrent le plateau, dans les hautes comme dans les basses lumières.
• Le contrôle du diaphragme
L’ouverture du diaphragme de l’objectif est motorisée et pilotée
par une poignée de commande de type joystick, ou par un bouton
rotatif. Un circuit d’automatisme peut asservir cette ouverture à
l’amplitude maximale du signal de luminance (« iris auto »). Deux
potentiomètres permettent par ailleurs de définir la position et
l’étendue de la plage de réglage de la commande de l’iris.
• Le niveau de noir général
Ce réglage détermine le contraste de l’image en assombrissant
– coller les noirs – ou, au contraire, en éclaircissant – décoller les
noirs – les bas niveaux lumineux. De manière générale, mieux
vaut éviter de coller excessivement les noirs, cela ayant pour
effet d’écrêter les détails dans les zones sombres qui disparais-
sent définitivement. En revanche, une image trop « décollée »
peut être corrigée après coup, puisque dans ce cas, aucune infor-
mation n’est éliminée.
Une fonction « Automatic Black Level » peut se substituer à
l’ajustement manuel du niveau de noir général en recollant au
noir automatiquement le niveau le plus sombre de l’image.

177

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

• Le gain par bonds


En cas de faible éclairage – situation se présentant très rarement
en studio, plus souvent en tournage extérieur –, l’ouverture maxi-
male du diaphragme peut ne pas suffire pour obtenir un niveau
vidéo correct. Il faut alors accroître électroniquement la sensibi-
lité de la caméra en ajoutant du gain à la chaîne de traitement
vidéo, le prix à payer étant l’apparition de bruit sur l’image.
Plusieurs valeurs, entre +3 et +18 dB, sont généralement dispo-
nibles, sachant que le gain double tous les 6 dB.

• La correction de contour
En renforçant les transitions, la correction de contour accentue la
netteté de l’image. Mais attention, avec trop de contour, l’image
se durcit et revêt un aspect électronique très désagréable. Outre
le niveau général du détail ajouté à l’image, d’autres réglages de
cette correction fondamentale sont souvent mis à la disposition
de l’ingénieur de la vision sur le pupitre d’exploitation : ratio
horizontal/vertical, correction sélective sur une ou deux teintes
seulement, position du pic de fréquence, asservissement du
niveau de détail à la focale, etc. (§ [Link]).

• Le gamma
Plusieurs valeurs de gamma sont généralement proposées pour
modifier le rendu des demi-teintes de l’image. Le contraste sur
les zones moyennement éclairées est renforcé pour des valeurs
de gamma inférieures à 0,45, et atténué par des valeurs supé-
rieures à 0,45. Il est cependant très rare d’avoir à changer le
gamma d’une caméra au cours d’un tournage, sauf pour obtenir
un effet particulier.

• Le black press/stretch
En agissant sur la pente initiale de la courbe de gamma, cette cor-
rection modifie le contraste dans les basses lumières, sans affecter
le reste de l’image. Elle permet d’estomper les zones peu éclairées
pour notamment réduire le bruit lors d’un tournage avec un gain
élevé (press), ou, au contraire, accroître la dynamique sur les zones
sombres en y faisant apparaître davantage de détails (stretch).

178

© Éditions Eyrolles
4 • La caméra

• La compression des blancs


En studio, la compression des blancs peut être utile pour atténuer
certaines brillances sur un visage ou pour éviter un écrêtage des
détails sur un vêtement blanc par exemple. En extérieur, elle per-
met de réduire le contraste sur des zones très lumineuses difficile-
ment maîtrisables ou de restituer l’image contenant des contre-
jours excessifs. Sur les caméras haut de gamme, deux paramètres
sont ajustables directement depuis le pupitre d’exploitation. Le
réglage du seuil (knee) permet de définir le niveau vidéo à partir
duquel le compresseur doit agir. De manière générale, il est bon de
fixer le seuil un peu en dessous du niveau nominal, afin d’octroyer
une plus grande dynamique aux hautes lumières. Le second
réglage (slope) agit quant à lui sur l’efficacité du compresseur.

• La saturation
Un potentiomètre de saturation permet de renforcer ou d’atté-
nuer, jusqu’à la supprimer totalement, la couleur de l’image,
généralement sur une plage de 0 à 200 %.

• Les mémoires
Plusieurs mémoires d’exploitation – scene file – sont disponibles
pour conserver des configurations complètes du pupitre, avec
toutes les valeurs de réglages pour chaque caméra. Ces
mémoires peuvent être utilisées pour rappeler les valeurs d’une
correction particulière ou pour reconfigurer instantanément l’in-
tégralité de l’état du pupitre. Selon le constructeur, le contenu
des mémoires est stocké soit dans la tête de caméra, soit dans la
voie de commande. Des cartes mémoires amovibles permettent
de sauvegarder plusieurs configurations et d’effectuer des trans-
ferts de réglages.

• Signal test en dent de scie


Pour certaines opérations de maintenance, il peut être utile de
substituer le signal issu du bloc CCD par un signal test. Il s’agit
généralement d’un signal en forme de rampe, ou dent de scie,
injecté au début de la chaîne de traitement. Ce signal test permet
d’observer le comportement des différents circuits sur toute
l’échelle des niveaux vidéo.

179

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Au cours d’un tournage multicaméra, l’ingénieur de la vision corrige essentiellement sur cha-
cune d’elles la colorimétrie, l’ouverture du diaphragme, les valeurs du détail, la saturation des
couleurs, et le niveau de la compression des blancs, de manière à assurer l’homogénéïté des
plans lors des commutations du réalisateur. Plusieurs mémoires peuvent conserver l’état de ces
différents réglages.

4.7 Le format de l’image : du 4/3 au 16/9

Le format d’une image s’exprime par une valeur qui correspond


au rapport de sa largeur sur sa hauteur :
Format = Largeur/Hauteur
Toutes les images de télévision ou de cinéma sont en orientation
paysage, c’est-à-dire sont horizontales. La valeur de leur format
est donc supérieure à 1 (1 étant le format d’une image carrée).
Plus la valeur du format est grande, plus l’image est large.
Le format d’image normalisé aux origines de la télévision a été
déterminé principalement en fonction de celui du support film
16 mm des années 1940, c’est-à-dire le 4/3 (1,33). Mais au fil du
temps, le cinéma, plus souple, a introduit d’autres formats plus
larges dits panoramiques (1,66 et 1,85) avant d’en arriver aux
formats cinémascopes (2,35 et 2,55). La télévision, quant à elle,
ne s’est pas adaptée à cette évolution et en est restée au 4/3 ; on
ne change pas, en effet, le format de tous les récepteurs domes-
tiques comme celui des écrans des salles de cinéma. Trois solu-
tions ont alors été proposées pour la diffusion de films cinéma-
tographiques sur un réseau de télévision standard. Aussi
contestables qu’inévitables, elles permettent toutes, par une tech-
nique différente, d’afficher une image large sur un écran étroit.
– Le letter box : cette technique particulièrement prisée en France
privilégie l’intégrité de l’image originale au détriment du confort
visuel. L’image du film est en effet réduite de manière à s’ins-
crire en totalité – ou presque – sur l’écran, entre deux bandeaux
horizontaux noirs d’autant plus épais que le format est large.

180

© Éditions Eyrolles
4 • La caméra

– Le central window : l’image occupe ici toute la surface de


l’écran, les parties latérales qui ne rentrent pas dans le cadre
4/3 étant perdues.
– Le pan and scan : l’image occupe également toute la surface
de l’écran, mais, pour éviter les inconvénients de la méthode
central window, un recadrage horizontal est effectué en fonc-
tion de l’action.
Figure 4.46
4/3 16/9
Les différents formats
d’images
cinématographiques Panoramique Panoramique Panoramique Panoramique
comparés aux formats 1,66 1,85 1,66 1,85
vidéo 4/3 et 16/9.

Cinémascope Cinémascope Cinémascope Cinémascope


2,35 2,55 2,35 2,55

TV 16/9 TV 4/3
1,77 1,33

La commutation 4/3-16/9 sur une caméra CCD


Comparé au format 4/3 (ou 12/9), le format 16/9 de la télévision
améliorée et à haute définition présente des proportions plus
proches de celles des formats cinématographiques et apporte un
meilleur confort visuel.
Deux solutions différentes sont proposées par les fabricants de
caméras CCD broadcast pour assurer la commutation du 4/3 au
16/9.
La première solution privilégie le format 16/9 en inscrivant à
l’intérieur du cercle optique utile la surface d’analyse CCD au
ratio 16/9. La commutation en 4/3 s’effectue en réduisant le
nombre de pixels utiles par ligne – l’image 4/3 est centrée dans
le cadre 16/9 –, ce qui entraîne une diminution de l’angle de
champ horizontal de l’ordre de 20 %, comme l’illustre la
figure 4.47. Une solution compensatrice consiste à utiliser un
objectif muni d’un convertisseur ×0,8. Activé en mode 4/3, ce

181

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

convertisseur réduit la focale de 20 % pour obtenir le même


angle de champ horizontal maximal qu’en 16/9.

Figure 4.47
La commutation 4/3–16/9
avec un capteur 16/9. En 4/3,
20 % de l’angle de champ est
perdu. 4/3 : 720 pixels

16/9 : 960 pixels

59°

46°

La seconde solution prend pour point de départ un cadre image de


ratio 4/3 inscrit sur un capteur contenant 960 pixels par ligne. En
16/9, les parties hautes et basses de la surface du capteur ne sont
pas utilisées, mais toute sa largeur est intégralement exploitée, ce
qui permet aux deux formats de bénéficier des 960 pixels par ligne
et de conserver le même angle de champ horizontal. Le change-
ment de format est contrôlé de façon dynamique par un matriçage
vertical différent de la surface sensible en 4/3 et en 16/9, de
manière à générer le nombre de lignes correct dans les deux cas.
Dans ce procédé DPM (Dynamic Pixel Management), inventé par
Philips, un pixel image est formé par un groupe constitué de quatre
éléments sensibles en 4/3 et de trois éléments sensibles en 16/9. Il
s’ensuit une légère perte de sensibilité en 16/9, la surface exposée
étant de dimension plus réduite qu’en 4/3 (perte de 1/4 de dia-
phragme environ). Mais la résolution de l’image est améliorée de
manière significative.

182

© Éditions Eyrolles
4 • La caméra

Figure 4.48
La commutation 4/3-16/9
avec un capteur 4/3 de 960
pixels par ligne. Les pixels
sont adressés dans le sens
vertical par groupes de 3 en
16/9 et 4 en 4/3. L’angle de
champ horizontal est le
même dans les deux formats.

4/3 16/9

960 pixels/ligne 960 pixels/ligne

La majorité des caméras récentes sont équipées d’un dispositif de changement électronique de
format d’image 4/3–16/9. Certaines utilisent un capteur 16/9 dans lequel s’inscrit l’image
4/3 ; d’autres emploient un capteur 4/3 pour former une image 16/9.

4.8 Les caméras à haute définition

La plupart des constructeurs ont désormais inclus à leur cata-


logue des caméras à haute définition (certaines déclinées en
caméscopes), délivrant une résolution jusqu’à cinq fois supé-
rieure à celle des modèles standards. Ces caméras sont avant tout
conçues pour répondre à la demande du marché américain qui

183

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

commence à produire et diffuser en HD, dans le cadre du


déploiement de la diffusion numérique terrestre. Elles intègrent
des capteurs 2/3" au format 16/9 totalisant jusqu’à 2,2 millions
de pixels, et peuvent fournir une image aux trois résolutions de
HD normalisés aux États-Unis : 1080×1920 avec un balayage
entrelacé à 60 Hz (noté 1080i), 1080×1920 avec un balayage
progressif à 24 Hz (noté 24p), et 720×1280 avec un balayage
progressif à 60 Hz (noté 720p). Mis à part leur résolution élevée,
ces caméras possèdent globalement les mêmes caractéristiques
techniques que leurs équivalents standard (dont elles sont pour la
plupart dérivées), et offrent les mêmes fonctionnalités. S’il est
vrai que la diffusion en haute définition est encore loin d’être
d’actualité en Europe, l’un de ces formats HD a néanmoins tra-
versé l’Atlantique et est promis à un bel avenir sur notre conti-
nent. Il s’agit du 24p, qui suscite un intérêt grandissant dans le
domaine de la fiction télévisuelle haut de gamme, mais aussi
dans celui du cinéma numérique, en alternative à la pellicule
(voir §7.23).

184

© Éditions Eyrolles
5 Le signal vidéo
analogique
et numérique

Comment la télévision en couleurs s’est-elle satisfaite des capacités


de transmission de la télévision en noir et blanc ?
Quelles sont les différences fondamentales entre les systèmes NTSC, PAL, SECAM ?
Quelles sont les faiblesses du signal composite ?
Qu’est-ce qu’un signal en composantes analogiques ?
Comment convertir un signal analogique en un signal numérique ?
Quels sont les principaux avantages apportés par la numérisation du signal vidéo ?
Quelles sont les règles à respecter pour échantillonner sans pertes le signal vidéo ?
Qu’est-ce que la norme [Link] ?
À quoi correspondent les appellations [Link], [Link], [Link] ?
Comment sont corrigées les erreurs en numérique ?
Quel est le rôle du codage de canal ?
Pourquoi la sérialisation du signal vidéo numérique s’est-elle avérée indispensable ?

Ce chapitre décrit les différentes formes sous lesquelles peut être se présenter le
signal vidéo, qu’il soit codé en analogique ou en numérique. Nous commence-
rons par donner les principales caractéristiques du codage composite analogique
et des standards NTSC, PAL, SECAM, avant d’aborder la représentation du
signal en composantes séparées. Nous nous intéresserons alors à la norme de
codage numérique [Link], qui s’est solidement implantée ces vingt dernières
années dans tous les maillons de la chaîne de production et de postproduction
broadcast. À chaque fois que nécessaire, un rappel sera donné sur la théorie de
la numérisation du signal.

185

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

5.1 Le signal vidéo analogique

Une image vidéo analogique en couleurs peut être reconstituée


par le mélange, à quantité variable, des trois couleurs primaires
rouge, vert, bleu. Mais en pratique, le signal vidéo ne se présente
pas toujours sous la forme de trois signaux RVB. Il peut en fait
revêtir quatre formes différentes.
– RVB : chaque couleur primaire rouge, verte, bleue est véhicu-
lée par trois signaux distincts sur trois liaisons indépendantes
(une quatrième voie peut être utilisée pour la synchronisation).
La qualité de l’image est optimale, mais aucune compatibilité
n’est offerte avec les téléviseurs noir et blanc. De plus, la
bande passante requise est triplée par rapport à celle du seul
signal noir et blanc, ce qui est totalement prohibitif pour l’en-
registrement ou la diffusion. La liaison RVB est essentielle-
ment exploitée en studio pour connecter entre eux certains
équipements vidéo, mais également à l’intérieur des outils de
traitement de l’image, ainsi qu’en informatique.
– Composantes : les signaux en composantes sont fabriqués à
partir d’une recomposition linéaire des signaux primaires
RVB, conduisant à un signal de luminance Y (représentant à
lui seul l’image en noir et blanc), et deux signaux dits de dif-
férence de couleurs R-Y et B-Y, notés Dr et Db. Les pertes en
qualité sont assez minimes et la bande passante requise est
beaucoup moins importante qu’en RVB car les signaux Dr et
Db, portant uniquement la couleur, sont peu encombrants
(§ [Link]). Cette représentation du signal vidéo en compo-
santes est née avec le format Betacam de Sony au début des
années 80. Elle a depuis servi de base à la norme numérique
[Link], ainsi qu’à la grande majorité des formats d’enregistre-
ment vidéo.
– Composite : les trois signaux composantes Y, Dr, Db sont com-
binés en un unique signal vidéo appelé signal composite. Il
existe trois standards composites, le PAL, le SECAM et le
NTSC, dont les différences portent essentiellement sur la
manière dont sont combinés les signaux. Le signal composite

186

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

offre une qualité d’image bien inférieure à celle des formats


RVB et composantes (surtout dans la représentation des détails),
mais il présente l’avantage indéniable d’être transmissible sur
une seule voie. Il est utilisé en diffusion hertzienne et a été repris
seulement par deux formats numériques, le D2 et le D3.
– Y/C (ou composite séparé) : il s’agit d’un mode de représenta-
tion dans lequel la luminance et la chrominance sont codées
chacune comme en composite, mais restent séparées l’une de
l’autre au niveau de la connectique et des équipements. La
qualité de l’image est meilleure qu’en composite (définition
supérieure, pas de cross-color,...), les pertes se situant unique-
ment au niveau de la chrominance. La liaison Y/C est utilisée
par les formats grand public S-VHS et Hi8, ainsi que sur cer-
taines cartes de numérisation pour micro-ordinateurs.

Le signal vidéo analogique peut se présenter sous quatre formes – RVB, Y/C, composantes,
composite –, dont seules les deux dernières ont servi de base au développement des formats
numériques.

5.1.1. Le signal composite


Force est de constater que les normes de codage composite des
signaux de télévision en vigueur aujourd’hui reposent sur des
spécifications établies il y a plus de 50 ans, en fonction de la
technologie et des besoins de l’époque. En effet, les standards
PAL, SECAM et NTSC sont tous trois nés de la nécessité d’as-
surer le passage de la télévision en noir et blanc à la télévision en
couleurs de façon totalement compatible. Il était impératif que
les nouvelles émissions en couleurs soient restituées correcte-
ment par les récepteurs en noir et blanc dont étaient déjà équipés
les foyers. Le problème qui s’est alors posé était de savoir com-
ment transmettre les signaux de différence couleurs Dr et Db
dans un canal initialement prévu pour véhiculer un unique signal
de luminance, le tout sans perturber la réception monochrome.
Deux procédés ont été mis en œuvre pour y parvenir : le premier
consiste à réduire la bande passante des signaux de chrominance,
et le second à imbriquer leur spectre dans celui de la luminance.

187

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. Réduction de la bande passante de la


chrominance
En 1949, l’américain Bedford montre que l’acuité visuelle de
l’œil humain – système optique à une seule lentille non corrigé
des aberrations chromatiques – est plus faible pour les détails
colorés que pour les détails en noir et blanc. L’une des mires uti-
lisées au cours de ses expériences est représentée sur la figure
5.1. Elle est composée de deux zones qui sont soit noire et
blanche, soit de deux couleurs primaires d’égale luminance. Plus
l’observateur s’éloigne de cette mire, moins il distingue de façon
nette les zigzag de la transition centrale, qui finit par être perçue
comme un flou vertical. Par rapport à la mire en noir et blanc
prise en référence, l’acuité visuelle pour les mires de couleurs est
de 40 % pour la mire rouge/vert, 23 % pour la mire rouge/bleu,
et 19 % pour la mire vert/bleu.

Figure 5.1
Un exemple de mire utilisée
au cours des expériences de
Bedford mettant en évidence
la faible acuité visuelle de
l’œil humain pour les détails
des couleurs. Les deux
parties de la mire sont soit
noire/blanche, soit
rouge/verte, soit rouge/bleue,
soit verte/bleue.

Cette constatation, d’apparence mineure, a eu des répercutions


directes sur l’établissement de tous les standards de télévision en
couleurs dans le monde entier. Elle a en effet permis de réduire
la largeur de canal utilisée pour transmettre les composantes de
couleur, sans que la qualité subjective de l’image observée ne
soit altérée (si le signal de luminance est transmis en pleine
bande). La faiblesse du pouvoir de résolution du système visuel
humain face aux détails de couleurs a ainsi justifié une réduction

188

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

de la bande passante attribuée aux composantes de couleur dans


un facteur quatre en diffusion, et dans un facteur deux en pro-
duction/postproduction (par rapport à la luminance). Dans les
systèmes à 625 lignes, la bande passante de la luminance a été
fixée à 5,5 MHz pour la diffusion et celle de la chrominance à
1,5 MHz (ces valeurs sont respectivement de 4,2 et 1,4 MHz
dans les systèmes à 525 lignes).

L’œil étant moins sensible aux détails colorés qu’aux détails en noir et blanc, la quantité d’in-
formation utilisée pour transmettre la chrominance peut être réduite à 25 ou 50 % de celle uti-
lisée pour transmettre la luminance.

[Link]. Imbrication du spectre de la chrominance


dans celui de la luminance
L’analyse séquentielle de l’image de télévision par une succes-
sion de lignes se traduit, pour la luminance comme pour la chro-
minance, par un spectre sous forme de raies ; l’énergie n’est
transportée qu’à des fréquences multiples de la fréquence ligne.
Cette particularité a permis d’imbriquer les raies du spectre de la
chrominance entre celles du spectre de la luminance, et d’inclure
ainsi les informations de couleur dans la largeur de canal occu-
pée par la luminance. Dans un signal composite, les signaux de
chrominance modulent une sous-porteuse intermédiaire dont la
fréquence est choisie dans le haut du spectre de la luminance,
partie la moins encombrée car correspondant aux détails fins de
l’image.

Figure 5.2 Luminance


Amplitude
Spectre du signal vidéo Chrominance
composite.

1,5 MHz 1,5 MHz

Fréquence

4,5 MHz 6 MHz

189

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

À la réception, la séparation des signaux de luminance et de


chrominance devrait théoriquement être réalisée par un filtre
« en peigne », comme l’illustre la figure 5.3. Mais elle est, dans
la plupart des cas, effectuée par un brutal filtrage passe-bas, plus
simple et plus économique, mais qui présente deux inconvé-
nients notoires. D’une part, il réduit de manière significative la
bande passante de la luminance. D’autre part, il laisse certaines
hautes fréquences de luminance dans la bande spectrale de la
chrominance. Un phénomène bien connu de cross-color se pro-
duit alors quand les composantes de la luminance restées dans la
zone de la chrominance sont d’amplitude suffisamment élevées
pour être interprétées comme des informations de couleurs. Sur
l’image, cela se traduit par l’apparition d’un moiré coloré sur les
surfaces garnies de transitions fines.

Figure 5.3 Amplitude


La séparation des signaux de
luminance et de
chrominance, dont les
spectres sont imbriqués,
Spectre de raies
s’effectue de manière idéale
de la luminance
par un filtrage « en peigne ».

Spectre de raies
de la chrominance

Fréquence

Chrominance
Réponse du filtre
en peigne supprimant
le signal de chrominance

Fréquence

190

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Le signal unique résultant de cette imbrication des spectres est le


signal composite, appelé ainsi parce qu’il est le fruit du mélange
des informations de luminance et de chrominance, auxquelles
s’ajoutent les signaux de synchronisation. Le mode de combinai-
son des deux signaux de différence de couleurs Dr et Db entre eux,
ainsi que la manière dont ils sont ajoutés au signal de luminance,
diffèrent selon les standards de codage NTSC, PAL et SECAM.

Le signal vidéo composite combine, selon l’un des trois standards de codage – NTSC, PAL,
SECAM – le signal de luminance, les deux signaux de différence de couleurs, ainsi que les
signaux de synchronisation. Le signal composite porte à lui seul toutes les informations néces-
saires à la reproduction de l’image vidéo en couleurs. Le spectre du signal de chrominance est
inséré dans le haut du spectre du signal de luminance. Un signal de télévision composite en
couleurs occupe ainsi le même espace fréquentiel qu’un signal en noir et blanc.

[Link]. Organisation du signal composite


Le signal vidéo est un signal électrique traduisant ligne par ligne
les variations de luminosité d’une image en variations de tension
proportionnelles. Un noir parfait donne une tension nulle de
0 Volt, tandis que le blanc est représenté par la valeur 0,7 Volt.
Le signal vidéo se compose d’une partie dite « utile », contenant
les informations visibles de l’image, et d’une partie dite de
« suppression », renfermant des données auxiliaires (références
de niveau, synchronisation,…).
Dans les systèmes de télévision à 625 lignes, chaque image est
découpée en deux demi-images ou trames de 312,5 lignes, l’une
composée des lignes paires, l’autre des lignes impaires. Sur ces
625 lignes, seules 576 sont dédiées à l’image ; on dit qu’elles sont
actives. En effet, les 25 premières lignes de chaque trame ne
contiennent pas d’informations visibles. Elles sont utilisées pour
transporter soit des signaux de service – synchronisation trame,
identification couleur –, soit des informations annexes comme le
télétexte. Chaque ligne possède une durée totale de 64 µs, mais les
informations traduisant les variations de l’image – signal vision –
ne sont présentes que pendant 52 µs. Une ligne débute par une
impulsion de synchronisation horizontale négative (– 0,3 V), et

191

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

chaque trame commence par un signal de synchronisation


vertical. Dans les systèmes à 525 lignes, on compte seule-
ment 487 lignes actives et 19 lignes de suppression sur chaque
trame.

Zone de suppression

Structure d’une ligne vidéo


0,7 V

0V 625 576 Zone 487 525


lignes lignes image lignes lignes
– 0,3 V
12 µs 52 µs
Système 52 µs Système
625 lignes/50 Hz 525 lignes/50 Hz
64 µs
Instant de suppression comprenant
l’impulsion de synchronisation
ligne et la référence couleur

Partie utile de
la ligne contenant
le « signal vision »

Figure 5.4
Les paramètres du signal vidéo composite.

[Link]. La résolution de l’image vidéo


La résolution horizontale de l’image est directement liée à la lar-
geur de la bande passante utilisée pour transporter ou enregistrer
le signal vidéo. Elle est traditionnellement exprimée en « lignes
TV » (ou plus simplement en lignes), et fait référence au nombre
maximal de lignes verticales blanches et noires pouvant être dis-
tinctement perceptibles sur l’écran. Elle se calcule au moyen de
l’équation suivante, prenant en compte le ratio 4/3 de l’image :

résolution H = 2 × bande passante × durée ligne active


(lignes TV) 4/3

192

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Par exemple, la résolution horizontale en PAL/SECAM (bande


passante : 5,5 MHz) est de 430 lignes, tandis que celle du VHS
(bande passante : 3 MHz) n’est que de 240 lignes.
De manière générale, on retiendra qu’une bande passante de
1 MHz correspond à une résolution horizontale de 80 lignes.
La résolution verticale d’une image affichée avec un balayage
entrelacé est égale au nombre de lignes multiplié par le « facteur
de Kell », de valeur 0,7. Ce dernier indique le rapport entre la
résolution verticale mathématique (576 lignes théoriques) et
celle réellement obtenue. Ainsi, en 625/50, la résolution verti-
cale de l’image vidéo est de 403 lignes (576 × 0,7). Avec un
balayage progressif, le facteur de Kell est égal à 1 ; la résolution
verticale est directement égale au nombre de lignes visibles.
Nous allons à présent passer en revue les trois standards vidéo
composites utilisés selon les zones géographiques, qui sont, par
ordre de création, le NTSC (525 lignes par image, 60 trames par
seconde), le SECAM et le PAL (625 lignes par image, 50 trames
par seconde).

[Link]. Le NTSC
Lancé en 1953, le NTSC (National Television System Comittee) est
utilisé principalement par les États-Unis, le Canada, le Mexique et
le Japon. Tout comme le PAL mais contrairement au SECAM, le
NTSC transmet simultanément les deux composantes de couleurs
Dr et Db. Deux porteuses, de même fréquence mais décalées de
90° l’une par rapport à l’autre, sont modulées en amplitude par les
signaux de différence de couleurs, puis supprimées. Les signaux
résultants sont mélangés pour former un signal unique de chromi-
nance modulé en amplitude (saturation) et en phase (teinte). Ce
signal de chrominance est alors ajouté au signal de luminance.
Comme deux phases sont possibles en ligne, la périodicité du
signal NTSC est de quatre trames, alors que celle du signal en noir
et blanc n’est que de deux trames. Pionnier des systèmes de télé-
vision en couleurs et par conséquent tributaire de techniques peu
évoluées, le NTSC est sujet à un défaut majeur : la moindre dis-

193

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

torsion de phase – due aux circuits du récepteur, à l’antenne, à la


propagation, etc. – se traduit par des erreurs de teinte sur l’image.
Ainsi, les récepteurs NTSC sont pourvus d’un potentiomètre de
réglage de phase pour rattraper d’éventuels défauts. Il faut cepen-
dant savoir que les États-Unis vivent actuellement une période de
transition vers la diffusion numérique hertzienne standard et à
haute définition, au terme de laquelle le NTSC est appelé à dispa-
raître définitivement. Les 1600 diffuseurs américains se sont vu
prêter chacun par le gouvernement américain un second canal hert-
zien de 6 MHz, sur lequel ils sont tenus de diffuser un programme
numérique (parallèlement à leur canal NTSC), conformément à un
calendrier ayant démarré en 1998 et s’étalant jusqu’en décembre
2006. À l’issue de cette phase transitoire, tous les diffuseurs
devront définitivement cesser de diffuser en NTSC et restituer
leurs canaux au gouvernement qui les emploiera à d’autres fins.

[Link]. Le PAL
Lancé en 1963, le système de codage PAL (Phase Alternation
Line) apporte une variation au NTSC, d’apparence mineure, mais
qui en supprime la principale faiblesse. Le PAL utilise le même
type de modulation que le NTSC, mais avec la particularité d’in-
verser, à l’émission, la phase de la sous-porteuse relative au signal
de différence de couleurs Dr une ligne sur deux, tout en conservant
son amplitude (une salve de référence de la phase couleur est insé-
rée sur le palier de suppression ligne). Ainsi, si une rotation de
phase accidentelle survient sur une ligne donnée, une rotation de
signe opposé se produit sur la ligne suivante. L’œil faisant une syn-
thèse additive des couleurs, il restitue la bonne teinte, puisque les
deux déphasages s’annulent mutuellement (on admet que l’infor-
mation de couleur est quasiment identique sur deux lignes succes-
sives). L’alternance de phase sur la composante de différence de
couleurs Dr d’une ligne à l’autre engendre une périodicité de
quatre trames. Cependant, si l’on considère la fréquence de la
sous-porteuse choisie pour le PAL, le nombre de périodes par ligne
n’est pas un entier. Au total, la périodicité du signal PAL s’élève
en fait à huit trames. En montage, le fait de briser un bloc de quatre
images entraîne une saute de couleur provoquée par un déphasage
de la sous-porteuse, visible surtout lorsqu’il s’agit de plan sur plan.

194

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

[Link]. Le SECAM
Lancé en 1967, le SECAM repose sur la transmission en alter-
nance une ligne sur deux de chacun des deux signaux différence
de couleurs Dr et Db (solution par ailleurs récemment reprise par
la structure de codage [Link] de la diffusion numérique, du DVD
et du format DV). La résolution verticale de la chrominance est
ainsi réduite de moitié par rapport à celle de la luminance – ce
qui n’est pas le cas des systèmes PAL et NTSC. Rappelons que
la résolution horizontale de la chrominance est, de son côté, for-
tement diminuée en raison de la réduction de sa bande passante.
Les inventeurs du SECAM ont estimé superflu de transmettre
pour la chrominance une définition meilleure en vertical qu’en
horizontal. Un seul signal de différence de couleurs est donc
transmis par ligne en modulant en fréquence une sous-porteuse
(une sous-porteuse différente est attribuée à chaque signal de dif-
férence de couleurs). Cette alternance Dr, Db à la fréquence
ligne entraîne une périodicité de quatre trames. Cependant, l’in-
version de la phase de la sous-porteuse (une ligne sur trois, une
trame sur deux) choisie pour améliorer la compatibilité directe
porte cette périodicité à douze trames. À la réception, le circuit
de décodage traite, sur chaque ligne, le signal Dr ou Db transmis
directement, additionné du signal Db ou Dr de la ligne précé-
dente, conservé en mémoire et considéré comme encore valable
pour la ligne actuelle (des signaux d’identification couleur sont
transmis à chaque suppression trame et ligne). On s’est cepen-
dant assez vite rendu compte que si le SECAM offrait des avan-
tages appréciables pour la transmission (pas de risque d’inter-
modulation des signaux de chrominance qui ne sont jamais
présents simultanément, démodulation simple, etc.), il présentait
en contrepartie des inconvénients irréfutables dans le domaine
de la production. En effet, le mélange de deux sources SECAM
impose de démoduler systématiquement les signaux en compo-
santes Y, Dr, Db, afin de procéder à leur addition, puis de les
remoduler en sortie de traitement. C’est pourquoi même dans les
pays ayant adopté le SECAM comme norme de diffusion, ce der-
nier a souvent laissé la place au PAL en studio, qui permet le
mélange des sources sans démodulation (si elles sont bien en

195

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

phase). C’est ainsi que les standards se sont progressivement


divisés entre la production et la diffusion. L’Europe a été parta-
gée entre le PAL et le SECAM, les chaînes de télévision ayant
opté pour la diffusion en SECAM étant pour la plupart équipées
aussi de matériels PAL.
D’autre part, avec le développement des travaux de postproduc-
tion est né le désir de repousser les limites des standards compo-
sites, dont la principale faiblesse est la limitation de la bande
passante des signaux et l’imbrication de leurs spectres. Car si ce
défaut est toléré pour la diffusion, il constitue un sérieux handi-
cap pour les traitements complexes de l’image en régie. Au
début des années 1980, l’avenir des normes composites dans les
studios commence à s’assombrir.

5.1.2. Les systèmes en composantes


En 1983, Sony lance le format d’enregistrement Betacam et,
avec lui, le premier magnétoscope capable d’enregistrer séparé-
ment les composantes de luminance et de différence de couleurs
du signal vidéo. Le format Betacam crée une véritable révolution
dans le domaine de l’acquisition en reportage. Il donne naissance
aux premiers caméscopes monoblocs intégrant une caméra et un
magnétoscope, permettant ainsi la réalisation de reportages
vidéo dans d’excellentes conditions de mobilité.
La version améliorée du Betacam, le Betacam SP (1987),
connaît un succès énorme dans les studios de production et de
postproduction. L’enregistrement du signal vidéo en compo-
santes Betacam SP offre des caractéristiques techniques supé-
rieures au composite et est exempt des problèmes d’intermodu-
lation parasite entre les informations de luminance et de
chrominance. Les signaux en composantes analogiques font
alors l’objet d’une normalisation. Peu à peu, les autres équipe-
ments de studio (mélangeurs, générateurs d’effets, ...) se mettent
aux composantes analogiques, qui facilitent grandement les tru-
cages et les incrustations en chromakey. Les caractéristiques ori-
ginelles de l’image sont en effet conservées tout au long de ses
multiples traitements, le codage en composite étant repoussé au

196

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

plus près des équipements de diffusion. Cependant, le traitement


en composantes séparées, dont les avantages sont sans conteste,
reste malgré tout assez limité de par sa nature analogique. Il
n’autorise en effet que peu de traitements complexes au travers
d’un mélangeur, et pas plus de trois ou quatre copies successives,
au-delà desquelles l’image se dégrade. De plus, l’installation
d’une régie de production en composantes analogiques n’est pas
simple : il faut en effet tripler les chaînes de traitement vidéo au
niveau du mélange et tripler également les câbles de liaisons
entre équipements, grilles de commutation et distributeurs vidéo.
Toutes ces raisons ont conduit à la numérisation des compo-
santes vidéo et à leur codage sous la forme d’un unique signal :
le signal [Link].

R Y
6 6
V Dr Y
6 1,5 6
B Db C
6 1,5 1,5 6

Primaires R,V,B Composantes Y/C Composite


analogiques analogique
(Y, R-Y, B-Y)

Y
R

V +
MATRICAGE
R-Y R-Y
Modulation
B
B-Y B-Y sous-porteuse
fsc

Codage Numérique
[Link] [Link]

Figure 5.5
Les principaux formats du signal vidéo.

197

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Un système en composantes séparées traite, dans des canaux indépendants, les informations
de luminance et de différence de couleurs, supprimant ainsi tous les inconvénients liés au
mélange de ces signaux par les systèmes composites. Mais il nécessite de tripler le nombre de
câbles nécessaire à transporter un signal vidéo, ce qui alourdit son utilisation en studio.

5.2 Le signal vidéo numérique

5.2.1. La genèse de la vidéo numérique


De 1972 à 1982, le numérique est introduit progressivement dans
le domaine de la vidéo, donnant naissance à des équipements
n’ayant pas d’équivalent en analogique. Des unités de synchro-
nisation – correcteurs de base de temps, synchroniseurs, etc. – de
plus en plus évolués, des librairies d’images et des générateurs
d’effets font une percée croissante dans le monde broadcast.
Industriels et diffuseurs prennent alors conscience du colossal
enjeu qu’est en passe de représenter l’avènement de la télévision
numérique. Seulement, chaque constructeur propose sa propre
solution en matière de numérisation, ce qui fait régner sur le
marché une certaine anarchie, et oblige de repasser en analo-
gique dès qu’il s’agit d’interconnecter les appareils.
1982 est une année charnière dans l’histoire de la télévision.
Le CCIR (Comité Consultatif International de Radiodiffusion)
normalise en effet un format vidéo en composantes numériques
compatible à l’échelle mondiale. Cette normalisation se réalise
en fait en deux temps. La norme CCIR 601, communément
appelée [Link], spécifie les paramètres de codage des signaux
de télévision numériques pour une utilisation en studio : signaux
à numériser, échantillonnage et quantification. Elle sera
ensuite complétée par la norme CCIR 656, qui décrit, quant à
elle, les interfaces de liaison entre les différents équipements
numériques. Les constructeurs de tous les pays s’efforcent
dès lors de développer des équipements dont l’architecture
interne est conforme à cette recommandation 601 du CCIR
et dont les interfaces d’entrée/sortie répondent à la norme
CCIR 656.

198

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

À partir de 1986 sont commercialisés les premiers formats de


magnétoscopes numériques, concrétisant enfin le rêve de la mul-
tigénération sans perte. Les premières régies entièrement numé-
riques de production et de postproduction se développent dès
1987. L’utilisation du numérique fait exploser la créativité en
matière d’effets spéciaux, grâce aux étonnantes capacités des
générateurs d’effets et stations de travail graphiques, mais aussi
grâce aux possibilités de multigénération offertes par les magné-
toscopes numériques.
À partir de 1991, le numérique se généralise dans les nouveaux
centres de production, ainsi que dans les régies finales des
chaînes de télévision. La norme numérique [Link], qui s’accom-
mode aussi bien des ratios d’image 4/3 que 16/9, fera par la suite
l’objet de deux évolutions. La première permet une amélioration
de la qualité de l’image – passage de 8 à 10 bits de quantifica-
tion –, tandis que l’autre facilite la connectique en studio – séria-
lisation du signal – ; de tout cela il sera question plus loin dans
ce chapitre.
La norme [Link] est à l’origine d’équipements haut de gamme
dont l’excellente qualité satisfait les besoins des utilisateurs les
plus exigeants. Aujourd’hui, tout le matériel d’exploitation pré-
sent dans une régie existe sous forme numérique et compte déjà
plusieurs générations.

5.2.2. Signal analogique et signal


numérique : quelles différences ?
[Link]. Le signal analogique
Le signal analogique est celui qui représente le plus naturelle-
ment et le plus fidèlement les variations d’un phénomène phy-
sique. Ainsi, le microphone transforme en variations de tension
les variations de pression acoustique qu’il capte. La caméra four-
nit, quant à elle, un signal électrique issu de l’analyse séquen-
tielle des variations d’intensité lumineuse recueillies par l’objec-
tif. Dans ces deux cas, une grandeur physique est traduite en un
signal analogique dont l’amplitude instantanée porte l’informa-

199

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

tion. Une fois généré par les capteurs adéquats, le signal analo-
gique doit être traité avant d’être diffusé et/ou stocké. C’est là
que naissent tous les problèmes. Le signal analogique souffre
d’un inconvénient majeur : il est très fragile. Son enregistrement,
son traitement ou sa transmission lui font subir différents types
de dégradations, qui altèrent rapidement sa qualité. Ainsi, la
composante de bruit, qui vient inévitablement se superposer au
signal utile, est directement liée au nombre et à la qualité des
traitements appliqués. Elle est communément quantifiée par le
rapport entre l’amplitude maximale du signal d’origine et celle
du bruit qui lui est ajouté, appelé rapport signal sur bruit ou S/B
(en vidéo, il varie de 40 dB en VHS à plus de 60 dB pour les
caméras broadcast). Par ailleurs, la réponse amplitude/fréquence
des circuits de traitement n’est jamais parfaitement linéaire ; il
s’ensuit une distorsion du signal, donc une modification de l’in-
formation véhiculée. Tous ces phénomènes ne font que se multi-
plier lorsque sont cumulées des copies de bandes successives,
copies dont la qualité s’affaiblit très vite avec le nombre de géné-
rations.

Figure 5.6 Amplitude


Le rapport signal/bruit d’un
signal analogique s’exprime
en fonction du rapport de + V2 max
l’amplitude maximale du
signal d’origine sur celle du
bruit qui lui est superposé. V1 max

0 Temps

– V2 max Rapport signal sur bruit (en décibels) :


S/B = [Link] (V2 max/V1 max)

Le signal analogique est un signal dont la valeur varie avec le temps de manière continue. Il
est sujet à de la distorsion lors de son traitement et est souvent dégradé par une composante
de bruit venant s’ajouter à lui au cours de son enregistrement ou de sa diffusion.

200

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Le décibel
Le décibel (un dixième du Bel), de symbole dB, exprime, sur la base d’une échelle logarithmique, le
rapport entre deux puissances, ou deux grandeurs liées à une puissance. Les puissances acoustiques
que perçoit notre oreille, entre le seuil de l’audition (1 microwatt/m2) et celui de la douleur
(un mégawatt/m2) peuvent prendre des valeurs ayant un rapport de plus de 1012. Pour se simplifier la
vie et éviter de manipuler des nombres aussi astronomiques, les acousticiens ont eu l’idée de recourir
à cette écriture en « puissances de 10 », d’autant que la sensation auditive humaine croît avec le
logarithme de l’excitation. De là est né le décibel (plus commode à utiliser que le Bel) défini par
l’expression [Link] (P2/P1), P1 et P2 étant deux puissances. L’échelle des décibels est telle que si l’on
double la pression acoustique d’un son, on obtient un niveau sonore supérieur de 3dB.
La notation en décibel a par ailleurs été étendue aux rapports de tension électrique. Elle permet alors
d’exprimer le gain d’un amplificateur, les pertes de niveau d’une ligne de transmission, ou le rapport
signal sur bruit caractérisant la qualité d’un signal. Les rapports de tension en décibel s’expriment cette
fois par l’expression [Link] V2/V1 (l’équivalence en décibel d’un rapport en tension est le double de celui
en puissance). Un rapport de 2 en tension est représenté par une augmentation de + 6dB. Par exemple,
lorsque l’on dit d’un rapport signal sur bruit qu’il a augmenté de 6dB, cela signifie que le niveau du bruit
a été réduit de moitié.

[Link]. Le signal numérique


Le signal numérique n’a pas de nature physique. Il se présente sous
la forme d’un message composé d’une suite de symboles, et est
donc discontinu, le passage d’un symbole à un autre s’effectuant
par une transition brutale. Basé sur le langage binaire, le signal
numérique est constitué d’une suite de 0 et de 1, traduisant respec-
tivement un niveau bas et un niveau haut du signal électrique.
L’avantage fondamental du numérique réside dans le fait qu’il
autorise un nombre de traitements complexes très élevé sans que
soit affectée l’intégrité de l’information. Les dégradations causées
par les perturbations du support de transmission ou d’enregistre-
ment, telles que l’adjonction de bruit, la distorsion, etc., ne touchent
que les paramètres analogiques du signal numérique et n’altèrent
pas l’information, si elles restent dans certaines limites. En effet,
tant que les niveaux électriques hauts et bas correspondant aux
deux valeurs binaires se distinguent l’un de l’autre, le message
transporté demeure intact. De puissants systèmes de détection et de
correction d’erreurs ont en outre été développés pour optimiser la
transparence du traitement en transmission ou en enregistrement.
Par ailleurs, si le traitement d’un signal analogique s’effectue au
moyen de composants qui en modifient les variations, le traitement
d’un signal numérique se réalise par des calculs effectués à l’aide

201

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

de registres, additionneurs, et multiplicateurs, qui ne font que rem-


placer un message numérique par un autre. La numérisation du
signal confère une plus grande robustesse à l’information et sup-
prime les différents aléas et problèmes de non-linéarité inhérents
aux circuits analogiques. En assurant une totale reproductibilité du
signal après de multiples traitements et manipulations complexes,
le numérique ouvre la voie à un vaste champ d’applications.

Figure 5.7 Seuil de basculement entre


Les perturbations du support un niveau haut et un niveau bas
n’affectent pas l’information
portée par le signal Signal numérique bruité
numérique tant que les
1 0 1 0 0 1 0 1 1 0 1 0 0 1
niveaux haut (1) et bas (0)
Niveau haut = bit 1
sont correctement reconnus.
Niveau bas = bit 0
Erreur

1 0 1 0 1 1 0 1 1 0 1 0 0 1

Signal numérique débruité

Le signal numérique est un signal discontinu dans le temps. Il représente la valeur d’une gran-
deur physique à un instant donné. Le signal numérique est particulièrement stable. Il se prête
parfaitement aux traitements les plus complexes et aux copies cumulatives au travers desquels
l’information qu’il porte est totalement préservée.

Si les avantages du travail sur un signal numérique sont indé-


niables, il faut toutefois préciser que les phases de capture du phé-
nomène physique et de restitution sont et resteront analogiques.
Les capteurs photosensibles d’une caméra, comme les micro-
phones, génèreront toujours un signal analogique, et de l’autre
côté de la chaîne, il n’est pas aujourd’hui envisageable de se pas-
ser d’écrans, d’enceintes, ou d’écouteurs. Dans une chaîne vidéo,
le numérique intervient parfois au niveau de la création de l’image
(ordinateurs, palettes graphiques, générateurs de caractères, etc.),
et souvent au niveau du traitement ou du stockage d’un signal issu
d’un équipement analogique et converti le plus tôt possible. C’est
précisément cette étape de conversion qui s’est révélée comme
l’une des grandes difficultés techniques à surmonter. Des circuits

202

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

capables d’effectuer la conversion de l’analogique vers le numé-


rique existaient depuis longtemps, mais ils ne travaillaient pas à
des fréquences suffisamment élevées pour traiter le signal vidéo.

5.2.3. Principe de la conversion


analogique/numérique
On pourrait assimiler le processus de conversion analogique/
numérique au passage de la tradition orale à la tradition écrite. Il
nous est à tous arrivé d’écouter un discours ou un cours, et de
prendre des notes pour conserver une trace du message donné.
Cependant, il est difficile d’écouter et d’écrire en même temps,
surtout si le débit de l’orateur est élevé. C’est pourquoi il nous
faut échantillonner notre attention pour ne saisir et n’écrire en
fait que des morceaux de message. Cette notion d’échantillon-
nage est fondamentale : il faut maintenir un certain temps de
concentration pour capter un élément d’information avant de le
retranscrire, puis écouter à nouveau, et ainsi de suite. Souvent,
une notation par symboles courts et rapides à écrire – sténogra-
phie ou sténotypie – est indispensable pour optimiser la saisie de
l’information.
La première étape de la conversion analogique/numérique est
donc l’échantillonnage : l’amplitude du signal analogique est pré-
levée ponctuellement à des instants réguliers et suffisamment rap-
prochés. Les échantillons de tension ainsi récoltés décrivent la
forme du signal point par point. Il faut ensuite remplacer leur
valeur par un nombre entier de longueur fixe, codé en base 2 :
c’est la seconde étape de la numérisation du signal, appelée quan-
tification. Cette base 2 est très facile à manipuler à l’aide d’un
signal électrique à deux états, puisque un « 1 » peut correspondre
à une tension positive de 5 V, par exemple, et un « 0 », à une ten-
sion nulle. Chaque échantillon saisi est pesé – comme on pèse une
denrée alimentaire à l’aide de poids pour déterminer son prix –
afin que soit repéré, dans une table d’équivalence, le nombre
binaire qui lui est le plus proche. Imaginons une balance à deux
plateaux : sur un plateau, on place l’échantillon à peser et sur
l’autre, des poids de plus en plus petits pour tenter d’approcher

203

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

l’équilibre – sans l’obtenir réellement, sauf en cas de grande


chance. La précision de la pesée dépend donc de la valeur du plus
petit poids disponible. Le nombre binaire attribué à chaque
échantillon est en effet forcément arrondi à ce plus petit poids.
Cette approximation est source d’une erreur de quantification, ou
bruit de quantification. L’opération de quantification prend un
certain temps, dont dépendra au final la vitesse de conversion du
système. Cette notion de vitesse de conversion est importante ;
c’est par ailleurs le point qui a posé le plus de problèmes en
vidéo, le débit d’information étant extrêmement important
comparé à celui de l’audio, par exemple. Puis vient l’étape du
codage, au cours de laquelle le flux de données est mis en forme
en vue de son stockage ou de sa transmission. Par ailleurs, pour
conférer aux informations une bonne immunité face aux pertur-
bations amenées par le support d’enregistrement ou de transmis-
sion, il est nécessaire de leur adjoindre un certain nombre de don-
nées supplémentaires qui permettront, lors du décodage, de
détecter et corriger les erreurs introduites (décodage d’un 1 pour
un 0 et inversement). Ces données redondantes ajoutées aux don-
nées utiles ne font cependant qu’accroître la quantité déjà énorme
d’informations à débiter par unité de temps, donc la bande pas-
sante nécessaire à transporter le signal numérique.

Le langage numérique : les bits et les octets


Le bit (contraction de binary digit) est la plus petite unité d’un système numérique ; sa valeur est « 1 » ou
« 0 ». Un bit isolé peut représenter deux niveaux, ou états (on/off, blanc/noir,...), deux bits peuvent en
représenter quatre (par exemple deux niveaux de gris entre le blanc et le noir), et plus généralement n bits
peuvent en représenter 2n. Ainsi, le codage d’une image vidéo sur 8 bits permet de distinguer 256 niveaux
de gris, ou valeurs de couleurs, alors qu’un codage sur 10 bits permet d’en obtenir 1024. Un « mot » de 8
bits forme un octet (byte en anglais). Un mot peut cependant être composé de 10, 16, 24 ou 32 bits. Notons
que chaque bit supplémentaire double le nombre de valeurs discrètes qu’il est possible d’obtenir. Dans un
mot de n bits, le bit situé le plus à gauche est le plus significatif (MSB : Most Significant Bit), tandis que celui
situé le plus à droite est le bit le moins significatif (LSB = Least Significant Bit). Dans l’exemple ci-dessous
(« 10010111 » = 151) , le premier 1 (à gauche) est le bit le plus précieux car il représente à lui seul la valeur
128, tandis que le dernier 1 (à droite) ne représente que la valeur 1.
MSB LSB
1 0 0 1 0 1 1 1
× 128 × 64 × 32 × 16 ×8 ×4 ×2 ×1
128 + 0 + 0 + 16 + 0 + 4 + 2 + 1 = 151

204

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Figure 5.8 A
Les principales phases
de la conversion
analogique/numérique. Signal analogique
t

Échantillonnage
t

A
10 = 1010
9 = 1001
8 = 1000
7 = 0111
6 = 0110
Quantification 5 =
4 =
0101
0100
3 = 0011
2 = 0010
1 = 0001 t

1 0 1 0 1 1 0 1 1 0 1 0 0 1

Codage

Signal numérique

Voilà donc exposé en quelques lignes le principe de la conver-


sion analogique/numérique : échantillonnage, quantification,
codage et adjonction de codes de correction d’erreurs en sont les
étapes principales. Nous allons les détailler dans ce qui suit, en
nous limitant au cas spécifique du signal vidéo.

5.2.4. Les signaux vidéo à numériser


Pour supprimer les différents systèmes de couleurs liés aux
codages composites et favoriser l’échange international des pro-
grammes, il a été décidé de numériser des données communes à
tous les pays. C’est donc logiquement la numérisation des compo-
santes Y, Dr, Db qui a été retenue. Selon la convention adoptée, les
composantes de couleur Dr, Db numérisées deviennent Cr, Cb.

205

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

5.2.5. L’échantillonnage

Figure 5.9 Amplitude


La succession d’échantillons
d’amplitudes prélevés sur le
signal analogique à des
instants réguliers et 15
14 Signal
suffisamment rapprochés 13
permet de décrire ce signal 12 analogique
11
point par point. 10
9
8
7
6
5
4
3
2
1 Temps

Impulsions
d’échantillonnage

Valeurs
8 10 13 15 14 12 10 9 8 8 10 11 10 8 4 3 1 2 5
numériques

Figure 5.10 Échantillon prélevé


Principe de l’échantillonnage et maintenu constant Te = période d’échantillonnage
d’un signal. Un échantillon durant toute la période
d’échantillonnage Fe = fréquence d’échantillonnage
représente une amplitude
A Te = 1/Fe
instantanée discrète du
signal.

Te 2Te

[Link]. La loi de Shannon et Nyquist


Échantillonner un signal variant de façon continue consiste, nous
l’avons vu, à le découper en tranches temporelles et prélever

206

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

ponctuellement ses valeurs à des instants réguliers. On pourrait a


priori penser que la succession d’échantillons ainsi générée est
déficitaire en information par rapport au signal d’origine. En fait,
si l’on respecte un ensemble de conditions concernant la bande
passante du signal et l’espace maximal entre les échantillons, l’in-
formation portée par ces derniers sera une représentation inté-
grale du signal analogique. Tout doit être fait pour que le rythme
de découpe soit suffisamment rapide pour être à l’affût de la
variation la plus brève du signal d’origine. Car si la distance entre
deux échantillons est supérieure à la plus rapide des variations du
signal analogique, cette dernière passera inaperçue et sera défini-
tivement ignorée. Il faut bien comprendre qu’entre deux échan-
tillons, on ignore tout du signal d’origine. Autrement dit, pour
échantillonner un signal en préservant toute son information, il
est nécessaire de connaître au préalable la fréquence la plus éle-
vée à laquelle il est susceptible de varier. On admet que cette fré-
quence maximale est de 6 MHz pour la vidéo et 20 kHz pour l’au-
dio. Une loi mathématique, établie par Shannon et Nyquist,
permet de déterminer la fréquence d’échantillonnage minimale à
choisir pour ne pas manquer la plus petite (en termes de durée)
des informations à saisir : « Un signal dont le spectre est limité à
la fréquence Fmax est entièrement déterminé par la suite com-
plète de ses échantillons prélevés à des intervalles de temps régu-
liers de valeur T = 1[Link]. » Autrement dit, le signal échan-
tillonné sera la représentation exacte du signal original si la
fréquence d’échantillonnage Fe est au moins supérieure à deux
fois la fréquence maximale du signal : Fe  [Link]. Si ce critère
n’est pas vérifié, les composantes spectrales répétitives du signal
échantillonné ne sont pas assez espacées et se chevauchent,
comme l’illustre la figure 5.13. La zone d’interférence, appelée
zone de repliement ou d’aliasing, donne naissance à des fré-
quences aberrantes dans la bande utile. C’est pourquoi un filtre
passe-bas, dit anti-repliement, ou anti-aliasing, à pente très
abrupte, est impérativement requis en amont du processus de
conversion. Son rôle est de rejeter toutes les fréquences indési-
rables du signal d’entrée qui sont supérieures à la moitié de la
fréquence d’échantillonnage choisie. Il peut en effet exister dans
le signal électrique des composantes à variation très rapide

207

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

(bruit, parasites, etc.), dont le contenu fréquentiel est plus élevé


que la limite théorique. Ce filtre anti-aliasing doit être caractérisé
par un gain constant dans la bande utile et par un affaiblissement
rapide aux fréquences supérieures à la demi-fréquence d’échan-
tillonnage.

Figure 5.11
Si la fréquence Information
d’échantillonnage est trop Signal original perdue
faible, les variations rapides t t
du signal original ne sont pas
représentées par la suite
d’échantillons prélevés.

Reconstitution
après
échantillonnage t t

Fréquence d’échantillonnage Fréquence d’échantillonnage


trop faible correcte
(Fe < [Link]) (Fe  [Link])

Figure 5.12 A (dB) Luminance


Le filtrage anti-repliement a 0
pour rôle de supprimer, avant
l’échantillonnage, les – 12 f
fréquences du signal vidéo 5,5 6,75
Conversion
supérieures à la moitié de la Signal Signal
analogique/
fréquence d’échantillonnage. analogique Fe/2 numérique
A (dB) Chrominance numérique
0

– 12 f
2,75 3,375

Filtre passe-bas

Précisons par ailleurs que le temps de calcul de l’échantillon est


très faible, mais qu’il n’est pas nul. Il est donc indispensable que
l’amplitude de l’échantillon à mesurer soit maintenue constante
pendant le temps de conversion.

208

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Figure 5.13 A
Le spectre du signal
échantillonné est composé
d’une succession de Fmax = fréquence max du signal d’entrée
t
Fe = fréquence d’échantillonnage
translations du spectre 0 Te 2Te 3Te 4Te 5Te 6Te
original à des fréquences Forme du signal échantillonneur
multiples de la fréquence A A (impulsion)
d’échantillonnage (Fe, 2Fe,
3Fe...). Pour que les
répétitions spectrales soient
disjointes, il faut que f f
Fe  2Fmax. Le signal 0 Fmax Fe 2Fe 3Fe
initial peut alors être Spectre du signal original Spectre du signal échantillonneur
à échantillonner
reconstitué par un filtrage
passe-bas supprimant, sur le
signal échantillonné, toutes
Filtrage correct Chevauchement
les fréquences supérieures à impossible A de spectre
Fmax.

f
0 Fmax Fe 2Fe 3Fe

Spectre du signal échantillonné avec


Fe < 2Fmax
Filtrage correct
possible A

f
0 Fmax Fe 2Fe

Spectre du signal échantillonné avec


Fe  2Fmax

Le processus d’échantillonnage consiste à prélever ponctuellement et régulièrement des


mesures d’amplitudes du signal analogique. Conséquence de cette opération : le spectre du
signal est dupliqué autour des multiples de la fréquence d’échantillonnage. C’est pourquoi la
fréquence d’échantillonnage doit être au moins supérieure au double de la fréquence maxima-
le du signal à convertir, afin d’éviter tout chevauchement de spectre. Si cette condition est véri-
fiée, l’échantillonnage n’a alors aucun rôle perturbateur.

209

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. Les fréquences d’échantillonnage du signal vidéo


• La luminance
Les fréquences d’échantillonnage des composantes du signal
vidéo ont été choisies communes aux systèmes à 625 et
525 lignes, de manière à s’affranchir définitivement des pro-
blèmes d’incompatibilité entre les différentes zones géogra-
phiques du globe. L’information de luminance dispose d’une
bande passante de 6 MHz. Celle-ci est nominalement plate jus-
qu’à 5,5 MHz, avec un affaiblissement d’au moins 12 dB à
6,75 MHz. La fréquence d’échantillonnage du signal vidéo doit
donc, pour respecter le critère de Shannon-Nyquist, être au
moins égale à 12 MHz. La compatibilité à l’échelle mondiale
impose par ailleurs de choisir une valeur qui soit un multiple
commun des fréquences lignes des systèmes à 625 et 525 lignes,
soit respectivement 15 625 Hz et 15 734,25 Hz. Plusieurs essais
ont été effectués avec des fréquences allant de 12 MHz à
14,3 MHz. Les paramètres étudiés ont principalement été la qua-
lité de l’image avant et après traitement, le rapport qualité/coût,
la capacité potentielle des magnétoscopes numériques, ainsi que
la réduction du débit binaire. C’est ainsi qu’a été adoptée, comme
norme mondiale, une fréquence d’échantillonnage du signal de
luminance égale à :
Fe(Y) = 13,5 MHz.
Cette valeur est égale à 864 fois la fréquence ligne des systèmes
à 625 lignes et à 858 fois celle des systèmes à 525 lignes. Dans
les deux cas, une ligne active numérique renferme 720 échan-
tillons de luminance.

• La chrominance
Les signaux de différence de couleurs ont une bande passante
nominalement plate jusqu’à 2,75 MHz, avec un affaiblissement
d’au moins 12 dB à 3,375 MHz. Ils sont échantillonnés à une fré-
quence deux fois plus faible que le signal de luminance :
Fe (Cr) = Fe (Cb) = 6,75 MHz.
Cette valeur est égale à 432 fois la fréquence ligne des systèmes
à 625 lignes et à 429 fois celle des systèmes à 525 lignes.

210

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Sur une ligne, il y a donc deux fois moins d’échantillons de chro-


minance que de luminance, soit 360 par ligne active. Compte
tenu des filtres réalisables, les bandes passantes équivalentes
sont de 5,75 MHz pour Y et de 2,75 MHz pour Cr, Cb ; elles sont
plus élevées que celles fixées des standards analogiques compo-
sites et composantes (surtout en chrominance).

5.2.6. La norme [Link]


La norme de codage numérique destinée aux applications de stu-
dio a été baptisée « [Link] ». Ces nombres représentent le rapport
entre les fréquences d’échantillonnage du signal de luminance (le
« 4 ») et des deux signaux de différence de couleur (les « 2 »). Le
choix du « 4 » remonte à l’origine des travaux sur la numérisation
du signal vidéo, quand la première solution envisagée reposait sur
la numérisation du signal composite. La fréquence d’échantillon-
nage de la luminance avait été choisie égale à 4 fois la fréquence
de la sous-porteuse du signal PAL ou NTSC, soit respectivement
17,7 MHz ou 14,3 MHz. Lorsque cette solution a été abandonnée
en faveur d’un standard en composantes unique à l’échelle mon-
diale, le chiffre « 4 » a été conservé, bien que n’ayant plus de véri-
table signification. Selon la convention adoptée, ce chiffre repré-
sente la fréquence d’échantillonnage de la luminance, soit
13,5 MHz. Les chiffres suivants indiquent, quant à eux, la frac-
tion de cette fréquence qui est attribuée aux signaux de différence
de couleur, soit ici la moitié : 6,75 MHz (on peut dire que le « 1 »
présente la fréquence unitaire de 3,75 MHz).
Cependant, on s’est assez rapidement rendu compte qu’il était
peu probable que l’ensemble des applications actuelles et futures
de la télévision s’accomodent d’un seul niveau de codage numé-
rique, à savoir le [Link]. C’est pourquoi d’autres paramètres de
codage ont été également définis, formant des normes « légères »
d’une part, et des normes « haute qualité » d’autre part. Notons
que les modifications apportées ne concernent que le traitement
de la chrominance, la luminance restant intacte. Les normes
légères sont caractérisées par un sous-échantillonnage des com-
posantes de couleurs en horizontal ([Link]) ou en vertical ([Link]).

211

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Elles sont aujourd’hui largement employées dans le domaine de


la diffusion et de l’enregistrement numérique. Les normes haute
qualité accordent au contraire à ces signaux de couleurs une
bande passante aussi élevée que celle du signal de luminance
([Link]), et peuvent également inclure un signal de découpe, alors
représenté par un quatrième chiffre ([Link], [Link]). Elles sont
utilisées dans certains équipements de postproduction haut de
gamme effectuant des traitements complexes, comme des incrus-
tations en chromakey ou des corrections colorimétriques pré-
cises.

La plus faible sensibilité de l’œil humain à la couleur qu’à la luminosité autorise de prélever
deux fois moins d’échantillons de chrominance que d’échantillons de luminance. Dans la
norme définie pour les applications de studio, le rapport entre les fréquences d’échantillonna-
ge de Y, R-Y, B-Y est égal à celui des nombres [Link].
La bande passante du signal de luminance est de 5,75 MHz ; celle des signaux de différence
de couleur est de 2,75 MHz.

Le [Link] et ses déclinaisons


[Link] La luminance est échantillonnée à 13,5 MHz, les composantes de couleurs sont échantillonnées
à 6,75 MHz. Le [Link] est le niveau de codage principal de studio, utilisé dans l’ensemble des
équipements numériques, ainsi que par les formats d’enregistrement haut de gamme.

[Link] C’est un codage [Link] incluant un signal de découpe échantillonné à 13,5 MHz.

[Link] La luminance est échantillonnée à 13,5 MHz, les composantes de couleurs sont échantillonnées
à une fréquence quatre fois plus faible, soit 3,375 MHz. Le [Link] est notamment utilisé par le
format d’enregistrement DVCPRO25.

[Link] La luminance est échantillonné à 13,5 MHz, les composantes de couleurs sont échantillonnées à
6,75 MHz, mais alternativement une ligne sur deux. Le [Link] est utilisé par les systèmes de
diffusion numérique, le DVD, ainsi que par le DV et le DVCAM (en 625/50).

[Link] La luminance et les composantes de couleurs sont échantillonnées à la même fréquence de


13,5 MHz, sur toutes les lignes. Le [Link] notamment est utilisé par les stations informatiques de
retouche et de compositing.

[Link] C’est un codage [Link] incluant un signal de découpe échantillonné à 13,5 MHz.

212

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Figure 5.14 [Link] [Link] [Link] [Link]


Sous-échantillonnage de la
chrominance.
« 4 » = 13,5 MHz
« 2 » = 6,75 MHz Réduction de la Réduction de la Même résolution
résolution horizontale résolution verticale en chrominance
« 1 » = 3,375 MHz en chrominance en chrominance qu’en luminance

Échantillon de luminance
Échantillon de chrominance

5.2.7. Choix de la structure


d’échantillonnage
On appelle structure d’échantillonnage la répartition des échan-
tillons dans le temps et l’espace. Rappelons qu’avec l’apparition
de la couleur, le signal vidéo a perdu la périodicité de 2 trames
qu’il avait en noir et blanc (4 trames en NTSC, 4 ou 8 trames en
PAL, 4 ou 12 trames en SECAM). Pour le numérique, on a sou-
haité éliminer ce problème de gestion des cycles et revenir à une
périodicité de 2 trames pour la structure d’échantillonnage, ce
qui sous-entend que les images soient de structure identique.
Trois types de structures ont alors été envisagées : orthogonale,
quinconce ligne et quinconce trame.
– Dans la structure orthogonale, la phase horloge de l’échan-
tillonnage est identique pour chaque ligne et chaque trame. Les
échantillons sont situés aux mêmes emplacements d’une ligne
à l’autre et d’une trame à l’autre.
– Dans la structure quinconce ligne, la phase horloge de l’échan-
tillonnage est décalée d’une demi-période à chaque ligne. Les
échantillons sont décalés en quinconce d’une ligne à l’autre.
La périodicité de 2 trames est maintenue grâce à un déphasage
à la fréquence image.
– Dans la structure quinconce trame, chaque trame est orthogo-
nale, mais la phase horloge de l’échantillonnage est décalée
d’une demi-période à chaque trame. Les échantillons sont ali-
gnés d’une ligne par rapport à l’autre sur une trame, mais ils
sont décalés en quinconce entre deux trames.

213

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 5.15
Les différentes structures
d’échantillonnage fixes
possibles (périodicité 2
trames).
Orthogonale Quinconce ligne Quinconce trame
Trame paire Trame impaire

Échantillons Échantillons
de rang de rang
impair impair
Échantillons Échantillons
de rang de rang
pair pair

Y Y Y Y
Y Y Y Trame 1
Cr Cb Cr Cb Cr Cb Cr Cb

Y Y Y Y
Y Y Y Trame 2
Cr Cb Cr Cb Cr Cb Cr Cb

Y Y Y Y
Y Y Y Trame 1
Cr Cb Cr Cb Cr Cb Cr Cb

Y Y Y Y
Y Y Y Trame 2
Cr Cb Cr Cb Cr Cb Cr Cb

Figure 5.16
La structure orthogonale. Sur une image [Link], les échantillons de différence de couleurs Cr et Cb coïncident avec les
emplacements impairs des échantillons de luminance sur chaque ligne.

À la suite de nombreux essais subjectifs, c’est finalement la


structure orthogonale (au demeurant la plus simple des trois) qui
a été choisie (fig. 5.16). Nous retiendrons qu’elle se répète iden-
tique à elle-même à chaque ligne, chaque trame et chaque image.
Dans la norme [Link], les échantillons de différence de couleurs
Cr et Cb coïncident avec les emplacements impairs des échan-
tillons de luminance Y sur chaque ligne ; les emplacements pairs
ne sont occupés que par les échantillons de luminance.

214

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

5.2.8. La quantification
[Link]. Principe de base
La quantification est, après l’échantillonnage, la deuxième
grande étape du processus de conversion analogique/numérique.
Elle a pour but de faire correspondre à chaque amplitude discrète
mesurée un nombre entier exprimé en base 2, dans laquelle n
chiffres permettent de coder N = 2n valeurs distinctes. Au cours
de cette étape de quantification, le signal analogique, qui peut
prendre une infinité de valeurs, est converti en un signal consti-
tué d’un nombre fini (N) de valeurs numériques codées sur n
bits. On comprend alors que des erreurs d’arrondi par défaut ou
par excès se produiront inévitablement. Car à plusieurs valeurs
proches, mais cependant différentes, du signal analogique, cor-
respondra une seule et même valeur numérique binaire. La pré-
cision du signal converti sera donc directement liée au nombre
de valeurs disponibles pour coder les échantillons.

Figure 5.17 Valeurs numériques


Principe de la quantification binaires (sortie)
avec 3 bits – cas peu réaliste.
Toutes les amplitudes 111
analogiques inscrites à
l’intérieur d’un échelon sont 110
converties en une seule et
101
même valeur numérique,
celle du centre de l’échelon.
100

011

010

001 Échelons d’amplitudes


analogiques (entrée)

q 2q 3q 4q 5q 6q 7q

La figure 5.17 permet de bien comprendre cette phase de quan-


tification et l’erreur qu’elle apporte. En fonction de la plage
d’amplitudes à quantifier, on définit une échelle constituée d’un
nombre fini d’intervalles « q » appelés « pas de quantification »
ou « échelons de quantification », ou encore « quantums ».

215

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

À chaque échelon q, 2q, 3q, ... est associée une valeur numé-
rique. À un instant t, l’amplitude du signal se trouvant à l’inté-
rieur d’un échelon est remplacée par la valeur de cet échelon ; la
valeur exacte de l’amplitude n’est pas prise en considération.
Il est évident que plus les échelons sont petits, plus ils sont
nombreux sur une plage donnée, et plus la précision du signal
quantifié est grande.
Quoi qu’il en soit, l’erreur de quantification est toujours infé-
rieure au quantum q, qui est en fait la plus petite valeur mesu-
rable par le convertisseur ; pour reprendre l’analogie avec la
pesée au moyen d’une balance, q représente le plus petit poids
disponible. Elle représente une erreur de 1 unité sur le nombre
total de quantums. Ainsi, un système travaillant sur 3 bits est
caractérisé par une erreur maximale de 1/8, soit un taux de
12,5 % ; un système à 8 bits donne une erreur maximale de
1/256, soit 0,39 % ; tandis que le taux d’erreur d’un système à
10 bits est de 0,09 % (1/1 024). De manière générale, plus le
nombre de bits utilisé pour la quantification est élevé, plus la
précision du système de conversion est grande, mais plus le
temps de traitement est long. L’expression mathématique du
quantum en fonction de l’amplitude maximale du signal d’entrée
(Vmax – Vmin) et du nombre de bits de quantification n est la
suivante :
Vmax – Vmin
q=
2n
En pratique, il a été décidé que le signal de sortie change de
valeur quand le signal d’entrée passe par l’une des valeurs
(2n + 1).q/2, ce qui limite l’erreur à ± q/2. La succession d’er-
reurs de quantification se traduit par la création d’un signal aléa-
toire, dont l’amplitude maximale est un demi-pas de quantifica-
tion – il varie entre ± q/2. Ce signal, appelé bruit de quantification,
se superpose au signal utile. Plus le nombre de bits est élevé, plus
le bruit de quantification est faible, donc plus le rapport signal
sur bruit est élevé. En télévision, le rapport S/B d’un signal
numérique est approché par la relation :
S/B (dB) = 6 N + 10 (N = nombre de bits)

216

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

On retiendra que chaque bit supplémentaire améliore le rapport


S/B de 6 dB.

Figure 5.18 Amplitudes


La courbe représentant le Signal analogique
analogiques original
signal quantifié a l’allure de
marches d’escaliers. 7q
La succession des erreurs
engendre un signal appelé 6q
bruit de quantification.
5q

4q
Signal analogique
3q quantifié

2q

Bruit de
quantification

+ q/2
t
0
– q/2

Au cours de l’étape de quantification, l’amplitude de chaque échantillon analogique prélevé


sur le signal d’origine est convertie en un nombre binaire. Un nombre infini d’informations est
donc remplacé par un nombre limité de valeurs disponibles. La précision de la quantification
dépend de ce nombre de valeurs disponibles, c’est-à-dire du nombre de bits utilisés pour le
codage des valeurs numériques : n bits donnent 2n valeurs possibles.

[Link]. La quantification du signal vidéo


À l’origine, la norme [Link] spécifiait une quantification sur 8 bits
des composantes du signal vidéo. Une quantification sur 8 bits
permet de disposer de 256 niveaux numériques, dont 220 utiles
pour représenter les niveaux sur une échelle de gris – avec une
marge de réserve en dessous du noir et au-dessus du blanc. Or, si
ce nombre de niveaux convenait pour la diffusion et le reportage,

217

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

il s’est vite avéré insuffisant pour les applications de production


et de postproduction haut de gamme. En outre, un codage sur
8 bits donne un rapport S/B de 58 dB, alors que les performances
des caméras ont été améliorées pour atteindre un rapport S/B
supérieur à 60 dB. La norme [Link] a donc logiquement évolué en
étendant de 8 à 10 le nombre de bits par échantillon. Une quanti-
fication sur 10 bits permet d’accroître dans un facteur 4 la préci-
sion de la numérisation, pour une augmentation du volume d’in-
formation de seulement 25 %. On dispose alors de 1 024 niveaux,
dont 880 utiles pour traduire toutes les valeurs que peut prendre
le signal vidéo analogique entre 0 et 0,7 V. La plupart des conver-
tisseurs analogique/numérique, ainsi que les sources d’images
numériques travaillent aujourd’hui sur 10 bits. Le signal de lumi-
nance est toujours positif, alors que les signaux de différence de
couleurs sont bipolaires, comme le montre la figure 5.19. Avec
10 bits, le rapport signal sur bruit passe à 70 dB.

Luminance
Y
Blanc
Différence de couleurs
8 bits : 220 niveaux Cr, Cb
10 bits : 880 niveaux Crête positive

Noir 0 8 bits : 225 niveaux


0
10 bits : 900 niveaux

Crête négative

Figure 5.19
Quantification sur le signal de luminance et sur les signaux de différence de couleurs.

5.2.9. La correction d’erreurs


Si toute la chaîne de traitement vidéo fonctionnait idéalement
sans aucune perturbation, les signaux numériques pourraient être
enregistrés, traités et transmis tels quels, avec une totale fidélité.

218

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Dans la pratique, il faut cependant tenir compte du comporte-


ment des supports d’enregistrement et des voies de transmission,
qui présentent parfois des défaillances. Des erreurs peuvent alors
être introduites dans le flux de données numériques et modifier
le contenu du message.
Sur un magnétoscope, les principales sources d’erreurs sont les
irrégularités du mécanisme d’entraînement (gigue, ou jitter en
anglais), les fluctuations du niveau du signal, mais aussi la pous-
sière, un défaut d’enduit magnétique, un léger froissement de la
bande, etc.
En transmission, les dégradations pouvant affecter le signal sont
essentiellement dues au bruit et aux distorsions : écho, éva-
nouissement, diaphonie, intermodulation parasite, etc.
Une erreur en numérique, c’est soit une inversion de valeur
binaire dans un mot, soit une absence fugitive de données. Une
erreur est d’autant plus génante qu’elle affecte les bits de poids
fort, c’est-à-dire les plus significatifs.
Il existe aujourd’hui des systèmes de correction très perfor-
mants, capables de détecter et de corriger un grand nombre d’er-
reurs. Le problème est en fait de repérer quand un « 1 » a pris la
place d’un « 0 », et vice versa, parce qu’une fois le bit faux
détecté, sa correction est immédiate. Pour permettre un contrôle
de la validité des informations transmises, des données supplé-
mentaires sont ajoutées aux données utiles lors du codage,
répondant à une loi connue du codeur et du décodeur. Au cours
du décodage, à chaque fois que cette loi n’est pas vérifiée, un
processus de détection, puis de correction des bits erronés est
déclenché.
La figure 5.20 donne un exemple extrêmement simplifié de cor-
rection d’erreurs, basé sur la loi de parité. Dans la réalité, les
choses sont évidemment beaucoup plus complexes.

219

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

0 1 1

1 1 0 Données originales

0 0 1

code d'erreur vertical

Codage : ajout d'un code de correction d’erreur


0 1 1 0 Un bit supplémentaire, appelé bit de parité, est ajouté à la fin de chaque
ligne et de chaque colonne du tableau de données. Ce bit prend une
1 1 0 0 valeur qui rend pair le nombre total de « 1 » présent dans la ligne ou la colonne
qu’il complète. Par exemple, sur la ligne (a), un « 1 » est ajouté pour que
0 0 1 1 (a)
la somme des chiffres sur cette ligne soit égale à 2.
1 0 0 code d'erreur horizontal

Décodage : vérification de la loi de parité et


0 1 1 0
détection des erreurs éventuelles
1 1 0 0 Le nombre de « 1 » sur chaque ligne et sur chaque colonne est compté
0 1 1 1 (a) afin de vérifier la loi de parité établie lors du codage. Si, par exemple,
sur une ligne, un nombre impair de « 1 » est trouvé, une recherche par
1 0 0 colonne permet d’identifier le bit erroné. Dans l’exemple ci-contre, on
compte un nombre impair de « 1 » sur la ligne (a) ainsi que sur la
(b)
colonne (b). La valeur du bit se trouvant à leur intersection est erronée.

0 1 1 Correction de l’erreur
Le bit erroné est remplacé par sa valeur correcte.
1 1 0
0 0 1

Figure 5.20
Principe de correction d’erreur par adjonction d’un code de parité.

[Link]. L’entrelacement des données


La plupart des erreurs qui perturbent un signal numérique affec-
tent généralement plusieurs dizaines de bits consécutifs. C’est
pourquoi a été inventé le principe du brassage, ou entrelacement,
des données. Celui-ci consiste à éloigner les unes des autres les
informations à l’origine consécutives, dans le but de briser et dis-
perser tout paquet d’erreurs. Ce brassage est pseudo-aléatoire, sa

220

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

formule étant connue par le codeur comme par le décodeur


(chargé, lui, de tout remettre en ordre). À la lecture ou à la récep-
tion du signal, le désentrelacement a pour effet de répartir les
petites erreurs spatialement sur l’image. Ces erreurs isolées sont
plus facilement détectables et corrigibles, en tous cas beaucoup
moins perceptibles, voire pas du tout.

[Link]. La dissimulation
Il faut bien comprendre qu’un système de correction d’erreurs ne
se contente pas d’effectuer une approximation de la valeur erronée,
mais qu’il restitue intégralement la donnée d’origine. Cependant,
quand les capacités de correction sont insuffisantes, on fait appel à
un processus de dissimulation. On distingue plusieurs degrés de
dissimulation d’erreurs détectées mais non corrigées. Parmi elles,
la duplication de données adjacentes – qui donne un résultat assez
médiocre en vidéo – et le calcul de la valeur moyenne entre échan-
tillons proches : c’est le meilleur compromis en vidéo.

Avant la transmission ou l’enregistrement d’un signal numérique, on prévient tout risque d’er-
reurs d’une part en brassant les données, et d’autre part en leur ajoutant des données de
contrôle. Ces dernières sont utilisées par le décodeur pour vérifier la validité des données
reçues et, le cas échéant, détecter et corriger – ou du moins dissimuler – les erreurs.

5.2.10. Le codage de canal


Le codage de canal a pour but de moduler le flux de données
numériques pour l’adapter aux caractéristiques du canal de trans-
port ou d’enregistrement. Par exemple, les longues suites de 1 ou
de 0 du message numérique créent des composantes continues,
impossibles à relire une fois enregistrées. Il faut donc les rompre
par un codage particulier, dont l’unique but est de modifier la
forme du signal, sans bien sûr toucher à son contenu. Il existe
plusieurs codes, chacun ayant ses avantages et ses inconvénients
qui les rendent plus appropriés à tel ou tel type d’application :
réduction de la composante continue, mais aussi recouvrement
de l’horloge, distribution spectrale, etc. Quelques-uns d’entre
eux sont décrits ci-après et représentés sur la figure 5.21 (p. 220).

221

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. NRZ (Non Retour à Zéro)


C’est le plus simple de tous. Une donnée binaire « 1 » engendre
un niveau haut du signal et une donnée binaire « 0 » un niveau
bas. Ce code est caractérisé par une importante composante
continue, ainsi que par une absence du signal d’horloge, qu’il
faut donc régénérer à la réception.

[Link]. S-NRZ (Scrambled NRZ = NRZ embrouillé)


Il s’agit d’une variante du code NRZ dans laquelle le signal est
mélangé – somme modulo 2 – avec une séquence binaire
pseudo-aléatoire. Cela a pour effet d’une part de générer des
transitions fréquentes en brisant les longues suites de symboles
identiques, et d’autre part de réduire la valeur de la composante
continue, ce qui est essentiel pour le transformateur du tambour
de têtes d’un magnétoscope.

[Link]. NRZI (Non Retour à Zéro Inversé)


Un « 1 » détermine une transition au milieu de la demi-période
d’horloge, un « 0 » n’a aucun effet. Ce code, qui présente l’avan-
tage d’être insensible aux inversions de polarité, est caractérisé
par une faible composante continue. Il est notamment utilisé
dans les liaisons série [Link].

[Link]. Biphase Mark


Un « 0 » provoque une transition et un maintien du niveau pen-
dant toute la période d’horloge, tandis qu’un « 1 » entraîne une
transition et un changement de niveau à la moitié de la demi-
période d’horloge. Ce code présente une composante continue
nulle et contient tous les fronts d’horloge – il est dit auto-
synchroniseur. Il est employé par le code temporel longitudinal
LTC des magnétoscopes.

[Link]. Miller, ou MFM (Modified Frequency Modulation)


Un « 1 » donne une transition au milieu de la demi-période d’hor-
loge, un « 0 » isolé ne donne aucune transition, mais une transition
se produit entre deux « 0 » consécutifs. Ce code, inventé par

222

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

A. Miller, de la société Ampex, peut comporter une composante


continue. Quant à l’horloge, elle est facilement extractible, le
signal présentant au moins une transition tous les deux bits.

[Link]. Miller carré (Miller2)


Il possède les mêmes caractéristiques que le code MFM, aux-
quelles s’ajoute la règle suivante : la dernière transition d’une
suite paire de « 1 » est omise. Ce code, qui présente une compo-
sante continue très faible, est utilisé dans certains magnéto-
scopes numériques.

Figure 5.21
Horloge
Les principaux codages de
canal.
Données 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0

NRZ

NRZI

Biphase Mark

MFM (Miller)

Miller2

Il existe d’autres codes plus complexes et plus puissants, parmi


lesquels on peut citer le très sophistiqué code 8/14 (Eight to
Fourteen Modulation ou EFM), utilisé par le Compact Disc et
par certains magnétoscopes. Son principe repose sur la conver-
sion des mots de 8 bits de données en mots de 14 bits – dont 3
de redondance –, dans le but de réduire la composante continue
ainsi que la gamme de fréquences en haut et en bas du spectre.

223

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Le codage de canal a pour but de structurer le flux numérique, afin de lui conférer des proprié-
tés spectrales optimisées pour son enregistrement ou sa transmission.

5.2.11. La ligne vidéo numérique


Les lignes actives analogiques des systèmes à 625 et 525 lignes
sont de durées légèrement différentes.
La ligne active numérique doit logiquement contenir un nombre
suffisant d’échantillons pour couvrir la plus longue des deux,
c’est-à-dire celle des systèmes à 525/60 lignes, qui en requiert
710. Il a finalement été choisi 720 échantillons pour le signal de
luminance et 360 échantillons pour chaque signal de différence
de couleurs. Une ligne active numérique renferme donc un total
de 1 440 échantillons. La référence des temps pour l’opération
de conversion analogique-numérique est donnée par le front
avant des impulsions de synchronisation ligne à mi-amplitude ;
c’est donc à cet instant qu’apparaît le premier échantillon.

Suppression
analogique 24 mots

264 mots

Ligne active
numérique: 1440 mots

Référence
temporelle Mot zéro Référence
temporelle

Suppression
numérique
Cb Y Cr Y
Données vidéo multiplexées

Figure 5.22
Relation temporelle entre la ligne vidéo analogique et la ligne vidéo numérique.

224

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

5.2.12. La trame vidéo numérique


Signal de synchronisation Suppression de trame analogique (25 lignes + suppression de ligne)
analogique (TRAME 1)
Première trame analogique
T
R
A 622 623 624 625 1 2 3 4 5 16 17 18 19 20 21 22 23

M Suppression de trame numérique


Suppression de
Train de données ligne numérique
E numériques
(première trame - 24 lignes)

1
Données vidéo Première trame numérique Données vidéo
numériques numériques

Signal de synchronisation
Suppression de trame analogique (25 lignes + suppression de ligne)
analogique (TRAME 2)
Deuxième trame analogique
T
R
A 310 311 312 313 314 315 316 317 318 329 330 331 332 333 334 335 336

M Suppression de trame numérique Suppression de


Train de données
E numériques
(deuxième trame - 25 lignes) ligne numérique

2
Données vidéo Données vidéo
Deuxième trame numérique
numériques numériques

Figure 5.23
Relations entre les trames analogiques et les trames numériques.

La figure 5.23 montre les relations entre les trames numériques


et les trames analogiques, ainsi que la position de l’intervalle de
suppression de trame numérique pour les systèmes à 625 lignes.
Pour éviter d’avoir à créer des demi-lignes numériques, les

225

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

débuts et fins de suppression trame coincident avec les débuts et


fins de suppression ligne. En 625/50, chaque trame active ren-
ferme ainsi un nombre entier de lignes complètes, et une image
est constituée de 576 lignes utiles. La suppression trame numé-
rique s’étend sur 24 lignes dans la première trame et sur
25 lignes dans la deuxième trame. Trois lignes de suppression
sur chaque trame sont réservées au transport de données auxi-
liaires, qui bénéficient ainsi d’un débit de 1,7 Mbits/s.

Tableau 5.1.
Les principaux paramètres de la norme [Link].

625/50 525/60
Signaux à coder Y, (R-Y), (B-Y)
corrigés en gamma
Fréquences d’échantillonnage
Luminance 13,5 MHz
Différence de couleurs 6,75 MHz
Bandes passantes équivalentes
Luminance 5,75 MHz
Différence de couleurs 2,75 MHz
Nombre d’échantillons par ligne complète
Luminance 864 858
Différence de couleurs 432 429
Nombre d’échantillons utiles par ligne
Luminance Y 720
Différence de couleurs 360
Structure d’échantillonnage Orthogonale. Les échantillons
de chrominance coïncident
avec les échantillons
impairs de luminance
Quantification (8 bits) 256 niveaux dont :
220 utiles pour Y, 225 pour Cr, Cb
Quantification (10 bits) 1 024 niveaux dont :
880 utiles pour Y, 900 pour Cr, Cb

Tableau 5.2.
Les débits du signal vidéo.

Signal utile Signal complet


720 × 576 864 × 625
8 bits 10 bits 8 bits 10 bits
Signal [Link] 166 Mbits/s 207 Mbits/s 216 Mbits/s 270 Mbits/s
Signal [Link] ou [Link] 124 Mbits/s 162 Mbits/s

226

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

5.2.13. Les interfaces numériques parallèle


et série
On désigne par le terme interface l’ensemble des paramètres
relatifs à l’interconnexion entre deux équipements ; ces para-
mètres concernent le type, le nombre et la fonction des circuits
de liaison, ainsi que la forme des signaux échangés. Le signal
numérique [Link] peut être transporté par une interface parallèle
ou une interface série.
Dans une interface parallèle, tous les 8 ou 10 bits d’un mot de don-
nées sont transportés simultanément sur des supports distincts ;
c’est le mode de transmission le plus naturel. Une liaison parallèle
véhicule en même temps 8 ou 10 trains numériques composés des
mots binaires Cb, Y, Cr, Y, Cb, Y, Cr, etc., et rythmés à la même
fréquence d’horloge de 27 MHz (13,5 + 6,75 + 6,75). Ces trains
de bits sont transmis sur des paires symétriques (avec deux fils par
donnée), selon une polarité définie. L’architecture interne de la
plupart des équipements numériques fonctionne sous une forme
parallèle qui se contente de circuits relativement lents et simples,
donc bon marché. Cependant, lorsque le signal doit circuler entre
différents équipements, l’utilisation d’une liaison parallèle pré-
sente plusieurs inconvénients. Le câble à multi-conducteur requis
est onéreux et peu maniable ; le connecteur normalisé de type 25
broches est loin d’être idéal pour la réalisation d’un panneau de
brassage ou d’une grille de commutation. De plus, la longueur
maximale du câble ne peut excéder quelques dizaines de mètres
– au-delà, les temps de propagation des signaux peuvent varier –,
ce qui peut rendre très lourde la connectique d’un studio.
Dans une interface série, tous les 8 ou 10 bits d’un mot de données
et tous les mots successifs sont transmis les uns à la suite des
autres sur un seul et unique support. La sérialisation du signal
numérique [Link] présente ainsi l’avantage considérable de per-
mettre son transport sur un seul câble coaxial traditionnel (le
même que celui utilisé dans les installations analogiques) pouvant
atteindre 300 m de long. Le problème de la distribution des
signaux et du raccordement des équipements dans le studio est
ainsi résolu, puisqu’il devient presque aussi simple qu’en compo-
site, avec un câble par source. L’électronique de l’interface série

227

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

est cependant plus complexe que celle de l’interface parallèle, tant


au niveau de l’émetteur (sérialisation) qu’à celui du récepteur
(désérialisation). Sony a développé un circuit intégré assurant
toutes les fonctions nécessaires à la conversion d’un signal paral-
lèle (8 ou 10 bits) en un signal numérique série à 270 Mbits/s. Ce
circuit permet de transmettre sur un câble unique le signal vidéo
numérique composantes [Link] (525 ou 625 lignes), avec quatre
pistes audio numériques dites embeded et un code temporel insé-
rés durant les intervalles de suppression. En bout de chaîne, un
autre circuit effectue les opérations inverses pour redonner au
signal sa forme parallèle. L’interface numérique série aura été un
élément clé dans le succès rencontré par le numérique. Elle est
normalisée sous l’appellation Serial Digital Interface (SDI).
Cependant, le débit total du signal délivré est beaucoup trop élevé
pour être transmis par les réseaux de diffusion traditionnels.
Seules sont donc concernées ici les applications de production et
de postproduction broadcast. Pour le reste, il faut faire appel aux
techniques de réduction de débit décrites dans le chapitre 6.
Figure 5.24 Liaison parallèle
Liaisons parallèle et série
10 bits entre deux équipe-
ments. Le sérialiseur et le
désérialiseur
sont des circuits intégrés. Équipement Équipement
1 2

Données : 10 paires -> 20 fils


Horloge 27 MHz : 1 paire -> 2 fils

Liaison série

Équipement Équipement
Sérialiseur Désérialiseur
1 2

Un seul câble de type coaxial

228

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Le transport d’un signal numérique 10 bits en parallèle nécessite 10 paires symétriques à


27 Mbits/s, additionnées d’une paire pour l’horloge.
Si ce signal est mis sous forme série, un simple câble coaxial permet de le véhiculer, avec un
débit élevé à 270 Mbits/s.

[Link]. Sérialisation du signal [Link]


Comme un unique support est utilisé pour transporter sous forme
série tous les bits du signal les uns à la suite des autres, le débit,
et par conséquent la bande passante requise, est multiplié par le
nombre de bits de quantification.
Prenons l’exemple d’un signal parallèle sur 10 bits échantillonné
à la fréquence de 1 MHz : 1 bit est produit toutes les 1 µs. Si ce
signal doit être transmis sous forme série, ce n’est plus 1 mais
10 bits qui doivent être produits en 1 µs ; le débit du signal séria-
lisé passe donc de 1 à 10 MHz.

Données
auxiliaires
10 bits / /

10 bits //
27 MHz 270 Mbits/s
Vidéo Insertion Registre à décalage 270 Mbits/s Codage
de données conversion NRZI
10 bits //
parallèle/série

Générateur
pseudo-aléatoire

Figure 5.25
Principe de la sérialisation du signal numérique.

Pour en revenir à la vidéo, les 10 fils à 27 Mbits/s sont remplacés


par un fil à 270 Mbits/s. Avec cette augmentation du débit se pose
le problème de la synchronisation : le décodeur qui reçoit le flot de
données doit être capable d’identifier chaque bit qui lui parvient
afin de reconstituer correctement le signal vidéo parallèle. Comme

229

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

aucun signal de référence temporelle externe n’est transmis – le


but de la sérialisation est de minimiser le nombre de connexions –,
l’information d’horloge doit être extraite du signal numérique lui-
même, ce qui impose une certaine mise en forme côté émission.
Un codage de canal auto-référencé est pour cela utilisé : il doit
permettre de recouvrer l’horloge dans le décodeur, mais également
de minimiser la composante continue – pour éviter toute distorsion
pouvant affecter la forme du signal –, ainsi que d’homogénéiser la
distribution spectrale du signal. Pour satisfaire à ces exigences, les
informations binaires, codées en NRZ, sont d’abord entrelacées à
l’aide d’une séquence bien définie, fournie par un générateur
pseudo-aléatoire. Le signal est ensuite soumis à un codage NRZI
à l’issue duquel il renferme un nombre de transitions suffisant
pour que le décodeur puisse en extraire les impulsions d’horloge.

[Link]. Désérialisation du signal [Link]


À l’autre extrémité de la liaison, il faut désérialiser le signal pour
qu’il puisse attaquer les équipements en parallèle. La désérialisa-
tion se décompose en plusieurs étapes.
Une correction automatique de câble – égalisation – est d’abord
appliquée sur la totalité de la réponse en fréquences pour corriger
les pertes causées par la longueur du câble. L’horloge à 270 MHz
est ensuite régénérée grâce à la détection des nombreux fronts de
transitions du codage NRZI. Le signal NRZI est alors converti en
un signal NRZ, et les données sont désentrelacées pour retrouver
leur ordre chronologique. Un registre à décalage synchronisé à
270 MHz convertit alors les données série sous forme parallèle.
Puis les informations auxiliaires – audio, code temporel – sont
séparées du signal vidéo parallèle et transmises séparément vers
les circuits adéquats.
Précisons enfin que lorsqu’un signal sur 10 bits arrive en entrée
d’un équipement travaillant sur seulement 8 bits, les deux der-
niers bits sont mis à zéro, l’erreur commise étant dissimulée par
un arrondi soit par défaut, soit par excès.

230

© Éditions Eyrolles
5 • Le signal vidéo analogique et numérique

Sortie parallèle
10 × 27 Mbits/s
Entrée série
270 Mbits/s Registre à décalage
Correction conversion
Désentrelacement
de câble série/parallèle

Recouvrement
de Timing
l’horloge générateur

Figure 5.26
Principe de la désérialisation du signal numérique.

231

© Éditions Eyrolles
6 La compression
numérique

Pourquoi la réduction de débit du signal vidéo numérique est-elle nécessaire ?


Comment est-il possible de retirer des informations sur une image sans la dégrader ?
Quels taux de compression est-il possible d’atteindre en fonction des différentes catégories
d’applications ?
Quelles sont les différences entre les systèmes de compression JPEG, MPEG-1 et MPEG-2 ?
Quelles sont les six phases de la compression JPEG ?
Quel est le rôle de la Transformée en Cosinus Discrète (DCT) ?
En quoi consiste l’estimation de mouvement ?
Quels sont les « plus » du Profil [Link] de la norme MPEG-2 ?
Qu’est-ce que la technologie The Mole ?
Quelles sont les différences entre le M-JPEG, le DV et le MPEG-2 ?
Qu’est-ce qu’un serveur vidéo ?
Quels sont les avantages de la diffusion numérique ?
Qu’est-ce que le DVD ?
Qu’est-ce que le streaming ?
Quels sont les champs d’application des nouveaux standards MPEG-4 et MPEG-7 ?

Ce chapitre donne les éléments de base permettant de comprendre les principes


de la compression numérique appliquée à la vidéo, technique complexe qui, en
s’imposant chaque jour davantage, est en passe de banaliser la manipulation des
images vidéo numériques dans les domaines broadcast et grand public. Nous
décrirons les normes de codage des images JPEG (et ses déclinaisons M-JPEG
et DV), MPEG-1, MPEG-2, avant de passer en revue leurs principales applica-
tions en enregistrement, en montage et en diffusion/distribution. Nous termine-
rons par une présentation des nouveaux standards MPEG-4 et MPEG-7, inven-
tés pour répondre aux besoins suscités par le développement croissant des
systèmes multimédia, notamment en termes de bas débit, d’interactivité et de
recherche de l’information.

233

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

6.1 La compression numérique : pourquoi ?

Si la compression numérique fait beaucoup parler d’elle depuis


quelques années, il ne faut pas pas oublier que l’idée de réduire
la quantité d’information du signal vidéo n’est guère nouvelle.
Depuis les débuts de l’histoire de la télévision, on a toujours
cherché à exploiter les caractéristiques psychovisuelles de l’œil
humain pour restreindre à des valeurs raisonnables l’encombre-
ment du signal vidéo : réduction du nombre d’images transmises
par seconde tout d’abord, par rapport à la scène lumineuse conti-
nue captée par l’objectif de la caméra ; réduction de la définition
verticale de chaque image aussi, inhérente à la structure en
lignes ; limitation de la résolution horizontale également, le
nombre de points par ligne étant directement lié à la bande
passante électronique ; diminution de la définition de l’image
encore, due cette fois à la structure en triplets de luminophores
de l’écran du récepteur ; réduction de la quantité d’informations
de chrominance transmises enfin, compte tenu de l’incapacité
de l’œil à discerner des différences de couleurs dans les détails
fins.
Apparue au début des années 1980, la numérisation des images
vidéo conformément à la norme [Link] donne naissance à des
fichiers gigantesques, donc à des débits extrêmement élevés au
regard de la capacité relativement limitée des supports de stoc-
kage et de transmission existant. Pour donner un ordre d’idée,
une image [Link] quantifiée sur 8 bits occupe un espace de près
de 830 kilo-octets (en ne considérant que la partie active), ce qui
porte la seconde à 21 mégaoctets, soit l’équivalent de 15 dis-
quettes informatiques 3,5". Un CD-Rom de 650 Mo ne peut pas
contenir plus de 30 s de vidéo non compressée. La réduction du
débit du signal vidéo est un passage obligé pour autoriser le stoc-
kage d’une grande quantité d’images sur une bande magnétique
ou un support informatique, et pour permettre la diffusion de ces
images numériques dans un canal de fréquence conventionnel.
En plus de ces économies en matière de stockage et de transmis-
sion, la compression des images ouvre la voie à des fonctionna-
lités totalement nouvelles dans les applications courantes.

234

© Éditions Eyrolles
6 • La compression numérique

Parmi elles, citons l’accès aléatoire à n’importe quelle image


d’un programme, l’accès simultané au même contenu par plu-
sieurs utilisateurs, ainsi que le transfert plus rapide que le temps
réel. Bien que relativement récentes, les techniques de réduction
de débit sont déjà très largement employées dans les domaines
de l’enregistrement – broadcast et domestique –, la diffusion
– câble, satellite, voie terrestre –, le montage non-linéaire et les
applications multimédia.

Dans les systèmes 625/50, une image vidéo [Link] échantillonnée sur 8 bits occupe un espace mémoire de
829 440 octets (seule la partie active de l’image est prise en compte) :
720 (Y) + 360 (Cr) + 360 (Cb) = 1440 octets/ligne, soit 829 440 octets pour 576 lignes.
Une seconde (25 images) occupe 20,7 mégaoctets.
Une minute occupe 1,24 gigaoctets.
Une heure occupe 74,6 gigaoctets.
On retiendra qu’un espace mémoire de 1 Go peut contenir 47 secondes d’images [Link] sur 8 bits à plein débit.

Le signal vidéo numérique renferme un volume de données beaucoup trop important pour être
transmis ou enregistré tel quel par des machines économiquement abordables.
La compression a pour but de trouver la manière la plus économique de coder les images (en
termes d’encombrement), tout en en préservant au maximum leur contenu.

6.2 La compression numérique : comment ?

L’art de la compression numérique en vidéo est de supprimer


certaines informations de l’image, d’en simplifier d’autres, tout
en faisant en sorte que les modifications apportées échappent le
plus possible à la perception humaine. Cela est d’autant plus dif-
ficile que le débit final que l’on cherche à obtenir est faible. Dans
le cas d’une image fixe, les techniques de compression s’ap-
puient sur une analyse du contenu de l’image et tirent profit de
son organisation interne afin d’en éliminer les données redon-
dantes, une donnée redondante pouvant être déduite à partir des
informations restantes. Par exemple, une image comporte forcé-
ment des plages uniformes plus ou moins grandes, composées de

235

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

pixels identiques que l’on peut coder de manière compacte. Dans


le cas d’une séquence vidéo animée, la compression peut exploi-
ter le fait qu’il existe très souvent une grande similitude entre
plusieurs images successives. La plupart du temps, la vitesse des
mouvements est largement inférieure à la fréquence de rafraî-
chissement des images. Là aussi, une économie de données peut
être réalisée. Par ailleurs, il faut savoir que le système visuel
humain n’utilise pas la totalité des informations présentes sur
une image. Il est moins sensible aux fins détails de l’image
(qu’ils soient fixes ou en mouvement) qu’aux plages uniformes.
De plus, il possède un pouvoir de perception bien plus faible
dans les détails de couleurs que dans les détails de luminosité.
Par conséquent, il existe sur l’image vidéo un tas d’informations
auxquelles notre œil n’accorde que peu d’importance et pour les-
quelles il peut se contenter d’une représentation approximative.

6.2.1. Compressions lossless et lossy


La compression vidéo fait appel à une variété d’algorithmes de
codage qui exploitent les différents types de redondance de
l’image. Le choix et l’association de ces algorithmes se fait en
fonction des applications visées et des débits souhaités.
On distingue deux grandes catégories d’algorithmes de com-
pression. Ceux dits « sans pertes » (lossless en anglais) effec-
tuent un traitement totalement transparent, permettant de retrou-
ver intégralement les données d’origine après décompression.
Malheureusement, ils ne conduisent qu’à des taux de compres-
sion très faibles, en tout cas insuffisants pour la plupart des
applications vidéo (mais ils sont les seuls à pouvoir être utilisés
en informatique).
Les algorithmes « avec pertes » (lossy en anglais) aboutissent à
des taux de compression nettement supérieurs, mais imposent de
négliger certaines informations de l’image, en tenant compte de
sa nature et de notre perception visuelle. Si elle se fait dans des
proportions limitées, l’élimination de ces informations peut
passer inaperçue pour un téléspectateur ; on parle alors de com-
pression virtuellement transparente. Si, en revanche, la réduction

236

© Éditions Eyrolles
6 • La compression numérique

de débit doit être réalisée dans des facteurs élevés, le prix à payer
est l’apparition d’artéfacts et distorsions plus ou moins visibles.
Précisons cependant que ces dégradations se distinguent fonda-
mentalement de celles qui peuvent perturber un signal analo-
gique. Les conséquences les plus caractéristiques d’une
compression trop poussée sont une perte de définition, une sac-
cade dans les mouvements, un figement de certaines parties de
l’image, un effet de pixelisation dans les mouvements et les
fondus (effets de blocs), une solarisation sur les dégradés de cou-
leurs, ainsi que l’apparition d’une sorte de frange autour des
contours marqués (en particulier sur les textes en incrustation).

La compression numérique élimine les données redondantes, simplifie ou supprime certaines


informations peu importantes pour notre œil, et utilise des systèmes de codage mieux adaptés
(plus efficaces).

6.2.2. Les redondances de l’image vidéo


[Link]. La redondance spatiale
Toute plage uniforme sur une image renferme des pixels iden-
tiques. Il est donc inutile de coder séparément chacun de ces
pixels puisqu’un seul peut les caractériser tous. Il suffit de trans-
mettre deux données, l’une représentant la valeur du pixel,
l’autre étant le facteur de répétition. Nous allons voir comment
une technique comme la Transformée en Cosinus Discrète (sou-
vent notée DCT) peut mettre en évidence cette redondance spa-
tiale à l’intérieur de chaque image.

[Link]. La redondance temporelle


Dans une séquence vidéo, il existe une très forte corrélation entre
les images successives. Les techniques d’estimation de mouve-
ment permettent de coder une image par rapport à sa voisine, en
ne transmettant que les informations relatives au déplacement de
ses composantes. L’élimination des redondances temporelles
peut conduire à des taux de compression très élevés. En

237

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

revanche, le codage s’applique non plus à des images isolées,


mais à des groupes d’images rendues indissociables les unes des
autres. Il est donc bien adapté à la diffusion d’un flux continu
d’informations, mais se prête difficilement au montage, surtout
si les groupes d’images sont longs.

[Link]. La redondance subjective


L’exploitation de la redondance subjective fait appel à la notion
de codage perceptuel, tirant parti des faiblesses de la vision
humaine. Elle consiste à coder avec un nombre de bits réduit les
éléments de l’image jugés les moins significatifs. Cette pondéra-
tion psychovisuelle est obtenue lors de la phase de quantification
non linéaire, qui introduit des pertes de résolution irréversibles.
Un juste compromis est alors à trouver entre le désir de préser-
ver une qualité d’image convenable et la nécessité de réduire
suffisamment le débit par rapport à la bande passante ou à l’es-
pace de stockage disponible.

[Link]. La redondance statistique


Il s’agit d’une notion purement mathématique : si certains codes
reviennent plus fréquemment que d’autres, autant leur réserver
les mots les plus courts. Cette opération, appelée codage entro-
pique, n’entraîne aucune perte.

La compression en vidéo met en œuvre une variété d’outils de codage s’appuyant sur les trois
principes suivants.
– Il est inutile de répéter un à un les points qui sont identiques sur une image.
– Si une image est très semblable à sa voisine, il suffit de ne transmettre que leurs différences.
– Certaines informations peu ou pas pertinentes pour notre système visuel peuvent être codées
plus grossièrement, voire supprimées.

Pour exploiter les différents types de redondance, les méthodes employées sont :
– redondance spatiale : Transformée en Cosinus Discrète (DCT) ;
– redondance temporelle : estimation de mouvement ;
– redondance subjective : quantification ;
– redondance statistique : codage entropique.

238

© Éditions Eyrolles
6 • La compression numérique

6.3 Quelques ordres de grandeur

Dans le cas d’une image fixe, on peut typiquement supprimer


jusqu’à 70 % de ses informations sans toucher à sa qualité. On
dit alors qu’un taux de compression de 3:1 est totalement trans-
parent. Si l’on accepte quelques pertes, généralement peu déce-
lables par un œil non averti, le taux de compression peut
atteindre 10:1.
Dans le cas d’une séquence vidéo, on peut obtenir des facteurs
de compression nettement supérieurs en tenant compte de la
forte parenté entre les images contigües. Par exemple, pour les
applications de diffusion, il est courant d’utiliser des taux de
compression compris entre 15:1 et 40:1. En studio cependant, les
exigences plus sévères en matière de qualité du signal imposent
de limiter le taux de compression à 5:1, et de conserver un accès
individuel à chaque image pour le montage.
Quant aux applications multimédia (CD-Rom, transmission sur
réseaux,...), elles se contentent d’une qualité d’image inférieure
à celle du VHS, sur laquelle plus de 99 % des informations ini-
tiales sont éliminées...

Les débits avant compression


Pour un grand nombre d’applications, le débit initial du signal
vidéo (270 Mbits/s sur 10 bits) est déjà sensiblement allégé avant
même qu’intervienne le processus de compression. D’une part,
on ne prend en compte que les données concernant la partie
visible de l’image, les instants de suppression horizontale et ver-
ticale pouvant être remplacés par un simple motif. Le débit du
signal passe ainsi de 270 à 207 Mbits/s. D’autre part, on accepte
souvent de travailler avec une quantification sur 8 bits au lieu de
10, ce qui abaisse à 166 Mbits/s le débit du signal utile avant
compression.
Par ailleurs, le signal vidéo n’est pas toujours traité dans sa struc-
ture [Link], c’est-à-dire avec 720 points de luminance et
360 points de chrominance sur chaque ligne. Si l’on s’interdit

239

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

formellement de toucher à la luminance, un sous-échantillon-


nage d’ordre deux est souvent mis en œuvre pour réduire de moi-
tié la résolution de la chrominance, soit dans le sens vertical, soit
dans le sens horizontal. Comprenons bien qu’il s’agit ici d’une
suppression systématique et aveugle de données de couleur, qui
ne tient aucunement compte du contenu de l’image, contraire-
ment aux algorithmes de compression dont toute la force est
d’être adaptifs. La qualité résultante est logiquement inférieure à
celle d’une image [Link], mais elle s’avère somme toute satisfai-
sante pour un bon nombre d’applications, comme la distribution
grand public ou le reportage d’actualité (en revanche, les travaux
en studio de production et, a fortiori, de postproduction exigent
que soit maintenue la structure [Link] sur 8, voire 10 bits).
Lorsque ce sous-échantillonnage est effectué en horizontal, on
ne compte plus que 180 points de chrominance par ligne. Le
signal est alors de structure [Link]. C’est par exemple le cas des
formats d’enregistrement DV/DVCAM en 525/60 et DVC-
PRO25. Quand le filtrage est réalisé dans le sens vertical, une
ligne sur deux se retrouve totalement exempte d’échantillons de
chrominance ; en fait, un seul des deux signaux de différence de
couleurs est codé en alternance sur chaque ligne, comme en
SECAM. Le signal est alors de structure [Link]. Ce schéma est
mis en œuvre dans les systèmes de diffusion numérique, le DVD,
ainsi que dans les formats d’enregistrement DV/DVCAM en
625/50. Dans les deux cas, le débit utile du signal vidéo avant
compression est abaissé de 25 %, passant de 166 Mbits/s ([Link])
à 124 Mbits/s ([Link] et [Link]). Précisons cependant qu’il est vive-
ment déconseillé de combiner entre eux des équipements utili-
sant des structures d’échantillonnage différentes. Car si un signal
[Link] ou [Link] conservera sa qualité lors d’un traitement en [Link],
la mise en cascade d’équipements [Link] et [Link] donnera moins
qu’un signal « [Link] »...
Pour donner un ordre d’idée, les débits obtenus après compres-
sion sont de 4 à 10 Mbits/s en diffusion ([Link], 8 bits),
4,5 Mbits/s en moyenne pour le DVD vidéo (il s’agit ici d’un
débit variable, avec un maximum de 9,8 Mbits/s), 25 Mbits/s en
enregistrement DV ([Link] ou [Link], 8 bits), et 50 ou 100 Mbits/s

240

© Éditions Eyrolles
6 • La compression numérique

en production/postproduction broadcast haut de gamme ([Link],


8 ou 10 bits).
Il faut aussi savoir que la relation qualité/débit n’est pas linéaire
et que, par exemple, une séquence à 8 Mbits/s n’est pas deux fois
supérieure à une séquence à 4 Mbits/s. Les industriels ont réalisé
des tests comparatifs s’appuyant sur des panels d’utilisateurs,
qui révèlent en substance que l’amélioration qualitative au delà
de 6 Mbits/s n’est perçue que par une minorité de téléspecta-
teurs.

Pour interpréter de manière juste un débit compressé ou un taux de compression, il faut bien
connaître les paramètres du signal source. Un signal à 25 Mbits/s peut être obtenu avec un taux
de compression de 8:1 si le signal source est le [Link] sur 10 bits. Mais il peut aussi résulter d’une
compression de facteur seulement 5:1, si le signal de départ est le [Link] ou le [Link] sur 8 bits.

720 360 360

576 Y + 576 Cr + 576


Cb 207 Mbits/s
[Link]
(10 bits) ( 720 x 576 + 360 x 576 + 360 x 576 ) x 10 x 25
pixels lignes pixels lignes pixels lignes bits/pixel images/seconde

720 360 360

576 Y + 576 Cr + 576


Cb 166 Mbits/s
[Link]
(8 bits) ( 720 x 576 + 360 x 576 + 360 x 576 ) x 8 x 25
pixels lignes pixels lignes pixels lignes bits/pixel images/seconde

720 360 360

576 Y + 288 Cr + 288 Cb 124 Mbits/s


[Link]
(8 bits) ( 720 x 576 + 360 x 288 + 360 x 288 ) x 8 x 25
pixels lignes pixels lignes pixels lignes bits/pixel images/seconde

720 180 180


+ Cr + Cb
[Link] 576 Y 576 576 124 Mbits/s
(8 bits) ( 720 x 576 + 180 x 576 + 180 x 576 ) x 8 x 25
pixels lignes pixels lignes pixels lignes bits/pixel images/seconde

Figure 6.1
Les débits avant compression, prenant en compte uniquement la partie utile de l’image (576 lignes sur les 625).

241

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

6.4 Les normes de compression : JPEG, MPEG-1, MPEG-2

Trois standards de compression numériques ont été définis par


des groupes de travail spécialisés formés sous les auspices de
l’ISO (International Standard Organization) : JPEG (Joint
Photographics Experts Group), MPEG-1 (Motion Pictures
Experts Group), et MPEG-2.

6.4.1. JPEG
Apparue en 1989, JPEG est une norme de compression des
images fixes, conçue à l’origine pour le monde de l’impression
et de la photocomposition. JPEG accepte n’importe quelle défi-
nition d’image et exploite les uniformités présentes à l’intérieur
de chacune d’elle ; le codage est dit intra-image. Or, comme les
circuits intégrés de codage JPEG étaient disponibles bien avant
tout autre circuit de compression, les fabricants d’équipements
vidéo se sont rapidement intéressés à ce standard, même s’il ne
leur était pas destiné au départ. Partant du principe qu’une
séquence vidéo n’est qu’une succession rapide d’images fixes,
ils ont développé des systèmes JPEG capables de
compresser/décompresser en temps réel 25 ou 30 images par
seconde. Ces solutions, baptisées M-JPEG (Motion-JPEG), se
sont vite répandues à partir début des années 90, notamment
dans les stations de montage non-linéaire et dans le domaine de
l’enregistrement haut de gamme. Cependant, les modifications
ayant permis de passer du JPEG au M-JPEG, ainsi que la syn-
chronisation du son, n’ont jamais fait l’objet d’une normalisa-
tion. Les fabricants ont donc développé sans concertation des
solutions propriétaires, si bien que les fichiers générés par des
équipements de marques différentes sont très souvent incompa-
tibles entre eux. L’échange de programmes M-JPEG n’est pos-
sible qu’à travers un cycle de compression/décompression du
signal. Depuis, est apparu le format d’enregistrement DV, qui
utilise une compression de type M-JPEG, mais dont l’algorithme
a été totalement normalisé à l’échelle mondiale. Initialement
développé pour le grand public avec un débit de 25 Mbits/s, le

242

© Éditions Eyrolles
6 • La compression numérique

DV a progressivement évolué vers des débits supérieurs (50 et


100 Mbits/s), donnant naissance à une famille de systèmes de
compression adaptés à tous les besoins de la chaîne de produc-
tion et postproduction broadcast, en définition standard comme
en haute définition.

6.4.2. MPEG-1
Adoptée en 1992, MPEG-1 est une norme de compression des
images animées à faibles résolutions, destinée aux applications
multimédia. MPEG-1 reprend les principes de base du JPEG en ce
qui concerne l’élimination des redondances spatiales, mais
exploite en plus les redondances temporelles entre les images. Le
codage n’est plus réalisé individuellement sur chaque image, mais
s’applique à un groupe de plusieurs images. Son débit de
1,5 Mbits/s, incluant la vidéo et le son, est évidemment très péna-
lisant en termes de qualité d’image, mais il présente l’intérêt d’être
compatible avec le CD-Rom. L’une des applications phare du
MPEG-1 est le CD-Vidéo, qui n’a pas percé en Europe, mais qui
a rencontré un grand succès en Chine, où plusieurs millions de lec-
teurs ont été vendus.

6.4.3. MPEG-2
Instaurée en 1994, MPEG-2 est également une norme de com-
pression des images animées, reprenant l’ensemble des tech-
niques de base de MPEG-1. Cependant, la qualité d’image sup-
portée est incomparablement supérieure, puisqu’elle s’étend de
la vidéo standard entrelacée (4 à 50 Mbits/s) à la haute définition
(300 Mbits/s). Du coup, MPEG-3, qui devait se consacrer à
part entière à la haute définition, a été totalement absorbé par
MPEG-2, qui possède tous les outils nécessaires. MPEG-2 a
d’abord été étudié pour la diffusion numérique ; il est aujour-
d’hui mondialement utilisé par tous les opérateurs de télévision
numérique et constitue également le standard de codage des
disques DVD. Par la suite, MPEG-2 a été décliné en une version
« studio », baptisée MPEG-2 422P@ML (ou MPEG-2 422),
répondant aux exigences plus sévères de la production/postpro-

243

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

duction broadcast et permettant de travailler en mode intra-


image, comme en M-JPEG.

Tableau 6.1
Les trois grandes familles de compression d’images.

JPEG Initialement, codage d’images fixes. A été décliné pour la vidéo,


considérée comme une succession d’images fixes, en plusieurs
versions dites M-JPEG (non normalisé) et DV (normalisé).
Débits types de 25 à 100 Mbits/s.

MPEG-1 Codage vidéo en qualité VHS pour le CD-Rom.


Débit de 1,15 Mbits/s.

MPEG-2 Codage vidéo en qualité broadcast standard et à haute définition.


Débits de 4 à 300 Mbits/s

Figure 6.2 JPEG


Principes des compressions
JPEG et MPEG. Image Codage
longueur Codage
DCT Quantification
présente variable entropique

MPEG

Codage
Image Quantification longueur Codage Mémoire
DCT Quantification entropique
présente de mouvement variable tampon

Image Image
passée future

La compression JPEG traite indépendamment chaque image en éliminant ses redondances


spatiales : le codage est dit intra-image. Il en est de même pour les déclinaisons vidéo M-JPEG
et DV.
Les compressions MPEG-1 et MPEG-2 traitent les images par groupes, en exploitant leurs
redondances temporelles, c’est-à-dire les données communes à plusieurs images successives :
le codage est dit inter-image. MPEG-2 peut cependant travailler uniquement en mode intra-
image pour les applications de studio.

244

© Éditions Eyrolles
6 • La compression numérique

6.5 JPEG : la compression des images fixes

6.5.1. Du domaine temporel au domaine


fréquentiel : la Transformée en
Cosinus Discrète (DCT)
Le système visuel humain se satisfait d’une résolution assez faible
pour les détails d’une image. La compression JPEG met à profit ce
phénomène en réduisant la précision de codage de ces éléments
fins. Cependant, cette opération ne s’effectue pas sur l’image telle
qu’elle se présente à l’origine. Une transformation du domaine
temporel au domaine fréquentiel lui est préalablement appliquée,
afin de mettre clairement en évidence les informations à modifier.
Un signal périodique peut être représenté de deux manières dif-
férentes :
– dans le domaine temporel : toutes les valeurs prises au cours
du temps par la grandeur physique sont décrites les unes à la
suite des autres. C’est l’état initial du signal ;
– dans le domaine fréquentiel : le signal est décrit par son
spectre, c’est-à-dire l’ensemble des valeurs d’énergie de cha-
cune de ses composantes fréquentielles. Dans le cas d’une
image, ces composantes sont des fréquences spatiales, repré-
sentant des motifs géométriques périodiques caractérisés par
leur taille et leur amplitude.

Image constituée de N lignes blanches et de N lignes noires régulièrement espacées, soit N


paires de lignes.
Une paire de lignes occupe une période spatiale P.
Plus les lignes sont fines, plus la période spatiale P est faible, donc plus la fréquence spatiale
F = 1/P est élevée.
À l'inverse, une image affichant une plage uniforme est caractérisée par une composante
fréquentielle nulle qui est en fait la composante continue d'image, c'est-à-dire la valeur
moyenne d'éclairement.

1
Fréquence spatiale =
P = Période spatiale Période spatiale

Figure 6.3
Notion de fréquence spatiale.

245

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Le passage du domaine temporel au domaine fréquentiel s’ef-


fectue par l’intermédiaire d’une transformée mathématique
linéaire et bidimensionnelle appelée Transformée en Cosinus
Discrète (DCT). Le terme « discrète » fait référence à la nature
discontinue de l’information à traiter.

Un son musical peut être décomposé en une composante fondamentale – à la fréquence du


son – et un ensemble de composantes « harmoniques », de fréquence multiple de cette fonda-
mentale et d’amplitude variée. De manière analogue, on peut considérer une image comme la
somme d’un ensemble de motifs plus ou moins fins et d’intensités variées.

La DCT a pour rôle de convertir les valeurs de luminance et de


chrominance des pixels en coefficients représentant les ampli-
tudes aux différentes fréquences. Or, dans le domaine fréquen-
tiel, la quasi-totalité des informations de l’image se situe dans le
bas du spectre. Une image ne contient en effet généralement
qu’une faible proportion de détails très fins ; les brusques chan-
gements de luminosité d’un pixel à l’autre sont assez rares.
Autrement dit, les composantes énergétiques sont statistique-
ment plus élevées pour les basses fréquences que pour les hautes
fréquences. Ainsi, on peut dire que la DCT permet de regrouper
les informations essentielles, c’est-à-dire garantes de la repro-
ductibilité de l’image au décodage, et de les séparer des données
moins significatives qui peuvent être soit traitées avec moins de
précision, soit carrément éliminées.

La Transformée en Cosinus Discrète, ou DCT, est une procédure mathématique conduisant à


une représentation de l’image dans le domaine des fréquences sous la forme de tables d’éner-
gie à différentes fréquences spatiales. C’est dans cet espace des fréquences que sera choisie la
précision de codage des informations en fonction des besoins de la vision humaine : précision
maximale pour les composantes fréquentielles basses (zones assez uniformes) et précision
réduite pour les composantes élevés (détails fins).

6.5.2. Les six fonctions clés


de l’algorithme JPEG
L’algorithme JPEG n’impose aucune contrainte quant au format
de l’image source, contrairement à MPEG-1 et MPEG-2. Nous

246

© Éditions Eyrolles
6 • La compression numérique

allons considérer dans ce qui suit le cas d’une image [Link] codée
sur 8 bits, formée de 576 lignes utiles renfermant chacune
720 pixels. Par souci de simplification, nous ne décrirons ici que
le traitement de la luminance Y. Chacune des composantes de
couleurs est traitée parallèlement de manière identique, avec
toutefois des fichiers moins volumineux du fait de leur sous-
échantillonnage.

[Link]. Première fonction : décomposition en blocs


La transformation DCT n’est pas effectuée d’un trait sur l’en-
semble de l’image, car cela aurait impliqué de manipuler des
quantités énormes d’informations et nécessité des temps de cal-
cul prohibitifs. La première étape de l’algorithme JPEG consiste
donc à découper l’image en petits blocs, dont la structure est
généralement de 8 × 8 pixels. Chaque bloc est représenté par un
tableau de 64 nombres entiers compris entre 0 et 255. Une nor-
malisation décale toutes les valeurs dans la plage -127/+127.

[Link]. Deuxième fonction : Transformée en Cosinus


Discrète (DCT)
Les 64 nombres représentant les valeurs de luminance des pixels
de chaque bloc sont convertis par la DCT en autant de coefficients
d’amplitude appliqués à des composantes fréquentielles. Les
64 composantes fréquentielles permettent de caractériser tous les
motifs basiques qu’il est possible d’obtenir avec les 64 pixels du
bloc. Les coefficients d’amplitude indiquent dans quelle propor-
tion chaque fréquence spatiale est présente dans le bloc considéré.
La DCT donne ainsi une mesure directe de la quantité de détails
présents dans ce bloc. On comprend bien que le nombre de motifs
possibles sur un bloc de 8 × 8 est relativement faible comparé à ce
qu’il aurait été si la transformée avait été réalisée en une passe sur
toute l’image.

247

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

nergie maximum
= composante continue
= valeur moyenne du bloc

Fr quences horizontales Distances horizontales


Fr quences verticales

Distances verticales
DCT

DCT -1

Bloc de pixels 8x8 Matrice de fr quences


spatiales 8x8

Figure 6.4
Conversion d’un bloc de pixels en coefficients DCT.

La première case, en haut à gauche, contient le coefficient le plus


élevé, représentant la valeur moyenne du bloc (fréquence nulle =
composante continue). Plus l’on s’éloigne de cette case en se
dirigeant vers celle située en bas à droite, plus les motifs ren-
contrés sont fins. Or, il s’avère que, dans la plupart des images,
les coefficients situés dans la partie inférieure droite sont très
faibles, voire nuls. Les valeurs significatives sont donc concen-
trées sur une zone restreinte de la matrice DCT, et sont moins
nombreuses que dans la matrice d’origine. Par exemple, si la
zone d’image analysée est uniforme, seule la première case du
bloc est remplie (il n’y a aucune autre fréquence que la fréquence
nulle). Dans ce cas particulier, mais tout à fait réaliste, la DCT
permet de décrire les 64 pixels d’un bloc avec une seule valeur.
Il faut cependant bien garder à l’esprit que cette transformée
purement mathématique préserve l’intégralité de l’information
du bloc et n’induit aucune perte.

248

© Éditions Eyrolles
6 • La compression numérique

Figure 6.5 Valeur de D tail fin


Catalogue des motifs d’un gris moyen horizontal
bloc DCT 8 × 8.

D tail fin D tail fin


vertical diagonal

Sensibilit de la
vision humaine

Fr quence spatiale

La figure 6.5 donne l’exemple d’une bibliothèque de motifs que


l’on peut obtenir avec un bloc DCT de 8 × 8 pixels. Les fré-
quences spatiales verticales augmentent de la gauche vers la
droite (les détails horizontaux deviennent de plus en plus fins) et
les fréquences spatiales verticales croissent de haut en bas (les
détails verticaux deviennent de plus en plus fins).

249

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

En transposant l’image du domaine spatial au domaine fréquentiel, la DCT permet d’une part
de classer les informations par ordre d’importance au regard de la vision humaine, et d’autre
part de concentrer l’énergie sur un nombre réduit de coefficients. Elle n’effectue cependant
aucune réduction de données et est totalement transparente et réversible. Le processus de
compression a lieu après la DCT.

[Link]. Troisième fonction : quantification


des coefficients DCT
Comme le système visuel humain accorde moins d’importance
aux détails fins de l’image qu’aux plages uniformes, les hautes
fréquence spatiales vont pouvoir être codées avec une fidélité
moins grande que les basses fréquences. On va en effet tolérer
une précision de résolution décroissante du codage des coeffi-
cients DCT, au fur et à mesure que leur ordre augmente. Les
valeurs situées dans les hautes fréquences seront sous-quanti-
fiées, c’est-à-dire arrondies, et codées sur peu de bits. Certains
coefficients inférieurs à un certain seuil seront même éliminés,
ce qui permet, au passage, de réduire le bruit de l’image.
Figure 6.6 29 20 14 14 19 21 72 –30 9 2 1 0
Exemple de codage d’un
20 19 21 30 34 35 –20 18 –6 0 –1 0
bloc 6 × 6 par l’algorithme
JPEG. 16 21 30 43 51 58 –6 9 4 1 0 0
DCT
18 19 31 46 65 79 0 0 2 0 0 1

29 20 28 45 68 83 0 0 0 –1 0 0

31 23 25 44 65 84 0 1 0 0 0 0

Valeurs de luminance Coefficients obtenus


des points de l’image par la DCT
Seuillage
YQ (u,v)

72 –30 9 2 0 0 72 –30 9 3 0 0

–20 18 –6 0 0 0 –21 18 –6 0 0 0

–6 9 4 0 0 0 Quantification –6 9 3 0 0 0
(échelle = 3)
0 0 2 0 0 0 0 0 3 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0

Suppression des coefficients inférieurs Les valeurs sont arrondies à des


à 2 jugés non pertinents multiples de 3

250

© Éditions Eyrolles
6 • La compression numérique

La figure 6.6 montre un exemple de cette opération de seuillage


sur un bloc DCT, suivie du processus de quantification réalisé
avec une échelle de 3.

On y remarque que toutes les valeurs ont été arrondies à des mul-
tiples de 3 et que tous les coefficients égaux à +1/–1 ont été
remplacés par la valeur 0. Au final, tous les coefficients situés en
dessous de la diagonale en pointillés sont rendus nuls.
C’est dans cette phase de quantification que sont introduites
toutes les dégradations du codage JPEG. Sur une zone d’image
contenant des dégradés subtils de couleurs, une quantification
trop rude éliminera certaines valeurs intermédiaires et provo-
quera un effet de pixelisation. Si une quantification inverse était
réalisée à ce stade du traitement, l’amplitude initiale des compo-
santes fréquentielles ne serait pas exactement restituée.
Différentes tables de quantification sont employées pour la lumi-
nance et la chrominance ; le choix de ces tables et du niveau du
seuil détermine le taux de compression et la qualité de l’image
obtenue.

Figure 6.7 Bits par pixel


Exemple de niveaux de
quantification pouvant être
attribués aux différents
8
coefficients d’un bloc 8 × 8.
6

2 Coefficient DCT

8 16 24 32 40 48 56 64

Au cours de l’étape de quantification non-linéaire, les coefficients DCT associés aux compo-
santes fréquentielles élevées (détails fins) sont arrondis et codés avec un nombre de bits réduit
au minimum exigé par l’œil. La quantification est la seule phase de l’algorithme JPEG à géné-
rer des pertes.

251

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. Quatrième fonction : balayage en zigzag


de la matrice
La matrice obtenue après quantification est balayée en zigzag
(fig. 6.8) de sorte que ses coefficients soient réarrangés sous la
forme d’un vecteur, plus commode à transporter. Cette sérialisa-
tion des 64 éléments de la matrice est effectuée en commençant
par les composantes à basses fréquences (en haut, à gauche), et
en finissant par celles à hautes fréquences (en bas, à droite).

Figure 6.8
Balayage en zigzag de la
matrice DCT.

[Link]. Cinquième fonction : codage à longueur variable


Le vecteur ainsi formé contient des suites plus ou moins longues
de coefficients de valeurs identiques, souvent nulles.
Plutôt que de coder systématiquement chaque coefficient à
chaque fois qu’il apparaît, le codage à longueur variable (Run
Length Encoding en anglais) formate le vecteur sous la forme de
paires de donnée. La première donnée indique la valeur du coef-
ficient, tandis que la seconde signale le nombre de fois qu’il se
répète. Cette technique est très efficace, surtout lorsque les coef-
ficients valent zéro.

[Link]. Sixième fonction : codage entropique


Une analyse statistique de l’occurrence des coefficients est alors
réalisée afin de procéder à un codage entropique.

252

© Éditions Eyrolles
6 • La compression numérique

Du point de vue historique, le codage entropique est l’une des


plus anciennes techniques de compression numérique. Son prin-
cipe consiste à attribuer les codes les plus courts aux coefficients
statistiquement les plus fréquents, et à réserver les codes longs
aux coefficients dont la probabilité d’occurrence est faible. Le
langage Morse est une forme de codage entropique utilisant des
séquences très courtes pour les lettres les plus courantes, par
exemple un point pour la lettre « e » très fréquente, et quatre
symboles pour la lettre « q », plus rare. Parmi les autres
exemples, on peut citer les utilitaires de compression de fichiers,
comme Stuffit (Macintosh) ou WinZip (PC), très courants en
informatique.
Le codage entropique et le codage à longueur variable sont tous
deux des algorithmes « lossless » (sans pertes), qui permettent à
eux seuls un taux de compression de l’ordre de 2:1.

Les valeurs DCT, initialement organisées dans un tableau, sont réarrangées les unes à la suite
des autres sous la forme d’un vecteur de 64 éléments, comprenant notamment de longues
séquences de zéros faciles à coder.
Le vecteur est codé sous une forme condensée à l’aide de paires de données – valeur, nombre
d’occurences.
Enfin, des codes courts sont attribués aux données les plus fréquentes.

6.5.3. Synoptique de l’algorithme


de compression JPEG
La figure 6.9 regroupe les six étapes de l’algorithme de com-
pression JPEG. La décompression s’effectue de manière réci-
proque en parcourant ce dessin à l’envers. Il faut cependant
savoir que la compression et la décompression ne sont pas symé-
triques, la plus grande complexité résidant au niveau du codage.
Signalons par ailleurs que la taille du fichier JPEG diffère d’une
image à l’autre, en fonction de son contenu. Cela n’est pas
gênant dans le cas d’images fixes, mais pose problème lorsqu’il
s’agit de séquences vidéo traitées en M-JPEG, surtout lorsque

253

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

celles-ci doivent être enregistrées par des magnétoscopes. Nous


verrons par la suite comment est alors régulé le débit du signal
compressé pour rester constant quelle que soit la nature des
images.

2 4 6 8 10 12 14 16
2
4
6
8
10
Macrobloc
12
14
16

1 2 3 4 5 6 7 8
Énergie maximale
composante continue 1
2
valeur moyenne du bloc
3
4
5 Bloc
6
Fréquences H
7
8
DC
Fréquences V

DCT et
quantification

Matrice DCT

4 1 3 0 0 0 0 0
2 1 0 0 0 0 0 0 Codage à longueur variable
4 2 0 0 0 0 0 0 et codage entropique
1 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 4 1 2 4 0 0 0 0

Balayage en zigzag

Figure 6.9
Les principales phases de la compression JPEG.

254

© Éditions Eyrolles
6 • La compression numérique

6.6 MPEG-1 : la compression vidéo pour le multimédia

MPEG-1 est un standard de compression de séquences vidéo


animées, associées à un son stéréo synchrone. MPEG-1 fournit
un débit d’environ 1,5 Mbits/s (dont 1,15 Mbits/s pour l’image),
totalement calibré pour le CD-Rom. Avec une capacité de
650 Mo, celui-ci offre ainsi une capacité de 74 minutes de pro-
gramme codé en MPEG-1. Pour parvenir à un taux de compres-
sion aussi élevé, MPEG-1 reprend les techniques de JPEG pour
ce qui est de l’élimination des redondances internes à chaque
image, mais fait également appel à d’autres procédés, dont cer-
tains très radicaux. Tout d’abord, il travaille à partir d’une image
source au format SIF (Source Intermediate Format), caractérisée
par une réduction de moitié des résolutions spatiale et tempo-
relle. La taille de l’image est d’1/4 d’écran et l’affichage s’effec-
tue à 25 trames par seconde en balayage progressif. D’autre part,
MPEG-1 cherche à tirer pleinement parti des fortes similitudes
entre les images. Il se contente de coder intégralement une image
de temps en temps et d’indiquer, le reste du temps, uniquement
quels éléments ont bougé.
Mis à part le choix du format d’entrée, toutes les techniques de
compression utilisées par MPEG-1 ont été reprises par MPEG-2,
avec cependant des paramètres différents garantissant une
meilleure qualité.

En plus de l’analyse interne des images mis en œuvre dans JPEG, MPEG-1 travaille sur une
image réduite à 25 % de sa taille d’origine, ne traite qu’une trame sur deux, et élimine les
redondances temporelles entre plusieurs images successives.

255

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

6.6.1. Le format source SIF (Source


Intermediate Format) de MPEG-1

Figure 6.10
720 720 360
Le format source SIF utilisé
par MPEG-1 comparé aux [Link] SIF 288
576 288
autres formats TV.
Y Trame impaire Filtre H.

360 360 180 180


144
[Link] 288
576
Dr ou Db Trame impaire Filtre H. Filtre V

CONVERSION DU FORMAT [Link] VERS LE FORMAT SIF

TVHD 16/9
1080 lignes x 1920 pixels

TVHD 16/9
720 lignes x 1280 pixels
576 lignes x 960 pixels
TV 16/9

TV 4/3
576 lignes x 720 pixels

SIF 4/3
288 lignes
x 360 pixels

RAPPORTS DE GRANDEURS ENTRE LES DIFFERENTS FORMATS D'IMAGES

Les dégradations engendrées par le format SIF sont déjà très


sévères, avant même qu’intervienne la compression MPEG-1.
Tout d’abord, il ne sait pas gérer le balayage entrelacé et supprime
d’emblée une trame sur deux. La trame conservée sur chaque
image est affichée deux fois de suite lors du décodage pour que
l’œil ait une impression de continuité. D’autre part, le format SIF
élimine un point sur deux sur chaque ligne, en luminance comme
en chrominance. Il est donc caractérisé par une résolution de
360 pixels × 288 lignes à 25 Hz. Le débit du signal SIF avant
compression est de 31,5 Mbits/s et son niveau de codage, en lan-
gage numérique, est le [Link]. Le sacrifice est certes drastique,
mais indispensable vu l’objectif visé. Gardons tout de même à
l’esprit que l’on ne cherche pas à faire mieux que du VHS…

256

© Éditions Eyrolles
6 • La compression numérique

6.6.2. Les « GOP » en MPEG


Alors que les systèmes JPEG et M-JPEG traitent chaque image
de manière indépendante, la compression MPEG (1 ou 2) s’ef-
fectue sur des groupes d’images appelés GOP (Group Of
Pictures). Les GOP se composent d’une combinaison de trois
types d’images :
– l’image I (Intra) : elle est codée avec les algorithmes de JPEG
en exploitant uniquement les redondances spatiales intra-
image. Elle est entièrement décrite par elle-même, sans aucune
référence à d’autres, et contient tous les éléments nécessaires à
sa reconstruction. Elle constitue de ce fait le point d’accès pour
le décodage. La fréquence d’occurrence des images I dans une
séquence MPEG conditionne la précision de l’accès aléatoire.
Les images I bénéficient cependant d’un faible taux de com-
pression et sont donc assez volumineuses ;
– l’image P (Prédite) : elle est prédite à partir d’une image pas-
sée I ou P. Elle est codée uniquement à l’aide de vecteurs mou-
vement indiquant les déplacements de ses éléments par rapport
à l’image de référence. Une image P est typiquement trois fois
moins volumineuse qu’une image I, mais peut transmettre des
erreurs car elle sert également de référence. Il faut attendre
l’arrivée d’une image I pour tout remettre à plat et relancer un
nouveau processus de prédiction ;
– l’image B (Bidirectionnelle) : elle est construite, à l’aide de
vecteurs mouvement, par interpolation bidirectionnelle entre
les images passées ou futures I ou P voisines. Elle offre le taux
de compression le plus élevé, mais ne propage pas d’erreur, car
elle n’est jamais utilisée en référence. Une image B est typi-
quement six fois moins volumineuse qu’une image I. C’est
grâce aux images B que l’on peut faire chuter dramatiquement
le débit d’un flux MPEG.
Un GOP commence toujours par une image I et se termine à la
dernière image avant la prochaine image I. Il peut se résumer à
une seule image I, ou alors être composé d’une combinaison
d’images I et P, I et B, ou encore I, B et P.

257

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 6.11 Prédiction Prédiction Prédiction


Organisation type d’un GOP
de 12 images pour la
diffusion. M = 3, N = 12.

I B B P B B P B B P B B I

1 2 3 4 5 6 7 8 9 10 11 12

Interpolation Interpolation Interpolation Interpolation

La figure 6.11 donne l’exemple d’un GOP contenant les trois


types d’images I, P, B. On y remarque deux paramètres fonda-
mentaux : l’intervalle M séparant deux images Prédites et l’in-
tervalle N entre deux images Intra (c’est la longueur du GOP).
Les valeurs de M et N normalisées pour la diffusion sont : M = 3
et N = 12. Dans cette configuration, seule une image sur douze
est transmise intégralement, soit deux par seconde ; toutes les
autres se réfèrent à leurs voisines. Le nombre d’images Prédites
séparant deux images Intra est ici assez élevé, ce qui implique de
soigner le processus d’estimation de mouvement. La séquence
type avec M = 3 et N = 12 est la suivante :
I B B P B B P B B P B B I B B P B B...
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17...

Notons que pour qu’une image B puisse être calculée, il faut que
les images I et P dont elle dépend aient préalablement été reçues
par le décodeur et conservées temporairement en mémoire. D’où
la nécessité de modifier l’ordre de transmission des images par
rapport à leur ordre naturel d’analyse. De ce fait, un retard de
l’ordre de la durée du GOP est toujours introduit lors de la
décompression. Cela donne, en reprenant notre exemple :
I P B B P B B P B B I B B P B B P B...
0 3 1 2 6 4 5 9 7 8 12 10 11 15 13 14 17 16...

L’inconvénient majeur découlant d’un tel système de codage par


longs groupes d’images est qu’il ne permet pas un accès direct à

258

© Éditions Eyrolles
6 • La compression numérique

chaque image. On ne peut pas briser un GOP, car cela aurait pour
conséquence de désolidariser une image P ou B de celle(s) servant
à leur construction. Comme seul l’accès aux images I est autorisé,
l’unité d’accès aléatoire vidéo en MPEG est le GOP. Il est par
conséquent impossible – ou disons qu’il serait extrêmement com-
plexe – d’effectuer du montage sur un programme ainsi codé, à
moins de s’imposer des points d’entrée/sortie correspondant uni-
quement aux images I, soit, dans le cas présent, deux par seconde.
En revanche, un GOP long présente l’avantage de permettre un
taux de compression plus élevé qu’un GOP court pour une même
qualité d’image. Autrement dit, à débit égal, un GOP long donne
une meilleure qualité d’image qu’un GOP court.
Dans les applications de diffusion et de distribution sur DVD, le
GOP est respectivement de 12 et 15 images. En enregistrement
cependant, il ne dépasse pas 2 images (pour permettre le montage)
et se réduit même, dans la quasi totalité des cas, à une seule image.

Figure 6.12 Séquence vidéo


Une séquence vidéo MPEG
se décompose en une
hiérarchie de couches.
I I

Groupe d’images (GOP) :


c’est la couche permettant l’accès aléatoire
à la séquence vidéo, avec une première image de type I.

Image : c’est la couche de codage et d’affichage élémentaire.

Tranches (slices)
Une tranche est un nombre entier de macroblocs alignés
sans recouvrement. C’est l’unité de resynchronisation.

Macrobloc
Un macrobloc est constitué de 4 blocs de luminance et 2 ou 4 blocs
de chominance, en fonction du format de l’image source.
C'est la couche de base pour l’estimation de mouvement.

Bloc
Un bloc est constitué de 8 x 8 pixels. C’est la couche où s'effectue
le codage DCT.

259

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

La compression MPEG s’effectue sur des séquences répétitives d’images appelées GOP et met-
tant en oeuvre trois types d’images I, P, B. Une image I est décrite indépendamment (comme en
JPEG), une image P est prédite à partir d’une image I ou P précédente, tandis qu’une image B
est interpolée à partir des images I et P qui l’encadrent. Un GOP est une séquence d’images
comprises entre deux images I. Il peut aussi se résumer à une seule image I.
Pour un débit donné, plus le GOP est long, plus la qualité de l’image est élevée, mais moins le
montage est précis. Les GOP longs sont adaptés à la diffusion, tandis que les GOP courts sont
indispensables en enregistrement.

6.6.3. L’estimation de mouvement en MPEG


Le principe de l’estimation de mouvement consiste à construire
une image de prédiction à partir d’une image précédente et d’in-
formations relatives aux déplacements subis par ses compo-
santes. L’estimation de mouvement n’est pas effectuée sur
chaque point de l’image, ni même sur les blocs 8 × 8 de la DCT,
mais sur des macroblocs, ce afin de réduire au minimum la
richesse d’informations à transmettre. Un macrobloc est typi-
quement constitué de l’association de six blocs : quatre pour la
luminance et deux pour la chrominance. Si, entre une image
actuelle et celle qui la précède, deux macroblocs semblables sont
trouvés, mais à des emplacements légèrement différents, il suffit
de transmettre une seule fois ce macrobloc et d’indiquer quelle
est sa nouvelle position sur l’image actuelle. Cette information
de position – amplitude et direction – est donnée par un vecteur
mouvement.
La technique la plus répandue pour former le vecteur mouvement
est celle du block matching, que l’on traduit par correspondance
des blocs. L’estimateur de mouvement compare l’image d’entrée,
que nous considèrerons comme la nouvelle image « i », avec
l’image précédente « i-1 », conservée en mémoire. Cette compa-
raison consiste à examiner un à un les macroblocs de l’image « i »,
afin de voir s’ils existaient sur l’image « i-1 ». La figure 6.13
illustre ce principe avec un macrobloc sur l’image « i », que l’on
cherche à localiser sur l’image « i-1 ». Une exploration est alors
réalisée dans toutes les directions possibles à l’intérieur d’une
fenêtre de recherche, afin d’identifier le macrobloc qui lui res-

260

© Éditions Eyrolles
6 • La compression numérique

semble le plus. Lorsqu’il est repéré, la différence de position spa-


tiale du macrobloc entre les deux images permet de déterminer les
coordonnées du vecteur mouvement. Son amplitude représente la
vitesse du déplacement ; sa direction indique celle de la transla-
tion. Les macroblocs occupant la même place sur les deux images
sont ignorés, ce qui diminue la quantité d’information à coder.

Figure 6.13 3 Calcul du vecteur mouvement représentant la différence


La détection et l’estimation de position du macrobloc entre les 2 images
de mouvement en MPEG.
La différence de position
entre deux macroblocs 2 Ancienne
identiques d’une image à la position
suivante est donnée par un du macrobloc Axe des temps
trouvée Position actuelle
vecteur mouvement. du macrobloc
Ce vecteur mouvement
caractérise le mouvement
prépondérant dans le 1 Fenêtre de recherche
macrobloc. Il est appliqué à du macrobloc
l’ensemble de ses pixels, qui s’est déplacé
même si cela ne traduit pas
Position actuelle
exactement la réalité. du macrobloc
Image i-1

Image i

1 1 2 3 4
2 3 4
5 6 7 8 5 6 7 8
9 10 11 12 9 10 11 12
13 14 15 16 13 14 15 16
Macroblocs de l'image précédente i-1 Image i prédite, après application
utilisés pour prévoir des vecteurs mouvement sur les
la nouvelle image i macroblocs de l'image i-1

261

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Toutes les correspondances étroites de macroblocs sont combinées


pour générer une image prédite, exactement comme le ferait le
décodeur. Sauf qu’ici, cette image prédite est comparée avec la
« vraie » image « i », afin de produire des données de différence
visant à compenser les erreurs ou imprécisions de l’estimateur de
mouvement. Les vecteurs mouvement et les données de différence
sont transmis avec l’image « i-1 ». Ils signaleront au décodeur
comment il devra déplacer les macroblocs de cette image « i-1 »
pour construire l’image « i ». L’estimation de mouvement repose
sur un concept apparemment simple ; c’est pourtant la phase la
plus complexe du codage MPEG.

L’estimation de mouvement se décompose en cinq étapes :


1 – Recherche des macroblocs semblables entre une image i et l’image précédente i-1.
2 – Calcul des vecteurs mouvement caractérisant les déplacements des macroblocs.
3 – Construction d’une image prédite en utilisant ces vecteurs mouvement.
4 – Comparaison de cette image prédite avec la vraie nouvelle image pour générer des
données d’erreurs de prédiction.
5 – Codage et transmission des vecteurs et des données d’erreurs de prédiction.

6.6.4. La régulation du débit


Le volume des données issues du processus de compression varie
fortement en fonction du contenu des images. Or, un débit constant
est impérativement requis lorsque le signal numérique compressé
doit être enregistré sur un magnétoscope. Celui-ci utilise en effet
des éléments mécaniques (scanner, moteurs, etc.) tournant à
vitesse régulière (les enregistreurs sur disques durs s’accommo-
dent, quant à eux, d’un débit variable). Pour maintenir à une valeur
fixe le débit du signal compressé, le codeur intègre une boucle de
régulation utilisant une mémoire tampon qui agit sur les tables de
quantification, comme le montre la figure 6.14. Lorsque la
mémoire tampon est proche de la saturation, un signal d’alerte est
envoyé au quantificateur pour qu’il réduise la précision des coeffi-
cients dans le but d’abaisser le débit binaire instantané. À l’inverse,
si la mémoire tampon est proche du niveau minimal de fonction-
nement, le quantificateur pourra augmenter la précision des coeffi-
cients.

262

© Éditions Eyrolles
6 • La compression numérique

Figure 6.14
Principe de la boucle de Signal numérique Réduction des Réduction des
débit constant redondances redondances
régulation agissant sur les temporelles spatiales (DCT)
tables de quantification
pour maintenir un débit
constant. Tables de quantification Réduction de Occupation de la mémoire
débit

Quantification Codage à
Mémoire
des coefficients longueur
tampon
DCT variable
Débit Débit
variable constant

6.6.5. Le codeur MPEG


La figure 6.15 représente le schéma de base d’un codeur MPEG.

Nouvelle
image
Pré- + Image de différence
traitement Σ DCT Quantification


+ + DCT Quantification
Σ inverse inverse
Entrée Image
prévue
vidéo
Prédiction Mémoire
compensation d’image
de mouvement Coefficients
codés

Image
Estimation de précédente
mouvement

Codage Mémoire
entropique tampon
Vecteurs mouvement

Sortie
codée
MPEG

Figure 6.15
Synoptique du codeur MPEG.

263

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

L’ordre des images est modifié par l’intermédiaire de mémoires


de trame. Pour corriger les erreurs amenées par le calcul des vec-
teurs mouvement, une boucle assez complexe est introduite : les
opérations de DCT et de quantification sont appliquées sur les
images Intra – avec la boucle de régulation de débit – ; puis les
fonctions inverses sont réalisées (déquantification, DCT inverse,
introduction des vecteurs mouvement) pour que l’image prédite
par l’estimateur soit comparée avec la vraie nouvelle image,
macrobloc par macrobloc. Une image de différence est alors pro-
duite, qui permettra au décodeur de rectifier les erreurs de pré-
diction éventuelles.

6.6.6. Le décodeur MPEG


Si le codeur est particulièrement complexe et onéreux, le décodeur
est en revanche considérablement plus simple (il n’y a pas d’esti-
mation de mouvement à faire) et relativement bon marché, ce qui
est indispensable à sa production à grande échelle pour le marché
grand public. Après démultiplexage, les images Intra sont déco-
dées – décodage à longueur variable, déquantification avec des
modes programmés, DCT inverse. Les vecteurs mouvement et les
données de différence sont utilisés pour fabriquer les images
Prédites à partir des images de référence. Les images
Bidirectionnelles sont alors calculées, puis les images sont repla-
cées dans leur ordre naturel.
Sortie
vidéo
+ Nouvelle image
Mémoire Décodage Quantification DCT
tampon entropique inverse inverse Σ
+

Image Mémoire
prévue d’image
Entrée
MPEG
Image
Prédiction
précédente
compensation
Vecteurs mouvement de mouvement

Figure 6.16
Synoptique du décodeur MPEG.

264

© Éditions Eyrolles
6 • La compression numérique

6.7 MPEG-2 : la compression vidéo broadcast

MPEG-2 est un standard générique de codage audio/vidéo,


unique à l’échelle internationale et indépendant des applications
et des supports de stockage ou de transmission. Il s’agit en réalité
d’une famille de standards, qui reprend les techniques de base de
MPEG-1, mais en les adaptant aux exigences de l’industrie
audiovisuelle broadcast, notamment en termes de résolution
d’image. À l’origine, MPEG-2 a été conçu pour couvrir toutes les
applications de distribution d’images et de sons par satellite,
câble et voie terrestre, ainsi que sur support enregistré de type
DVD. Par la suite, la norme a été étendue pour prendre en compte
les particularités des applications broadcast en production et post-
production – montage à l’image, effets spéciaux, incrustations
chromakey, multigénération, liaisons de contribution, etc.
Précisons cependant que la norme MPEG-2 se contente de
décrire les outils de compression des données, ainsi que la syn-
taxe du signal de transmission. La technique mise en œuvre dans
le codeur pour fabriquer ce signal est laissée au soin du construc-
teur et peut constamment évoluer. La qualité de l’image dépend
donc non seulement du débit et de la nature de l’image d’origine,
mais aussi de la qualité du codeur et du décodeur.
Par rapport à MPEG-1, les nouveautés introduites par MPEG-2
sont les suivantes :
– support de formats d’image d’entrée supérieurs, jusqu’à la
haute définition ;
– traitement du balayage entrelacé (50 trames/seconde) et du
balayage progressif (50 images complètes/seconde). Le sup-
port de l’entrelacé n’est pas sans apporter de complications,
notamment en ce qui concerne les vecteurs mouvement. Ces
derniers peuvent être déterminés sur une trame ou sur une
image, une décision étant prise indépendamment pour chaque
macrobloc en fonction de l’importance des mouvements ;
– codage hiérarchique permettant de transmettre différents
niveaux de qualité pour une même image, avec compatibilité
descendante entre les niveaux ;

265

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– compatibilité avec MPEG-1 – un décodeur MPEG-2 doit pou-


voir décoder un signal MPEG-1.

MPEG-2 est une famille de standards adoptée à l’échelle mondiale pour la distribution
d’images et de sons numériques grand public, mais aussi pour la production broadcast, qu’elle
soit standard ou à haute définition.

6.7.1. Les Profils et Niveaux de MPEG-2


La multitude des applications visées par MPEG-2 impliquait de
concevoir dès le départ non pas un standard unique sachant tout
faire, mais une famille de standards flexibles, capables de
s’adapter à toutes les situations en termes de techniques de
codage, résolutions et débits. C’est pourquoi MPEG-2 a été
conçue comme une boîte à outils, organisée en Profils et
Niveaux. Un Profil (Profile en anglais) définit le jeu d’outils de
compression utilisés, tandis qu’un Niveau fixe la résolution
maximale de l’image source.

[Link]. Les Profils de MPEG-2


À l’origine, les Profils étaient au nombre de cinq et ciblaient les
applications de diffusion et de distribution. Un sixième Profil
(Profil [Link]) a par la suite été défini pour répondre aux exi-
gences des travaux en studio.
– Le Profil simple : c’est le premier des Profils, celui qui possède
le moins d’outils. Il traite l’image en [Link] et n’utilise que des
images I et P.
– Le Profil principal (Main Profile ou MP) : c’est le Profil de
base utilisé pour la distribution grand public. Il reprend tous les
outils du Profil simple avec son traitement [Link], auxquels il
ajoute l’interpolation bidirectionnelle, c’est-à-dire le calcul des
images B. À débit égal, le Profil principal donne une meilleure
qualité d’image que le Profil simple.
– Le Profil d’échelonnabilité SNR (SNR Scalable, SNR pour
Signal/Noise Ratio) : il possède tous les outils du Profil princi-
pal, plus un qui le rend capable de séparer les données en deux

266

© Éditions Eyrolles
6 • La compression numérique

parties. La première partie forme le signal de couche de base et


contient les données relatives à une qualité d’image donnée. La
seconde partie forme un signal de couche supérieure qui,
ajouté au signal de la couche de base, améliore le rapport
signal sur bruit de l’image. Les deux parties assemblées don-
nent quasiment la même qualité d’image que le Profil princi-
pal à débit égal. Le Profil SNR permet, par exemple, de coder
une image MPEG-2 – qualité TV standard – sous la forme d’un
signal MPEG-1 – qualité SIF – associé à des informations sup-
plémentaires.
MPEG-2 (TV) = INFO MPEG-1 (SIF) + INFO SUP (TV)
– Le Profil d’échelonnabilité spatiale (Spatial Scalable) : il
possède tous les outils du Profil précédent, plus un, constituant
une autre méthode de division des données, en fonction cette
fois de la résolution de l’image. Il y a toujours un signal de
couche de base et un signal de couche supérieure, mais ce der-
nier améliore ici la résolution. Ce Profil permet, par exemple,
de coder un signal en haute définition sous la forme d’une
couche de base correspondant à une qualité TV standard, et
d’une couche supérieure portant les informations relatives à la
qualité HD. Un tel signal pourra alors être traité aussi bien par
un décodeur traditionnel que par un décodeur HD.
MPEG-2 (HD) = INFO MPEG-2 (TV) + INFO SUP (HD)
La caractéristique de subdivision de ce Profil engendre un
débit binaire 10 à 20 % plus élevé que le Profil principal pour
une qualité d’image équivalente.
– Le Profil élevé (High Profile) : il dispose de tous les outils du
Profil précédent et d’un outil supplémentaire, à savoir la capa-
cité de coder l’image au format [Link] (rappel : les quatre
Profils précédents ne supportent que le [Link]).
– Le Profil [Link] : destiné à la production/postproduction broad-
cast, ce Profil étend en fait les possibilités du Profil principal
en acceptant le traitement [Link], avec un débit maximal plus
élevé et un GOP plus court. Mais il n’entre pas dans la catégo-
rie des Profils échelonnables.

267

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. Les Niveaux de MPEG-2


Les Profils sont complétés par quatre Niveaux, déterminant la
résolution maximale de l’image d’entrée. Les décodeurs d’un
niveau donné sont capables de décoder tous les niveaux infé-
rieurs, mais pas les niveaux supérieurs – sauf en présence d’un
train binaire à échelonnabilité spatiale de résolution inférieure.
– Le bas Niveau (Low Level) : il n’accepte que le format source
SIF, caractérisé par une résolution spatiale et temporelle
réduite à 1/4 de celle du format d’image [Link] (c’est le format
source de MPEG-1).
– Le Niveau principal (Main Level) : c’est le niveau de base,
conforme au format d’image [Link].
– Le haut Niveau 1440 (High Level 1440) : c’est le niveau cor-
respondant à une image HD dotée de 1 440 points par ligne.
– Le haut Niveau (High Level) : c’est un niveau correspondant à
une image HD, mais renfermant cette fois 1 920 points par ligne.
Les combinaisons Profils/Niveaux sont regroupées dans le
tableau 6.2. Seules 13 combinaisons parmi les 24 théoriques ont
été retenues en tant que « points conformes à la norme MPEG-2 ».
Deux combinaisons de Profils et Niveaux couvrent aujourd’hui à
elles seules l’ensemble des applications courantes. La première est
le Main Profile @ Main Level, notée MP@ML, qui a longtemps
concentré sur elle tous les efforts. Elle est aujourd’hui à la base du
DVD-Vidéo, du format grand public MICROMV, et de tous les
bouquets de programmes numériques diffusés dans le monde,
avec des débits s’échelonnant entre 4 et 10 Mbits/s.
La seconde combinaison est le [Link] Profile @ Main Level
(notée 422P@ML), utilisée en studio avec un débit maximal de
50 Mbits/s. Une déclinaison pour la haute définition est égale-
ment prévue, le [Link] Profile @ High Level (422P@HL), avec
un débit pouvant atteindre 300 Mbits/s.

268

© Éditions Eyrolles
6 • La compression numérique

Tableau 6.2
Les Profils et Niveaux de la famille MPEG-2.
Dans chaque case sont indiqués respectivement le format d’entrée accepté, la résolution H × V, le débit maximal supporté et le
type d’images traitées.

Profil Simple Main [Link] SNR Spatial High

Niveau
High [Link] [Link], [Link] [Link], [Link]
1 920 × 1 152 1 920 × 1 152 1 920 × 1 152
80 Mbits/s 300 Mbits/s 100 Mbits/s
I, P, B I, P, B I, P, B

High-1440 [Link] [Link] [Link], [Link]


1 440 × 1 152 1 440 × 1 152 1 440 × 1 152
60 Mbits/s 60 Mbits/s 80 Mbits/s
I, P, B I, P, B I, P, B

Main [Link] [Link] [Link], [Link] [Link] [Link], [Link]


720 × 576 720 × 576 720 × 608 720 × 576 720 × 576
15 Mbits/s 15 Mbits/s 50 Mbits/s 15 Mbits/s 20 Mbits/s
I, P I, P, B I, P, B I, P, B I, P, B

Low [Link] [Link]


352 × 288 352 × 288
4 Mbits/s 4 Mbits/s
I, P, B I, P, B

La famille de standards MPEG-2 se divise en Profils et Niveaux. Les Profils définissent les outils
de compression utilisés, tandis que les Niveaux caractérisent la résolution de l’image. Le Profil
Principal est utilisé en diffusion et en distribution grand public. Le Profil [Link] est réservé aux
travaux en studio.

6.7.2. Le MPEG-2 422


(ou MPEG-2 422P@ML)
Le MPEG-2 422 est un standard de compression dédié à la pro-
duction/postproduction broadcast. Il est basé sur le Profil [Link],
version plus évoluée du Profil principal utilisé en
distribution/diffusion, qui ne pouvait convenir aux applications
de studio pour plusieurs raisons.
Tout d’abord, le Profil principal ne traite que le signal [Link],
amputé de la moitié de ses échantillons de chrominance en ver-
tical. Or, il est indéniable que la majorité des travaux de produc-
tion et de postproduction exigent que soit maintenue la résolu-
tion [Link] de l’image. D’autre part, le débit maximal autorisé par

269

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

le Profil principal, soit 15 Mbits/s, s’avère trop faible. Des tests


d’évaluation effectués par le comité MPEG ont, certes, montré
qu’une qualité d’image comparable au [Link] peut être observée
avec seulement 10 Mbits/s en première génération. Mais une si
grande efficacité de compression ne peut être obtenue qu’au
moyen d’un codage inter-image opérant sur des groupes (GOP)
de 12 images. Or, si le fait de ne pas pouvoir briser un groupe de
12 images n’est pas particulièrement gênant en diffusion, il
constitue un sérieux handicap en studio, où une précision de
montage à l’image est absolument indispensable. Si l’on veut
modifier les paramètres de codage pour réduire la longueur du
GOP, des débits dépassant largement 15 Mbits/s sont requis. La
valeur de 50 Mbits/s obtenue avec une compression exclusive-
ment intra-image, est considérée comme un bon compromis.
Enfin, le comportement en multigénération du Profil principal
est clairement insuffisant ; une perte notable de qualité peut être
observée dès le troisième cycle de codage/décodage.

Les « plus » du Profil [Link]


Le Profil [Link] reprend les outils de la norme MPEG-2 – il n’en
utilise pas de supplémentaire –, mais les exploite avec de nou-
veaux paramètres. Le codage s’effectue tout d’abord sur des
images en pleine résolution [Link], bien que le traitement en [Link]
reste possible (certaines applications en contribution ou distribu-
tion peuvent éventuellement s’en contenter). Par ailleurs, le
codage ne se limite pas seulement à la partie active de l’image,
mais inclut également une portion de suppression verticale. En
traitant ainsi 608 lignes au lieu des seules 576 actives, ce Profil
[Link] ménage une zone de réserve pour véhiculer différentes don-
nées auxiliaires. D’autre part, la longueur maximale du GOP a été
réduite à seulement deux images, pour améliorer la précision de
montage. Le Profil [Link] peut en outre se passer totalement de la
compression temporelle, et opérer en mode intra-image unique-
ment, codant chaque image séparément, à l’instar des systèmes M-
JPEG (le GOP se résume alors à une unique image I). C’est
d’ailleurs ce schéma qui est mis en œuvre dans la grande majorité
des applications basées sur le MPEG-2 422 (montage virtuel,
serveurs vidéo, format d’enregistrement MPEG-IMX,…).

270

© Éditions Eyrolles
6 • La compression numérique

L’efficacité de compression obtenue est équivalente à celle du DV,


mais environ 20 % supérieure à celle d’un système M-JPEG
(même qualité avec un débit 20 % plus faible, ou qualité jugée
meilleure à même débit). Cela s’explique notamment par une ges-
tion plus intelligente de l’entrelacé en MPEG-2 (comme en DV),
mais aussi par le fait que les tables de quantification sont ajustées
au niveau de chaque macrobloc, au lieu d’être définies une seule
fois pour l’ensemble de l’image. Actuellement, seul le format
d’enregistrement Betacam SX de Sony exploite les possibilités de
codage inter-image du MPEG-2 422, avec des GOP de deux
images (I, B) aboutissant à une compression 30 % plus efficace
qu’un codage intra-image. Le problème du montage à l’image a
pour sa part été résolu de manière très astucieuse. À chaque point
de montage où une image B doit être séparée de l’image I dont elle
dépend, cette image B est recodée en incluant toutes les informa-
tions de l’image I dont elle a besoin (une description plus détaillée
de cette opération est donnée dans le § 7.4.3).
Enfin, le Profil [Link] assure une compatibilité descendante avec
les Profils inférieurs. Autrement dit, un décodeur 422P@ML est
capable de traiter les flux numériques MP@ML, SP@ML, mais
aussi MPEG-1. En revanche, la notion d’échelonnabilité propre
aux Profils hiérarchiques ne constitue pas un besoin immédiat.
Elle ne fait donc pas partie des spécifications du Profil [Link],
pour ne pas alourdir inutilement la complexité et le coût des cir-
cuits intégrés.
En termes de qualité d’image, la compression MPEG-2 422
s’avère similaire à la compression DV. À 50 Mbits/s, elle est très
satisfaisante après des traitements de types effets spéciaux
numériques ou chromakey, et se maintient jusqu’à huit cycles de
compression/décompression. Le MPEG-2 422 et la famille DV
(ou fondée sur la réduction de débit DV) tendent à se substituer
aux multiples solutions M-JPEG propriétaires, qui pèchent par
leur manque crucial d’intéropérabilité.

Le MPEG-2 422P@ML (ou MPEG-2 422) étend les possibilités du Profil principal, essentielle-
ment en acceptant un signal [Link], en offrant un mode de compression intra-image et en sup-
portant un débit maximal de 50 Mbits/s.

271

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 6.17
Compromis qualité/débit/
complexité de montage en 50 Mbits/s Meilleure qualité
MPEG-2.
40 Mbits/s Courbe de
qualité constante
30 Mbits/s

20 Mbits/s

10 Mbits/s Moins bonne qualité

I IB IBBP Structure de GOP

Difficulté de montage croissante

Exemples d’applications :
News et acquisition : GOP IB 18 Mbits/s
Distribution : GOP IBBP 20 Mbits/s
Archivage : GOP IB 30 Mbits/s
Postproduction : GOP I 50 Mbits/s

Tableau 6.3
Comparaison entre le Profil principal et le Profil [Link] au niveau principal et en 625/ 50.

MP@ML 422P@ML
Signal d’entrée [Link] [Link]
ou [Link]
Débit maximal 15 Mbits/s 50 Mbits/s
Nombre de lignes codées 576 608
Types d’images codées I, B, P I, B
GOP 12 2
Montage non oui
Multigénération Limité oui
Applications Diffusion TV Production
Liaisons de contribution Postproduction
DVD

6.7.3. La technologie The Mole


Si le MPEG-2 est au cœur de nombreux équipements d’acquisi-
tion et d’enregistrement, il n’existe pas encore de régie vidéo
capable de traiter directement ce signal. Ainsi, toute manipulation
d’une image codée en MPEG-2 – ne serait-ce que l’incrustation

272

© Éditions Eyrolles
6 • La compression numérique

d’un sous-titre – impose de décoder le signal en [Link] série, puis


de le recoder en MPEG-2 après l’opération. Or, s’ils ne sont pas
effectués sans précautions, plusieurs cycles de décompression/
compression sont rapidement sources de dégradation de la qualité
de l’image. Les distorsions sont essentiellement dues au fait que
chaque codeur intervenant dans la chaîne réeffectue systématique-
ment tout le travail de compression, sans tenir compte de celui
effectué en amont par le codeur précédent. C’est pourquoi le
groupe de travail européen Atlantic a inventé la technologie The
Mole (la taupe), en coopération avec la BBC et la société britan-
nique Snell & Wilcox. Le but de cette technologie est de permettre
la concaténation de séries de décompression/compression MPEG-
2 sans détérioration du signal. Son principe consiste à extraire, lors
du premier décodage MPEG-2, tous les paramètres relatifs à la
compression effectuée en amont – GOP, vecteurs mouvement des
macroblocs, quantification, etc. Ces données sont alors formatées
et insérées de manière imperceptible dans le signal vidéo numé-
rique décompressé (d’où l’image de la taupe qui se fraie un che-
min dans des galeries souterraines, mais aussi de l’espion infiltré
dans le camp adverse). Plus précisément, ces données sont portées
par le 10e bit des échantillons de chrominance, bénéficiant ainsi
d’un généreux débit de 13,5 Mbits/s – l’infime disparition de
l’information de couleur est absolument invisible. Chaque codeur
qui suivra dans la chaîne de traitement reconstituera le signal
MPEG-2 en réutilisant ces données au lieu de les recalculer naï-
vement lui-même selon ses propres décisions. Ce processus de
clonage du signal MPEG-2 peut être réitéré autant de fois que
nécessaire avec la même précision mathématique. La qualité
d’image de la première compression est alors maintenue au travers
des multiples cycles de décodage/codage.
Cette technologie est actuellement la seule qui autorise le traite-
ment multigénération de signaux MPEG-2 dans un environnement
numérique série conventionnel. Elle permet en outre le transco-
dage MPEG-2 à différents débits, assurant par exemple la conver-
sion d’un signal MPEG-IMX en un signal Betacam SX.

273

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

La technologie The Mole permet de véhiculer de manière invisible les paramètres de compres-
sion entre un décodeur et un codeur MPEG-2. Ces paramètres sont ainsi réutilisés dans tous
les cycles de décompression/compression que subit le signal dans une chaîne vidéo, ce qui
assure un traitement transparent en termes de qualité.

6.8 Les applications de la compression numérique

Tableau 6.4
Les principales applications de la compression numérique.

Application Compression

Librairies d’images fixes JPEG


Montage virtuel M-JPEG, DV, MPEG-2 422P@ML
Enregistrement broadcast M-JPEG, DV, MPEG-2 422P@ML
Enregistrement grand public DV, MPEG-2 MP@ML
Diffusion TV MPEG-2 MP@ML
DVD MPEG-2 MP@ML
CD-Rom, multimédia MPEG-1

6.8.1. Les formats d’enregistrement vidéo


On distingue aujourd’hui trois familles de systèmes de réduction
de débit adaptées à l’enregistrement vidéo : le M-JPEG, le DV et
le MPEG-2. Elles ont donné naissance, ces dernières années, à
plus d’une dizaine de formats de magnétoscopes, aussi bien en
définition standard qu’en haute définition.

[Link]. M-JPEG
Le M-JPEG (ou Motion-JPEG) n’est pas une norme, mais plutôt
une famille de systèmes propriétaires et spécifiques, que chaque
fabricant a développé de son côté vers le milieu des années 90, à
l’époque où il n’existait aucun standard de réduction de débit
dédié à la vidéo. Le M-JPEG code chaque image d’une séquence
vidéo de manière indépendante en JPEG, au rythme de 25 par
seconde. Il s’agit donc d’une compression intra-image, mais qui
utilise des tables de quantification non standard, ce qui rend
incompatibles entre elles les différentes solutions commerciali-

274

© Éditions Eyrolles
6 • La compression numérique

sées. La compression M-JPEG est jugée sans perte jusqu’à un


taux de 3:1 et virtuellement transparente jusqu’à 10:1. Le M-
JPEG a donné naissance au format Digital Betacam, ainsi qu’aux
formats à haute définition HDCAM et D5-HD. Mais il ne fait
aujourd’hui quasiment plus l’objet de développements nouveaux,
les constructeurs préférant recentrer leur offre autour des récents
standards DV et MPEG-2, pour des raisons d’intéropérabilité.

[Link]. DV
Le DV reprend à son compte la plupart des caractéristiques du
M-JPEG, mais présente deux atouts fondamentaux. Tout
d’abord, il repose sur un algorithme de compression intra-image
totalement normalisé et utilisé aujourd’hui par la quasi totalité de
l’industrie de la vidéo (on peut aujourd’hui tourner et monter
sans aucun transcodage, en restant au format natif DV). Ensuite,
il bénéficie d’un codage optimisé de l’image (tables de quantifi-
cation calculées par zones), se traduisant par une meilleure qua-
lité que le M-JPEG. Il est admis que, toutes conditions égales par
ailleurs, une compression DV à un taux de 5:1 équivaut à une
compression M-JPEG à 3:1. Conçu à l’origine uniquement pour
le marché des caméscopes et magnétoscopes numériques grand
public, le DV est rapidement devenu un véritable moteur de
compression universel, utilisé maintenant par les trois grands
constructeurs de magnétoscopes broadcast, ainsi que par les
fabricants de systèmes de montage virtuel et de stockage sur
disques durs. L’algorithme de compression/décompression DV à
25 Mbits/s (on parle communément de compression « DV25 »)
est implémenté sur un seul circuit intégré, totalement symétrique
et configurable en [Link] ou en [Link]. Il est employé aussi bien
dans les produits DV grand public que dans les équipements
broadcast aux formats DVCAM et DVCPRO25. Pour les appli-
cations plus haut de gamme, la compression DV peut s’appliquer
à un signal [Link] et délivrer alors un débit de 50 Mbits/s (com-
pression « DV50 »). Ce procédé, mis en œuvre dans les formats
D9 et DVCPRO50, fait appel à deux circuits DV25 travaillant en
parallèle, chacun traitant un flux « [Link] ». Sur le même principe,
quatre circuits « DV25 » peuvent compresser un signal à haute

275

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

définition, réduisant son débit dans un facteur 10, à 100 Mbits/s


(formats DVCPRO-HD et D9-HD).

[Link]. MPEG-2 422


Le MPEG-2 422 est le seul des trois systèmes de compression
présentés ici à pouvoir travailler en mode inter-image, codant les
images non plus individuellement, mais par paires, tirant parti de
leurs ressemblances. L’efficacité de la compression est ainsi
accrue d’environ 30 %, mais le montage à l’image près nécessite
quelques traitements particuliers aux points d’édition. Ce
schéma est mis en œuvre uniquement dans le format d’enregis-
trement Betacam SX de Sony, avec un débit vidéo sur bande de
18 Mbits/s (en [Link] ; à comparer avec les 25 Mbits/s du DV en
[Link] ou [Link]). En revanche, l’ensemble des autres applications
basées sur le MPEG-2 422 ne font pas appel à la compression
inter-image et se restreignent à une compression intra-image,
avec un débit type de 50 Mbits/s. La qualité obtenue est alors
similaire à celle du DV. C’est le format d’enregistrement MPEG-
IMX de Sony qui a véritablement lancé le MPEG-2 422 intra-
image, système repris ensuite par plusieurs fabricants de ser-
veurs vidéo et de stations de montage virtuel.
Équivalents en termes de qualité (et supérieurs au M-JPEG), le DV et le MPEG-2 422 sont les
deux standards de compression les plus courants dans les applications broadcast actuelles. Le
DV25 et le MPEG-2 422 inter-image, respectivement à 25 et 18 Mbits/s, sont utilisés pour les
applications de news et sport. Le DV50 et le MPEG-2 422 intra-image visent la
production/postproduction lourde, avec un débit de 50 Mbits/s.

[Link]. Panorama des formats d’enregistrement


compressés
Les familles de compression M-JPEG, DV et MPEG-2 sont
exploitées par différents formats d’enregistrement numériques,
que l’on peut regrouper en quatre catégories d’applications :
– grand public : DV, MICROMV ;
– reportage news/sport : DVCPRO25, DVCAM, Betacam SX ;
– production/postproduction haut de gamme : Digital Betacam,
DVCPRO50, D9, MPEG-IMX ;

276

© Éditions Eyrolles
6 • La compression numérique

– haute définition : D5-HD, DVCPRO-HD, D9-HD, HDCAM.


Ces formats se différencient bien sûr par le schéma de réduction
de débit employé, mais aussi par la structure du signal vidéo
source, qui n’est pas toujours le [Link].
En matière de télévision standard (la haute définition est traitée
dans le § 7.22), les quatre formats qui se partagent le marché du
haut de gamme (Digital Betacam, DVCPRO50, D9, MPEG-
IMX) conservent la pleine résolution du signal [Link] afin d’au-
toriser, sans dégradation perceptible, les multiples générations et
les manipulations délicates de l’image aux travers de systèmes
d’effets et d’incrustations en chromakey. Ils sont également
adaptés à l’archivage de documents susceptibles de recevoir des
traitements de postproduction ultérieurs. Ces formats mettent en
œuvre une compression intra-image très modérée, (de 2:1 à
3,3:1) aboutissant à un débit vidéo ne descendant pas en dessous
de 50 Mbits/s. Des tests comparatifs effectués sur ces quatre for-
mats révèlent en substance que le DVCPRO50, le D9 et le
MPEG-IMX offrent une qualité d’image identique au Digital
Betacam (qui tient le haut du pavé) jusqu’à la quatrième généra-
tion, et légèrement inférieure à la septième génération.
Dans le domaine de la production légère en revanche, les exi-
gences sur le plan qualitatif sont moins sévères. Certes, un bon
niveau de qualité est requis en acquisition, mais les ajouts d’effets
de postproduction sont plus rares et le nombre de générations est
relativement faible. On peut donc se permettre de pousser plus
loin la réduction de débit, soit en compressant davantage le signal
[Link] grâce à un codage inter-image, soit en travaillant avec des
taux de compression restant raisonnables, mais appliqués à un
signal de base déjà allégé d’informations jugées peu pertinentes.
Les trois formats numériques se disputant le marché de la pro-
duction légère et du reportage déploient chacun une méthode dif-
férente. Le Betacam SX de Sony travaille sur un signal [Link]
assez fortement compressé en MPEG-2 inter-image (10:1), tandis
que le DVCAM et le DVCPRO25 utilisent une compression DV
intra-image plutôt modéré (5:1) mais appliquée à un signal vidéo
dont la résolution en chrominance est préalablement diminuée de
moitié. Cette opération de filtrage de la chrominance est réalisée

277

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

dans le sens vertical en DVCAM (signal [Link]) et dans le sens


horizontal en DVCPRO25 (signal [Link]). Dans les deux cas,
l’économie en terme de volume de données avant compression
est de 25 %. La qualité de l’image produite par ces trois formats
est comparable à celle du Betacam SP jusqu’à la quatrième géné-
ration et reste acceptable – en tous cas légèrement supérieure au
Betacam SP – à la septième génération.
Tableau 6.5
La compression et les formats d’enregistrement vidéo standard.

Signal vidéo Algorithme de Taux de Débit vidéo


compression compression
Digital Betacam [Link], 10 bits M-JPEG 2:1 99 Mbits/s
MPEG-IMX [Link], 8 bits MPEG-2 422 intra-image 3,3:1 50 Mbits/s
D9 [Link], 8 bits DV 3,3:1 50 Mbits/s
DVCPRO50 [Link], 8 bits DV 3,3:1 50 Mbits/s
Betacam SX [Link], 8 bits MPEG-2 inter-image 10:1 18 Mbits/s
DVCPRO25 [Link], 8 bits DV 5:1 25 Mbits/s
[Link] (625/50)
DV, DVCAM [Link] (525/60), DV 5:1 25 Mbits/s
8 bits
MICROMV [Link], 8 bits MPEG-2 inter-image 10:1 12 Mbits/s

6.8.2. L’enregistrement sur disques durs :


les serveurs vidéo
Les serveurs vidéo sont des équipements de stockage multicanal
sur disques durs magnétiques, apparus au milieu des années 90.
Grâce à l’augmentation spectaculaire de la capacité individuelle
des disques durs d’une part, et l’exploitation de la compression
numérique d’autre part, un serveur peut aujourd’hui contenir
plusieurs heures de programmes aux différents formats vidéo.
Les principaux atouts de tels systèmes par rapport aux enregis-
treurs à bande sont la gestion de plusieurs canaux, l’accès ins-
tantané aux éléments, et l’exploitation de ces éléments simulta-
nément par plusieurs utilisateurs. Au chapitre des inconvénients,
il faut mentionner le coût élevé des disques par rapport à la

278

© Éditions Eyrolles
6 • La compression numérique

bande magnétique (celle-ci restera longtemps imbattable sur ce


point) et le fait qu’ils ne sont pas facilement interchangeables.
Certes, il existe des disques amovibles, mais leurs performances
et leur capacité sont encore insuffisantes pour la plupart des
applications. Les serveurs vidéo offrent aujourd’hui un degré de
fiabilité incomparable, si bien que leur utilisation tend à se géné-
raliser dans de nombreux domaines comme l’actualité télévisée,
la diffusion et la postproduction, en lieu et place des magnéto-
scopes.

[Link]. Constitution d’un disque dur


Contrairement à une cassette vidéo, le disque dur n’est pas uni-
quement un support d’enregistrement. Il s’agit en fait d’un
ensemble comprenant l’unité de stockage, les têtes d’enregistre-
ment/lecture, l’électronique de traitement, ainsi que les moteurs
de rotation des disques et de déplacement des têtes, le tout étant
disposé dans une enceinte close. L’unité de stockage en elle-
même se compose d’un empilage de plateaux rigides, recouverts
sur leurs deux faces d’une couche de matériau magnétique. À
chaque couche magnétique est associée une tête d’enregistre-
ment/lecture. Les têtes sont fixées sur une série de bras portés par
un même ensemble mobile, ayant l’apparence d’un peigne, et
venant s’imbriquer entre les plateaux. Pour permettre un accès
aléatoire, les données sont enregistrées sur des pistes circulaires
concentriques plutôt que sur une spirale, comme c’est le cas du
Compact Disc. Elles sont formatées en blocs par partage d’une
rotation en plusieurs secteurs. Chaque bloc correspond à une
adresse identifiant le plateau, la tête, et le secteur. Quand cette
adresse est envoyée au disque pour un enregistrement ou une lec-
ture, un processus de recherche du bloc est déclenché, suivi du
positionnement de la tête adéquate. Le temps pris par ce calage
tête/bloc est appelé temps d’accès. Le très fin film d’air provoqué
par la rotation du plateau soulève légèrement la tête (de quelques
microns), évitant ainsi son contact avec la couche magnétique.
Avec le disque dur, il n’y a donc aucun risque d’érosion de la tête
ou du support, contrairement au cas du magnétoscope.

279

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. La technologie RAID


Pour offrir un volume de stockage de plusieurs heures de pro-
grammes allié à des temps d’accès réduits, les serveurs vidéo
sont équipés de disques durs agencés en architecture RAID
(Redondant Array of Independant Disk, que l’on traduit par bat-
terie redondante de disques indépendants). Le principe de cette
technologie consiste à partager le débit à enregistrer entre plu-
sieurs disques durs classiques, empilés en matrices, et gérés
comme un seul volume. Des informations de parité sont ajoutées
aux données utiles pour assurer un certain degré de sécurisation
en cas de défaillance de l’un des disques. Cela peut aller jus-
qu’au remplacement à chaud d’un disque en panne, avec rechar-
gement des données manquantes à partir des informations de
parité, sans perturber la diffusion. Il existe en tout six architec-
tures de RAID, mais quatre seulement sont actuellement utili-
sées.
– RAID 0 : Les données sont réparties entre plusieurs disques,
mais sans aucune redondance, donc sans protection. Cette
architecture est, de toutes, celle qui offre la meilleure capacité
de stockage (tout le disque est utilisé par les données utiles), la
plus grande rapidité d’accès, mais tout cela sans aucune sécu-
rité. Si un disque tombe en panne, c’est l’ensemble du système
qui est paralysé.
– RAID 1 : Les données sont intégralement dupliquées sur un
second groupe de disques, fonctionnant en mode miroir. La
redondance est totale, la sécurité est maximale, mais le volume
de stockage doit être doublé (50 % est dédié à la protection),
donc le prix aussi.
– RAID 3 : Cette architecture utilise un disque supplémentaire,
exclusivement réservé à l’enregistrement des données de
parité. Les informations utiles sont quant à elles réparties de
manière cyclique sur l’ensemble des disques de données. Les
performances sont proches de celles du RAID 0 et le prix de la
redondance est moins élevé qu’en RAID 1. Particulièrement
adaptée à la gestion de fichiers de taille élevée (la lecture se
fait en parallèle sur les différents disques), cette architecture
est très répandue dans les systèmes audio et vidéo. Mais elle

280

© Éditions Eyrolles
6 • La compression numérique

présente l’inconvénient de ne pas permettre la réalisation


d’écritures multiples et de lectures simultanées.
– RAID 5 : C’est une évolution du RAID 3, bénéficiant de deux
changements majeurs. Premièrement, les blocs de données
adressés sont plus longs. Deuxièmement, au lieu d’être enre-
gistrés sur un seul disque spécifique, les bits de parité sont
répartis sur l’ensemble des disques du système, sauf sur celui
où sont stockées les données utiles auxquelles ils se réfèrent
(ce qui permet de les reconstituer en cas de panne). Le pro-
blème des lectures/écritures multiples et simultanées est ici
résolu. Les constructeurs et intégrateurs proposent de nom-
breuses variantes autour du RAID 5.

Le disque dur offre pour principal avantage, par rapport à la bande magnétique, l’accès
immédiat à n’importe quel élément enregistré. En revanche, le coût du support est beaucoup
plus élevé et les quelques disques durs amovibles qui existent aujourd’hui offrent des capacités
d’enregistrement bien inférieures à celles des cassettes vidéo.

Tableau 6.6
Volume de stockage sur disque en fonction de chaque format d’enregistrement..

Format Débit vidéo Espace requis pour un


Mégabits/s Mégaoctets/s programme d’une heure
HDTV non compressé (D6) 920 115 414 Go
D5-HD 235 29,4 106 Go
DVCPRO-HD/D9-HD 100 12,5 45 Go
HDCAM 140 17,5 63 Go
[Link], 8 bits (D1) 166 21 75 Go
[Link], 10 bits (D5) 207 26 94 Go
Digital Betacam 99 12,4 45 Go
MPEG-IMX/DVCPRO50/D9 50 6,2 23 Go
DVCPRO25/DVCAM/DV 25 3,1 12 Go
M-JPEG qualité Betacam SP 25 3,1 12 Go
Betacam SX 18 2,2 8 Go
MPEG-2 [Link] MP@ML (max) 15 1,8 7 Go
MPEG-2 [Link] MP@ML (min) 3 0,4 1,4 Go
MICROMV 12 1,5 5,5 Go
DVD-Vidéo 4,5 0,6 2,1 Go
MPEG-1 1,2 0,15 540 Mo

281

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

6.8.3. Le montage virtuel


Si les éditeurs de montage linéaire pilotant directement des
magnétoscopes en lecture et en enregistrement continuent à
rendre bien des services dans certaines applications, ils cèdent
aujourd’hui souvent la place à des systèmes de montage virtuel
(ou montage non-linéaire) assisté par ordinateur. Ce concept, né
avec l’avènement de la compression numérique et l’apparition
de disques durs de grande capacité, consiste à charger tous les
rushes (terme désignant le matériau brut issu du tournage) dans
une station de travail informatique et à effectuer l’intégralité du
montage au moyen de l’outil informatique, avec un logiciel spé-
cifique. Si l’ensemble des opérations peut être contrôlé à la sou-
ris et au clavier alphanumérique, certains constructeurs propo-
sent une télécommande dédiée reprenant l’ergonomie d’un
pupitre de montage classique (avec notamment de grandes
touches pour les fonctions les plus usuelles et une molette de
recherche jog-shuttle).

[Link]. Montage on line, montage off-line


On distingue deux types de montage virtuel.
Le montage on-line : les rushes sont numérisés sur une station
haut de gamme, avec un taux de compression minimum (géné-
ralement pas plus de 5:1) car le montage s’effectue directement
sur ces éléments. Le programme fini élaboré sur la plate-forme
de montage virtuel on-line est un master pouvant être diffusé tel
quel.
Le montage off-line : les rushes sont numérisés avec un taux de
compression beaucoup plus élevé (sur une station moins oné-
reuse) car ils ne servent qu’à fabriquer une maquette du mon-
tage. Le travail à effectuer est similaire au cas du montage on-
line, à la différence près que le produit résultant n’est pas un
programme exploitable, mais une liste des points de montage (ou
EDL, Edit Decision List) qui sera utilisée ultérieurement pour
une conformation à partir des éléments originaux.

282

© Éditions Eyrolles
6 • La compression numérique

[Link]. Les bases du montage virtuel


La première étape d’un montage virtuel consiste à transférer les
rushes sur le disque dur de la station informatique. Selon leur
format d’origine, ils sont numérisés et/ou soumis à une réduction
de débit M-JPEG, DV ou MPEG-2. Tous les plans apparaissent
alors individuellement à l’écran dans une fenêtre appelée « chu-
tier » (par analogie au film), où ils sont identifiés chacun par une
imagette représentative. Cette séparation des plans est un atout
appréciable du montage virtuel, que l’on retrouve en film
(découpage de la pellicule), mais pas en vidéo traditionnelle (la
bande ne peut pas être coupée physiquement). Le monteur peut
alors visionner et glisser-déposer les plans qu’il a choisis d’as-
sembler dans un écran d’édition, généralement sur un autre
moniteur. Une fois l’ordre des plans établi, il peut caler leurs
débuts et fins image par image et choisir, si nécessaire, un effet
de transition. Le visionnage de la continuité de la séquence tra-
vaillée s’effectue dans la plupart des cas en plein écran sur un
moniteur vidéo. Un ruban de continuité appelé time-line, s’éten-
dant sur toute la largeur de l’écran d’édition, donne une repré-
sentation graphique linéaire de l’enchaînement des plans (avec
leur mode de transition), ainsi que du chevauchement des pistes
audio, comme en montage film.
Tout ce qui est vu et fait durant l’élaboration du programme n’est
que simulation (d’où le terme « virtuel » utilisé pour désigner ce
type de montage), aucune recopie physique des plans n’étant réa-
lisée préalablement à leur assemblage. L’avantage fondamental
du montage virtuel est qu’il apporte à la vidéo la souplesse du
montage film, en épargnant au monteur la contrainte du linéaire
inhérent à la cassette (rembobinage d’une certaine quantité de
bande à chaque recalage). Par analogie, on pourrait comparer ses
bienfaits à ceux qu’a apporté le traitement de texte par rapport à
la machine à écrire mécanique. La modification, l’insertion, et la
suppression d’éléments sont possibles à tout moment et à n’im-
porte quel endroit sur un travail déjà effectué, selon le principe
du « couper-coller ». Aucun ordonnancement n’étant définitif, le
monteur peut avoir une approche naturelle et instinctive devant
un ensemble de rushes. Plusieurs versions de montage peuvent

283

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

être simulées, visualisées immédiatement et conservées ; un


montage peut être interrompu temporairement pour être repris,
voire reconstruit ultérieurement, par exemple au fur et à mesure
de l’arrivée d’images nouvelles.
Sur le plan économique et à performances équivalentes, une sta-
tion de montage virtuel est bien moins coûteuse qu’une régie de
postproduction multimachine traditionnelle. Elle apporte une
souplesse et une efficacité de travail plus grandes, mais pose
cependant certaines contraintes. Le monteur doit notamment
assurer une gestion optimale de l’espace de stockage disponible
sur le disque dur, surtout s’il travaille en mode on-line. On
n’ajoute pas de disque dur sur un ordinateur aussi facilement
qu’on change de cassette vidéo dans un magnétoscope pour dis-
poser de nouveaux plans. Une solution assez couramment utili-
sée pour éviter une saturation des disques consiste à numériser
dans un premier temps les images en basse résolution (donc peu
volumineuses), effectuer le montage comme en off-line, puis
effacer ces images pour les remplacer par les originaux (on ne
numérise dans ce cas que les plans sélectionnés au lieu de l’en-
semble des rushes).

Le montage virtuel s’effectue sur un ordinateur à partir d’éléments numérisés et stockés sur
disque dur. Le monteur peut modifier à loisir le choix, la durée et l’ordre de ses plans, puisque
toutes ces opérations ne consistent qu’à manipuler des adresses de fichiers.
Une station travaillant en mode on-line délivre directement un produit fini de qualité broad-
cast, alors qu’une station de type off-line ne fournit qu’une liste de points montage.

6.8.4. Le DVD
Le DVD (Digital Versatile Disc) est un nouveau standard tech-
nologique qui se décline en une famille de disques compacts
ayant des capacités et des fonctionnalités différentes. Il vise une
multitude d’applications dans le domaine de la vidéo, de l’audio
et de l’informatique. Le disque DVD se présente sous un aspect
comparable à celui d’un CD-Rom, mais sa capacité de stockage
est, selon le modèle, de 7 à 30 fois supérieure. Le secret de cette
incroyable capacité réside dans l’utilisation d’un nouveau laser

284

© Éditions Eyrolles
6 • La compression numérique

rouge-orangé, de longueur d’onde de 650 nm au lieu de 780 nm.


Celui-ci est capable de lire des pistes plus fines et gravées moins
en profondeur que celles d’un CD-Audio. L’épaisseur utile du
disque a ainsi pu être réduite de moitié, ce qui a permis de fabri-
quer des CD composés de deux couches gravées de 0,6 mm (au
lieu d’une seule couche de 1,2 mm). La technique utilisée pour
lire la couche la plus profonde consiste à changer la focalisation
du laser afin que la première devienne pour lui transparente. Ce
changement de couche s’effectue en moins d’une seconde et peut
être considéré comme imperceptible. La classification retenue
pour les disques DVD est la suivante (à comparer avec la capa-
cité d’un CD-Rom standard qui est de 650 Mo).
En lecture seule :
– DVD 5 : simple face / simple couche, capacité 4,7 Go ;
– DVD 9 : simple face / double couche, capacité 8,5 Go ;
– DVD 10 : double face / simple couche, capacité 9,4 Go ;
– DVD 18 : double face / double couche, capacité 17 Go.
En enregistrement :
– DVD-R : enregistrable une seule fois, capacité 4,7 Go/face ;
– DVD-RW : réinscriptible 1000 fois, capacité 4,7 Go/face ;
– DVD+RW : réinscriptible 100.000 fois, capacité 4,7 Go/face ;
– DVD-RAM : réinscriptible 100.000 fois, capacité 4,7 Go/face.
Le DVD-Vidéo utilise une compression MPEG-2 MP@ML, la
même que les systèmes de diffusion numérique, avec un codage
[Link], mais un GOP de 15 images au lieu de 12. Il présente
comme particularité de travailler avec un débit variable, oscillant
en moyenne autour de 4,5 Mbits/s, avec un maximum de
9,8 Mbits/s. Le modèle de DVD le plus simple, à savoir le
DVD 5, peut ainsi contenir un programme de 133 minutes. Les
principales caractéristiques du DVD-Vidéo sont les suivantes :
– qualité d’image très honorable (si la compression est effectuée
correctement) ;
– toutes les combinaisons d’affichage aux formats 4/3 et 16/9
(anamorphose, pan/scan, ...) ;

285

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– qualité audio égale à celle du CD avec possibilité de codage


multicanal Dolby Digital 5+1 (qui a été préféré, en tant que
standard, au MPEG-2) ;
– choix parmi 8 versions audio et 32 sous-titrages différents pour
un même film ;
– possibilité de visualiser des programmes multicaméra en sélec-
tionnant son angle de vue avec sa télécommande (jusqu’à 9
positions caméras) ;
– suppression à la lecture de certaines séquences au moyen
d’une clé parentale numérique (plusieurs niveaux de protec-
tion) ;
– accès immédiat à n’importe quelle image du disque ;
– compatibilité en lecture avec les CD-Audio et les CD-Vidéo ;
– visionnage possible sur micro-ordinateur compatible.
Le DVD-Vidéo utilisant une norme adoptée à l’échelle mon-
diale, un système de codage des lecteurs et des disques a été mis
en place par zone géographique afin de contrôler les dates de dis-
tribution des films et protéger les droits d’auteur. Six zones de
commercialisation ont été définies : 1 (États-Unis, Canada),
2 (Europe, Japon, Afrique du Sud), 3 (Asie du Sud Est),
4 (Australie, Mexique, Amérique du Sud), 5 (Pays de l’Est,
Russie, Inde, Afrique), 6 (Chine). Les lecteurs DVD sont codés
par les constructeurs pour une seule zone, tandis que les disques
peuvent parfois être codés pour plusieurs. Certains revendeurs
proposent des lecteurs modifiés « toutes zones », ce qui est tota-
lement illégal. D’autre part, le DVD-Vidéo est protégé par des
systèmes très sophistiqués empêchant toute copie non autorisée.
Signalons enfin que les spécifications du DVD font également
état d’un petit disque de diamètre 8 cm, dont les capacités sont
environ trois fois inférieures à celles du modèle standard. Il est
notamment utilisé dans les caméscopes grand public.

Le DVD est un disque optique utilisant la même technologie de lecture par faisceau laser que le
CD, mais offrant une capacité de 7 à 30 fois supérieure, selon la version. Il se destine aussi
bien à l’audio (DVD-Audio), à la vidéo (DVD-Vidéo), qu’à l’informatique (DVD-Rom).

286

© Éditions Eyrolles
6 • La compression numérique

6.8.5. La diffusion numérique


Qu’elle s’effectue par satellite, par câble, ou par voie hertzienne,
la diffusion de bouquets de programmes numériques compressés
est un succès partout où elle est opérationnelle dans le monde.
L’apport de la compression numérique en diffusion est avant tout
économique. Du fait de la réduction de la bande passante occu-
pée par un signal compressé, il devient possible d’en diffuser plu-
sieurs dans un canal occupé traditionnellement par un seul signal
analogique. Dans le cas d’une diffusion par satellite par exemple,
un transpondeur disposant d’une largeur de bande de 34 Mbits/s
peut être utilisé pour véhiculer quatre programmes compressés
en MPEG-2 MP@ML à 8 Mbits/s (codage [Link], GOP = 12) avec
une qualité d’image très satisfaisante. Seulement, les diffuseurs
sont évidemment tentés de réduire au maximum les coûts de
transmission et ne se contentent que très rarement de quatre
canaux par transpondeur. Ils n’hésitent pas à réduire davantage
les débits alloués à chaque programme afin d’en loger un nombre
supérieur dans la largeur de bande disponible. Avec un débit indi-
viduel de 4 Mbits/s, ils peuvent ainsi diffuser huit programmes au
lieu de quatre, ce au détriment de la qualité de l’image (les pro-
messes en ce domaine sont loin d’êtres tenues...). Il faut cepen-
dant savoir que le débit requis pour une qualité d’image donnée
diffère selon la nature du programme. Par exemple, la retrans-
mission d’une manifestation sportive requiert un débit presque
deux fois plus élevé que la diffusion d’un film (richesse des
détails fins, fluidité des mouvements, etc.). On peut donc adapter
l’allocation des débits en fonction du type de programme diffusé.
Mieux, des techniques d’encodage permettent aujourd’hui de
faire varier instantanément le débit vidéo au sein d’un même pro-
gramme, en fonction de la complexité des images à coder, afin de
maintenir un niveau de qualité constant.
Il est important de préciser que les dégradations que l’on peut
observer sur une image transmise en numérique sont essentielle-
ment dues aux paramètres de compression choisis au moment du
codage. Le signal numérique ne souffre pas des traditionnels
brouillages, bruits et réflexions qui parasitent une transmission
analogique. La qualité de l’image définie au début de la liaison

287

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

numérique est conservée jusqu’au téléspectateur (sauf en cas


d’erreurs graves sur le signal binaire).
Outre la multiplication des programmes, la diffusion numérique
pave la voie au développement de nouveaux services de données
interactifs. On citera la consultation de guides de programmes, le
multilinguisme (avec choix de la langue et des sous-titres), le
commerce électronique, le paiement à la séance, la télévision à
la demande, etc.

En diffusion, un débit de 4 à 10 Mbits/s, obtenu avec une compression MPEG-2 MP@ML per-
met d’obtenir à la réception une qualité d’image comparable aux standards PAL/SECAM
(4 Mbits/s pour les films, au moins 7 Mbits/s pour le sport). Il faut monter jusqu’à 10-12
Mbits/s pour atteindre un niveau de qualité proche du [Link]. Pour la haute définition, un débit
de 20 Mbits/s est nécessaire.

6.8.6. La vidéo sur Internet


La diffusion de la vidéo sur Internet, aujourd’hui devenue une
réalité, est pour beaucoup le symbole de la convergence. Certes,
la normalisation s’amorce à peine, les modèles économiques
sont loin d’être trouvés et les performances des réseaux de trans-
mission sont encore largement insuffisants pour délivrer une
qualité aussi confortable que celle du téléviseur. Il n’empêche
que bon nombre d’acteurs franchissent d’ores et déjà le pas,
dépassant le cadre strict des images et du texte, et fournissant sur
le Web des contenus audiovisuels. Il est vrai que pour la quasi
totalité des internautes aujourd’hui, visionner de la vidéo sur
Internet consiste à regarder une suite d’images approximatives,
assez floues, mosaïquées, très peu fluides et affichées dans une
fenêtre dont la diagonale dépasse rarement les 10 cm sur le
moniteur d’un micro-ordinateur. Techniquement, cette nouvelle
forme de télévision sur Internet laisse donc grandement à dési-
rer, mais il y a fort à parier qu’au delà d’un effet de mode, elle
est promise à un bel avenir. De très nombreux éditeurs proposent
déjà des web-TV, chaînes spécialement conçues pour le Web (on
y trouve le meilleur comme le pire, comme à l’époque des pre-
mières radio libres), et les diffuseurs traditionnels n’hésitent pas

288

© Éditions Eyrolles
6 • La compression numérique

à décliner leurs programmes sur le net en y ajoutant une dose


d’interactivité. On trouve également des sites proposant des pro-
grammes institutionnels (souvent payants), des bandes annonces
de films, des clips vidéo, des coulisses d’événements, ainsi
qu’une quantité pléthorique de webcams. En s’emparant déjà
sans retenue d’une technologie qui se cherche encore, les indus-
triels fourbissent leurs armes pour être totalement opérationnels
le jour où le principal goulot d’étranglement qu’est le débit des-
servant le poste client sera résorbé.

[Link]. Téléchargement et streaming


Deux possibilités sont aujourd’hui offertes pour transmettre des
programmes vidéo sur Internet : le streaming et le téléchargement.
La première solution, le streaming, fait appel aux derniers algo-
rithmes de compression vidéo et a nécessité de concevoir de
nouveaux protocoles de gestion de transmission sur Internet,
mieux adaptés au transfert d’un flux continu en temps réel, et
permettant au client de naviguer dans les séquences qu’il
visionne. Car contrairement au cas du téléchargement tradition-
nel, la consultation d’une vidéo en mode streaming peut s’effec-
tuer une poignée de secondes après qu’a débuté la connexion, le
temps qu’une mémoire tampon absorbe les irrégularités du trans-
fert et emmagasine quelques secondes d’images d’avance. À
chaque requête de la part d’un utilisateur, le serveur détecte le
type de liaison établi et délivre une version du fichier adaptée
aux conditions de réception. Le disque dur de l’utilisateur n’est
pas sollicité, le logiciel lecteur décompresse à la volée les don-
nées reçues et assure la synchronisation des images et du son.
Durant la consultation, des données de contrôle indiquent au ser-
veur comment le flux est reçu. En conséquence de quoi la vitesse
de transfert des paquets de données peut être ralentie ou accélé-
rée. La continuité à l’affichage est assurée tant que la mémoire
tampon ne se vide pas, c’est-à-dire tant que le réseau n’est pas
congestionné. Le streaming, qui peut s’effectuer en direct ou en
différé (« à la demande »), est un concept inventé en 1995 par la
société RealNetworks, qui a débuté avec l’audio uniquement.
Depuis, il est le terrain de dispute entre trois acteurs qui ont cha-

289

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

cun tenté d’imposer leur propre solution clé en main (logiciels de


codage et de gestion de flux, serveur de média dédié, logiciel
lecteur). Real (RealNetworks) toujours leader, doit désormais
faire face à la concurrence de QuickTime (Apple), ainsi que du
plus récent Windows Media (Microsoft). Développés pour plu-
sieurs plates-formes informatiques, ces systèmes sont bien
entendu incompatibles entre eux. Résultat, et en attendant une
véritable normalisation, mieux vaut posséder les trois logiciels
lecteurs sur son micro-ordinateur, d’autant qu’ils sont gratuits !
La seconde solution pour véhiculer de la vidéo sur Internet
consiste tout simplement à rapatrier le fichier vidéo compressé
sur le disque dur de l’internaute. La visualisation du programme
ne peut dans ce cas démarrer que lorsque le téléchargement est
intégralement terminé. L’avantage de cette méthode est que la
qualité des images n’est pas altérée par les problèmes de trans-
fert sur le réseau puisque la lecture s’effectue sur un fichier local.
En revanche, elle nécessite un espace de stockage pouvant être
important sur l’ordinateur du client.

[Link]. Les différents réseaux de diffusion sur Internet


– Le Réseau Téléphonique Commuté (RTC) : il permet un débit
de 56 kbits/s offrant un flux très saccadé en streaming, pouvant
convenir seulement pour le téléchargement de fichiers peu
volumineux.
– Le réseau RNIS (Réseau Numérique à Intégration de Services,
plus connu en France sous l’appellation commerciale
« Numéris ») : il utilise lui aussi le réseau RTC, mais permet
un débit de 128 kbits/s (une ligne comprend deux canaux à
64 kbits/s). Cela est encore insuffisant pour le streaming, mais
assez satisfaisant pour le téléchargement.
– Le réseau câblé : conçu initialement pour la télévision, le câble
a récemment été ouvert à l’Internet, avec l’affectation d’une
partie de sa bande de fréquence à la transmission des données.
Il permet un débit de 512 kbits/s avec une liaison permanente,
permettant de délivrer en streaming une image qui, dans les
meilleures conditions, être comparable au VHS.

290

© Éditions Eyrolles
6 • La compression numérique

– L’ADSL (Asymetric Digital Subscriber Line) : cette technolo-


gie permet une transmission des données numériques à haut
débit sur le réseau téléphonique filaire traditionnel. À l’instar
du câble, la connexion est également permanente et le débit
mis à la disposition du grand public est de 512 kbits/s (on peut
techniquement aller bien au delà).
À l’heure actuelle, la plupart des internautes n’utilisent que des
liaisons par modem téléphonique à 56 kbits/s. Il faut donc s’ar-
mer de patience et attendre (combien de temps encore ?) que le
taux de pénétration des réseaux à haut débit dans les foyers soit
suffisamment élevé pour que le marché de la vidéo sur Internet
explose réellement.

6.9 MPEG-4 et MPEG-7

Après avoir défini les normes de compression MPEG-1 et


MPEG-2, aujourd’hui totalement stabilisées – pour ne pas dire
banalisées –, le comité d’experts MPEG a planché sur deux nou-
veaux standards, le MPEG-4 (normalisé en 2000) et le MPEG-7
(normalisé en 2001), visant cette fois les besoins spécifiques
suscités par les applications multimédia, à savoir en substance :
– le codage hybride d’éléments naturels (vidéo live) et synthé-
tiques (graphiques, etc.) ;
– plusieurs modes d’interactivité permettant à l’utilisateur d’in-
tervenir à différents degrés au niveau du contenu même des
images et des sons ;
– compatibilité avec des canaux à très faible bande passante
(moins de 64 kbits/s), pour s’adapter à une large variété de
réseaux, dont Internet, et de plates-formes fixes et mobiles. Une
grande robustesse de codage est requise pour faire face aux
environnements de transmission particulièrement perturbés ;
– disposer de mécanismes de protection des droits liés à l’utili-
sation des éléments audiovisuels ;
– possibilité de trouver précisément une information recherchée,
sans être encombré d’informations inutiles.

291

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

On peut dire que MPEG-4 est à la communication multimédia ce


que le MPEG-2 est à la télévision numérique, en reprenant le
concept d’outils de compression organisés en Profils et Niveaux.
De son côté, MPEG-7 n’est pas un standard de compression, mais
s’attache à fournir un moyen de description normalisé du contenu
multimédia, permettant des recherches sur des critères textuels,
mais aussi, et surtout, visuels et sonores.

6.9.1. MPEG-4 : le codage des objets


audiovisuels
MPEG-4 repose sur des bases radicalement différentes de celles
des systèmes de codage audiovisuel traditionnels. Ces derniers se
contentent en effet de traiter des séquences d’images rectangu-
laires de taille constante, composées chacune d’un certain nombre
de lignes de pixels, et associées à une ou plusieurs pistes audio. De
ce fait, le degré d’interactivité autorisé est minime, puisque res-
treint à l’aspect temporel du contenu : arrêt sur image, recalage,
lecture en ralenti ou en accéléré, lecture arrière, etc. La compo-
sante élémentaire transmise est l’image, qui constitue de ce fait la
plus petite entité sur laquelle l’utilisateur peut interagir. Il n’est pas
possible d’intervenir au niveau du contenu de l’image. Cette limi-
tation est éliminée par MPEG-4, dont la principale nouveauté est
d’introduire la notion de codage orienté objet. MPEG-4 ne code
pas simplement une succession d’images accompagnées de sons,
mais individuellement les différentes composantes d’une scène.
Une scène audiovisuelle est considérée comme une association
d’éléments visuels et sonores, identifiables, séparables et regrou-
pables, ayant certaines relations dans le temps et l’espace. Ces élé-
ments, appelés objets audiovisuels, peuvent être d’origine natu-
relle – c’est-à-dire captés par une caméra ou un microphone –, ou
synthétique – issus d’un système informatique. Notons à ce sujet
qu’il est aujourd’hui courant de générer des éléments naturels
séparés, grâce aux techniques d’incrustation en chromakey sur
fond bleu ou vert. Par exemple, une scène basique peut être consti-
tuée de deux objets visuels, qui sont un personnage réel et un
décor de synthèse, l’un étant incrusté sur l’autre. Deux objets
audio peuvent leur être associés : la voix du personnage et un son
d’ambiance. On peut enrichir l’ensemble avec une fenêtre en

292

© Éditions Eyrolles
6 • La compression numérique

médaillon affichant une illustration, mais également un logo, un


titre, etc. En fonction de leurs caractéristiques, ces différents objets
sont codés individuellement et bénéficient ainsi d’outils de com-
pression spécifiques, optimisés pour chacun d’eux. Un simple
texte ne justifie pas en effet les mêmes algorithmes de compres-
sion qu’une image vidéo live ou qu’une animation 3D. L’efficacité
de la réduction de débit globale est alors bien supérieure à celle qui
résulterait d’une compression de type MPEG-2 appliquée à l’en-
semble de l’image. L’organisation dans l’espace et le temps de ces
objets au sein de la scène est décrite par un ensemble de données
de composition. Celles-ci ont pour but de renseigner le décodeur
sur la manière spatiotemporelle dont les objets qui lui parviennent
doivent apparaître sur la scène. Les objets et les informations de
composition sont protégés contre les erreurs, multiplexés et trans-
mis sous la forme d’un flux numérique. Le débit du signal MPEG-
4 peut actuellement s’étendre de 5 kbits/s à 4 Mbits/s, mais des
extensions vers le haut sont envisagées pour les applications de
studio. Tous les éléments reçus en kit par le décodeur sont traités
par un circuit appelé « compositeur ». Celui-ci est chargé de les
synchroniser et de les assembler, conformément aux données
décrivant leur organisation sur la scène d’origine (sorte de plan de
montage). L’utilisateur est cependant libre, de son côté, d’interve-
nir sur la composition de la scène : suppression d’objets d’intérêt
secondaire, ajout d’objets puisés dans une base locale, déplace-
ment de certains éléments, choix du langage, etc. D’autre part, la
notion d’échelonnabilité offre la possibilité, à un décodeur relati-
vement simple, de ne traiter qu’une partie seulement du flux de
données reçu, et de reproduire à sa manière une scène complexe,
en réduisant par exemple les résolutions spatiale et temporelle de
certains objets. MPEG-4 est ainsi capable de s’adapter aux perfor-
mances variées des terminaux et systèmes d’affichage, ainsi
qu’aux capacités des différents réseaux de transfert.

MPEG-4 est un standard de codage orienté objet, qui traite de manière séparée chaque élé-
ment audio et vidéo composant une scène. Ses outils sont optimisés pour s’adapter dans un
premier temps à de très faibles débits – réseaux mobiles, canaux à très faible bande –, mais
seront étendus par la suite vers le haut. Les objets multimédia reçus par le décodeur (pouvant
provenir de différents lieux) sont accessibles indépendamment les uns des autres et peuvent
être réassemblés de différentes manières.

293

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Système de codage audiovisuel conventionnel

D
M É
U M
L U
T L
Sons T D
I
C I É
P
O P C
L
D L O
E
E E D
X
U X E
Image E
R E U
U
R U R
R

Système de codage audiovisuel orienté objet

Stock d’objets
Stock d’objets D locaux, codés
codés M É ou non
U M
L U
T L C
I T D O
C I É M
P
O P C P
L O
D L O
E S
E
Objets

Objets

Objets

Objets

X E D
U I
E X E T
R E U E
U
R U R U
R R

Émission Réception

Figure 6.18
Principe du codage orienté objet de MPEG-4 : chaque élément composant la scène audiovisuelle est codé séparément. À la
réception, des objets locaux peuvent être ajoutés à la scène.

Les applications de MPEG-4


En autorisant l’interactivité sur le contenu audiovisuel, MPEG-4
deviendra le support d’une nouvelle génération d’applications et
de services :
– communications en temps réel bidirectionnelles de type vidéo-
téléphonie, sur une vaste gamme de systèmes de transmission
et de configuration, avec des délais très courts ;

294

© Éditions Eyrolles
6 • La compression numérique

– surveillance et contrôle d’accès, avec identification par recon-


naissance visuelle ou vocale ;
– réunions virtuelles entre protagonistes situés physiquement à
différents endroits de la planète et matérialisés par des person-
nages de synthèse rassemblés dans une salle virtuelle ;
– applications multimédia mobiles avec différents équipements
(PDA, notebooks, stations portables, etc.), sur une large variété
de canaux de transmission (GSM, satellite, etc.) ;
– bornes d’information et guides touristiques multimédia ;
– diffusion vidéo sur Internet ou intranet : avec un débit de
300 kbits/s et une image 1/4 d’écran, la qualité de l’image
MPEG-4 est presque équivalente à celle du VHS ;
– applications broadcast : un train de transport MPEG-2 pourra
en effet véhiculer, en plus de ses données audio/vidéo tradi-
tionnelles, un flux MPEG-4. Celui-ci sera traité à la réception
si un décodeur MPEG-4 est présent, et ignoré dans le cas
contraire, sans perturber le reste du service. Parmi les applica-
tions possibles, on citera les guides de programmes évolués,
les jeux interactifs, le téléachat, ainsi que le concept de télévi-
sion interactive utilisant un écran multifenêtre.
Tableau 6.7
Les formats d’image supportés par MPEG-4.

Balayage Progressif et entrelacé


Résolution spatiale luminance Toutes formes arbitraires de 8 × 8 à 2 048 × 2 048
Résolution spatiale chrominance [Link], [Link], et [Link]
Espace couleur Monochrome, Y/ Cr/ Cb avec canal alpha
Débits Constant ou variable
Niveau faible : moins de 64 kbits/s
Niveau intermédiaire : 64-384 kbits/s
Niveau haut : 384 kbits/s – 4 Mbits/s

295

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

6.9.2. MPEG-7 : la description


des contenus multimédia
Avec la convergence des mondes de la télévision, de l’informa-
tique et des télécommunications, la quantité d’information
audiovisuelle disponible à travers le monde croît à une vitesse
fulgurante. Pour pouvoir utiliser efficacement cette masse
de données, encore faut-il être capable de localiser précisément
celles dont on a besoin à un instant donné, sans être envahi
par d’autres inutiles. Il existe actuellement des moyens de
recherche basés sur une identification textuelle de l’information,
comme les moteurs de recherche du Web – sites les plus visités.
Cependant, il n’existe pas encore de moyen, communément
accepté, permettant d’identifier un document audiovisuel par
une description de son contenu. MPEG-7 a pour objectif de
combler ce manque, en standardisant la description de l’infor-
mation multimédia quel qu’en soit le type, et indépendamment
du langage. En d’autres termes, MPEG-7 spécifie un ensemble
de descripteurs caractérisant les images fixes, la vidéo animée,
les graphiques, les modèles 3D, l’audio, le texte, etc. Les des-
cripteurs MPEG-7 peuvent également se rapporter à la manière
dont ces éléments sont combinés dans une présentation multi-
média – scénario, composition –, ainsi qu’à des informations qui
ne peuvent être extraites du contenu, comme par exemple le
contexte d’un enregistrement. Dans tous les cas, ces descripteurs
sont totalement indépendants de la façon dont le contenu est
codé. Ils sont soit physiquement associés au matériel décrit dans
la même unité de stockage ou dans le même flux transmis, soit
éloignés et reliés à lui au moyen de puissants pointeurs.
MPEG-7 fournit ainsi des outils permettant de développer des
interfaces de recherche intuitives et conviviales. Au lieu de lan-
cer des requêtes textuelles, il deviendra, par exemple, possible
d’esquisser un dessin pour retrouver un tableau, siffloter
approximativement le refrain d’un morceau musical ou jouer
quelques notes sur un clavier pour obtenir les références d’un
disque, décrire l’action d’une scène cinématographique et
recueillir une liste de films les contenant, etc.

296

© Éditions Eyrolles
6 • La compression numérique

MPEG-7 est capable d’indexer des objets MPEG-4, bien sûr,


mais aussi des séquences MPEG-1 ou MPEG-2, et même des
programmes analogiques. Plusieurs niveaux de description sont
supportés en fonction des applications. Si l’on prend l’exemple
d’un élément visuel, le niveau le plus bas peut se restreindre à
une description de sa forme, sa taille, sa texture, sa couleur, son
mouvement, sa position dans l’espace. Un niveau plus élevé peut
donner une description sémantique d’une scène : « des enfants
faisant du vélo dans un jardin, sous un temps ensoleillé, avec un
hélicoptère en arrière-plan et le bruit de son moteur en fond
sonore ». Des niveaux intermédiaires peuvnt également exister.
Il est cependant important de souligner que MPEG-7 standardise
uniquement la description des contenus multimédia. Il ne stan-
dardise ni l’analyse – extraction de l’information –, ni le moteur
de recherche. Ces deux points sont liés à l’application et restent
donc dans le domaine compétitif, ce qui leur permettra d’être
constamment améliorés, plutôt que d’être figés à un état techno-
logique donné.

MPEG-7 standardise la description des contenus multimédia, afin que puissent être définis des
moteurs de recherche évolués fondés non plus uniquement sur le texte, mais aussi, et surtout,
sur l’image et le son. En revanche, MPEG-7 ne standardise ni l’extraction de l’information, ni
le moteur de recherche.

Pour résumer, MPEG-7 standardise :


– un jeu de descripteurs, indépendant des langues pour la majo-
rité d’entre eux. On appelle descripteur une valeur de repré-
sentation associée à une ou plusieurs caractéristiques d’un élé-
ment. Par exemple, la couleur d’un objet, l’auteur d’un texte,
le style d’une vidéo, la longueur d’un plan, etc. ;
– des schémas de description, c’est-à-dire une structure et une
sémantique permettant de spécifier les descriptions et leurs rela-
tions. C’est par exemple : pour un film, le titre, le réalisateur, les
acteurs, les scènes ; pour une scène donnée de ce film, la des-
cription de l’action, sa durée, etc. ; pour une image donnée de
cette scène, sa valeur de plan, sa dominante colorée, etc. ;
– un langage pour les schémas de description ;

297

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

– un système de codage efficace pour tous ces éléments, qui soit


adapté au stockage et à la transmission.

Les applications de MPEG-7


Parmi les applications visées par MPEG-7 figurent en premier
plan les librairies digitales (catalogues d’images, dictionnaire
musical, etc.), les répertoires de services multimédia (pages
jaunes, recherche de personnes par leur apparence physique,
etc.), la sélection de programmes (radio, TV, ou Internet), l’édi-
tion multimédia (services de journaux électroniques personnali-
sés), la vidéo surveillance (recherche automatique d’actions
inhabituelles dans un lieu), etc. Les domaines concernés sont
nombreux : éducation, tourisme, services d’investigation, méde-
cine, architecture, archives de cinéma et TV, journalisme, shop-
ping, divertissement, etc.

MPEG-1, MPEG-2 et MPEG-4 permettent de représenter le contenu lui même (« the bits »).
MPEG-7 permettra de représenter l’information au sujet du contenu (« the bits about the
bits »).

298

© Éditions Eyrolles
7 Les formats
d’enregistrement
Sur quels principes repose l’enregistrement magnétique ?
Qu’est-ce que l’enregistrement hélicoïdal ?
Qu’est-ce que le cycle d’hystérésis ?
Quelles sont les méthodes d’enregistrement vidéo analogiques et numériques ?
VHS, VHS-C, VHS-HiFi, S-VHS : quelles différences ?
8mm, Hi8 : quelles différences ?
Quel est l’avantage fondamental du Betacam SP par rapport aux autres formats analogiques ?
À quoi sert une tête Dynamic Tracking ?
Qu’est-ce que la fonction pre-read ?
D1, D2, D3, D5, Digital Betacam : quelles différences ?
Quels sont les points communs entre le D9 et le DVCPRO50 ?
Quels sont les formats qui enregistrent [Link] ? et en [Link] ? et en [Link] ?
Quelles sont les différences entre le Betacam SX et le MPEG-IMX ?
Quelles sont les compatibilités offertes par les nombreuses déclinaisons du format DV ?
Quels sont les points communs entre le DV et le Digital8 ?
Quelles sont les spécificités du D-VHS ?
Quels sont les formats à haute définition ?
Qu’est-ce que le standard 24p ?
Qu’est-ce que le MICROMV ?

Composite ou composantes, analogique ou numérique, avec ou sans compression,


MPEG-2 ou DV, [Link] ou [Link], bande 1/2" ou 1/4", comment ne pas se perdre face
à la multitude de formats d’enregistrement vidéo apparus ces vingt-cinq dernières
années... Après un rappel des notions de base sur l’enregistrement magnétique, ce
chapitre recense l’ensemble des formats de magnétoscopes actuels, en donnant
toutes les comparaisons nécessaires en termes de performances et de compatibi-
lité. Nous commencerons par passer en revue les formats analogiques d’abord
grand public (familles VHS et 8mm), puis broadcast (Betacam SP). Nous entre-
rons alors dans l’univers du numérique, en dressant un panorama complet des for-
mats qui se disputent le marché, utilisant ou non la réduction de débit. Au pro-
gramme : D1, D2, D3, D5, Digital Betacam, DV, DVCAM, DVCPRO25,
DVCPRO50, D9, Betacam SX, MPEG-IMX, Digital8, MICROMV et D-VHS.
Nous terminerons enfin par une présentation des nouveaux formats dédiés à la
haute définition, en mettant l’accent sur le très prometteur standard d’image 24p.

299

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.1 Notions d’enregistrement magnétique

7.1.1. Principe de l’enregistrement/lecture


L’enregistrement magnétique exploite le fait qu’un corps ferroma-
gnétique peut conserver un certain niveau d’aimantation, exprimé
par son induction rémanente, après avoir été soumis à un champ
magnétique. Cet effet de rémanence est illustré par le cycle d’hys-
térésis du matériau, dont il est question plus bas.
L’enregistrement s’effectue au moyen d’une tête magnétique,
constituée d’un noyau métallique de forme plus ou moins
torique, sur lequel est enroulé un bobinage. Ce bobinage est par-
couru par un courant d’excitation produit par le signal audio ou
vidéo à enregistrer. Les variations de courant sont transformées
en variations de champ magnétique proportionnelles, qui
s’échappent de la tête par une minuscule fente appelée entrefer
(pas plus de quelques microns). Ces variations de champ magné-
tique sont alors mémorisées par l’aimantation que prennent les
fines particules ferromagnétiques de la bande, qui défile à vitesse
régulière devant l’entrefer. Les informations magnétiques sont
conservées sous forme de pistes, pouvant être longitudinales –
dans l’axe de la bande – (magnétophones), ou inclinées (magné-
toscopes).
À la lecture, un processus symétrique se produit : la tête capte les
variations d’aimantation de la bande et les transforme en varia-
tions de flux. Celles-ci induisent dans la bobine une force élec-
tromotrice se traduisant par des variations de courant. Ces varia-
tions de courant sont ensuite amplifiées et mises en forme pour
former le signal audio ou vidéo.

7.1.2. Le cycle d’hystérésis


Nous allons à présent nous intéresser à la courbe de transfert
champ magnétique/induction magnétique.
Un fil rectiligne parcouru par un courant électrique d’intensité I
produit à une distance D un champ magnétique H de valeur :

300

© Éditions Eyrolles
7 • Les formats d’enregistrement

I
H=
2.π.D
H s’exprime en ampère par mètre (A/m) et est proportionnel (à une
distance D donnée) à l’intensité du courant qui lui donne nais-
sance. Cette proportionnalité est fondamentale ; elle est à la base
de l’enregistrement magnétique. D’autre part, un corps ferroma-
gnétique placé dans un champ extérieur H est soumis à une induc-
tion magnétique B, qui oriente ce corps en fonction de l’intensité
de H. Lorsque le corps sort du champ extérieur H, il conserve une
certaine valeur d’induction dite induction rémanente, notée Br.
Nous allons considérer, dans un premier temps, que le corps ferro-
magnétique n’est pas encore aimanté (bande magnétique vierge).
Le tracé des variations de B dans le corps en fonction du champ H
externe est appelé courbe de première aimantation (fig. 7.1).

Figure 7.1 Courbe de première


Le cycle d’hystérésis et la B aimantation
courbe Br = f(H).

Br = induction rémanente Bmax


Hc = champ coercitif
Br
Br = f(H)

– Hmax Hc + Hmax
H

Courbe de
cycle d'hystérésis
– Bmax

Au départ, H et B sont tous deux nuls. Quand H commence à


croître, la courbe démarre lentement. Puis, sur une grande plage,
les variations de B suivent de façon linéaire celles de H, avant
d’atteindre la saturation. Si H diminue, le chemin suivi par la
courbe « au retour » n’est pas le même que celui tracé « à l’aller »
quand H augmentait. Ainsi, quand le champ extérieur H redevient

301

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

nul, B n’est pas nul ; il reste une induction rémanente Br. Pour
effacer cette induction rémanente, il faut appliquer un champ exté-
rieur, dit champ coercitif Hc. Si H varie de manière sinusoïdale, on
obtient, pour une période de variation de H, la courbe de cycle
d’hystérésis donnée sur la figure 7.1.
La courbe de transfert Br = f(H), également tracée sur la
figure 7.1, est proche de la courbe de première aimantation. Elle
n’est linéaire que sur une certaine zone. En audio, un signal de
polarisation est superposé au signal à enregistrer pour restreindre
la zone de travail uniquement à la partie linéaire de cette courbe.
Sa fréquence doit être au moins cinq fois supérieure à la plus
haute fréquence du signal audio, afin d’éviter des battements
entre cette fréquence et des harmoniques des courants enregis-
trés. Dans le cas de la vidéo, une fréquence de polarisation de
l’ordre de 28 MHz (5 × 5,5 MHz) serait requise, ce qui est bien
au-delà des limites en termes de bande passante des têtes magné-
tiques. C’est pourquoi il a été fait appel à la modulation de fré-
quence pour enregistrer le signal vidéo analogique ; nous y
reviendrons dans le paragraphe 7.3.

7.1.3. La bande magnétique


La bande magnétique est constituée d’un support de base en poly-
ester préalablement étiré (épaisseur de 10 à 20 µm), recouvert
d’une couche magnétique (0,2 à 5 µm), dont la nature est carac-
téristique du type de la bande. Une couche dorsale (1 µm) a pour
rôle d’éliminer l’électricité statique. Deux paramètres fondamen-
taux définissent la qualité d’une bande : la rémanence et la coer-
citivité. La rémanence qualifie sa mémoire magnétique : elle
caractérise l’aimantation que peuvent conserver les particules
après avoir été soumises au champ magnétique d’enregistrement ;
elle s’exprime en gauss (G) ou en tesla (T) ; 1 T = 10 000 G. La
coercitivité définit l’énergie nécessaire à l’effacement de cette
mémoire magnétique ; elle s’exprime en kiloampère par mètre
(kA/m) ou en œrsted (1 kA/m = 12,6 œrsted).
Les bandes dites à l’oxyde renferment des particules d’oxyde
métallique – dioxyde de chrome, oxyde de fer dopé au cobalt,

302

© Éditions Eyrolles
7 • Les formats d’enregistrement

etc. – maintenues en suspension dans un liant. Ce liant, qui


occupe une place prépondérante dans la couche magnétique, per-
met d’éviter que des particules ne viennent se déposer sur la tête.
Les bandes à l’oxyde sont utilisées par les formats VHS, D1 et
Betacam standard.
Les bandes à particules métalliques, communément appelées
bandes métal, sont employées par la quasi totalité des formats
broadcast. Elles possèdent une couche magnétique composée
d’une poudre de fer pratiquement pur. Les particules de métal pur
sont plus petites que les particules d’oxyde, ce qui permet d’aug-
menter la quantité d’informations stockées sur une même surface
de bande et d’accroître le rapport S/B d’environ 10 dB. La réma-
nence et la coercitivité d’une bande métal sont égales au double
de celles d’une bande oxyde, soit typiquement 2 500 G et
1 500 œrsted. Une bande métal est donc deux fois plus difficile à
effacer qu’une bande oxyde : le courant d’enregistrement doit
être deux fois plus élevé. Les têtes classiques en ferrite ne peu-
vent cependant pas être utilisées pour cause de saturation ; elles
sont remplacées par des têtes en sendust ou en fer amorphe.
Les bandes dites à « métal évaporé » (ME) font appel à une nou-
velle technique de fabrication, complexe et coûteuse, mise au point
pour le format Hi8 et reprise par la suite par le DV et le DVCAM.
La couche magnétique est un très fin film d’alliage métallique
déposé par évaporation sous vide. Elle est appliquée directement
sur le support, sans liant, ce qui lui permet d’être environ 10 fois
plus fine qu’une couche à particules traditionnelle – 0,2 µm contre
2 à 3 µm. La rémanence d’une bande ME est typiquement de
3 700 G, sa coercitivité étant de 1 050 œrsted (voir § 7.6.2).

7.2 Les spécificités de l’enregistrement du signal vidéo

7.2.1. La plage de fréquences à enregistrer


La grande difficulté posée par l’enregistrement du signal vidéo est
liée à l’immense quantité d’informations à gérer. Alors que la bande
passante du signal audio ne dépasse pas 20 kHz, celle du signal

303

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

vidéo est en effet de l’ordre de 5,5 MHz. Enregistrer un courant


de fréquence f revient à inscrire sur la bande un signal de longueur
d’onde λ qui, si v est la vitesse d’écriture, vérifie la relation :
λ = v/f
Or, la plus petite longueur d’onde enregistrable λmin est limitée
par la largeur de l’entrefer e :
λmin = 1,4.e
L’entrefer doit être suffisamment étroit pour toujours voir moins
d’une longueur d’onde, mais pas trop pour ne pas que le niveau
du signal de sortie soit trop faible. Un bon compromis consiste à
utiliser des entrefers dont la largeur est de l’ordre de 1 à 6 µm.
Ainsi, un entrefer de 5 µm permet d’enregistrer les 20 kHz de
bande passante du signal audio sur une bande défilant à une
vitesse qui se chiffre en cm/s (4,75 – 9,5 – 19 – 38). En vidéo
cependant, avec une bande passante de 5,5 MHz et un entrefer de
1,5 µm, la vitesse relative entre la tête et la bande doit être d’au
moins 12 m/s, ce qui est totalement prohibitif. L’enregistrement
traditionnel réalisé par des têtes fixes traçant des pistes longitu-
dinales n’est absolument pas envisageable pour le signal vidéo,
qu’il soit codé en analogique ou en numérique.

7.2.2. L’enregistrement hélicoïdal


Le procédé mis en œuvre pour enregistrer le signal vidéo
découle de sa structure, qui est découpée en lignes et trames. Les
intervalles de suppression offrent en effet l’opportunité de frac-
tionner l’enregistrement en plusieurs pistes. Celles-ci ne sont pas
tracées dans l’axe de la bande comme dans le cas d’un magnéto-
phone, mais sont inclinées de quelques degrés. Pour les enregis-
trer, on utilise un cylindre métallique rotatif appelé tambour (ou
scanner), sur lequel sont disposées des têtes, dont le nombre
varie, selon les formats, de deux à une vingtaine. La bande s’en-
roule en biais (sur un angle supérieur à 180°), autour du tambour
incliné, et défile à une vitesse raisonnable (de 2 à 30 cm/s).
L’essentiel de la vitesse relative tête/bande (de 3 à 35 m/s) est en
effet fourni par la mise en rotation rapide du tambour, qui effec-

304

© Éditions Eyrolles
7 • Les formats d’enregistrement

tue, selon le cas, de 25 à 150 tours/seconde. Cette méthode d’en-


registrement, dite hélicoïdale, est employée par tous les formats
d’enregistrements analogiques et numériques. En analogique,
une trame est enregistrée par une seule tête sur une piste unique.
En numérique, le volume de données représentant une trame est
beaucoup trop élevé pour tenir sur une piste. Une trame est par
conséquent découpée en plusieurs segments, chacun étant
composé d’un nombre entier de lignes et enregistré par une tête
(voir § 7.8.1). Dans les formats numériques, les canaux audio
sont également enregistrés par les têtes rotatives sur des pistes
transversales, soit au centre de la bande, entre les pistes vidéo,
soit aux extrémités de celles-ci.
Figure 7.2
Principe de l’enregistrement
vidéo : inscription de pistes
obliques par un tambour de
têtes rotatif incliné.

La rotation du tambour peut s’effectuer dans la même direction


ou dans la direction opposée à celle du défilement de la bande,
ce qui est le cas dans la plupart des machines broadcast. Si Vt est
la vitesse de rotation du tambour, Vb la vitesse de défilement de
la bande, D le diamètre du tambour, la vitesse relative tête/bande,
ou vitesse d’écriture, Vr est :
Vr = (π . D . Vt) ± Vb

305

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

On conçoit aisément qu’un petit tambour avec un grand angle


d’enroulement donne le même résultat qu’un tambour plus grand
avec un angle d’enroulement plus faible. L’avantage d’un tam-
bour de grand diamètre est qu’il peut accueillir un nombre plus
élevé de têtes, et par conséquent tourner moins vite. Cependant,
les tambours de taille réduite ont pour mérite de permettre la
fabrication de caméscopes ultra compacts.

7.2.3. Les pistes longitudinales


En plus des pistes hélicoïdales, les magnétoscopes enregistrent
également, au moyen de têtes fixes, des pistes longitudinales.
Situées sur les bords de la bande, elles sont typiquement au
nombre de trois :
– une piste d’asservissement, contenant des impulsions de syn-
chronisation permettant d’asservir la phase de rotation du tam-
bour avec celle du transport de la bande ;
– une piste de time code longitudinal LTC ;
– une piste audio analogique, portant généralement un son
témoin de qualité moyenne, mais qui présente l’avantage
d’être lisible aux vitesses extrêmes, quand le son numérique ne
peut plus être décodé, par exemple en rembobinage rapide.
Il existe cependant des formats qui se passent de tout ou partie
de ces pistes longitudinales, les signaux correspondants étant
alors enregistrés par les têtes rotatives.

7.2.4. L’azimut
Pour qu’un enregistrement soit reproduit dans des conditions
optimales, il est primordial que l’angle que forme la tête de
lecture avec l’axe de la piste soit exactement le même que celui
de la tête d’enregistrement. Si cette condition n’est pas respectée,
il se produit un affaiblissement rapide des hautes fréquences qui
est fonction de l’angle d’azimut. On dit qu’il y a erreur d’azimut.
Sur un magnétophone, l’entrefer des têtes doit toujours être stric-
tement perpendiculaire à l’axe de la piste. Un très bon réglage
permet d’y parvenir. Dans le cas d’un enregistrement multipiste,

306

© Éditions Eyrolles
7 • Les formats d’enregistrement

les pistes doivent être suffisamment espacées, afin d’éviter


qu’une tête lise des informations d’une piste voisine. Soulignons
cependant que les intervalles séparant les pistes – dits intervalles
de garde – occupent un espace supplémentaire sur la bande, qui
ne peut être utilisé pour enregistrer les signaux utiles.
Sur un magnétoscope, l’effet d’azimut est exploité efficacement
pour enregistrer les pistes obliques sans intervalle de garde. Il
suffit en effet de tracer les pistes contiguës avec des azimuts
opposés. Par exemple, si une piste est tracée avec un azimut de
+ 15°, les pistes qui l’entourent sont tracées avec un azimut de
– 15°. Ainsi, lorsqu’une tête de lecture empiète légèrement sur
une piste voisine, elle ne récupère que des signaux très atténués.
Aucun espace n’est plus nécessaire pour séparer les pistes ; l’uti-
lisation de la surface de la bande est ainsi optimale. Le choix de
la valeur de l’angle d’azimut résulte d’un compromis : l’angle
doit être suffisamment grand pour assurer une bonne protection
contre l’intermodulation de piste à piste, mais doit rester dans des
limites raisonnables, car la vitesse d’écriture – vitesse relative
tête/bande – est multipliée par le cosinus de l’angle d’azimut.

7.2.5. Le time code


Le time code (code temporel) est un système de repérage absolu
des images en heures, minutes, secondes et numéro d’image, nor-
malisé à l’échelle mondiale au début des années 70. Il se présente
sous la forme d’un signal numérique asservi au signal vidéo et
enregistré parallèlement à l’image. On distingue deux types de
time code, complémentaires l’un de l’autre : le LTC (Longitudinal
Time Code) et le VITC (Vertical Interval Time Code).
Le LTC est enregistré comme un signal audio par une tête fixe
sur une piste longitudinale. Il est lisible à très grande vitesse
comme en lecture ralentie, mais devient difficilement détectable
lorsque la bande défile très lentement et est totalement illisible
en arrêt sur image (la bande étant fixe devant une tête fixe).
Le VITC est quant à lui enregistré par des têtes rotatives avec le
signal vidéo, sur deux lignes non visibles situées dans l’inter-
valle de suppression trame. Sa lecture est donc possible à des

307

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

vitesses très lentes, même en mode arrêt sur image. Par contre, il
est illisible en rembobinage très rapide.
Il existe deux modes d’enregistrement du time code, le rec run et
le free run. En rec run, la valeur horaire ne défile que lorsque
l’enregistrement se déroule et s’arrête à chaque fois que la
machine est stoppée. Ce mode fournit une numérotation conti-
nue et sans interruption des plans. En free run, le time code
tourne en permanence comme une horloge, sans prendre en
compte le déclenchement ou l’arrêt de l’enregistrement. Chaque
image est donc repérée par son heure d’enregistrement. Ce mode
permet de synchroniser aisément plusieurs plans tournés simul-
tanément par différents caméscopes.

7.2.6. Les pertes et défauts


de l’enregistrement
[Link]. Effet d’éloignement
Si, pour une raison quelconque, un espace d est introduit entre
l’entrefer et la bande, il se produit une atténuation du niveau de
sortie, qui dépend à la fois de l’éloignement d et de la longueur
d’onde λ du signal. Cette atténuation croît très rapidement pour
les fréquences élevées. D’où l’importance de vérifier régulière-
ment que les têtes ne sont pas encrassées et d’éviter tout risque
d’introduction de poussière dans la machine. L’affaiblissement
en dB est donné par la formule :
55 . d
A(dB) =
λ
[Link]. Effet d’azimut
Une erreur d’azimut se produit lorsque l’entrefer de la tête de lec-
ture n’a pas exactement la même inclinaison que celui de la tête
ayant réalisé l’enregistrement. Soit α l’angle de différence d’incli-
naison, λ la longueur d’onde du signal et h la hauteur de la piste.
L’atténuation en dB du niveau de lecture est donnée par la formule :
h.α 2
A(dB) = 14,3 . ( )
λ
Cet effet d’azimut, comme celui d’éloignement, affecte davan-
tage les fréquences élevées que les basses fréquences.

308

© Éditions Eyrolles
7 • Les formats d’enregistrement

[Link]. Les drop-out


Malgré tout le soin pouvant être apporté à sa fabrication, une
bande magnétique n’est pas à l’abri de disparités locales dans la
distribution des particules ferromagnétiques. Cela peut engen-
drer des chutes de niveau plus ou moins importantes sur le signal
lu, se traduisant sur l’image par la perte d’une ou plusieurs
lignes. Ce défaut est communément appelé drop-out. Les magné-
toscopes analogiques détectent ces pertes de niveau sur la bande
et remplacent les informations manquantes par d’autres récupé-
rées sur les lignes précédentes. Sur un magnétoscope numérique,
les méthodes de correction d’erreurs parviennent à lutter dans
une large mesure contre les absences fugitives de signal.

7.3 Les méthodes d’enregistrement vidéo analogiques

Les formats analogiques mettent en œuvre différentes méthodes


pour enregistrer le signal vidéo. Certains enregistrent le signal
composite directement en modulation de fréquence ; d’autres
transposent la chrominance dans le bas du spectre pour s’adapter
à une largeur de bande réduite ; d’autres encore effectuent un trai-
tement séparé sur les signaux de luminance (Y) et de chrominance
(C) avant de les combiner à l’enregistrement ; d’autres enfin enre-
gistrent sur des pistes différentes les composantes Y et Dr/Db.

7.3.1. L’enregistrement direct du signal


composite (2", 1"B, 1"C)
Les premiers magnétoscopes à bandes broadcast enregistraient
directement le signal composite (bande passante 5,5 MHz) en
utilisant la modulation de fréquence. Pour chaque format, un
standard de modulation était défini par une fréquence f1 corres-
pondant au fond de synchro du signal vidéo (0 V), et une fré-
quence f2 pour le blanc (1 V). L’excursion en fréquence f2-f1
était d’environ 2 MHz. Une telle méthode d’enregistrement n’a
été rendue possible qu’au prix d’une vitesse relative tête/bande
très élevée – de l’ordre de 20 m/s. Ces machines très encom-
brantes ont aujourd’hui quasiment disparu au profit de magnéto-

309

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

scopes à cassettes bien plus compacts et plus pratiques. Le prin-


cipe de la modulation de fréquence a cependant été conservé par
tous les formats analogiques qui ont suivi.

7.3.2. Le procédé under color


(U-Matic, VHS, 8mm)
Ce procédé à été inventé à l’origine pour l’U-Matic 3/4", le for-
mat à cassettes le plus répandu dans les années 1970 sur les mar-
chés institutionnel et broadcast. Il a été repris ensuite par les for-
mats grand public VHS et 8mm. La technique under color est en
fait nécessaire quand la vitesse relative tête/bande n’est pas
assez élevée pour enregistrer l’intégralité de la bande passante
du signal vidéo sans dégrader ses hautes fréquences, en l’occu-
rence la zone où se trouve notamment la chrominance. Elle
consiste à transposer le signal de chrominance – 4,43 MHz en
PAL – dans le domaine des basses fréquences, en dessous de
1 MHz. Cette opération n’est évidemment pas transparente : elle
engendre une réduction des bandes passantes de la luminance
– qui ne dépasse pas 3 MHz – et de la chrominance (0,6 MHz),
avec un rapport S/B de seulement 41 dB. À l’enregistrement, la
luminance modulée en fréquence est additionnée à la chromi-
nance transposée. À la lecture, un filtrage sépare les deux
signaux et la chrominance retrouve sa place à 4,43 MHz. Après
démodulation, la luminance est ajoutée à la chrominance pour
former le signal vidéo composite.

7.3.3. Le composite séparé Y/C


(S-VHS, Hi8)
Le signal vidéo Y/C se situe à mi-chemin entre le signal
composite et le signal en composantes pures (dérivées de R, V,
B). Il est caractérisé par un traitement séparé des signaux de
luminance et de chrominance qui sont cependant codés chacun
comme en composite. La coupure classique du signal composite
« passe-bas » pour Y et « cloche » pour C est ainsi évitée. La
bande passante de la luminance est élargie à 5 MHz, ce qui

310

© Éditions Eyrolles
7 • Les formats d’enregistrement

Composite direct en modulation de fréquence (2", 1")

Composite MOD DEMOD Composite

Under color (U-Matic, VHS, 8mm)


Y
MOD DEMOD

+ Composite
Composite Y/C
SEP
C
Transposition
4,43 MHz
basses fréquences

Y/C (S-VHS, Hi8)

Y MOD MIX DEMOD Y

C Transposition
4,43 MHz C
basses fréquences

Composantes (Betacam, Betacam SP)

Y MOD DEMOD Y

Dr C
T MOD DEMOD Dr
D Db
Db
M

Figure 7.3
Les différentes méthodes d’enregistrement du signal vidéo analogique.

311

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

améliore de manière significative la résolution de l’image avec


un rapport S/B porté à 45 dB. Il faut cependant préciser que les
signaux Y et C sont au final recombinés pour être enregistrés par
la même tête ; ils n’occupent donc pas des pistes distinctes
comme dans les systèmes en composantes. Sur les machines tra-
vaillant en mode Y/C, les signaux de luminance et de chromi-
nance sont malgré tout disponibles séparément en entrée/sortie
sur des connecteurs appelés S-Vidéo, permettant d’effectuer des
copies directes.

7.3.4. L’enregistrement en composantes


(Betacam, Betacam SP)
Fin du fin dans le domaine de l’enregistrement vidéo analogique,
les formats en composantes enregistrent séparément les signaux
Y et Dr/Db. Des têtes différentes sont en effet allouées au signal
de luminance et aux signaux de différence de couleurs. La
blande passante de la luminance est enregistrée dans son inté-
gralité (5,5 MHz) et celle de la chrominance est plus de deux fois
supérieure à celle des systèmes Y/C (1,5 MHz). Le rapport S/B
atteint 51 dB (toutes ces valeurs sont celles du Betacam SP).

7.4 Les méthodes d’enregistrement vidéo numériques

7.4.1. Les formats en composantes


numériques (D1, D5)
Ces formats enregistrent sans compression le signal vidéo [Link],
avec une quantification sur 8 bits en D1, et sur 10 bits en D5. Ils
sont compatibles 525/625 lignes, offrent le meilleur rapport S/B
qui sort en enregistrement vidéo (> 60 dB en D5), et sont carac-
térisés par une totale transparence en multigénération. Mais ces
formats n’existent que sous la forme de magnétoscopes de stu-
dio, particulièrement encombrants et onéreux. Ils sont réservés
aux applications graphiques haut de gamme et au mastering.

312

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.4.2. Les formats composites


numériques (D2, D3)
Ces formats, qui résultent d’une démarche davantage
commerciale que technologique, s’appuient sur une numérisa-
tion du signal composite PAL ou NTSC, réalisée à quatre fois la
fréquence de la sous porteuse couleur (notée 4fsc). Ils ont été
créés pour remplacer les magnétoscopes « un pouce » PAL ou
NTSC sans bouleverser les infrastructures analogiques exis-
tantes, dans l’attente du tout-numérique. D’un point de vue tech-
nique, ils n’apportent pas un réel plus, mis à part le son numé-
rique et quelques générations supplémentaires, car l’image
conserve tous les défauts inhérents au codage composite (moi-
rages, cross color,...). C’est essentiellement sur le marché améri-
cain que ces formats ont connu leur heure de gloire à la fin des
années 80, l’Europe ayant très clairement préféré s’orienter vers
les systèmes en composantes pour permettre la coexistence des
deux standards analogiques PAL et SECAM.

7.4.2. Les formats numériques compressés


Plus d’une dizaine de formats numériques sont apparus ces der-
nières années, avec l’arrivée à maturité des techniques de réduc-
tion de débit et la standardisation du MPEG-2 et du DV. Dans le
domaine de la production et de la postproduction haut de
gamme, le Digital Betacam (Sony), le D9 (JVC), le DVCPRO50
(Panasonic) et le MPEG-IMX (Sony) mettent en œuvre chacun à
sa manière une compression intra-image à faible taux (de 2:1 à
3,3:1) appliquée à un signal [Link]. Le débit reste ainsi suffisam-
ment élevé pour maintenir un excellent niveau de qualité
d’image et garantir une transparence quasi totale à la multigéné-
ration et aux traitements complexes en régie.
Pour les applications de type reportage news/sport et les produc-
tions légères, les différents fabricants proposent plusieurs for-
mats utilisant une compression plus élevée (de 5:1 à 10:1), ayant
engendré des équipements numériques dont le prix est compa-
rable à celui de leurs équivalents analogiques. On distingue alors

313

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

deux familles de formats : d’un côté le DVCAM (Sony) et le


DVCPRO25 (Panasonic), basés sur l’algorithme de compression
DV ; de l’autre, le Betacam SX de Sony mettant en œuvre une
compression MPEG-2 inter-image.
Dans le domaine grand public, tous les constructeurs de magné-
toscopes se sont unis autour d’un seul et unique format, le
fameux Digital Video, plus communément appelé DV. De son
côté Sony a lancé en 2001 un format extrêmement compact bap-
tisé MICROMV, et basé sur le MPEG-2 MP@ML.
Enfin, quatre formats d’enregistrement en haute définition ont
récemment vu le jour (HDCAM, D5-HD, D9-HD, DVCPRO-
HD), tous étant des déclinaisons de formats standard.
Pour l’anecdote, sachez qu’il n’existe pas et qu’il n’existera
jamais de format D4 ; le chiffre 4 est un mot tabou dans la
culture asiatique, car il se prononce comme le mot « mort ». Il
n’y a pas non plus de format D8, cette fois pour éviter tout risque
de confusion avec certains systèmes audio (DA-88,…).

7.5 La famille VHS

7.5.1. Le VHS
Le format VHS est lancé par JVC en 1977 dans sa version NTSC,
et l’année suivante en PAL et SECAM. Il utilise une cassette de
taille 19 × 10 cm renfermant une bande de largeur 12,7 mm (1/2")
offrant une durée d’enregistrement maximale de 240 minutes. La
bande s’enroule en « M » à 180° autour d’un tambour de diamètre
D = 62 mm. La vitesse de défilement linéaire de la bande est de
23,4 mm/s, la vitesse de rotation du tambour est de 25 tr/s, ce qui
donne une vitesse relative tête-bande de 4,84 m/s (voir formule
§ 7.2.2).
Le signal de luminance module en fréquence une porteuse
centrée sur 4,5 MHz, et oscillant entre les valeurs 3,8 (fond de
synchro) et 4,8 MHz (blanc), ce qui donne une excursion en fré-

314

© Éditions Eyrolles
7 • Les formats d’enregistrement

quence de seulement 1 MHz. La luminance est limitée à une


bande passante de 3 MHz afin de loger à sa suite la chrominance
(centrée à 4,43 MHz en PAL). La résolution horizontale ne
dépasse donc pas 250 lignes. La chrominance est enregistrée en
modulation d’amplitude après une transposition dans le
domaine des basses fréquences selon le procédé under color. La
vidéo est inscrite sur des pistes obliques larges de 49 µm,
longues de 9,7 cm et dotées d’un angle d’azimut alterné de
+6/–6°. L’audio est enregistré en longitudinal par une tête fixe.

Figure 7.4 Tambour rotatif


Format VHS : enroulement Têtes vidéo
de la bande autour du
tambour de têtes avec une Tête d’effacement
boucle en « M ». total
B Tête d’effacement aud
A
Tête audio + synchro

104 mm

VHS

188 mm

7.5.2. Le VHS-C
Des impératifs de miniaturisation imposés par le désir de fabri-
quer des caméscopes petits et légers ont conduit à la naissance du
VHS-C, format plus compact que le VHS standard et permettant
d’utiliser des cassettes environ deux fois plus petites. La durée
maximale d’une cassette VHS-C est cependant beaucoup plus
faible que celle d’une VHS standard, puisqu’elle ne dépasse pas
60 minutes. Le VHS-C met en œuvre un tambour de diamètre
réduit de 1/3 (41,3 mm), comportant deux têtes de plus, et tour-
nant 50 % plus vite : 37,5 tr/s, soit 2 250 tr/min au lieu de 1 500
en VHS.

315

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Figure 7.5 Tambour rotatif


Format VHS-C :
enroulement de la bande Têtes vidéo
autour du tambour de têtes
avec une boucle en « Ω ».
Tête d’effacement total B' Tête d’effacement audio
A
A'
B Tête audio + synchro

56 mm

VHS-C

92 mm

Figure 7.6
VHS VHS-C
Le format VHS-C inscrit sur
la bande la même empreinte
que le VHS standard.

A B A B'

B A'
180° 270°

diamètre du tambour : 62 mm diamètre du tambour : 41 mm


enroulement de la bande : 180° enroulement de la bande : 270°
vitesse du tambour : 25 tours/seconde vitesse du tambour : 37,5 tours/seconde

La bande magnétique s’enroule à 270° autour du tambour et


décrit une boucle en « Ω ». L’empreinte des pistes et la vitesse
relative tête/bande sont les mêmes qu’en VHS. Une cassette
VHS-C peut donc être lue sans aucun compromis par un magné-
toscope VHS, après avoir été toutefois insérée dans un boîtier
d’adaptation mécanique.

316

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.7
Empreinte de la bande dans Piste audio
les formats VHS.

Pistes Sens de
12,65 mm vidéo lecture

Piste d’asservissement

Sens de défilement de la bande

largeur d’une piste: 49 µm


vitesse linéaire de la bande : 24 mm/s
vitesse tête/bande : 4,85 m/s

7.5.3. Le VHS-HiFi
Dans le format VHS, la piste audio est enregistrée par une tête
fixe. La très faible vitesse de défilement de la bande, soit 2,3 cm/s
(c’est la moitié de celle d’une cassette audio), ne peut permettre
d’espérer une qualité sonore exceptionnelle : la bande passante
est limitée à 10 kHz, le rapport signal sur bruit ne dépasse pas
40 dB, la distorsion approche 3 %...
Le format VHS-HiFi améliore de manière significative la repro-
duction sonore en contournant les contraintes de l’enregistrement
longitudinal. Les signaux audio (deux pistes) sont en effet enre-
gistrés en modulation de fréquence au moyen de têtes rotatives ;
ils bénéficient ainsi, comme la vidéo, d’une vitesse tête/bande
élevée. Une paire de têtes supplémentaires diamétralement oppo-
sées est donc montée sur le tambour tournant. Ces têtes font appel
à une technique d’enregistrement dite « en profondeur », qui
consiste à enregistrer les signaux audio HiFi stéréo dans la tota-
lité de l’épaisseur de la couche magnétique, alors que le signal
vidéo est enregistré par-dessus, mais uniquement en surface. Les
têtes audio sont placées en avance par rapport aux têtes vidéo sur
le tambour (60°) ; leur entrefer relativement large (0,65 µm) crée
un champ magnétique intense pénétrant au cœur de la couche
magnétique. La vidéo, quant à elle, est enregistrée sur la surface

317

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

de la bande, avec un entrefer deux fois plus étroit créant un


champ magnétique rayonné plus faible. La vidéo recouvre donc
l’audio à la surface de la bande, mais le laisse intact dans sa pro-
fondeur. Par ce procédé, les signaux audio restent parfaitement
détectables à la lecture. Les angles d’azimut des têtes audio
(± 30°) et vidéo (± 6°) sont croisés, ce qui permet d’éviter tout
risque de diaphonie entre les deux signaux (angle de +6° pour la
tête vidéo A, de –30° pour la tête audio A, etc.). Les têtes audio
et vidéo sont situées à la même hauteur sur le tambour ; les pistes
audio (32 µm) sont centrées par rapport aux pistes vidéo (49 µm).
Les signaux audio des deux voies gauche et droite HiFi modu-
lent en fréquence deux porteuses respectivement centrées sur 1,4
et 1,8 MHz (excursion en fréquence de +/–150 kHz). Pour assu-
rer une totale compatibilité avec le format VHS standard, les cir-
cuits audio d’un magnétoscope VHS-HiFi sont doubles (têtes
fixes + têtes tournantes). Un magnétoscope VHS standard peut
donc lire une cassette enregistrée par un magnétoscope VHS-
HiFi, et un magnétoscope VHS-Hifi peut lire une cassette VHS
standard ; dans ces deux cas, il est évident que seul l’audio lon-
gitudinal est traité.

Figure 7.8 Tête vidéo : Tête audio HiFi :


enregistrement en surface enregistrement en profondeur
Coupe de la bande 0,85 microns 4 à 5 microns
enregistrée en VHS-HiFi.
L’audio est enregistré en
profondeur, la vidéo
uniquement en surface.
Couche magnétique

Support polyester

7.5.4. Le S-VHS
Le dernier perfectionnement du format VHS concerne la qualité
de l’image. Il consiste à traiter séparément les composantes de
luminance Y et de chrominance C, conformément à la représen-
tation Y/C du signal vidéo. La bande passante de la luminance
n’a plus à être limitée à 3 MHz pour laisser de la place à la chro-
minance et peut s’étendre jusqu’à 5 MHz. La résolution hori-
zontale passe ainsi de 250 lignes (VHS) à 400 lignes.

318

© Éditions Eyrolles
7 • Les formats d’enregistrement

Chrominance Luminance
Excursion en fréquence :
1 MHz

VHS
Fréquence (MHz)
0,627 1 2 3 4 4,5 5 6

3,8 4,8
Chrominance Luminance
Excursion en fréquence :
1,6 MHz

S-VHS
Fréquence (MHz)
0,627 1 2 3 4 5 6 6,5 7

1,8 MHz = voie droite

1,4 MHz = voie gauche

5,4 MHz 7 MHz

Figure 7.9
Allocation des fréquences dans les formats VHS et S-VHS.

La plage de modulation en fréquence pour la luminance est éle-


vée de 3,8-4,8 MHz à 5,4-7 MHz, ce qui porte l’excursion en fré-
quence de 1 à 1,6 MHz, améliorant ainsi sensiblement le rapport
signal sur bruit. Les signaux audio sont, quant à eux, traités
comme dans le format VHS-HiFi ; les deux porteuses corres-
pondant aux voies gauche et droite sont placées après la chromi-
nance.

319

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

L’augmentation de la déviation en fréquence du signal vidéo a


par ailleurs conduit à la mise au point de nouvelles bandes
magnétiques de coercitivité et de rémanence plus élevées.
Un magnétoscope S-VHS peut lire et enregistrer du VHS ; les cir-
cuits d’enregistrement/lecture se commutent automatiquement
dès l’introduction de la cassette. En revanche, un magnétoscope
VHS ne peut pas reproduire une bande enregistrée en S-VHS.
Précisons que le S-VHS existe également en version compacte
(S-VHS-C).

Tableaux 7.1
Les possibilités de compatibilité entre les formats VHS et S-VHS.

• Enregistrement
Magnéto S-VHS Magnéto VHS

Bande S-VHS mode S-VHS mode VHS


Bande VHS mode VHS mode VHS

• Lecture
Magnéto S-VHS Magnéto VHS

Bande S-VHS enregistrée en S-VHS mode S-VHS impossible


Bande S-VHS enregistrée en VHS mode VHS mode VHS
Bande VHS enregistrée en VHS mode VHS mode VHS

7.6 La famille 8mm

7.6.1. Le 8mm
Commercialisé une dizaine d’années après le VHS, le format
8mm de Sony a été étudié essentiellement pour le marché des
caméscopes. Il a bénéficié dès le départ d’un certain avancement
technologique, notamment au niveau de la formulation de la
bande magnétique. Celle-ci n’utilise pas en effet de particules
d’oxyde, mais des particules métalliques beaucoup plus fines,
portant la rémanence à 2 500 gauss. Une bande à particules
métalliques (MP) permet l’enregistrement d’une plus grande

320

© Éditions Eyrolles
7 • Les formats d’enregistrement

densité d’information sur un espace réduit : 8 mm de largeur


de bande (1/3") contre 12,7 mm (1/2") pour le VHS. La durée
maximale des cassettes est ici de 120 minutes. La fréquence
de la porteuse luminance est de 5 MHz et la déviation en fré-
quence est de 1,2 MHz (de 4,2 à 5,4 MHz). La bande passante de
3 MHz donne, comme en VHS, une résolution horizontale de
250 lignes. Point important à préciser : le 8mm n’existe pas en
SECAM.

[Link]. L’audio
Le standard 8mm traite deux pistes audio, enregistrées par les
têtes rotatives en modulation de fréquence avec une large bande
passante (AFM : Audio Frequency Modulation). Il peut égale-
ment traiter deux pistes codées en numérique PCM (Pulse Coded
Modulation). Les signaux analogiques FM sont multiplexés avec
les signaux vidéo ainsi qu’avec les signaux de synchronisation
– il n’y a pas de piste d’asservissement longitudinale –, avant
d’être enregistrés par les têtes vidéo. Les deux pistes audio
numériques PCM sont inscrites dans le prolongement des pistes
vidéo par une tête tournante dédiée.

Figure 7.10
L’empreinte de la bande dans Piste de repérage
les formats 8mm et Hi8.

Sens de lecture
vidéo
8 mm + audio FM
+ signaux pilotes Time code

PCM audio (1,25 mm)


Piste audio longitudinale

Sens de défilement de la bande


largeur de piste : 20,5 µm
vitesse linéaire de la bande : 20 mm/s
vitesse relative tête/bande : 3,1 m/s

321

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

[Link]. La bande et les pistes


La bande, qui défile à la vitesse de 2 cm/s, s’enroule à 221°
autour du tambour de tête. La figure 7.11 montre que 5/6 de la
longueur des pistes (180°) est allouée au signal vidéo, aux
signaux audio FM et aux signaux de synchronisation. Le 1/6 res-
tant (30°) est réservé aux deux pistes audio numériques PCM. Le
tambour, de diamètre 40 mm, effectue 25 tours par seconde, la
vitesse relative tête/bande est ainsi de de 3,1 m/s (valeur infé-
rieure à celle du VHS). Le tambour porte deux têtes diamétrale-
ment opposées et azimutées à ± 10°, ainsi qu’une tête PCM.
Figure 7.11
Angles d’enroulement de la
bande aux formats 8mm et Code temporel
Hi8. (1°)
Audio PCM
(30°)

Vidéo (180°)

[Link]. Le suivi des pistes


Contrairement à la grande majorité des formats vidéo, le 8mm
n’utilise pas de piste d’asservissement longitudinale. Pour assurer
le positionnement correct des têtes sur les pistes, il fait appel à un
système de recherche d’alignement automatique ATF (Automatic
Tracking Find). Une fréquence pilote est superposée à la modula-
tion vidéo sur chaque piste à l’enregistrement ; quatre valeurs de
fréquences différentes sont successivement utilisées. Du fait que
les têtes de lecture sont légèrement plus larges que les pistes,
chaque tête lit la fréquence associée à la piste explorée, ainsi que
les fréquences inscrites sur les deux pistes voisines. Tant que la tête
est parfaitement centrée sur la piste lue, les niveaux des fréquences
recueillis sont identiques. Dès qu’un décentrage tête/piste se pro-
duit, les niveaux de ces fréquences sont différents ; une tension de
correction proportionnelle est alors appliquée au moteur entraînant
le cabestan pour recentrer la piste par rapport à la tête, en freinant
ou en accélérant momentanément la bande.

322

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.12 Piste lue Piste lue Piste lue


Principe du système
d’asservissement ATF : si, par
exemple, les niveaux des f3 f3 f3
fréquences f1 et f3 sont f1 f2 f1 f2 f1 f2
différents (mauvais alignement
entre la tête et la piste
explorée), il faut augmenter ou
diminuer la vitesse de rotation
du cabestan entraînant la Niveau f1 > niveau f3 : Niveau f1 = niveau f3 : Niveau f1 < niveau f3 :
bande pour repositionner positionnement positionnement positionnement
correctement les têtes. incorrect de la tête correct de la tête incorrect de la tête

Figure 7.13 Chrominance Luminance


Allocation des fréquences Excursion en fréquence
dans les formats 8mm et Hi8. 1,2 MHz

Signal
pilote
ATF

8mm
Fréquence (MHz)

0,732 Audio 5
AFM
G + D = 1,5 MHz
G – R = 1,7 MHz
4,2 MHz 5,4 MHz

Chrominance Luminance
Excursion en fréquence
2 MHz

Signal
pilote
ATF

Hi8 Fréquence (MHz)

0,732 Audio 7
AFM
G + D = 1,5 MHz
G – R = 1,7 MHz

5,7 MHz 7,7 MHz

323

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.6.2. Le Hi8
Le Hi8 est au 8mm ce que le S-VHS est au VHS. Il s’agit en effet
d’un format composite séparé Y/C, attribuant un traitement privi-
légié au signal de luminance pour délivrer une résolution hori-
zontale de 400 lignes (au lieu de 250 lignes en 8mm). À l’instar
du 8mm, le Hi8 n’existe pas en SECAM.
La fréquence de la porteuse de la luminance passe de 5 à 7 MHz,
et sa plage de déviation est élevée de 1,2 à 2 MHz, ce qui amé-
liore le rapport S/B. Les signaux de chrominance restent, quant à
eux, inchangés – porteuse à 732 kHz –, pour des raisons de com-
patibilité en lecture avec le 8mm.
Un time code numérique est enregistré entre la zone vidéo et la
zone audio PCM, sur une durée de 1,5 lignes. Le traitement par-
ticulier de ce code temporel est tel qu’il peut être inséré sur une
bande déjà enregistrée.

La bande ME (Métal Évaporé)


Le format Hi8 nécessite l’enregistrement, sur une bande 1/3",
d’une grande densité d’informations avec une longueur d’onde
descendant à 0,4 µm pour la fréquence maximale de 7,7 MHz
(correspondant au blanc). Une nouvelle technologie de support
magnétique a pour cela été développée : la bande « Métal
Evaporé » (ME), reprise plus tard par le DV et le DVCAM. La
couche d’enregistrement d’une bande ME est un film d’alliage
de cobalt appliqué sur le support polyester directement sans
liant. Cet alliage de cobalt est sublimé sous vide par un faisceau
d’électrons à forte densité. La vapeur se dépose et se condense
sur le support enroulé sur un tambour de refroidissement. En rai-
son de l’absence de liant, la couche magnétique ainsi formée est
réduite à 0,2 µm sur une bande ME, contre 2 à 3 µm sur une
bande MP.
Par comparaison avec une bande à particules métalliques cou-
chées (MP), la rémanence passe de 2 500 à 3 700 gauss sur une
bande ME, et la coercitivité de 1 500 à 1 050 œrsteds.

324

© Éditions Eyrolles
7 • Les formats d’enregistrement

Tableau 7.2
Les possibilités de compatibilité entre les formats 8mm et Hi8.

• Enregistrement
Magnéto Hi8 Magnéto 8mm
Bande Hi8 mode Hi8 mode 8mm
Bande 8mm mode 8mm mode 8mm

• Lecture
Magnéto Hi8 Magnéto 8mm
Bande Hi8 enregistrée en Hi8 mode Hi8 impossible
Bande Hi8 enregistrée en 8mm mode 8mm mode 8mm
Bande 8mm enregistrée en 8mm mode 8mm mode 8mm

7.7 Le Betacam SP

7.7.1. Du Betacam au Betacam SP


Le format Betacam, apparu en 1983 dans le milieu broadcast, traite
et enregistre séparément sur la bande les signaux de luminance et
de différence de couleurs. Si ce principe des composantes séparées
a apporté une amélioration appréciable de la qualité de l’image, il
n’a cependant pas permis au format Betacam de détrôner les
magnétoscopes 1" sur le secteur de la production en studio : la
bande passante de la luminance est limitée à 4 MHz, et les deux
seules pistes audio longitudinales, enregistrées à 10 cm/s, n’offrent
pas une qualité satisfaisante pour les utilisateurs les plus exigeants.
Toutes ces faiblesses, qui ont fait que le Betacam sera resté un
format de reportage, sont supprimées en 1987, lorsque Sony
introduit le format Betacam SP. Le Betacam SP offre des perfor-
mances nettement supérieures, tout en restant compatible avec la
génération précédente. La plupart des chaînes de télévision et
studios de production remplacent alors leurs imposants magné-
toscopes composites à bobines 1" par des magnétoscopes à cas-
settes Betacam SP. Aujourd’hui encore, et ce malgré la montée
en puissance des nouveaux formats numériques compressés, le
Betacam SP est toujours très utilisé.
Le Betacam standard a pour sa part disparu des catalogues des
constructeurs.

325

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.7.2. La compression temporelle


des signaux de différence
de couleurs
Les formats Betacam et Betacam SP utilisent une bande magné-
tique de largeur 1/2" sur laquelle sont enregistrées, avec des têtes
séparées et sur des pistes séparées, les composantes de luminance
et de chrominance du signal vidéo.

R-Y

B-Y

R-Y B-Y

1 ligne

Enregistrement Lecture
1 ligne horizontale 1H 1H 1H 1H 1H

Entrée signal Y Yn Yn+1 Yn+2 Lecture signal Y Yn Yn+1 Yn+2

Entrée signal R-Y (R-Y)n (R-Y)n+1 (R-Y)n+2 Signal R-Y restauré (R-Y)n-2 (R-Y)n-1 (R-Y)n

Signaux R-Y/B-Y Signaux R-Y/B-Y


compressés et (R-Y)n-1 (B-Y)n-1 (R-Y)n (B-Y)n (R-Y)n+1 (B-Y)n+1 compressés et (R-Y)n-1 (B-Y)n-1 (R-Y)n (B-Y)n (R-Y)n+1 (B-Y)n+1
multiplexes multiplexes

Entrée signal B-Y (B-Y)n (B-Y)n+1 (B-Y)n+2 Signal B-Y restauré (B-Y)n-2 (B-Y)n-1 (B-Y)n

Figure 7.14
Principe de la compression temporelle à l’enregistrement et de la décompression à la lecture des signaux de différence de
couleurs dans le format Betacam/Betacam SP.

Les informations relatives à une ligne de l’image sont ainsi enre-


gistrées sur deux pistes : la première porte le signal de luminance,
et la seconde les signaux de différence de couleurs, dont la durée
est comprimée dans un facteur deux. En effet, les signaux de chro-
minance Dr et Db occupant une bande passante réduite par rapport
à la luminance, ils peuvent être compressés dans le temps de

326

© Éditions Eyrolles
7 • Les formats d’enregistrement

manière à être enregistrés l’un à la suite de l’autre sur une seule


piste. Le multiplexage fréquentiel des signaux est ici remplacé par
un multiplexage temporel.

7.7.3. Les caractéristiques du format


Betacam SP
La bande utilisée par le format Betacam SP est de largeur
12,7 mm (1/2"), d’épaisseur 14,5 µm, et sa couche magnétique
est faite de particules de métal – le Betacam standard utilise une
bande à l’oxyde. L’azimut de deux pistes vidéo consécutives est
de ± 15°. Deux canaux audio, ainsi que les signaux de time code
et d’asservissement, sont enregistrés sur des pistes longitudinales.
La bande qui défile à 10,15 cm/s s’enroule en « U » autour d’un
tambour de 7,45 cm de diamètre ; la vitesse relative tête/bande est
de 5,75 m/s. Deux tailles de cassettes sont acceptées : les petites,
dont l’autonomie maximale est de 36 minutes, et les grandes, per-
mettant d’enregistrer un programme de 110 minutes.

Figure 7.15
Audio 2
Empreinte de la bande dans
le format Betacam SP. Audio 1

Sens de lecture
12,7 mm Pistes de luminance
Y

Pistes de chrominance
R-Y, B-Y
+ 2 canaux audio AFM
Asservissement
Code temporel

Sens de défilement de la bande

Le mécanisme de transport détecte automatiquement la taille de


la cassette chargée et positionne en conséquence les supports des
bobines.
La fréquence de la porteuse de la luminance du Betacam SP a été
déplacée de 2,4 MHz par rapport au Betacam standard, afin d’aug-

327

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

menter l’excursion en fréquence, qui s’étend de 6,8 à 8,8 MHz. La


bande passante de la luminance passe ainsi de 4 à 5,5 MHz, celle
de la chrominance restant inchangée à 1,5 MHz. En plus des deux
pistes audio longitudinales, le format Betacam SP enregistre deux
canaux audio supplémentaires en modulation de fréquence, béné-
ficiant d’une bande passante de 20 kHz, d’un rapport S/B de
58 dB, et d’une dynamique de 80 dB (valeurs se rapporchant de
l’audio numérique). Ces canaux audio FM sont multiplexés avec
les signaux de chrominance et enregistrés par les têtes rotatives
vidéo. De ce fait, ils sont indissociables de la vidéo, ce qui entraîne
une certaine limitation en montage puisqu’il est impossible de tra-
vailler indépendamment sur le son FM et sur l’image.

Luminance Chrominance
Excursion en fréquence Excursion en fréquence
2 MHz 1,7 MHz

GD

8,1 MHz f (MHz) Canaux FG = 310 kHz 6,1 MHz f (MHz)


6,8 8,8 audio FD = 540 kHz
AFM 5,6 7,3
Crête Fond de
positive synchro
6,6
Crête
négative

Figure 7.16
Allocation des fréquences dans le format Betacam SP.

7.7.4. Le suivi dynamique des pistes :


les têtes Dynamic Tracking (DT)
Les têtes de lecture rotatives montées sur le tambour ne peuvent
suivre le tracé des pistes sur la bande que si celle-ci défile à la
vitesse de lecture nominale. En cas de lecture en accéléré ou au
ralenti, l’angle d’inclinaison relatif des pistes change par rapport
à l’angle de suivi des têtes qui reste constant. Les têtes ne lisent

328

© Éditions Eyrolles
7 • Les formats d’enregistrement

que des morceaux de pistes, comme l’illustre la figure 7.17 sui-


vante, et laissent apparaître sur l’image des barres de bruit.

Arrêt Marche
Accéléré Accéléré Lecture sur arrière
×3 ×2 standard image ×1

Position relative
des pistes vidéo

Déplacement normal
de la tête de lecture

Position relative des pistes vidéo en vitesse de lecture variable

Position de la piste vidéo


Position relative de la piste vidéo en lecture standard
à deux fois la vitesse nominale
Déplacement standard de
la tête de lecture
Déplacement de
la tête flottante

Compensation de l’angle de lecture en lecture accélérée ×2

Figure 7.17
Principe du suivi dynamique des pistes par les têtes flottantes en lecture à vitesse variable.

La solution à ce problème est apportée par l’utilisation de têtes


flottantes DT Dynamic Tracking, placées sur des dispositifs pié-
zoélectriques. Selon la tension qui leur est appliquée – tension
proportionnelle à la vitesse de lecture variable –, ces derniers
déplacent les têtes pour assurer un suivi correct de l’angle d’in-
clinaison relatif pris par les pistes. Ce déplacement s’effectue à
angle droit par rapport à la piste hélicoïdale à suivre. Les têtes
DT, qui prennent donc le relais des têtes de lecture traditionnelles

329

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

en vitesse variable, permettent de lire des bandes en mode accé-


léré ou ralenti. Par ailleurs, un système de contrôle gère automa-
tiquement les sauts de pistes en fonction de la vitesse de lecture
(en vitesse ×2, par exemple, seule une piste sur deux est lue).

Figure 7.18 Enregistrement/lecture


Le tambour de têtes d’un B Tambour
magnétoscope Betacam SP. Bande
Y C Lecture « DT »
Effacement
Y B
B
C

C rotation
Lecture « DT » Y Effacement
C chrominance
A Y A
Enregistrement/lecture luminance
A

7.7.5. La compatibilité
Betacam/Betacam SP
Le Betacam SP est compatible en lecture avec les cassettes à
bande oxyde enregistrées sur un magnétoscope Betacam stan-
dard ; il ne délivre bien entendu dans ce cas qu’une bande pas-
sante de 4 MHz et ne reproduit que les deux pistes audio longi-
tudinales. C’est la détection d’un petit orifice présent
uniquement sur les boîtiers de bandes « Métal » qui permet une
configuration automatique de la machine en mode SP ou stan-
dard. Par ailleurs, un magnétoscope Betacam SP peut également
enregistrer au format Betacam standard sur une bande oxyde.

7.7.6. Le Betacam SP
avec audio numérique
Signalons enfin qu’une version de magnétoscopes Betacam SP
avec deux pistes audio numériques PCM a été développée. Ces
deux pistes PCM sont situées dans le prolongement des pistes
vidéo – elles en sont dissociées, contrairement aux pistes FM –
et occupent l’espace initialement alloué à la piste audio analo-
gique longitudinale n° 1, qui disparaît donc à leur profit.

330

© Éditions Eyrolles
7 • Les formats d’enregistrement

Tableau 7.3
Caractéristiques principales des formats analogiques.

VHS VHS-C S-VHS 8mm Hi8 Betacam Betacam SP


Bande 1/2" 1/2" 1/2" 1/3" 1/3" 1/2" 1/2"
(12,7 mm) (12,7 mm) (12,7 mm) (8 mm) (8 mm) (12,7 mm) (12,7 mm)
Signal vidéo Composite Composite Y/C Composite Y/C Composantes Composantes
Y, Dr, Db Y, Dr, Db
Bande passante Y = 3 MHz Y = 3 MHz Y = 5 MHz Y = 3 MHz Y = 5 MHz Y = 4 MHz Y = 5,5 MHz
vidéo C = 0,6 MHz C = 0,6 MHz C = 0,6 MHz C = 0,6 MHz C = 0,6 MHz C = 1,5 MHz C = 1,5 MHz
S/B en luminance 41 dB 41 dB 45 dB 41 dB 45 dB 48 dB 51 dB
Vitesse défilement 2,34 cm/s 2,34 cm/s 2,34 cm/s 2 cm/s 2 cm/s 10,15 cm/s 10,15 cm/s
Vitesse relative 4,84 m/s 4,84 m/s 4,84 m/s 3,13 m/s 3,13 m/s 5,75 m/s 5,75 m/s
tête/bande
Diamètre tambour 6,2 cm 4,13 cm 6,2 cm 4 cm 4 cm 7,45 cm 7,45 cm
Audio 1 linéaire 1 linéaire 1 linéaire 1 ou 2 AFM 1 ou 2 AFM 2 linéaires 2 linéaires
2 AFM 2 PCM 2 PCM 2 AFM
Type de bande Oxyde Oxyde Oxyde Métal (MP) Métal (MP) Oxyde Métal (MP)
Métal
évaporé (ME)

7.8 Le D1

Le D1 est un format d’enregistrement en composantes numériques


proposé par Sony. Il traite le signal vidéo [Link] sur 8 bits, ainsi que
quatre pistes audio PCM échantillonnées à 48 kHz et codées sur
20 bits. Le support magnétique est une bande oxyde de largeur
19 mm (3/4"), conditionnée dans trois tailles de cassettes (6, 34, et
94 minutes). Unique pour les standards 525 et 625 lignes, le D1 est
le premier format numérique à avoir vu le jour en 1986, soit quatre
années après la définition de la norme [Link]. Mais son coût relati-
vement élevé a été un sérieux obstacle à son utilisation, d’autant
que ce format en composantes est apparu à une époque où toutes
les installations étaient en composite. Le D1 est resté un format
destiné aux sociétés de postproduction les plus exigeantes.

7.8.1. La segmentation
Le débit total à enregistrer incluant la vidéo (172 Mbits/s), l’audio
(8 Mbits/s) et les données supplémentaires (47 Mbits/s) s’élève à
227 Mbits/s. Une trame renferme donc un total de 227/50, soit

331

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

environ 4,5 Mbits. Or, pour enregistrer, comme en analogique, sur


une seule piste oblique ces 4,5 Mbits, il faudrait, avec une densité
de 2 bits par micron, une piste longue de plus de 2 mètres
(4,5/2  2,2 m) ! Quant au tambour, son diamètre doit être de
2,2/π = 70 cm. Ces petits calculs montrent l’impérative nécessité
de segmenter une trame en plusieurs pistes et d’enregistrer ces
pistes par plusieurs têtes. Ce principe est d’ailleurs valable pour
tous les formats numériques qui sont présentés dans les pages qui
suivent, qu’ils fassent ou non appel à la réduction de débit.

Figure 7.19
Principe de la segmentation
d’une trame en D1. 4 secteurs

50 lignes TV 1 segment
300 lignes

1 440 échantillons

1 trame = 6 segments = 12 pistes = 24 secteurs

Dans le format D1, une trame en 625/50 est répartie sur 12 pistes
obliques. Chacune d’elles est divisée en deux secteurs, l’un dit
supérieur, l’autre dit inférieur. 24 secteurs, ou demi-pistes for-
ment donc une trame. Un segment contenant les informations de
50 lignes est constitué du regroupement de 4 secteurs enregistrés
chacun avec une tête différente. Signalons pour information
qu’en 525/50, on compte seulement 10 pistes par trame donc
20 secteurs vidéo et 5 segments de 50 lignes. Les autres para-
mètres du format sont communs aux deux standards.

7.8.2. La structure d’enregistrement


L’empreinte de la bande en D1 est donnée sur la figure 7.20 (en
625/50). Trois pistes longitudinales sont présentes pour le repé-
rage audio, l’asservissement du cabestan et le code temporel. La
piste de repérage audio permet d’écouter le son sur une grande

332

© Éditions Eyrolles
7 • Les formats d’enregistrement

plage de vitesse ; elle est cependant analogique et sa qualité est


inférieure à celle des pistes numériques. Du fait de la segmenta-
tion, la piste d’asservissement contient notamment des impul-
sions arrivant tous les deux segments, c’est-à-dire une fois à
chaque rotation du tambour, soit à 150 Hz en lecture normale.
Les pistes hélicoïdales sont enregistrées sans azimut et sont donc
séparées par un intervalle de garde de 5 µm visant à éviter tout
problème d’intermodulation. Les secteurs audio occupent une
place privilégiée au centre de la bande (entre les secteurs vidéo),
là où le contact tête/bande est optimal. Une redondance de 100 %
est par ailleurs appliquée au signal audio, dont les échantillons
sont enregistrés deux fois à des endroits différents.

Figure 7.20 Sens de défilement de la bande


Empreinte de la bande en
D1. Repérage audio

Secteur vidéo
Début de supérieurs
la trame
Sens de
Secteurs lecture
19 mm audio

Secteur vidéo
inférieurs
Fin de
la trame
Asservissement
Code temporel

Chaque piste oblique contient successivement un premier sec-


teur vidéo, quatre secteurs audio et un second secteur vidéo.
Tous les secteurs sont séparés par des intervalles de garde qui
permettent d’éditer séparément l’image et les canaux audio. La
longueur d’une piste est de 170 mm – pour une largeur de
40 µm – et celle d’un secteur vidéo est de 78 mm.

7.8.3. Le tambour de têtes


Le tambour comporte 16 têtes : 4 pour l’effacement/enregistre-
ment, 4 pour la lecture avancée audio, et 2 blocs de 4 têtes de lec-
ture Dynamic Tracking. Les têtes de lecture avancée audio per-
mettent, en mode enregistrement, de lire le son présent sur la

333

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

bande afin de le traiter ou de le mélanger avec une autre source,


et de réenregistrer immédiatement le résultat de cette opération
sur la piste d’origine. Les têtes DT permettent, quant à elles, une
lecture audio/vidéo sur une plage de – 1 à 2× la vitesse nominale.

Figure 7.21 Enregistrement audio/vidéo


Le tambour de têtes en D1.
B A

Lecture
Lecture avancée C DT
audio D
B
Lecture Lecture avancée
A audio
DT

C D
Enregistrement audio/vidéo

Quatre d’entre elles permettent en outre de contrôler les signaux


audio et vidéo inscrits sur la bande au cours de l’enregistrement
(mode « confidence »). La bande d’épaisseur 13 ou 16 µm défile
à 28,6 cm/s, la vitesse d’écriture étant de 35,6 m/s. Quatre têtes
d’enregistrement tracent simultanément les quatre secteurs d’un
segment, comme l’illustre la figure 7.22.

Figure 7.22
Secteur 0
Un segment vidéo (50 lignes)
est découpé en 4 secteurs 1 segment
Secteur 1
enregistrés simultanément
par 4 têtes indépendantes. Secteur 2
50 lignes
Secteur 3

1 0 1
0

2
3 2 3

334

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.8.4. Le traitement vidéo


Nous allons à présent passer en revue les principales étapes du
traitement que subissent les données vidéo avant leur enregistre-
ment.
• Mapping vidéo (précodage de source)
Les 8 bits de chaque échantillon vidéo sont brassés afin que soit
répartie uniformément toute erreur éventuelle sur l’ensemble de
l’échelle de luminance ou de chrominance. Une opération
inverse est bien sûr effectuée à la lecture pour rétablir l’ordre
chronologique des données.
• Distribution inter secteur (brassage intra-ligne)
Les échantillons vidéo de chaque segment de 50 lignes sont dis-
tribués sur 4 secteurs, enregistrés simultanément par 4 têtes sépa-
rées. Chaque canal ne gère alors qu’un débit d’environ
55 Mbits/s. Un brassage intra-ligne est ainsi réalisé ; chaque sec-
teur ne contient donc que 50 « 1/4 de lignes ». C’est alors que
sont calculés et ajoutés les codes de protection d’erreurs, d’abord
dans le sens vertical, puis dans le sens horizontal.
• Codage externe (outer code)
Les données de chaque secteur sont organisées sous la forme
d’un tableau de 30 rangées et 600 colonnes Pour chaque colonne
sont calculés deux octets de contrôle de correction (code Reed
Solomon) : c’est le codage externe qui permet de corriger les
erreurs courtes.
• Codage interne (inner code)
Après avoir été soumises à un brassage intra-secteur, les données
vidéo et leurs codes externes sont envoyés vers le processus de
codage interne opérant cette fois dans le sens horizontal. Le
tableau secteur précédent est alors découpé en 10 blocs de
60 colonnes. À chaque rangée est ajouté un mot de 4 octets. Ce
codage interne permet de corriger les erreurs longues – 1 octet
par ligne sur chaque bloc.
La redondance amenée par ce double codage de protection
contre les erreurs est de 14 %.

335

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

• Découpage en blocs de synchronisation


Des informations permettant de structurer les données en blocs
de synchronisation sont alors ajoutées. Le bloc de synchronisa-
tion est le plus petit ensemble de données enregistrées détec-
table. Un secteur vidéo est formé par un ensemble de 160 blocs
et délimité par un préambule et un postambule.
Figure 7.23 Sans entrelacement
L’entrelacement des données
à l’enregistrement. Drop out 1 5 9 13 1 2 3 4 5
6 7 8 9 10
2 6 10 14 11 12 13 14 15
3 7 11 15 16

4 8 12 16 Une erreur importante


visible sur l'image

Avec entrelacement

5 13 2 11 1 2 3 4 5
Drop out 6 7 8 9 10
7 9 14 6 11 12 13 14 15
16
16 15 8 10
1 3 4 12 Plusieurs petites erreurs dispersées
et plus faciles à corriger

• Codage de canal
Le codage de canal a pour rôle de mettre les données vidéo et
audio sous la forme d’un signal série adapté à l’enregistrement
magnétique. Le D1 utilise un code NRZ embrouillé, qui mini-
mise les longues suites de 0 ou de 1, réduisant ainsi les compo-
santes basses fréquences du flux numérique.

Figure 7.24 Code


Sur chaque bloc de données, 1 bloc interne 1 secteur
un code de protection interne
est ajouté horizontalement et
un code de protection externe D D D D D D
est ajouté verticalement. O O O O O O
N N N N N N
N N N N N N
É É É É É É
E E E E E E
S S S S S S

Code
externe

336

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.8.5. Le traitement audio


La densité d’enregistrement du D1 est telle que chaque canal
audio ne requiert que six secteurs par trame, soit deux fois moins
que ce qui est disponible sur la bande. Il est donc possible d’en-
registrer deux fois chaque échantillon audio à des emplacements
différents, ce qui n’est pas du luxe quand on sait que la tolérance
face aux erreurs en audio est beaucoup plus faible qu’en vidéo.
La protection supplémentaire ainsi apportée permet d’accroître
l’efficacité de la correction d’erreurs et d’obtenir une qualité
audio irréprochable, même en cas de problèmes de bruit, perte de
niveau, encrassement des têtes, défauts sur la bande, etc. Si, par
exemple, la tête 0 est défaillante, toutes les données de la piste 0
peuvent ainsi être retrouvées sur les pistes voisines. La redon-
dance de 100 % ainsi appliquée au signal audio porte son débit
total à 8 Mbits/s.
La stratégie de protection contre les erreurs est similaire à celle
mise en œuvre pour la vidéo. Les données audio sont préalable-
ment réorganisées pour découper les échantillons de 20 bits en
mots de 8 bits, afin d’obtenir une structure identique à celle de la
vidéo (les têtes sont communes pour les deux signaux). On
retrouve ensuite le codage externe, qui calcule et ajoute ici
3 octets par colonne de tableau secteur. Un brassage intra-secteur
est ensuite réalisé avant l’étape du codage interne, qui ajoute
4 octets par rangée de tableau. Puis chaque secteur audio est mis
sous la forme de 5 blocs de synchronisation.

7.9 Le D2

Lancé en 1988 par Sony et Ampex, le format D2 enregistre le


signal vidéo composite numérisé sur une bande 3/4". Il est bien
évidemment inférieur au D1 sur le plan technique, mais il a per-
mis d’apporter certains avantages du numérique aux infrastruc-
tures analogiques qui ne souhaitaient pas s’équiper entièrement
en composantes. Du fait qu’il travaille sur un signal composite

337

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

(il en conserve donc tous les défauts), le D2 existe en deux ver-


sions incompatibles, l’une traitant le signal PAL et l’autre trai-
tant le signal NTSC. Les deux versions de D2 ont des empreintes
de bande différentes, des débits binaires différents, mais possè-
dent néanmoins un grand nombre de points communs et utilisent,
pour une large part, la même circuiterie électronique.
La fréquence d’échantillonnage du signal vidéo a été choisie
égale à 4 fois la fréquence de la sous-porteuse couleur (notée
4 fSC, elle-même multiple de la fréquence ligne. Or la fréquence
ligne est différente dans chacun des deux standards, ce qui donne
une fréquence d’échantillonnage de 17,73 MHz (4 × 4,43) en
PAL et de 14,32 MHz en NTSC (4 × 3,5). Nous ne considérerons
dans tout ce qui suit que les valeurs relatives au PAL pour ne pas
alourdir le propos. Une ligne de 64 µs contient 1 135 échan-
tillons de 8 bits. Sa partie active n’en comporte que 948, qui sont
en fait les seuls à être enregistrés. Les quatre canaux audio sont,
quant à eux, échantillonnés à la fréquence de 48 kHz et quanti-
fiés sur 20 bits.
Le débit total des informations à enregistrer, incluant les codes
de correction d’erreurs, s’élève à 152 Mbits/s.

7.9.1. La structure d’enregistrement


Le D2 utilise une cassette de mêmes dimensions que le D1, mais le
type de la bande et le motif d’inscription des pistes sont différents.
Le D2 utilise en effet une bande à particules métalliques, d’épais-
seur 13 µm et de coercitivité 1 500 œrsted. L’enregistre-
ment est ici réalisé avec azimut : les pistes adjacentes de largeur
35 µm sont tracées avec un entrefer doté d’un angle d’inclinaison
alterné de – 15° et + 15° et peuvent donc se chevaucher (de 7 µm)
sans que cela n’engendre de parasitage interpiste. La vitesse de défi-
lement linéaire est de 13,1 cm/s (en 625/50), soit un peu plus de
deux fois inférieure à celle du D1. Toujours en comparaison avec le
D1, le débit des données du D2 est 30 % plus faible et la densité
d’enregistrement est 50 % plus élevée.

338

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.25 2 pistes


Segmentation et empreinte
de la bande en D2. 76 lignes TV 1 segment
304 lignes

948 échantillons 1 trame = 4 segments = 8 pistes

Repérage audio

A4 A2 A4 A2 A4 A2 A4 A2
A3 A1 A3 A1 A3 A1 A3 A1

19 mm Vidéo
Sens de lecture
A2 A4 A2 A4 A2 A4 A2 A4
A1 A3 A1 A3 A1 A3 A1 A3

Asservissement
Code temporel

Sens de défilement de la bande

Les autonomies maximales offertes par les trois tailles de cassettes


(S, M, L) sont par conséquent nettement supérieures, soit respecti-
vement : 32, 94, et 208 min.
L’enregistrement est bien entendu segmenté. Une trame est divi-
sée en quatre segments constitués de 76 lignes chacun. Un seg-
ment se subdivise en deux secteurs, dont chacun reçoit un échan-
tillon sur deux.
Les quatre pistes audio numériques sont enregistrées sur des sec-
teurs situés de part et d’autre de la piste vidéo, sur les bords de
la bande. Tout comme en D1, chaque échantillon audio est enre-
gistré deux fois. Les données audio sont organisées en segments
de durée 1/4 de trame chacun. Un segment audio est divisé en
deux secteurs.
On trouve également sur la bande trois pistes longitudinales ana-
logiques allouées au time code, au repérage audio, et à l’asser-
vissement.

339

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.9.2. Le tambour de têtes


Le tambour de têtes de diamètre 96 mm porte deux paires de
têtes pour l’enregistrement et deux paires de têtes pour la lecture.
Ces dernières sont à suivi dynamique de pistes et permettent une
lecture sans parasite sur une plage de – 1 à + 3× la vitesse nomi-
nale. Le tambour effectuant 100 rotations par seconde, deux
tours sont nécessaires pour l’enregistrement des huit pistes for-
mant une trame. En enregistrement, les têtes de lecture peuvent
jouer le rôle de têtes « confidence », fournissant ainsi un moni-
toring simultané de l’audio et de la vidéo. En mode insert, ces
mêmes têtes font office de têtes de prélecture, permettant alors
d’utiliser les signaux audio et vidéo présents sur la bande comme
source de montage. C’est la fonction pre-read.

Figure 7.26 Enregistrement


Le tambour de têtes en D2. Tambour
D C

C B
Lecture Lecture
(DT) D A (DT)
188°
Bande

A B
Enregistrement

7.9.3. La fonction pre-read,


ou de lecture avancée
Les têtes de lecture avancée permettent de lire le signal vidéo et
audio quelques trames avant qu’il ne soit effacé et remplacé par
les têtes d’enregistrement.

340

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.27
Fonction pre-read : Correcteur colorimétrique,
mélangeur, etc.
pendant le temps pris pour
modifier l’image A en image
A+, la bande s’est déplacée
de la tête pre-read à la tête A A+
d’enregistrement. L’image
A+ écrase donc l’image A.
Tête Tête
lecture avancée d’enregistrement

A A+
A+ écrase A
Time code [Link] [Link]

Sens de défilement de la bande

Cette fonction pre-read permet d’apporter une modification sur


un programme enregistré sans nécessiter plus d’un magnéto-
scope. En mode enregistrement, l’ancien signal lu par ces têtes de
lecture avancée peut en effet être traité par un équipement externe
– mélangeur, correcteur colorimétrique, etc. –, puis réenregistré à
sa place d’origine. Cette fonction très intéressante impose cepen-
dant une grande prudence car l’opération est irrémédiable.

7.9.4. Le traitement du signal


Dans son principe, le traitement des données numériques dans le
format D2 est similaire à celui du D1. Chacun des quatre seg-
ments d’une trame est décomposé en deux secteurs, constitués de
76 lignes de 474 échantillons. Pour ce, le premier échantillon du
segment est envoyé sur le secteur 0, le second dans le secteur 1,
le suivant dans le secteur 0, et ainsi de suite. Dans chaque secteur
est alors opéré un brassage intra-ligne. Puis est réalisé le codage
externe (vertical), qui calcule et ajoute 4 octets par colonne du
tableau secteur ; sa capacité de correction est d’environ 4 erreurs
par colonne. Après brassage intra-secteur, le codage interne (hori-
zontal) consiste à ajouter, à chaque groupe de 76 colonnes,
8 octets de protection par ligne. La capacité de correction est ici
de 3 octets par rangée. Le codage de canal est le Miller2.

341

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.10 Le D3

Lancé en 1991, le D3 est un format composite numérique conçu


par la NHK et développé par Panasonic. Le D3 effectue globale-
ment le même traitement à l’enregistrement que le D2, mais sur
une bande 1/2" (au lieu de 3/4"), ce qui a notamment permis au
premier caméscope numérique de voir le jour. Le D3 enregistre
un signal vidéo PAL ou NTSC numérisé avec une fréquence
d’échantillonnage égale à 4 fois la fréquence de la sous-porteuse
couleur (4 fSC) et quantifié sur 8 bits. Il traite également quatre
pistes audio échantillonnées à 48 kHz et codées sur 20 bits. Le
format D3 accepte trois tailles de cassettes, dont les durées maxi-
males sont de 64, 125, 245 minutes. Le D3 a bénéficié de l’ex-
périence des formats digitaux qui l’ont précédé et utilise des stra-
tégies de correction d’erreurs plus performantes, notamment en
ce qui concerne l’audio.

7.10.1. La structure d’enregistrement


Le format D3 utilise une bande à particules métalliques de
largeur 1/2" (12,7 mm), d’épaisseur 11 ou 14 µm et défilant à
83,88 mm/s. Une trame est décomposée en quatre segments, un
segment étant enregistré sur deux pistes. Un total de huit pistes
est donc nécessaire pour l’inscription d’une trame en PAL.
Comme le D2, le D3 utilise deux canaux pour l’enregistrement :
les échantillons pairs sont traités sur le canal 0 et les échantillons
impairs sont aiguillés vers le canal 1. Afin d’obtenir une plus
haute densité d’informations sur la bande, le D3 utilise un angle
d’azimut de ± 20° et une largeur de piste de seulement 18 µm en
PAL. La densité d’enregistrement du D3 a ainsi pu être doublée
par rapport à celle du D2 et triplée par rapport à celle du D1.
Les données relatives aux quatre canaux audio sont organisées
en secteurs enregistrées aux extrémités des pistes vidéo.
À la différence des formats précédents D1 et D2, qui enregis-
traient deux fois les mêmes données, le D3 se contente de ne les
enregistrer qu’une seule fois, en respectant une répartition parti-
culière. Cela a été rendu possible grâce à la puissance du circuit

342

© Éditions Eyrolles
7 • Les formats d’enregistrement

de correction d’erreurs mis en œuvre. Celui-ci est en effet


capable de restituer les données, même si près de 50 % d’entre
elles sont manquantes.
Figure 7.28
Repérage audio
Empreinte de la bande en
A4 A2 A3 A1
D3. A4 A3 A2 A1 A3 A4 A1 A2
Audio A3 A1 A4 A2

Sens de
CH1 lecture
CH0
12,7 mm Vidéo

A2 A4 A1 A3
A2 A1 A4 A3 A1 A2 A3 A4
Audio A1 A3 A2 A4

Asservissement
Code temporel

Sens de défilement de la bande

7.10.2. Le tambour de têtes


Le tambour de diamètre 76 mm porte deux paires de têtes
d’enregistrement diamétralement opposées, deux paires de
têtes de lecture à suivi dynamique de piste, ici appelées Automatic
Tracking (AT), permettant une lecture de l’image de – 1 à +3 fois la
vitesse nominale), et deux têtes d’effacement rotatives. Chaque
paire de têtes d’enregistrement trace deux pistes en une rotation du
tambour, une pour le canal 0, l’autre pour le canal 1.

Figure 7.29 Enregistrement


Le tambour de têtes en D3. Effacement rotatif

Lecture Lecture
« AT » « AT »

Effacement rotatif
Enregistrement

343

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Les têtes Automatic Tracking jouent un rôle différent selon que


la machine fonctionne en mode lecture normale ou en mode
confidence. En lecture normale, elles assurent une prélecture
avec une phase avancée par rapport aux têtes d’enregistrement
(fonction pre-read). En mode lecture confidence, les têtes AT
permettent une lecture de contrôle avec une phase retardée par
rapport aux têtes d’enregistrement.
Le D3 est le premier format à avoir utilisé des têtes d’effacement
rotatives. Celles-ci travaillent par segment, c’est-à-dire par paire
de pistes, leur largeur étant légèrement supérieure à celle de deux
pistes réunies. Elles produisent de ce fait une bande de garde aux
points de montage, dans le but d’éviter une hausse du taux d’er-
reurs engendrée par un problème de tracking et de ramener ainsi
le rapport signal/bruit à sa valeur normale (celle qu’il a en dehors
des points de montage). De plus, les anciennes données présentes
sur la bande sont totalement supprimées par les têtes rotatives
d’effacement au lieu d’être simplement écrasées par les nouvelles.

Figure 7.30 Ancien Nouvel Ancien


Les têtes d’effacement enregistrement enregistrement enregistrement
rotatives effacent l’ancien
signal présent sur la bande
;;
;;
;;

;;

;;
;;
;;

;;
;
;

;;
;;

;;
;;
;;

;;

;;
;;
;;

;;
;;
;;

;;
;;
;;

;;

;;
;;
;;

;;
;;
;;

;;
;;
;;

avant tout nouvel


;;

;;
;;
;;

;;
;;
;;

;;
;;
;;

;;

;;
;;
;;

;;
;;
;;

;;
;;

;;

;;

;;
;;
;;

;;
;;
;;

;;
;;

;;

;;

;;
;;
;;

;;

enregistrement, et produisent
;;
;;

;;
;;

;;

;;

;;
;;
;;

;;
;;
;;

;;
;;

;;

;;

;;
;;
;;

;;
;;
;;

;;
;;

;;

;;

;;
;;
;;

;;
;;
;;

;;
;;

;;

;;

;; ;
;

une bande de garde aux


;
;;
;;
;;

;;

;
;;

;;
;;
;

;;
;;
;;

;;
;;
;;

;;
;;

;;
;;

points de montage.
;;
;;
;;

;;
;;
;;

;;
;;

;;
;;

;;
;;
;;

;;
;;
;;

;;
;;

;;
;;

;;
;;
;;

;
;
;;

;;
;;

;;
;;

;;
;;

;;
;;
;;
;;

;;
;

;;
;;

;;
;;

;;
;;
;;

;;
;;

;;

;;
;;

;;
;;

;;
;
;;

;;
;

;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

;;

;;

;;
;;

;;
;;
;;

;;
;;;;

;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;
;;
;;

;;

;;
;;

;;
;;

;;
;;

;;

;
;;

;;
;;

;;
;;
;;

;;

;;
;;
;;
;

;;
;;

;;
;;
;;

;;

;;
;;
;;

;;

;;
;;

;;
;;
;;

;;
;
;;

;;
;;

;;

;;
;;

;;
;;
;;

;;
;;

;;

;;

;;

;;
;;

;;
;;
;;

;;
;;

;;

;;

;;

;;
;;

;;
;;
;;

;;
;;

;;

;;

;;

;;
;;

;;
;;
;;

;;
;;

;;

;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

;;

;;

;;
;;

;;
;;
;;

;;
;;;;

;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;;
;;
;;

;;

;;

;;
;;

;;
;;

;;

;
;;
;;

;;

;;
;;

;;
;;

;;
;

;;

;;
;;
;;

;;

;;
;;

;;
;;

;;
;

;
;;

;;
;;

;;
;

;
;
;;

;;
;;
;

;;
;;

;;

;;
;;

;
;;
;;

;;

;;
;;

;;
;;

;;
;;

;
;

;;

;;

;;
;;
;;

;;
;;
;;

;
;;

;;

;;
;;

;;
;;
;;

;;
;;
;;

Bandes de garde insérées par les têtes d'effacement rotatives


aux points de montage

Le D3 n’utilise qu’un seul guide de bande fixe avec un angle


d’enroulement de bande de 37° – les autres sont des guides rota-
tifs à roulements à bille. La tension appliquée à la bande sur le

344

© Éditions Eyrolles
7 • Les formats d’enregistrement

cylindre à l’entrée du tambour est quatre fois plus faible qu’en


D2 (environ 20 grammes). Cela offre plusieurs avantages, parmi
lesquels une réduction du risque d’encrassement des têtes et
d’usure de la bande.

7.10.3. Le traitement du signal


Alors que dans les formats D1 et D2, les données sont entrela-
cées uniquement au sein de blocs de trames, dans le format D3,
elles sont brassées sur une trame entière. Un tel procédé réduit
davantage les effets de rafale d’erreurs en répartissant celles-ci
sur l’ensemble de la trame, ce qui accroît l’efficacité de la cor-
rection d’erreurs. Comme pour les autres formats vidéo numé-
riques, le D3 utilise un double code d’erreurs (interne et externe)
travaillant sur deux axes. Sa capacité de correction totale peut
s’étendre à 15 lignes.
Avant l’enregistrement, les données de chaque ligne sont mélan-
gées entre elles. Le code correcteur d’erreurs externe de 8 octets
est alors ajouté verticalement ; il peut corriger jusqu’à 8 erreurs
dans une colonne de segment. Le flux de données du signal
vidéo traverse ensuite un séparateur de canal, qui envoie les mots
alternativement sur le canal 0 et sur le canal 1. Lors d’une rota-
tion du tambour, chaque tête enregistre deux pistes (CH0 et
CH1). Si une tête s’encrasse, seule la moitié des informations de
CH0 ou CH1 est perdue. La position des octets de données est
alors à nouveau réarrangée, mais cette fois-ci à l’intérieur de
toute la trame. Puis les signaux vidéo sont multiplexés dans le
temps avec les données audio. Le code de correction d’erreur
interne de 8 octets est alors ajouté horizontalement ; il peut cor-
riger jusqu’à 4 erreurs dans un bloc.
L’ensemble des données est ensuite soumis, avant l’enregistre-
ment, à un codage de canal eight-to-fourteen (8-14) qui, comme
son nom le laisse entendre, transforme tous les mots de 8 bits en
mots de 14 bits (dont 3 de redondance). Cette opération a pour
but de minimiser la composante continue et de réduire la gamme
de fréquences (hautes et basses), ce qui permet de faire circuler
le signal sur un canal de bande passante plus faible.

345

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.11 Le D5

Lancé en 1994 par Panasonic, le D5 est un format 1/2" compo-


santes numériques dont la technologie et les paramètres méca-
niques sont en grande partie empruntés au D3. L’utilisation, par
ces deux formats, de la même cassette et de la même empreinte
sur la bande permet aux magnétoscopes D5 de relire des pro-
grammes composites enregistrés sur une machine D3. Le D5 est
l’unique format capable d’enregistrer le signal vidéo [Link] sans
compression avec une quantification de 10 bits par échantillon.
Il est en outre le seul format pouvant enregistrer un signal 16/9
échantillonné à 18 MHz au lieu de 13,5 MHz (nous y revien-
drons plus loin). En termes de débit, la capacité totale du format
D5 est de 288 Mbits/s (218 Mbits/s pour la vidéo en 4/3-
13,5 MHz, et 234 Mbits/s en mode 16/9-18 MHz).

7.11.1. La bande et les têtes


Le tambour de diamètre 76 mm tourne à 100 Hz, comme en D3,
mais la vitesse de défilement de la bande a été doublée pour
atteindre 16,7 cm/s. Les durées maximales offertes par les trois
tailles de cassettes sont par conséquent réduites de moitié par rap-
port au D3, soit 124, 63, et 23 min (avec une bande d’épaisseur
11 µm).
Le débit supérieur requis par l’enregistrement en composantes
numériques a par ailleurs imposé de doubler le nombre de canaux
d’enregistrement, qui passe ainsi de deux à quatre. Le tambour
comporte 18 têtes, réparties comme suit : deux groupes de quatre
têtes d’enregistrement diamétralement opposés, deux ensembles
de quatre têtes à suivi de piste « AT » autorisant une lecture à
vitesse variable de – 1 à + 2× la vitesse nominale, et deux têtes
d’effacement rotatives fonctionnant comme en D3. Le magnéto-
scope D5 est doté de la fonction pre-read qui consiste, en mode
enregistrement, à lire le signal vidéo présent sur la bande quelques
trames avant qu’il ne soit effacé et remplacé par les têtes d’enre-
gistrement.

346

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.31
Empreinte de la bande en Repérage audio
D5.

Vidéo Sens de lecture


A4 A3 A2 A1
A4 A3
A2 A1 A2 A2 A1 A3
A2 A3 A1 A4 A2 A1 A3 A2
A3 A1 A4 A2 A1 A3 A2 A4
Audio A1 A2 A3 A4

Vidéo

Asservissement
Code temporel

Sens de défilement de la bande

Figure 7.32 Enregistrement


En D5, le tambour de têtes
comporte deux fois plus de
Effacement
têtes d’enregistrement et de
lecture qu’en D3.

Lecture « AT » Lecture « AT »

Effacement

Enregistrement

7.11.2. Le traitement du signal


Le D5 traite aussi bien un signal échantillonné à 13,5 MHz avec
une résolution de 10 bits, qu’un signal échantillonné à 18 MHz
avec une quantification sur 8 bits. Il faut cependant savoir que
pour des raisons de simplification, le D5 ne manipule en interne

347

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

qu’un signal 18 MHz/8 bits, Le signal 13,5 MHz/10 bits est par
conséquent soumis, dès son entrée dans la machine, à un forma-
tage 10-8. Les 1 440 échantillons de luminance et de chromi-
nance (en 4/3) codés sur 10 bits entrent dans une mémoire d’une
ligne, dans laquelle ils sont inscrits sous la forme d’octet. À par-
tir de ce moment, le traitement s’effectue sur des mots de 8 bits
quel que soit le type du signal d’entrée. Un brassage intra-ligne
est alors effectué. Puis une séquence pseudoaléatoire est ajoutée
au signal pour briser les longues suites de « 0 » et de « 1 ».
Chacun des quatre canaux d’enregistrement possède deux
mémoires de trame qui s’alternent en lecture et en écriture.
L’entrelacement des données s’étend à l’ensemble de la trame.
Les codes correcteurs d’erreurs externes et internes sont alors
générés. Après ajout des données d’identification et de synchro-
nisation, le signal est finalement soumis comme en D3, à un
codage de canal 8-14 avant d’être enregistré.

Le 16/9 à définition horizontale améliorée


Le signal numérique [Link], tel qu’il a été défini par la recom-
mandation CCIR 601, peut être utilisé en 16/9 en conservant le
même nombre de pixels par ligne qu’en 4/3. Cette solution, qui
permet d’utiliser sans modification des équipements 4/3 pour
produire en 16/9, présente néanmoins l’inconvénient de rendre
rectangulaires des pixels qui sont à l’origine presque carrés
(fig. 7.33). La résolution horizontale de l’image est par consé-
quent réduite.
Pour remédier à ce problème, il faut non pas étirer en largeur les
pixels pour qu’il remplissent une ligne plus longue, mais plutôt
accroître leur nombre de 720 à 960 afin de conserver leur forme
carrée. Pour disposer de davantage de points par ligne, il faut
augmenter la fréquence d’échantillonnage et passer, dans le cas
présent, de 13,5 MHz à 18 MHz. L’échantillonnage à 18 MHz
permet en effet d’accroître la réponse en fréquence de 5,75 MHz
(limite du CCIR 601) à 7,67 MHz. Le format D5 peut enregistrer
un tel signal, avec toutefois une quantification réduite de 10 à
8 bits.

348

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.33
Le 16/9 en CCIR 601 et en
4/3 16/9 en CCIR 601
CCIR 601 amélioré.
720 pixels par ligne 720 pixels par ligne
Pixels carrés Pixels rectangulaires
Fréquence d‘échantillonnage : 13,5 MHz Fréquence d‘échantillonnage : 13,5 MHz
Quantification 10 bits Quantification 10 bits

16/9 à définition améliorée

960 pixels par ligne


Pixels carrés
Fréquence d‘échantillonnage : 18 MHz
Quantification 8 bits

Tableau 7.4
Caractéristiques du signal vidéo en [Link] et en [Link] amélioré.

[Link] [Link] amélioré


Y : 13,5 MHz Y : 18 MHz
Fréquences d’échantillonnage
C : 6,75 MHz C : 9 MHz
Quantification 10 bits 8 bits
Y : 878 (blanc : 941, noir : 64) Y : 220 (blanc : 235, noir : 16)
Niveaux de quantification
C : 897 (signal nul : 448) C : 225 (signal nul : 128)

Nombre d’échantillons par ligne Y : 720 Y : 960


C : 360 C : 480
total : 1 440 total : 1 920
Nombre de lignes utiles par trame 304 304

7.12 Le Digital Betacam

Lancé en 1993, le Digital Betacam de Sony est une synthèse des


technologies développées pour les fomats D1, D2 et Betacam SP.
Il traite le signal vidéo [Link] sur 10 bits, auquel il fait subir une
réduction de débit de type M-JPEG propriétaire de facteur 2. Les
quatre pistes audio numériques sont enregistrées sans compres-

349

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

sion avec un échantillonnage à 48 kHz et un codage sur 20 bits.


La gamme de machines Digital Betacam comprend des modèles
compatibles en lecture avec les cassettes Betacam analogiques
(oxyde et métal). Le Digital Betacam utilise une bande 1/2"
à particules métalliques, optimisée pour l’enregistrement numé-
rique. Deux tailles de cassettes sont disponibles, offrant des
durées maximales d’enregistrement de 40 et 124 minutes.

7.12.1. La structure d’enregistrement


Le signal vidéo est réparti sur quatre canaux, une trame étant
enregistrée sur six pistes hélicoïdales. La bande défile légèrement
plus lentement qu’en analogique (9,6 cm/s au lieu de 10,1), alors
que le tambour tourne trois fois plus vite (75 Hz). Les pistes
obliques de largeur 26 µm sont tracées avec un angle d’azimut
alterné de ± 15°, sans bande de garde entre elles. Une piste se
compose d’un premier secteur vidéo, de quatre secteurs audio (au
centre de la bande), et d’un second secteur vidéo. On retrouve les
trois pistes longitudinales traditionnelles pour l’asservissement,
le time code et le repérage audio. La figure 7.34 nous montre que
la piste audio longitudinale n° 1, dite LNG, du format Betacam
SP disparaît en numérique pour laisser davantage de place aux
pistes hélicoïdales. Une machine Digital Betacam compatible
peut néanmoins lire cette piste sur une cassette analogique. Tous
les paramètres propres à la lecture analogique – vitesse de bande,
rotation du tambour, etc. –, sont sélectionnés automatiquement
dès l’insertion de la cassette. La compatibilité de lecture est assu-
rée grâce à un circuit correcteur de base de temps, qui effectue
une légère expansion temporelle des signaux lus.
Le suivi de piste est réalisé par l’association de deux systèmes
assurant à la machine un temps de verrouillage particulièrement
court. Le premier système exploite de manière conventionnelle
la piste CTL longitudinale, tandis que le second utilise deux
signaux pilote, l’un de basse fréquence (400 kHz), l’autre de
haute fréquence (4 MHz), enregistrés entre les secteurs audio et
vidéo.

350

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.34 Audio 2 Repérage audio


Empreinte de la bande en
Audio 1
Digital Betacam (à droite), à Vidéo
comparer avec celle du
Betacam SP (à gauche). Audio
12,7 mm Y C Y C

Vidéo

Asservissement
Code temporel

Betacam SP Digital Betacam


101,5 mm/s 96,7 mm/s
Sens de défilement de la bande

7.12.2. Le tambour de têtes

Figure 7.35 Effacement repérage/ Confidence B


Configuration des têtes time code
Confidence A Y-A C-A
rotatives et stationnaires dans
(analogique)
un magnétoscope Digital Effacement A/B
Enregistrement/
Betacam compatible en Enregistrement A
lecture repérage
lecture analogique. (audio)/time code
Enregistrement B
Avance B
Avance C
Avance A
Avance D
Enregistrement D

Enregistrement C

Effacement complet Confidence C


Confidence D

CTL

Effacement C/D C-B Y-B


(analogique)

Le tambour d’une machine Digital Betacam compatible est repré-


senté sur la figure 7.35. Son diamètre a été porté à 81 mm – contre
74,5 mm en analogique – et l’angle d’enroulement de la bande est
de 180°. Le tambour ne compte pas moins de 18 têtes, réparties
comme suit : 4 pour l’enregistrement, 4 pour la lecture (à

351

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Dynamic Tracking), 4 pour la lecture en mode confidence,


2 pour l’effacement, et 4 pour la lecture des cassettes analogiques
(également à Dynamic Tracking). Le tambour d’une machine non
compatible ne possède que 14 têtes (il est exempt des têtes ana-
logiques YA/CA et YB/CB). Les têtes de lecture peuvent être uti-
lisées en mode pre-read ; elles parcourent alors les pistes
quelques trames avant les têtes d’enregistrement. Les têtes de lec-
ture « confidence » ont, pour leur part, un retard d’une piste par
rapport aux têtes d’enregistrement. Grâce aux têtes de lecture à
alignement dynamique DT, il est possible d’effectuer une lecture
sans parasite sur une plage de –1× à +3× la vitesse nominale.

7.12.3. Le traitement du signal


La compression numérique est effectuée par un unique circuit
intégré, qui effectue toutes les opérations visant à réduire de
moitié le débit du signal vidéo en codage intra-image. Les codes
de correction d’erreurs externe et interne sont associés aux don-
nées vidéo et audio. Puis sont ajoutées les données d’identifica-
tion et de synchronisation. Le codage de canal utilisé pour l’en-
registrement est ici le NRZI embrouillé.

164
164°
Digital
DigitalBetacam
Betacam
A ch B ch A ch

A ch
A ch B ch
B ch A ch
A ch
180
180°
Betacam SP
SP

Bande

Figure 7.36
La différence de diamètre de tambour entre le Betacam SP et le Digital Betacam impose une légère expansion temporelle
des signaux analogiques, quand ils sont lus sur une machine numérique.

352

© Éditions Eyrolles
7 • Les formats d’enregistrement

À la lecture, les erreurs sont corrigées par les codes interne et


externe, tandis que les données irrécupérables sont interpolées
par les circuits de dissimulation. Les données en composantes
sont converties sous forme série et multiplexées avec les don-
nées audio, l’ensemble étant délivré au format de l’interface
série à 270 Mbits/s. Précisons que le format Digital Betacam ne
supporte que la fréquence d’échantillonnage de 13,5 MHz, ce
qui implique une résolution horizontale sensiblement plus faible
en 16/9 – contrairement au cas du D5.

Tableau 7.5
Comparaison des caractéristiques principales entre le Betacam analogique et le Digital
Betacam.

Betacam SP Digital Betacam


Enregistrement Composantes Composantes
analogiques numériques
Nombre de têtes d’enregistrement 4 4
Rotation du tambour 25 Hz 75 Hz
Nombre de pistes par trame 2 6
Vitesse de la bande 101,51 mm/s 96,7 mm/s
Vitesse relative tête/bande 5,75 m/s 19,08 m/s
Diamètre du tambour 74,49 mm 81,4 mm

353

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Tableau 7.6

D1 D2 D3 D5 Digital Betacam
Constructeurs Sony, BTS Sony, Ampex Panasonic Panasonic Sony

Date
de commercialisation 1986 1988 1991 1994 1993
Largeur de bande
3/4" 3/4" 1/2" 1/2" 1/2"
Signal Composantes Composite Composite Composantes Composantes
CCIR 601 numérique numérique CCIR 601 CCIR 601
Structure
[Link] 4 fsc 4 fsc [Link] [Link]
d’échantillonnage
Résolution 8 bits 8 bits 8 bits 10 bits (4/3) 10 bits
8 bits (16/9)
Compression non non non non M-JPEG 2:1

Débit vidéo 172 Mbits/s 115 Mbits/s 115 Mbits/s 218 Mbits/s 99 Mbits/s

Débit total 227 Mbits/s 152 Mbits/s 152 Mbits/s 288 Mbits/s 125 Mbits/s

Diamètre tambour 75 mm 96 mm 76 mm 76 mm 81,4 mm

Rotation tambour 150 tr/s 100 tr/s 100 tr/s 100 tr/s 75 tr/s

Type de bande Oxyde Métal Métal Métal Métal

Vitesse écriture 35,6 m/s 30,4 m/s 23,9 m/s 23,9 m/s 19,1 m/s

Vitesse bande 286,9 mm/s 131,7 mm/s 83,2 mm/s 167,2 mm/s 96,7 mm/s

Largeur de piste vidéo 35 µm 45 µm 18 µm 18 µm 26 µm

Pistes audio 4 (48 kHz, 20 bits) 4 (48 kHz, 20 bits) 4 (48 kHz, 20 bits) 4 (48 kHz, 20 bits) 4 (48 kHz, 20 bits)

Preread audio seulement oui oui oui oui

Durée maximale S : 6 min S : 32 min S : 64 min S : 23 min S : 40 min


des cassettes M : 34 min M : 94 min M : 125 min M : 63 min
L : 94 min L : 208 min L : 245 min L : 124 min L : 124 min
Compatibilité Lisible par D5. Lit D3. • Lit Betacam et
(sur certaines Betacam SP.
machines) • Lisible par MPEG-
IMX, HDCAM.
Particularités • Le premier • Enregistre un • Enregistre le • Le seul format • Le format de
format numérique signal composite même signal qui enregistre référence en
à avoir vu le jour. PAL ou NTSC composite sans compres- production et
• Machines numérisé à 4 fois numérique que le sion le signal postproduction TV.
coûteuses et la fréquence de la D2 (sans aucune [Link] sur 10 bits.
encombrantes sous-porteuse compatibilité • Peut travailler
réservées aux couleur. mécanique). au choix à
applications • Mécanique A donné 13,5 MHz sur
graphiques et semblable à celle naissance au 10 bits (720 pts/ l
au mastering. des cassettes D1. premier en 4/3) ou à
• Conserve les caméscope 18 MHz sur 8 bits
inconvénients numérique. (960 pts/ l en
du codage 16/9).
composite.

354

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.13 Le DV (Digital Video)

Juillet 93 : Matsushita, Philips, Sony et Thomson annoncent


qu’ils adopteront un cahier des charges commun pour dévelop-
per le premier format d’enregistrement vidéo numérique destiné
au grand public. Plus d’une cinquantaine d’autres sociétés
actives dans ce secteur viendront rapidement rejoindre ce
consortium historique dans le monde de l’audiovisuel.
Initialement appelé DVC pour finalement devenir DV (Digital
Video), ce format universel s’appuie sur deux paramètres clés :
un algorithme de compression normalisé de type M-JPEG de
facteur 5:1 et une nouvelle famille de cassettes compactes utili-
sant une bande 1/4" (6,35 mm). Le DV offre une qualité d’image
assez remarquable, comparable à celle du Betacam SP (avec un
rapport S/B de 54 dB, contre 51 dB en Betacam SP). C’est donc
un grand bond en avant que ce format fait faire aux utilisateurs
amateurs. Car s’il est indiscutable qu’en leur temps, le S-VHS et
le Hi8 ont apporté des améliorations sensibles par rapport à leurs
prédécesseurs VHS et 8mm, ces formats n’ont jamais pu être
confondus avec la référence broadcast de l’époque, c’est-à-dire
le Betacam SP. Le DV est un format qui enregistre séparément
les composantes de luminance et de différence de couleurs, ce
qui, d’une part, garantit une bande passante plus élevée aux
signaux (résolution horizontale de 500 lignes contre 400 en Hi8)
et, d’autre part, supprime tout risque d’interférence entre eux.
Qui plus est, le DV est un format totalement numérique et sup-
porte donc les copies directes sans aucune dégradation. Les pro-
blèmes de drop-out, particulièrement irritants en analogique,
sont définitivement éliminés grâce à la correction d’erreurs, de
même que le bruit de bande. Quant à la compression de taux 5:1,
on peut dire qu’elle est suffisamment modérée pour ne pas pro-
voquer d’artéfact visible sur l’image en acquisition (on ne parle
pas ici des pertes introduites par les cycles de compression/
décompression successifs). L’audio n’est pas en reste puisque le
format autorise au choix l’enregistrement de deux canaux pleine
bande à 48 kHz/16 bits, ou quatre canaux à 32 kHz/12 bits,
avec une quantification non linéaire.

355

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Ce format grand public offre des performances d’un niveau si


élevé qu’il était inconcevable de ne pas en faire bénéficier les
utilisateurs professionnels et broadcast. Panasonic, JVC et Sony
ont rapidement pris conscience des atouts exceptionnels du DV
pour les applications de reportage (compacité, qualité et coût
d’exploitation), mais aussi pour la production en studio. Ils en
proposent aujourd’hui diverses déclinaisons en définition stan-
dard (DVCAM, DVCPRO25, DVCPRO50, D9) et en haute
définition (DVCPRO-HD, D9-HD) toutes basées sur le même
moteur de compression, mais bénéficiant d’améliorations plus
ou moins significatives. Nous découvrirons tout cela en détail
dans les pages qui suivent.

7.13.1. Le signal vidéo du DV


Le signal vidéo du DV est échantillonné en [Link] dans les sys-
tèmes 525/60 et en [Link] dans les systèmes 626/50. Rappelons
que, par rapport au [Link], la résolution de la chrominance est
réduite de moitié dans le sens horizontal en [Link], et dans le sens
vertical en [Link]. Ces modes d’échantillonnage [Link] et [Link]
conviennent parfaitement pour les applications grand public,
institutionnelles et de reportage news/sport. En revanche, elles
offrent un potentiel assez limité en postproduction broadcast, du
fait de leur bande passante réduite en chrominance, ainsi que de
l’accumulation progressive des artéfacts de compression. Dans
les deux cas, le sous-échantillonnage des signaux de chromi-
nance permet de réduire de 25 % le débit du signal vidéo, avant
même le processus de compression. Il passe ainsi de 216 Mbits/s
([Link]) à 162 Mbits/s ([Link] et [Link]), avec une quantification
sur 8 bits. Par ailleurs, si l’on ne tient compte que des parties
utiles du signal, le débit avant compression est de 124 Mbits/s.
Il est réduit dans un facteur 5:1 par un algorithme normalisé,
reprenant, dans ses principes, les techniques du M-JPEG. Le
débit du signal vidéo DV compressé est de 25 Mbits/s, mais le
débit total enregistré, incluant notamment l’audio et les données
auxiliaires – correction d’erreurs, etc. – s’élève à 41,85 Mbits/s.

356

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.37
Les structures [Link]
d’échantillonnages utilisées DVCPRO50
par le DV et ses variantes. Luminance : 13,5 MHz, 720 pts/l
Chrominance : 6,75 MHz, 360 pts/l

[Link]
DV (625/50)
DVCAM (625/50)
Luminance : 13,5 MHz, 720 pts/l
Chrominance : 6,75 MHz, 360 pts/l, 1 ligne sur 2

[Link]
DV (525/60)
DVCAM (525/60)
DVCPRO25
Luminance : 13,5 MHz, 720 pts/l
Chrominance : 3,375 MHz, 180 pts/l

échantillon de luminance
échantillon de chrominance

216 Mbits/s 162 Mbits/s 124 Mbits/s

Interface Sous Élimination


C.A.N des Compression
Signal analogique 8 bits
échantillonnage
5:1
analogique chrominance suppressions
H et V

Interface 25 Mbits/s
SDI

270 Mbits/s

Figure 7.38
Allègement du débit vidéo avant la compression DV.

357

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.13.2. La réduction de débit en DV


L’image vidéo est préalablement découpée en blocs de 8 × 8
pixels, six blocs formant un macrobloc. Les macroblocs sont
entrelacés, puis assemblés par groupes de cinq pour former des
unités de compression (procédé original propre au DV). Tous les
blocs d’une unité de compression utiliseront les mêmes para-
mètres relatifs aux tables de quantification. Pour optimiser le
schéma de réduction de débit par rapport au contenu de la scène,
une détection de mouvement est effectuée entre les deux trames
d’une image. S’il y a peu de mouvement d’une trame à l’autre, la
compression est réalisée sur l’ensemble de l’image, sur des blocs
de 8 × 8, en exploitant la redondance inter-trame, ce qui permet
une meilleure efficacité de compression. Si, en revanche, le mou-
vement d’une trame à l’autre est assez prononcé, la compression
est effectuée séparément sur chaque trame, sur des blocs de 8 × 4.
Mais en aucun cas il n’est procédé à une compensation de mou-
vement entre images successives. Le codage DV laisse donc
chaque image indépendante des autres et se prête sans aucune dif-
ficulté au montage. La DCT transforme chaque bloc de 8 × 8
pixels en une matrice de 8 × 8 coefficients de composantes fré-
quentielles afin de mettre en évidence les données redondantes. La
quantification non-linéaire divise ces coefficients par des valeurs
plus ou moins élevées. Elle tient compte pour cela du fait que l’œil
est particulièrement tolérant devant les erreurs sur les hautes fré-
quences spatiales, mais qu’il est en revanche sensible aux erreurs
sur les basses fréquences spatiales. Les coefficients DCT corres-
pondant aux hautes fréquences sont donc codés avec moins de pré-
cision que ceux relatifs aux basses fréquences. La matrice obtenue
après quantification est soumise à une lecture en zigzag, faisant
apparaître de longues suites de zéros. Puis un codage à longueur
variable est réalisé, attribuant des codes courts aux symboles les
plus fréquents et réservant les codes longs aux symboles plus
rares. Les données des macroblocs sont alors mises en paquets
dans un bloc de synchronisation de taille fixe (framing). Les
macroblocs sont finalement désentrelacés pour retrouver leur
position initiale, puis les données d’une image sont ordonnées
suivant le numéro de piste auquel elles correspondent.

358

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.39
DCT
Synoptique de la transformation des
compression vidéo en DV. blocs de pixels en
composantes
Décomposition fréquentielles Quantification
Entrelacement
image en des macroblocs pertes par
blocs 88 Détermination troncatures
du mouvement

DCT image Choix des


ou DCT trame tables de Q

Lecture Codage à Désentrelacement


des matrices longueur Framing des macroblocs
DCT en zigzag variable

Tout le traitement de compression et de décompression DV est


implémenté sur un unique circuit intégré, qui réduit le débit du
signal [Link] ou [Link] dans un facteur 5:1, et délivre un flux à
25 Mbits/s. Cependant, l’association de deux circuits codecs DV,
fonctionnant en parallèle, permet de travailler sur un signal [Link]
et d’obtenir un débit de 50 Mbits/s pour la production plus haut
de gamme. Mieux, quatre codecs DV peuvent se partager la
compression d’un signal à haute définition et produire, dans des
conditions équivalentes, un flux à 100 Mbits/s. Le DV est
aujourd’hui l’épine dorsale des formats DVCAM, DVCPRO25,
DVCPRO50, D9, mais aussi de leurs dérivés en haute définition
DVCPRO-HD et D9-HD.

7.13.3. La structure d’enregistrement


L’empreinte de la bande en DV est donnée sur le premier schéma
de la figure 7.40. On y remarque l’absence des traditionnelles
pistes longitudinales d’asservissement, de time code et de repérage
audio. Toutes ces informations sont en effet enregistrées sur les
pistes obliques par les têtes tournantes. L’asservissement est réalisé
comme en Hi8 à l’aide de deux fréquences pilotes. Les informa-
tions de time code, inscrites sur les pistes hélicoïdales, sont lisibles
à toutes les vitesses.
Comme tous les formats vidéo numériques, le DV fait appel au
processus de segmentation, qui consiste à découper une image en

359

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

18,8 mm/s

10 µm
DV 6,35 mm
– Bande ME
– 12 pistes/image

28,2 mm/s

DVCAM 15 µm
6,35 mm
– Bande ME
– 12 pistes/image

33,8 mm/s
Repérage audio
DVCPRO25
– Bande MP 18 µm
6,35 mm
– 12 pistes/image
– Pistes repérage audio
et asservissement
Asservissement

67,6 mm/s
Repérage audio
DVCPRO50
– Bande MP 18 µm
– 24 pistes/image 6,35 mm
– Pistes repérage audio
et asservissement
Asservissement

Organisation des données d'une piste en 4 secteurs séparés


ITI Audio Vidéo SUB CODE
(asservissement) (code temporel)

Figure 7.40
Empreinte de la bande en DV, DVCAM, DVCPRO (625/50).

360

© Éditions Eyrolles
7 • Les formats d’enregistrement

plusieurs segments et à enregistrer chaque segment sur une piste.


Une image est découpée en 10 segments dans les systèmes à
525 lignes (elle s’étale donc sur 10 pistes) et en 12 segments
dans les systèmes à 625 lignes (répartition sur 12 pistes). Dans
les deux cas, 300 pistes sont inscrites en une seconde
(10 pistes × 30 i/s en 525 lignes, et 12 pistes × 25 i/s en
625 lignes). Les pistes, dont l’angle d’azimut alterne de ± 20°,
sont longues d’environ 33 mm et inclinées de 9° par rapport à
l’axe de la bande. Chaque piste hélicoïdale est divisée en 4 sec-
teurs, contenant, dans l’ordre, les données pilotes de suivi de
piste ITI (Insert and Tracking Information), l’audio, la vidéo, et
le time code. Un intervalle de garde sépare tous les secteurs afin
de faciliter l’insert audio/vidéo et de s’accommoder des erreurs
de timing durant les opérations de montage.
La bande défile très lentement, à moins de 2 cm/s, et s’enroule à
180° autour d’un tambour de 2,1 cm de diamètre, soit deux fois
plus petit qu’en Hi8. Le tambour porte deux têtes diamétralement
opposées, qui assurent à elles seules l’enregistrement de tous les
signaux, et effectue 150 rotations par seconde.

7.13.4. Les cassettes


La phénoménale compacité du format DV s’explique en grande
partie par sa densité d’enregistrement, qui est de 0,45 Mbits/mm2,
soit 30 fois plus qu’en Betacam SP, 15 fois plus qu’en Digital
Betacam et 2 fois plus qu’en Hi8. Il s’agit là de la densité d’enre-
gistrement la plus élevée jamais obtenue sur une bande magné-
tique (imaginez le contenu d’une disquette 3'5" de 1,4 Mo sur un
rectangle de bande de 5 × 6 mm…). La bande est composée d’une
double couche de métal évaporé (cobalt pur) recouverte d’un
revêtement protecteur. Deux tailles de cassettes sont disponibles,
offrant des durées maximales de 60 min (taille S : 66 × 48 mm,
comparable à une DAT) pour les caméscopes et 270 min (taille
L : 125 × 78 mm, semblable à une cassette audio) pour les magné-
toscopes. Certaines cassettes DV sont équipées, sur leur boîtier,
d’une puce mémoire qui peut contenir une petite « table des
matières » du tournage, avec notamment la date, l’heure, les
index, les réglages caméra, etc.

361

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.13.5. L’interface IEEE1394


Développée conjointement par Sony et Apple, l’interface à haut
débit IEEE1394 permet de connecter les équipements DV entre
eux, mais aussi à des ordinateurs domestiques multimédia, dans
les deux sens. La liaison comprend trois paires de conducteurs en
cuivre : une pour les données, une pour les signaux de com-
mande, et une troisième pour l’alimentation des périphériques.
Les applications audiovisuelles en utilisent cependant une ver-
sion simplifiée, dépourvue de la paire véhiculant les courants
d’alimentation (câble plus fin et interface moins onéreuse). La
liaison IEEE1394 autorise un débit maximal de 400 Mbits/s, sur
une longueur ne pouvant excéder 4,5 mètres entre deux périphé-
riques. Initialement conçue pour le grand public, cette interface
offre des performances très élevées qui sont du plus grand inté-
rêt pour les applications institutionnelles, mais aussi broadcast.
À noter que les appellations commerciales de l’IEEE1394 sont
Firewire chez Apple et [Link] chez Sony.

7.14 Le DVCAM

Le format DVCAM est une déclinaison du DV, proposée par


Sony. Il utilise les mêmes cassettes, la même bande, la même
compression et la même structure d’enregistrement. Le seul
point qui différencie le DVCAM du DV est l’accroissement de
la vitesse de défilement linéaire de la bande dans un facteur 1,5.
La largeur des pistes passe ainsi de 10 à 15 µm, ce qui se traduit
par une diminution de la densité d’information sur la bande,
minimisant ainsi les problèmes d’interchangeabilité. Le
DVCAM est plus robuste que le DV et mieux adapté aux travaux
de montage dans les applications institutionnelles ou de repor-
tage news/sport. Pour le reste, tout est identique, si bien que la
compatibilité DV/DVCAM est totale dans les deux sens, sur la
plupart des produits, en enregistrement comme en lecture. Si un
enregistrement DVCAM peut être réalisé sur une cassette DV,
Sony propose néanmoins une famille de cassettes estampillées

362

© Éditions Eyrolles
7 • Les formats d’enregistrement

DVCAM. Elles se distinguent notamment par la capacité supé-


rieure de leur puce mémoire. En DVCAM, les durées d’enregis-
trement sont inférieures car la bande défile plus rapidement, ce
qui donne un maximum de 40 minutes sur les petites cassettes et
de 184 minutes sur les grandes. Par ailleurs, ce format offre la
fonction pre-read (que l’on ne trouve pas en DVCPRO), très
appréciée en montage news. Autre point important à souligner :
tous les appareils DVCAM, y compris les caméscopes, accep-
tent les deux tailles de cassettes DVCAM sans adaptateur.

Tournage
Dans la puce
mémoire
TC in/out, N° de plan, N° de scène, N° de bande, Validation de plan
de la cassette

Recopie sur la bande Mémoire Stockage Imagettes index


avant éjection caméscope temporaire REC IN/MARK IN

Cassette DV ou DVCAM

Postproduction

Transfert des plans utiles uniquement Imagettes


index

Station de montage

Figure 7.41
Principe du système ClipLink développé pour le format DVCAM.

Avec le format DVCAM est né le concept ClipLink (idée reprise


ensuite par Panasonic), qui permet au cadreur d’introduire lors
du tournage, pour chaque plan, un indicateur de validité visant à
faciliter le dérushage. Seuls les plans utiles signalés « OK »
seront copiés sur le disque dur de la station de montage, ce qui
engendre un gain de temps et surtout d’espace de stockage. De
plus, une imagette d’index (90 × 60 pixels) représentative du

363

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

début de chaque plan (REC START) est captée et sauvegardée


temporairement dans une mémoire vive du caméscope DVCAM
pendant l’acquisition. Juste avant l’éjection de la cassette, toutes
ces imagettes index sont automatiquement copiées sur la bande
– opération instantanée et totalement transparente pour l’utilisa-
teur. Elles s’afficheront alors sur l’écran de travail lorsque la cas-
sette sera transférée sur le disque de la station de montage.

7.15 Le DVCPRO25 (D7)

Le DVCPRO25 (normalisé sous la dénomination D7) est une


autre déclinaison vers le haut du DV, proposée cette fois par
Panasonic, qui a rapidement reçu le soutien de plusieurs construc-
teurs majeurs comme Avid, Tektronix, Hitachi, Hewlett Packard,
Quantel, etc. S’il s’appuie lui aussi sur les spécifications de base
du DV, les différences du DVCPRO25 par rapport à la version
grand public sont plus nombreuses que dans le cas du DVCAM.
Panasonic a en effet revu à la hausse certains paramètres clés,
pour proposer un format doté d’un niveau de fiabilité et de per-
formances élevé à celui de la production broadcast simple. Rien
n’a été changé en ce qui concerne le format de la bande et le
schéma de compression, mais des modifications ont été apportées
sur la structure d’échantillonnage, la densité d’enregistrement et
la formulation de l’enduction magnétique de la bande. Tout cela a
été réalisé en maintenant une compatibilité en lecture avec les cas-
settes DV et DVCAM. Il est ainsi possible d’utiliser directement
pour un montage news broadcast des images tournées par des
non-professionnels témoins privilégiés d’un événement imprévu.

• Échantillonnage en [Link]
Contrairement au DVCAM, qui suit les spécifications du DV en
matière de procédure d’échantillonnage ([Link] en 625/50 et [Link]
en 525/60), le DVCPRO25 travaille uniquement en [Link], quel
que soit le standard de balayage. Panasonic justifie son choix en
argumentant que le [Link] supporte mieux la multigénération que

364

© Éditions Eyrolles
7 • Les formats d’enregistrement

le [Link], la compensation de mouvement qui s’effectue sur les


deux trames étant plus efficace.

• Le retour des pistes longitudinales


Alors que le DV/DVCAM est exempt de piste longitudinale, le
DVCPRO25 en traite deux, l’une pour l’asservissement, l’autre
pour le repérage audio. Cette dernière est également exploitable
en tant que troisième voie audio, mais il faut savoir que sa bande
passante est limitée à 6 kHz par la faible vitesse de défilement
linéaire. Quant au système de suivi de piste, le principe des fré-
quences pilotes enregistrées sur les pistes obliques
(DV/DVCAM) n’a pas été retenu pour le DVCPRO25.
Panasonic a préféré se fier à un procédé plus classique reposant
sur la traditionnelle piste longitudinale d’asservissement pour
garantir des temps de preroll faibles en montage. Les signaux de
time code sont, pour leur part, enregistrés par les têtes rotatives
dans les secteurs dédiés, comme en DV/DVCAM.

• La densité d’enregistrement
La vitesse de défilement de la bande a été presque doublée par
rapport au DV, la largeur des pistes passant de 10 µm à 18 µm
(elle prend ainsi la même valeur qu’en D3 et D5). La diminution
de la densité d’enregistrement qui en découle confère au format
une meilleure résistance aux drop-out et une plus grande fiabilité
d’exploitation. Elle est l’un des atouts essentiels du DVCPRO25
par rapport au DV et au DVCAM, même si le prix à payer est
une baisse de la durée d’enregistrement (sur les petites cassettes
uniquement).

• La bande et les cassettes


Alors que le DV et le DVCAM utilisent tous deux les mêmes
tailles de cassettes, une grande L et une petite S, le DVCPRO25
ne conserve que la grande et en utilise une moyenne M qui
lui est propre. Malgré l’augmentation de la vitesse de défilement
linéaire, la durée maximale de la grande cassette est, comme en
DVCAM, de 184 minutes (grâce à l’utilisation d’une bande plus
fine), tandis que celle de la moyenne est de 63 minutes. Les

365

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

magnétoscopes DVCPRO25 peuvent cependant relire les petites


cassettes DV/DVCAM grâce à un adaptateur mécanique (mais ils
ne peuvent pas enregistrer sur ces petites cassettes).
Quant à la formulation de la bande magnétique, Panasonic a pré-
féré les particules métalliques au métal évaporé du
DV/DVCAM, toujours pour des questions de robustesse. Ces
particules forment une couche magnétique de seulement 0,2 µm,
soit la plus fine qui n’ait jamais existé sur une bande de type MP.
L’épaisseur totale de la bande DVCPRO est supérieure de 25 %
à celle du DV, soit 8,8 µm au lieu de 7 µm.

7.16 Le DVCPRO50

Le DVCPRO50 est une extension haut de gamme du


DVCPRO25, visant plus particulièrement la postproduction
broadcast. Côté traitement vidéo, ses inventeurs ont en effet mis
les bouchées doubles. Le DVCPRO50 reprend les caractéris-
tiques initialement définies pour le format D9 de JVC (compa-
gnie sœur de Panasonic au sein du groupe Matsushita), mais sur
bande 1/4". Exit donc le [Link], le signal vidéo retrouve en
DVCPRO50 sa structure d’échantillonnage [Link]. La résolution
en chrominance redevient donc compatible avec les opérations
complexes de postproduction, faisant notamment intervenir du
chromakey et de la multigénération.
Par ailleurs, le taux de compression a été réduit de 5:1 à 3,3:1, la
vitesse de défilement de la bande a été doublée par rapport au
DVCPRO25, passant de 33,8 à 67,6 mm/s, et le débit vidéo est
porté de 25 à 50 Mbits/s. La largeur des pistes vidéo reste la même
qu’en DVCPRO25, soit 18 µm, mais chaque image est segmentée
sur 24 pistes au lieu de 12. Ainsi, le DVCPRO50 est sensiblement
plus robuste que le DVCPRO25 et offre des performances supé-
rieures en lecture à vitesse variable. Des tests d’évaluation effec-
tués par l’UER révèlent en outre que la qualité d’image délivrée
par le DVCPRO50 est identique à celle du Digital Betacam en pre-
mière génération, similaire à la 4e génération et légèrement infé-

366

© Éditions Eyrolles
7 • Les formats d’enregistrement

rieure à la 7e génération. Pour compresser un signal [Link] dans un


facteur 3,3:1, le DVCPRO50 utilise en fait deux circuits intégrés
DV travaillant en parallèle, chacun sur un signal [Link]. De ce fait,
les équipements DVCPRO50 sont bistandard : ils peuvent fonc-
tionner indifféremment à 25 ou 50 Mbits/s, en enregistrement
comme en lecture, par simple commutation. À 50 Mbits/s, les
durées maximales d’enregistrement permises par les deux tailles
de cassettes sont de 31 et 93 minutes. Le DVCPRO50 bénéficie du
système d’aide au dérushage PictureLink, qui reprend le principe
du ClipLink de Sony (format DVCAM), mais sans utiliser de puce
mémoire sur la cassette. Toutes les informations d’index et de vali-
dation de plans (à trois niveaux) sont mémorisées pendant le tour-
nage sur une carte PCMCIA logée dans le caméscope, puis sont
transférées sur la cassette juste avant son éjection.

Figure 7.42 125 × 78 mm


La famille de cassettes 1/4".
97,5 × 64,5 mm
66 × 48 mm

L
S M

DV (60 min) DVCPRO25 (63 min) DV (270 min)


DVCAM (40 min) DVCPRO50 (31 min) DVCAM (184 min)
DVCPRO25 (184 min)
DVCPRO50 (93 min)

Tableau 7.7
Les différences fondamentales entre les 4 formats de la famille DV.

DV DVCAM DVCPRO25 DVCPRO50

Signal Pistes Bande Signal Pistes Bande Signal Pistes Bande Signal Pistes Bande

625/50 [Link] 10 µm ME [Link] 15 µm ME [Link] 18 µm MP [Link] 18 µm MP


525/50 [Link] 10 µm ME [Link] 15 µm ME [Link] 18 µm MP [Link] 18 µm MP

367

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.17 Le D9

Le D9 de JVC est un format numérique 1/2" utilisant une réduc-


tion de débit basée sur l’algorithme DV, et compatible en lecture
avec le S-VHS analogique. Le signal vidéo source [Link] codé sur
8 bits est soumis à une compression numérique intra-image de
rapport 3,3:1 seulement, abaissant son débit à 50 Mbits/s. Cette
compression est la même que celle du DVCPRO50 et fait appel
à deux circuits de compression DV travaillant chacun sur un
signal [Link] (mais aucune compatibilité mécanique n’existe entre
ces deux formats). Les quatre canaux audio échantillonnés à
48 kHz et codés sur 16 bits sont, quant à eux, enregistrés à plein
débit.
La cassette D9 a les mêmes dimensions qu’une cassette VHS ;
une protection empêche toutefois son chargement dans une
machine analogique. Bien que les spécifications des deux for-
mats soient radicalement différentes, la mécanique de transport
est globalement identique. La vitesse de défilement de la bande,
qui est de 23,3 mm/s en S-VHS, est un peu plus de deux fois plus
élevée en D9, soit exactement 57,8 mm/s. La vitesse de rotation
du tambour de diamètre 62 mm (comme en S-VHS) est, quant à
elle, triplée : elle passe de 1 500 à 4 500 tr/min, ce qui porte la
vitesse relative tête/bande de 4,84 à 14,5 m/s. Deux paires de
têtes diamétralement opposées sur le tambour inscrivent
douze pistes obliques par image en 625/50 (10 en 525/50). Leur
largeur est de 20 µm seulement, contre 49 µm en S-VHS, et leur
enregistrement est effectué avec un angle d’azimut alterné de
± 15°. Chaque piste est divisée en cinq secteurs qui portent sépa-
rément les informations vidéo, audio, et les données auxiliaires.
Ces secteurs sont séparés par des intervalles de garde. Le mon-
tage à l’image près est ainsi possible en mode d’insertion indé-
pendamment sur la vidéo et sur les quatre voies audio numé-
riques. Des têtes d’effacement rotatives montées sur le tambour
effacent tout signal présent avant d’en enregistrer un nouveau.
Trois pistes longitudinales sont utilisées pour enregistrer un
signal d’asservissement CTL portant une impulsion par image,
ainsi que deux canaux audio optionnels pour le repérage.

368

© Éditions Eyrolles
7 • Les formats d’enregistrement

Figure 7.43
1 image = 12 pistes Largeur de piste : 20 µm
L’empreinte de la bande en
D9. Repérage audio 2
Repérage audio 1

Vidéo Sens de
lecture
Audio
Audio
Sous code

Vidéo

Asservissement

Sens de défilement de la bande

Le tambour du D9 comporte des têtes de lecture avancée assu-


rant la fonction pre-read. Le signal enregistré sur la bande peut
ainsi être utilisé comme source lors d’un montage en insert.

7.18 Le Betacam SX

Le Betacam SX de Sony est un format numérique compressé des-


tiné à remplacer le Betacam SP dans toutes ses applications. Il
repose sur un transport de bande 1/2" et utilise les mêmes cassettes
que le Betacam analogique avec lequel il est compatible en lecture.

7.18.1. La compression inter-image


MPEG-2 422
Le schéma de compression utilisé par le Betacam SX est diffé-
rent des systèmes de type M-JPEG ou DV mis en œuvre dans les
autres formats numériques. L’algorithme de réduction de débit
employé repose en effet sur la norme MPEG-2 422, avec pour
particularité d’être le seul à exploiter les redondances tempo-
relles entre les images vidéo. En fait, le codage s’effectue sur des

369

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

groupes de deux images, l’une étant Intra (entièrement décrite


par elle-même) et l’autre Bidirectionnelle (interpolée à partir des
deux images I qui l’encadrent). L’utilisation d’une telle séquence
I, B permet d’obtenir un débit égal à 70 % de celui qui découle-
rait d’un codage intra-image, avec une qualité d’image équiva-
lente. C’est cet argument qui a incité Sony à opter pour une telle
solution, en dépit d’une certaine complexité engendrée pour
assurer une précision de montage à l’image. Il est en effet impé-
ratif de rendre possible l’accès individuel à chaque image, mal-
gré le fait que certaines sont codées en fonction d’autres. La tech-
nique imaginée pour résoudre ce problème consiste à toujours
lire et enregistrer un groupe entier d’images I, B et de transfor-
mer, quand cela est nécessaire, une image bidirectionnelle en une
image monodirectionnelle (fig. 7.44).

Plan A B1 I1 B2 I2 B3 I3 B4 I4 B5 I5 B6 I6

Plan B B1 I’1 B’2 I’2 B’3 I’3 B’4 I’4 B’5 I’5 B’6 I’6

Point IN demandé
= Point IN effectué
CAS 1 :
Séquence
Point IN B1 I1 B2 I2 B3 I3 Bm’4 I’4 B’5 I’5 B’6 I’6
montée
sur image B
B’4 initialement bidirectionnelle est recodée en Bm’4 monodirectionnelle.
Ainsi, Bm’4 ne dépend que de l’4 qui la suit, et est indépendante de l’3
qui la précédait sur le plan B d’origine (et qui disparaît sur la séquence montée).

Point IN effectué Point IN demandé


CAS 2 :
Point IN B1 I1 B2 I2 Bm3 I’3 B’4 I’4 B’5 I’5 B’6 I’6
sur image I
Le point IN est demandé sur l3 mais il est effectué en réalité une image avant, sur B3.
Cette image bidirectionnelle B3 est recodée en Bm3 monodirectionnelle.
Ainsi, Bm3 ne dépend que de l2 qui la précède et devient indépendante de l3
qui la suivait sur le plan A d’origine (et qui disparaît sur la séquence montée).

Figure 7.44
Le montage à l’image près en MPEG-2 avec une séquence IB (Betacam SX).

370

© Éditions Eyrolles
7 • Les formats d’enregistrement

Plus précisément, si un point de montage doit être effectué au


milieu d’un GOP, l’image B concernée est préalablement recodée
en incluant les données de l’image I dont elle doit être désolida-
risée. Cette opération implique que le codeur soit en possession
des deux images I encadrant l’image B considérée, ce qui est
rendu possible grâce aux têtes de lecture avancée présentes sur le
tambour. L’alternance des images I et B est alors maintenue tout
au long du programme.
L’efficacité de la compression inter-image a permis d’atteindre
une compression de 10:1, réduisant à seulement 18 Mbits/s le
débit du signal vidéo qui conserve sa structure [Link]. Si l’on
ajoute à cela les quatre pistes audio (16 bits, 48 kHz), ainsi que
les données supplémentaires de correction d’erreurs, le débit
total enregistré s’élève à 40 Mbits/s. L’ensemble des fonctions
de codage, estimation de mouvement et décodage, a été implé-
menté sur un jeu de trois circuits intégrés dont on imagine la
complexité et la puissance de calcul.

7.18.2. Les caractéristiques techniques


Chaque image est segmentée en douze pistes dans les systèmes à
625 lignes et en dix pistes dans les systèmes à 525 lignes. La grande
efficacité de l’algorithme de compression MPEG-2 422 a permis de
réduire quasiment de moitié la vitesse de défilement de la bande par
rapport au Digital Betacam et au Betacam analogique. Elle n’est ici
que de 59,75 mm/s. Le tambour effectue 75 tours par seconde, ce
qui confère une vitesse d’écriture de 19 m/s. La longueur d’onde
minimale enregistrée n’est pas des plus faibles, soit 0,74 µm, la
bande est relativement épaisse (14,5 µm) et la largeur des pistes
hélicoïdales, 32 µm, est plutôt généreuse (voir la comparaison avec
les autres formats sur le tableau 7.8).
Tous ces paramètres conjugués à un transport 1/2" largement
éprouvé font du Betacam SX un format particulièrement robuste,
capable de s’accommoder d’une formulation de bande assez
simple et, qui plus est, d’utiliser pour l’enregistrement les cassettes
Betacam SP classiques à particules métalliques. Sony propose
cependant une nouvelle gamme de cassettes optimisées pour le
format SX, se distinguant par leur boîtier jaune vif. Le coût horaire

371

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

d’enregistrement est typiquement réduit de moitié par rapport à


l’analogique, la durée d’enregistrement étant doublée en SX.
Ainsi la capacité maximale est portée à 62 minutes avec une petite
cassette et à 184 minutes avec une grande cassette.
Figure 7.45 1 image = 12 pistes largeur de piste : 32 µm
L’empreinte de la bande en
Betacam SX.
Auxiliaire

Secteurs vidéo

Sens de
lecture
Données Secteurs
système audio

Secteurs vidéo

Code temporel
Asservissement

Sens de défilement de la bande

7.18.3. Le système de tracking


Le Betacam SX est un format exempt de tout système de suivi
de piste précis en lecture. Il utilise en effet la technique Multiple
Head Tracing, employant deux têtes décalées qui produisent un
« faisceau » de lecture beaucoup plus large que la piste parcou-
rue. Toutes les informations de la piste sont donc récupérées,
même dans le cas où celle-ci est déformée. De plus, ce système
permet une lecture variable sur une plage ± 1, éliminant ainsi la
nécessité de recourir à des têtes DT (Dynamic Tracking), ce qui
réduit là encore le coût de fabrication du tambour.
Figure 7.46
En Betacam SX, deux têtes
décalées assurent la B B
récupération de toutes les A
données des pistes vidéo, A
malgré leurs déviations B
A A et B
éventuelles.

372

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.19 Le MPEG-IMX

Lancé en 2000 par Sony, le MPEG-IMX est un nouveau format


dans la famille Betacam, positionné à mi-chemin entre le
Betacam SX (reportage news) et le Digital Betacam (postpro-
duction haut de gamme). Résolument orienté vers l’environne-
ment MPEG-2 actuel et futur, le MPEG-IMX ne tire pas pour
autant un trait sur le passé puisqu’il offre une compatibilité en
lecture avec la totalité des formats Betacam analogiques et
numériques de Sony sortis au cours de ces 20 dernières années.

7.19.1. Un format MPEG-2 422 intra-image


Le format MPEG-IMX (Interoperable Mpeg eXchange) est basé
sur l’enregistrement d’un signal [Link], dont le débit initial de
166 Mbits/s est réduit dans un facteur 3,3:1 à 50 Mbits/s, par un
algorithme MPEG-2 422 (notons que ces valeurs sont les mêmes
qu’en DVCPRO50 et qu’en D9, à la différence près que ces deux
formats utilisent une compression DV). L’algorithme de compres-
sion mis en œuvre par le MPEG-IMX n’utilise, dans la boîte à
outils du standard MPEG-2, que ceux opérant en mode « intra-
image ». Le processus de réduction de débit se restreint en effet à
l’élimination des redondances spatiales présentes à l’intérieur de
chaque image et ne tient pas compte des similitudes, pourtant non
négligeables, entre images successives. C’est là un point qui diffé-
rencie fondamentalement le MPEG-IMX du Betacam SX, l’autre
format MPEG-2 de Sony, qui code les images par groupes de deux
pour gagner en efficacité de compression, ce qui complexifie le
traitement des signaux lors d’un montage à l’image près. Pour son
nouveau format MPEG-IMX, Sony est revenu à un schéma de
compression plus classique et bien mieux accepté lorsqu’il s’agit
de postproduction broadcast. Il consiste tout simplement à coder
individuellement chaque image en se référant uniquement à son
propre contenu (codage tout-intra), comme en M-JPEG ou en DV,
et à accepter en contrepartie de manipuler des débits supérieurs. Le
montage à l’image près est alors possible « naturellement », sans
aucun traitement particulier, et les performances en multigénéra-
tion sont meilleures que celles du Betacam SX. La qualité de

373

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

l’image MPEG-IMX est visuellement identique à celle du Digital


Betacam jusqu’à sept cycles de décodage/encodage, ce qui devrait
convenir à la plupart des productions courantes. Rappelons toute-
fois que le Digital Betacam affiche des caractéristiques techniques
sensiblement supérieures à celles du IMX puisque la compression,
également intra-image mais en M-JPEG (non normalisée), s’effec-
tue dans un rapport de 2:1 au lieu de 3,3:1. Le Digital Betacam
reste, avec le D5 de Panasonic, le format de référence pour la post-
production haut de gamme complexe et le mastering.

7.19.2. La compatibilité avec la famille


Betacam
Pour mettre au point un magnétoscope capable de relire tous les
formats Betacam analogiques et numériques, Sony a dû revoir
son transport de bande 1/2". La gamme MPEG-IMX intègre
donc une nouvelle plateforme 1/2", dont l’un des principaux
atouts est un gain substantiel en volume. Les magnétoscopes de
studio à ce format se présentent ainsi dans un coffret plus com-
pact. Si le format MPEG-IMX est techniquement conçu pour
relire tous les formats Betacam, les niveaux de compatibilité
offerts varient cependant en fonction des modèles de machines.
Dans tous les cas, les formats analogiques et numériques relus
sont codés en MPEG-2 422 et disponibles sur la sortie compres-
sée SDTI-CP. La commutation des circuits de lecture s’effectue
automatiquement lors du chargement de la cassette.

7.19.3. Les caractéristiques techniques


Le MPEG-IMX utilise un tambour de têtes de même diamètre
que le Digital Betacam et que le Betacam SX, soit 8,14 cm. Sony
garde secrète la composition de ce tambour dont on imagine la
complexité, quand on sait que chaque format lu nécessite indivi-
duellement la présence de quatre têtes supplémentaires. La
vitesse de défilement de la bande est de seulement 5,4 cm/s, soit
la plus faible de toute la famille Betacam, la vitesse de rotation
du tambour est réduite de 75 à 50 tours/s, et la largeur des pistes
vidéo n’est que de 21,7 µm (une image est segmentée sur

374

© Éditions Eyrolles
7 • Les formats d’enregistrement

huit pistes hélicoïdales). Le MPEG-IMX enregistre soit quatre


pistes audio en 48 kHz/24 bits, soit huit pistes audio en
48 kHz/16 bits. Il est ainsi le premier format capable de gérer le
format multicanal en 5 + 1, avec en plus la possibilité d’enregis-
trer un mixage stéréo classique sur les deux pistes restantes. Le
MPEG-IMX bénéficie de la fonction pre-read et permet une lec-
ture à vitesse variable sur une plage – 1/+ 3x (comme le Digital
Betacam et le D9). À l’instar de tous les formats Betacam, il
existe deux tailles de cassettes MPEG-IMX que l’on identifie
immédiatement par la couleur verte de leur boîtier (le Betacam
SP est gris, le Digital Betacam est bleu et le Betacam SX est
jaune). Du fait de la faible vitesse linéaire, les durées maximales
offertes sont particulièrement élevées : 72 minutes sur une petite
cassette (S) et 220 minutes sur une grande cassette (L).

7.19.4. La liaison SDTI


Normalisée en 1997, la liaison SDTI (Serial Data Transport
Interface) est une extension de la liaison numérique série SDI,
adaptée au transport d’un signal compressé entre deux équipe-
ments (magnétoscopes, serveurs, stations de montage non-
linéaires de différentes marques). Alors que la SDI véhicule uni-
quement le signal vidéo [Link] à plein débit (avec ses quatre
pistes audio), la SDTI peut transporter des données numériques
compressées, structurées en paquets. Son atout est de permettre
de continuer à utiliser toute l’infrastructure physique SDI d’un
studio numérique (câbles, grilles de commutation...) et d’offrir
une grande fiabilité de transport, supérieure à celle des liaisons
informatiques et Telecom. Polyvalente, la liaison SDTI est utili-
sée pour les échanges en mode natif (sans décompression/recom-
pression) par les systèmes DVCAM, DVCPRO, D9, Betacam
SX et MPEG-IMX (à l’intérieur d’un même format). Selon les
cas, le flux compressé transite à deux ou quatre fois la vitesse
normale, profitant du débit de 270 Mbits/s de la liaison SDI.
L’identification du type de signal est transmise par des informa-
tions supplémentaires, en en-tête des paquets de données utiles.
La version MPEG-2 de l’interface SDTI utilisée par le MPEG-
IMX est baptisée SDTI-CP (Content Package).

375

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO
HAUT DE GAMME
PROD/POSTPROD

BETACAM M-JPEG
2:1
99 Mbits/s
BETACAM SP DIGITAL BETACAM
PRODUCTION / POSTPRODUCTION

BETACAM MPEG-2 (I)


DIGITAL
BETACAM SX 3,3:1
BETACAM 50 Mbits/s
BETACAM SP
MPEG-IMX
DV [Link]
S-VHS 3,3:1
50 Mbits/s
D9
DV [Link]
DV DVCAM DVCPRO25 3,3:1
50 Mbits/s
Lecture et DVCPRO50
enregistrement

BETACAM MPEG-2 (I,B)


2:1
REPORTAGE NEWS/SPORTS

18 Mbits/s
BETACAM SP
BETACAM SX

DV [Link]
5:1
DV DVCAM
25 Mbits/s
DVCPRO25
DV [Link]
5:1
DV DVCPRO25 25 Mbits/s
Lecture et DVCAM
enregistrement
GRAND

DV [Link]
PUBLIC

DVCAM 5:1
25 Mbits/s
DV

Figure 7.47
Compatibilité en lecture des formats numériques compressés (valable sur certains modèles de machines seulement). À
droite, sont indiqués respectivement, pour chaque format, le type de compression, le taux de compression et le débit vidéo
enregistré.

376

© Éditions Eyrolles
7 • Les formats d’enregistrement

Tableau 7.8
Caractéristiques principales des formats numériques compressés.

DV DVCAM DVCPRO25 DVCPRO50 D9 Betacam SX MPEG-IMX Digital Betacam


(D7) (D10)

Constructeurs Tous Sony, Ikegami Panasonic, Panasonic, JVC Sony Sony Sony
Philips, Hitachi, Philips, Hitachi,
Ikegami,... Ikegami,...

Largeur 1/4" 1/4" 1/4" 1/4" 1/2" 1/2" 1/2" 1/2"


de bande

Structure [Link] [Link] [Link] [Link] [Link] [Link] [Link] [Link]


du signal 8 bits 8 bits 8 bits 8 bits 8 bits 8 bits 8 bits 10 bits

Compression DV DV DV DV DV MPEG-2 MPEG-2 M-JPEG


5:1 5:1 5:1 3,3:1 3,3:1 Inter-image Intra-image 2:1
10:1 3,3:1

Débit vidéo 25 Mbits/s 25 Mbits/s 25 Mbits/s 50 Mbits/s 50 Mbits/s 18 Mbits/s 50 Mbits/s 99 Mbits/s

Débit total 41,8 Mbits/s 41,8 Mbits/s 41,8 Mbits/s 80,9 Mbits/s 99 Mbits/s 40 Mbits/s 88 Mbits/s 125 Mbits/s

Diamètre 21,7 mm 21,7 mm 21,7 mm 21,7 mm 62 mm 81,4 mm 81,4 mm 81,4 mm


tambour

Rotation 150 tr/s 150 tr/s 150 tr/s 150 tr/s 75 tr/s 75 tr/s 50 tr/s 75 tr/s
tambour

Type de bande Métal Evaporé Métal Evaporé Métal Métal Métal Métal Métal Métal

Vitesse écriture 10,16 m/s 10,13 m/s 10,1 m/s 11,3 m/s 14,5 m/s 18,9 mm/s 12,7 m/s 19,1 m/s

Vitesse bande 18,8 mm/s 28,2 mm/s 33,8 mm/s 67,6 mm/s 57,8 mm/s 59,6 mm/s 53,9 mm/s 96,7 mm/s

Largeur piste 10 µm 15 µm 18 µm 18 µm 20 µm 32 µm 21,7 µm 26 µm

Pistes audio 2 (48 kHz, 2 (48 kHz, 2 (48 kHz, 4 (48 kHz, 4 (48 kHz, 4 (48 kHz, 4 (48 kHz, 4 (48 kHz,
16 bits) ou 16 bits) ou 16 bits) 16 bits) 16 bits) 16 bits) 16 bits) ou 20 bits)
4 (32 kHz, 4 (32 kHz, 8 (48 kHz,
12 bits) 12 bits) 16 bits)

Pre-read
(sur certaines non oui non oui oui oui oui oui
machines)

Durée maximale S : 60 mn S : 40 min S : 62 min S : 72 min S : 40 min


des cassettes M : 63 mn M : 31 mn 124 mn
L : 270 mn L : 184 min L : 184 mn L : 93 mn L : 194 min L : 220 min L : 124 min

Compatibilité • Lisible par • Lit DV, • Lit DV, DVCAM. • Enregistre et lit • Lit S-VHS • Lit Betacam, • Lit Betacam, • Lit Betacam,
(sur certaines DVCAM, DVCPRO25 • Lisible par DVCPRO25 • Lisible par Betacam SP Betacam SP, Betacam SP
machines) DVCPRO25, • Lisible par DV, DVCAM, • Lit DV, DVCAM D9-HD • Lisible par Betacam SX, • Lisible par
DVCPRO50, DVCPRO25, DVCPRO50, • Lisible par MPEG-IMX, Digital Betacam MPEG-IMX,
DVCPRO100 DVCPRO50, DVCPRO100 DVCPRO100 HDCAM • Lisible par HDCAM
• Lit DVCAM DVCPRO100 HDCAM

Formats DVCPRO25 DVCAM D9 DVCPRO50 DVCAM D9


concurrents Betacam SX Betacam SX MPEG-IMX MPEG-IMX DVCPRO25 DVCPRO50
(même positionnement)

Commentaires • Format grand • Légère variante • Extension du DV • Déclinaison • Même • Compression • Format • Fait figure de
public soutenu du DV (même (même vers le haut du algorithme de MPEG-2 422P positionné à référence en
par tous les compression), compression), DVCPRO25, compression inter-image mi-chemin production/
fabricants. avec une densité avec une densité avec débit 2 fois vidéo que le avec GOP entre le postproduction TV.
• Qualité compa- d'enregistrement d'enregistrement plus élevé, DVCPRO50 = 2 images. Betacam SX et • Compression
rable au Betacam 2 fois plus faible. 4 fois plus faible employant (2 circuits DV), • Format « non le Digital M-JPEG
SP, supérieur en • Aucune piste • Contrairement 2 circuits de mais aucune tracking », Betacam. propriétaire,
multigénération. longitudinale, aux DV/DVCAM, compression DV. compatibilité exempt de • Compression incompatible avec
• Aucune piste comme en DV. possède des pistes • Enregistre le mécanique. circuit de suivi MPEG 2 422 les systèmes DV
longitudinale longitudinales même signal • Même piste. intra-image, et MPEG-2.
(toutes les pour le repérage vidéo que le D9, mécanique de • Durées d'enre- offrant la même
données corres- audio et mais aucune transport que le gistrement qualité que le
pondantes sont l'asservissement. compatibilité S-VHS. 2 fois plus DV à
enregistrées sur mécanique. élevées qu'en 50 Mbits/s.
pistes obliques). Betacam
analogique.

377

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.20 Le Digital8

Lancé en 1999 par Sony, le Digital8 est un format grand public


qui établit une passerelle entre le DV et le 8mm/Hi8. Le Digital8
reprend les spécifications du DV en termes de traitement vidéo
et audio numérique, mais utilise comme support d’enregistre-
ment une cassette Hi8 classique. Les deux atouts majeurs de ce
format sont, d’une part, son coût réduit comparé à celui du DV
et, d’autre part, sa compatibilité en lecture avec le parc de cas-
settes analogiques accumulées depuis 1985 (8mm) et 1989
(Hi8).
Le Digital8 enregistre le même signal vidéo [Link] que le DV,
c’est-à-dire avec une fréquence d’échantillonnage de 13,5 MHz
pour la luminance et de 6,75 MHz pour la chrominance une ligne
sur deux. Une compression intra-image DV de facteur 5:1 réduit
le débit vidéo à 25 Mbits/s. Les signaux audio sont enregistrés à
plein débit en PCM (modulation par codage d’impulsion), en 16
bits/48 kHz ou en 12 bits/32 kHz. Côté mécanique, le tambour,
de diamètre 40 mm (comme en 8mm), porte deux têtes diamé-
tralement opposées pour la lecture analogique et quatre têtes à
90° pour l’enregistrement/lecture numérique. Deux régimes de
rotation sont prévus pour le tambour, la sélection de l’un ou de
l’autre se faisant automatiquement dès l’insertion de la cassette.
En mode analogique, le tambour effectue 1 500 tr/min, alors
qu’en mode numérique, il tourne trois fois plus rapidement, à
4 500 tr/min.
Le Digital8 code les données identiquement au DV, avec une
segmentation de l’image sur 12 pistes, mais utilise une structure
d’écriture différente. Il profite en effet de la largeur supérieure de
la bande Hi8 (8mm contre 6,35 en DV) pour inscrire les pistes
numériques deux par deux, dans le prolongement l’une de
l’autre.
Ainsi le système Digital8 superpose six pistes sur la partie haute
de la bande et six pistes sur la partie basse. Les pistes sont plus
larges qu’en DV (16,34 µm au lieu de 10 µm), mais plus fines
qu’en 8mm (34,4 µm).

378

© Éditions Eyrolles
7 • Les formats d’enregistrement

Par ailleurs, la vitesse de défilement de la bande est accrue d’en-


viron 30 % par rapport au 8mm/Hi8 (28,7 mm/s au lieu de
20 mm/s). La durée maximale des cassettes est donc réduite dans
les mêmes proportions :
Durée mode Hi8 : 30 60 90 120 minutes
Durée mode Digital8 : 20 40 60 80 minutes
Sony recommande exclusivement l’utilisation de bandes Hi8
pour les travaux numériques, car une bande 8mm enregistrée en
Digital8 peut ne pas être relue correctement sur toutes les
machines Digital8. La compatibilité analogique numérique est
totalement transparente pour l’utilisateur.

Les signaux audio/vidéo analogiques enregistrés sur une bande


8mm/Hi8 peuvent être convertis en numérique par un circuit
interne et être disponibles sur la sortie DV (IEEE1394).

Figure 7.48
Alors que le DV trace les Vidéo
12 pistes d’une image côte à + Audio AFM
+ signaux pilotes
côte, le format Digital8 les Sous-codes
enregistre deux par deux,
dans le prolongement l’une Vidéo
de l’autre, profitant de la
plus grande largeur de la Audio Audio
Signaux PCM
bande Hi8.
pilotes
DV Digital8 Hi8
Largeur de bande : Largeur de bande : Largeur de bande :
6,35 mm (1/4") 8mm (1/3") 8mm (1/3")

Figure 7.49
Les deux modes de
fonctionnement d’une
machine Digital8.

Lecture 8mm/Hi8 : Enregistrement/lecture Digital8


1 500 tr/min 4 500 tr/min
2 têtes à 180° lisent 2 pistes par tour 4 têtes à 90° lisent/enregistrement
4 pistes par tour

379

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

Tableau 7.9
Caractéristiques comparées des formats DV, Digital8 et Hi8.

DV Digital8 Hi8
Enregistrement luminance Numérique Analogique (FM)
Résolution horizontale 500 lignes 400 lignes
Échantillonnage luminance 13,5 MHz -
Quantification 8 bits/échantillon -
Enregistrement chrominance Composantes numériques Analogique (procédé
under color)
Largeur de la bande chrominance 1,5 MHz environ 0,5 MHz environ
Échantillonnage chrominance 6,75 MHz -
Débit vidéo 25 Mbits/s -
Enregistrement audio Numérique PCM Analogique (FM)
16 ou 12 bits
Largeur de la bande magnétique 6,35 mm 8 mm
Dimensions cassette 125 × 78 × 14 mm 95 × 62 ×15 mm
66 × 48 × 12 mm
Diamètre du tambour 21,7 mm 40 mm
Vitesse de rotation du tambour 9 000 tr/min 4 500 tr/min 1 500 tr/min
Vitesse de défilement de la bande 18,831 mm/s 28,695 mm/s 20,05 mm/s
Largeur des pistes vidéo 10 µm 16,34 µm 34,4 µm
Nombre de pistes par image 12
Doublage audio Oui (13 bits) Non Oui (si option PCM)
Mémoire sur cassette Oui Non

Signalons que trois fonctions offertes par le DV ne sont pas assu-


rées par les équipements Digital8 : le doublage son sur la
deuxième voie audio 12 bit/32 kHz, le mode longue durée (LP),
ainsi que la mémoire sur le boîtier de la cassette DV, facilitant la
gestion des séquences vidéo et des photos.

7.21 Le D-VHS

Le D-VHS (Data-VHS) de JVC est un format d’enregistrement


de données numériques 1/2", utilisant la technologie VHS. Sa
particularité est d’enregistrer directement les données compres-

380

© Éditions Eyrolles
7 • Les formats d’enregistrement

sées, comme celles provenant d’une réception TV numérique,


sous la forme d’un train d’impulsion binaires (bit stream).

Terminal décodeur

Tuner Décompres- Conversion


sion N/A

Flux de Flux de
données données
« bit stream » « bit stream »

Interface application
D-VHS interface
Conversion Compression
A/N numérique

Figure 7.50
Principe de l’enregistrement d’une transmission numérique avec le D-VHS.

Le flux de données, dont le débit peut s’étendre de 2 à


28,2 Mbits/s, est en effet stocké tel quel sur la bande et restitué
dans le même état. Autrement dit, le magnétoscope n’effectue
aucun traitement de conversion A/N ou N/A, ni de compres-
sion/décompression.
Un magnétoscope D-VHS n’est donc pas capable, à lui seul, de
reproduire les signaux audio/vidéo à destination du téléviseur.
Il nécessite l’utilisation d’un décodeur externe, par exemple le
même que celui chargé de traiter une réception numérique par
satellite. Le format D-VHS est en effet compatible avec tous les
types de diffusion numériques utilisés dans le monde – standard,

381

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

haute définition, multicanal, etc. Il autorise trois niveaux de qua-


lité d’image : HS (28,2 Mbits/s), STD (14,1 Mbits/s), LS (de 2 à
7 Mbits/s). Le mode HS peut être utilisé pour enregistrer soit un
seul programme à haute définition, soit six programmes à défini-
tion standard transmis simultanément dans une diffusion multica-
nal, et relus ensuite un par un. Deux types de cassettes sont pro-
posées, tous deux de la taille d’une cassette VHS. Le premier type
de cassette offre une capacité de 31,7 Go, tandis que le second,
utilisant une bande plus fine, offre une capacité de 44,4 Go.
Tableau 7.10

Mode HS Mode Mode LS


STD
LD2 LD3 LD5 LD7
Concept de base Enregistrement direct « bit stream », sans codec
Compatible VHS

Mécanique Basée sur le VHS

Bande 1/2 Oxyde type S-VHS

Cassette D-VHS avec système d’identification exclusif

Durée d’enregistrement
maximale
• Cassette DF-420 (44,7GO) 3,5 h 7h 14 h 21 h 35 h 49 h
• Cassette DF-300 (31,7GO) 2,5 h 5h 10 h 15 h 25 h 35 h

Débit d’entrée des données utiles 28,2 Mbits/s 14,1 Mbits/s 7 Mbits/s 4,7 Mbits/s 2,8 Mbits/s 2 Mbits/s

Débit d’enregistrement 38,3 Mbits/s 4,7 Mbits/s


Vitesse de défilement de la bande 33,3 mm/s 16,7 mm/s 8,3 mm/s 5,5 mm/s 3,3 mm/s 2,4 mm/s

Vitesse de rotation du tambour 1 800 tours/minute


Système d’asservissement Piste CTL
Structure de piste 1 secteur
Codage de canal S-NRZI

Interface Numérique IEEE 1394

Une cassette D-VHS à bande fine pourra, par exemple, stocker


3,5 heures d’images à haute définition (mode HS), 7 heures
d’images à définition standard (mode STD), ou encore 49 heures
d’images à définition réduite (modes LS). Parallèlement à l’enre-
gistrement des données numériques, le D-VHS est également
capable d’enregistrer un signal analogique conventionnel et pré-
sente une compatibilité totale avec le VHS et le S-VHS, dont il

382

© Éditions Eyrolles
7 • Les formats d’enregistrement

reprend la technologie et la mécanique de base. Voilà qui jouera en


faveur de sa pénétration et de son développement à grande échelle
pour l’utilisation domestique.
Par ailleurs, le D-VHS utilise la même bande à l’oxyde que celle
du S-VHS. Il tire ainsi pleinement parti de la grande capacité alliée
au faible coût de ce type de bande magnétique, et constitue un
excellent support de stockage pour les applications multimédia
grand public (programmes de télévision, jeux vidéo, données
informatiques, DVD, etc.) et professionnelles (surveillance, archi-
vage, etc.).

7.22 Les formats à haute définition

Initiée par les États-Unis dans le cadre de leur passage à la diffu-


sion numérique, la haute définition se décline aujourd’hui en trois
standards d’image, tous en 16/9, se distinguant par leur résolution
spatiale verticale, leur mode de balayage et leur fréquence de
rafraîchissement. Typiquement américain, le 720p (p pour pro-
gressive) affiche 720 lignes contenant chacune de 1280 points de
luminance et 640 points de chrominance, avec un balayage pro-
gressif à 30 images par seconde. Plus œcuménique car soutenu par
l’UER (Union Européenne des Radiodiffuseurs), le 1080i (i pour
interlaced) affiche 1080 lignes de 1920 points de luminance et 960
points de chrominance, avec un balayage entrelacé à 50 ou 60 Hz.
Enfin, le 1080/24p, plus simplement appelé 24p, est aujourd’hui le
seul de ces trois standards à intéresser l’Europe, notamment pour
le cinéma numérique, le documentaire et la fiction TV haut de
gamme. Il délivre la même résolution spatiale que le 1080i (1080
lignes, de 1920 points de luminance, 960 points de chrominance),
mais avec un balayage progressif à la cadence de la pellicule, soit
24 images complètes par seconde. Face à ces standards d’image à
haute définition, on trouve deux catégories de formats d’enregis-
trement. Le D6 et le D5-HD sont réservés à la postproduction très
haut de gamme et au mastering film ; ils n’existent que sous la
forme de magnétoscopes de studio. Moins élitistes, le DVCPRO-
HD, le D9-HD et HDCAM visent plus généralement la production

383

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

HD courante et sont déclinés en magnétoscopes et caméscopes.


Ces cinq formats gèrent, selon le cas, tout ou partie des trois stan-
dards d’image HD. Certains font appel, pour alléger le signal HD
avant même la compression, à un préfiltrage numérique réduisant
la résolution horizontale en luminance et en chrominance. Il faut
en effet savoir qu’un signal HD de résolution 1080×1920 est
caractérisé par des fréquences d’échantillonnage plus de cinq fois
supérieures à celles du signal [Link], soit 74 MHz pour la lumi-
nance et la moitié, 37 MHz, pour la chrominance. En langage
numérique, si l’on considère comme valeur unitaire la fréquence
de 3,375 MHz, la structure d’un tel signal HD s’écrit [Link] (le
« 22 » représentant 22 fois 3,375, comme le « 4 » du [Link] repré-
sente 4 fois 3,375 MHz). Des cinq formats d’enregistrement HD,
seuls le D6 et le D5-HD conservent cette structure [Link]
(notons qu’ils sont aussi les seuls à ne pas être déclinables en
caméscopes). Le D9-HD et le DVCPRO effectuent un sous échan-
tillonnage d’ordre 1,6 sur la luminance et sur la chrominance. Cela
se traduit par une structure [Link], dans laquelle la résolution hori-
zontale de la chrominance reste inférieure de moitié à celle de la
luminance. En revanche, le HDCAM privilégie davantage la lumi-
nance (sous échantillonnage d’ordre 1,3 seulement) au détriment
de la chrominance (sous échantillonnage d’ordre 1,8), qui se voit
attribuer une résolution horizontale ici réduite au tiers de celle de
la luminance. En reprenant les notations précédentes, la structure
du signal vidéo enregistré par le HDCAM s’écrit [Link].

7.22.1. Le D6
Le D6 (également appelé VooDoo) est le seul format à haute
définition sans compression. Développé conjointement par
Philips et Toshiba, il est représenté par un unique et imposant
magnétoscope utilisé notamment pour les travaux avant retour
sur pellicule. Basé sur une bande 3/4", le D6 accepte tous les
standards HD et maintient intacte la résolution horizontale de
1920 points par ligne. Il traite douze pistes audio et offre une
durée maximale de 64 minutes. Pour enregistrer à plein débit un
tel signal à 1,2 Gbits/s (dont 920 Mbits/s alloués à la vidéo
seule), le D6 répartit les données sur huit canaux parallèles,
chaque canal gérant ainsi un débit de 150 Mbits/s.

384

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.22.2. Le D5-HD
Le D5-HD proposé par Panasonic est une extension vers le haut du
format D5. Destiné exclusivement aux applications de studio, il
fait appel à une compression propriétaire de type M-JPEG, rédui-
sant le débit du signal HD de 920 à 235 Mbits/s. Notons que ce
débit est le plus élevé enregistré par une machine HD faisant appel
à la compression, à comparer avec les 100 Mbits/s des DVCPRO-
HD/D9 et les 140 Mbits/s du HDCAM. Signalons également que
le D5-HD est le seul de ces quatre formats HD compressés à enre-
gistrer réellement 1920 points par ligne. Le taux de compression
est de 5:1 si le signal source [Link] est codé avec une précision de
10 bits, et de 4:1 si le codage est effectué sur 8 bits (les machines
sont commutables à ces deux modes). Le D5-HD accepte tous les
standards HD, avec huit pistes audio éditables. La durée maximale
d’enregistrement est la même qu’en D5 soit 124 minutes.

7.22.3. Le D9-HD
Le D9-HD est la version à haute définition du format D9 de JVC.
Commutable aux standards 720p et 1080i, il effectue un préfil-
trage avant compression, réduisant la résolution de la luminance
et de la chrominance respectivement à 1280 et 640 points par
ligne. Quatre codecs DV sont réquisitionnés pour effectuer le
travail de compression dans un facteur 6,7:1, réduisant le débit
enregistré à 100 Mbits/s. Le D9-HD utilise la même cassette 1/2"
que le D9, offrant ici une durée maximale réduite de moitié, soit
62 minutes, et traite huit pistes audio.

7.22.4. Le DVCPRO-HD
Extension de la famille DVCPRO, le DVCPRO-HD de
Panasonic utilise le même schéma de compression que le D9-
HD, avec quatre chips DV délivrant un flux vidéo de
100 Mbits/s. L’un des atouts de ce format est d’offrir une com-
patibilité en lecture avec tous les formats de la famille DV à 25
ou 50 Mbits/s, incluant le DVCAM et le DV grand public. Les

385

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

standards d’image supportés sont le 1080i et le 720p (1280


points par ligne), avec huit pistes audio.

7.22.5. Le HDCAM
Le HDCAM est le format à haute définition de Sony, basé sur la
plate-forme Betacam 1/2". Compatible en lecture avec la totalité
des formats Betacam (SP, SX, Digital, MPEG-IMX), il accepte
les standards d’image 1080i et 24p, qu’il traite avec une résolu-
tion de 1440 points par ligne en luminance et 480 en chromi-
nance. La compression est effectuée par un algorithme proprié-
taire de type M-JPEG, réduisant à 140 Mbits/s le débit vidéo
enregistré, à quoi s’ajoutent huit pistes audio. La durée maxi-
male d’enregistrement est de 124 minutes sur les grandes cas-
settes et de 40 minutes sur les petites cassettes acceptées par les
caméscopes (ces durées sont 25 % plus élevées en mode 24p).
Tableau 7.11
Principales caractéristiques des formats à haute définition

D9-HD DVCPRO-HD HDCAM D5-HD D6 (VooDoo)

Fabricants JVC Panasonic Sony Panasonic Philips, Toshiba

Bande 1/2" 1/4" 1/2" 1/2" 3/4"

Débit vidéo 100 Mbits/s 100 Mbits/s 140 Mbits/s 235 Mbits/s 920 Mbits/s

Compression DV DV M-JPEG M-JPEG


6,7:1 6,7:1 4,4:1 4:1 @ 8 bits —
+ préfiltrage Y & C + préfiltrage Y & C + préfiltrage Y&C 5:1 @ 10 bits

Standards 720p 720p 720p


d’image 1080i 1080i 1080i 1080i 1080i
supportés 24p 24p 24p

Résolution H Y = 1280 pixels Y = 1280 pixels Y = 1440 pixels Y = 1440 pixels Y = 1920 pixels
C = 640 pixels C = 640 pixels C = 480 pixels C = 480 pixels C = 960 pixels

Fréquences Y = 47 MHz Y = 47 MHz Y = 57 MHz Y = 74 MHz Y = 74 MHz


d’échantillonnage C = 23 MHz C = 23 MHz C = 20 MHz C = 37 MHz C = 37 MHz

Structure vidéo * 14 : 7 : 7 14 : 7 : 7 17 : 6 : 6 22 : 11 : 11 22 : 11 : 11

Pistes audio 8 8 8 8 12

Durée max. 62 min 46 min 40 min 124 min 64 min


124 min

Compatibilité DV Betacam SP
en lecture DVCAM Betacam SX
D9 — —
DVCPRO25 Digital Betacam
DVCPRO50 MPEG-IMX

* Par analogie avec le [Link], en considérant comme fréquence unitaire 3,375 MHz.

386

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.23 24p : un standard universel pour la haute définition

Le 24p est un standard d’image vidéo numérique en haute défi-


nition (16/9), dont la particularité est de présenter de fortes simi-
litudes avec le film. Accepté par un nombre croissant de profes-
sionnels de la publicité et du cinéma, le 24p est aussi un standard
de production vidéo universel, permettant de fabriquer un mas-
ter digital unique, à partir duquel peuvent être dérivés tous les
autres standards vidéo actuels, qu’ils soient en 50 Hz ou en
60 Hz. Le 24p est supporté par trois formats d’enregistrement
vidéo : le HDCAM de Sony (compression 4,4:1), le D5-HD de
Panasonic (compression 5:1) et le D6 (VooDoo) de Philips, qui
est le seul à travailler à plein débit.
Après s’être solidement implantée dans le domaine de la post-
production cinématographique, la technologie numérique est
aujourd’hui en passe de transformer les méthodes de tournage,
diffusion et distribution des films. Initié par Sony, le standard
24p est en effet le premier véritable élément de convergence
entre la télévision et le cinéma, deux mondes qui ont depuis tou-
jours évolué sur des voies parallèles. Le 24p est un standard
vidéo utilisant la plus haute résolution actuelle – 1920 pixels car-
rés × 1080 lignes, soit 5 fois plus que la TV standard –, mais
fonctionnant avec un balayage progressif et une cadence de
24 images par seconde. En reprenant ainsi à son compte la base
de temps du film, le 24p a pour ambition d’étendre l’universalité
du « 24 images par seconde » au domaine de la vidéo. Un mas-
ter digital unique en 24p peut en effet servir à la fabrication de
multiples copies, le format de distribution final étant obtenu en
bout de chaîne via une conversion adéquate, avec les mêmes
méthodes que celles employées dans le cas du film.

7.23.1. Une résolution de 1920 x 1080


à 24 images par seconde
Les normes vidéo standard utilisent un balayage entrelacé de
l’image, avec 576 lignes visibles dans les pays en 50 Hz et
480 lignes visibles dans les pays en 60 Hz. Quand au début des

387

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

années 80, on a commencé à s’intéresser à la télévision à haute


définition, l’idée était de doubler le nombre de lignes de l’image
standard, en conservant le balayage entrelacé. Les européens sont
donc partis sur une base de 1152 lignes visibles (1250 au total),
tandis que les américains ont travaillé sur 960 lignes visibles
(1050 en tout). Le Japon a choisi une valeur intermédiaire, 1035
lignes visibles (1125 au total), et a lancé un service publique, qui
a connu une audience très confidentielle. Or, un simple calcul
montre qu’avec un nombre de points par ligne égal au double de
celui de la norme [Link], soit 2 × 720 = 1440, étendu au ratio 16/9,
soit 1920, on peut obtenir des pixels carrés si l’image est consti-
tuée exactement de 1080 lignes (ces deux nombres sont de rapport
16/9). C’est cette valeur qui a été choisie il y a quelques années
pour une normalisation à l’échelle mondiale du format d’image à
haute définition HD-CIF (CIF : Common Image Format), spéci-
fiant une résolution de 1920 × 1080 commune aux pays en 50 Hz
et 60 Hz. C’est donc en toute logique que le 24p s’appuie sur cette
résolution spatiale, mais avec une résolution temporelle de
24 images/s, par ailleurs également commune à tous les pays.

7.23.2. La conversion 24p/TV standard


Le cinéma travaille sur une base temporelle de 24 images par
seconde, valeur choisie en fonction de considérations purement
mécaniques liées aux possibilités des premières caméras sonores
à pellicule. Cette fréquence de rafraîchissement des images est
certes loin d’être idéale – des saccades dans les mouvements ou
panoramiques sont souvent gênantes – mais elle a le mérite d’être
universellement acceptée. Le film est en effet aujourd’hui le seul
support garantissant la pérennité des œuvres, ainsi que leur repro-
ductibilité en n’importe quel lieu de la planète. En vidéo, les pays
européens utilisent 25 images par seconde, avec un balayage de
deux trames entrelacées, tandis que l’Amérique du nord et le
Japon en utilisent 30, toujours avec un entrelacement d’ordre
deux. Ces valeurs ont été déterminées en fonction de la fréquence
du courant alternatif en vigueur dans ces différentes zones géo-
graphiques, soit respectivement le 50 Hz (70 % de la surface
émergée du globe) et le 60 Hz. La question qui s’est alors posée

388

© Éditions Eyrolles
7 • Les formats d’enregistrement

– et qui redevient d’actualité avec l’avènement du 24p – est de


savoir comment mettre en adéquation les 24 images par seconde
du film avec les 25 et 30 i/s de la télévision, pour notamment
transférer un long métrage en vidéo. En Europe, la solution choi-
sie consiste tout simplement à accélérer de 4 % la vitesse de lec-
ture du télécinéma, pour passer de 24 à 25 images par seconde.
Cela a deux conséquences : d’une part la bande son est élevée
d’un demi-ton, d’autre part la durée du film est réduite (1h55 au
lieu de 2h par exemple). Dans les pays à 60 Hz en revanche, cette
solution n’a pas pu être mise en pratique car ce n’est pas de 4 %
mais de 25 % qu’il aurait fallu accroître la vitesse de lecture du
film, ce qui est totalement inacceptable. Les diffuseurs améri-
cains ont donc adopté un autre système, bien plus complexe et
problématique, appelé « 3:2 pull down ». Pour faire simple,
disons que les images film sont scannées de manière à engendrer
alternativement trois et deux trames vidéo. Ainsi, deux images
sur la pellicule sont transformées en cinq trames vidéo, donc
24 images film donnent 60 trames. Les américains ont ainsi
appris à vivre avec le 3:2 pull down pour tous leurs transferts
film/vidéo, et vont continuer à l’utiliser avec le 24p. Précisons par
ailleurs que l’on retrouve en 24p l’effet de saccade ou de strobo-
scopie du film, ce qui n’est pas gênant dans le cadre d’une fiction
puisque nous y sommes éduqués. En revanche, la cadence de
24 images par seconde délivre une analyse du mouvement très
insuffisante pour certains programmes comme le sport.

Film
24 images/s

Vid o 60
trames/s

Figure 7.51
Le 3/2 Pull Down : les images d’une séquence 24p donnent alternativement naissance à trois, puis deux trames vidéo. Ainsi,
deux images 24p sont transformées en cinq trames vidéo, donc 24 images 24p donnent 60 trames.

389

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

7.23.3 Le 24p segmenté (24psf)


Pour proposer des équipements HD qui puissent être exploités
aussi bien en mode progressif (24p) qu’en mode entrelacé (50 ou
60 Hz), la plupart des constructeurs utilisent une variante du 24p
appelée 24psf (sf : segmented frame). Le 24psf met en œuvre une
technique de segmentation, qui consiste à diviser chaque image
progressive de 1080 lignes en deux images de 540 lignes lues
successivement à 48 Hz, l’une contenant les lignes de rang
impair, l’autre celles de rang pair. Le signal segmenté 24psf pré-
sente l’intérêt d’être très proche d’un signal entrelacé à 50 Hz et
pas très différent d’un signal entrelacé à 60 Hz, tout en préser-
vant l’intégralité des données issues de la capture 24p. Du coup,
il peut être traité et enregistré par des équipements conçus à l’ori-
gine pour gérer une structure entrelacée (magnétoscopes, mélan-
geurs, systèmes d’effets,...). La commutation entre le 50 ou le
60 Hz entrelacé et le 24psf n’est alors qu’une affaire de change-
ment d’horloge. Cette opération est bien plus simple et moins
onéreuse que la complexe gestion de mémoires de trames qui
aurait été nécessaire si le signal HD avait été traité d’un bloc en
24p. Soulignons cependant que le signal structuré en 24psf n’est
pas un signal entrelacé. Les deux segments de 540 lignes pro-
viennent en effet toujours d’une même image progressive saisie
par une caméra HD ou transférée par un télécinéma HD, et peu-
vent être à tout moment recombinés pour former l’image d’ori-
gine 24p (le 24psf ne peut en aucun cas être fabriqué à partir
d’un signal entrelacé). Outre la mise en œuvre d’équipements
commutables progressif/entrelacé, la segmentation apporte
d’autres avantages, parmi lesquels la réutilisation de formats de
bande existant, le mélange de sources entrelacées et progres-
sives, ainsi que transport du signal 24psf via une interface HD-
SDI avec uniquement des modifications logicielles. Quant à l’af-
fichage sur un moniteur, la fréquence de rafraîchissement initiale
de 24 Hz, beaucoup trop faible, doit être au minimum doublée
(chose faite avec le 24psf), voire triplée, pour éviter un inaccep-
table phénomène de papillotement (en cinéma, chaque image est
projetée deux fois pour les mêmes raisons).

390

© Éditions Eyrolles
7 • Les formats d’enregistrement

7.2 Le MICROMV

Le MICROMV est le tout dernier format d’enregistrement


numérique de Sony, lancé fin 2001 sur le marché grand public. Il
est basé sur une compression MPEG-2 MP@ML de ratio 10:1,
appliquée à un signal [Link], avec un GOP de 12 images (comme
en diffusion TV). Le débit vidéo qui en résulte est de 12 Mbits/s,
soit inférieur de moitié à celui du DV. Cependant, le traitement
de compression inter-image sur un GOP aussi long a un prix. Les
12 images de chaque GOP sont en effet codées les unes par rap-
port aux autres et sont de ce fait indissociables, ce qui réduit la
précision du montage à la durée du GOP, soit 0,5 seconde.
Contrairement à l’ensemble des autres formats numériques, le
son est lui aussi compressé, en MPEG-1 (niveau 2), à un taux de
6:1 à 8:1, donnant un débit entre 256 et 192 kbits/s. Ce format se
caractérise par son extrême miniaturisation puisqu’il utilise une
cassette de dimensions 30% inférieures à celles d’une petite cas-
sette DV (46 × 30 mm, contre 66 × 48 mm). Elle renferme une
bande magnétique de type ME, dont la largeur est presque deux
fois inférieure à celle du DV, soit 3,8 mm. Les données vidéo et
audio numériques sont mélangées et enregistrées sur une même
piste hélicoïdale, large de seulement 5 µm (contre 10 µm en
DV). La cassette MICROMV, qui existe en un seul modèle, offre
une durée d’enregistrement de 60 minutes. Elle est équipé d’une
puce mémoire permettant de stocker différents paramètres
comme la date de l’enregistrement, la durée de toutes les
séquences, ainsi que la durée de la bande déjà enregistrée et celle
restante. Une des particularités du MICROMV est d’enregistrer
chaque séquence vidéo (rec/start – rec/stop) dans un fichier
séparé. Conséquence de quoi, il faut, en lecture, 0,8 secondes à
la tête pour se positionner sur le fichier suivant, ce qui présente
un inconvénient majeur : à chaque changement de plan, on
observe une image figée pendant 0,8 seconde. En contrepartie,
cette méthode d’enregistrement par fichiers indépendants permet
de créer des imagettes d’index identifiant chaque plan (affichées
sur l’écran du caméscope) et d’accéder rapidement aux
séquences. En effet, l’espace de recherche est scanné à 15 fois la

391

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

vitesse de lecture de façon à afficher les images indexées de


chaque début de séquence. Le MICROMV reprend l’interface
IEEE 1394, ce qui le rend physiquement compatible avec les
cartes de montage informatiques DV existantes. Cependant, les
logiciels de montage DV ne reconnaissent pas le MICROMV ;
de nouvelles solutions spécifiques à ce format ont été dévelop-
pées. La nouvelle génération de caméscopes née avec ce format
est 30 % plus compacte et plus légère que le plus petit des camé-
scopes DV (elle utilise des capteurs CCD de 1/6").

Figure 7.52
En MICROMV, chaque Rec Rec Rec Rec
séquence est enregistrée dans start stop start stop
un fichier séparé, qui débute
par une image fixe de 0,8 s.
10 s 30 s

1 fichier 1 fichier

392

© Éditions Eyrolles
Index
1080i, 184, 383 Candela, 8
720p, 184, 383 CCD FIT, 137
24p,184, 383 CCD FT, 135
[Link], 212, 240, 241, 357 CCD IT, 129
[Link], 212, 240, 241, 357 Centre optique, 68, 70
[Link], 211, 241, 349, 357 Cercle de confusion, 96
4/3-16/9, 180, 256, 348 Chrominance, 35, 188, 210, 357
8mm, 311, 320, 331 Codage à longueur variable, 252
Codage de canal, 221
A Codage entropique, 252
Aberration sphérique, 100 Coercitivité, 302
Aberrations chromatiques, 97 Coma, 101
Aberrations géométriques, 100 Compléments optiques, 110
Aliasing, 143
Composantes vidéo, 186, 196, 311
Ambiance (projecteur), 46, 54
Composantes trichromatiques, 23
Angle de champ, 77, 80, 88
Composite, 35, 187, 197, 311
Astigmatisme, 101
Compression des blancs (knee), 163, 179
Axe optique, 74
Cônes, 12
Azimut, 306, 308
Contre-jour, 46
B Conversion analogique/numérique, 167, 203
Back focus, 88 Convertisseurs de focales, 110
Balance des blancs, 176 Corps noir, 18, 33
Balance des noirs, 176 Courant de noir (d’obscurité), 140, 153, 157
Bande magnétique, 302 Contour (correction), 158, 178
Bande ME (Métal Évaporé), 303, 324 Contre-tops (correction), 163
Bâtonnets, 12 Courbe de visibilité relative de l’œil, 13
Betacam, 311, 325, 331, 376 Courbure de champ, 102
Betacam SP, 311, 325, 331, 376 Crispening (coring), 160
Betacam SX, 369, 376, 377 Cross color, 190, 313
Black press/stretch, 178 Cycle d’hystérésis, 300
Blancs étalons, 19
D
C D-VHS, 380
Capteurs CCD, 123 D1, 281, 331, 354

393

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

D2, 337, 354 Espace XYZ, 26


D3, 342, 346, 354 Estimation de mouvement, 260
D5, 346, 354
D5-HD, 281, 385, 386 F
DVCPRO-HD, 281, 385, 386 Face (projecteur), 45
D6 (VooDoo), 281, 384, 386 Facteur de Kell, 193
D7 (voir DVCPRO25) Filtre infrarouge, 122
D9, 281, 368, 376, 377 Filtre optique passe-bas, 122, 147
D9-HD, 281, 385, 386 Filtre polarisant, 113
D10 (voir MPEG-IMX) Filtre quart d’onde, 122
Décalage spatial (CCD), 145 Filtre de conversion de couleur, 112
Décibel, 200, 201 Flare, 106, 151
Diagramme de chromaticité (x, y), 27 Flux énergétique, 8
Diagramme de chromaticité uniforme (u’, v’), Flux lumineux, 8
29 Focale, 70, 77, 79, 81, 83
Diaphragme, 89, 177 Fonction de transfert de modulation, 106
Diffraction, 103 Format d’image, 76, 125
Diffusion numérique, 258, 287 Foyer image, 70
Digital Betacam, 281, 349, 354, 376, 377 Foyer objet, 70
Digital8, 378
Disque dur, 279 G
Distorsion (optique), 102 Gamma, 165, 178
Drop-out, 309 GOP, 257, 270, 272
DV, 242, 275, 355, 376, 377, 380 Gradateurs, 59
DVCAM, 240, 281, 362, 376, 377 Grand angle, 80, 83

H
DVCPRO25 (D7), 240, 281, 364, 376, 377
DVCPRO50, 281, 366, 376, 377
HAD (capteurs), 139
DVD, 281, 284
Haute définition, 183, 383, 387
Dynamic Tracking (DT), 328
HDCAM, 281, 386
E Hi8, 311, 324, 331
Échantillonnage, 149, 206 HMI (lampe), 48
Éclairement, 8, 60 Hyperfocale, 95
EFP, 169
Ellipses de MAC ADAM, 30 I
ENG, 169 IEEE1394, 362
Enregistrement hélicoïdal, 304 Indice de réfraction, 6
Enregistrement magnétique, 300 Indice de rendu des couleurs « Ra », 50
Entrelacé (balayage), 39 Intensité lumineuse, 8
Erreurs (correction), 218 Interface parallèle, 227
Espace RVB, 24 Interface série, 227

394

© Éditions Eyrolles
Index

J MPEG-2, 243, 265, 287, 391


Jeux d’orgue, 58 MPEG-2 422, 269, 276, 369, 373
JPEG, 242, 244, 245, 254, 274 MPEG-4, 291, 292
MPEG-7, 291, 296
K MPEG-IMX (D10), 281, 373, 376, 377
Kelvin, 18 Multiplicateurs de focale intégrés, 111
Knee (compression des blancs), 163, 179
N
Niveau de noir, 177
L Niveaux de MPEG-2, 268
Lentille asphérique, 100 Nombre d’ouverture, 91
Lentille convergente, 69 NTSC, 193
Lentille divergente, 73
Liaison multiconducteur, 173 O
Liaison triaxiale, 173 Obturateur électronique, 142
Loi du cosinus puissance 4, 105 Œil, 10, 14, 20
Lossless (compression), 236 Off line (montage), 282
Lossy (compression), 236 On line (montage), 282
LTC (code), 307 Ouverture (correction), 158
Lumen, 8, 10 Ouverture photométrique, 93
Lumière (définition), 2, 5
Ouverture relative, 89, 94
Lumière blanche, 15
Lumière monochromatique, 2 P
Lumière polychromatique, 2 PAL, 194
Luminance, 9, 17 Persistance rétinienne, 14, 39
Luminance (signal), 35, 189, 210 Pre-read, 340
Luminophores, 37
Précompression analogique (caméras), 168
Lux, 8, 10
Pixels défectueux (correction), 156
M Primaires de la CIE, 21
Masking, 34, 154 Primaires de la télévision, 31
Microlentilles, 141 Profils de MPEG-2, 267
MICROMV, 281, 391 Progressif (balayage), 42, 184, 383
Mired, 112 Profondeur de champ, 94, 96
Mire de barres, 37 Projecteur à lentille de Fresnel, 51
Mise au point interne, 113 Projecteur de découpe, 53
Mise au point, 72, 95 Projecteur de poursuite, 53
M-JPEG, 242, 271, 274 Projecteur ouvert, 52
Mole (the), 272 Projecteurs automatisés, 57
Montage virtuel, 282
MOS (cellule), 126, 140 Q
MPEG-1, 243, 255, 281 Quantification, 215, 217, 250

395

© Éditions Eyrolles
LES SECRETS DE L’IMAGE VIDÉO

R T
RAID, 280 Teinte, 17
Ramping, 93 Téléobjectif, 80, 84
Redondance spatiale, 237 Telescan, 58
Redondance statistique, 238 Température de couleur, 18, 20, 112
Redondance subjective, 238 TH (lampe), 47
Redondance temporelle, 237 Time code, 307
Rémanence (magnétique), 302 Tirage optique, 88
Résolution (image), 192 Trame, 39, 191, 225
Transformée en Cosinus Discrète (DCT), 245,
S 247, 249
S-VHS, 311, 318, 331 Trichromie, 21
Saturation, 17, 179 Tube cathodique, 37
Trinitron (tube), 38
SDI, 228
Tubes fluorescents, 50
SDTI, 375
SECAM, 195 U
Segmentation (enregistrement), 305, 331 Under color, 310, 311
Séparateur optique, 120
Serveurs vidéo, 278 V
SIF, 256 Vari*lite, 57
Signal analogique, 199 Vergence, 71
Signal numérique, 201 VHS, 311, 314, 320, 331
Signal vidéo analogique, 35, 186 VHS-C, 315, 331
Signal vidéo numérique, 224 VHS-HiFi, 317
Skin detail, 161 VITC (code), 307
Smear, 134, 140 Vignettage, 105
Voie de commande, 171
Spectre des ondes électromagnétiques, 3
Stabilisateur optique, 115 Y
Structure d’échantillonnage (vidéo), 213 Y/C, 187, 197, 310, 311
Suppression ligne, 40
Suppression trame, 40 Z
Synthèse additive des couleurs, 22 Zoom, 84

396

© Éditions Eyrolles
Distribution numérique par
[Link]

Vous aimerez peut-être aussi