0% ont trouvé ce document utile (0 vote)
56 vues50 pages

Cours Module 2 ESMT

Le document présente les bases théoriques de l'audio et de la vidéo, en définissant le son, la vidéo, et le débit binaire, ainsi que les principes de leur création. Il aborde également les calculs liés au débit binaire pour les vidéos et les fichiers audio, ainsi que la transduction des signaux visuels et sonores. Enfin, il détaille les signaux analogiques audio et vidéo, en expliquant leur fonctionnement et leur caractéristique continue dans le temps.

Transféré par

ganourobin
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
56 vues50 pages

Cours Module 2 ESMT

Le document présente les bases théoriques de l'audio et de la vidéo, en définissant le son, la vidéo, et le débit binaire, ainsi que les principes de leur création. Il aborde également les calculs liés au débit binaire pour les vidéos et les fichiers audio, ainsi que la transduction des signaux visuels et sonores. Enfin, il détaille les signaux analogiques audio et vidéo, en expliquant leur fonctionnement et leur caractéristique continue dans le temps.

Transféré par

ganourobin
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Cours sur le module Bases théoriques audio et vidéo

Chapitre I. Bases théoriques

I. Définitions basiques

1- Le son
Le son est une vibration de l’air c’est-à-dire une suite de pressions et de
dépressions de l’air par rapport à une moyenne qui est la pression
atmosphérique.
Remarque : Un objet bruyant placé dans un milieu sans air n’émettra
aucun son.
On appelle audiofréquence, la transmission ou la reproduction des sons
dans la bande des fréquences audibles.

2- Principe de création du son


En faisant passer du courant alternatif à travers l’électro-aimant d’un
haut-parleur cela engendre un mouvement de va et vient de cet électro-
aimant en fonction de la fréquence du courant. La membrane du haut-
parleur reliée à l’électro-aimant va provoquer à son tour une vibration de
l’air situé devant elle. Il se crée une propagation d’ondes de pression
dans le milieu élastique qui est en contact avec la membrane qui subit
ainsi une déformation réversible.
Ces fluctuations rapides de la pression de l’air arrivent au niveau de nos
oreilles pour engendrer une sensation auditive qu’on appelle le son.

3- La vidéo
La vidéo est la succession d’images animées ou non animées,
accompagnées de son ou sans son, à une cadence bien définie.
On appelle vidéofréquence, la transmission, la lecture ou la capture à
distance d’images animées ou non animées, accompagnées de son ou
sans son dans la bande de fréquences utilisées pour la vidéo.

4- Principe de création de la vidéo


On peut obtenir de la vidéo soit à l‘aide d’un dispositif électronique (un
récepteur de télévision, un magnétoscope…) , informatique ( un
ordinateur, un terminal IPTV…) , ou optique (une caméra)…
II. Le débit binaire
Rappel sur le bit : Le bit ou binary digit en anglais est l’unité la plus
simple dans un système de numération. Il ne peut prendre que deux
valeurs, désignées le plus souvent par les chiffres 0 et 1. Un bit peut
représenter aussi bien une alternative logique exprimée par Vrai ou
Faux.

1-Définition
On appelle débit binaire ou Bite Rate en Anglais, la quantité de données
numériques transmises par unité de temps. Il s’exprime en bits par
seconde (bit/s, bps) ou par un de ses multiples tels que : le Kb/s (kilobits
par seconde), le Mb/s (mégabits par seconde) etc.... Il fait référence à la
profondeur des informations et au format vidéo ou audio.
Le Kilobits par seconde est égale à 1024 bits par seconde mais dans la
pratique on utilise 103 bits/s. Ce qui donne les multiples ci-dessous :

Un kilobit par seconde (Kbit/s ou kb/s) = 103 bit/s


Un mégabit par seconde (Mbit/s ou Mb/s) = 106 bit/s
Un gigabit par seconde (Gbit/s ou Gb/s) = 109 bit/s
Un térabit par seconde (Tbit/s ou Tb/s) =1012 bit/s

Le débit binaire peut s’exprimé aussi en octets par seconde (octet/s, o/s)
ou par un de ses multiples tels que : le Ko/s (Kilooctet par seconde), le
Mo/s (le Mégaoctet par seconde) etc... Dans ce cas on n’utilise que les
1024 octets par seconde pour les différentes conversions. C’est-à-dire
qu’un kilooctet par seconde est égal à 1024 octets par seconde et non
103 octets par seconde.

Le débit binaire détermine la taille et la qualité des fichiers vidéo ou


audio ; plus il est élevé, meilleure est la qualité de l’image ou du son et
plus importante sera la taille du fichier. Ce qui nécessite beaucoup
d’espace de stockage pour les conserver. Le défi majeur est comment
redimensionner un fichier vidéo ou audio sans perdre la qualité. On
utilise pour cela des logiciels de montage vidéo ou audio ; soit pour le
compresser (réduire sa taille) ou soit pour le décompresser (agrandir sa
taille).
Comme logiciels de montage on a : Adobe Première Pro,
Adobe Audition, Audacity, Final Cut Pro, Avid Media Composer, Pinnacle
Studio, DaVinci Resolve….

Il faut noter que : Taille du fichier = débit binaire x durée

2- Calcul du débit binaire d’une vidéo numérique en Bitmap

Le débit binaire est la vitesse à laquelle les bits sont transmis. Il permet
d’apprécier le nombre de bits total que l’on peut transmettre en une
seconde. Pour cela il tient compte de plusieurs paramètres à savoir :
- Le nombre de pixels en Horizontal (H)
- Le nombre de pixels en Vertical (V)
- Le nombre de bits par échantillon (n)
- La fréquence image (Fi)

D’où le débit binaire ou Bit rate D = H x V x Fi x n.

Exemple d’application :
Une image TV numérisée doit être transmise à partir d'une source qui
utilise une matrice d'affichage de 450x500 pixels, chacun des pixels
étant codés sur 8 bits. On suppose que 30 images sont envoyées par
seconde.
Quel est le débit D de la source ?

D = 450 x 500 x 30 x 8 = 54 Gbits/s

3- Calcul du débit binaire audio numérique

Dans le cas des signaux numériques audio, le débit binaire s’obtient par
la formule ci-après :
D = N s x n x fe
Où :
- Ns représente le nombre de signaux numérisés
- n est le nombre de bits de quantification
- fe la fréquence d’échantillonnage
Exemple d’application :
Une bande sonore comprend 2 voies audio (stéréophonie) échantillonné
sur 8 bits avec une fréquence d’échantillonnage de 22,5 KHz, quel est
son débit binaire ?

D = 2 x 8 x 22 500 = 360 Mbits/s

4- Calcul du débit binaire en True color

En codage True color (RVB),


Le poids P de l’image est égal à la taille de l’image x le poids des trois
composantes couleurs de cette image codée sur le nombre de bits.
Dans le cas d’une image True color codée sur 8 bits, on a
P = H x V x (3x8 bits) où H x V représente la taille T de l’image.
On aura alors, P = T x 24 bits ou encore P = T x 3 octets

Le débit binaire en True color est donné par la formule


D = T x Fi x 24 bits ; il est exprimé en bits/s

Quant au poids P de l’image, il est aussi exprimé sous la forme


P = D x TS où TS représente temps en seconde

5- Calcul du débit binaire de numérisation de la vidéo

Cas d’une image vidéo numérique en SD :

-Le nombre de lignes actives est de 576


-Le nombre de pixels par ligne pour la luminance est de 720
-Le nombre de pixels par ligne pour la chrominance est de 360
-Le taux de numérisation est de 8 bits par échantillons ou par pixels
-La fréquence image est de 25 images par seconde
-Le format de numérisation est le [Link]
On aura alors :

D = (576 x 720 x 25 x 8) + (576 x 360 x 25 x 8 x 2) = 165 888 000 bits/s


Y Cr ; cb

Ce qui donne D ≈ 166 Mbits/s mais dans la réalité on prend


D = 158 Mbits/s.

Ce débit est suffisamment élevé pour transmettre une seule image, il


n’est donc pas adapté à la capacité des équipements électroniques. Il
faut donc le réduire en procédant par une réduction du nombre de bits
par image c'est-à-dire que cela revient à compresser l’image.

6- Calcul de la taille du fichier vidéo numérique codé Bitmap True


color

En plus de sa définition, une image numérique utilise plus ou moins


de la mémoire selon le codage des informations de couleur qu'elle
possède. C'est ce que l'on nomme, le codage de couleurs ou
profondeur des couleurs. Il est exprimé en bit par pixel (bpp) : 1, 4,
8, 16 bits...
En connaissant le nombre de pixels d'une image et la mémoire
nécessaire à l'affichage d'un pixel, il est possible de définir exactement le
poids que va utiliser le fichier image sur le disque dur.
Ce poids est exprimé en bits par image (bpp)

En effet, pour stocker une information numérique l’ordinateur utilise la


technique suivante :
. Pour 1 bit l’ordinateur stock ou enregistre 21 états soit 2 bits 0 ou 1
(couleur noir ou blanc) = Nombre de bits couleurs par pixels :
. Pour 2 bits il enregistre 22 états soit 4 bits (00 01 10 11)
. Pour n bits il va stocker 2n états correspondant à la profondeur des
couleurs dont l’unité est le bit / image pour ce qui concerne le
codage bitmap
En true color où les composantes couleurs sont individuellement
numérisées sur 8 bits pour RVB, le poids P du Fichier = Poids de l’image
c’est-à-dire au nombre de bits dans une seule image (bits/image)

Exemple : Quel est le poids P d'une image d'une définition de 640 x


480 codée sur 1 bit (noir et blanc) ?
Résolution :

P = (640x480) x 1bit c’est-à-dire P = 307200 x (1/8) = 38400 octets


Soit 38400 octets / 1024 = 37,5 Ko

En SD le poids du fichier P = 720 × 576 x 𝑖 × 8 × 3 ce qui donne


P = 9 953 280 𝑏𝑖𝑡𝑠/𝑖𝑚𝑎𝑔𝑒 ≈ 1,2 Mo/image car on a 8 bits/image

P = Timage × 𝜏𝑛𝑢𝑚 × (R,V,B) où 𝜏𝑛𝑢𝑚 représente


Ce qui équivaut à :

le taux de numérisation

7- Calcul de l’espace disque de stockage sur CD

Soit S l’espace de stockage. On a S = T × f × TS

Exemple : pour une 1 mn de film on aura

S = 1,2 Mo / image x 25 images/s x 60s = 1800 Mo = 1,76 Go.

En rappel T = Taille du fichier ; f = fréquence image ; TS = Temps en


seconde et pour la conversion en Go on divise par 1024 Mo.

III. Les étapes fondamentales de la transduction

1- Définition
Le terme transduction signifie la transformation qualitative et quantitative
d'un signal en un autre. En vidéo, c'est la transformation des photons
(grains de lumière) en une impulsion électrique par le biais de l’œil.

2- Fonctionnement de l’œil

Les différentes étapes de la transduction renvoient aux principes de


fonctionnement de l’œil.

Coupe longitudinale de l’œil

L'œil est l'organe de la vision. Il capte la lumière issue des objets et des
images qu’il transforme en signaux électriques.
Ces signaux sont ensuite « enregistrés » par notre cerveau qui les
traduit d’abord en information et ensuite les restitue sous forme d’images
traitées pour nous permettre ainsi d’interpréter notre environnement.
La vue chez l’être humain représente la principale source d’information
du cerveau sur le monde extérieur. 70% environ des informations
passent par la vision.
L’œil fonctionne comme un appareil photo où, chaque élément a son rôle
et son importance. Ce sont :
- Le cristallin ou le Zoom

Le cristallin sert à la mise au point et permet d’effectuer les réglages


indispensables à la focalisation des objets quelle que soit leur distance.
L’accommodation est permise par la souplesse du cristallin, dont la
modification des rayons de courbure est assurée par la contraction de
petits muscles, appelés muscles ciliaires. Avec le temps, les muscles
ciliaires ont moins d’effet sur le cristallin. Ce qui a pour conséquence une
perte d’accommodation progressive et inéluctable. Il s’agit de la
presbytie, qui débute vers l’âge de 45 ans.
Plus tard, en moyenne vers 70 ans, le cristallin perd sa transparence.
L’acuité visuelle diminue et n’est plus améliorable. Cela engendre la
cataracte.

- La cornée ou l’objectif de l’appareil photo

La cornée agit comme une fenêtre par laquelle la lumière pénètre dans
l’œil. Elle a un rôle de focalisation des images sur la rétine et doit être
transparente.

- L’iris

C’est une membrane pigmentée circulaire, perforée en son centre pour


former la pupille.

- La pupille ou le diaphragme de l’appareil photo

La pupille est un espace au centre de l’iris par lequel la lumière pénètre


dans l'œil. Le diamètre de la pupille est variable, contrôlant ainsi la
quantité de lumière entrant dans l'œil.
En cas de forte luminosité ; elle se resserre.
Au contraire, en cas de faible luminosité, la pupille s’élargit pour laisser
entrer plus de lumière dans l’œil.

- La rétine ou le capteur de l’appareil photo


La rétine est une membrane épaisse constituée de centaines de millions
de cellules nerveuses photo réceptrices qui transmettent l’information
visuelle vers le cerveau. Ce sont :
• les cônes, qui permettent de percevoir la lumière du jour et les couleurs

• les bâtonnets qui nous donnent une vision des formes dans l'obscurité.

La rétine se prolonge par le nerf optique qui transmet l'énergie


photochimique jusqu'au cerveau.

- Le nerf optique :

Il transmet les informations reçues par les yeux vers le cerveau, au


niveau du cortex visuel.
C’est lui qui permet au cerveau d’enregistrer, d’interpréter et de traduire
les images.

Dans le domaine du son, on parle aussi de transduction. Il s’agit là des


signaux électriques ou des vibrations sonores obtenues par l’utilisation
des transducteurs électro-acoustiques. C’est le cas du microphone qui
transforme le son en un signal électrique. Tandis que le haut-parleur lui
converti le signal électrique en une vibration sonore.

Chapitre II. Les signaux audio et vidéo

Introduction

I- Les signaux analogiques audio et vidéo

Les signaux analogiques représentent les variations d’une grandeur


physique qu’ils traduisent électriquement. L’information qu’ils portent
peut-être contenue dans leur amplitude, leur fréquence ou leur phase.

Exemple : On a la caméra analogique qui fournit un signal analogique en


fonction des variations de lumière focalisée sur son objectif ou le signal
produit par un microphone soumis à une onde sonore. Le signal produit
dans ces deux cas est analogue à la cause qui l’a fait naître.

Les signaux analogiques sont caractérisés par leur continuité dans le


temps, ils peuvent prendre une infinité de valeurs.
1- Le signal audio analogique

1.1- Généralités sur le son

Un son est un ébranlement élastique de l’air, d’un fluide ou d’un solide


qui se manifeste par des variations moyennes du milieu. Lorsque le
milieu est homogène, l’onde sonore se propage à une vitesse constante
C appelée célérité. C’est le cas d’un haut-parleur. Le vecteur de
surpression acoustique a le même sens que celui de la propagation. Les
ondes sonores sont dites longitudinales.

1.2- Définition d’un signal audio analogique

On appelle signal audio analogique, tout signal électrique généré par un


transducteur électroacoustique et qui prend une infinité de valeurs dans
le temps. Exemple : le signal issu d’un microphone ou celui recueilli à la
sortie d’un haut-parleur…

Schéma d’un microphone à charbon


1.3- Principe de fonctionnement du microphone à charbon

Le microphone à charbon est un transducteur électroacoustique


permettant de convertir un signal sonore en signal électrique. Il se
compose d'une capsule contenant des granulés de charbon fermée par
une membrane souple, où le charbon est maintenu entre deux plaques
métalliques servant d'électrodes. Les petits morceaux de charbon
agissent comme une résistance électrique variable : la vibration due à
l'onde sonore comprime de façon variable les granules de carbone,
provoquant un changement de géométrie et donc une variation de
résistance.

Forme d’un signal analogique


L’amplitude du signal varie et peut prendre une infinité de valeurs dans
le temps.

2- Les signaux numériques audio et vidéo

Les signaux numériques se présentent sous la forme d’un message


composée d’une suite de nombres binaires constitués d’une série de
« 0 » et de « 1 », traduisant respectivement l’absence ou la présence du
signal. Ces suites de nombres donnent les variantes de la grandeur
analogique.

On nomme « variable binaire » tout phénomène qui ne peut prendre que


2 états ; par exemple un transistor ne peut être que conducteur ou
bloqué de même, un interrupteur ne peut être qu’ouvert ou fermé. Par
convention, l’état passant est représenté par « 1 » (état haut noté H) et
l’état bloqué par « 0 » (état bas noté L) ; c’est-à-dire H pour High et L
pour Low.

Chaque information binaire (état haut ou état bas est un « bit » et un


ensemble de 8 bits est un octet (ou un byte)

Un regroupement de bits forment un mot. On peut avoir des mots de 2 ;


3 ; 4 ; 5 ; ……bits)

• Un mot de 4 bits représente 16 états (de 0 à 15 en décimal)

• Un mot de 8 bits représente 256 états (de 0 à 255 en décimal)

Ces mots peuvent être additionnés, soustraits, multipliés, divisés, mis en


mémoire, lus etc…

NB : Les signaux analogiques peuvent être convertis en numérique (A-


N), traités, puis convertis à nouveau en analogique (N-A).

II- Les bandes utilisées en audio et en vidéo


Les bandes de fréquences utilisées pour la propagation des signaux
audio et vidéo sont celles situées dans la bande des radiofréquences.
C’est-à-dire les fréquences comprises entre 30MHz et 3 000 MHz, soit
des longueurs d'onde allant de 10 m à 0,1 m.
Elles regroupent les très hautes fréquences (VHF) et les ultra hautes
fréquences (UHF).
La classification des fréquences est faite conformément aux normes
édictées par l’UIT et est constamment mise à jour.
La partie du spectre autrefois allouée à la radiodiffusion et à la télévision
terrestre est divisée en 4 ou 5 bandes en VHF et en UHF mais de nos
jours avec l’avènement de la Télévision Numérique Terrestre, ce spectre
a été révisé.
Les bandes officielles qui étaient destinées à la télédiffusion au plan
international étaient : VHF bande I, VHF bande III, UHF bande IV et UHF
bande V, excepté quelques pays comme l'Australie qui ont
provisoirement exploité la VHF bande II.

- VHF bande I

Ce sont les fréquences allant de 47 MHz à 68 MHz, elles ont été


exploitées dès les années 1930 en Angleterre et en France dans les
systèmes de télévision respectivement à 405 lignes pour Londres et à
455 lignes pour Paris. L'avantage principal des fréquences basses
situées en VHF bande I est qu’elles favorisent une propagation plus
importante. Ce qui permet avec un seul émetteur de couvrir une surface
plus grande qu'avec d'autres gammes VHF et surtout UHF.

L’arrivée de la TNT en Europe marque l'arrêt de l’exploitation de la


bande I en 2011, car elle ne peut pas garantir une performance de
télédiffusion adaptée aux signaux numériques

- VHF bande II

Elle regroupait les fréquences comprises entre 87,5 MHz et 108 MHz.
Elles étaient réservées au plan international à la radiodiffusion
analogique mais étaient partiellement exploitées par certains pays pour
la télédiffusion analogique terrestre.

La VHF bande II était utilisée pour la diffusion de la radio en modulation


de fréquence appelée couramment « bande FM ». Certains pays
européens ont supprimé l'exploitation de la bande FM, au profit de la
norme de radiodiffusion numérique DAB+ qui exploite la bande VHF III
libérée par la télédiffusion.

- VHF bande III

C’est la bande de fréquences situées entre 174 MHz et 230 MHz ou


allant de 174 MHz à 223 MHz pour la France. Elles ont été
historiquement utilisées pour la télédiffusion analogique. Selon les pays,
elle est progressivement réaffectée à la radiodiffusion numérique
terrestre DAB ou à la télévision numérique terrestre DVB-T, notamment
en Allemagne, au Luxembourg et en Italie ou encore pour la télédiffusion
vers les récepteurs mobiles DVB-H.

- UHF bande IV

Elle renferme les fréquences de 470 MHz à 606 MHz qui sont exploitées
pour la télédiffusion analogique et numérique aux normes DVB-T, DVB-
H et DVB-C, notamment. Historiquement, elle est la première bande à
être exploitée pour la télédiffusion analogique à partir de la fin des
années 1940. Elle est associée à la « UHF bande haute » ou bande IV
dont l’adoption des fréquences à partir des années 1950, a favorisé
l'expansion de la télévision. Cela a permis d’accroitre le nombre de
chaînes possibles sur un même territoire.

- UHF bande V

Ce sont les fréquences allant de 606 MHz à 862 MHz. Elles sont
utilisées pour la diffusion de la télévision analogique et numérique (DVB-
T, DVB-H et DVB-C). Toutefois, dans de nombreux pays, la partie
supérieure de cette bande allant de 694 à 862 MHz soit les canaux 49 à
69, n'est plus allouée à la télédiffusion. C’est précisément le cas dans les
pays ayant effectué le passage au « tout-numérique » (DSO, Digital
Switch-Over) ou en transition vers la télévision numérique.

Cette bande est dès lors réallouée aux télécommunications mobiles de


4ième génération (la 4G), puis de 5ième génération (la 5G), dans le cadre
d'un plan de « dividende numérique » (digital dividend).

Cette nouvelle affectation engendre néanmoins des problèmes de


réception des signaux télévisuels de certaines stations de télévision chez
les téléspectateurs. Il s’agit notamment de ceux qui possèdent des
antennes de réception amplifiées non équipées de filtres et qui sont
situées à proximité ou orientées en direction d'une station de base
4G/LTE. En France, la résolution des gênes occasionnées est faite le
plus souvent par la pose d'un filtre approprié par les opérateurs de
téléphonie mobile.

III- Les éléments de base de la vidéo

Rappel
Le terme vidéo désigne à la fois l'ensemble des techniques permettant la
constitution d'un signal électrique représentant des images animées et la
restitution de celles-ci ainsi que ce signal lui-même.
Le signal vidéo se présente sous deux formes, le signal vidéo achrome
et le signal vidéo analogique couleur. Les principales caractéristiques de
ces signaux sont :

1- Le signal vidéo achrome

Il est composé de :
- L’information vidéo ou la luminance
- L’information de synchronisation
- La suppression
L’information vidéo ou luminance a une amplitude de 0,7V ; elle est
utilisée pour moduler directement l’énergie du spot lumineux de l’écran.
Le niveau du noir quant à lui est à 0V théoriquement.
L’information de synchronisation est représentée par une impulsion
négative de 0,3V d’amplitude ; elle est destinée à asservir le
déplacement du spot lumineux en lignes et en trames. On a donc une
synchronisation en lignes et une autre en trames.
Quant à la suppression, elle s’effectue dans le noir (dont le niveau est à
0V). Elle correspond au temps pendant lequel, l’émission du faisceau
électronique est bloquée pour effectuer le retour du spot lumineux. Ce
retour se passant en lignes et en trames on a donc une suppression
lignes et une suppression trames.

Représentation d’un signal vidéo achrome

2- Le signal vidéo analogique couleur


Le signal vidéo analogique couleur résulte de l’analyse des images
couleur suivant le principe de la synthèse additive des couleurs primaires
R,V,B. La transmission des couleurs primaires a été faite de manière à
respecter la compatibilité directe et indirecte.
Il faut rappeler que la compatibilité directe traduit la possibilité des
récepteurs N /B à recevoir un signal vidéo contenant l’information
couleur pour la traduire en une image achrome sans gêne nonobstant la
présence de la couleur.
Tandis que la compatibilité indirecte, c’est la possibilité qu’ont les
récepteurs couleur à restituer une image en Noir/Blanc (achrome) avec
le plus de détails possibles, quand ils reçoivent une information de
luminance.
L’information couleur est superposée à la luminance et transposée en
fréquence par modulation d’amplitude ou par modulation de fréquence,
suivant le système de codage couleur :
On distingue trois systèmes de codage couleur qui sont : le NTSC, le
PAL et le SECAM.
Ainsi les expressions des informations de luminance et de chrominance
qui respectent ces deux compatibilités sont de la forme :

Y= 0,3 R + 0,6 V + 0,1B ;

DR = R-Y
DB = B-Y pour la chrominance
DV = V-Y

De ces trois informations de couleur ; seules DR et DB sont transmis, DV


étant reconstituée à partir des trois autres.
De même lors de la transmission du signal vidéo couleur, une salve de
chrominance est logée sur le palier arrière de suppression ligne pour
permettre au récepteur de restituer les images couleur.
Représentation d’un signal vidéo couleur

IV Les techniques des convertisseurs


Analogique/Numérique et Numérique/Analogique

Le monde physique est par nature analogique. Il est perçu via des
signaux analogiques (son, ondes visuelles, etc.) qui peuvent être traités
par des systèmes analogiques.
Le recours au numérique permet en effet un stockage aisé de
l’information, une excellente reproductibilité des traitements, la possibilité
de développer beaucoup plus facilement des fonctionnalités complexes
avec une réduction des coûts de production….
Le passage du monde Analogique au Numérique et vice versa est
assuré par des convertisseurs Analogique/ Numérique et Numérique
/Analogique

1- Le convertisseur Analogique/Numérique
Définition

Un convertisseur analogique–numérique (CAN) ou A/N pour analogique


vers numérique ou en anglais (ADC) ou (A/D) est un dispositif
électronique permettant la conversion d’un signal analogique en un
signal numérique.
Cette conversion de l’analogique au numérique est réalisée par trois
opérations que sont :
L’échantillonnage, la quantification et le codage.

1.1- L’échantillonnage

C’est une opération qui consiste à découper un signal analogique en


tranches temporelles et à prélever ponctuellement ces valeurs
instantanées à des instants réguliers. Ces valeurs sont appelées
échantillons. Le temps entre deux échantillons ne doit pas être plus
grand que la période de la plus haute fréquence du signal original,
autrement celle-ci serait définitivement perdue.
Le signal échantillonné peut donc être considéré comme une suite de
valeurs discrètes de x(t)
L’échantillonnage ne doit pas détériorer le signal, il doit conserver le
spectre de x(t) et permettre de restituer ce spectre enfin d’opérations.

- Spectre du signal échantillonné

* Cas d’un signal sinusoïdal

Supposons que x(t) soit sinusoïdale et de fréquence f0. La fonction h(t)


étant périodique, elle est décomposable en série de Fourier sous la

forme

Le produit de la fonction x(t) de fréquence f0 par l’harmonique de rang k


de h(t) fait apparaître les deux fréquences [Link] + f0 et [Link]– f0 : en effet,
Ci-dessous, la représentation spectrale du signal échantillonné

L’opération d’échantillonnage a fait apparaître de nouvelles fréquences


par rapport à x(t) : l’opération est non linéaire.

* Cas d’un signal quelconque

Un signal réel à traiter a un spectre fréquentiel continu entre deux


valeurs extrêmes de fréquence ; sur le schéma ci-dessous les
fréquences sont comprises entre 0 (continu) et fM .

AX(f)

Le résultat en fréquence de l’échantillonnage est alors le suivant:


Xech(f)

L'échantillonnage donne alors une reproduction du spectre autour des


fréquences nFE .

Ainsi selon SHANON et NYQUIST, la fréquence d’échantillonnage doit


être au moins égale au double de la fréquence la plus élevée présente
dans le signal à échantillonner. Si le critère de SHANON et NYQUIST
n’est pas respecté, il y a repliement du spectre et sous-échantillonnage.
FE ≥ [Link] Où FE = fréquence d’échantillonnage et fM = fréquence maximale
contenue dans le signal à échantillonner.

Remarque :

· Pour la restitution musicale, l’échantillonnage se fait à 44 kHz, sachant


que l’oreille humaine est limitée en moyenne à 17kHz ; le rapport F E/fM
est alors égal à environ 2,6.
· En téléphonie, la bande passante est limitée à 3400Hz ce qui est
suffisant pour une conversation. La fréquence d’échantillonnage est de
8000Hz, soit un rapport de 2,4 environ.
· Dans chaque cas on prend donc une marge de sécurité par rapport au
filtre de restitution.
· Dans le cas où le spectre initial possède une fréquence maximale très
élevée, on est obligé de filtrer le signal avant de l’échantillonner pour le
limiter en fréquence : ceci est réalisé par un filtrage en amont et le filtre
correspondant est dit « filtre anti-repliement »
1.2- La quantification

Les tranches temporelles sont aussi appelées des « quantums » et la


quantification consiste à faire correspondre à chaque quantum un
nombre entier qui est exprimé en base 2. Si on dispose de n bits, cela
permet de coder 2n niveaux de quantification. La précision du signal
quantifié augmente en fonction du nombre de bits de quantification.
Plus les « quantums » sont petits, plus ils sont nombreux et plus la
précision du signal quantifié sera grande.
Mathématiquement, le quantum ou pas de quantification noté « q » est
donné par la formule :

q = Vmax / (2n -1 ) où
Vmax = tension maximale du signal à convertir
n = nombre de bits utilisés.

La valeur exacte des différents échantillons n'est pas utilisée, on se


contente des arrondis. Chaque échantillon a une échelle de 2n valeurs.
L'erreur systématique que l'on commet en arrondissant la valeur réelle
de l'échantillon au niveau de la quantification la plus proche est appelée
bruit de quantification. Ce bruit de quantification est déterminé par la
formule ci-après :

Exemple d’application :
Un signal sinusoïdal ayant une amplitude de 1V doit être quantifié avec
un rapport signal sur bruit (S/B) = 50dB.
1. Combien faut-il d'intervalles de quantification ?
2. Combien de bits
faut-il pour coder chaque échantillon ?

1.3- Le codage

Il emploie des codes numériques qui décrivent les méthodes par


lesquelles les données binaires sont représentées sur le canal de
transmission. Chaque code a pour but de modifier d’une manière
particulière le flux d’informations afin d’optimiser son stockage ou sa
transmission.

Exemple de codes numériques :

Le code NRZ ou Non-Retour à Zéro


Dans ce code un « 1 » engendre un niveau haut et un « 0 « un niveau
bas.

Le code NRZI ou Non-Retour à Zéro Inversé


A ce niveau un « 1 « engendre une transition à la 1/2 période d’horloge
et un « 0 « n’engendre rien.

Le code Biphase Mark


C’est un code dans lequel un « 0 » provoque une transition et un
maintien pendant toute la période d’horloge et un « 1 » provoque une
transition et un changement de niveau à la 1/2 période d’horloge.

Le code Miller
Dans ce type de code un « 1 » provoque une transition et un
basculement à la 1/2 période d’horloge. Un « 0 » ne provoque rien s’il est
isolé, mais il y a transition entre deux « 0 ».
D’autres codes, plus puissants et plus complexes tels que le Eight to
fourteen Modulation ou le Eight to Nineteen Modulation sont utilisés
dans les DVD, les CD ou dans certains magnétoscopes.

2- Technique des convertisseurs Analogique - Numérique

Il existe plusieurs types de convertisseurs Analogique-Numérique, mais


les plus connus sont : les convertisseurs Flash, les convertisseurs à
approximations successives (SAR), les convertisseurs Delta-sigma et les
convertisseurs en cascade.

2.1- Les convertisseurs Analogique-Numérique Flash

Leur principe de fonctionnement, est de générer une tension analogique


à l’aide d’un diviseur de tension qui alimente un comparateur parallèle.
Des blocs logiques combinatoires connectés à ces comparateurs
fournissent des résultats codés en parallèle sur n bits. Le temps de
conversion du convertisseur flash est inférieur à la microseconde faisant
d’eux les convertisseurs les plus rapides. En revanche leur précision est
très faible (de l’ordre de la dizaine de bits). Ces convertisseurs sont
souvent très coûteux et leur fonctionnement nécessite beaucoup de
puissance.

2.2- Convertisseur Analogique-Numérique à approximations


successives : SAR

Dans le cas des convertisseurs Analogique-Numérique SAR, il existe


plusieurs circuits de maintien qui prennent en charge l’entrée
analogique. Il y a ensuite un comparateur qui compare la tension
d’entrée analogique avec le convertisseur Numérique-Analogique
interne. Il existe également un registre de comparaison séquentielle
(SAR) qui reçoit des entrées sous la forme d’impulsions d’horloge et de
données de comparateur.

Ce type de convertisseur est principalement initialisé pour rendre la


logique MSB (bit le plus significatif) haute ou 1. Ce code est fourni à un
convertisseur Numérique-Analogique qui donne l’équivalent analogique
d’un circuit comparateur pour un signal d’entrée analogique
échantillonné. Si la tension est supérieure à la tension d’entrée, le
comparateur réinitialise les bits. Sinon, les bits restent les mêmes.
L’ensemble du processus est ensuite répété jusqu’à ce que le bit suivant
soit défini sur un bit numérique et que chaque bit d’un registre
d’approximation contigu soit testé. La sortie finale est une version
numérique du signal d’entrée analogique.

D’une manière générale, on trouve deux types de convertisseurs


Analogique-Numérique à approximations successives. L’un à type de
compteur et l’autre à type de servo-suiveur. Ces deux variantes de
convertisseurs SAR fournissent des résultats encore plus précis que les
autres types de convertisseurs Analogique-Numérique.

2.3- Le convertisseur Delta / sigma (ΔΣ)

Il utilise la technologie DSP pour améliorer la résolution de l’axe


d’amplitude et réduire le bruit de quantification à haute fréquence
inhérent aux conceptions SAR.

De conception complexe et puissante, il est idéal pour les applications


dynamiques qui nécessitent la résolution la plus élevée possible pour
l’amplitude du signal. C’est ainsi, qu’il est couramment employé dans les
domaines de la mesure de l’audio, du bruit et des vibrations, mais
également dans une variété de systèmes d’acquisition de données haut
de gamme. Il est également utilisé dans les applications de mesure de
précision industrielle.

Le filtre passe-bas monté sur le DSP élimine pratiquement le bruit de


quantification et fournit un bon rapport signal sur bruit.
Le convertisseur Delta-sigma fonctionne en sur-échantillonnant le signal
d’entrée à un taux beaucoup plus élevé que le taux d’échantillonnage
préalablement choisi. À partir de ces données sur-échantillonnées, le
DSP crée ensuite un flux de données haute résolution à la fréquence
d’images souhaitée.
Cette approche a l’avantage de produire un flux de données de très
haute résolution (celle à 24 bits est presque courant pour ce type de
convertisseur). Cependant, les convertisseurs delta-sigma ne sont pas
aussi rapides que les convertisseurs SAR car leur vitesse d’acquisition
est limitée.

2.4- Convertisseur en cascade

Ils sont utilisés pour des applications qui nécessitent des taux
d’échantillonnage plus élevés que ceux que ne peuvent fournir les
convertisseurs SAR et Delta Sigma., mais qui ne nécessitent pas
l’emploie de convertisseurs Analogique-Numérique flashs ultra-rapides.

En effet, les convertisseurs flash manquent de latence car tous les


comparateurs sont verrouillés en même temps. Ce qui nécessite
beaucoup de puissance surtout lorsque vous utilisez plus de
comparateurs pour obtenir une résolution de bits plus élevée. Ce qui
n’est pas le cas dans le convertisseur en série où le signal analogique
n’est pas bloqué par tous les comparateurs en même temps. De sorte
que l’énergie nécessaire pour convertir la valeur analogique en une
valeur numérique est distribuée. Par conséquent, les comparateurs sont
enchaînés dans un processus quasi-série de 23 cycles. Cela a
l’avantage de fournir une résolution élevée sans utiliser beaucoup
d’énergie. Toutes fois, cela présente deux inconvénients. La fréquence
d’échantillonnage n’est pas aussi élevée que celle du convertisseur flash
uniquement et leur temps de latence est beaucoup plus élevé que celui
du flash qui est inférieure à la microseconde. Toutefois, ce temps de
latence peut être réduit sans être complètement éliminé.

Remarque
Il y a d’autres types de convertisseurs Analogique–Numérique tels que
les convertisseurs à double pente et aussi les convertisseurs en pipeline.
Cependant, tous ont des applications communes allant de 23 MS/s à
100 MS/s parfois même à 1 GS/s. La technologie Flash est
généralement utilisée pour des taux d’échantillonnage plus élevés. La
résolution d’un convertisseur Analogique-Numérique série peut atteindre
16 bits avec un taux d’échantillonnage le plus bas, mais est
généralement de 8 bits au taux d’échantillonnage le plus élevé. Quel que
soit le type de convertisseur Analogique-Numérique que vous choisirez,
il y a un compromis à faire entre vitesse et résolution.

2.5- Critères de choix d’un convertisseur analogique-numérique

Le choix d’un convertisseur Analogique–Numérique repose sur les


critères ci-dessous :

- Sa résolution
C'est le nombre N de bits de sortie du Convertisseur Analogique-
Numérique (CAN). Par exemple on parle d'un CAN 8 bits ou 14 bits.
Cette valeur définit le nombre de codes différents possible en sortie. Un
CAN 10 bits permet d'obtenir 1024 codes de sortie différents.

- Sa vitesse
Elle représente le temps de conversion c’est-à-dire le temps nécessaire
au composant pour déterminer la valeur numérique correspondant à la
valeur de la tension présente en entrée. Elle dépend fortement de la
technique de conversion employée.

- Sa précision
La précision est définie en nombre de LSB d'erreur. Le LSB (Less
Significatif Bit) correspond à la valeur analogique « quantum ». Elle peut
avoir plusieurs causes : non linéarité, erreur de gain, erreur de décalage.

En rappel :

On appelle quantum, noté « q » la plus grande valeur de variation de la


tension d'entrée qui ne fait pas changer le code de sortie. Il est défini
mathématiquement par la relation :

q = Vref/2n -1 où Vref représente la tension de référence du


convertisseur.
On exprime parfois q par la relation suivante :
q = VP/2n -1 où VP représente la tension pleine échelle du convertisseur
3- Le convertisseur Numérique/Analogique

3.1- Définition
Un convertisseur numérique-analogique (CNA) ou N/A pour numérique
vers analogique ou, en anglais (DAC) ou D/A pour Digital to Analog
Converter est un composant électronique dont la fonction est de
transformer une valeur numérique codée sur plusieurs bits en une valeur
analogique proportionnelle à la valeur numérique codée.

3.2-Technique des convertisseurs numérique-analogique

Plusieurs méthodes existent pour créer un signal analogique à partir d'un


système numérique. Elles se divisent en deux catégories. Celles à sortie
pseudo analogique où le signal en sortie contient le message analogique
et d'autres signaux puis celles à sortie purement analogique. Dans ce
dernier cas, on utilise généralement des convertisseurs à réseau de
résistances.

- Celles à sortie pseudo analogique

Elles utilisent le principe de la modulation de largeur d'impulsion (MLI, ou


PWM en anglais) qui permet de créer un signal d'horloge dont le rapport
cyclique est variable et proportionnel à la valeur codée. A l’aide d’un filtre
passe-bas, on extrait la moyenne de ce signal qui va donner une valeur
analogique proportionnelle à ce rapport cyclique.

- Celles à sortie analogique

La conversion analogique à réseau de résistances ou échelle de


résistances repose sur le principe de la division des tensions (pont
diviseur pour le réseau unaire) ou de division des courants (réseau
R/2R). Dans chaque cas un étage d'adaptation d'impédance suit le
montage résistif pour qu'une charge en sortie ne perturbe pas la
conversion.

Le principe est de créer une valeur analogique en pondérant le poids de


chaque bit d'information, selon la formule :

n
Vout = [Link]∑ (2n-i. an-i)
i=1

Avec :

 Vref = maximum de la conversion

 k = rapport de proportionnalité

 n = nombre de bits du convertisseur

 an = valeur du bit

 n (1 ou 0)

On peut utiliser différents réseaux à savoir :

- Le réseau unaire
On utilise une seule valeur de résistance et autant de résistances
qu'il y a de valeurs de sortie possibles, montées en pont diviseur.
Cette méthode assure une parfaite monotonicité de la valeur de
sortie mais n'est intéressante que pour les petits nombres de bits,
car elle requiert un nombre exponentiel de résistances et de
commutateurs (2n-1) ;
- Le réseau binaire
On utilise des résistances de différentes valeurs, la valeur de
chaque résistance correspond au poids binaire de chaque bit.
Cette méthode requiert une grande précision sur la valeur des
résistances des bits de poids fort (MSB), surtout si le nombre de
bits est important.

- Le réseau R-2R
On réalise une échelle avec un faible nombre de valeurs de
résistances. Cette méthode est plus adaptée à la fabrication sur
silicium.
On peut également associer les différentes méthodes afin d'obtenir
une précision correcte sans impliquer de ressources trop
importantes. Dans ce cas, on code les bits de poids fort avec un
réseau de résistances unaire et les bits de poids faible avec un
réseau de résistances binaire.
Type de convertisseur numérique-analogique 3 bits à réseau unaire
Type de convertisseur numérique-analogique 3 bits à réseau binaire

Type de convertisseur numérique-analogique 3 bits à réseau R-2R


Chapitre III. La numérisation audio et vidéo

1- Les principes de la numérisation


La numérisation est la conversion des informations d'un support (texte,
image, audio, vidéo) ou d'un signal électrique en données numériques
que des dispositifs informatiques ou d'électronique numérique pourront
traiter.

1.1- Les avantages de la numérisation


Lorsque le signal analogique d’entrée est converti en un signal
numérique, son équivalent binaire présente une très faible sensibilité aux
perturbations. Puisqu’il ne s’agit uniquement que des « 0 » et des «1 », il
peut être corrigé en un point quelconque du traitement et libéré de toute
altération ayant pu survenir entre temps.
La numérisation du signal facilite son traitement (stockage, duplication,
compression, transmission avec moins de perte…). Elle facilite
également le mélange des signaux de différentes natures sur un même
support de transmission

1.2- Les inconvénients de la numérisation


La reconstitution du signal analogique avec une fidélité suffisante
nécessite au préalable l’utilisation d’une fréquence d’échantillonnage
élevée avec un nombre important de bits de quantification. Ce qui
entraine l’adoption de largeur de bande assez importante et l’utilisation
des circuits complexes.

2- La numérisation audio
Le signal audio analogique est un signal qui varie de façon continue au
cours du temps. Tandis que le signal audio numérique est un signal qui
varie de façon discrète dans le temps. On dit qu'il est quantifié, c'est à
dire qu’il est transformé en une succession de « 0 » et de « 1 », appelés
bits.
La numérisation du signal audio répond au principe général du passage
de l’analogique au numérique que sont : l'échantillonnage, la
quantification et le codage. (Voir chapitre II sur échantillonnage-
quantification et codage)
En rappel le signal numérique ne sert qu'au transport, au stockage et au
traitement des données.

- Réduction du débit G711, G729

Le G711 est une norme de compression audio de l'Union Internationale


des Télécommunications qui définit les codages de type MIC.

Il se caractérise par :

 La fréquence d’échantillonnage du signal qui est de 8 KHz pour


une bande passante téléphonique de 300Hz–3 400Hz
 Le débit sur la bande passante du réseau qui est de 64 Kbits/s
 Le type de codage utilisé qui est le MIC (Modulation par impulsions
et codage ou PCM en anglais)

Le G711 fournit une voix de haute qualité non compressée, mais utilise
beaucoup de bande passante.

Il existe deux versions de G711 appelées loi μ et loi A. La loi A est


utilisée dans la plupart des pays du monde, tandis que la loi μ est
principalement utilisée en Amérique du Nord.

Le G729 est aussi une norme de compression audio de l'Union


Internationale des Télécommunications qui définit un codage de la
parole avec un débit de 8 Kbits/s à l'aide de la prédiction linéaire excitée
par code de structure conjuguée. Il utilise 8000 échantillons par seconde
avec un MIC linéaire à 16 bits comme méthode de codage.

Tout comme le G711 ; le G729 a les caractéristiques ci-dessous :

 Une fréquence d’échantillonnage du signal qui est de 8 KHz


 Un débit sur le réseau qui est de 8 Kbits/s
 Un MIC linéaire comme type de codage utilisé
Le G729 est compressé de sorte qu'il utilise moins de bande passante
mais parfois au détriment d'une qualité sonore acceptable.

- Le MIC

La modulation par impulsions et codage ou MIC en français et PCM en


anglais, est une représentation numérique d'un signal électrique
résultant d'un processus de numérisation. Le signal est d'abord
échantillonné, puis chaque échantillon est quantifié indépendamment
des autres échantillons. Chacune des valeurs quantifiées est convertie
en un code numérique. Les différents échantillons sont traités
indépendamment et sans compression de données. Les données audio
en modulation par impulsions et codage sont des fragments multiplexés
échantillon par échantillon.

En résumé on dira que, le G711 et le G729 sont des méthodes de


codage de la voix qui sont spécialisées et utilisées sur les réseaux de
télécommunication. Le G729 fonctionne à un débit de données 8 fois
inférieur à celui du G711 tout en conservant une qualité vocale
avoisinante. Il utilise des algorithmes complexes très élevés, ce qui
conduit à une puissance de traitement plus élevée au niveau des unités
de codage et de décodage.

- Le codage par transformé MPEG audio

Les signaux audio, grâce notamment aux progrès de la téléphonie, ont


été les premiers signaux (excepté les domaines scientifique et
technique) à bénéficier de la numérisation.

Compresser un fichier c'est réduire sa taille, afin de pouvoir le stocker


et/ou le transporter.
Il existe deux types de compression : la compression sans perte et la
compression avec perte.
Le choix du type de compression doit tenir compte du fichier à
comprimer : un fichier texte sera comprimé sans perte alors qu'une
image pourra être comprimée avec perte. Il faut également tenir compte
du taux de compression qui influencera, la qualité et la vitesse
de compression et de décompression.

Le codage audio s’effectue avec des encodeurs qui peuvent être


intégrés aux systèmes d’exploitation sous forme de codecs qui sont des
logiciels. Le mot codec est un terme dérivé de l’appellation anglaise
« code – decode » et qui veut dire codeur –décodeur en français.

Ces codecs constituent des supports pour des procédés très spécifiques
permettant le codage des données audio afin de réduire l’espace de
stockage nécessaire.

S’il est vrai que les codecs sous forme de logiciels utilisent
exclusivement les ressources du processeur de l’ordinateur, les codecs
matériels nettement plus rapides disposent quant à eux de puces
spéciales réservées à la conversion des données.

Les codecs sont repartis en deux catégories correspondantes à un


fonctionnement symétrique ou asymétrique.

Les codecs symétriques nécessitent à peu près le même temps pour


l’encodage et le décodage. Les deux procédés à savoir l’enregistrement
et la lecture peuvent être effectués en temps réel et le processus est
appelé « encodage en temps réel »

Les codecs asymétriques permettent un encodage plus efficace,


produisent des fichiers nettement plus petits que les codecs symétriques,
mais nécessitent plus de temps. Ce processus est appelé « encodage
en différé »

Les codecs prennent également en charge le décodage des supports


convertis, encodés, compressés.

L’intégration d’un codec a généralement lieu par le biais d’une interface


(l’émulation d’un lecteur compatible avec le procédé de codage du
fichier), mais il arrive aussi qu’un codec soit déjà fourni avec le lecteur.
Ainsi le lecteur Winap, qui était à l’origine réservé à la diffusion des
fichiers MP3, accepte actuellement divers formats, grâce aux plug-ins et
même le DivX.

Le codec MP3, abréviation de MPEG-1 Layer3, a été introduit sur le


marché en guise de procédé de compression à plusieurs niveaux de
qualité pour la réduction des débits des fichiers audio Wave (Windows)
et AIFF (Macintosh)

Grace à ces codecs on peut comprimer un fichier audio de 50 Mo


(correspondant à 5mn de musique) en un fichier MP3 de seulement 5Mo,
tout en conservant une qualité sonore proche de celle d’un CD
Dans ce cas le facteur de compression utilisé est de 128 Kbits/s.

Lecture des fichiers MP3

Pour lire des fichiers MP3, l’ordinateur doit être équipé d’un lecteur avec
un logiciel compatible. Un grand nombre de ces utilitaires prévoit la prise
en charge MP3. Nous avons par exemple le lecteur Windows Media,
Winamp… En dehors de la plateforme des données de l’ordinateur, il
faut disposer d’un lecteur compatible avec MP3.

Exemple de calcul de la taille d'un fichier audio non compressé

Il est simple de calculer la taille d'une séquence sonore non compressée


en connaissant le nombre d'échantillons par seconde (fréquence
d'échantillonnage), la résolution (nombre de bits sur lequel est codé un
échantillon), le temps de la séquence (en seconde) et le nombre de
voies utilisées.
Sachant que la formule pour calculer la Taille du fichier est :

Taille (octet) = Fréquence d'échantillonnage (Hz) × Résolution (octet)


× Durée (seconde) × Nombre de voies

Exemple d’application :
Calculez la taille d'une minute d'audio de qualité CD au format WAV non
compressé avec les données suivantes : 44 100 Hz, 16 bits et en stéréo
(2 voies).

3-Techniques de compression vidéo


Les méthodes de compression exploitent des propriétés, comme la
redondance spatiale interne à une image, la corrélation entre les points
voisins, la moindre sensibilité de l’œil aux détails fins (pour les images
fixes de type JPEG ainsi que pour les images animées du genre MPEG)
et la redondance temporelle entre images successives. La compression
vidéo exploite les méthodes de réduction des débits.

3.1- Principe de la réduction des débits


Les méthodes de réduction du débit numérique (BRR : Bit Rate
Reduction en anglais) sont aujourd’hui fondamentales dès lors qu’il y a
transmission ou stockage d’information. On utilise souvent pour les
désigner, le terme moins précis, de compression.
La règle de base est de respecter autant que faire se peut l’information
tout en réduisant l’encombrement du message.
Il faut être conscient que la mise en œuvre d’algorithmes de réduction de
débit entraîne inévitablement un décalage temporel qui peut devenir
gênant voire rédhibitoire dans certaines utilisations « en temps réel ».

Le taux de compression s’exprime :


 Soit par le rapport entre le volume initial des données et le volume
après réduction ; si ce volume est deux fois plus faible alors on
écrira qu’il s’agit d’un taux de 2:1 ;
 Soit en pourcentage du volume après réduction par rapport au
volume initial ; si le volume final représente la moitié du volume
initial on écrira qu’il s’agit d’un taux de 50 %.
On regroupe ces méthodes en deux catégories : les méthodes sans
pertes (lossless), dites aussi transparentes, qui ne détruisent aucune
information ; les méthodes avec pertes (loss) qui font disparaître une
partie de l’information. On souhaite que ces dernières soient «
virtuellement transparentes », c’est-à-dire que le récepteur ne perçoive
pas la déperdition d’information.

3.2- La DCT, quantification et balayage en zig-zag


La transformée en cosinus discrète (DCT – Discrete Cosine
Transform) représente un cas particulier appliqué aux signaux
discrets (échantillonnés), de la transformée de Fourier, lui –
même décomposant un signal périodique en une série de
fonctions sinus et cosinus harmoniques.
La DCT décompose le signal utile en une série de fonctions
uniquement cosinus harmoniques en phase avec le signal
d’origine. Cela réduit de moitié le nombre de coefficients
nécessaires par rapport à une transformée de Fourier classique.
Dans le cas d’une image, nous traitons un signal échantillonné
bidimensionnel et nous aurons affaire à une DCT en deux
dimensions (horizontale et verticale), qui transforme les valeurs
du signal de luminance (ou de celui de chrominance).
Pour cela, le champ d’image est découpé en blocs de NxN pixels. Par la
reconversion, chacun des blocs de NxN pixels est transformé en NxN
coefficients, correspondants à l’amplitude de chacune des fonctions
cosinus harmoniques.
Dans le bloc transformé, les coefficients des fréquences horizontales
croissantes vont de gauche à droite sur l’axe horizontal. Les
coefficients des fréquences verticales croissantes vont de haut en
bas, sur l’axe vertical.
Pour réduire la complexité et le temps nécessaire au traitement des
signaux, il a été adopté le découpage en blocs de 8x8pixels (voir figure
ci – dessous).

La figure de droite montre la subdivision de l’image en blocs de 8


pixelsx8 pixels, ce qui constituera un seul nouvel élément d’image

Découpage en blocs de 8x8 : chaque valeur représente


l’intensité lumineuse d’un pixel.
En outre, chaque pixel d’un bloc de 8x8 pixels est supposé contenir
le même échantillon d’image. C’est sur cette hypothèse que se
justifie le traitement commun à soumettre aux éléments du bloc.
Donc, la DCT transforme en une matrice de 8x8 coefficients dont le
premier (en haut à gauche) de coordonnées (0,0) affiche la
composante continue (DC). Cette composante DC représente
l’intensité moyenne du bloc considéré. La case d’en bas à droite
représente la composante de fréquence spatiale la plus élevée.,
suivant les deux axes. Cela est illustré sur la figure ci – dessous.

Transformation du bloc de 8x8 pixels en matrice de 8x8


coefficients

La figure suivante montre de façon visuelle, la contribution de chacun


des coefficients sur l’aspect du bloc de 8x8 pixels d’origine.
L’aspect du bloc peut être obtenu en pondérant chacune de ses
cases par son coefficient, et en additionnant l’ensemble.
Les coefficients de fréquences croissantes diminuent en général
assez rapidement en fonction de ces dernières. Cela s’explique par
la moindre énergie des fréquences spatiales élevées, dans les
images naturelles.
Quelques avantages exploitables de la DCT :
La remarquable propriété de concentrer l’énergie du bloc sur peu de
coefficients, situés ici dans l’angle supérieur gauche.
Les coefficients sont codés avec une précision de plus en plus faible
quand la fréquence augmente. Ce qui permet une réduction
supplémentaire de la quantité d’informations nécessaires à coder un
bloc.
Jusqu’à cette étape–ci, le traitement effectué par la simple
transformée DCT demeure réversible (sans pertes). Autrement dit,
on peut reconstituer l’original à partir du modèle de la transformée.

Exploitation des particularités psycho-physiologiques de la vision


humaine : En effet, l’œil est moins sensible aux fréquences
spatiales et aux fréquences temporelles élevées. Dans le cas
présent, on l’applique aux fréquences spatiales, concernées par la
DCT.
Illustration de la contribution de chacun des coefficients sur
l’aspect du bloc.

C’est ainsi que les valeurs inférieures à un seuil donné sont peu ou non
visibles, ce qui nous permet de les remplacer par zéro, d’où une
réduction du volume.
Cependant, nous enregistrons ici une certaine perte d’informations, mais
ayant peu d’incidence. Le processus est ici non réversible, contrairement
au premier cas.
Quantification à pas variable en fonction de la fréquence : C’est
une possibilité supplémentaire, permettant de quantifier les
coefficients avec une précision de plus en plus faible, lorsque la
fréquence augmente. C’est une exploitation indirecte de la
propriété humaine décrite ci – dessus. En effet, l’augmentation du
pas de quantification en fonction des fréquences contribue à une
atténuation supplémentaire plus rapide de la quantité d’information
nécessaire à coder un bloc donné. Nous assistons à une perte
supplémentaire (non réversibilité), mais bien tolérable par le
système psycho - physiologique humain. Un exemple de résultat
de seuillage/quantification est illustré sur la figure ci – dessous.

Résultat du processus : seuillage + quantification

On obtient une suite de coefficients qu’on lit en balayant en zigzag la


matrice, comme l’indique la figure ci– dessous.
Principe du balayage en balayage en zigzag

Ce type de balayage, permet d’obtenir plus rapidement des suites


relativement longues de coefficients nuls. Ce qui va augmenter
encore l’efficacité des traitements ultérieurs comme dans le cas des
codages RLC, VLC et autres.

3.3- Compression d’images fixes (JPEG)


La compression JPEG peut être avec ou sans pertes selon le but et
le taux de compression recherchés. La compression JPEG se
décompose selon les étapes ci-après :

Etape 1- Décomposition en blocs


L’image d’origine sous forme Y Cb Cr est décomposée en blocs
élémentaires de 8x8 pixels. Pour une image au format CCIR 601 de
720 x 576, cela correspond à un total de 6 480 blocs de luminance Y
et 3 240 blocs pour chacune des composantes Cb et Cr.
En négligeant les pertes occasionnées par les retours de scan, on
pourrait considérer que le total de 720 x 576 pixels, soit 414 720
pixels sont, suivant un format de [Link], divisés en: blocs de 8x8
pixels de luminance, soit un total de 6 480 blocs pleins de luminance,
et 3 240 blocs entiers pour chaque chrominance Cb et Cr.
Chacun de ces blocs forme une matrice de 64 nombres de 0 à 255
niveaux, ce qui correspond à une numérisation sur 8 bits.
Ces niveaux sont organisés sous forme de 0 à 255 pour la
luminance, et de -128 à +127 pour les composantes Cb et Cr.

Etape 2 - Transformation DCT


Nous avons décrit dans les paragraphes précédents
comment s’effectue la transformation DCT, avec illustration
par des schémas. A titre d’exemple, soulignons juste, que
si un bloc est de luminance et de chrominance uniforme,
seul le premier coefficient ne sera pas nul. Nous aurons
donc un seul coefficient.
La valeur des coefficients diminue rapidement en s’éloignant de
l’origine de la matrice, qui se termine le plus souvent par une série
de zéros.

Etape 3. Seuillage et quantification :


Cette étape tient compte des particularités de la perception humaine.
En effet, l’œil ne distingue pas les détails fins au-dessous d’un
certain niveau de luminance.
La technique consiste à mettre à zéro les coefficients inférieurs à une
valeur définie, et à coder ensuite les coefficients restants avec une
précision décroissante quand la fréquence augmente.
Si l’œil est peu sensible aux détails fins, il demeure très sensible aux
faibles différences de luminance sur les plages uniformes ou larges.
Sur la base de ces propriétés du système oculaire humain, le
coefficient de fréquence nulle (DC) est codé en DPCM (Differential
Pulse Code Modulation), par rapport au bloc précédent. Cela permet
d’augmenter la précision de la quantification, pour un nombre de bits
donnés. Du coup, cela minimise la visibilité des blocs sur l’image
reconstituée.
Etape 4. Lecture en zigzag :
A l’exception du coefficient DC traité séparément, les 63 coefficients
AC sont lus en zigzag, pour transformer la matrice en un flot de
données série, adaptées aux codages RLC et VLC.

Etape 5. Codage entropique : RLC (Run Length


Coding), VLC (Variable Length Coding), Codage
Huffman :

- Principe du RLC :
Lorsqu’une source d’information émet des éléments de message
pouvant comporter des suites relativement longues d’éléments
identiques (cas de la transformée par DCT), il est indiqué de coder le
couple valeur/nombre de répétitions plutôt que chaque élément pris
individuellement. Ce qui donne un facteur de réduction de débit plus
important que la suite est longue.
Ce type de codage est adapté ici, grâce notamment aux nombreux
coefficients nuls fournis par la quantification, et la lecture en zigzag.

- Principe du VLC :
Il exploite la redondance entre éléments successifs (des pixels d’une
image ou des chiffres d’un tableau ou des lettres d’un texte). Etant
donné que certaines combinaisons de pixels sont plus fréquentes que
d'autres, on choisit d’étudier leur fréquence d'apparition dans l’image et
de leur attribuer des codes dont la longueur est inversement
proportionnelle à leur fréquence d’apparition dans l’image.
On a donc intérêt à coder sur moins de bits les éléments d’apparition
fréquente et sur plus de bits les éléments les plus rares. Ce qui permet
d’obtenir une longueur moyenne inférieure à la longueur fixe, donnant
ainsi une réduction de débit.

Exemple :
Soit la suite des nombres suivants : 2 1 1 1 5 0 0 0 0 1 4 4 4 4
On pourra l’écrire de la manière suivante : 2 ; 3 × 1 ; 5 ; 4 × 0 ; 1 ; 4 × 4
C’est une astuce de codage simple, mais souvent peu efficace.
Remarque :
Ces deux types de codage réunis (RLC + VLC) permettent à eux
seuls d’obtenir un facteur de compression de 2 à 3.

- Principe du codage Huffman :


La notion d’entropie caractérise la probabilité d’occurrence d’un élément
d’un message ou d’un état d’un système.
Dans le codage de Huffman, on commence par faire des statistiques de
la fréquence d’apparition de chacun des éléments. Ils sont classés dans
l’ordre décroissant de probabilité d’occurrence.

Arborescence d’un codage de Huffman

Par exemple la fréquence d’apparition des différentes lettres de


l’alphabet dans une langue donnée est connue, ce qui permet
d’utiliser ce type de codage pour la compression des textes.
Le cas des images vidéo transformées par DCT se prête bien à ce
codage en raison de la concentration de l’information sur peu de
coefficients, à l’inverse de la forme temporelle du signal vidéo dont
tous les échantillons ont des valeurs équiprobables.
On démontre que la quantité d’informations Q (en bits) transmises
par un élément est égale au logarithme (en base 2) de l’inverse de
sa probabilité d’apparition p.

Q = log2(1/p) = -log2 (p)


On appelle entropie H d’une source d’information (exprimée en bits
par message), la somme des produits de la quantité d’information de
chaque message par sa probabilité d’apparition.

n
H = ∑ pi log2 (1/pi )
i

Le but du codage de Huffman est de s’approcher le plus possible du


débit entropique (nombre de bits par élément aussi proche que
possible de l’entropie de la source).
Il consiste à céder les coefficients avec une longueur d’autant plus
courte qu’ils sont plus fréquents statistiquement.

3.4- Compression d’images animées (MPEG)


Le codage vidéo MPEG utilise les mêmes principes que le JPEG
c’est à dire avec ou sans pertes d’informations, auxquels s’ajoutent
des nouvelles techniques formant l’ensemble MPEG-1 et permettant
de réduire la quantité d’informations nécessaires à la transmission
d’images successives.

Ces nouvelles techniques sont appelées « prédiction avec


compensation de mouvement »
La réalisation pratique du codeur est un compromis entre rapidité,
taux de compression et qualité.

- Les types d’images MPEG sont :


* Les images I (Intra) :
Ce sont des images codées sans aucune référence à d’autres
images comme en JPEG. Elles renferment tous les éléments
nécessaires à leur reconstruction par le décodeur. Le taux de
compression des images I est relativement faible
* Les images de type P (Prédites) :
Elles sont codées par rapport à l’image de type I ou P précédente,
grâce aux techniques de prédiction avec compensation de
mouvement. Le taux de compression est beaucoup plus important
que celui des images de type I.
* Les images de type B (Bidirectionnelles) :
Elles sont codées par interpolation entre les deux images de type I
ou P précédentes et suivantes qui les encadrent. Ce type d’images
offre le taux de compression le plus fort.
Deux paramètres M et N définissent la manière dont les images I, P
et B s’enchainent :
M → nombre d’images entre deux images P (Prédites successives)
N → nombre d’images entre deux images I (Intra) successives
Pour atteindre un débit de 1,15 Mb/s avec une qualité satisfaisante,
les paramètres les plus couramment utilisés sont M = 3 et N = 12

- Décomposition en couches d’une séquence vidéo MPEG


* Séquence – C’est la couche la plus élevée, elle détermine le
contexte dans lequel cette séquence est définie (paramètres vidéo
de base).

* Groupe d’images – C’est la couche permettant l’accès aléatoire à


la séquence avec une première image de type I.
Exemple : 12 images (1x I, 3XP, et 8XB)

* Images de type I, P ou B – C’est la couche d’affichage élémentaire

* Tranche – C’est la couche permettant l’adressage à l’intérieur de


l’image ainsi que la synchronisation. Elle est définie en pratique
comme une suite de macros blocs contigus. Il s’agit le plus souvent
d’une rangée horizontale complète de macros blocs

* Macro bloc – De taille 16x16 pixels, il comprend 4 blocs de


luminance et 2 blocs de chrominance dont 1xCr et 1xCb chacun de
8x8 pixels. C’est la couche où s’effectue la prédiction avec
compensation de mouvement.
* Bloc – De taille 8x8 pixels, c’est la couche où s’effectue la DCT

3.5- Estimation et compensation de mouvement

L’estimation de mouvement consiste à trouver un vecteur assurant la


correspondance entre une zone d’arrivée sur la deuxième image et
une zone de départ sur la première.
Cette recherche se fait au niveau du macro bloc (16x16 pixels) en
déplaçant, à l’intérieur d’une fenêtre de recherche, un macro bloc de
l’image en cours au voisinage de cette position dans l’image
précédente de manière à trouver le plus ressemblant. Ce qui donne
un vecteur de mouvement, qui s’appliquera à toutes les
composantes du macro bloc (Y, Cr ,Cb).
Seuls les macro blocs qui diffèrent d’une image à l’autre auront
besoin d’être codés.

Cette compensation se fait entre une image P et une image I ou


entre deux images P, les vecteurs de mouvement peuvent être
d’amplitude relativement importante.

Pour les images B, les vecteurs intermédiaires sont obtenus par une
interpolation qui tient compte de leur position temporelle entre les
images I et/ou P.

La taille moyenne des objets étant supérieure au macro bloc, il y a


généralement corrélation entre les vecteurs de mouvement associés
à deux macro blocs contigus, d’où l’intérêt d’utiliser une méthode de
codage différentielle (DPCM) avec codage entropique pour
transmettre ces vecteurs.
Si pour un bloc donné, la compensation de mouvement n’a pas
donné de résultat exploitable, le bloc est alors codé en Intra (sans
référence à d’autres images).

Fin du cours sur le module Bases Théoriques Audio et Vidéo

Vous aimerez peut-être aussi