Chapitre Ii
Chapitre Ii
I - INTRODUCTION
Les signaux tels que nous les percevons sont analogiques, c’est-à-dire qu’il n’est pas
possible de déceler une discontinuité. De la même manière que l’aiguille d’un compteur
kilométrique évolue d’une position vers une autre, les sons arrivent à notre oreille en continu.
Les applications multimédia mettent en jeu plusieurs types de signaux : texte, graphique,
audio, image et vidéo ; il nous faut retourner à la physique des signaux sons et images pour
comprendre la technologie multimédia.
II - SON
Le son est une onde qui se propage dans l’air et qui est perceptible grâce au détecteur
de pression qu’est le tympan, logé dans l’oreille. Ces vibrations sont ensuite converties en
signaux transmis au cerveau par le nerf auditif.
Le son est le résultat d’une onde de pression qui voyage dans l’air, agite les molécules d’air et
se réfléchit sur les obstacles qu’elle rencontre. Le tympan capte ces ondes qui sont in fine
traduites en signaux électriques, comme le fait la membrane d’un micro.
La figure 2.1 montre le relevé d’un son à l’oscilloscope. L’axe vertical représente l’écart
d’une membrane (ou une mesure physique équivalente comme une tension électrique) par
rapport à une position centrale en fonction du temps (axe horizontal).
1
Le son est une notion tellement complexe qu’il faut plusieurs paramètres pour le
décrire. Le phénomène physique du son peut être étudié de manière quantitative et les
propriétés de l’onde acoustique peuvent être exprimées sous la forme de grandeurs objectives.
Tels que : hauteur tonale, intensité, timbre et durée. Ces quatre paramètres suffisent à décrire
globalement un son.
Définition 1 Le nombre d’oscillations d’un son dans un temps donné est sa fréquence. C’est
la hauteur tonale ou ton du son perçu.
Le temps au bout duquel une fréquence se répète est une période. Une onde est dite
périodique quand elle est composée de telles répétitions. La valeur de la fréquence est évaluée
en fonction du nombre de ses périodes dans un temps donné.
Définition 2 L’unité de base correspond au nombre de période par seconde ; c’est le Hertz (Hz).
Une fréquence de 1000 [Hz] par exemple est donc une fréquence dont le cycle se reproduit
1000 fois par seconde c’est ce qui est montré sur la figure suivante.
En principe, il n’y a pas de limitation dans la gamme des fréquences des sons
possibles. Cependant notre oreille perçoit théoriquement des vibrations acoustiques allant de
20 [Hz] (son grave) à 20000 [Hz] (son aigu).
C’est la bande de fréquence qu’il faut restituer convenablement dans les systèmes haute
fidélité, comme la radio FM, le canal son de la télévision ou le CD-audio.
2
En radio AM cependant, on ne reproduit les fréquences que jusqu’à 4500 [Hz] et cela procure
une qualité relativement bonne, même pour la musique. En téléphonie, où l’objectif est limité
à l’intelligibilité du message, la bande de fréquence normalisée est 300 - 3400 [Hz]. Cette
bande de fréquences est garantie de bout en bout du réseau. Un modem devra donc utiliser
cette même gamme de fréquences pour rendre l’information numérique sans perte
d’information.
La limitation de la perception est importante pour tous les traitements liés au son ; on part du
principe qu’il est inutile d’enregistrer ou de stocker un son imperceptible.
2-2 Intensité
L’amplitude des variations de pression donne la seconde composante du son :
l’intensité avec laquelle notre oreille percevra une note ou un son, elle permet de distinguer
un son fort d’un son faible. L’intensité correspond au volume d’énergie d’une onde.
L’amplitude du son est la mesure du changement de pression par rapport à une valeur
moyenne. Cette mesure est l’intensité acoustique I.
Définition 3 l’intensité acoustique est définit comme l'énergie transportée par l'onde sonore
par unité de temps et de surface. Elle s'exprime en Watt par mètre carré [W/m2].
Fig. 2.3
--
De telles grandeurs sont certes fort utiles, mais lorsqu’il s’agit de déterminer les conditions de
bonne transmission de signaux sonores, il apparaît nécessaire de tenir compte des propriétés
perceptives très particulières de l’ouïe. On fait alors appel à des grandeurs subjectives qui
expriment ce que ressent l’être humain.
2-3 Timbre
Un ensemble de fréquences et leurs variations d’intensité permettent d’avoir une sorte
de carte d’identité du son, une forme d’onde générale, le timbre ou spectre. Il montre la
proportion dans laquelle la fréquence fondamentale du son est mélangée à d’autres fréquences
multiples de la fréquence fondamentale et appelées sons harmoniques. Un son qui n’est
accompagné d’aucune harmonique est appelé son pur définit par une seule fréquence. Or, les
3
sons que l’on rencontre généralement ne sont pas purs, mais au contraire complexes, c'est-à-
dire constitués d’une combinaison de fréquences dites harmoniques.
2–4 Durée
Enfin, la répétition d’une onde sonore donne à son tour la durée du son. Elle
s’exprime en secondes et correspond au temps pendant lequel l’énergie du son est perceptible.
Sur la figure 2.3, la durée du son est de 2 secondes.
Avec ces quatre paramètres, on dispose d’une description suffisante pour, par
exemple, générer des sons. Produire de la musique de synthèse implique que l’on passe de la
simple notation des sons à leur transcription dans la tonalité d’un instrument musical. Il faut
pour cela prendre en compte le timbre, toutes les harmoniques qui accompagnent la
production d’un son pur.
L’analyse en fréquences et la transformée de FOURIER sont le pivot de ces calculs et
de tous les traitements effectués sur les signaux sonores. Le principe de l’analyse de
FOURIER est celui du prisme : un rayon de lumière solaire pénétrant dans un prisme de
cristal en ressort décomposé en plusieurs rayons. De même, le “prisme mathématique de
FOURIER” décompose le son d’un instrument en ses harmoniques.
Prenons le cas d’un son continu produit par un instrument. Il est défini par une forme
d’onde périodique, une fréquence qui se répète identiquement. Or notre oreille perçoit cette
onde comme un assemblage de sons purs et non comme un son unitaire.
L’analyse spectrale classique consiste à déterminer mathématiquement de quelles
harmoniques se compose une onde périodique.
4
2-5 L’analyse en fréquences et la transformée de Fourier
Le principe est le suivant : tout signal périodique (ce qui est le cas du son) peut se
décomposer en une série d’oscillations sinusoïdales. Soit x(t) un signal sonore continu dans le
temps t, la transformée de FOURIER de ce signal est définie comme suit :
Il s’agit d’une fonction dont la variable est la fréquence f. Un signal périodique est ainsi
représenté par des raies, dont l’emplacement est fixé par la fréquence des oscillations
observées dans le signal x(t), et l’amplitude par la valeur des coefficients définis par
FOURIER.
Dans le sens inverse, connaissant le spectre X(f) d’un signal, c’est-à-dire l’énergie de chacune
des fréquences présentes dans le signal, on peut reconstituer sa forme initiale x(t) par la
transformée de FOURIER inverse :
Comme le signal X(f) permet de reconstituer x(t), il y a équivalence entre les deux
représentations, tout juste l’une est-elle une représentation temporelle et l’autre une
représentation dans l’espace des fréquences. C’est toutefois la représentation fréquentielle qui
est la plus utilisée.
Ainsi, l’analyse de FOURIER sert de base pour l’analyse des sons et pour la création de
signaux de synthèse.
Tous les sons ne sont pas perceptibles. De plus, en raison de limitations physiques, certains
équipements s’avèrent incapables de traiter certaines fréquences. On parle alors de bande
passante.
Définition 5 [Bande passante] L’intervalle de fréquences que peut traiter un système est
appelé bande passante.
Ainsi, la bande passante de l’oreille est l’intervalle de fréquences [15Hz; 20 kHz]. Pour les
signaux de parole, on estime que l’énergie est concentrée dans les fréquences inférieures à
4 [kHz]. D’où la bande passante du téléphone qui est de [300Hz; 3400Hz]. En fait, tout
système physique a une bande passante finie.
III - Image
3-1 Le système visuel humain
L’œil est un système complexe (figure 2.5). La lumière incidente est réfractée par la
cornée et dirigée vers la pupille ; la pupille est l’ouverture de l’iris par laquelle la lumière
pénètre dans l’œil. La lumière est ensuite réfractée une seconde fois en direction du fond du
globe oculaire où elle illumine la rétine. Cette dernière est composée d’une série de
récepteurs, appelés photorécepteurs, reliés à des cellules qui transmettent des signaux au nerf
optique.
5
FIG. 2.5 – Coupe latérale simplifiée de l’œil.
3 – 2 La lumière
La perception du signal visuel présente des similitudes avec celle du signal audio. De
fait, le fond de l’œil est tapissé de récepteurs qui envoient des influx électriques au cerveau
via le nerf optique. De plus, certaines couleurs ne sont pas perceptibles à cause d’un effet de
limitation de la “bande passante” de l’œil.
La lumière couvre une partie du spectre d’énergie électromagnétique. Un rayonnement
électromagnétique est en général constitué d’un certain nombre de longueurs d’onde (ou
fréquences) que les dispositifs dispersifs tentent de séparer en un spectre. Le spectre est soit
discret, soit continu.
Il est d’usage de définir les couleurs par leur longueur d’onde ; on passe aisément de la
longueur d’onde à la fréquence par le biais de l’expression :
c
f =λ
Où c = 3 x 108 [m/s] est la vitesse de la lumière.
Les longueurs d’onde du spectre visible s’étendent approximativement de 380 à 720 [nm].
Une source est caractérisée par :
(i) son rayonnement, mesurable dans un système de grandeur correspondant à l’action
proprement visuelle,
(ii) par le mélange des longueurs d’onde de cette énergie, mélange qui produit une sensation
de couleur. La lumière est donc une distribution d’énergie émise à certaines fréquences ayant
une certaine intensité.
FIG. 2.7 – Expérience d’égalisation d’une couleur X au moyen de trois couleurs primaires
A, B et C.
7
FIG. 2.8 – Courbes des coefficients de distribution des couleurs primaires
8
Afin de parer à ces inconvénients, la CIE a introduit, également en 1931, un autre
espace de couleurs appelé XYZ. Les composantes X, Y et Z qui décrivent un stimulus sont
liées aux composantes RGB par la relation matricielle suivante :
En normalisant le tri-stimulus XYZ par rapport à X +Y +Z, on obtient le système xyz. Une
particularité intéressante de ce nouveau référentiel est que seules deux variables, par exemple
x et y, sont indépendantes. Ces deux composantes sont appelées les composantes
chromatiques du stimulus. On a donc les relations :
FIG. 2.10 – Diagramme chromatique défini par les deux variables de chrominance x et y.
9
Les couleurs monochromatiques sont représentées sur la partie non rectiligne du contour
(comme un U retourné). Les couleurs qui résultent d’un mélange additif de certaines couleurs
de base sont représentées à l’intérieur de la forme en U.
Il existe aussi certains point particuliers, comme le point d’égale énergie qui
correspond à une contribution égale des trois composantes de base X, Y et Z, ce qui
correspond à x = y = 1/3.
L’expérience d’égalisation des couleurs a montré qu’il suffisait de trois couleurs de base pour
synthétiser la quasi-totalité des stimuli colorés.
Comme le diagramme chromatique xy ne reprend que deux variables indépendantes, ce
diagramme est une version réduite de l’espace à trois dimensions tel défini par le cube de la
figure 2.11.
C’est dans ce genre d’espace qu’ont été représentées les couleurs du diagramme chromatique
approché à la figure 2.10 ; le diagramme tridimensionnel correspondant est illustré à la figure
2.12.
FIG. 2.11 – Espace tridimensionnel des stimuli produits par les composantes RGB.
10
La dimension non représentée sur ce diagramme est celle de la luminance qui permet
d’éclaircir ou d’assombrir une couleur en modulant son degré de noir. Par exemple, en
modulant du minimum au maximum la luminance du point d’égale énergie, on passe du noir
au blanc en passant par toutes les teintes de gris. Chaque couleur possède une luminance
maximale dont la représentation graphique est fournie à la figure 2.12.
11
3 – 6 L’espace de couleurs soustractifs CMY.
La détermination des composantes RGB d’une onde s’opère par addition sur fond noir.
L’arrière-plan est donc supposé absorbant pour toutes les couleurs. Un tel système n’est pas
adéquat pour traiter l’impression sur feuille blanche car cette dernière réfléchit l’ensemble des
couleurs. Pour l’impression, on a donc défini d’autres systèmes de couleurs, complémentaires
au système RGB. Il s’agit par exemple du système Cyan, Magenta et Yellow (CMY),
complémentaire du système RGB et dont la somme produit le noir.
La figure 2.14 montre une image trouvée dans un catalogue et présentant un défaut
d’alignement des couleurs.
FIG. 2.14 – Défaut d’alignement des couleurs d’impression permettant de voir les 3
composantes de couleur CMY et la composante noire K.
Pour l’impression et comme la majorité des documents contiennent des traits noirs, on préfère
parfois ajouter d’emblée le noir aux composantes CMY, ce qui aboutit au système
quadrichromatique CMYK.
Les standards de télévision analogiques (PAL, NTSC) définissent chacun les positions
de couleurs RGB dans le diagramme chromatique. Ces positions ne se situent pas sur le
pourtour. Autrement dit, les couleurs de base ne sont pas monochromatiques.
Comme les positions de ces systèmes ne coïncident pas, la totalité des couleurs d’un
système n’est pas représentable dans un autre système. D’autre part, un téléviseur n’est pas
réellement calibré à la fabrication et son usage produit une usure. Cela nous amène à
reconsidérer la signification physique réelle d’une couleur affichée par un téléviseur ou par
des moniteurs utilisés dans le monde informatique.
12
Pour désigner une couleur en infographie, on utilise généralement une quantification sur 8 bits
par composante de couleurs. Les couleurs sont alors représentées par un triplet de valeurs
exprimées en hexadécimal, en décimal (table 2.1) ou en binaire.
IV / Signal vidéo
Jusqu’à présent, nous avons supposé que l’image ne changeait pas dans le temps. Or
les signaux de télévision changent en fonction du temps, d’où le besoin d’une composante
temporelle dans la description d’une image. Il convient donc d’ajouter une autre définition : le
temps. On parle alors de signal vidéo plutôt que de signal image.
Le procédé mis en œuvre pour reproduire un signal vidéo sur un écran de télévision consiste à
afficher une nouvelle image à une fréquence élevée, à la manière d’un film. Cette fréquence
est supérieure à 25 [Hz], fréquence en dessous de laquelle on percevrait une discontinuité.
Aujourd’hui, la technologie permet d’atteindre une telle vitesse de rafraîchissement d’écran.
On parle de format de télévision progressif. Il n’en était pas ainsi au début de la télévision
analogique.
Pour parvenir à éviter un effet de scintillement alors qu’on ne parvenait pas à atteindre des
vitesses de rafraîchissement, on a inventé l’entrelacement et le format entrelacé. Dans sa
version européenne, le format consiste à constituer deux demi-images en prenant soit toutes
les lignes paires, soit toutes les lignes impaires d’une image, comme indiqué à la figure 2.17.
Au lieu de 25 images par secondes, on obtient ainsi 50 demi-images, soit une vitesse
supérieure au seuil de sensibilité.
14
Trois standards de vidéo pour télévision analogique sont utilisés à travers le monde :
Format Description Pays
NTSC National Television Systems Committee États-Unis.
PAL Phase Alternation Line Europe sauf France.
SECAM Système Électronique Couleur Avec Mémoire France et Russie.
L’univers de l’image fait intervenir plusieurs facteurs : la mémoire, les exigences de vitesse,
la dépendance par rapport au matériel, l’organisation des données, la compression et la
représentation des données. Il suffit de consulter la figure 2.18 qui énumère des applications
typiques.
Le signal vidéo est nettement plus complexe qu’un son. Il comporte des informations
visuelles, exprimées pour une image généralement sous la forme de trois couleurs
fondamentales pour tout point de l’espace, et une information temporelle née du mouvement
des objets.
De plus, le signal de télévision est un mélange du signal vidéo et de la partie audio ; il s’agit
d’un signal composite. Le signal composite occupe une bande de fréquences
d’approximativement 5 [MHz]. En pratique, on considère une bande de 8 [MHz] par signal
vidéo en Europe. La figure 2.19 donne l’occupation fréquentielle d’un signal vidéo PAL.
15
V / La numérisation
Un ordinateur n’est pas, par nature, apte à manier des sons ou des images. En effet,
ceux-ci sont constitués par des variations de pression ou par de l’énergie lumineuse
respectivement alors que l’ordinateur ne sait traiter l’information que sous la forme de 0 et de
1, c’est-à-dire discrète et non pas analogique. D’où le besoin de convertir les signaux.
FIG. 2.20 – Amplification d’un signal analogique et régénération d’un signal numérique.
Pour le cas du signal sonore que l’on veut produire en sortie. Le bruit est un son
parasite qui peut être produit par les vibrations des composants électroniques ou les bruits de
quantification qu’on verra plus loin. La qualité sonore est proportionnelle au rapport signal à
bruit, exprimé en décibel (dB). Un rapport supérieur à 70 dB indique une bonne qualité
sonore, égal à 50 dB une qualité moyenne, et à 30 dB ou moins, un son de mauvaise qualité.
16
5 – 2 Processus de numérisation
La figure 2.21 reprend toutes les étapes du passage d’un signal analogique à un signal
numérique et celles de la conversion inverse.
La figure 2.22 reprend ces mêmes traitements avec une autre présentation.
17
5 – 2 – 1 Échantillonnage
Une fréquence d’échantillonnage de 22 kHz signifie que 22000 mesures sont effectuées par
seconde.
D’après SHANNON, la fréquence d’échantillonnage doit être égale au double de la fréquence
la plus élevée contenue dans le signal. Voici le théorème de l’échantillonnage :
Autrement dit, pour un son dont la largeur de bande passante est de l’ordre de 4000 Hz
(téléphonie), il faut au moins 8000 échantillons par seconde. Pour le la du diapason, son pur
de 440 Hz, il en faut plus de 880 par seconde. Enfin, pour un disque compact (CD-audio),
sachant qu’un son audible atteint 20 kHz, les signaux sont échantillonnés avec une marge de
10% à 44,1 kHz.
Un facteur important est celui de repli de spectre ou aliasing qui produit des
distorsions très désagréables s’il n’est pas maîtrisé correctement.
Lorsqu’on tente de synthétiser des fréquences plus hautes que la moitié du taux
d’échantillonnage original, ces fréquences ne sont pas effacées comme elles le sont par un
appareil audio réel. Au contraire, elles réapparaissent en des endroits aléatoires sous forme de
fréquences entièrement différentes donnant naissance au phénomène de repli de spectre.
Le phénomène de repli de spectre est illustré par la figure 2.23 : les échantillons
obtenus à la fréquence d’échantillonnage légèrement inférieure à 6 [Hz] ne permettent plus de
représenter les fluctuations rapides de la fonction à 6 [Hz], d’où erreur dans l’interprétation du
signal.
18
FIG. 2.23 – Repli de spectre ou aliasing.
La règle à respecter est que la plus haute fréquence prise en compte doit être inférieure à la
moitié du taux d’échantillonnage. Il faut donc filtrer, c’est-à-dire supprimer toute une série de
fréquences, avant d’échantillonner.
L’échantillonnage fournit une série de valeurs réelles. Mais comme la résolution de chaque
échantillon ne peut être continue pour des raisons de place de stockage et d’efficacité, on a
recourt à la quantification.
5 – 2 – 2 Quantification
19
FIG. 2.24 – Quantification.
Un exemple complet d’échantillonnage est illustré à la figure 2.25. Les échantillons sont
quantifiés avant d’être convertis en une suite de valeurs binaires 0 ou 1. Cette dernière porte le
nom de codage PCM (Pulse Code Modulation).
20
On peut coder non pas les valeurs telles quelles mais la différence d’une valeur par rapport à
la précédente. Cette technique porte le nom de DPCM (Differential Pulse Code Modulation) ;
elle est illustrée par la dernière ligne de la figure 2.26.
Lorsque l’analyse est faite par un système fonctionnant sur 8 bits, la valeur maximale
représentable est 256 (28 = 256) et toutes les valeurs devront être comprises entre [0 , 255].
Un échantillonnage du son en 12 bits autorisera 4096 valeurs, en 16 bits 65536 valeurs.
Chaque fois que l’on ajoute un bit de quantification, la fidélité progresse d’une puissance de 2
puisque, les amplitudes restant fixes, l’erreur sur l’approximation diminue. La théorie précise
que chaque bit additionnel améliore le rapport signal à bruit d’environ 6 décibels.
En pratique, un signal numérique est donc décrit par la fréquence d’échantillonnage et par le
pas de quantification. Par exemples :
– Son de qualité parole : quantification à 8 bits, 8000 [Hz].
– Son de qualité CD : quantification à 16 bits, 44100 [Hz].
Aux deux sons mentionnés avant correspondent dès lors respectivement des débits de 64 et
706 kilobits par seconde (Kb/s).
21
5 – 3 Passage de l’analogique au numérique et conversion inverse
Résumé
Voici un résumé des principales notions utilisées pour la description des signaux analogiques
et numériques.
Analogique Numérique
Fréquence _ Bit, byte (octet)
6 - 1 Principe de la compression
Une fois les données numériques obtenues, le travail n’est pas achevé. En effet, les
signaux numérisés représentent des quantités d’information (des débits) considérables
contenant une certaine redondance. Le principe de la suppression de redondance, est la raison
de la compression.
22
Prenons l’exemple de la phrase suivante :
Malgré la suppression de quelques lettres, la troisième version de la phrase est toujours
compréhensible alors que le nombre de lettres a diminué de 20%. La réduction de taille a donc
été possible en raison de l’existence d’une certaine redondance dans le message de départ.
Chaque lettre se caractérise par une certaine probabilité d’occurrence dans un contexte donné.
Par exemple, dans la langue française, un “e” est plus probable qu’un “z”.
6 - 2 Mesure de l’information
La théorie de l’information cherche à établir l’information inhérente à un processus
probabiliste ; elle part d’un principe qu’un événement certain n’apporte aucune information,
au contraire d’un événement rare lorsque celui-ci survient.
Considérons un événement aléatoire E qui se produit avec une probabilité p(E).
6 – 3 Notion d’entropie
23
6 - 4 Codage
Un codage se réalisera en remplaçant des lettres ou des mots par d’autres plus courts.
D’un point de vue théorique, le codage le plus efficace est celui qui se rapprochera le plus de
l’entropie du message initial.
La notion d’entropie joue un rôle essentiel dans la caractérisation du contenu d’information
intrinsèque d’un message ; ce rôle est explicité par le théorème suivant :
Théorème Le nombre de bits minimum pour coder un symbole est toujours supérieur à
l’entropie de source.
Autrement dit, l’entropie d’une source fixe le nombre de bits minimum moyen nécessaire à
coder un symbole de la source. Il n’est pas possible de descendre en-dessous de cette valeur
minimale.
VII / La compression
Jusqu’à présent, nous n’avons parlé que du cas de la compression qui permet de
reconstituer parfaitement le message original au départ du message comprimé. Il s’agit donc
d’un codage sans perte.
Dans le cadre de l’imagerie médicale, le taux d’une compression sans perte pour une
image médicale, est compris entre 1 et 3. Un tel taux de compression, typique pour des images
naturelles, ne peut satisfaire les exigences d’applications multimédia.
24
7 – 3 Classification de l’ensemble des techniques de compression
Dans cette section, nous allons tracer les grandes lignes des algorithmes de
compression des sources multimédia et mentionner les standards les plus répandus.
Dans le cas de la transmission d’un texte les erreurs sont minimes, pour ce type de
signal, il n’est donc question que de codage sans perte.
Les techniques rencontrées dans les applications sont des variantes des trois techniques de
codage suivantes :
Codage RLC (Run Length Coding). Le principe employé pour ce codage est simple : toute
suite d’octets de même valeur est remplacée par la valeur, à laquelle on associe le nombre
d’occurrences suivantes.
Exemple
AAABBREEEGGG = 12 octets
#3A#2BR#3E#3G = 13 octets => inutile
0000001111100000 = 16 octets
#60#51#50 = 9 octets
Codage LEMPEL, ZIV, WELCH (LZW). Cette méthode consiste à remplacer les chaînes
de caractères rencontrés précédemment par leur adresse dans une table au fur et à mesure du
codage. Le récepteur procède de façon symétrique et reconstitue le dictionnaire par le même
algorithme.
La première étape de la méthode consiste à réorganiser les symboles par ordre de probabilité
décroissante. Chaque symbole est alors associé à une feuille d’un arbre en construction. On
relie ensuite les feuilles en créant un nœud auquel on associe la somme des probabilités des
deux symboles correspondants. À chaque étape, on fusionne les 2 nœuds (ou feuilles) ayant
les probabilités les plus faibles. On répète ce processus jusqu’à ce qu’il ne reste plus qu’un
seul nœud dont la probabilité associée vaut 1.
Exemple.
25
FIG. 2.27 – Illustration de la méthode de HUFFMAN.
Une fois l’arbre construit, on associe à chaque branche de l’arbre un symbole 0 ou 1. Il suffit
de redescendre l’arbre jusqu’aux symboles pour déterminer le code correspondant :
Appelons l(Ai) le nombre de bits associé au symbole Ai. Dès lors, nous avons :
26
7 – 3 - 2 Compression audio
La représentation numérique de base est le PCM (Pulse Code Modulation). Elle n’est
rien de plus que le signal échantillonné quantifié. Selon le niveau qualitatif souhaité, la
fréquence d’échantillonnage sera choisie entre 7 et 78 [kHz]. La résolution sera comprise
entre 8 et 16 bits.
DPCM Par cette technique, la compression s’obtient en codant la différence entre deux
valeurs échantillonnées successives plutôt que les valeurs elles-mêmes, ce qui nécessite un
plus petit nombre de bits.
Codage adaptatif. Dans le cas particulier des signaux audio, on peut utiliser les
caractéristiques psycho-acoustiques de l’oreille humaine pour définir des algorithmes plus
efficaces encore.
En effet, il se produit dans la perception auditive un effet de masquage par lequel les sons
contenant des niveaux faibles ne sont pas perçus. En conséquence, avant la compression, on
analyse le signal par bandes de fréquences dont on mesure le niveau. Les bandes contenant
des signaux de faible amplitude sont supprimées. Plusieurs algorithmes de compression sont
basés sur ce principe. Par exemple, le procédé MUSICAM a été choisi pour la compression
des signaux audio dans le format MPEG-1.
CELP Code Excited Linear Predictor. Le principe de cette méthode est similaire à celui de
l’ADPCM : on cherche à prévoir les échantillons suivants de manière à ne devoir coder que la
différence. Plus la prédiction concorde avec la valeur échantillonnée et plus la différence sera
faible. Utilisé pour des signaux de parole, le CELP comprend un algorithme de synthèse
vocale en guise de prédiction. Ce type d’algorithme sert à obtenir des hauts taux de
compression, pouvant conduire à des débits inférieurs à 20 [kb/s].
27
300 à 3400 Hz
De 0 à 8 KHz /2
300 à 3400 Hz
∈ H 323 et H 324
MPEG-1 audio. La norme de codage audio comprise dans MPEG-1 part d’un découpage en
une série de 32 canaux fréquentiels de bande étroite, appelés sous-bandes. La figure 2.28
montre le schéma simplifié du codeur MPEG-1.
Dans un tel schéma, chaque sous-bande est traitée indépendamment. Les signaux PCM à
l’entrée ont été échantillonnés à 32 ; 44,1 ou 48 [kHz] sur 16 ou 20 bits. La première étape
consiste à découper le signal en 32 sous-bandes, chacune étant par la suite sous-
échantillonnée par un facteur 32 (notation 32 sur le dessin). Suit alors une mise à niveau des
32 signaux de sortie, qui sont ensuite quantifiés et codés. Le modèle psycho-acoustique
MUSICAM est la partie qui utilise les effets de masquage pour augmenter l’efficacité de
28
codage sans altérer la perception des sons. Il agit sur la quantification et le codage de chacune
des sous-bandes.
La partie audio (partie 3) de la norme MPEG-1 sert au codage de son au format MP3.
Le standard de compression audio de MPEG-2 est une extension de la norme MPEG-1. On y
a ajouté la possibilité de représenter jusqu’à 5 signaux haute fidélité, un support pour
plusieurs langues, des modes de compression à bas débit (pouvant aller jusqu’à 8 [kb/s]) et
des fréquences d’échantillonnages supplémentaires.
Le format MP3, bien que largement répandu, n’en reste pas moins soumis à des contraintes.
C’est la raison pour laquelle certains ont développé des formats basés sur des technologies
libres de tout droit.
AC-3. Le système AC-3 développé par DOLBY est du même type que MPEG-1 : découpage
en sous-bandes et modèle psycho-acoustique. Il a été inclus dans les spécifications DAVIC
qui définissent les services de distribution de télévision numérique.
7 – 3 – 3 Compression image
Différentes méthodes sont utilisées pour la compression d’images fixes, les plus
simples se contentant de réduire le nombre de bits servant à coder les couleurs de base (RGB).
L’ISO et l’ITU ont été à l’origine de plusieurs initiatives pour définir une norme pour la
compression des images. Les images ne contenant que deux couleurs (noir et blanc) sont
traitées par des algorithmes de type RLC. C’est le cas des algorithmes utilisés pour la
transmission de fax.
La tâche est plus complexe lorsqu’il s’agit de coder des images naturelles en couleur. Le
groupe JPEG de l’ISO a relevé ce défi. Le principe de la norme de codage JPEG est le
suivant :
(Le schéma de la figure 2.29 illustre le mécanisme de compression et de décompression sous
forme graphique) :
29
1. L’image est tout d’abord convertie au format YC bCr pour des raisons d’efficacité de
codage.
2. Le signal de luminance (Y) et les signaux de chrominance sont ensuite divisés en
blocs de 8 x 8 pixels.
3. On applique une analyse fréquentielle, appelée Transformée en Cosinus Discrète ou
Discrete Cosine Transform (DCT), dont le principe est similaire à celui de l’analyse de
FOURIER, à chaque bloc de 64 pixels. On passe ainsi d’une représentation spatiale de
64 pixels à une représentation fréquentielle avec une composante continue donnant le
niveau moyen du bloc.
4. Les coefficients de la représentation fréquentielle sont quantifiés avec une précision
plus faible pour les hautes fréquences étant donné que l’œil ne les perçoit pas.
5. Un codage entropique de HUFFMAN (codage sans perte) est finalement appliqué aux
coefficients.
Avec JPEG, des taux de compression de l’ordre de 10 sont possibles sans altération visible de
l’image. La figure 2.30 montre deux images et le taux de compression utilisé.
(a) (b)
FIG. 2.30 – (a) image originale, (b) image comprimée avec un taux de compression de 14.
30
Norme JPEG2000
Le comité de normalisation JPEG a entrepris des travaux pour définir une nouvelle
norme de compression image. Cette norme, appelée JPEG2000, est basée sur le principe de
codage en ondelettes. La norme permet également de comprimer prioritairement une zone
spécifique de l’image appelée région d’intérêt (Region of Interest, ROI). Cette notion est
illustrée à la figure 2.31.
FIG. 2.31 – Deux images comprimées avec un même taux de compression ; la seconde
concentre l’effort de compression dans une région d’intérêt.
Autres formats
Pour coder des graphiques et des images simples, on a vu apparaître le format GIF
(Graphics Interchange Format), abondamment utilisé sur le réseau Internet. Le mode de
compression du format GIF est basé sur l’algorithme LZW ( Il ne s’agit néanmoins pas d’un
standard).
7 – 3 – 4 Compression vidéo
1. la redondance entre les valeurs des pixels de blocs voisins d’une même image et
2. la redondance entre images successives.
31
Pour le codage intra, le problème s’apparente à celui de JPEG puisqu’il n’y a qu’une
image à considérer. De ce fait, on supprime la redondance en exploitant les caractéristiques
d’une transformée en cosinus discrète (DCT), tout comme pour JPEG. La mise au point d’une
méthode capable d’exploitation de la redondance entre images successives fut plus laborieuse.
L’idée imaginée pour la première fois dans le codeur H.261 consiste à prédire les
images suivantes, appelées trames dans le jargon du codage d’image, à partir de l’image
traitée. Il y a donc une distinction entre l’image codée en intra (trame I) et l’image prédite
(trame P). Dans MPEG, on fait mieux encore puisqu’on définit des trames B qui se situent
entre des trames I et P. Les trames B sont prédites à la fois à partir d’une image précédente
mais aussi d’une image suivante.
Le dessin de la figure 2.32 permet de comprendre le mécanisme.
Au départ, on code une image I. Cette image ne fait aucune référence à une autre image. À
partir de cette image, l’algorithme de l’encodeur calcule une prédiction et code la différence
entre la prédiction et l’image ; c’est une image P. Cette image P sert elle même à prédire une
autre image P, jusqu’à ce qu’il soit décidé de coder à nouveau une image I. Entre les images I
et P, on utilise la prédiction bidirectionnelle cette fois sur base des images P ou I les plus
proches. C’est ainsi qu’on parvient à glisser deux images B entre des images I et P sans
dégradation perceptible de la séquence.
L’ensemble constitué d’une image I et des images prédites est appelé Group of Pictures
(GOP).
Voici un résumé des principales caractéristiques des normes H.261 et MPEG-1 dans le
tableau suivant :
32
Multiplexage des données
Il ne suffit de pas créer un flot de bits, appelé flux ou bitstream, comprimé par signal
composant la séquence audio-visuelle pour arriver à un flux complet. Il faut également
entrelacer les données ; ce problème est illustré à la figure 2.33. La manière de constituer le
flux binaire est spécifié par toute norme de compression.
33
Pour les faibles débits, on a développé la norme MPEG-4. L’objectif de cette norme était
ambitieux ; MPEG-4 couvre toute la plage des débits inférieurs à 1 [Mb/s], pour permettre
également le codage de signaux de synthèse et offrir des fonctionnalités de manipulation du
contenu vidéo.
Le format QuickTime
Parmi les technologies de compression, il faut citer le format QuickTime développé
principalement par la société APPLE. Cette technologie a joui d’une certaine notoriété par le
passé mais elle cède actuellement le pas aux normes MPEG.
8.1 Audio
Outre les formats audio associés directement aux standards vus auparavant, on
distingue les formats issus d’applications de synthèse sonores. Le plus célèbre d’entre eux est
le format MIDI (Music Instrument Digital Interface), défini par le groupement industriel
MIDI MANUFACTURERS ASSOCIATION, qui en plus d’être un format, décrit l’interface
entre des instruments de musique et des ordinateurs. Ainsi, ce format précise des données
relatives à l’instrument connecté, il a ses propres messages (entre périphérique MIDI) et
intègre des événements temporels.
Née en 1981, cette norme pour les instruments de musique permet de travailler
simultanément sur des appareils très nombreux et très différents ; ils peuvent communiquer
les uns avec les autres, et échanger des sons et des commandes. Matériellement, la norme
MIDI repose sur la définition de certaines notions (canaux, messages, instrument maître, . . .)
et une définition précise des connecteurs, du codage, des vitesses de transmission des
données.
Sur le plan logiciel par contre, le protocole MIDI se caractérise par une grande facilité
d’extension, mais aussi par la non-obligation pour les constructeurs de l’implémenter en
totalité. On distingue deux catégories de fichiers son (figure 2.34).
34
FIG. 2.34 – Description de types de fichier son.
La conversion de formats est possible à l’intérieur d’une même catégorie de signaux ; elle a
peu de sens entre catégories.
8.2 Image
De nombreux formats d’images ou de graphiques ont été créés pour le stockage et le
traitement d’images fixes. La liste suivante, non exhaustive, reprend certains d’entre eux
suivant des catégories liées à une fonctionnalité.
8 – 2 – 1 Interface graphique
Il y a différentes façons d’interagir avec un ordinateur. L’une d’elles est l’utilisation d’une
interface graphique GUI (Graphical User Interface). Chaque interface utilise ses propres
formats de données d’échange entre ordinateurs.
Ainsi, BMP ou BitMaP est le format d’images bitmap défini par MICROSOFT pour les
besoins de son interface graphique WINDOWS, ce qui le rend quasiment incontournable. Il
permet de modéliser pratiquement tous les types d’images matricielles, qu’elles soient ou non
compressées.
Le format PICT est le format répandu dans l’univers Macintosh mais il est spécifique à cet
environnement et n’est pas pris en compte pour les autres plateformes.
Le format GIF (extension *.gif). Le format GIF est l’un des formats les plus répandus,
développés par le serveur américain COMPUSERVE, pour faciliter l’échange de fichiers
graphiques.
Avec ce format, l’image est analysée ligne par ligne. Le codage est effectué sur 8 bits (256
couleurs), mais il offre aussi la possibilité de stocker conjointement trois plans images, ce qui
permet de simuler un codage sur 24 bits.
L’utilisation du format GIF a posé problème lorsque que la société UNISYS a décidé de faire
valoir son brevet définissant l’algorithme de compression LZW auquel GIF fait appel.
Néanmoins, le brevet est tombé dans le domaine public en juin 2003.
Le format PNG (extension *.png). En réponse aux difficultés rencontrées pour l’utilisation
du format GIF, Internet propose un autre format pour les transmissions d’images fixes : le
format PNG. Ce format permet aussi bien de coder les images avec un algorithme de type
35
JPEG que GIF, c’est-à-dire qu’il est capable de représenter des images naturelles ainsi que des
graphiques.
Le format TIFF (extension *.tiff). Le format TIFF a été créé pour fournir des images
scannées. Il est un des plus puissants pour coder tous les types d’images, mais en même
temps, un des plus difficiles à utiliser.
8 – 2 – 3 Applications génériques
Des applications génériques intègrent aussi bien des graphiques que des images. De
plus, il faut pouvoir manipuler les objets qui composent la scène. Divers formats de ce genre
sont apparus.
Ils sont bien souvent intimement liés au matériel en raison des opérations de manipulation
particulières qu’ils permettent.
Le format CGM. (Computer Graphics Metafile). Il s’agit d’un format développé par l’ANSI
(American National Standard Institute) permettant de traiter indifféremment des graphiques
de nature complexe et des images définies pixel par pixel.
Le format EPS (extension *.ps ou *.eps). Défini par la société ADOBE, il s’agit du format
associé à un langage de description de pages appelé PostScript, complet mais relativement
complexe. ADOBE propose maintenant une extension de PostScript, Acrobat, destinée à
servir de format de stockage et d’échange de documents multimédia.
Le format PDF. Le format PDF est une extension du PostScript. Ce format s’est popularisé
grâce à la mise à disposition d’outils de visualisation gratuit. Pour contrer l’influence
d’ADOBE et promouvoir l’émergence du livre électronique, un consortium formé
d’industriels, nommé OPEN EBOOK FORUM, a développé la spécification Open eBook
Publication Structure Specification (OEBPS) permettant, sur base d’éléments XML, définir
à la fois du contenu, une structure et une présentation.
Il serait laborieux d’analyser toutes les conversions entre formats. Signalons seulement que
les conversions sont souvent possibles mais qu’il est rare qu’un format converti contienne la
même information. Il en résulte parfois une perte en qualité et il se peut même que certains
traitements ne puissent plus être appliqués après conversion. La figure 2.35 montre une
situation typique de conversion entre formats image.
36
FIG. 2.35 – Conversion entre formats image.
8.3 Vidéo
Les normes MPEG-x et H.26x définissent une syntaxe du flux de bits mais pas la
manière d’enregistrer les informations.
Malgré son succès, MPEG-x n’est pourtant pas le premier procédé de compression numérique
à avoir été implémenté. Appelé DVI (Digital Video Interactive), Indeo est un procédé de
compression vidéo similaire à MPEG développé il y a plusieurs années par I NTEL pour le
marché des PCs. Le format n’a jamais été adopté par la communauté parce qu’il exigeait un
matériel très particulier et parce qu’INTEL se chargeait de la compression.
37
FIG. 2.36 – Transcodage (branche de gauche).
2. un encodeur est optimisé pour coder une séquence originale ayant certaines propriétés
statistiques. Une modification des propriétés statistiques de ce codeur introduit une
perte de qualité tout à fait générale.
Aussi, dans la mesure du possible, est-il conseillé d’opter pour une compression en une étape
unique.
8 – 3 – 2 Marquage et chiffrement
Différentes techniques ont été proposées pour protéger une œuvre. De nombreux
constructeurs misent sur l’ajout de filigranes dans le contenu. Cette opération porte le nom
d’aquamarquage ou watermarking. Le principe de la technique est illustré à la figure 2.37.
Un filigrane est inséré dans le contenu audio-visuel à l’émetteur. Ce filigrane, invisible et
inaudible, accompagne le signal utile jusqu’au récepteur.
La protection peut aussi s’effectuer par chiffrement. Le chiffrement peut être total ou partiel.
38
IX / Autres types de signaux
Nous avons analysé les principaux types de signaux multimédia : son, image et vidéo.
Ils représentent le gros du contenu d’une application mais ils n’en constituent pas le cadre. Le
cadre comprend encore les signaux échangés pendant le déroulement de l’animation, le texte,
les signaux de synchronisation, etc.
Langages de balisage
À un autre niveau, on retrouve les normes qui définissent la mise en page des
documents. Parmi celles-ci citons l’HTML (HyperText Markup Language) qui fixe la
présentation (sommaire) des pages envoyées sur Internet et le standard SGML de l’ISO dont
est dérivé le langage HTML.
Pour améliorer le contrôle de la présentation (fontes, couleurs, emplacement, …), il est
possible de joindre des feuilles de style aux pages HTML. Ces feuilles de style sont appelées
Cascading Style Sheets (CSS).
39
La norme ISO 10744 définit le langage Hytime. Ce langage étend les fonctions applicables
aux documents SGML et il fournit des notions de synchronisation spatiale et temporelle.
Le langage XML a été développé après la norme HTML-4.0 pour permettre l’inclusion aisée
de documents structurés ; c’est un langage de balisage qui présente l’information et intègre
des balises définissant sa structure. Il est souvent utilisé pour la mise en page de documents
produits à partir d’une base de données.
On peut également citer le cas du compact HTML (cHTML) qui constitue un sous-ensemble
de l’HTML ; il a été développé pour satisfaire aux contraintes des communications Internet
mobiles (i-mode).
Les normes H.320, H.323 et H.324 sont comparées dans le tableau suivant :
40