0% ont trouvé ce document utile (0 vote)
268 vues40 pages

Chapitre Ii

Ce document décrit les principaux signaux multimédia comme le son et l'image. Il détaille les caractéristiques du son comme la fréquence, l'intensité, le timbre et la durée. Il explique également la transformation de Fourier pour analyser les signaux sonores.

Transféré par

anes bendjemai
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
268 vues40 pages

Chapitre Ii

Ce document décrit les principaux signaux multimédia comme le son et l'image. Il détaille les caractéristiques du son comme la fréquence, l'intensité, le timbre et la durée. Il explique également la transformation de Fourier pour analyser les signaux sonores.

Transféré par

anes bendjemai
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

CHAPITRE II - LES SIGNAUX MULTIMEDIA

Qui dit multimédia dit échange d’information, principalement de nature visuelle ou


auditive, ainsi qu’une série d’actions. Autrement dit, l’interactivité multimédia se traduit par
un échange de signaux entre les différentes composantes des équipements.
Nous allons détailler les principales caractéristiques de ces signaux multimédia car ce sont
elles qui définissent les limitations et les contraintes des systèmes.

I - INTRODUCTION
Les signaux tels que nous les percevons sont analogiques, c’est-à-dire qu’il n’est pas
possible de déceler une discontinuité. De la même manière que l’aiguille d’un compteur
kilométrique évolue d’une position vers une autre, les sons arrivent à notre oreille en continu.
Les applications multimédia mettent en jeu plusieurs types de signaux : texte, graphique,
audio, image et vidéo ; il nous faut retourner à la physique des signaux sons et images pour
comprendre la technologie multimédia.

II - SON
Le son est une onde qui se propage dans l’air et qui est perceptible grâce au détecteur
de pression qu’est le tympan, logé dans l’oreille. Ces vibrations sont ensuite converties en
signaux transmis au cerveau par le nerf auditif.
Le son est le résultat d’une onde de pression qui voyage dans l’air, agite les molécules d’air et
se réfléchit sur les obstacles qu’elle rencontre. Le tympan capte ces ondes qui sont in fine
traduites en signaux électriques, comme le fait la membrane d’un micro.
La figure 2.1 montre le relevé d’un son à l’oscilloscope. L’axe vertical représente l’écart
d’une membrane (ou une mesure physique équivalente comme une tension électrique) par
rapport à une position centrale en fonction du temps (axe horizontal).

Fig. 2.1 – Représentation d’un son

1
Le son est une notion tellement complexe qu’il faut plusieurs paramètres pour le
décrire. Le phénomène physique du son peut être étudié de manière quantitative et les
propriétés de l’onde acoustique peuvent être exprimées sous la forme de grandeurs objectives.
Tels que : hauteur tonale, intensité, timbre et durée. Ces quatre paramètres suffisent à décrire
globalement un son.

2-1 - Ton ou hauteur tonale


La notion de ton est intimement liée à celle de fréquence.

Définition 1 Le nombre d’oscillations d’un son dans un temps donné est sa fréquence. C’est
la hauteur tonale ou ton du son perçu.

Le temps au bout duquel une fréquence se répète est une période. Une onde est dite
périodique quand elle est composée de telles répétitions. La valeur de la fréquence est évaluée
en fonction du nombre de ses périodes dans un temps donné.

Définition 2 L’unité de base correspond au nombre de période par seconde ; c’est le Hertz (Hz).

Une fréquence de 1000 [Hz] par exemple est donc une fréquence dont le cycle se reproduit
1000 fois par seconde c’est ce qui est montré sur la figure suivante.

FIG. 2.2 – Le Hertz : unité de mesure des fréquences. Ici f = 3 Hz

La période est ainsi inversement proportionnelle à la fréquence (c’est-à-dire égale à 1 / f) : si


la fréquence est de 3 [Hz], la période est de 1/3 seconde.

En principe, il n’y a pas de limitation dans la gamme des fréquences des sons
possibles. Cependant notre oreille perçoit théoriquement des vibrations acoustiques allant de
20 [Hz] (son grave) à 20000 [Hz] (son aigu).
C’est la bande de fréquence qu’il faut restituer convenablement dans les systèmes haute
fidélité, comme la radio FM, le canal son de la télévision ou le CD-audio.
2
En radio AM cependant, on ne reproduit les fréquences que jusqu’à 4500 [Hz] et cela procure
une qualité relativement bonne, même pour la musique. En téléphonie, où l’objectif est limité
à l’intelligibilité du message, la bande de fréquence normalisée est 300 - 3400 [Hz]. Cette
bande de fréquences est garantie de bout en bout du réseau. Un modem devra donc utiliser
cette même gamme de fréquences pour rendre l’information numérique sans perte
d’information.
La limitation de la perception est importante pour tous les traitements liés au son ; on part du
principe qu’il est inutile d’enregistrer ou de stocker un son imperceptible.

2-2 Intensité
L’amplitude des variations de pression donne la seconde composante du son :
l’intensité avec laquelle notre oreille percevra une note ou un son, elle permet de distinguer
un son fort d’un son faible. L’intensité correspond au volume d’énergie d’une onde.
L’amplitude du son est la mesure du changement de pression par rapport à une valeur
moyenne. Cette mesure est l’intensité acoustique I.

Définition 3 l’intensité acoustique est définit comme l'énergie transportée par l'onde sonore
par unité de temps et de surface. Elle s'exprime en Watt par mètre carré [W/m2].

Fig. 2.3
--

De telles grandeurs sont certes fort utiles, mais lorsqu’il s’agit de déterminer les conditions de
bonne transmission de signaux sonores, il apparaît nécessaire de tenir compte des propriétés
perceptives très particulières de l’ouïe. On fait alors appel à des grandeurs subjectives qui
expriment ce que ressent l’être humain.

2-3 Timbre
Un ensemble de fréquences et leurs variations d’intensité permettent d’avoir une sorte
de carte d’identité du son, une forme d’onde générale, le timbre ou spectre. Il montre la
proportion dans laquelle la fréquence fondamentale du son est mélangée à d’autres fréquences
multiples de la fréquence fondamentale et appelées sons harmoniques. Un son qui n’est
accompagné d’aucune harmonique est appelé son pur définit par une seule fréquence. Or, les

3
sons que l’on rencontre généralement ne sont pas purs, mais au contraire complexes, c'est-à-
dire constitués d’une combinaison de fréquences dites harmoniques.

Fig. 2.4 Différentes courbes de sons


--

Dans un son complexe, toutes les sinusoïdes composant le signal (fondamental et


harmoniques) se rejoignent nécessairement au même point après chaque période de la
fondamentale : le phénomène est périodique.
Le nombre et l’amplitude des diverses fréquences harmoniques sont spécifiques à chaque
source sonore. Le timbre permet donc d’identifier cette source sonore.

2–4 Durée
Enfin, la répétition d’une onde sonore donne à son tour la durée du son. Elle
s’exprime en secondes et correspond au temps pendant lequel l’énergie du son est perceptible.
Sur la figure 2.3, la durée du son est de 2 secondes.

Avec ces quatre paramètres, on dispose d’une description suffisante pour, par
exemple, générer des sons. Produire de la musique de synthèse implique que l’on passe de la
simple notation des sons à leur transcription dans la tonalité d’un instrument musical. Il faut
pour cela prendre en compte le timbre, toutes les harmoniques qui accompagnent la
production d’un son pur.
L’analyse en fréquences et la transformée de FOURIER sont le pivot de ces calculs et
de tous les traitements effectués sur les signaux sonores. Le principe de l’analyse de
FOURIER est celui du prisme : un rayon de lumière solaire pénétrant dans un prisme de
cristal en ressort décomposé en plusieurs rayons. De même, le “prisme mathématique de
FOURIER” décompose le son d’un instrument en ses harmoniques.

Prenons le cas d’un son continu produit par un instrument. Il est défini par une forme
d’onde périodique, une fréquence qui se répète identiquement. Or notre oreille perçoit cette
onde comme un assemblage de sons purs et non comme un son unitaire.
L’analyse spectrale classique consiste à déterminer mathématiquement de quelles
harmoniques se compose une onde périodique.

4
2-5 L’analyse en fréquences et la transformée de Fourier

Le principe est le suivant : tout signal périodique (ce qui est le cas du son) peut se
décomposer en une série d’oscillations sinusoïdales. Soit x(t) un signal sonore continu dans le
temps t, la transformée de FOURIER de ce signal est définie comme suit :

Définition 4 [Transformée de FOURIER]

Il s’agit d’une fonction dont la variable est la fréquence f. Un signal périodique est ainsi
représenté par des raies, dont l’emplacement est fixé par la fréquence des oscillations
observées dans le signal x(t), et l’amplitude par la valeur des coefficients définis par
FOURIER.

Dans le sens inverse, connaissant le spectre X(f) d’un signal, c’est-à-dire l’énergie de chacune
des fréquences présentes dans le signal, on peut reconstituer sa forme initiale x(t) par la
transformée de FOURIER inverse :

Comme le signal X(f) permet de reconstituer x(t), il y a équivalence entre les deux
représentations, tout juste l’une est-elle une représentation temporelle et l’autre une
représentation dans l’espace des fréquences. C’est toutefois la représentation fréquentielle qui
est la plus utilisée.
Ainsi, l’analyse de FOURIER sert de base pour l’analyse des sons et pour la création de
signaux de synthèse.
Tous les sons ne sont pas perceptibles. De plus, en raison de limitations physiques, certains
équipements s’avèrent incapables de traiter certaines fréquences. On parle alors de bande
passante.

Définition 5 [Bande passante] L’intervalle de fréquences que peut traiter un système est
appelé bande passante.

Ainsi, la bande passante de l’oreille est l’intervalle de fréquences [15Hz; 20 kHz]. Pour les
signaux de parole, on estime que l’énergie est concentrée dans les fréquences inférieures à
4 [kHz]. D’où la bande passante du téléphone qui est de [300Hz; 3400Hz]. En fait, tout
système physique a une bande passante finie.

III - Image
3-1 Le système visuel humain
L’œil est un système complexe (figure 2.5). La lumière incidente est réfractée par la
cornée et dirigée vers la pupille ; la pupille est l’ouverture de l’iris par laquelle la lumière
pénètre dans l’œil. La lumière est ensuite réfractée une seconde fois en direction du fond du
globe oculaire où elle illumine la rétine. Cette dernière est composée d’une série de
récepteurs, appelés photorécepteurs, reliés à des cellules qui transmettent des signaux au nerf
optique.

5
FIG. 2.5 – Coupe latérale simplifiée de l’œil.
3 – 2 La lumière
La perception du signal visuel présente des similitudes avec celle du signal audio. De
fait, le fond de l’œil est tapissé de récepteurs qui envoient des influx électriques au cerveau
via le nerf optique. De plus, certaines couleurs ne sont pas perceptibles à cause d’un effet de
limitation de la “bande passante” de l’œil.
La lumière couvre une partie du spectre d’énergie électromagnétique. Un rayonnement
électromagnétique est en général constitué d’un certain nombre de longueurs d’onde (ou
fréquences) que les dispositifs dispersifs tentent de séparer en un spectre. Le spectre est soit
discret, soit continu.
Il est d’usage de définir les couleurs par leur longueur d’onde ; on passe aisément de la
longueur d’onde à la fréquence par le biais de l’expression :

c
f =λ
Où c = 3 x 108 [m/s] est la vitesse de la lumière.
Les longueurs d’onde du spectre visible s’étendent approximativement de 380 à 720 [nm].
Une source est caractérisée par :
(i) son rayonnement, mesurable dans un système de grandeur correspondant à l’action
proprement visuelle,
(ii) par le mélange des longueurs d’onde de cette énergie, mélange qui produit une sensation
de couleur. La lumière est donc une distribution d’énergie émise à certaines fréquences ayant
une certaine intensité.

FIG. 2.6 – Les longueurs d’onde associées aux couleurs.


6
Pour caractériser une couleur monochromatique, il suffit de connaître sa longueur d’onde λ et
la luminance L, expression qualitative de la brillance énergétique. Dans ces conditions, l’œil
se comporte donc comme un récepteur bivariant, la connaissance de λ et de celle de L étant
nécessaires et suffisantes pour caractériser l’impression visuelle créée.

3 – 3 Les espaces de couleurs

Une possibilité de représentation des couleurs consiste à utiliser un espace de couleurs


à k dimensions. Des expériences psycho visuelles d’égalisation ont montré qu’en combinant
trois stimuli de longueur d’ondes particulières, il est possible de synthétiser presque toutes les
couleurs existantes. Cette expérience peut s’effectuer à l’aide d’un système de reproduction de
couleurs de type additif ou de type soustractif.
Choisissons trois radiations monochromatiques que nous qualifierons de primaires. Le
problème sera de déterminer dans quelle mesure il est possible, à partir de ces trois couleurs,
de reproduire une radiation colorée quelconque et selon quelles règles quantitatives.
Dans le cas d’un mélange additif, l’expérience d’égalisation des couleurs se déroule
par exemple de la manière suivante : trois couleurs primaires A, B et C sont, après
pondération de leur intensité respectivement par a, b et c, projetées sur écran noir avec un
certain recouvrement comme l’illustre la figure 2.7.
En jouant sur les paramètres a, b et c, l’observateur essaie d’égaliser la couleur à
définir X avec le mélange additif a A + b B + c C.

FIG. 2.7 – Expérience d’égalisation d’une couleur X au moyen de trois couleurs primaires
A, B et C.

3 – 4 L’espace de couleurs additif RGB

Pour des raisons de standardisation, la commission internationale de l’éclairage (CIE)


a réalisé en 1931 l’expérience d’égalisation de couleur par mélange additif. Un système qui
s’imposa presque naturellement était fondé sur les trois couleurs monochromatiques, rouge
R (700 [nm]), vert V (546; 1 [nm]) et bleu B (435; 8 [nm]). Ce fut le système RGB.
On a ainsi déterminé pour ce système :
– les coordonnées trichromatiques désignées dans le cas d’espèce r, g et b ;
– les unités lumineuses respectives des trois primaires en imposant qu’une certaine source
blanche tombe au centre du diagramme ;
– à partir de ci-dessus, les coefficients de distribution pour une couleur quelconque.

Ceci est illustré sur la figure 2.8.

7
FIG. 2.8 – Courbes des coefficients de distribution des couleurs primaires

La figure 2.9 représente le diagramme chromatique-type dans le système RGB : chaque


couleur primaire est placée au sommet d’un triangle isocèle rectangle ; l’ensemble des
couleurs monochromatiques s’aligne sur le contour du diagramme, dit lieu spectral, tandis
qu’une radiation complexe se situe à l’intérieur du contour.

FIG. 2.9 – Diagramme chromatique RGB de la CIE.

3 – 5 Vers d’autres systèmes de couleurs : le système XYZ.

À l’usage, il s’est avéré que ce système RGB présentait un certain nombre


d’inconvénients du fait, en particulier que :
(i) en raison du choix des primaires, l’une des coordonnées trichromatiques était
toujours négative pour les radiations monochromatiques,
(ii) on risquait d’attribuer aux couleurs primaires une signification physiologique
qu’elles n’ont pas (puisque leur choix est arbitraire).

8
Afin de parer à ces inconvénients, la CIE a introduit, également en 1931, un autre
espace de couleurs appelé XYZ. Les composantes X, Y et Z qui décrivent un stimulus sont
liées aux composantes RGB par la relation matricielle suivante :

En normalisant le tri-stimulus XYZ par rapport à X +Y +Z, on obtient le système xyz. Une
particularité intéressante de ce nouveau référentiel est que seules deux variables, par exemple
x et y, sont indépendantes. Ces deux composantes sont appelées les composantes
chromatiques du stimulus. On a donc les relations :

Après transformation du stimulus original en deux composantes normalisées indépendantes x


et y, il est possible de décrire l’ensemble des couleurs par les deux variables de chrominance x
et y. Il en résulte un diagramme tel que celui représenté à la figure 2.10.

FIG. 2.10 – Diagramme chromatique défini par les deux variables de chrominance x et y.

9
Les couleurs monochromatiques sont représentées sur la partie non rectiligne du contour
(comme un U retourné). Les couleurs qui résultent d’un mélange additif de certaines couleurs
de base sont représentées à l’intérieur de la forme en U.
Il existe aussi certains point particuliers, comme le point d’égale énergie qui
correspond à une contribution égale des trois composantes de base X, Y et Z, ce qui
correspond à x = y = 1/3.
L’expérience d’égalisation des couleurs a montré qu’il suffisait de trois couleurs de base pour
synthétiser la quasi-totalité des stimuli colorés.
Comme le diagramme chromatique xy ne reprend que deux variables indépendantes, ce
diagramme est une version réduite de l’espace à trois dimensions tel défini par le cube de la
figure 2.11.
C’est dans ce genre d’espace qu’ont été représentées les couleurs du diagramme chromatique
approché à la figure 2.10 ; le diagramme tridimensionnel correspondant est illustré à la figure
2.12.

FIG. 2.11 – Espace tridimensionnel des stimuli produits par les composantes RGB.

FIG. 2.12 – Espace tridimensionnel des couleurs du diagramme de chrominance approché.

10
La dimension non représentée sur ce diagramme est celle de la luminance qui permet
d’éclaircir ou d’assombrir une couleur en modulant son degré de noir. Par exemple, en
modulant du minimum au maximum la luminance du point d’égale énergie, on passe du noir
au blanc en passant par toutes les teintes de gris. Chaque couleur possède une luminance
maximale dont la représentation graphique est fournie à la figure 2.12.

FIG. 2.12 – Diagramme chromatique xy et luminance maximale en chaque point.

Le diagramme chromatique xy est donc le lieu des couleurs de chrominance (x; y) de


luminosité maximale. En effet, un changement des proportions entre x et y conduirait
automatiquement à la perception d’une autre couleur. Les deux variables de chrominance x et
y peuvent se transformer en variables possédant une interprétation physique plus intuitive à
savoir la teinte et la saturation. La notion de teinte (hue en anglais) est associée à la longueur
d’onde, c’est-à-dire à la position le long du U retourné. La saturation exprime quant à elle le
degré de blanc ; elle est définie comme la distance entre le point d’égale énergie et la couleur
à définir.
La figure 2.13 illustre la décomposition d’une image dans les trois canaux RGB et HSI.

FIG. 2.13 – Décomposition d’une image en couleurs.

11
3 – 6 L’espace de couleurs soustractifs CMY.

La détermination des composantes RGB d’une onde s’opère par addition sur fond noir.
L’arrière-plan est donc supposé absorbant pour toutes les couleurs. Un tel système n’est pas
adéquat pour traiter l’impression sur feuille blanche car cette dernière réfléchit l’ensemble des
couleurs. Pour l’impression, on a donc défini d’autres systèmes de couleurs, complémentaires
au système RGB. Il s’agit par exemple du système Cyan, Magenta et Yellow (CMY),
complémentaire du système RGB et dont la somme produit le noir.
La figure 2.14 montre une image trouvée dans un catalogue et présentant un défaut
d’alignement des couleurs.

FIG. 2.14 – Défaut d’alignement des couleurs d’impression permettant de voir les 3
composantes de couleur CMY et la composante noire K.

Pour l’impression et comme la majorité des documents contiennent des traits noirs, on préfère
parfois ajouter d’emblée le noir aux composantes CMY, ce qui aboutit au système
quadrichromatique CMYK.

3 – 7 Les systèmes de couleurs en pratique.

Les standards de télévision analogiques (PAL, NTSC) définissent chacun les positions
de couleurs RGB dans le diagramme chromatique. Ces positions ne se situent pas sur le
pourtour. Autrement dit, les couleurs de base ne sont pas monochromatiques.

Comme les positions de ces systèmes ne coïncident pas, la totalité des couleurs d’un
système n’est pas représentable dans un autre système. D’autre part, un téléviseur n’est pas
réellement calibré à la fabrication et son usage produit une usure. Cela nous amène à
reconsidérer la signification physique réelle d’une couleur affichée par un téléviseur ou par
des moniteurs utilisés dans le monde informatique.

12
Pour désigner une couleur en infographie, on utilise généralement une quantification sur 8 bits
par composante de couleurs. Les couleurs sont alors représentées par un triplet de valeurs
exprimées en hexadécimal, en décimal (table 2.1) ou en binaire.

TAB. 2.1 – Table de correspondance de couleurs définies sur 8 bits.

3 – 8 Les fausses couleurs.


La représentation des valeurs d’une image nécessite 8 bits dans le cas d’une image
monochrome et 3 x 8 = 24 dans le cas d’une image RGB. Pour réduire le nombre de bits dans
le cas d’une image en couleurs, on réduit la taille de l’espace des couleurs en sous
échantillonnant l’espace RGB. Il est également possible de considérer les 256 valeurs d’une
image comme les 256 indices d’un vecteur tridimensionnel reprenant les composantes RGB
de couleurs. On parle alors de palette de couleurs ou de Color Look Up Table (CLUT).

3 – 9 La couleur des objets


La couleur d’un objet est significative de la réflectance de l’objet ainsi que de
l’éclairage. Si on suppose qu’une onde lumineuse isochromatique (c’à-d. blanche) soit
envoyée en direction de l’objet, sa surface absorbera certaines longueurs d’onde et en
réfléchira d’autres. On ne pourra donc jamais définir la couleur que comme la couleur liée à la
longueur d’onde dominante. De plus, la réflexion peut être spéculaire (effet de miroir) ou être
diffuse.
L’infographie utilise abondamment ces techniques pour créer des effets d’ambiance. Un
exemple, est fourni à la figure 2.16.

FIG. 2.16 – Une image de synthèse 3D.


13
3 – 10 Normalisation des couleurs

Question : Pourquoi normaliser les couleurs ?


Réponse :
La définition subjective des couleurs est trop vague pour servir dans différentes applications.
Prenons par exemple le cas d’une personne qui commande un vêtement de couleur rouge
après avoir consulté un catalogue mis sur Internet. Il apparaît ensuite que le bien commandé
est de couleur brune . . . Qui a tort dans ce cas ?
Si les espaces de couleur suffisent à définir une image, il faut plus pour reproduire une image
sur un écran. Un premier facteur important est le rapport d’aspect ; il s’agit du rapport entre la
taille horizontale et verticale. Ce rapport vaut 4/3 pour des téléviseurs classiques mais il est de
16/9 pour le format de télévision à haute définition (HDTV).

IV / Signal vidéo

Jusqu’à présent, nous avons supposé que l’image ne changeait pas dans le temps. Or
les signaux de télévision changent en fonction du temps, d’où le besoin d’une composante
temporelle dans la description d’une image. Il convient donc d’ajouter une autre définition : le
temps. On parle alors de signal vidéo plutôt que de signal image.

Le procédé mis en œuvre pour reproduire un signal vidéo sur un écran de télévision consiste à
afficher une nouvelle image à une fréquence élevée, à la manière d’un film. Cette fréquence
est supérieure à 25 [Hz], fréquence en dessous de laquelle on percevrait une discontinuité.
Aujourd’hui, la technologie permet d’atteindre une telle vitesse de rafraîchissement d’écran.
On parle de format de télévision progressif. Il n’en était pas ainsi au début de la télévision
analogique.

Pour parvenir à éviter un effet de scintillement alors qu’on ne parvenait pas à atteindre des
vitesses de rafraîchissement, on a inventé l’entrelacement et le format entrelacé. Dans sa
version européenne, le format consiste à constituer deux demi-images en prenant soit toutes
les lignes paires, soit toutes les lignes impaires d’une image, comme indiqué à la figure 2.17.

FIG. 2.17 – Description du format entrelacé.

Au lieu de 25 images par secondes, on obtient ainsi 50 demi-images, soit une vitesse
supérieure au seuil de sensibilité.

14
Trois standards de vidéo pour télévision analogique sont utilisés à travers le monde :
Format Description Pays
NTSC National Television Systems Committee États-Unis.
PAL Phase Alternation Line Europe sauf France.
SECAM Système Électronique Couleur Avec Mémoire France et Russie.

L’univers de l’image fait intervenir plusieurs facteurs : la mémoire, les exigences de vitesse,
la dépendance par rapport au matériel, l’organisation des données, la compression et la
représentation des données. Il suffit de consulter la figure 2.18 qui énumère des applications
typiques.

FIG. 2.18 – Aspects matériel et logiciel des images et les applications

Le signal vidéo est nettement plus complexe qu’un son. Il comporte des informations
visuelles, exprimées pour une image généralement sous la forme de trois couleurs
fondamentales pour tout point de l’espace, et une information temporelle née du mouvement
des objets.
De plus, le signal de télévision est un mélange du signal vidéo et de la partie audio ; il s’agit
d’un signal composite. Le signal composite occupe une bande de fréquences
d’approximativement 5 [MHz]. En pratique, on considère une bande de 8 [MHz] par signal
vidéo en Europe. La figure 2.19 donne l’occupation fréquentielle d’un signal vidéo PAL.

FIG. 2.19 – Spectre d’un signal vidéo PAL.

15
V / La numérisation
Un ordinateur n’est pas, par nature, apte à manier des sons ou des images. En effet,
ceux-ci sont constitués par des variations de pression ou par de l’énergie lumineuse
respectivement alors que l’ordinateur ne sait traiter l’information que sous la forme de 0 et de
1, c’est-à-dire discrète et non pas analogique. D’où le besoin de convertir les signaux.

5 – 1 Signaux analogiques ou numériques


Un signal x(t) analogique est une fonction continue pour tout temps t. Un signal
numérique est un signal temporel discontinu ; on le notera x[n] où n est l’indice d’un élément
pris dans l’ensemble d’instants {t0, t1,…}. On parle encore de signaux à temps discret.
La numérisation des signaux s’explique pour plusieurs raisons :
– Un ordinateur travaille exclusivement avec des données numériques,
– Grâce aux processeurs de traitement de signal modernes, traiter un signal
numérique est plus facile,
– Enfin, le stockage et la reproduction,
– les signaux numériques offrent une meilleure résistance au bruit, ce qui se
traduit pas une augmentation du rapport signal à bruit.
Ainsi, il est plus facile de régénérer un signal numérique d’un signal analogique comme
l’illustre la figure 2.20.

FIG. 2.20 – Amplification d’un signal analogique et régénération d’un signal numérique.

Pour le cas du signal sonore que l’on veut produire en sortie. Le bruit est un son
parasite qui peut être produit par les vibrations des composants électroniques ou les bruits de
quantification qu’on verra plus loin. La qualité sonore est proportionnelle au rapport signal à
bruit, exprimé en décibel (dB). Un rapport supérieur à 70 dB indique une bonne qualité
sonore, égal à 50 dB une qualité moyenne, et à 30 dB ou moins, un son de mauvaise qualité.

16
5 – 2 Processus de numérisation
La figure 2.21 reprend toutes les étapes du passage d’un signal analogique à un signal
numérique et celles de la conversion inverse.

FIG. 2.21 – Passage de l’analogique au numérique et conversion inverse.

La figure 2.22 reprend ces mêmes traitements avec une autre présentation.

FIG. 2.22 – Étapes intervenant lors de la numérisation d’un signal.

17
5 – 2 – 1 Échantillonnage

L’échantillonnage consiste aussi à enregistrer un nombre de représentations


instantanées du son, puis à les faire défiler à un taux variant entre 5000 et 100000 échantillons
par seconde, pour recréer le son. Comme pour le film, la fidélité de reproduction dépend du
taux d’échantillonnage.
Un signal numérique s’obtient en découpant le signal d’onde analogique en petits éléments
qui sont ensuite stockés sous forme d’échantillons numériques, d’où le nom d’échantillonnage
donné à ce processus. Dans le cas d’une image, les échantillons sont appelés pixels (pixel
pour “picture element”) ; il s’agit de points auxquels on associe une valeur dans une
représentation de couleurs.
Le nombre d’échantillons pris par seconde définit le taux ou fréquence d’échantillonnage.

Définition 6 [Fréquence d’échantillonnage]


Nombre de mesures effectuées dans un temps donné pendant la conversion d’un signal
analogique en données numériques.

Une fréquence d’échantillonnage de 22 kHz signifie que 22000 mesures sont effectuées par
seconde.
D’après SHANNON, la fréquence d’échantillonnage doit être égale au double de la fréquence
la plus élevée contenue dans le signal. Voici le théorème de l’échantillonnage :

Théorème 7 [SHANNON] Pour pouvoir reconstituer un son correctement, le nombre


d’échantillons pendant une seconde doit être le double de la largeur de bande de l’onde.

Autrement dit, pour un son dont la largeur de bande passante est de l’ordre de 4000 Hz
(téléphonie), il faut au moins 8000 échantillons par seconde. Pour le la du diapason, son pur
de 440 Hz, il en faut plus de 880 par seconde. Enfin, pour un disque compact (CD-audio),
sachant qu’un son audible atteint 20 kHz, les signaux sont échantillonnés avec une marge de
10% à 44,1 kHz.

Filtrage et repli de spectre

Un facteur important est celui de repli de spectre ou aliasing qui produit des
distorsions très désagréables s’il n’est pas maîtrisé correctement.
Lorsqu’on tente de synthétiser des fréquences plus hautes que la moitié du taux
d’échantillonnage original, ces fréquences ne sont pas effacées comme elles le sont par un
appareil audio réel. Au contraire, elles réapparaissent en des endroits aléatoires sous forme de
fréquences entièrement différentes donnant naissance au phénomène de repli de spectre.

Le phénomène de repli de spectre est illustré par la figure 2.23 : les échantillons
obtenus à la fréquence d’échantillonnage légèrement inférieure à 6 [Hz] ne permettent plus de
représenter les fluctuations rapides de la fonction à 6 [Hz], d’où erreur dans l’interprétation du
signal.

18
FIG. 2.23 – Repli de spectre ou aliasing.

La règle à respecter est que la plus haute fréquence prise en compte doit être inférieure à la
moitié du taux d’échantillonnage. Il faut donc filtrer, c’est-à-dire supprimer toute une série de
fréquences, avant d’échantillonner.
L’échantillonnage fournit une série de valeurs réelles. Mais comme la résolution de chaque
échantillon ne peut être continue pour des raisons de place de stockage et d’efficacité, on a
recourt à la quantification.

5 – 2 – 2 Quantification

La reproduction électronique des signaux utilise les éléments de comptage


informatiques, les bits, pour représenter les nombres issus de l’échantillonnage.
La représentation précise de l’amplitude d’un signal analogique nécessite un nombre infini de
bits puisque cette amplitude est par définition de nature continue.
En pratique, il faudra approximer l’amplitude par un ensemble de valeurs discrètes. On
parle alors de quantification.
Par exemple, la courbe originale de la figure 2.24 est approximée par une fonction en
escalier dont chaque marche s’est vue attribuer une valeur multiple de 0 ,5 comprise entre - 3
et +3. En prenant un pas entier pour incrément le long de l’axe des abscisses, l’approximation
est la suite de valeurs discrètes suivantes : 0, 1, 0.5, -1.5, ...

19
FIG. 2.24 – Quantification.

Un exemple complet d’échantillonnage est illustré à la figure 2.25. Les échantillons sont
quantifiés avant d’être convertis en une suite de valeurs binaires 0 ou 1. Cette dernière porte le
nom de codage PCM (Pulse Code Modulation).

FIG. 2.25 – Échantillons instantanés, quantifiés et codes PCM.

20
On peut coder non pas les valeurs telles quelles mais la différence d’une valeur par rapport à
la précédente. Cette technique porte le nom de DPCM (Differential Pulse Code Modulation) ;
elle est illustrée par la dernière ligne de la figure 2.26.

FIG. 2.26 – Échantillons instantanés, quantifiés, codes PCM et valeurs DPCM.

Lorsque l’analyse est faite par un système fonctionnant sur 8 bits, la valeur maximale
représentable est 256 (28 = 256) et toutes les valeurs devront être comprises entre [0 , 255].
Un échantillonnage du son en 12 bits autorisera 4096 valeurs, en 16 bits 65536 valeurs.
Chaque fois que l’on ajoute un bit de quantification, la fidélité progresse d’une puissance de 2
puisque, les amplitudes restant fixes, l’erreur sur l’approximation diminue. La théorie précise
que chaque bit additionnel améliore le rapport signal à bruit d’environ 6 décibels.

En pratique, un signal numérique est donc décrit par la fréquence d’échantillonnage et par le
pas de quantification. Par exemples :
– Son de qualité parole : quantification à 8 bits, 8000 [Hz].
– Son de qualité CD : quantification à 16 bits, 44100 [Hz].

Définition 7 [Débit] En multipliant le nombre de bits nécessaires à coder l’amplitude par la


fréquence d’échantillonnage, on obtient le débit associé à un signal. Il s’exprime en bits par
seconde [b/s].

Aux deux sons mentionnés avant correspondent dès lors respectivement des débits de 64 et
706 kilobits par seconde (Kb/s).

21
5 – 3 Passage de l’analogique au numérique et conversion inverse

La numérisation part du signal analogique pour en produire une série de bits ; le


processus inverse est appelé interpolation. Il est indispensable pour rejouer des signaux sur
des systèmes analogiques.
Pour produire n’importe quelle fréquence, le balayage de l’écran d’un téléviseur par
exemple, doit accepter des valeurs non entières. La technique utilisée est l’interpolation entre
des valeurs.
L’interpolation consiste à déduire une valeur à partir des ses deux voisins. La technique la
plus utilisée est l’interpolation linéaire. Des procédés plus complexes utilisent des
interpolations quadratiques ou polynomiales. L’interpolation la plus évoluée utilise la fonction
sinus hyperbolique sin(x)/x.
Hormis la fonction de sinus hyperbolique, toutes les techniques d’interpolation introduisent
un bruit dans le son synthétisé car elles ne font qu’approximer les valeurs d’un échantillon
véritable. Ce bruit s’ajoute au bruit du à la quantification.

Résumé
Voici un résumé des principales notions utilisées pour la description des signaux analogiques
et numériques.
Analogique Numérique
 Fréquence _ Bit, byte (octet)

 (Résolution) _ Fréquence d’échantillonnage


_ Quantification

 Bande passante _ Débit


_ Taux de compression

5 – 4 Faut-il préférer le numérique à l’analogique ?


Pour comparer les signaux analogiques et les signaux numériques, on distingue :
– la fidélité. Elle traduit la conformité au signal original.
– la qualité. Un signal de haute qualité est exempt de bruit.
Un signal numérique pourra tout au plus valoir, en termes de fidélité, un signal analogique.
Bien évidemment, on fait en sorte qu’il n’y a aucune différence perceptible entre un signal
analogique et ce signal analogique préalablement numérisé et interpolé. En ce qui concerne la
qualité, un signal numérique peut s’avérer nettement supérieur à son équivalent analogique.
Cela s’explique par les traitements que l’on peut effectuer sur un signal numérique.

VI / Éléments de la théorie de l’information

6 - 1 Principe de la compression

Une fois les données numériques obtenues, le travail n’est pas achevé. En effet, les
signaux numérisés représentent des quantités d’information (des débits) considérables
contenant une certaine redondance. Le principe de la suppression de redondance, est la raison
de la compression.

22
Prenons l’exemple de la phrase suivante :
Malgré la suppression de quelques lettres, la troisième version de la phrase est toujours
compréhensible alors que le nombre de lettres a diminué de 20%. La réduction de taille a donc
été possible en raison de l’existence d’une certaine redondance dans le message de départ.

La phrase contient des lettres redondantes. 37 lettres


L phrse contient des letres redodantes. 33 lettres
L phrse cotient des letre redodant. 29 lettres

Chaque lettre se caractérise par une certaine probabilité d’occurrence dans un contexte donné.
Par exemple, dans la langue française, un “e” est plus probable qu’un “z”.

6 - 2 Mesure de l’information
La théorie de l’information cherche à établir l’information inhérente à un processus
probabiliste ; elle part d’un principe qu’un événement certain n’apporte aucune information,
au contraire d’un événement rare lorsque celui-ci survient.
Considérons un événement aléatoire E qui se produit avec une probabilité p(E).

Définition 8 L’information propre de l’événement E, notée i(E) est le logarithme en base 2


de l’inverse de sa probabilité

Elle s’exprime en bit.

Si p(E) = 1, c’est-à-dire que l’événement E est certain, i(E) = 0 et l’information associée à E


est donc nulle. Par contre, si p(E) = 0,9, le fait que E se réalise apporte une certaine quantité
d’information. Dès lors, plus un événement est incertain, plus on lui attribue de l’information.
À la limite, un événement de probabilité nulle a une information propre infinie. Cependant, un
événement qui ne se produit jamais n’est pas très intéressant.

6 – 3 Notion d’entropie

La théorie mesure la redondance en comparant la taille initiale à l’entropie du


message.

Définition 9 [Entropie] Soit un alphabet X de N lettres, l’entropie de cet alphabet, noté


H(X), est l’opposé de la somme du produit des probabilités multipliées par leur logarithme
en base 2

L’entropie est exprimée en nombre de bits,

23
6 - 4 Codage
Un codage se réalisera en remplaçant des lettres ou des mots par d’autres plus courts.
D’un point de vue théorique, le codage le plus efficace est celui qui se rapprochera le plus de
l’entropie du message initial.
La notion d’entropie joue un rôle essentiel dans la caractérisation du contenu d’information
intrinsèque d’un message ; ce rôle est explicité par le théorème suivant :

Théorème Le nombre de bits minimum pour coder un symbole est toujours supérieur à
l’entropie de source.

Autrement dit, l’entropie d’une source fixe le nombre de bits minimum moyen nécessaire à
coder un symbole de la source. Il n’est pas possible de descendre en-dessous de cette valeur
minimale.

VII / La compression

Un signal échantillonné et quantifié représente généralement un flux binaire, ou débit,


trop important pour les applications courantes. Pour réduire le débit, il faut recourir à la
compression.
L’entropie détermine la limite inférieure pour représenter un échantillon. Si l’entropie vaut 3
bits par lettre, il ne sera pas possible de coder les échantillons avec moins de 3 bits, quelle que
soit la technique mise en œuvre.
Le taux de compression est une mesure de l’efficacité de représentation. Il est défini comme
suit :

7 - 1 Compression sans perte

Jusqu’à présent, nous n’avons parlé que du cas de la compression qui permet de
reconstituer parfaitement le message original au départ du message comprimé. Il s’agit donc
d’un codage sans perte.
Dans le cadre de l’imagerie médicale, le taux d’une compression sans perte pour une
image médicale, est compris entre 1 et 3. Un tel taux de compression, typique pour des images
naturelles, ne peut satisfaire les exigences d’applications multimédia.

7 - 2 Compression avec pertes

Il se peut qu’une partie de l’information présente théoriquement ne soit pas


perceptible. Ainsi, l’œil humain n’est pas capable de voir les atomes sans microscope. Aussi
serait-il inutile de décrire les objets au niveau atomique. Les techniques qui suppriment cette
information superflue font partie des techniques perceptives de compression. Dans le cas du
son et de l’image, le principe revient à supprimer, par filtrage, toutes les fréquences que
l’oreille ne peut entendre ou que l’œil ne peut percevoir, en tenant compte du contexte. Suite à
la suppression d’information, On parle alors de compression avec pertes.

24
7 – 3 Classification de l’ensemble des techniques de compression
Dans cette section, nous allons tracer les grandes lignes des algorithmes de
compression des sources multimédia et mentionner les standards les plus répandus.

7 – 3 - 1 Compression de données textuelles

Dans le cas de la transmission d’un texte les erreurs sont minimes, pour ce type de
signal, il n’est donc question que de codage sans perte.
Les techniques rencontrées dans les applications sont des variantes des trois techniques de
codage suivantes :

Codage RLC (Run Length Coding). Le principe employé pour ce codage est simple : toute
suite d’octets de même valeur est remplacée par la valeur, à laquelle on associe le nombre
d’occurrences suivantes.

Exemple
AAABBREEEGGG = 12 octets
#3A#2BR#3E#3G = 13 octets => inutile

0000001111100000 = 16 octets
#60#51#50 = 9 octets

Codage LEMPEL, ZIV, WELCH (LZW). Cette méthode consiste à remplacer les chaînes
de caractères rencontrés précédemment par leur adresse dans une table au fur et à mesure du
codage. Le récepteur procède de façon symétrique et reconstitue le dictionnaire par le même
algorithme.

Codage de HUFFMAN. Il s’agit d’une méthode de codage purement statistique consistant à


coder les lettres suivant leur probabilité d’apparition. À la lettre la plus fréquente est associé
le mot de code le plus court ; le mot de code le plus long s’utilise pour la lettre la moins
probable.

Etude du fonctionnement du codage de HUFFMAN.

La première étape de la méthode consiste à réorganiser les symboles par ordre de probabilité
décroissante. Chaque symbole est alors associé à une feuille d’un arbre en construction. On
relie ensuite les feuilles en créant un nœud auquel on associe la somme des probabilités des
deux symboles correspondants. À chaque étape, on fusionne les 2 nœuds (ou feuilles) ayant
les probabilités les plus faibles. On répète ce processus jusqu’à ce qu’il ne reste plus qu’un
seul nœud dont la probabilité associée vaut 1.

Exemple.

Considérons une source à 4 symboles A1, A2, A3, A4 respectivement de probabilité


p(A1) = 0,5 ; p(A2) = 0,25 ; P(A3) = 0,125 ; p(A4) = 0,125. Dans cet exemple, les symboles ont
déjà été réorganisés par ordre décroissant de leur probabilité respective. L’arbre est construit
comme indiqué à la figure 2.27.

25
FIG. 2.27 – Illustration de la méthode de HUFFMAN.

Une fois l’arbre construit, on associe à chaque branche de l’arbre un symbole 0 ou 1. Il suffit
de redescendre l’arbre jusqu’aux symboles pour déterminer le code correspondant :

Appelons l(Ai) le nombre de bits associé au symbole Ai. Dès lors, nous avons :

Le nombre moyen de bits utilisés par symbole, M, est donné par :

Or, l’entropie de la source est donnée par :

Le code obtenu par la méthode de HUFFMAN est optimal.


Cet exemple pourrait faire croire que le code de HUFFMAN conduit toujours à M = H(X). Ce
n’est certes pas toujours le cas et, de plus, la solution n’est pas nécessaire unique. Ainsi, dans
l’exemple précédent, on peut permuter les mots de code de A3 et A4 sans affecter la valeur de
M.

26
7 – 3 - 2 Compression audio
La représentation numérique de base est le PCM (Pulse Code Modulation). Elle n’est
rien de plus que le signal échantillonné quantifié. Selon le niveau qualitatif souhaité, la
fréquence d’échantillonnage sera choisie entre 7 et 78 [kHz]. La résolution sera comprise
entre 8 et 16 bits.

D’autres techniques sont :

DPCM Par cette technique, la compression s’obtient en codant la différence entre deux
valeurs échantillonnées successives plutôt que les valeurs elles-mêmes, ce qui nécessite un
plus petit nombre de bits.

ADPCM (Adaptive Differential Pulse Code Modulation). Il s’agit d’une technique de


transformation d’un son analogique en valeurs numériques, avec compactage final de l’ordre
de 2 à 4, selon l’algorithme utilisé. La méthode consiste à coder la différence entre un
échantillon et la valeur prévisible de l’échantillon suivant. Elle est utilisée par plusieurs cartes
son mais aussi dans les standards de l’ITU pour des transmissions téléphoniques numériques.
Il existe trois variantes (A, B et C) de l’algorithme.

Codage adaptatif. Dans le cas particulier des signaux audio, on peut utiliser les
caractéristiques psycho-acoustiques de l’oreille humaine pour définir des algorithmes plus
efficaces encore.
En effet, il se produit dans la perception auditive un effet de masquage par lequel les sons
contenant des niveaux faibles ne sont pas perçus. En conséquence, avant la compression, on
analyse le signal par bandes de fréquences dont on mesure le niveau. Les bandes contenant
des signaux de faible amplitude sont supprimées. Plusieurs algorithmes de compression sont
basés sur ce principe. Par exemple, le procédé MUSICAM a été choisi pour la compression
des signaux audio dans le format MPEG-1.

CELP Code Excited Linear Predictor. Le principe de cette méthode est similaire à celui de
l’ADPCM : on cherche à prévoir les échantillons suivants de manière à ne devoir coder que la
différence. Plus la prédiction concorde avec la valeur échantillonnée et plus la différence sera
faible. Utilisé pour des signaux de parole, le CELP comprend un algorithme de synthèse
vocale en guise de prédiction. Ce type d’algorithme sert à obtenir des hauts taux de
compression, pouvant conduire à des débits inférieurs à 20 [kb/s].

Voici quelques standards de compression numériques audio :


TS GSM 06.10 Cette norme a été définie par l’ETSI pour le codage de parole pour GSM. Elle
est conçue pour offrir un débit de 13 [kb/s] et se prête à des transmissions de mauvaise
qualité.
Famille G.72x Cette famille de standards résulte de travaux de l’ITU pour permettre des
communications à bande étroite sur réseau téléphonique. Les standards peuvent être utilisés
dans diverses applications allant de la voix par modem à la vidéoconférence où ils
s’utiliseront en conjonction avec la norme H.261 de compression vidéo.

Le tableau 2.2 reprend les techniques de compression pour la voix.

27
300 à 3400 Hz

De 0 à 8 KHz /2

300 à 3400 Hz

∈ H 323 et H 324

TAB. 2.2 – Résumé des standards de compression de la voix et leurs applications

MPEG-1 audio. La norme de codage audio comprise dans MPEG-1 part d’un découpage en
une série de 32 canaux fréquentiels de bande étroite, appelés sous-bandes. La figure 2.28
montre le schéma simplifié du codeur MPEG-1.

FIG. 2.28 – Schéma simplifié d’un encodeur audio MPEG-1.

Dans un tel schéma, chaque sous-bande est traitée indépendamment. Les signaux PCM à
l’entrée ont été échantillonnés à 32 ; 44,1 ou 48 [kHz] sur 16 ou 20 bits. La première étape
consiste à découper le signal en 32 sous-bandes, chacune étant par la suite sous-
échantillonnée par un facteur 32 (notation 32 sur le dessin). Suit alors une mise à niveau des
32 signaux de sortie, qui sont ensuite quantifiés et codés. Le modèle psycho-acoustique
MUSICAM est la partie qui utilise les effets de masquage pour augmenter l’efficacité de

28
codage sans altérer la perception des sons. Il agit sur la quantification et le codage de chacune
des sous-bandes.
La partie audio (partie 3) de la norme MPEG-1 sert au codage de son au format MP3.
Le standard de compression audio de MPEG-2 est une extension de la norme MPEG-1. On y
a ajouté la possibilité de représenter jusqu’à 5 signaux haute fidélité, un support pour
plusieurs langues, des modes de compression à bas débit (pouvant aller jusqu’à 8 [kb/s]) et
des fréquences d’échantillonnages supplémentaires.
Le format MP3, bien que largement répandu, n’en reste pas moins soumis à des contraintes.
C’est la raison pour laquelle certains ont développé des formats basés sur des technologies
libres de tout droit.
AC-3. Le système AC-3 développé par DOLBY est du même type que MPEG-1 : découpage
en sous-bandes et modèle psycho-acoustique. Il a été inclus dans les spécifications DAVIC
qui définissent les services de distribution de télévision numérique.

7 – 3 – 3 Compression image

Différentes méthodes sont utilisées pour la compression d’images fixes, les plus
simples se contentant de réduire le nombre de bits servant à coder les couleurs de base (RGB).
L’ISO et l’ITU ont été à l’origine de plusieurs initiatives pour définir une norme pour la
compression des images. Les images ne contenant que deux couleurs (noir et blanc) sont
traitées par des algorithmes de type RLC. C’est le cas des algorithmes utilisés pour la
transmission de fax.
La tâche est plus complexe lorsqu’il s’agit de coder des images naturelles en couleur. Le
groupe JPEG de l’ISO a relevé ce défi. Le principe de la norme de codage JPEG est le
suivant :
(Le schéma de la figure 2.29 illustre le mécanisme de compression et de décompression sous
forme graphique) :

FIG. 2.29 – Codec (codeur-décodeur) JPEG.

29
1. L’image est tout d’abord convertie au format YC bCr pour des raisons d’efficacité de
codage.
2. Le signal de luminance (Y) et les signaux de chrominance sont ensuite divisés en
blocs de 8 x 8 pixels.
3. On applique une analyse fréquentielle, appelée Transformée en Cosinus Discrète ou
Discrete Cosine Transform (DCT), dont le principe est similaire à celui de l’analyse de
FOURIER, à chaque bloc de 64 pixels. On passe ainsi d’une représentation spatiale de
64 pixels à une représentation fréquentielle avec une composante continue donnant le
niveau moyen du bloc.
4. Les coefficients de la représentation fréquentielle sont quantifiés avec une précision
plus faible pour les hautes fréquences étant donné que l’œil ne les perçoit pas.
5. Un codage entropique de HUFFMAN (codage sans perte) est finalement appliqué aux
coefficients.

Avec JPEG, des taux de compression de l’ordre de 10 sont possibles sans altération visible de
l’image. La figure 2.30 montre deux images et le taux de compression utilisé.

(a) (b)
FIG. 2.30 – (a) image originale, (b) image comprimée avec un taux de compression de 14.

JPEG peut fonctionner suivant différents modes, séquentiel, progressif ou hiérarchique.

– Le mode séquentiel est le mode de fonctionnement habituel et le plus performant du


point de vue de l’efficacité de codage. Il consiste à coder bloc après bloc en partant du
coin supérieur gauche.
– Dans le mode progressif, l’encodeur parcourt plusieurs fois l’image et ajoute des
détails au fil des parcours. Par exemple, lors du premier parcours, seule la valeur de la
composante continue de chaque bloc est rendue à l’écran. Viennent ensuite les signaux
à basse fréquence puis finalement les petits détails.
– Quant au mode hiérarchique, il revient à traiter l’image comme une série d’images à
plusieurs niveaux de résolution dont la recombinaison reproduit l’image originale.

Le mode séquentiel est préférable au mode progressif du point de vue de l’efficacité de


compression alors que la visualisation d’une image au format progressif offre plus de confort.
Le mode hiérarchique sert principalement à assurer la compatibilité entre terminaux capables
de projeter des images de taille différente.

30
Norme JPEG2000

Le comité de normalisation JPEG a entrepris des travaux pour définir une nouvelle
norme de compression image. Cette norme, appelée JPEG2000, est basée sur le principe de
codage en ondelettes. La norme permet également de comprimer prioritairement une zone
spécifique de l’image appelée région d’intérêt (Region of Interest, ROI). Cette notion est
illustrée à la figure 2.31.

FIG. 2.31 – Deux images comprimées avec un même taux de compression ; la seconde
concentre l’effort de compression dans une région d’intérêt.

Autres formats

Pour coder des graphiques et des images simples, on a vu apparaître le format GIF
(Graphics Interchange Format), abondamment utilisé sur le réseau Internet. Le mode de
compression du format GIF est basé sur l’algorithme LZW ( Il ne s’agit néanmoins pas d’un
standard).

7 – 3 – 4 Compression vidéo

Vu la quantité d’information que représente une séquence vidéo, la complexité d’un


codeur-décodeur (codec) vidéo est d’un autre ordre de grandeur que celui pour image fixe. Il
existe plusieurs normes de compression vidéo dont les plus connues et les plus utilisées
appartiennent aux familles H.26x et MPEG-x.

Toutes ces techniques exploitent deux types de redondance :

1. la redondance entre les valeurs des pixels de blocs voisins d’une même image et
2. la redondance entre images successives.

Elles donnent respectivement naissance aux techniques de codage intra et inter.

31
Pour le codage intra, le problème s’apparente à celui de JPEG puisqu’il n’y a qu’une
image à considérer. De ce fait, on supprime la redondance en exploitant les caractéristiques
d’une transformée en cosinus discrète (DCT), tout comme pour JPEG. La mise au point d’une
méthode capable d’exploitation de la redondance entre images successives fut plus laborieuse.
L’idée imaginée pour la première fois dans le codeur H.261 consiste à prédire les
images suivantes, appelées trames dans le jargon du codage d’image, à partir de l’image
traitée. Il y a donc une distinction entre l’image codée en intra (trame I) et l’image prédite
(trame P). Dans MPEG, on fait mieux encore puisqu’on définit des trames B qui se situent
entre des trames I et P. Les trames B sont prédites à la fois à partir d’une image précédente
mais aussi d’une image suivante.
Le dessin de la figure 2.32 permet de comprendre le mécanisme.

FIG. 2.32 – Schéma de codage temporel dans MPEG.

Au départ, on code une image I. Cette image ne fait aucune référence à une autre image. À
partir de cette image, l’algorithme de l’encodeur calcule une prédiction et code la différence
entre la prédiction et l’image ; c’est une image P. Cette image P sert elle même à prédire une
autre image P, jusqu’à ce qu’il soit décidé de coder à nouveau une image I. Entre les images I
et P, on utilise la prédiction bidirectionnelle cette fois sur base des images P ou I les plus
proches. C’est ainsi qu’on parvient à glisser deux images B entre des images I et P sans
dégradation perceptible de la séquence.
L’ensemble constitué d’une image I et des images prédites est appelé Group of Pictures
(GOP).

Voici un résumé des principales caractéristiques des normes H.261 et MPEG-1 dans le
tableau suivant :

32
Multiplexage des données

Il ne suffit de pas créer un flot de bits, appelé flux ou bitstream, comprimé par signal
composant la séquence audio-visuelle pour arriver à un flux complet. Il faut également
entrelacer les données ; ce problème est illustré à la figure 2.33. La manière de constituer le
flux binaire est spécifié par toute norme de compression.

FIG. 2.33 – Multiplexage : création d’un flux composite.

MPEG-2 : les notions de profils et de niveaux


La norme MPEG-2 est le résultat de la seconde phase de travaux menés par le groupe
MPEG de l’ISO. À l’origine, il s’agissait de définir une norme permettant le codage de
signaux à haute définition et de qualité studio, ce qui n’était pas possible avec MPEG-1. Au
fil des travaux, il fut décidé de normaliser une série d’outils fonctionnant au choix suivant des
profils (profiles en anglais) et des niveaux (levels en anglais). Un profil spécifie une syntaxe
de flux de bits (bitstream) ainsi qu’un jeu de contraintes propres à une application. Les
niveaux représentent eux la résolution de l’image. Ainsi, le main level est défini pour des
images au format CCIR601–la norme CCIR601 spécifie le format des images numériques de
qualité studio. Le décodeur le plus usuel est dénommé MP@ML pour main level@main
profile.
La norme DVB, qui couvre tous les aspects (transmission, sécurité, compression, etc) de la
diffusion de signaux de télévision numérique terrestre ou par satellite, englobe la majorité des
éléments de la norme MPEG-2.

MPEG-2 : “program stream” et “transport stream”


MPEG-2 a aussi apporté une autre nouveauté à savoir la distinction entre “program
stream” et “transport stream”. Le program stream est un flux tel qu’il se présente
habituellement. Le transport stream est un flux adapté à des conditions de transmission
particulièrement sévères ; par exemple, ce flux est divisé en paquets d’une taille fixe de
288 octets. Dans des services distribués par satellite, on doit obligatoirement utiliser un
transport stream sous peine d’avoir un service de qualité inacceptable.
Dans le même état d’esprit, l’ITU a produit la norme H.263 pouvant travailler à des
débits inférieurs à 64 [kb/s], objectif que cherche à atteindre l’ISO, dans un cadre plus
générique, à travers la définition de la norme MPEG-4.

MPEG-4 : une norme pour les faibles débits


Pour des applications professionnelles de télévision, MPEG-2 est la solution la plus
utilisée. Il n’est cependant pas possible de produire des signaux à quelques [kb/s] avec cette
norme.

33
Pour les faibles débits, on a développé la norme MPEG-4. L’objectif de cette norme était
ambitieux ; MPEG-4 couvre toute la plage des débits inférieurs à 1 [Mb/s], pour permettre
également le codage de signaux de synthèse et offrir des fonctionnalités de manipulation du
contenu vidéo.

MPEG-7 : une norme pour caractériser le contenu vidéo


Les travaux relatifs à MPEG-4 étaient à peine terminés que démarraient déjà ceux de
MPEG-7. MPEG-7 vise à normaliser des descriptions du contenu audio-visuel. Dans une
chaîne typique de traitement où interviendrait MPEG-7, il y aurait une extraction des
caractéristiques d’une scène, la représentation de ces caractéristiques par MPEG-7 et enfin la
possibilité d’effectuer des recherches avec des outils spécifiques. La norme finale s’avère
intéressante pour des applications interactives de configuration statique.

MPEG-21 : une norme pour interfacer des objets multimédia


Cette norme vise à permettre l’interfaçage d’objets multimédia au sens large. On peut
la voir comme une extension de la norme MPEG-7.

Le format QuickTime
Parmi les technologies de compression, il faut citer le format QuickTime développé
principalement par la société APPLE. Cette technologie a joui d’une certaine notoriété par le
passé mais elle cède actuellement le pas aux normes MPEG.

VIII / Formats et conversion

La figure 2.18 mentionnait déjà différentes applications du monde de l’image aux


objectifs distincts. Pour des raisons commerciales et historiques, la normalisation tarda à
définir des formats suffisamment génériques pour couvrir une large panoplie d’applications. Il
en résulte qu’aujourd’hui le nombre de formats son ou image est impressionnant.
Heureusement, cette tendance a été freinée dans le monde de la vidéo par l’apparition du
standard MPEG-2 dont la généricité s’est avérée suffisante.

8.1 Audio
Outre les formats audio associés directement aux standards vus auparavant, on
distingue les formats issus d’applications de synthèse sonores. Le plus célèbre d’entre eux est
le format MIDI (Music Instrument Digital Interface), défini par le groupement industriel
MIDI MANUFACTURERS ASSOCIATION, qui en plus d’être un format, décrit l’interface
entre des instruments de musique et des ordinateurs. Ainsi, ce format précise des données
relatives à l’instrument connecté, il a ses propres messages (entre périphérique MIDI) et
intègre des événements temporels.
Née en 1981, cette norme pour les instruments de musique permet de travailler
simultanément sur des appareils très nombreux et très différents ; ils peuvent communiquer
les uns avec les autres, et échanger des sons et des commandes. Matériellement, la norme
MIDI repose sur la définition de certaines notions (canaux, messages, instrument maître, . . .)
et une définition précise des connecteurs, du codage, des vitesses de transmission des
données.
Sur le plan logiciel par contre, le protocole MIDI se caractérise par une grande facilité
d’extension, mais aussi par la non-obligation pour les constructeurs de l’implémenter en
totalité. On distingue deux catégories de fichiers son (figure 2.34).

34
FIG. 2.34 – Description de types de fichier son.

La conversion de formats est possible à l’intérieur d’une même catégorie de signaux ; elle a
peu de sens entre catégories.

8.2 Image
De nombreux formats d’images ou de graphiques ont été créés pour le stockage et le
traitement d’images fixes. La liste suivante, non exhaustive, reprend certains d’entre eux
suivant des catégories liées à une fonctionnalité.

8 – 2 – 1 Interface graphique
Il y a différentes façons d’interagir avec un ordinateur. L’une d’elles est l’utilisation d’une
interface graphique GUI (Graphical User Interface). Chaque interface utilise ses propres
formats de données d’échange entre ordinateurs.
Ainsi, BMP ou BitMaP est le format d’images bitmap défini par MICROSOFT pour les
besoins de son interface graphique WINDOWS, ce qui le rend quasiment incontournable. Il
permet de modéliser pratiquement tous les types d’images matricielles, qu’elles soient ou non
compressées.
Le format PICT est le format répandu dans l’univers Macintosh mais il est spécifique à cet
environnement et n’est pas pris en compte pour les autres plateformes.

8 – 2 – 2 Applications sur ordinateur


Les formats “raster” se caractérisent par le fait qu’ils représentent un certain nombre
de pixels par centimètre carré. Ces formats trouvent leur origine dans les applications pour
ordinateur.

Le format GIF (extension *.gif). Le format GIF est l’un des formats les plus répandus,
développés par le serveur américain COMPUSERVE, pour faciliter l’échange de fichiers
graphiques.
Avec ce format, l’image est analysée ligne par ligne. Le codage est effectué sur 8 bits (256
couleurs), mais il offre aussi la possibilité de stocker conjointement trois plans images, ce qui
permet de simuler un codage sur 24 bits.
L’utilisation du format GIF a posé problème lorsque que la société UNISYS a décidé de faire
valoir son brevet définissant l’algorithme de compression LZW auquel GIF fait appel.
Néanmoins, le brevet est tombé dans le domaine public en juin 2003.

Le format PNG (extension *.png). En réponse aux difficultés rencontrées pour l’utilisation
du format GIF, Internet propose un autre format pour les transmissions d’images fixes : le
format PNG. Ce format permet aussi bien de coder les images avec un algorithme de type

35
JPEG que GIF, c’est-à-dire qu’il est capable de représenter des images naturelles ainsi que des
graphiques.

Le format TIFF (extension *.tiff). Le format TIFF a été créé pour fournir des images
scannées. Il est un des plus puissants pour coder tous les types d’images, mais en même
temps, un des plus difficiles à utiliser.

Le format FlashPix. Le développement du format FlashPix s’appuyait sur le même principe


que le format Photo CD: stocker une image suivant plusieurs niveaux de résolution. En le
créant FlashPix, MICROSOFT, KODAK, HEWLETT-PACKARD et LIVE PICTURE ont
proposé un format indépendant de l’environnement logiciel et qui, en plus de l’image multi-
résolution codée en JPEG, contient de l’information relative au type de jeu de couleurs utilisé
et aux paramètres de visualisation (contraste, angle de rotation, …).

8 – 2 – 3 Applications génériques
Des applications génériques intègrent aussi bien des graphiques que des images. De
plus, il faut pouvoir manipuler les objets qui composent la scène. Divers formats de ce genre
sont apparus.
Ils sont bien souvent intimement liés au matériel en raison des opérations de manipulation
particulières qu’ils permettent.

Le format CGM. (Computer Graphics Metafile). Il s’agit d’un format développé par l’ANSI
(American National Standard Institute) permettant de traiter indifféremment des graphiques
de nature complexe et des images définies pixel par pixel.

Le format EPS (extension *.ps ou *.eps). Défini par la société ADOBE, il s’agit du format
associé à un langage de description de pages appelé PostScript, complet mais relativement
complexe. ADOBE propose maintenant une extension de PostScript, Acrobat, destinée à
servir de format de stockage et d’échange de documents multimédia.

Le format PDF. Le format PDF est une extension du PostScript. Ce format s’est popularisé
grâce à la mise à disposition d’outils de visualisation gratuit. Pour contrer l’influence
d’ADOBE et promouvoir l’émergence du livre électronique, un consortium formé
d’industriels, nommé OPEN EBOOK FORUM, a développé la spécification Open eBook
Publication Structure Specification (OEBPS) permettant, sur base d’éléments XML, définir
à la fois du contenu, une structure et une présentation.

Il serait laborieux d’analyser toutes les conversions entre formats. Signalons seulement que
les conversions sont souvent possibles mais qu’il est rare qu’un format converti contienne la
même information. Il en résulte parfois une perte en qualité et il se peut même que certains
traitements ne puissent plus être appliqués après conversion. La figure 2.35 montre une
situation typique de conversion entre formats image.

36
FIG. 2.35 – Conversion entre formats image.

Comment reconnaître un format ?


Il existe deux moyens de reconnaître le format d’un fichier de type image : par l’extension du
nom du fichier ou par le contenu des premiers octets du fichier. Ainsi, un fichier au format
GIF se termine généralement par l’extension gif. De même, il débute par : GIf89a...

8.3 Vidéo
Les normes MPEG-x et H.26x définissent une syntaxe du flux de bits mais pas la
manière d’enregistrer les informations.
Malgré son succès, MPEG-x n’est pourtant pas le premier procédé de compression numérique
à avoir été implémenté. Appelé DVI (Digital Video Interactive), Indeo est un procédé de
compression vidéo similaire à MPEG développé il y a plusieurs années par I NTEL pour le
marché des PCs. Le format n’a jamais été adopté par la communauté parce qu’il exigeait un
matériel très particulier et parce qu’INTEL se chargeait de la compression.

8 – 3 – 1 Codeurs en cascade et transcodage


La conversion entre formats vidéo est un thème délicat. En effet, il est rare que le
producteur connaisse le type de réseau utilisé pour la transmission du signal audio-visuel. Or,
les débits en jeu sont énormes ; il faut à la fois pouvoir stocker les documents et les
transmettre. Une première solution consiste à archiver en comprimant sans perte. Cette
solution est malheureusement inutilisable dans la majorité des cas. L’alternative consiste à
coder à un débit élevé (avec perte) mais largement au-delà du débit nécessaire à la
transmission, le signal à transmettre étant obtenu à partir de la version codée intermédiaire.
Cette opération porte le nom de transcodage. Elle est illustrée à la figure 2.36.

37
FIG. 2.36 – Transcodage (branche de gauche).

Le transcodage est problématique pour deux raisons :


1. le second codeur code les défauts de la séquence produite par le premier codeur, ce qui
introduit une perte de qualité par rapport à un codage direct vers le débit final.

2. un encodeur est optimisé pour coder une séquence originale ayant certaines propriétés
statistiques. Une modification des propriétés statistiques de ce codeur introduit une
perte de qualité tout à fait générale.

Aussi, dans la mesure du possible, est-il conseillé d’opter pour une compression en une étape
unique.

8 – 3 – 2 Marquage et chiffrement
Différentes techniques ont été proposées pour protéger une œuvre. De nombreux
constructeurs misent sur l’ajout de filigranes dans le contenu. Cette opération porte le nom
d’aquamarquage ou watermarking. Le principe de la technique est illustré à la figure 2.37.
Un filigrane est inséré dans le contenu audio-visuel à l’émetteur. Ce filigrane, invisible et
inaudible, accompagne le signal utile jusqu’au récepteur.

FIG. 2.37 – Schéma d’un processus de protection par watermarking.

La protection peut aussi s’effectuer par chiffrement. Le chiffrement peut être total ou partiel.

38
IX / Autres types de signaux

Nous avons analysé les principaux types de signaux multimédia : son, image et vidéo.
Ils représentent le gros du contenu d’une application mais ils n’en constituent pas le cadre. Le
cadre comprend encore les signaux échangés pendant le déroulement de l’animation, le texte,
les signaux de synchronisation, etc.

9-1 Quelques normes concernant le texte


Afin de permettre un échange de texte à travers des environnements hétérogènes, dans une
application de messagerie électronique par exemple, le jeu de caractères utilisé suit le code
ASCII. Ce code associe un nombre à chacun des 128 caractères considérés, de sorte à pouvoir
retrouver la lettre indépendamment du système d’exploitation. Unicode est une extension de
ce code contenant tous les accents et caractères répertoriés dans le monde.
Le code ISO8859 est incompatible avec l’unicode car ce dernier standard représente certains
caractères au moyen de 2 octects, contrairement à la norme ISO8859.

9 - 2 Formats des documents électroniques


Comme le montre la figure 2.38, un document multimédia interactif se compose de
quatre parties :
1. le contenu
2. la structure (organisation des paragraphes, place des éléments constitutifs, . . .)
3. les éléments de présentation ; il s’agit de définir, par exemple, les polices de caractère,
le format de la page
4. les éléments comportementaux. Ces derniers ne sont présents que s’il s’agit d’un
document interactif.

FIG. 2.38 – Composantes d’un document multimédia interactif.

Décrire un document multimédia sous la forme de 4 éléments constitutifs met en lumière la


complexité intrinsèque de ce type de document. La technique de production de ces 4 éléments
requiert plusieurs types de maîtrise. Par ailleurs, les solutions technologiques diffèrent
également.
Ainsi, les éléments comportementaux sont généralement mis en œuvre par le biais d’un
langage de programmation, comme le javascript ou le Java.

Langages de balisage
À un autre niveau, on retrouve les normes qui définissent la mise en page des
documents. Parmi celles-ci citons l’HTML (HyperText Markup Language) qui fixe la
présentation (sommaire) des pages envoyées sur Internet et le standard SGML de l’ISO dont
est dérivé le langage HTML.
Pour améliorer le contrôle de la présentation (fontes, couleurs, emplacement, …), il est
possible de joindre des feuilles de style aux pages HTML. Ces feuilles de style sont appelées
Cascading Style Sheets (CSS).

39
La norme ISO 10744 définit le langage Hytime. Ce langage étend les fonctions applicables
aux documents SGML et il fournit des notions de synchronisation spatiale et temporelle.
Le langage XML a été développé après la norme HTML-4.0 pour permettre l’inclusion aisée
de documents structurés ; c’est un langage de balisage qui présente l’information et intègre
des balises définissant sa structure. Il est souvent utilisé pour la mise en page de documents
produits à partir d’une base de données.
On peut également citer le cas du compact HTML (cHTML) qui constitue un sous-ensemble
de l’HTML ; il a été développé pour satisfaire aux contraintes des communications Internet
mobiles (i-mode).

X/ Quelques exemples de normes


10 - 1 La vidéoconférence
En 1990, l’ITU définissait pour la première fois de son existence une famille de
normes. La norme H.320 regroupa ainsi une série de normes pour la vidéoconférence sur le
réseau téléphonique numérique. Plus tard fut développée la norme équivalente pour le réseau
téléphonique analogique, la norme H.324. Il restait à faire le travail pour des réseaux
informatiques. C’est ainsi que la norme H.323 fut finalisée en juin 1996.
L’existence de ces normes est importante car elle signifie qu’un terminal de vidéoconférence
raccordé à un réseau téléphonique est capable de dialoguer avec un terminal branché sur un
réseau informatique ; il est désormais possible d’échanger des signaux de vidéoconférence à
travers Internet dans un cadre normatif strict.
Ces familles de norme comprennent des normes pour la vidéo, l’audio, le multiplexage des
données, les messages de contrôle, la gestion de plusieurs correspondants simultanés
(multipoint), les données et les éléments de transport du réseau.

Les normes H.320, H.323 et H.324 sont comparées dans le tableau suivant :

La présentation des informations sur écran occulte un problème complexe : celui de la


synchronisation. Ce n’est pas tout de décoder des flux d’informations et de les produire à
l’écran. Encore faut-il être capable de les synchroniser.

40

Vous aimerez peut-être aussi