Support de cours :
Théorie de l’informaTion
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 1
Introduction Générale à la Théorie de
L’information
1. Introduction
La théorie de l’information est une discipline qui s’appuie non seulement sur les (télé
communications, mais aussi sur l’informatique, la statistique, la physique statistique, la
théorie de l’inférence.
La théorie de l’information est un outil, développé pour et par l’ingénieur chargé de
concevoir un système de transmission, et les notions probabilistes n’ont de sens clair que de
son point de vue.
2. Objectifs du cours
Initiée par Claude Shannon en 1948, la théorie de l’information est une modélisation
mathématique, essentiellement probabiliste, des problèmes liés à la mesure de la quantité
d’information contenue dans un message, au stockage efficace et fiable d’un message
(compression et protection).
La théorie de l’information établit un ensemble de critères qualitatifs et quantitatifs pour
déterminer si une communication est possible ou pas sur un support et dans un contexte
donnés.
L’objectif du cours, est donc de fournir les notions théoriques de base pour la
mesure quantitative de l’information (qu’est-ce qu’un bit d’information ?, sa représentation
(comment mesurer cette information ?, Entropie conjointe et conditionnelle) , son stockage,
sa transmission, sa protection et sa dissimulation.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 2
Chapitre 1 : Eléments généraux de théorie
de l’information : Mesure d’information
1. Introduction
La théorie de l’information est une discipline qui s’appuie non seulement sur les (télé
communications, mais aussi sur l’informatique, la statistique, la physique statistique, la
théorie de l’inférence.
La théorie de l’information est un outil, développé pour et par l’ingénieur chargé de
concevoir un système de transmission, et les notions probabilistes n’ont de sens clair que de
son point de vue.
La théorie de l’information établit un ensemble de critères qualitatifs et quantitatifs pour
déterminer si une communication est possible ou pas sur un support et dans un contexte
donnés. Autrement dit, cette théorie nous donne les performances théoriques que l’on peut
atteindre lors de la transmission de l’information sur un certain canal et dans un certain
contexte.
De cette façon, la théorie de l’information pose les principes du :
• Codage de source : afin d’obtenir de la concision et de l’efficacité.
• Codage de canal : afin d’avoir une transmission fiable et robuste.
2. Historique
La théorie de l’information est née dans le contexte de la théorie statistique des
communications. Ses méthodes, essentiellement mathématiques, ont permis de rendre
compte et d’expliquer l’évaluation des performances des systèmes de communications, en
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 3
raisonnant au niveau le plus élémentaire, abstraction faite des moyens ou supports
physiques.
-1928, Hartley : 1° tentative de définition scientifique d’une « quantité d’information »
- 1948, C. Shannon : introduit le nouveau concept de « quantité d’information » de façon
mathématique, en déduisant les principales conséquences : réel début de la « théorie de
l’information ».
3. Domaine d’application
Dans le langage courant, « information » est utilisé dans divers contextes :
actualités, renseignements, etc.
Dans le domaine des télécommunications, la notion d’information est reliée à l’efficacité
des systèmes de communication
La théorie de l’information touche plusieurs domaines
• le codage,
• la compression de données,
• la cryptographie.
Pour définir une théorie scientifique de l’information, il a fallu tout d’abord partir :
d’une définition scientifique du mot « information », avec donc un sens précis qui
peut différer du langage usuel.
On cherche à attribuer une quantité numérique du contenu informatif des messages
à l’aide des probabilités d’émission des différents messages, avec une quantité
d’information importante si le message est inattendu.
4. Remarques sur la notion d’information
La notion quantitative d’information associée à un message échangé entre un émetteur et un
destinataire dans le langage usuel est liée à :
– la véracité du message ;
– la connaissance a priori du message par le destinataire ;
– la compréhension du destinataire (problème de langue, ...) ;
– l’intérêt qu’y apporte le destinataire – ...
Toutes ces considérations relèvent de la sémantique. Dans la théorie de l’information, nous
ne retiendrons qu’un aspect partiel du concept général d’information : la mesure quantitative
d’information est une mesure de l’incertitude associée à un événement. Cette notion
d’information est fondamentale dans l’étude des systèmes de communication.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 4
Le sens du mot « information »est donc très restrictif par rapport au langage « usuel »,
puisqu’on ne se préoccupe pas de la signification (coté« subjectif ») du message, ni de
la personnalité du destinataire. L’approche probabiliste des communications se justifie
(outre la présence d’un bruit additif) par le fait que s’il n’y avait aucune incertitude sur
le message émis, il n’y aurait pas d’information à la réception du message.
5. Information
Appliquée aux communications, l’objectif (initial) de la T.I. est de caractériser de manière
probabiliste la source, le canal, et le destinataire afin d’évaluer les limites théoriques de
transmission en fonction des divers paramètres, et de mettre en œuvre les systèmes de
codage / décodage adéquats.
On évalue ainsi numériquement :
1. la quantité d’information émise par une source discrète de symboles
2. la capacité de transmission d’information d’un canal bruité, c'est-à-dire la quantité
d’information maximale (par élément ou pas seconde) qui peut être transmise de
manière fiable dans le canal. On note que la connaissance du débit littéral de la source
ou du canal ne suffit pas à évaluer 1. ou 2, en remarquant que :
une source qui émet le même symbole 1000 fois / seconde n’apporte aucune
information,
un canal qui transmet 1000 symboles par seconde n’achemine pas la même
quantité d’information si la probabilité d’erreur Pe = 10-1 ou Pe =10-6.
Remarque
Aujourd’hui, le champ de recherche / application de la T.I. ne concerne non plus seulement la
capacité des liaisons point à point (chaine de Shannon ) mais l’optimisation
et la capacité des réseaux complexes de communication. De manière plus futuriste et en
perspective de l’ordinateur et des moyens de communications quantiques, la T.I. s’intéresse
aussi à l’optimisation pour le cas où l’information n’est plus portée par un symbole discret à 2
états (par exemple) mais par un élément obéissant aux lois de la mécanique quantique (qubit,
pour quantum bit) .
6. Objectifs de la théorie de l’information
La théorie des communications s'intéresse aux moyens de transmettre une information
depuis une source jusqu'à un utilisateur.
Néanmoins tous ces éléments ont un point commun : les données sont numérisées et
doivent être transmises à travers un canal de propagation.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 5
Le domaine des communications numériques regroupe schématiquement les
problématiques. Vu d’aujourd’hui, on pourrait classer ces problèmes en trois catégories, qui
sont :
• comprimer
• transmettre
• sauvegarder
L’information de manière fiable avec un coût faible (par coût, on peut entendre,
consommation énergétique, occupation spectrale, complexité raisonnable, etc).
A chacun d’entre eux Claude Shannon aura apporté une contribution fondamentale.
7. Mesurer l’information
Cela pose en fait deux questions :
1/ définir d’abord la notion d’information, et
2/ concevoir un moyen de la quantifier.
La première question est délicate car elle semble faire appel à beaucoup de suggestivité. Le
plus simple est de définir une source d’information, qui ne sera rien d’autre qu’une variable
aléatoire. Pour mesurer l’information apportée par une source, on utilisera la notion
d’entropie d’une source, concept central en TI. Cette quantité donne lieu à beaucoup
d’interprétations. On verra que l’entropie a une unité : le bit.
8. Problématique :
La théorie de l'information essai de répondre à deux questions essentielles sur l'analyse et la
synthèse des systèmes de télécommunication :
Supposons un générateur d'informations, quel est le débit de l'information en sortie
du générateur ?
Supposons un canal de transmission bruité, quel est le débit maximal de transfert de
l'information à travers ce canal ?
Dans ces deux questions, il existe des mots à définir.
D'abord, nous distinguons deux types de source :
analogique et discrète. Un microphone est une source d'informations analogique
produisant un signal analogique en amplitude et en temps.
Une source d'information discrète produit des symboles (ou des lettres comme un
clavier). La sortie est une chaîne (ou une séquence) de symboles.
La sortie d'une source d'information analogique peut être transformée en symboles discrets
moyennant un échantillonnage et une quantification.
9. Théorème de Shannon
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 6
Le premier théorème indique qu’une source, d’entropie H, peut être codée de façon
déchiffrable, avec des mots dont la longueur moyenne est bornée par l’entropie de la
source.
L’entropie H représente alors une limite fondamentale sur la longueur moyenne minimale
des mots utilisés pour coder la source.
Le second théorème de Shannon, ou théorème du codage de canal, ou théorème du
canal bruité, est tout aussi fondamental, et peut être plus. Ce théorème indique que si
l’entropie de la source est inférieure ou égale à la capacité du canal, alors il est
possible de trouver un code tel que la probabilité d’erreur lors de la transmission soit
aussi faible que l’on veut.
Le troisième théorème de Shannon, appelé théorème de la capacité d’information,
permet de relier la capacité d’information à la bande du canal, la puissance transmise
et la puissance du bruit additif. Il fournit en outre la capacité limite (lorsque la bande
tend vers l’infini), et la limite de Shannon.
10. Transmettre l’information
Comme on l’a dit plus haut, c’est l’un des problèmes fondateurs de la TI .Il peut se formuler
ainsi : on dispose d’un message formé d’une suite de symboles puisés dans un alphabet A.
Par exemple A = {0, 1} ou A = {a, b, c, . . .}. Ce message doit être transmis à travers un
canal bruité, qui peut altérer aléatoirement les symboles (fig. 1.1). Par exemple, zolicatu est
émis et tolirotu est reçu. Les propriétés statistiques du bruit sont connues. Pour lutter contre
ces altérations, l’idée est de rajouter de la redondance dans le signal : c’est ce que l’on
appelle le codage du message.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 7
Figure: Canal de transmission.
Chaque lettre émise peut être transformée en une autre lettre par le bruit du canal. La loi de
probabilité du bruit est connue. Par exemple, un canal “`à bruit additif” dit que la lettre
reçue est voisine de la lettre émise (voisinage dans l’alphabet). La probabilité de l’altération
peut décroitre avec l’importance du décalage.
En répétant le signal 3 fois, on a construit un codage de l’information dont le rendement est
1/3. En effet, il faut émettre 3 symboles pour chaque symbole utile du message. Cette perte
de rendement est le prix à payer pour lutter contre le bruit.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 8
Chapitre 2 : Entropie et Information mutuelle
1- Introduction
L’entropie va permettre de capter le degré d’incertitude contenue dans une variable
aléatoire.
2- Mesure de l’information
Nous allons donner une mesure de la quantité d’information qui est adaptée à la description
statistique des sources et des canaux. Les énoncés qui en résultent font appel aux
probabilités discrètes. Nous allons en rappeler les notions principales.
2.1- Espace probabilisé discret
Nous considérerons des ensembles finis munis d’une probabilité discrète p. L’espace
probabilisé est noté (A, p). La loi de probabilité est dite uniforme si p(a) = 1/ n , où n =
card(A), pour toute lettre a de A. Une variable aléatoire de (A, p) est une fonction de A
dans un ensemble quelconque. Une variable aléatoire est réelle si l’espace d’arrivée est R.
L’espérance d’une variable aléatoire réelle v est le réel
2.2- Espace probabilisé joint.
Probabilités conditionnelles Pour modéliser un canal discret, nous considérons l’espace
A×B produit des deux ensembles A = {a1, . . . , an} et B = {b1, . . . , bm}. Le produit est
formé des couples (a, b) avec a dans A et b dans B. On munit cet ensemble d’une loi de
probabilité discrète, notée PAB, appelée loi de probabilité jointe de A et B. L’espace de
probabilité joint est aussi noté AB.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 9
La probabilité PAB(a, b) est la probabilité d’avoir simultanément a en entrée et b en
sortie. On définit une loi de probabilité PA sur A par :
On définit une probabilité PB sur B de façon similaire. Les deux lois PA et PB sont
appelées lois marginales.
Nous définissons maintenant les lois conditionnelles. Soit a une lettre de A telle que p(a)
> 0. La probabilité conditionnelle pour que l’on ait b en sortie sachant que l’on a a en
entrée est définie par :
On dit que les événements {A = a} et {B = b} sont statistiquement indépendants
si PAB(a, b) = PA(a)PB(b). Lorsque cette égalité est vraie pour tout couple AB, alors
les espaces A et B sont dits statistiquement indépendants. On parle alors d’espace
probabilisé produit.
On dit qu’un événement A est indépendant d’un événement B si l’information
apportée sur B par A est nulle, c’est à-dire P(A|B) = P(A).
3- Incertitude et information
La notion d’information est déjà inhérente à celle de probabilité conditionnelle.
Considérons les événements {A = a} et {B = b}. La probabilité p(a|b) peut être
interprétée comme la modification apportée à la probabilité p(a) de l’événement
{A = a} lorsque l’on reçoit l’information que l’événement {B = b} s’est réalisé.
Ainsi :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 10
– si p(a|b) ≤ p(a), l’incertitude sur a augmente,
– si p(a|b) ≥ p(a), l’incertitude sur a diminue. Pour mesurer la variation de
l’incertitude, il faut choisir une fonction décroissante de la probabilité. On choisit
également une fonction continue.
Le logarithme permet d’exprimer commodément les variations d’incertitude. On
notera I(a) l’incertitude sur a, encore appelée information propre de a :
I(a) = − log2 p(a). Ainsi l’information «b est réalisé» diminue l’incertitude sur a de
la quantité :
I(a) − I(a|b) = log2 p(a|b)/ p(a) .
Remarque :
Cette dernière quantité est appelée information mutuelle de a et b.
4- Définitions : Mesures quantitatives de l’information par événements
5- Definition de Shannon: Information is the resolution of uncertainty
La quantité d’information d’un symbole est d’autant plus grande que celui-ci est peu
probable.
La quantité d’information de deux symboles successifs est la somme de leurs
quantités d’information.
La quantité d’information notée I est une fonction qui doit ainsi avoir les propriétés
suivantes:
1. I(pk ) est une fonction continue de la probabilité pk .
2. I(pk ) ↑ si pk ↓ ⇒ I(pk ) est une fonction décroissante de pk
3. I(pk et pj) = I(pk ) + I(pj)
4. Un symbole certain possède une quantité d’information nulle : I(pk = 1) = 0.
une fonction qui vérifie les conditions 1, 3 et 4 est log(pk ). Pour obtenir la propriété
2 il suffit de prendre log( 1 /pk ) = −log(pk )
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 11
la quantité d’information d’un symbole xk de prob pk est donc :
I(xk ) = log( 1 /pk ) = −log(pk )
le signe de I(a; b). – I(a; b) > 0 signifie que si l’un des deux événements se réalise,
alors la probabilité de l’autre augmente ;
I(a; b) < 0 signifie que si l’un des deux événements se réalise, alors la probabilité de
l’autre diminue ;
I(a; b) = 0 signifie que les deux événements sont statistiquement indépendants.
6- Mesures quantitatives moyennes de l’information : entropie
Définition 1(Entropie) : Soit X une variable aléatoire sur un alphabet fini X avec
loi de probabilité P X (.). L’entropie de cette variable aléatoire est
Soit S une source de symboles discrète s1, s2, ..., sN de prob p1, p2, ..., pN
L’entropie H(S) est la quantité d’information moyenne reçue de S:
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 12
Si tous les symboles sont equiprobables:
H(S) = log2N et donc N = 2 H(S) ⇒ C’est la valeur maximale que l’entropie
peut atteindre.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 13
7- Quelle signifiance de l’entropie pour le codage binaire
Si p = 1/1024. une probabilité très petite pour avoir un 0 dans 1024 essais !
alors H(S) = 1/1024log2(1024) + 1023/1024log2( 1024/1023) = 0.0112bits
on a 0.0112 bits d’incertitude d’information par essai en moyenne.
donc si on utilise 1024 digit binaire (Code= 0 ou 1) pour coder le résultat de 1024 essais
semble être perte de ressources (1 digit binaire par essai).
on peut arriver à coder ce message de 1024 symboles à une moyenne de 0.0112 digit
binaire/essai !!
8- Signifiance de l’entropie
L’entropie nous renseigne sur la quantité d’information moyenne (en bits) qui doit être
fournie pour résoudre l’incertitude sur le résultat d’un évènement (essai). Elle constitue
donc la limite inférieure sur le nombre de digit binaire, en moyenne, qui doit être donné
pour coder nos symboles (qui constitue le message) si on envoie un nombre inférieur de
digit binaire en moyenne, le récepteur va avoir une incertitude pour décoder correctement le
message si on envoie un nombre supérieur de digit binaire en moyenne, on perd de
ressources puisqu’on émet plus qu’on a besoin. atteindre la limite inférieure d’entropie lors
du codage est la règle d’or pour l’encodage (de point de vue compression de donnée).
9- Fonction d’entropie binaire : La fonction d’entropie binaire est définie comme suit
Où le seul argument p doit être un nombre réel dans l’intervalle [0, 1]. Notez que Hb(p)
est égale à l’entropie d’une variable aléatoire binaire X, Hb(p) = H(X),
Exemple: Source binaire
Les s1 = 0 sont de probabilité p
les s2 = 1 sont de probabilité 1-p
donc H(S) = −plog2p − (1 − p)log2(1 − p)
le maximum est atteint si les 1 et les 0 sont équiprobables :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 14
H(S)max = 1 si p = 1 − p = 0.5
Exemple pour une source binaire : soit une source à 2 états x0 et x1 avec p0 = p et p1 = 1
− p L’entropie de cette source est la suivante : H(X) ≡ H(p, 1 − p) = −p log2 p − (1 − p) log2
(1 − p).
=> l’entropie est maximale et vaut = 1 Sh/symb quand les 2 symboles binaires sont
équiprobables.
Un élément binaire (ou bit) ne véhicule 1 Sh que lorsque les 2 états sont équiprobables (p =
0.5) => la quantité d’information moyenne d’information H(S) tend vers zéro lorsqu’un des
symboles devient beaucoup plus fréquent que l’autre (on adopte la convention pi log pi = 0
pour pi =0, vraie seulement en limite).
10- Inégalité de Gibbs :
11- Propriétés de l’Entropie :
continuité : l’entropie H(S) = H(p1, p2 , … , pN) est une fonction continue de
chaque variable pi sur [0, 1[
symétrie : par rapport à toutes les variables pi : ∀i, j H(p1,…, pi, … , pj, … , pN) =
H(p1,…, pj, … , pi, … , pN)
encadrement : H(S) est positive et majorée :
0 ≤ H(S) ≤ lb(N)
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 15
12- Redondance d’une source:
Ecart relatif à l’entropie maximale Heq[N] (que permettrait la taille N de son
alphabet : R=1- H(S)/lb (N) 0≤ R(S) ≤ 1,
13- Débit d’information par seconde d’une source:
L’entropie exprime une quantité d’information moyenne par symbole. Pour s’affranchir
de préciser la taille de l’alphabet (N) des symboles, qui peut varier d’un point à l’autre de
la chaîne (extensions, codage de source, …), on a souvent intérêt à discuter de la quantité
d’information moyenne par seconde (Sh / seconde), que l’on nommera ici Débit
d’information :
Débit d’information (ou Débit entropique) :
Le débit d'information d'une source est donné par le produit de l'entropie de la source
(valeur moyenne de l'info /symbole) par le nombre moyen de symboles par seconde soit :
Ht (S) = H(S) . D(S) Sh/sec où D(S) : débit symbole littéral (symb/s)
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 16
Remarque :
1- Ne pas confondre le débit d’information Ht(S) (en Sh/sec) avec le débit binaire littéral
(équivalent) Db(S) (bit/sec) .
On a l’inégalité : Ht (S) ≤ Db (S) = D(S).lb(N) puisque H(S) ≤ lb(N)
2- Dans certains ouvrages, le débit d’information est dénommé « Entropie par seconde », ou
« Débit entropique » ce qui correspond bien à sa définition.
Exemple débit d’information : avec alphabet binaire (N=2) et Db(S) = 34 Mbit/s
- alphabet binaire équiprobable (p1 = p2 = 0,5) => H(S) = 1 Sh/bit, Ht(S) = 34 MSh/s,
redondance R(S) = 0;
- alphabet binaire telque (p1 = 0,2 ; p2 = 0,8) => H(S) = 0.72 Sh/bit, Ht(S) = 24.5
MSh/s. redondance R(S) = 28%;
14- Extension de source
Cas de l’extension d’une source simple:
Extension d’une source simple
Soit une source simple S = ({si}, {pi}) de N lettres (1 symbole = 1 lettre). L’extension
d’ordre n de S, notée Sn, émet des messages (mots) x j , en nombre Nk , construits à partir
de k symboles (ou k lettres) si , qui peuvent s’écrire :
x j = sj1 sj2 … sjk et dont les probabilités sont : p( x j ) = p(sj1 ) . p( sj2 ) … p( sjk )
(On a donc 1 symbole étendu = 1 mot de k lettres).
Entropie de l’extension d’une source simple : H( Sn ) = n .H(S), en Sh / mot de
Cette propriété se déduira immédiatement des résultats à venir sur la dépendance entre 2
k lettres
Variables Aléatoires .
Exercice 1 : On utilise un alphabet de 3 lettres A, B, C de probabilité respective : pA = 0,7 ;
pB = 0,2 ; pC = 0,1 ;
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 17
Source S1 : émet successivement des mots de 1 lettre (indépendance d’une lettre à
l’autre)
Source S2 : émet des mots de 2 lettres (statistiquement indépendantes)
Source S3 : émet des mots (groupement de 2 lettres non indépendantes), avec
indépendance d’un mot à l’autre.
On donne les probabilités de mots suivantes : pAA = 0,6 ; pAB = 0,1 ; pAC = 0 ; pBA = 0,06 ;
pBB = 0,1 ; pBC = 0.04 ;pCA = 0,04 ; pCB = 0 ; pCC = 0.06 ;
1- Calculer les entropies H(S1), H(S2) et H(S3) à partir des jeux de probabilités.
Remarque :
Commentaires sur l’exercice : attention à n’utiliser la formule de l’entropie qu’après s’être
assuré que la source était bien simple. Pour S3, la source n’est pas simple si on considère
l’émission des lettres, elle l’est si on considère l’émission des mots (1 symbole de la source
simple = 1 mot de 2 lettres).
15- Premier Théorème de Shannon
Il découle de l’extension de source, on a :
η2 = H(S)/ R = J×H(S) N ≤ 1
et on a donc N > J × H(S) + 1.
De point de vue source primaire:
N/ J = R ≥ H(S) + 1/J en posant 1/ J = ε, ε peut être aussi petit que l’on veut Théorème
de Shannon : Pour avoir un codage sans erreur, une source S doit être codée en
moyenne avec au moins H(S) bits : R ≥ H(S).
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 18
Chapitre 3 : Entropie conjointe H(X, Y)
Et Entropie conditionnelle H(X/Y)
1- Entropie conjointe H(X,Y)
L’entropie conjointe représente une généralisation de l’entropie à une paire de variables
aléatoires. Donc c’est l’incertitude moyenne (ou quantité d’information moyenne par
mot) de (X, Y) est donnée par l’entropie conjointe (ou composée) :
Notons d’abord que toute paire (X, Y ) de deux variables aléatoires sur des alphabets finis
X et Y peut être vue comme une variable aléatoire avec un alphabet fini plus grand égal au
produit cartesien X × Y. Donc, la définition 2.1 s’applique aussi à ce cas et on obtient la
définition suivante pour l’entropie d’une paire de variables aléatoires, dite aussi entropie
conjointe.
a- Définition (Entropie conjointe) :
Soient X et Y deux variables aléatoires sur des alphabets discrets X et Y avec comme loi de
probabilité conjointe PXY (x, y). L’entropie conjointe de cette paire de variables aléatoires
est définie comme
Notez que l’entropie conjointe est symétrique par rapport à ces deux arguments, c’est-à-dire,
qu’on a toujours H(X, Y ) = H(Y, X). De plus, l’entropie jointe ne mesure pas les
incertitudes des deux variables aléatoires individuellement, mais l’incertitude qu’il existe
sur l’ensemble des deux. En particulier, elle prend en compte les liens qui existent entre X et
Y
b- Démonstration : (Variables indépendantes)
Soient X et Y deux variables aléatoires indépendantes sur des alphabets finis X et Y. Ceci
implique que PXY (x, y) = PX(x)PY (y) pour tous x ∈ X et y ∈ Y. Donc :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 19
Où dans la troisième égalité nous avons utilisé que pour tout nombre réel a, b > 0, log2 (ab)
= log2 (a)+log2 (b) et dans la cinquième égalité nous avons utilisé que
Conclusion :
Si X et Y indépendants, somme des entropies marginales : H(X,Y) = H(X) + H(Y)
Si X = Y : H(X, Y) = H(X) = H(Y)
Cas général : l’observation globale de (X, Y) apporte moins d’information que la somme
des informations apportées par les observations séparées de X et Y :
0 ≤ H(X,Y) ≤ H(X) + H(Y)
Exercice
Soit X une variable aléatoire déterminant le lieu où se trouve Scarlett Johansson en ce
moment : X = 1 veut dire qu’elle est à Paris et X = 0 qu’elle est à Hollywood. Soit Y une
variable aléatoire déterminant la météo du lieu dans lequel se trouve Scarlett Johansson en
ce moment : Y = 1 veut dire qu’elle a du soleil et Y = 0 veut dire qu’il pleut.
Les deux variables aléatoires X et Y ont la loi de probabilité conjointe suivante
PXY (0, 0) = 0, PXY (1, 0) = 1/3, PXY = (1, 1) = 1/3, PXY (0, 1) = 1/3.
L’entropie conjointe de X et Y est donc
H(X,Y)= −0 log2 (0) − (1/3) log2 (1/3) − (1/3) log2 (1/3) − (1/3) log2 (1/3) = log2 (3) ≈
1.585. Notons aussi que, grâce à la formule de loi marginale, on obtient
Donc, l’entropie de X vaut :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 20
De la même façon, on obtient que H(Y ) ≈ 0.925. Ainsi, sur cet exemple, nous retrouvons
bien le résultat 2.2 puisque H(X) = H(Y ) = 0.925 < H(X, Y ) = 1.585 < H(X) + H(Y ) =
1.85,
4- Entropie conditionnelle H(X / Y):
Grâce à l’entropie conditionnelle d’une variable aléatoire X par rapport à une autre variable
aléatoire Y , on va capturer l’incertitude qu’on a sur X, une fois qu’on a observé Y .
Notez que cette entropie conditionnelle représente une moyenne, parce que l’incertitude
qu’on a sur X peut varier selon les différentes réalisations de Y . Nous définissons donc
d’abord l’entropie conditionnelle de X sachant que Y est égale à une réalisation y ∈ Y. Soit
PX|Y (x|y) la loi de probabilité conditionnelle de X si Y = y.
L’entropie conditionnelle de X sachant Y est la moyenne de toutes les entropies
conditionnelles H(X|Y = y) moyennées avec la loi de probabilité PY (·).
a- Définition (Entropie conditionnelle) :
Soient X et Y deux variables aléatoires sur des alphabets finis X et Y avec une loi de
probabilité conjointe PXY (x, y). L’entropie conditionnelle de X sachant Y est
Exemple (Variables indépendantes) Soient X et Y deux variables aléatoires indépendantes
sur des alphabets X et Y. Ceci implique que PXY (x, y) = PX(x)PY (y) et PX|Y (x|y) =
PX(x) pour tous x ∈ X et y ∈ Y. Donc
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 21
b- Résultat (Valeurs extrêmes de l’entropie conditionnelle) :
Pour toute paire de variables aléatoires X et Y sur des alphabets X et Y, l’entropie
conditionnelle H(X|Y ) satisfait 0 ≤ H(X|Y ) ≤ H(X).
Relation entre les entropies : H(X / Y) = H(X, Y) – H(Y)
Remarque :
Cas particuliers :
Si X et Y indépendants : H(X / Y) = H(X)
Si X = Y : H(X / Y) = 0
Cas général : on en déduit une majoration en utilisant la majoration de H(X, Y) :
0 ≤ H(X/Y) ≤ H(X) => l’entropie conditionnelle H(X / Y) est inférieure ou égale à la
quantité d’information apportée par X, puisque la connaissance de Y réduit l’incertitude sur
X.
c- Propriétés de l’entropie conditionnelle Règle de chaînage
Réduction de l’entropie par conditionnement.
De :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 22
On déduit la majoration de l’entropie conditionnelle par l’entropie a priori :
2- Information mutuelle I(X ; Y): C’est la quantité d’information (moyenne) partagée par X
et Y, en Sh /symb.
C’est à dire la quantité d’information que la donnée de l’une des deux variables du couple
de variables dépendantes (X,Y) apporte sur l’autre.
a- Définition (Information mutuelle)
Soient X et Y deux variables aléatoires sur des alphabets finis X et Y avec une loi de
probabilité conjointe PXY (x, y). L’information mutuelle de X et Y est :
I(X; Y ) := H(X) + H(Y ) − H(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X).
Nous voyons donc que l’information mutuelle est bien symétrique, I(X; Y ) = I(Y ; X).
I(X ; Y) mesure l’écart par rapport à l’indépendance entre X et Y, avec les définitions
équivalentes :
I(X ;Y) = H(X) + H(Y) - H(X,Y)
I(X ; Y) = H(X) – H(X/Y) ; I(X ; Y) = H(Y) – H(Y/X)
Si X et Y indépendants : I(X ; Y) = 0 ;
Si X = Y : I(X ; Y) = H(X) = H(Y)
Cas général :
0 ≤ I(X ;Y) ≤ H(X) ; et 0 ≤ I(X ;Y) ≤ H(Y) ;
b- Relations entre entropie et information mutuelle.
c- Le diagramme de Venn résume, pour le cas de 2 Variables Aléatoires, la
définition de l’information mutuelle ainsi que les relations entre les différentes
entropies qui ont été définies dans le paragraphe I :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 23
Preuve que : I(X; Y ) = H(X) − H(X|Y )
Si Y = X, l’information mutuelle entre une v.a. X et elle-même se réduit à l’entropie :
Une propriété intéressante de cette information mutuelle est sa symétrie : l’information
apportée par la V.a. Y sur la V.a. X est égale à la réduction d’incertitude moyenne sur X due
à l’observation de Y.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 24
De la règle de chaînage de l’entropie conditionnelle , on déduit de manière directe celle de
l’information mutuelle :
d- Exemple (Variables identiques)
Soit X une variable aléatoire sur un alphabet fini X . L’information mutuelle entre X et elle-
même est égale à
où nous avons utilisé le fait que X est une fonction de X, et donc par le résultat que H(X|X)
= 0.
e- Exemple (Variables indépendantes)
Soient X et Y deux variables indépendantes sur des alphabets finis X et Y.
Leur information mutuelle est :
où nous avons utilisé que X et Y sont indépendants, et donc H(X|Y ) = H(X).
f- Résultat (Valeurs extrêmes de l’information mutuelle)
Soient X et Y deux variables aléatoires sur des alphabets finis X et Y. L’information
mutuelle entre les deux satisfait 0 ≤ I(X;Y) ≤ min{H(X), H(Y )}. En outre,
I(X; Y) = 0 si et seulement si X et Y sont indépendants.
I(X; Y) = H(X) si et seulement si X = f(Y) pour une fonction f quelconque. Idem, I(X;Y) =
H(Y ) si et seulement si Y = g(X) pour une fonction g quelconque.
3- Codes de longueur fixe
un choix évident pour coder des symboles équiprobables est le code de longueur fixe: les
96 caractères imprimables =⇒ 7-bit ASCII les caractères Unicode =⇒ UTF-16 10 digit
décimaux =⇒ 4-bit BCD (binary coded decimal)
les codes de longueurs fixes ont des avantages : l’accès aléatoire au code est faisable:
pour décoder le nième symbole, on peut directement décoder la nième séquence de longueur
fixe sans être obligé à décoder les séquences de 1 à n-1. les tables look-up suffisent pour
coder/décoder.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 25
Le rendement (en théorie de l’information, on parle plutôt de « taux » -Rate en anglais-)
R d’un code est égal à :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 26
Chapitre 4 : capacité d’un canal
1- Objectif du codage canal
Pour modéliser un canal de transmission, il est nécessaire de spécifier l’ensemble des
entrées et l’ensemble des sorties possibles. Le cas le plus simple est celui du canal discret
sans mémoire. L’entrée est une lettre prise dans un alphabet fini A = {a1, . . . , an} et la
sortie est une lettre prise dans un alphabet fini B = {b1, . . . , bm} .
Ces lettres sont émises en séquence, et, le canal est sans mémoire si chaque lettre de la
séquence reçue ne dépend statistiquement que de la lettre émise de même position. Ainsi un
canal discret sans mémoire est entièrement décrit par la donnée des probabilités
conditionnelles p(b|a) pour toutes les lettres a de l’alphabet d’entrée et toutes les lettres b de
l’alphabet de sortie.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 27
2- Canaux discrets & Capacité
Canal : milieu de transmission de l'information situé entre la source et la destination. Le
canal opère une transformation entre l'espace des symboles à l'entrée et celui de la sortie.
Canal continu : les espaces d'entrée et de sortie sont
Canal discret : les espaces d'entrée et de sortie sont discrets continus
Canal sans mémoire : si la transformation d'un symbole x à l'entrée en un symbole y en
sortie ne dépend pas des transformations antérieures
Canal stationnaire : si les transformations ne dépendent pas de l'origine des temps.
3- Définition du canal de Shannon
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 28
Le paradigme de Shannon, qui a été une avancée majeure en son temps, consiste à
décomposer une transmission en 3 étapes auxquelles correspondent trois organes
fondamentaux :
la source ou l’émetteur ;
le canal ou le médium de transmission ;
et le destinataire ou le récepteur.
La source étant par nature aléatoire (puisqu’elle contient de l’information) est
représentée par une variable aléatoire X. De même l’image de cette source à la sortie du
canal est représentée par une variable aléatoire Y. Très naturellement le médium de
transmission est représenté par sa probabilité de transition p(y|x) qui caractérise la sortie
pour une entré donnée. Bien souvent, par abus de langage, on dit que le canal de Shannon
est simplement caractérisé par sa probabilité de transition p(y|x). En fait, la définition de
Shannon est plus précise et plus restrictive que cela puisqu’elle spécifie aussi l’émetteur et
le récepteur.
4- Capacité d’un canal
On considère un canal discret sans mémoire donné par A, B. On rappelle que l’entropie
mutuelle jointe I(A; B) dépend aussi de la distribution de probabilité pA sur A. Par
définition.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 29
Lorsqu’on fait varier la distribution d’entrée pA, I(A; B) varie.
Remarque :
1- En présence de bruit, on a C < HMAX (X). Pour calculer la capacité du canal de
transmission, il faut déterminer la quantité d’information moyenne perdue dans
celui-ci. Nous avons vu précédemment que H(X|Y ) mesure l’incertitude résiduelle
sur X connaissant Y . Pour une bonne communication il est souhaitable que cette
quantité soit nulle ou négligeable.
2- La maximisation est réalisée sur l’ensemble de toutes les sources possibles. Si le
canal est sans mémoire, cette maximisation est effectuée sur l’ensemble des
probabilités pi d’apparition des symboles d’entrée. H(X|Y ) correspond à la quantité
d’information moyenne perdue dans le canal.
3- H(X|Y ) correspond à la quantité d’information moyenne perdue dans le canal.
Lorsque le canal est sans bruit, on a H(X|Y ) = H(X|X) = 0 et donc C = HMAX (X).
On retrouve la relation.
Cas C = HMAX (X)
4- Lorsque le canal est tellement bruyant que X et Y sont indépendants, on a H(X|Y ) =
H(X). Dans ce cas particulier la capacité du canal de transmission est nulle C = 0.
Cas C = 0
5- Lorsque l’entropie de la source est égale à HMAX (X), H(X|Y ) ne dépend plus que
du canal de transmission utilisé. Si H(X|Y ) est non négligeable (cas du canal
bruyant), il ne sera pas possible d’effectuer une communication sans erreur en reliant
directement la source au canal de transmission. Il faut donc placer un élément appelé
codeur de canal entre la source et le canal de transmission. La figure ci-dessous
présente le nouveau système de communication comprenant un codeur de canal, le
canal bruité et un décodeur de canal.
a- La capacité :
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 30
La valeur maximale que l’on peut atteindre s’appelle la capacité de Shannon du
canal :
Les probabilités marginales {p(xi)} dépendent de la source d’entrée et donc du
système de codage de canal utilisé.
Si la cadence du canal est d’un symbole toute les Tc secondes, le débit maximum du
canal sera C/ Tc bit/s.
La capacité du canal doit s’entendre au sens de la capacité de transmission sans
erreur.
Il existe un codage de canal permettant de garantir une communication avec un taux
d’erreurs aussi faible que souhaité à la condition que la quantité d’information
moyenne entrant dans l’ensemble codeur-canal-décodeur soit inférieure à la capacité
C du canal.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 31
b- Redondance d’un canal
c- Efficacité d’un canal
5- Canal binaire symétrique
Supposons que durant la transmission, le "1" est reçu et interprété comme un "0" et vice
versa avec une probabilité p. p est appelé la probabilité d’erreur le canal dans ce cas est
appelé canal binaire symétrique ce type de canal est très significatif quant à la modélisation
d’un canal de transmission.
Figure : Le canal binaire symétrique
Application : canal Binaire symétrique
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 32
6- Rôle du codage canal
Pour que la transmission soit performante, il faut fournir au récepteur la quantité
d’information manquante qui est H(X/Y ). Pour cela il est imaginé d’introduire une
redondance dans l’information qui permettra de détecter et de corriger les erreurs
dues à la transmission.
Exemples simples :
o Ajouter un bit de parité et, en cas d’erreur à la réception, interroger de
nouveau l’émetteur.
o Transmettre l’information en trois exemplaires et, en cas de désaccord, faire
confiance à la majorité.
Ces méthodes proviennent d’une analyse empirique de la situation et, d’après le
modèle de Shannon, elles ont pour effet de diminuer la quantité d’information
perdue et donc d’augmenter la capacité du canal. Grâce à cette analyse, il est
possible de mettre au point des méthodes de codage plus efficaces pour atteindre cet
objectif.
un codage de canal performant est d’autant plus nécessaire que le canal est bruité et
perd de l’information.
7- Deuxième théorème de Shannon :
Théorème (théorème de codage pour le canal de Shannon). Soit C = max p(x) I(X;Y).
Si R< C alors il existe un codage qui permet d’avoir une probabilité d’erreur de décodage
évanescente lorsque n tend vers l’infini. Inversement, s’il existe un code dont la probabilité
d’erreur de décodage est évanescente alors nécessairement R ≤ C.
Soit un canal discret de capacité C et une source discrète d’entropie H.
Puisque H(X/Y) = H(X) – C
8- Transmettre de l’information sans erreur ?
Shannon a montré théoriquement qu’on peut transmettre l’information (bits) à un taux de
codage (débit) R < C avec une probabilité d’erreur très faible.
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 33
Il a aussi montré que la transmission à un taux de codage (débit) R ≥ C va
certainement incorporer des erreurs de transmissions.
son secret : coder un bloc de k-bits en un mot de code de n-bits (avec n>k) pour
réduire le débit R = k/n .
le fait de coder un message de k-bits en un mot de code de n-bits s’appelle le codage
canal.
9- Théorème de la capacité d’information « 3eme théorème de Shannon »
10- Implications du théorème
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 34
Digramme d’efficacité de la bande
Mm AZINE .H : azinehou@[Link] / cours Théorie de L’Information Page 35