0% ont trouvé ce document utile (0 vote)
30 vues26 pages

Théorie de l'information et entropie

Introduction au Entropie

Transféré par

douniaelhor35
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
30 vues26 pages

Théorie de l'information et entropie

Introduction au Entropie

Transféré par

douniaelhor35
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

' $

Théorie et codage de l’information


Mesure quantitative de l’information
- Chapitre 2 -

& %
' $

Information propre et mutuelle


Quantité d’information propre d’un événement

Soit A un événement de probabilité P (A) non-nulle.


L’information h(A) apportée par la réalisation de A est d’autant plus grande
qu’elle est improbable. Elle peut s’exprimer ainsi :
 
1
h(A) = f .
P (A)

La fonction f (·) vérifie les contraintes suivantes :


. f (·) est croissante
. info. apportée par 1 événement sûr est nulle : limp→1 f (p) = 0
. info. apportée par 2 événements indépendants : f (p1 · p2 ) = f (p1 ) + f (p2 )
Ceci nous conduit à utiliser la fonction logarithmique pour f (·)

& %
1
' $

Information propre et mutuelle


Quantité d’information propre d’un événement

Lemme 1. La fonction f (p) = − log b p est la seule qui soit à la fois positive,
continue sur ]0, 1], et qui vérifie f (p1 · p2) = f (p1) + f (p2).

Preuve. La démonstration comporte les étapes suivantes :


1. f (pn ) = n f (p)
2. f p1/n = n1 f (p) après avoir remplacer p par p1/n


3. f pm/n = m n f (p) en combinant le deux égalités précédentes




4. f (pq ) = q f (p) où q désigne un nombre rationnel positif quelconque


5. f (pr ) = limn→+∞ f (pqn ) = limn→+∞ qn f (p) = r f (p)
Soient p et q appartenant à ]0, 1[. On peut écrire p = q logq p , ce qui entraîne
f (p) = f q logq p = f (q) logq p.


On aboutit finalement au résultat escompté, soit


f (p) = − logb p
& %
2
' $

Information propre et mutuelle


Quantité d’information propre d’un événement

Définition 1. Soit (Ω, A, P ) un espace probabilisé et A un événement de A de


probabilité P (A) non-nulle. On associe à la réalisation de A la quantité
d’information propre :
h(A) = − log P (A).

Unités. L’unité dépend de la base choisie pour le logarithme.


. log2 : Shannon, bit (binary unit)
. loge : logon, nat (natural unit)
. log10 : Hartley, decit (decimal unit)

Vocabulaire. h(·) est désigné par incertitude ou encore quantité d’information.

& %
3
' $

Information propre et mutuelle


Quantité d’information propre d’un événement

Quantité d’information propre ou incertitude : h(A) = − log b P (A)

h(A)

PSfrag replacements

P (A)
0
0 1/b 0.5 1

& %
4
' $

Information propre et mutuelle


Quantité d’information propre d’un événement

Exemple 1. Dans le cas d’une source binaire {0, 1} telle que P (0) = P (1) = 0.5,
l’information propre associée à chaque symbole binaire, ou bit au sens informatique
du terme, vaut h 12 = log 2, soit 1 bit ou Shannon.


Exemple 2. On considère une source S sélectionnant aléatoirement et


indépendamment du passé chaque symbole émis parmi les 16 éléments d’un
l’alphabet {s0 , . . . , s15 }, tous équiprobables. L’information propre véhiculée par
chacun d’eux est log 16, soit 4 Shannon.

Attention ! Le bit informatique (binary digit) et le bit issu de la théorie de


l’information (binary unit) sont deux notions distinctes.

& %
5
' $

Information propre et mutuelle


Quantité d’information conditionnelle

La définition de la quantité d’information propre s’applique à la réalisation


conjointe de A et B. En remarquant que P (A ∩ B) = P (A) P (B|A), on obtient :

h(A ∩ B) = − log P (A ∩ B) = − log P (A) − log P (B|A)

On note que − log P (B|A) correspond à la quantité d’information propre de B que


ne fournit pas l’observation de A.

Définition 2. On appelle information conditionnelle de B sachant A la quantité :

h(B|A) = − log P (B|A),

soit, en d’autres termes : h(B|A) = h(A ∩ B) − h(A).

Exercice. Étudier et interpréter le cas A = B, puis indépendance de A et B

& %
6
' $

Information propre et mutuelle


Quantité d’information mutuelle

La définition de l’information conditionnelle amène directement une autre


définition, celle de l’information mutuelle, qui correspond à la part d’incertitude
commune à deux événements.

Définition 3. On appelle information mutuelle entre A et B la quantité :

i(A, B) = h(A) − h(A|B) = h(B) − h(B|A).

Exercice. Étudier les cas A = B, B ⊂ A, enfin A et B indépendants.

& %
7
' $

Entropie d’une variable aléatoire


Définition de l’entropie

Soit une source S d’information sans mémoire sélectionnant aléatoirement un


symbole parmi les n éléments d’un alphabet {s1 , . . . , sn }. Soit pi la probabilité
d’apparition de si . La quantité d’information moyenne associée à l’apparition de
chaque symbole possible est donnée par :
n
X
H(S) = E{h(s)} = − pi log pi .
i=1

L’entropie est une quantité d’information moyenne.

Définition 4. Soit X une variable aléatoire à valeurs dans {x1 , . . . , xn }.


L’entropie de X est définie comme suit :
n
X
H(X) = − P (X = xi ) log P (X = xi ).
i=1

& %
8
' $

Entropie d’une variable aléatoire


Exemple d’une variable aléatoire binaire

L’entropie d’une variable aléatoire binaire est donnée par :

H(X) = −p log p − (1 − p) log(1 − p) , H2 (p).

entropie H2 (Sh/symb) 1

PSfrag replacements
0.5

0
0 0.5 1
probabilité p

& %
9
' $

Entropie d’une variable aléatoire


Notation et propriété préalables

Lemme 2 (Inégalité de Gibbs). Étant donné 2 distributions de probabilité


discrètes (p1 , . . . , pn ) et (q1 , . . . , qn ) sur un même univers fini, l’inégalité suivante
est satisfaite :
n
X qi
pi log ≤ 0,
i=1
p i

l’égalité étant obtenue lorsque ∀i : pi = qi .

Preuve. On effectue la démonstration dans le cas du logarithme népérien et on


note que ln x ≤ x − 1, l’égalité étant obtenue pour x = 1. On pose x = pqii et on a
n n
X qi X qi
pi ln ≤ pi ( − 1) = 1 − 1 = 0.
i=1
pi i=1
pi

& %
10
' $

Entropie d’une variable aléatoire


Notation et propriété préalables
PSfrag replacements
Vérification graphique de l’inégalité ln x ≤ x − 1

y
y =x−1
2

1
y = ln x
0
0.5 1 1.5 2 2.5
x
−1

−2

−3

−4

& %
11
' $

Entropie d’une variable aléatoire


Quelques propriétés de l’entropie

Propriété 1. L’entropie vérifie l’inégalité suivante

Hn (p1 , . . . , pn ) ≤ log n,
1
l’égalité étant réalisée dans le cas d’une loi uniforme, c’est-à-dire ∀i : p i = n.

Preuve. A partir de l’inégalité de Gibbs, on pose qi = n1 . L’incertitude sur le


résultat d’une expérience est d’autant plus grande que tous les résultats possibles
sont équiprobables.

& %
12
' $

Entropie d’une variable aléatoire


Quelques propriétés de l’entropie

Propriété 2. L’entropie augmente lorsque le nombre d’états du système augmente.

Preuve. Soit X une variable aléatoire discrète à valeurs dans {x1 , . . . , xn } avec les
probabilités (p1 , . . . , pn ). On suppose que l’état xk est scindé en deux sous-états xk1
et xk2 , de probabilités respectives pk1 et pk2 non-nulles telles que pk = pk1 + pk2 .

L’entropie de la variable aléatoire résultante X 0 s’écrit :

H(X 0 ) = H(X) + pk log pk − pk1 log pk1 − pk2 log pk2


= H(X) + pk1 (log pk − log pk1 ) + pk2 (log pk − log pk2 ).

La fonction logarithmique étant strictement croissante, on a : log p k > log pki . Il en


résulte directement que H(X 0 ) > H(X).

Interprétation. Second Principe de la Thermodynamique


& %
13
' $

Entropie d’une variable aléatoire


Quelques propriétés de l’entropie

Propriété 3. L’entropie Hn est une fonction concave de p1 , . . . , pn .

Preuve. Soient 2 distributions de probabilité discrètes (p1 , . . . , pn ) et (q1 , . . . , qn ).


La concavité de la fonction entropie qu’il s’agit de démontrer se traduit par le fait
que pour tout λ de l’intervalle [0, 1], on a :

Hn (λp1 + (1 − λ)q1 , . . . , λpn + (1 − λ)qn ) ≥ λHn (p1 , . . . , pn ) + (1 − λ)Hn (q1 , . . . , qn ).

En posant f (x) = −x log x, on peut écrire que :


n
X
Hn (λp1 + (1 − λ)q1 , . . . , λpn + (1 − λ)qn ) = f (λpi + (1 − λ)qi ).
i=1

Le résultat découle directement de la concavité de f (·).

& %
14
' $

Entropie d’une variable aléatoire


Quelques propriétés de l’entropie

Vérification graphique de la concavité de f (x) = −x log x

PSfrag replacements
f (x)

3 −5
0 1 2
x

& %
15
' $

Entropie d’une variable aléatoire


Quelques propriétés de l’entropie

La convexité de Hn peut être généralisée à un nombre quelconque de distributions.

Propriété 4. Étant donné {(q1j , . . . , qnj )}m


j=1 un ensemble fini de distributions de
probabilité discrètes, l’inégalité suivante est satisfaite :
m
X m
X m
X
Hn ( λj q1j , . . . , λj qmj ) ≥ λj Hn (q1j , . . . , qmj ),
j=1 j=1 j=1
Pm
avec {λj }m
j=1 des éléments de [0, 1] tels que j=1 λj = 1.

Preuve. Comme dans le cas précédent, la démonstration de cette inégalité repose


sur la concavité de la fonction f (x) = −x log x. A charge du lecteur de le vérifier.

& %
16
' $

Couple de variables aléatoires


Entropie conjointe

Définition 5. Soient X et Y des variables aléatoires à valeurs dans {x 1 , . . . , xn }


et {y1 , . . . , ym }, respectivement. L’entropie conjointe de X et Y est donnée :
n X
X m
H(X, Y ) , − P (X = xi , Y = yj ) log P (X = xi , Y = yj ).
i=1 j=1

. l’entropie conjointe est une grandeur symétrique : H(X, Y ) = H(Y, X)

Exemple. Cas de variables aléatoires indépendantes ou strictement liées.

& %
17
' $

Couple de variables aléatoires


Entropie conditionnelle

Définition 6. Soient X et Y des variables aléatoires à valeurs dans {x 1 , . . . , xn }


et {y1 , . . . , ym }. L’entropie conditionnelle de X sachant que Y = yj est donnée :
n
X
H(X|Y = yj ) , − P (X = xi |Y = yj ) log P (X = xi |Y = yj ).
i=1

. incertitude moyenne sur le résultat de X sachant que celui de Y est yj

Définition 7. L’entropie conditionnelle moyenne de X sachant Y est donnée par :


m
X
H(X|Y ) , P (Y = yj ) H(X|Y = yj ),
j=1

Exemple. Cas de variables aléatoires indépendantes ou strictement liées.

& %
18
' $

Couple de variables aléatoires


Relations entre les entropies

La première relation énoncée lie ainsi les diverses entropies définies précédemment :

H(X, Y ) = H(X) + H(Y |X) = H(Y ) + H(X|Y ).

Ces égalités se démontrent aisément en écrivant d’abord

log P (X = x, Y = y) = log P (X = x|Y = y) + log P (Y = y),

puis en prenant l’espérance mathématique de chacun des membres.

Propriété 5 (règle de chaînage). L’entropie jointe de de n variables aléatoires


peut être évaluée selon la règle de chaînage suivante :
n
X
H(X1 , . . . , Xn ) = H(Xi |X1 . . . Xi−1 ).
i=1

& %
19
' $

Couple de variables aléatoires


Relations entre les entropies

Chaque élément de H(X, Y ) = H(X) + H(Y |X) = H(Y ) + H(X|Y ) est positif. On
en déduit immédiatement que :

H(X) ≤ H(X, Y )
H(Y ) ≤ H(X, Y )

& %
20
' $

Couple de variables aléatoires


Relations entre les entropies

A partir de la convexité généralisée de l’entropie, en posant qij = P (X = xi |Y = yj )


et λj = P (Y = yj ), on aboutit à l’inégalité fondamentale suivante :

H(X|Y ) ≤ H(X)

Le conditionnement d’une variable aléatoire diminue son entropie. Sans


démonstration, il se généralise ainsi :

Propriété 6 (décroissance par conditionnement). L’entropie d’une variable


aléatoire décroît par conditionnements successifs, soit

H(X1 |X2 , . . . , Xn ) ≤ . . . ≤ H(X1 |X2 , X3 ) ≤ H(X1 |X2 ) ≤ H(X1 ),

où X1 , . . . , Xn désignent n variables aléatoires discrètes.

& %
21
' $

Couple de variables aléatoires


Relations entre les entropies

Soient X et Y des variables aléatoires à valeurs dans {x1 , . . . , xn } et {y1 , . . . , ym },


respectivement. Les relations fondamentales vues précédemment se résument ainsi :

0 ≤ H(X|Y ) ≤ H(X) ≤ H(X, Y ) ≤ H(X) + H(Y ) ≤ 2H(X, Y ).

& %
22
' $

Couple de variables aléatoires


Information mutuelle moyenne

Définition 8. L’information mutuelle moyenne de X et Y est définie par

I(X, Y ) , H(X) − H(X|Y )

ou encore, de façon équivalente,


n X
m
X P (X = xi , Y = yj )
I(X, Y ) , P (X = xi , Y = yj ) log .
i=1 j=1
P (X = xi ) P (Y = yj )

L’information mutuelle représente l’incertitude moyenne sur X diminuée de celle


qui subsiste lorsque Y est connue.

Exercice. Cas de variables aléatoires indépendantes et strictement liées.

& %
23
' $

Couple de variables aléatoires


Information mutuelle moyenne

Afin de donner une autre interprétation de l’information mutuelle, on rappelle


préalablement la définition suivante.

Définition 9. On appelle distance de Kullback-Leibler entre deux distributions P 1


et P2 , ici supposées discrètes, la quantité
X P1 (X = x)
d(P1 , P2 ) = P1 (X = x) log .
P2 (X = x)
x∈X(Ω)

L’information mutuelle correspond à la distance de Kullback-Leibler entre la loi


jointe et le produit des distributions marginales de X et Y .

& %
24
$

%
H(Y )

                   
                                       
Le diagramme de Venn, ici à 2 variables, constitue un moyen mnémotechnique.

                                       
                                       
                                       
H(Y )

                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
                                       
I(X, Y )

                                       
                                       
                                       
Couple de variables aléatoires

                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                                       
                                        
                   
H(X|Y )

H(X|Y )
Diagramme de Venn

25
H(Y |X)

H(X, Y )
H(X)
'

&
frag replacements

Vous aimerez peut-être aussi