Entropía e Información Mutua
■ Incertidumbre y entropía
■ Información mutua
■ Reglas de la cadena para n variables
■ Desigualdad de Jensen y propiedades subyacentes
■ Teorema del proceso de información
dit Tinf Entropía - 1
Noticia= Suceso Improbable
■ Detienen a una mujer por morder a su perro
El bulldog reaccionó pegando un mordisco en la espalda a la chica
Según el informe de la policía, el perro actuó en defensa propia
Braulio Pitera Miami, 04/05/2012 - 17:32h
dit Tinf Entropía - 2
Una métrica para la información
■ ¿Cómo medir la cantidad de información, I, de un suceso,?
■ Cuanto más probable es un suceso, menos nos sorprende su
ocurrencia.
■ El valor o la cantidad de información de un suceso aumenta
al reducirse su probabilidad, p.
■ Una primera idea. I inversamente proporcional a p: I = 1/p
■ Refinamiento. Para reducir el rango de variación: I = log (1/p)
● Además una métrica logarítmica nos asegura que la
información de dos sucesos independientes es la suma de sus
informaciones individuales
● Sean dos v.a. X e Y, con distribuciones p(x) y p(y).
● Tendríamos Ix= - log p(x) y Iy= - log p(y)
● Si x e y son independientes, p(x,y) = p(x) . p(y)
Ix,y= - log p(x,y) = - log (p(x).p(y)) = - (log p(x)+log p(y))= Ix + Iy
dit Tinf Entropía - 3
Unidades de información
(Dits, Nats, Bits)
p 1/p log10 (1/p) ln (1/p) log2 (1/p)
Bits
Dits Nats (Shannons)
0,000001 1.000.000 6 13,82 19,93
0,001 1.000 3 6,91 9,97
0,1 10,0 1 2,30 3,32
0,3 3,3 0,52 1,20 1,74
0,5 2,0 0,30 0,69 1,00
0,7 1,4 0,15 0,36 0,51
0,9 1,11 0,05 0,11 0,15
1 1,00 0,00 0,00 0,00
dit Tinf Entropía - 4
Entropía
■ Sea una fuente de información discreta que genera sucesos
limitados a un conjunto finito X = (x1, …. xn ), [Link]. (-1,0,1).
■ Como medida de información de esa fuente se define la
función entropía, H(X), como el promedio de la medida de
información de cada posible suceso.
■ O más formalmente, dada una variable aleatoria discreta X
que tiene una distribución de probabilidades, Pr{X=x}= p(x), la
función entropía de X, H(X), nos da una medida de la
información media asociada a la ocurrencia de un suceso.
([Link]., la recepción de un dato o símbolo de una fuente).
dit Tinf Entropía - 5
Propiedades de la Entropía H(X)
■ H(X)> 0
● puesto que 0<p(x)<1 y ,por tanto, log (1/p(x)) > 0
■
● puesto que logb x= logb a . loga x = loga x / loga b
■ Habitualmente se usan logaritmos en base 2.
dit Tinf Entropía - 6
Entropía de una Fuente Binaria, H(p)
■ Si X es una fuente binaria tal que p(0)= p y p(1)= 1-p= q
■ H(X)= -p . log2 p – (1-p) . log2 (1-p)
● La entropía de una fuente binaria suele denotarse como
H(p) ó H(p,q), su representación gráfica es:
H(p) bits
● H(p) es nula para p=0 (ò p=1), porque
la fuente, genera un 1 (ò un 0) de
forma fija, es determinista, deja de ser
aleatoria. No hay incertidumbre sobre
el símbolo que generará.
● La incertidumbre es máxima cuando la
fuente genera ambos símbolos con
igual probabilidad (p=1/2). Se observa
que en ese caso H(p) toma su valor
máximo, 1 bit.
p
dit Tinf Entropía - 7
Entropía de dos variables discretas X e Y
■ La entropía conjunta de dos variables aleatorias X e Y
con distribución de probabilidad p(x,y) se obtiene
extendiendo la definición de entropía de una variable:
● Ejemplo. Sean X e Y dos v.a. con la siguiente distribución de probabilidad
!!Y!!\!!X 1 2 3 4
1 1/8 1/16 1/32 1/32
2 1/16 1/8 1/32 1/32
3 1/16 1/16 1/16 1/16
4 1/4 0 0 0
● H(X,Y) = 27/8 = 3,375 bits; H(X)= 7/4= 1,75 bits; H(Y)= 2 bits
dit Tinf Entropía - 8
Entropía Condicionada
■ La entropía de la variable aleatoria Y condicionada por el
conocimiento de un suceso de la v.a. X se define como:
■ Es claro que si X e Y son estadísticamente independientes :
H(Y|X)= H(Y)
dit Tinf Entropía - 9
Regla de la Cadena
■ H(X,Y)= H(Y,X)= H(X) + H(Y|X)= H(Y) + H(X|Y)
● Si X e Y son independientes H(X,Y)= H(X)+H(Y)
● Demostración:
= - E[log2 p(x,y)]= - E[log2 p(x) + log2 p(y|x)]
= - E[log2 p(x)] - E[log2 p(y|x)]= H(X) + H(Y|X)
● Corolorario:
H(X,Y|Z) = H(X|Z) + H(Y|X,Z)
dit Tinf Entropía - 10
Ejemplo (continuación)
H(Y|X=1)= 7/4= 1,75 bits
H(Y|X=2)= 3/2= 1,5 bits
H(Y|X=3)= 3/2= 1,5 bits
H(Y|X=4)= 3/2= 1,5 bits
■ Se observa que todos son menores que H(Y)= 2 bits
Y promediando estos valores:
H(Y|X) = 1,75.1/2 + 1,5 . 1/4 + 1,5 .1/8 +1,5 .1/8= 1,625 bits
O bien, aplicando la regla de la cadena
H(Y|X)= H(X,Y) – H(X)= 3,375 -1,75= 1,625 bits
Por otra parte
H(X|Y)= H(X,Y) – H(Y)= 3,375 - 2=1,375 bits
dit Tinf Entropía - 11
Entropía e Información Mutua
ü Incertidumbre y entropía
■ Información mutua
■ Reglas de la cadena para n variables
■ Desigualdad de Jensen y propiedades subyacentes
■ Teorema del proceso de información
dit Tinf Entropía - 12
Información Mutua entre X e Y, I (X;Y)
■ Es la medida de la cantidad de información que una variable
aleatoria Y contiene sobre otra X.
■ Sabemos que al conocer el valor de la v.a. Y, la incertidumbre
sobre X se reduce de H(X) a H(X|Y).
■ La diferencia H(X)-H(X|Y) es la incertidumbre sobre X que
hemos removido por el conocimiento de Y.
■ O en otras palabras, la información sobre X que nos aporta el
conocimiento de Y.
■ Es decir, la información compartida entre X e Y, formalmente
hablamos de información mutua:
● I(X;Y)= H(X)-H(X|Y)
● La información mutua entre Y y X es I(Y;X)= H(Y)-H(Y|X), y
aplicando la regla de la cadena comprobamos que I(Y;X)=I(X;Y)
● I(Y;X)= H(Y)-H(Y|X)= H(X)-H(X|Y)= I(X;Y)
dit Tinf Entropía - 13
Relación entre Información Mutua y Entropía
■ Recordando de nuevo la regla de la cadena, sabemos que
H(X;Y)= H(Y)+H(X|Y):
● Por tanto, I(X;Y)= H(X)-H(X|Y)= H(X)+H(Y)-H(X;Y)
■ También comprobamos que:
● I(X;X)=H(X)
● I(Y;Y)=H(Y)
● Si X e Y son v.a. Independientes H(X|Y)=H(X) e I(X;Y)=0
■ El diagrama de Venn
nos ayuda a recordar
las relaciones entre
información mutua y
entropias.
dit Tinf Entropía - 14
Entropía Relativa (o Diferencial) D (p||q)
(Distancia de Kullback-Leibler)
■ La entropia relativa o diferencial es una medida de la
distancia entre dos distribuciones de probabilidad de una
misma variable aleatoria. Se define como:
■ Propiedades:
● D(p||q) > 0
● D(p||q) = 0 si y sólo si p(x)=q(x)
● D(p||q) ≠ D(q||p)
■ D(p||q) no nos da una distancia métrica, sino una medida
de la ineficiencia de asumir que la distribución correcta es
“q” cuando en realidad es “p”
dit Tinf Entropía - 15
I(X;Y) en función de la entropía diferencial
■ A partir de la definición de I(X;Y) = H(X) – H(X|Y)
obtenemos:
I(X;Y)=
= D ( p(x,y) || p(x) . p(y) )
dit Tinf Entropía - 16
Entropía e Información Mutua
ü Incertidumbre y entropía
ü Información mutua
■ Reglas de la cadena para n variables
■ Desigualdad de Jensen y propiedades subyacentes
■ Teorema del proceso de información
dit Tinf Entropía - 17
Regla de la cadena para la entropía
■ Dadas las v.a. X1, X2, …. Xn, aplicando reiteradamente la regla de
la cadena para dos v.a. se verifican las siguientes propiedades:
H(X1, X2 ) = H(X1) + H(X2 |X1)
H(X1, X2 , X3) = H(X1) + H((X2 , X3 )|X1)
= H(X1) + H(X2 |X1) + H( X3 | (X2, X1))
H(X1,X2 ,X3, X 4)= H(X1) + H(X2 |X1) + H( X3 | X2,X1) + H( X4 | X3 , X2 , X1)
y en general
■ Por tanto, también se cumple:
dit Tinf Entropía - 18
Información Mutua Condicional
■ La información mutua condicional se relaciona con la entropía
de forma análoga a la información mutua sin condicionar
I(X;Y|Z)= H(X|Z)-H(X|Y,Z)= H(Y|Z)-H(Y|X,Z)
■ La regla de la cadena para la Inf. mutua de n v.a. es:
● Demostración
dit Tinf Entropía - 19
Entropía Relativa Condicionada
■ A partir de la definición de entropía relativa
la entropía relativa condicionada se define como
■ La regla de la cadena para la entropía relativa es:
dit Tinf Entropía - 20
Entropía e Información Mutua
ü Incertidumbre y entropía
ü Información mutua
ü Reglas de la cadena para n variables
■ Desigualdad de Jensen y propiedades subyacentes
■ Teorema del proceso de información
dit Tinf Entropía - 21
Funciones cóncavas y convexas
■ f(x) cóncavas
X2 ex
0<λ<1
■ En f(x) convexas se invierte la desigualdad anterior ( es > )
Nótese que las funciones lineales son tanto cóncavas como convexas
log x √x
dit Tinf Entropía - 22
Desigualdad de Jensen
■ Sea f(x) una función cóncava y X un v.a., entonces se verifica
E[ f(x) ] > f( E[X] )
■ Demostración (por inducción)
● Sea una v.a. con 2 sucesos (x1 , x2 ) con probabilidades ( p1, p2 ).
Por la concavidad de f(x) se verifica:
p1 . f(x1 ) + p2 . f(x2 ) > f (x1 . p1 + x2 . p2 )
● Supongamos que el > se cumple para una distribución con k-1
sucesos
● Llamamos pi’ = pi / 1-pk i= 1,2, .., .k-1
dit Tinf Entropía - 23
Desigualdad de Jensen (cont.)
■ Si f(x) es convexa, se cumple la desigualdad en sentido
inverso: E[ f(x) ] < f( E[X] )
dit Tinf Entropía - 24
Propiedades subyacentes
■ La desigualdad de Jensen permite demostrar algunas
propiedades de la entropía.
● D (p (x) || q (x) ) > 0
● I(X;Y) = D (p (x,y) || p(x).p(y) ) > 0
■ H(X) < log | X |
Donde |X | es el nº de elementos en el rango de la v.a. X
La = si y sólo si X tiene una distribución uniforme sobre X
■ Demostración: Sea u(x)= 1/ |X | la distribución uniforme sobre X
y p(x) la distribución de X.
dit Tinf Entropía - 25
Cota superior de H(X)
■ A partir de la entropía relativa entre u(x) y p(x):
D (p || u )
■ Y por la no-negatividad de la entropía relativa:
0 < D (p || u ) = log |X | - H(X)
dit Tinf Entropía - 26
Condicionar “reduce” entropía
■ 0 < I(X;Y)= H(X) - H (X|Y) => H (X|Y) < H(X)
● Conocer otra v.a. puede reducir la entropía (o no modificarla)
● (cierto en promedio)
● H(X|Y=y) específicos pueden ser > ó < que H(X)
● Pero en promedio
dit Tinf Entropía - 27
Condicionar reduce entropía (ej.)
■ Sea la siguiente distribución
conjunta de (X,Y):
■ H(X)= H(1/8, 7/8)= 0,544 bits
■ H (X|Y=1)= 0 bits ; H (X|Y=2) =1 bit
■ H (X|Y)= 3/4 H (X|Y=1) + 1/4 H (X|Y=2) =0,25 bit
● La incertidumbre sobre X aumenta si se observa Y=2
● Pero disminuye si se observa Y=1
● En promedio la incertidumbre sobre X disminuye al conocerse Y
dit Tinf Entropía - 28
Entropía: Limite de la Independencia
■ Sea (X1, X2, …. Xn ) con distribución p( x1, x2, …. xn ).
■ Por la regla de la cadena para la entropía se verifica
● Con =, si y solo sí las Xi son independientes
dit Tinf Entropía - 29
Entropía e Información Mutua
ü Incertidumbre y entropía
ü Información mutua
ü Reglas de la cadena para n variables
ü Desigualdad de Jensen y propiedades subyacentes
■ Teorema del proceso de información
[Link]
dit Tinf Entropía - 30
Teorema del Proceso de Información
(enunciado)
■ Dadas X e Y (p. ej., entrada y salida a un canal de comunicación)
podemos intentar mejorar I(X;Y) mediante un proceso (sobre Y)
que nos proporcione una nueva v.a. Z= f(Y)
■ Demostraremos que siempre se va a cumplir que I(X;Y) > I(X;Z)
■ Establece que nunca una manipulación más inteligente de los
datos va a mejorar la información mutua entre las v.a..
■ La hipótesis de partida es que X, Y y Z, mantienen una relación
markoviana X à Y à Z dado que Z=f(Y) y por tanto:
p(x,y,z) = p(x,y).p(z|x,y)= p(x,y).p(z|y)= p(x).p(y|x).p(z|y)
■ Obsérvese que X y Z, condicionados por Y, son independientes:
p(x,y,z) p(x,y).p(z|y)
p(x,z|y)= ----------- = ------------------ = p(x|y).p(z|y)
p(y) p(y)
dit Tinf Entropía - 31
Teorema del Proceso de Información
(demostración)
■ Aplicando la regla de la cadena obtenemos:
I(X;Y,Z)= I(X;Z) + I(X; Y| Z)= I(X;Y) + I(X; Z|Y))
■ Por su relación markoviana I(X; Z|Y)= 0, entonces:
I(X;Z) + I(X; Y| Z)= I(X;Y)
y como I(X; Y| Z) > 0
obtenemos I(X;Y) > I(X;Z)
■ Corolario:
● Si XàYàZ, tienen una relación markoviana se verifica
I(X; Y| Z) < I(X;Y)
dit Tinf Entropía - 32
Teorema del Proceso de Información
(contraejemplo)
■ Si X, Y , Z no tienen una relación markoviana es posible que
I(X; Y| Z) > I(X;Y)
■ [Link]., sean X e Y dos v.a. binarias independientes y Z=X+Y
p(X=0)=½
p(X=1)=½
p(Y=0)=½
p(Y=1)=½
■ I(X;Y)= 0
■ I(X; Y| Z)= p(z=0) I(X;Y|Z=0) + p(z=1) I(X;Y|Z=1) + p(z=2) I(X;Y|Z=2)
= p(z=1) I(X;Y|Z=1) = (½ . ½) . 2 .(H(X|Z=1)-H(X|Y, Z=1))
= ½ H(X)= ½ bit
dit Tinf Entropía - 33