Markov Français
Markov Français
Modélisation markovienne en
imagerie
Vincent Barra
9 Estimation de paramètres 16
9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
9.2 Données complètes . . . . . . . . . . . . . . . . . . . . . . . . . 17
9.2.1 Méthode des codages . . . . . . . . . . . . . . . . . . . . 17
9.2.2 Pseudo vraisemblance . . . . . . . . . . . . . . . . . . . 18
9.2.3 Algorithme du gradient stochastique . . . . . . . . . . . . 19
9.3 Données incomplètes . . . . . . . . . . . . . . . . . . . . . . . . 20
9.3.1 Position du problème . . . . . . . . . . . . . . . . . . . . 20
9.3.2 Estimation des paramètres d’attache aux données . . . . . 20
9.3.3 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . 21
10 Processus de bords 22
10.1 Processus implicites et explicites . . . . . . . . . . . . . . . . . . 23
10.2 Algorithmes de minimisation associés . . . . . . . . . . . . . . . 24
11 Quelques illustrations 24
11.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
11.1.1 Imagerie radar . . . . . . . . . . . . . . . . . . . . . . . 24
11.1.2 Imagerie sismique . . . . . . . . . . . . . . . . . . . . . 25
11.1.3 Imagerie de test . . . . . . . . . . . . . . . . . . . . . . . 26
11.2 Restauration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
11.2.1 Imagerie de test . . . . . . . . . . . . . . . . . . . . . . . 27
11.2.2 Restauration avec prise en compte de processus de bords . 28
L’information véhiculée par une image est portée par bien d’autres données que
les seuls niveaux de gris. En effet, une image représente une suite d’objets dans
un espace 3D et des relations spatiales évidentes existent entre chaque site de
résolution de l’image (pixel). Le niveau de gris d’un pixel n’est donc souvent pas
significatif en lui-même, mais dans ses relations avec ses voisins. Cette notion
de relation de voisinage va nous permettre d’introduire un contexte markovien
pour l’analyse d’images, dans des domaines qui vont de la segmentation d’objets
à la restauration d’images bruitées. Dans la suite, un processus markovien sera
indifféremment dénoté comme tel, ou comme un champ de Markov, ou par son
abréviation anglaise MRF (Markov Random Field).
1 L’image
L’image est formée d’un ensemble fini S de sites s correspondant aux pixels, aux
groupes de pixels, aux régions dans l’image ou à tout autre attribut haut niveau.
S est donc essentiellement un réseau discret, fini de Z2 ou Z3 (même Z4 si l’on
considère des volumes évoluant dans le temps), muni d’une topologie V définie
par :
s∈/ Vs
Vs = t tels que :
t ∈ Vs ⇔ s ∈ Vt
A partir de cette topologie, un système de cliques peut être défini : une clique est
soit un singleton de S, soit un ensemble de sites tous voisins au sens de V. L’en-
semble des cliques relatif à V est noté C, et l’ensemble des cliques de cardinal k,
2
Ck .
P (Xs = xs | xr , r 6= s) = P (Xs = xs | xr , r ∈ Vs )
3
Définition 1. La mesure de Gibbs d’hamiltonien U : Ω → IR est la probabilité
P définie sur Ω par :
e−U (x)
P (X = x) = X
e−U (y)
y∈Ω
avec X
U (x) = Uc (x)
c∈C
Le dénominateur est appelé fonction de partition de Gibbs, et permet de nor-
maliser la probabilité. Il est cependant quasi impossible à calculer, même pour des
configurations simples : Card(Ω) = 2262144 par exemple pour une image simple
512 × 512 à deux niveaux de gris !
Définition 2. Le champ de Gibbs de potentiel associé au système de voisinage V
est le processus aléatoire X dont la probabilité est une mesure de Gibbs associée
à V
L’énergie totale d’un champ de Gibbs se décompose donc sous forme d’une
somme d’énergies locales.
Le lien entre champ de Gibbs et processus Markovien est effectué par le théorème
fondamental suivant :
Théorème 1. : théorème d’Hammersley-Clifford
Soient S un ensemble fini ou dénombrable, V une topologie sur S et E un espace
d’états discret. Soit X un processus aléatoire à valeurs dans E Card(S) alors :
X est un champ de Markov relativement à V et P (X = x) > 0 pour tout x ∈ Ω si
et seulement si X est un champ de Gibbs de potentiel associé à V
Ainsi, la probabilité conditionnelle P (xs | Xr = xr , r 6= s) s’écrit :
P (X = x) e−U (xs ,xr ,r6=s)
P (Xs = xs | Xr = xr , r =
6 s) = =X
P (Xr = xr , r 6= s) e−U (e,xr ,r6=s)
e∈E
4
et en passant aux champs de Gibbs :
e−Us (Xs =xs |Xr =xr ,r∈Vs )
P (Xs = xs | Xr = xr , r 6= s) = X
e−Us (Xs =e|Xr =xr ,r∈Vs )
e∈E
L’expression obtenue ne fait donc intervenir que les potentiels de cliques dans
lesquelles est impliqué s (où au passage on retrouve l’hypothèse markovienne),
et le calcul du dénominateur de la fraction devient maintenant possible, contraire-
ment à l’expression générale de la fonction de partition de Gibbs.
(i) Choix d’un site s (par tirage selon une loi uniforme sur E)
(ii) Calcul de la probabilité conditionnelle
5
Dans le cas où chaque site s est visité une infinité de fois, on peut montrer que les
réalisations générées sont des réalisations de la loi de Gibbs, indépendamment de
la configuration initiale utilisée pour l’algorithme. En pratique, on fera converger
l’algorithme en itérant le procédé ”un nombre suffisant de fois”, ou en détectant
le faible nombre de changement dans les mises à jour de sites d’une itération à
l’autre.
(i) Choix d’un site s (par tirage selon une loi uniforme sur E)
(ii) Tirage aléatoire d’un descripteur δ ∈ E selon une loi uniforme
(iii) Calcul de la variation d’énergie induite par le changement d’état du site s (de
son état à l’itération précédente à l’état δ) :
∆U = Us (Xs = δ | Xr = xn−1
r , r ∈ Vs ) − Us (Xs = xsn−1 | Xr = xrn−1 , r ∈ Vs )
Si (∆U < 0) Alors
Le changement d’état est accepté pour le site s
Sinon
Le changement est accepté avec une probabilité e−∆U
Fin Si
Algorithme 2: Algorithme de Metropolis
6
5.1 Distribution de Gibbs avec température
Définition 3. Une probabilité de Gibbs avec paramètre de température T > 0 est
une loi de probabilité de la forme :
U (x)
e− T
PT (X = x) = X U (y)
e− T
y∈Ω
Lorsque la température tend vers l’infini, il est facile de voir que PT converge
vers la loi uniforme sur Ω, et donc toutes les configurations sont équiprobables.
7
U (x)
(i)Simulation d’une configuration xn pour la loi de Gibbs d’énergie T
à partir
de la configuration (n − 1).
(i)Mise à jour de la température, (e.g. théorème d’Hajek :
c
Tn >
log(2 + n)
8
6 Exemples de champs de Markov
6.1 Modèle d’Ising
L’espace d’état est un espace binaire {-1,1}, et la topologie est indifféremment
la 4- ou la 8-connexité dans une image 2D. Les potentiels de cliques d’ordre 1 (un
seul site) sont de la forme −Bxs , et les potentiels d’ordre 2 sont définis par :
−β si xs = xt
Uc={s,t} (xs , xt ) = −βxs xt =
β sinon
, où β est la constante de couplage entre s et t. L’énergie globale d’une configura-
tion est donc X X
U (x) = − βxs xt − Bxs
c={s,t} s∈S
.
β régularise le modèle : lorsque β > 0, les configurations d’énergie minimale
sont celles pour lesquelles les sites ont le même état, et si β < 0 les configurations
privilégiées sont celles où les sites sont d’états opposés.
9
1 sont de la forme α(xs − µs ), où µs est une donnée extérieure qui, dans le cas
du traitement d’images, peut être une moyenne de niveaux de gris attendue en
s lorsque les descripteurs sont les niveaux de gris. Les potentiels d’ordre 2 sont
quant à eux donnés par β(xs − xt ), et régularisent les configurations, favorisant
les faibles différences de descripteurs entre s et t lorsque β > 0. Le rapport αβ
pondère les influences respectives des termes de régularisation et d’attache aux
données, les valeurs absolues de ces paramètres décrivant le caractère équiréparti
ou localisé de la distribution.
10
– le dénominateur est constant, et en particulier indépendant de x
Ainsi,
P (X = x | Y = y) = KP (Y = y | X = x)P (X = x)
= Keln(P (Y =y|X=x))−U (x)
= Ke−U (x|y)
où X X
U(x | y) = − ln (P (Ys = ys | Xs = xs )) + Uc (x)
s∈S c∈C
11
impose des descripteurs xs proches de ys par rapport au terme regularisation (uti-
lisation des cliques d’ordre 2) qui impose lui une image constituée de larges zones
homogènes.
Les valeurs de probabilité conditionnelles sont par exemple données par la fréquen-
ce d’observation des niveaux de gris pour une classe donnée, et si chaque classe k
suit une distribution gaussienne de moyenne mk et d’écart-type σk :
(y −m ) 2
1 − s 2k
P (Ys = ys | xs = k) = p 2
e 2σ
k
2πσk
12
8 Estimateurs dans un cadre markovien
8.1 Introduction
Nous avons vu précédemment comment il était possible d’utiliser le formalisme
markovien à des fins de restauration et de segmentation. On se situe alors dans
le cadre de données incomplètes (on parle aussi de champs de Markov cachés)
car la réalisation dont on dispose est une réalisation bruitée (ou plus généralement
vue au travers du système d’acquisition) du champ de Markov originel. En notant
Y le champ dont on observe une réalisation, et X le champ initial, l’objectif est
alors d’obtenir la meilleure réalisation xb de X connaissant l’observation y, autre-
ment dit, reconstruire x de manière optimale vis-à-vis d’un certain critère. Dans
le précédent paragraphe, nous nous étions intéressés à la réalisation maximisant la
probabilité a posteriori P (X = x|Y = y) et nous avions vu que le recuit simulé
permetttait d’accéder à cette réalisation. D’autres choix sont possibles, auxquels
correspondent d’autres méthodes de résolution.
P (Y = y|X = x)P (X = x)
P (X = x|Y = y) =
P (Y = y)
13
8.3 Estimateur MAP
Si L(x, x0 ) = 1{x6=x0 } , L pénalise toute différence entre deux configurations, et
ce, quel que soit le nombre de sites en lesquels elles diffèrent. Ainsi
X
IE(L(X, Φ(y))|Y = y) = L(x, Φ(y))P (x|y)
= 1 − P (X = Φ(y)|y)
et la fonction Φ minimisant l’espérance de la fonction de coût est celle qui maxi-
mise la probabilité a posteriori. Il faut donc trouver x b, fonction de y, maximisant
P (X|y). On parle de l’estimateur MAP (maximum a posteriori) ou de maximum
de vraisemblance a posteriori. Les solutions algorithmiques associées à cet esti-
mateur sont le recuit simulé et l’ICM, utilisés avec la distribution a posteriori avec
paramètre de température.
14
8.5 Estimateur TPM
X
Si L(x, x0 ) = (xs − x0s )2 , L est l’erreur quadratique et pénalise la somme
s∈S
des carrés des différences entre les deux configurations. Elle peut donc être plus
adaptée dans certains cas que les précédentes, puisqu’elle tient compte non seule-
ment du nombre de différences comme le MPM, mais aussi de leurs valeurs.
On montre alors que le minimum de L est atteint pour Φ telle que Φ(y)s =
IE(Xs |y), Cet estimateur consistant alors à prendre en chaque site la moyenne
conditionnelle locale donnée par la loi a posteriori, d’où le nom de TPM (Thre-
sholded Posteriori Mean).
D’un point de vue algorithmique, la démarche est similaire à celle effectuée dans
le paragraphe précédent pour le MPM. On approche l’espérance conditionnelle en
chaque site par la moyenne empirique en ce site de N échantillons tirés selon la
loi a posteriori.
8.6 Comparaison
Ces trois estimateurs sont ici comparés dans le cadre de la restauration. Dans le
cas du MAP, les résultats sont obtenus par ICM et par recuit simulé. L’image à
restaurer est une image bruitée par un bruit blanc gaussien. L’énergie a posteriori
utilisée s’écrit :
X (xs − ys )2 X
U(x | y) = +β φ(xs − xt )
s∈S
σ2 s,t∈C2
avec
u2
Φ(u) =
1 + u2
L’initialisation est donnée par l’image à restaurer. Pour tous les estimateurs, on
réalise 600 itérations. Dans le cas du recuit simulé, la température initiale est de
6.
Visuellement, le meilleur résultat est obtenu par le MAP du recuit simulé. Comme
l’image originale est une assez bonne initialisation, il n’y a pas de grandes différences
entre les algorithmes de recuit simulé et d’ICM pour l’estimateur du MAP. Ce
n’est pas vrai dès que l’initialisation s’écarte du résultat à obtenir et les différences
avec le recuit simulé peuvent être très importantes. Par ailleurs, on constate que
l’estimateur TPM, qui est par définition plus local, donne un résultat plus bruité et
moins régularisé. Cette analyse visuelle est confirmée par l’étude statistique qui
peut être effectuée sur des zones homogènes de l’image.
15
9 Estimation de paramètres
9.1 Introduction
Le problème de l’estimation de paramètres (encore appelés hyperparamètres
dans la littérature), revient très fréquemment en traitement d’image par champs
de Markov, et par exemple :
– on se donne une réalisation d’un champ de Markov associé au modèle d’Ising,
mais on ne connaı̂t pas ses paramètres.
– On veut généraliser ceci à une image de texture donnée dont on connaı̂t le
modèle sous-jacent (par exemple un modèle gaussien en 4-connexité) mais
pas les paramètres, qui sont du type : moyenne locale, variance locale, poids
de la régularisation locale. Quels sont-ils ? Leur connaissance pourrait bien
en effet servir à la classification d’images composées de zones texturées en se
16
basant sur l’estimation locale de tels paramètres. On classifierait alors selon
les valeurs de ces attributs locaux.
– On veut segmenter une image, et pour cela apprendre les paramètres de chaque
classe, ainsi que le coefficient optimal du modèle de régularisation adapté à
cette tâche. On sait en effet que le résultat d’une segmentation par estima-
teur MAP par exemple dépend fondamentalement du poids respectif de la
régularisation par rapport à celui de l’attache aux données. Il faut donc là
aussi estimer ce poids d’une façon optimale dans un sens à définir.
L’ensemble forme un problème réputé difficile. Les solutions les plus utilisées se
décomposent en deux classes fondamentales :
– le cas des données dites complètes, correspondant aux deux premiers problèmes
cités plus haut : un échantillon d’une distribution de Gibbs est connu. Il s’agit
de remonter aux paramètres de cette distribution.
– le cas des données dites incomplètes. Là non seulement le résultat de traite-
ment est inconnu, mais les paramètres sont également à estimer.
17
autres : chacun de ces sous réseaux est appelé un codage. Par exemple avec un
voisinage en 4 connexité il existe deux codages, et 4 codages différents dans le
cas de la 8-connexité.
L’estimation est alors posée dans le cadre de chaque codage. Pour un codage
donné, les différents sites/pixels le constituant sont indépendants les uns des autres
puisqu’ils ne sont pas des voisins pour le champ de Markov de départ. La proba-
bilité globale d’un codage se trouvera donc être le produit des probabilités indi-
viduelles de chacun des sites du codage. Or du fait de la structure de Markov du
champ de départ cette probabilité individuelle se trouve être la probabilité condi-
tionnelle locale du site/pixel dans le champ de Markov. Pour un codage Codn
donné, on a alors :
Y
Pθ ({Xs = xs }s∈Codn |{Xr = xr }s∈Cod/ n) = Pθ (Xs = xs |Vs )
s∈Codn
est une fonction concave du (des) paramètre(s), comme somme de fonctions concaves.
Elle se prête donc bien à la recherche d’un optimum par une méthode classique
de type gradient. On peut également montrer qu’il s’agit dans ce cas d’un simple
problème de moindres carrés.
18
Du maximum de vraisemblance vrai, cette méthode conserve l’idée de travailler
sur l’ensemble de l’image et non séparément sur des réseaux indépendants. De
la méthode de codage, elle garde l’idée de manipuler une fonction de vraisem-
blance produit des probabilités locales de chacun des sites/pixels. Cette fonction
est appelée pseudo-maximum de vraisemblance, et elle s’écrit
Y
P Lθ (X = x) = P (Xs = xs |Vs )
s∈S
IEθb(Φ) = Φ(x)
19
courante du paramètre. Quant à la variance de ce potentiel, on l’estime encore plus
crûment par une grandeur positive fixée V . On peut montrer que le prix à payer
pour cette approximation est l’introduction d’un terme correctif supplémentaire
en 1/n + 1 dans le schéma iteratif.
On peut alors montrer que cet algorithme stochastique converge presque sûrement,
en termes de probabilité, vers la valeur optimale θb lorsque V est suffisamment
grand
e−Uλ (y|x)
Pλ (Y = y|X = x) =
Zλ
On suppose également disposer d’une connaissance a priori sur la scène à re-
trouver x, que ce soit en segmentation ou restauration, via la distribution de Gibbs :
e−θΦ(x)
Pθ (x) =
Zθ
et on connaı̂t la forme de la distribution de Gibbs a posteriori
e−Uλ (y|x)−θΦ(x)
Pθ,λ (X = x|Y = y) =
Zθ,λ
20
de l’image suive une loi gaussienne de paramètre µi , σi2 , alors λ = (µi , σi2 )1≤i≤m .
Pour l’exemple présenté ici, nous étudierons l’estimation de λ dans le cas gaussien
par raison de commodité. La probabilité des observations conditionellement aux
labels s’écrit donc :
(y −µ ) 2
Y 1 − s 2xs
Pλ (Y = y|X = x) = √ e 2σxs
s∈S
2πσxs
e−Eθ,λ (x|y)
Pθ,λ (X = x|Y = y) =
Zθ,λ
où
X (ys − µx )2
s
Eθ,λ (x|y) = 2
+ logσxs + θΦ(x)
s∈S
2σx s
et X
(ys − µi )2 Pθ,λ (Xs = i)
s∈S
(∀i ∈ {1 · · · m})σi = X
Pθ,λ (Xs = i)
s∈S
9.3.3 Algorithme EM
L’algorithme EM est une méthode itérative. L’idée fondamentale est de considérer
que les données observées ne correspondent qu’à une connaissance partielle des
21
données complétées, et que la maximisation de la vraisemblance associée à ces
données est simple.
Supposons connus les paramètres θn et λn à l’étape n. Supposons avoir également
accès aux statistiques liées à la loi a posteriori des données cachées courantes
(étape E - Expectation). On définit alors
Q(θ, λ, θn , λn ) = IEθn ,λn (log(Pθ,λ (X = x|Y = y))
La partie optimisation (étape M - Maximisation) consiste à rechercher
(θn+1 , λn+1 ) = arg max Q(θ, λ, θn , λn )
θ,λ
et X
(ys − µn+1
i )2 Pθn ,λn (Xs = i)
s∈S
(∀i ∈ {1 · · · m})σin+1 = X
Pθn ,λn (Xs = i)
s∈S
Ce sont bien les distributions a posteriori qui sont mises en jeu dans ces estima-
tions itératives. Elles sont donc à re-estimer à chaque itération n. Une manière bien
naturelle est de remplacer ces probabilités à l’étape courante du processus EM par
la fréquence empirique d’apparition des labels lors d’une série d’échantillonnages
de la distribution de Gibbs a posteriori courante menés à l’aide d’un échantillonneur
(Gibbs, Metropolis).
10 Processus de bords
Les modèles markoviens peuvent être utilisés, comme nous l’avons indiqué, en
restauration d’images : connaissant une réalisation y, on cherche une solution x
22
minimisant U(x|y) = U1 (x, y) + βU2 (x, y). Le terme de régularisation U2 per-
met d’agir sur les dérivées de la solution recherchée. Dans le cas d’un potentiel
quadratique, cela entraı̂ne un fort lissage de la solution au détriment des disconti-
nuités naturelles présentes dans l’image (bord des objets).
Il est possible de contraindre la dérivée première de la solution pour préserver ces
discontinuités naturelles, et gérer ainsi ces processus de bords.
avec
ψ(z) = min(z 2 , γ)
La quadratique est remplacée dans ce modèle par une quadratique tronquée. L’uti-
lisation d’un processus de bords explicite est dans ce cas équivalente à l’utilisa-
tion de la fonction ψ (on parle de processus de bords implicite). La valeur de γ
détermine alors à partir de quelle valeur du gradient on introduit une discontinuité
dans l’image.
Le choix d’un processus de bords implicite ou explicite va donner lieu à différents
algorithmes de minimisation. En effet, le recuit simulé permettant d’accéder au
minimum global de l’énergie peut être long et coûteux. Il peut dans de nombreux
cas être remplacé par un algorithme déterministe pour accél´erer la recherche de
la solution.
23
10.2 Algorithmes de minimisation associés
Parmi les algorithmes de minimisation associés aux processus de bords, citons
l’algorithme Graduated Non Convexity (GNC) qui minimise le critère sous sa
forme implicite. Le principe de l’algorithme consiste à approcher le critère par une
fonction convexe qui permet de définir une bonne solution initiale. Puis le critère
est graduellement modifié perdant sa propriété de convexité pour se rapprocher du
critère initial. A chaque étape, une solution est trouvée de manière déterministe
en utilisant pour initialisation la solution donnée par l’étape précédente. Si des
preuves de convergence peuvent être obtenues dans certains cas particuliers, cette
démarche n’assure cependant pas de trouver le minimum global pour toutes les
fonctions d’énergie.
D’autres approches utilisent un recuit par champ moyen MFA (Mean Field An-
nealing) sur le processus de bords sous sa forme explicite. L’algorithme met en
oeuvre une descente de température au cours de laquelle à chaque étape une solu-
tion (image restaurée et processus de bords) est estimée au sens du champ moyen.
Des expressions explicites sont dérerminées pour le processus de bords, tandis que
x est estimée de manière itérative.
11 Quelques illustrations
Dans cette section, nous donnons quelques résultats en images des champs de
Markov en segmentation et restauration.
11.1 Segmentation
11.1.1 Imagerie radar
L’image suivante (a) (source : INRIA, Sophia-Antipolis) représente une zone
rurale prise par le satellite SPOT. Sa segmentation en une dizaine de régions de
nature différente est donnée en (b).
24
11.1.2 Imagerie sismique
L’image suivante (a) est une image de réflexion sismique. Le but est ici de seg-
menter les couches géologiques, les champs de Markov fournissant les séparateurs
optimaux (b) reportés sur l’image originale (c).
25
11.1.3 Imagerie de test
L’exemple quivant montre, sur une image test classique, l’influence de la méthode
de recherche des configurations les plus probables qui correspondent à des états
d’énergie minimale. A partir d’une image originale bruitée, l’ICM et l’échantillonneur
de Gibbs fournissent deux résultats de segmentation bien distincts (problème de
minimum local pour ICM)
26
11.2 Restauration
11.2.1 Imagerie de test
La première ligne de l’image suivante montre une image originale, bruitée par
un bruit gaussien. L’image restaurée est donnée sur la seconde ligne, sans prise en
compte des effets de bords .
27
11.2.2 Restauration avec prise en compte de processus de bords
L’image suivante montre la restauration effectuée sur l’image (a) avec (d) et sans
(c) prise en compte de processus de bords. L’image (b) est un lissage de (a) qui
peut être effectué pour diminuer l’influence du bruit dans l’image
28