Dea Rapport
Dea Rapport
Hugo MERCIER
1 Analyse 9
1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Psychophysiologie du visage . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Physiologie du visage . . . . . . . . . . . . . . . . . . . 10
1.2.2 Psychologie du visage . . . . . . . . . . . . . . . . . . . 10
1.3 Système humain d’analyse du visage . . . . . . . . . . . . . . . . 11
1.4 Système automatique d’analyse du visage . . . . . . . . . . . . . 12
1.4.1 Approche par composantes . . . . . . . . . . . . . . . . . 13
1.4.2 Approche globale . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Aspect dynamique . . . . . . . . . . . . . . . . . . . . . 14
2 Etat de l’art 15
2.1 Détection du visage . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Analyse humaine des expressions du visage . . . . . . . . . . . . 15
2.3 Formalismes de description . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 FACS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 FACS+ . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 MPEG4 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Candide . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.5 SignStream . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Analyse automatique des expressions du visage . . . . . . . . . . 22
2.4.1 Compression et animation . . . . . . . . . . . . . . . . . 23
2.4.2 Interaction Homme-Machine . . . . . . . . . . . . . . . . 24
2.4.3 Sciences comportementales et neuropsychologie . . . . . 25
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Cahier des charges 33
3.1 Particularités de la Langue des Signes . . . . . . . . . . . . . . . 33
3.2 Reconstruction 3D . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Estimation des paramètres 3D . . . . . . . . . . . . . . . 35
3.2.2 Adaptation globale d’un modèle de visage . . . . . . . . . 36
3.3 Occultation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Formalisme et architecture 39
4.1 Formalisme de représentation . . . . . . . . . . . . . . . . . . . . 39
4.1.1 Connaissances . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 Connaissances composées . . . . . . . . . . . . . . . . . 43
4.1.3 Représentation interne . . . . . . . . . . . . . . . . . . . 51
4.1.4 Représentation externe . . . . . . . . . . . . . . . . . . . 51
4.2 Architecture du système d’analyse . . . . . . . . . . . . . . . . . 55
4.2.1 Analyse ascendante . . . . . . . . . . . . . . . . . . . . . 55
4.2.2 Analyse descendante . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Analyse bi-directionnelle . . . . . . . . . . . . . . . . . . 60
4.2.4 Niveaux langagiers . . . . . . . . . . . . . . . . . . . . . 61
4.2.5 Niveaux d’analyse . . . . . . . . . . . . . . . . . . . . . 61
5 Conception 65
5.1 Mécanisme d’extraction . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.1 Connaissances sur les composantes faciales . . . . . . . . 65
5.1.2 Prétraitements . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 Mécanisme de vérification . . . . . . . . . . . . . . . . . . . . . 68
5.3 Mécanisme de prédiction . . . . . . . . . . . . . . . . . . . . . . 68
5.3.1 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4 Ajout de nouvelles connaissances . . . . . . . . . . . . . . . . . 71
6 Conclusion 73
1.1 Définitions
Expressions et émotions sont très liées et parfois confondues, c’est pour cette raison
qu’on se tiendra aux définitions suivantes par la suite :
Mimique faciale : une mimique faciale est un état du visage composé par un
ensemble de configurations des muscles faciaux. Le sourire est par exemple une
mimique faciale composé d’un certain nombre d’activation des muscles faciaux
(mouvements des muscles zygomatiques).
Emotion : l’émotion est un des générateurs des expressions faciales. L’émotion
se traduit via de nombreux canaux comme la position du corps, la voix et les
représentant une émotion sans pour autant ressentir cette émotion. Alors que les
expressions dépendent des individus et des cultures, on distingue généralement un
nombre limité d’émotions universellement reconnues.
Expression faciale : une expression faciale est une mimique faciale chargée de
sens. Le sens peut être l’expression d’une émotion, un indice sémantique ou une
intonation dans la Langue des Signes.
L’interprétation d’un ensemble de mouvements musculaires en expression est dé-
pendante du contexte d’application. Dans le cas d’une application en interaction
Homme-Machine où l’on désire connaître une indication sur l’état émotionnel d’un
10 CHAPITRE 1. ANALYSE
individu, on cherchera à classifier les mesures en terme d’émotions. Pour une ap-
plication en Langue des Signes, les mesures seront combinées pour contruire un
sens, qui ne reflète pas forcément l’état émotionnel de l’individu.
Le visage est une zone importante du corps humain qui possède une trentaine
de muscles. L’électromyographie (EMG) est une technique permettant de mesu-
rer l’activité musculaire au cours du temps. Cette technique a permis de déduire
que l’activation musculaire, et en particulier l’activation des muscles du visage,
peut généralement être découpée en trois phases :
– la phase d’attaque ( attack ou onset ), qui correspond à la période pendant
Il est à noter que les muscles de la zone supérieure du visage n’ont que peu d’in-
fluence sur les muscles de la zone inférieure et vice-versa ([21]). Il est donc pos-
sible de découper l’analyse en deux zones.
Les expressions faciales peuvent former une indication sur l’état émotionnel d’un
individu : ce sont les expressions dites spontanées en contraste avec les expres-
sions qui peuvent être forcées . Les deux types d’expression sont générées par
sourire de Duchenne est un sourire sincère reflétant une émotion positive ; l’activa-
tion des muscles entourant les yeux accompagne en général ce sourire. Il semblerait
1.3. SYSTÈME HUMAIN D’ANALYSE DU VISAGE 11
aussi que les mesures temporelles (onset, apex et offset) de l’activation des muscles
soient différentes entre les deux types de sourire.
La distinction entre les deux types peut être mise en évidence si les différentes
mesures sont suffisamment précises.
Ekman et Friesen ([21]) ont établi qu’il existe un nombre limité d’expressions re-
connues par tous, indépendamment de la culture. Ces expressions innées corres-
pondent aux sept émotions suivantes : la neutralité, la joie, la tristesse, la sur-
prise, la peur, la colère et le dégoût.
On présente ici quelques informations relatives à l’analyse des visages chez l’hu-
main. La détection du visage consiste à isoler dans quelle(s) zone(s) d’une image
se trouve(nt) le(s) visage(s). La reconnaissance du visage consiste à retrouver à qui
appartient un visage particulier.
Ces informations sont tirées principalement d’un état de l’art sur la reconnaissance
des visages ([8], voir aussi [44]). Il est à noter que beaucoup de résultats dans ce
domaine sont dus à l’étude d’une maladie neurologique : la prosopagnosie. Les
prosopagnosiques ne reconnaissent pas ce qui fait l’identité d’un visage.
Le processus de reconnaissance du visage est un processus dédié chez l’humain.
Trois indications principales permettent de vérifier cette proposition :
1. Les visages sont mieux mémorisés par les êtres humains que les autres ob-
jets,
2. Les prosopagnosiques n’identifient pas les visages. Bien qu’ils reconnaissent
parfaitement les différents composants du visage (nez, bouche, yeux) et qu’ils
sachent dire si un objet est un visage ou non, ils sont incapables de recons-
tituer ce qui forme l’individualité d’une personne. Ils reconnaissent ausi les
expressions du visage (et les émotions sous-jacentes). Les prosopagnosiques
reconnaissent les différences intra-individus, mais pas les différences inter-
individus.
3. Le processus de reconnaissance des visages est un processus inné puisque les
nouveaux-nés préfèrent suivre du regard des objets ressemblant à un visage
plutôt que d’autres.
Le mouvement joue un rôle important dans la détection des visages familiers. Un
visage familier est plus facile à détecter s’il est en mouvement que s’il est statique.
Cependant, le mouvement n’apporte rien pour la détection des visages inconnus.
12 CHAPITRE 1. ANALYSE
problème de détection du visage, bien qu’il soit tout à fait possible de détecter
un visage par une approche plus locale, en détectant le clignement des yeux par
exemple.
D’un certain point de vue, le processus de détection du visage est antagoniste au
processus d’identification. Détecter un visage utilise ce qui est commun à tous
les visages, en ignorant donc les différences inter-individus. Identifier un visage
particulier consiste au contraire à exploiter ces différences inter-individus pour la
discrimination et donc la reconnaissance.
Le processus de reconnaissance des expressions, quant à lui, se base sur les diffé-
rences intra-individus. facial expression identification requires finding something
common across individuals, while face identification requires finding something
different ([44]).
Identifier un visage semble faire appel la plupart du temps à une analyse globale
suivie d’une analyse par composantes pour affinement, bien que dans certains cas
(quand certaines composantes sont marquées chez certains individus - grandes
développées en annexe.
Les différentes approches présentées ici sont généralement combinées. Bien que
l’approche globale semble plus adaptée à la détection et la reconnaissance du vi-
sage et l’approche par composantes plus adaptée à l’analyse des expressions, les
méthodes utilisées dans la pratique sont généralement une combinaison des deux
approches.
Il est possible que le modèle du visage ait été construit a priori , à partir de connais-
sances d’expert. On trouve généralement dans cette catégorie les modèles 3D du
visage (Candide par exemple, voir plus loin).
La reconnaissance d’expressions par cette approche consiste par exemple à com-
parer un visage observé avec un modèle d’expression appris lui aussi à partir d’un
certain nombre d’exemples.
Cependant, cette méthode est difficile à utiliser puisque le corpus d’apprentissage
doit être très difversifié et doit représenter toutes les combinaisons possibles des
mucles faciaux.
Reconnaître un visage par cette approche consiste à mesurer la différence entre le
visage observé et chaque visage précédemment mémorisé. Le visage ayant le score
de ressemblance le plus fort (à condittion que le score dépasse un certain seuil pour
traiter le cas où aucun visage n’est reconnu) est alors le visage reconnu.
4
qu’il soit informatique ou humain. En effet, il est difficile de distinguer clairement une mimique
faciale à partir d’une image fixe et ce, même pour un humain
5
on peut aussi vérifier la prédiction de l’opérateur de suivi
2
Etat de l’art
On présente dans ce chapitre une vue d’ensemble des travaux précédemment en-
trepris dans le domaine de l’analyse du visage, tout d’abord avant, puis pendant
l’ère informatique. Les travaux sur l’analyse manuelle des expressions du visage
ont donné les premiers formalismes, qui ont été repris puis parfois étendus par les
travaux sur l’analyse automatique des expressions du visage.
2
Il avait trouvé un cobaye idéal : une personne souffrant d’insensibilité musculaire au niveau
du visage. C’est ce qui a permis d’utiliser l’électricité et de prendre le temps de poser pour les
photographies de l’époque
2.3. FORMALISMES DE DESCRIPTION 17
ne sont pas visibles chez certaines personnes (barbe, moustache, sourcils) ; certains
ne sont visibles qu’à certains moments (un oeil peut être caché lors d’une rotation
de la tête par exemple).
Action faciale : une action faciale est un ensemble d’indices visuels intégrés de
manière temporelle. Le relèvement des sourcils est par exemple une action faciale
composée d’un ensemble de positions successives des sourcils. Une action faciale
est généralement décrite par sa dynamique : le relèvement des sourcils consiste
en une position actuelle des sourcils plus haute que sa position précédente. Les
actions faciales sont généralement caractérisées par leur profil temporel : durée
2.3.1 FACS
(FACS).
FACS s’est imposé depuis comme un outil puissant de description des mimiques
du visage, utilisé par de nombreux psychologues.
AU 1 AU 2 AU 4
AU 5 AU 6 AU 7
2.3.2 FACS+
Bien que FACS soit un système de description bénéficiant d’une grande maturité
(environ vingt années de développement), il souffre cependant de quelques incon-
vénients ([24]) :
Complexité : on estime qu’il faut 100 heures d’apprentissage pour en maîtriser les
principaux concepts ([11]),
Difficulté de manipulation par une machine : FACS a d’abord été créé pour des
psychologues, Certaines mesures restent floues et difficilement évaluables
par une machine.
Manque de précision : les transitions entre deux états d’un muscle sont re-
AU 9 AU 10 AU 12
AU 15 AU 17 AU 20
AU 25 AU 26 AU 27
Essa ([24]) dispose d’un modèle musculaire plus facilement manipulable par la
machine (FACS+). Cependant, la principale critique ([11]) est sa difficulté d’inter-
prétation par un humain.
2.3.3 MPEG4
La norme de codage vidéo MPEG-4 ([49]) dispose d’un modèle du visage humain
développé par le groupe d’interêt Face and Body AdHoc Group . C’est un mo-
dèle 3D articulé.
Ce modèle est construit sur un ensemble d’attributs faciaux, appelés Facial Fea-
ture Points (FFP). Des mesures sur ces FFP sont effectuées pour former des uni-
tés de mesure (Facial Animation Parameter Units) qui servent à la description des
mouvements musculaires (Facial Animation Parameters - équivalents des Actions
Units d’Ekman).
Les Facial Animation Parameter Units (FAPU) permettent de définir des mouve-
ments élémentaires du visage ayant un aspect naturel. En effet, il est difficile de
définir les mouvements élémentaires des muscles de manière absolue : le déplace-
ment absolu des muscles d’une personne à l’autre change, mais leur déplacement
relatifs à certaines mesures pertinentes sont constantes. C’est ce qui permet d’ani-
mer des visages de manière réaliste et peut permettre de donner des expressions
humaines à des personnages non-humains.
Comme exemples de FAPU, on peut citer la largeur de la bouche, la distance de
séparation entre la bouche et le nez, la distance de séparation entre les yeux et le
20 CHAPITRE 2. ETAT DE L’ART
nez, etc.
Par exemple, l’étirement du coin de la lèvre gauche (Facial Animation Parameter
6 stretch_l_cornerlip) est défini comme le déplacement vers la droite du
coin de la lèvre gauche d’une distance égale à la longueur de la bouche. Les FAPUs
sont donc des mesures qui permettent de décrire des mouvements élémentaires et
donc des animations.
Cependant, les Facial Animation Parameters (FAP) de MPEG-4 ne représentent
pas directement des mouvements du visage réalistes, contrairement à FACS. FACS
décrit un ensemble de mouvements musculaires, alors que MPEG-4 décrit un en-
semble de mouvements visuels qui ne sont pas forcément réalistes. Par exemple,
2.3.4 Candide
Candide ([9]) est un modèle du visage. Il est composé d’un modèle en fil de fer
représentant un visage générique et d’un ensemble de paramètres :
2.3.5 SignStream
décrire les différents gestes (du corps et du visage) effectués par le sujet observé
au cours du temps.
Il apparaît clairement que la Langue des Signes est beaucoup plus riche en ex-
pressions que le langage co-verbal classique . En particulier certaines actions
faciales considérées comme ayant peu d’importance pour les précédents forma-
lismes, s’avèrent avoir une importance cruciale pour la langue des signes.
Ainsi, pour la langue des signes (américaine), il existe une différence entre un
sourire où la langue est visible et un sourire où la langue n’est pas visible. La
présence de la langue entre les dents constitue aussi un élément de sens.
Les précédents formalismes ne sont donc pas complètement adaptés à l’étude de la
Langue des Signes. La langue n’est par exemple pas modélisée dans Candide et les
mouvements de la joue par exemple ne sont que peu mis en avant.
Les objectifs des systèmes d’analyse des expressions du visage sont multiples. On
présente ici un ensemble de travaux sur l’analyse des expressions du visage. On
pourra se réferrer aux états de l’art existants pour plus de détails ([36] [25]).
En animation, on cherche à animer des personnages virtuels qui doivent paraître
le plus réaliste possible. On ajoute alors aux mouvements des muscles faciaux né-
cessaires à la parole, un ensemble de mouvements faciaux qui traduisent un état
émotionnel. L’analyse de la formation des expressions est donc nécessaire aussi
bien pour la description que pour la synthèse. On s’attarde surtout à reconstruire
une expression qui semble réaliste d’un point de vue visuel et qui est porteuse
d’un sens (d’une émotion), en accentuant éventuellement les expressions (pour des
personnages caricaturés par exemple).
En Interaction Homme-Machine, on cherche à avoir une idée de l’état émotionnel
de l’utilisateur pour la conception d’interfaces plus ergonomiques et présentant un
meilleur retour d’informations (feedback). Bien que beaucoup de travaux dans ce
domaine tentent de classer les expressions de l’utilisateur en émotions universelles,
certains se focalisent sur des composantes particulières du visage qui servent à
l’intéraction (suivi du mouvement des yeux pour la sélection par exemple). On ne
cherche pas ici à avoir une description fine des expressions et des mouvements
musculaires sous-jacents, mais plutôt à avoir une idée du mouvement de certaines
composantes ou à avoir une idée d’un état émotionnel.
La compression de données s’intéresse à la description des expressions du visage.
Le principe est de coder les expressions des visages présents dans une séquence
vidéo et donc de réduire le nombre d’informations à transmettre. Encore une fois,
on cherche à ce que la reconstruction à partir de ce codage soit la plus réaliste
2.4. ANALYSE AUTOMATIQUE DES EXPRESSIONS DU VISAGE 23
Sur chaque image de la séquence, le modèle est adapté automatiquement (par une
méthode d’optimisation) à la nouvelle configuration par des modifications des pa-
ramètres intra-individus (Animation Units).
L’avantage du modèle Candide est qu’il est déformé par un ensemble d’Animation
Units qui sont une généralisation du concept d’Action Unit de FACS et de FAP de
MPEG4. L’adaptation du modèle est guidé par les Animation Units et on obtient
donc une description du mouvement en termes d’AUs ou de FAPs.
Oliver, Pentland, Bérard ([34]) présentent un système de suivi du visage et de la
bouche en temps-réel. Le but est de suivre de manière robuste (rotation, translation,
changement d’échelle) le visage et de reconnaître les différentes configurations de
la bouche. Les applications principales sont l’animation d’avatars, le pilotage de
caméra (pour le suivi du visage) et la compression vidéo. Dans ces applications,
il n’est pas nécessaire d’effectuer une interprétation de plus haut niveau (actions
faciales, émotions) des mouvements des composantes, puisque les mouvements
sont les entités de base servant à la synthèse.
Goto, Kshirsagar et Magnenat-Thalmann ([27]) cherchent à animer un clone virtuel
(une représentation virtuelle de l’utilisateur). Le système présenté est composé de
deux modules : un module de construction du clone 3D à partir de deux vues (face
et profil) et un module d’extraction des primitives de mouvements faciaux (FAPs
de MPEG4).
Le premier module adapte un modèle à trois dimensions du visage aux deux vues
du visage de l’utilisateur. Le modèle adapté et texturé forme le clone.
Le deuxième module suit un certain nombre de composantes (sourcils, yeux et
bouche) et les codent sous forme de Facial Animation Parameters de MPEG4.
Cette analyse permet alors l’animation du clone par un logiciel aux normes MPEG-
4 pour l’animation faciale.
sions du visage sont considérés comme une nouvelle modalité d’interaction. Le but
est, après analyse des différentes modalités, de déduire l’intention de l’utilisateur,
dans un système multimodal. Le module d’analyse des expressions tente de les
classer parmi les six expressions universelles.
L’analyse est effectuée par une approche par composantes. Les actions faciales sont
traduites en Action Units de FACS. Les émotions sont détectées à partir des Action
Units .
Le système se base sur deux vues du visage : de face et de profil. Un ensemble de
points caractéristiques et de mesures entre ces différents points (angle, distance)
permet, par un système de décision à base de règles, de déduire l’Action Unit cor-
respondante. A partir des Action Units , le système déduit alors l’émotion corres-
pondante.
Lyons, Akamatsu, Kamachi et Gyoba ([31]) tentent de classer les expressions du
visage parmi les six classes universelles. Ils proposent d’utiliser des filtres de Ga-
bor pour extraire l’information discriminante des expressions universelles. C’est
la première étude de ce type. La motivation principale est que le filtrage par on-
delettes de Gabor serait un processus présent dans le système de vision humain.
Les auteurs démontrent qu’il est possible de construire un système de reconnais-
sance des expressions uniquement basé sur des images filtrées par des ondelettes
de Gabor.
Zhang ([43]) compare alors l’approche par filtres de Gabor aux approches clas-
siques basées sur des mesures de composantes. Le but est de mesurer la qualité de
l’information véhiculée par ces deux approches pour la reconnaissance des expres-
sions universelles. Les deux informations sont données en entrée à un perceptron.
Les résultats de la comparaison indiquent qu’une image filtrée par ondelettes de
Gabor est beaucoup plus porteuse d’informations, pour la reconnaissance des ex-
pressions, que des mesures géométriques. Ces résultats ont aussi été obtenus par
Cottrell ([44], voir plus loin), qui explique que les filtres de Gabor ne retiennent
pas l’information d’identité individuelle (une information codant l’identité d’un
individu est considéré comme du bruit pour un processus de reconnaissance des
expressions).
Les auteurs présentent donc un système d’analyse automatique basé sur le suivi de
différentes composantes. La décision des différentes Action Units est prise par une
analyse en fonctions discriminantes.
Le but de l’article est de montrer la validité d’un système automatique par rapport
à un système manuel. Une étude comparative a permit de déduire que l’analyse
par suivi de composantes obtient un score de correlation moyen de 91%, 88% et
81% (région des sourcils, des yeux et de la bouche respectivement) avec le codage
manuel.
L’objectif est atteint puisque l’analyse passe d’une trentaine de secondes par image
à 1 seconde par image. L’analyse n’est cependant pas entièrement automatisée,
puisque les composantes sont détectées de manière manuelle. Néanmoins, le tra-
vail effectué manuellement est beaucoup plus réduit.
Tian, Kanade et Cohn ([30]) étendent le précédent système en basant la reconnais-
sance sur les composantes du visage permanentes (yeux, bouche, sourcils, etc.),
mais aussi sur des composantes temporaires comme les rides d’expressions. 16
une approche par flux optique. La meilleure méthode semblerait être la méthode
holistique, bien que la reconnaissance soit limitée à 6 Action Units et qu’il soit
donc difficile de généraliser.
L’analyse n’est pas complètement automatique, puisque le visage est détecté par
deux clicks de souris.
Bartlett, Littlewort, Braathen, Sejnowski et Movellan ([12]) s’intéressent à l’ana-
lyse des expressions du visage dans un contexte plus générale. Le but est d’analyser
les expressions spontanées plutôt que les expressions obtenues en laboratoires
2.5. CONCLUSION 27
qui sont la plupart du temps forcées . Le contexte n’étant pas contrôlable avec
cette hypothèse, le système doit être capable de traiter avec des changements de
pose du visage, en particulier des rotations hors du plan du visage. Les paramètres
de rotation sont calculés par triangluation à partir de la position de 8 points de
contrôles (placés manuellement).
Un banc de filtres de Gabor est appliqué sur chaque image. Ces données sont four-
nies en entrée à une Support Vector Machine. La décision sur l’ensemble de la
vidéo (ajout de l’aspect temporel) est obtenue par un système à base de HMM
(dont les entrées sont les sorties des différentes SVM de chaque image). La prin-
cipale motivation est que les expressions spontanées et forcées se distinguent par
la zone du cerveau qui les active. Une des hypothèses mise en avant par certains
psychologues est alors qu’il est possible de distinguer visuellement les expressions
spontanées des expressions forcées. En particulier, il semblerait que les expres-
sions spontanées aient un profil temporel lègèrement différent. Malheureusement,
les humains ont des difficultés à percevoir ces changements trop subtiles. L’idée
est alors de savoir si un système automatique pourrait distinguer ces changements
subtiles.
Cottrell, Dailey, Padgett et Adolphs ([44]) s’intéressent aux fonctions d’analyse du
visage du cerveau humain. Le but est de savoir si toute l’analyse du visage effec-
tuée par le cerveau humain est holistique. Un processus est holistique si le chan-
gement de configuration des parties change l’interprétation du tout. C’est la dif-
férence qu’on trouve entre le processus de reconnaissance d’un objet quelconque
et la reconnaissance d’un visage. Les changements de configuration des parties
d’un objet quelconque n’auront que peu d’influence sur la reconnaissance globale
de l’objet. Par contre, reconnaître un visage semble être un processus holistique
puisque le changement de configuration de ses parties (des composantes du visage
par exemple) change l’identité que l’on peut lui associer.
Pour savoir si tous les processus d’analyse du visage du cerveau humain sont ho-
listiques, les auteurs proposent d’utiliser différents processus d’analyse holistiques
ou non, simulés par ordinateur, et d’en fournir les données en entrée à un réseau de
neurones. Ils comparent ensuite les résultats pour la reconnaissance du visage et la
reconnaissance des expressions.
Il semblerait alors que la reconnaissance du visage soit un processus holistique
alors que la reconnaissance des expressions ne l’est pas.
2.5 Conclusion
Aucun système actuel ne permet de reconnaitre toutes les actions faciales définies
dans les différents formalismes : aucun système n’est capable, en particulier, de
reconnaître les 46 Actions Unitaires d’Ekman. Ceci reste un challenge intéressant
et présente un intérêt pour le développement d’un outil d’analyse automatique dans
le domaine des sciences comportementales, de la psychologie et de la linguistique.
28 CHAPITRE 2. ETAT DE L’ART
qui est traité par certains chercheurs. Par contre, le problème d’invariance à l’oc-
cultation (partielle) du visage pour l’analyse des expressions est un problème qui
n’a été que très peu traité. Lanitis, Taylor et Cootes ([29]) sont parmi les seuls à
proposer une méthode générale prenant en compte le problème d’occultation.
Le problème d’invariance à la pose (mouvements rigides) du visage peut être traité,
par exemple, en appliquant un prétraitement dont le but est de reconstruire la vue
de face du visage. Une méthode efficace consiste à se servir de l’image du visage
comme une texture d’un modèle 3D. L’image du visage vu de face est retrouvé par
rotation du modèle.
Un problème important des expressions présentes en Langue des Signes est que
certaines font intervenir des composantes dont la délimitation est floue (le gon-
flement des joues constitue un bon exemple). Il est possible que les opérateurs
classiques de traitement d’images ne suffisent pas à détecter de manière robuste les
changements d’état de ces zones, il est donc nécessaire de les déduire .
très présente dans les transferts personnels. Il joue aussi un rôle important quand
le locuteur regarde dans la direction de l’interlocuteur : cela signifie qu’il va avoir
recours à un signe standard de la Langue des Signes.
Le système d’analyse des expressions doit donc décrire précisement les paramètres
du regard (en fournissant par exemple un module de reconnaissance spécialisé).
On peut donc en conclure qu’un système automatique d’analyse des expressions
du visage de la Langue des Signes doit :
1. pouvoir traiter un visage en rotation (dans le plan de l’image et hors plan),
2. pouvoir traiter un visage en partie caché,
3. pouvoir déduire certaines caractéristiques.
30 CHAPITRE 2. ETAT DE L’ART
3.2 Reconstruction 3D
Les mouvements du visage étant souvent présents dans les formes de communi-
cation faisant intervenir le visage, et en particulier dans la Langue des Signes, un
processus d’analyse se doit de pouvoir détecter ces mouvements. D’abord pour
pouvoir les quantifier, puisqu’ils sont chargés de sens, puis pour pouvoir mesu-
rer les mouvements des composantes du visage, alors qu’il est en mouvement (en
rotation par exemple).
Il existe deux approches principales pour traiter le problème des changements de
pose du visage : la première adapte les opérateurs de détection en tenant compte
des translations et rotations ; la deuxième considère l’étape de reconstruction 3D
comme étape de prétraitement. Dans la deuxième approche, les opérateurs de dé-
tection sont spécialisés dans la détection à partir d’une image du visage vu de face.
Le prétraitement consiste alors à estimer les paramètres de translation et de rota-
tion du visage et à ramener le visage vers une vue de face. Ce prétraitement fait
généralement intervenir un modèle 3D (même simplifié) du visage.
La première approche nécessite d’avoir des détecteurs très souples c’est à dire
plutôt de face ?. L’analyse est alors adaptée aux différentes vues, et les opérateurs
de détection changent.
Le visage est une forme en trois dimensions. La partie observée (sur une séquence
vidéo ou une image) a perdu une dimension. Le problème est alors de reconstituer
cette troisième dimension.
Dans le cas général, la projection d’un objet à trois dimensions sur un plan s’effec-
tue par le calcul suivant :
où
et représentent les coordonnées de la projection dans le repère image ;
représentent les coordonnées du point à projeter dans le repère scène et repré-
sente la matrice de projection.
La matrice est la multiplication de différentes matrices représentant les para-
où est la matrice de rotation, la matrice de translation et la matrice de
mètres de translation, rotation et échelle du point à projeter. Par exemple,
changement d’échelle.
On considère dans le cas général les paramètres intrinsèques de la caméra comme
la distance focale qui permet de modéliser la notion de perspective. Dans le cas des
visages, on simplifie le problème en ignorant la perspective.
La rotation s’exprime en fonction de trois angles , "! $#
et . On considère les
%& %'! %(#
translations parallèles aux trois axes , et et le changement d’échelle selon
)* )+! )*#
les trois axes , et .
Il est possible de simplifier le problème en notant que la translation selon l’axe
des Z peut être vue comme un changement d’échelle global (sur tous les axes),
puisqu’on ignore ici la déformation due à la perspective.
Le problème se réduit alors à estimer 6 paramètres ,- " ! $# %. %.! )0/ .
: connaître
Il est donc suffisant, théoriquement, de connaître 3 correspondances
les coordonnées 3D d’origines et leurs projections respectives. Puisque l’équation
matricielle de projection donne deux équations pour chaque correspondance de
point. Etant donné qu’il y a 6 inconnues, il suffit de 6 équations (c’est à dire 3
points).
Cependant, en pratique, on ne connait que rarement la profondeur d’un ensemble
36 CHAPITRE 3. CAHIER DES CHARGES
Il n’est pas toujours aisé de suivre un point d’une image à l’autre. Le suivi consiste
généralement à mémoriser dans une image de référence la configuration du voisi-
nage d’un point et de tenter de retrouver cette configuration dans une autre image.
Cependant, ces méthodes de suivi considèrent un certain nombre de contraintes :
luminosité constante et aucune déformation, par exemple. Or, lors d’une rotation,
la luminosité est rarement constante et les formes souvent déformées (surtout lors
d’une rotation hors-plan).
Une solution est alors de mémoriser plus d’informations sur les points à suivre.
Lanitis, Taylors et Cootes ([29]), présentent, par exemple, la notion de modèles
d’apparences actifs, repris par la suite par Ahlberg ([10]).
Le principe est de se placer à un niveau global. On mémorise les informations d’un
ensemble de points et non d’un point isolé : configuration spatiale et texture de la
forme extraite (information d’apparence).
La méthode consiste, sur chaque image, à déformer ce modèle de visage pour qu’il
corresponde le plus possible au visage observé. La mesure de correspondance est
donnée par une décomposition en visages - propres de la forme extraite. La distance
dans l’espace des visages donne la mesure de ressemblance. Le modèle se déforme
alors itérativement pour augmenter la correspondance (i.e. minimiser la distance
dans l’espace des visages). Cependant, pour garder une certaine cohérence, le mo-
dèle n’est pas déformé arbitrairement : il y a un ensemble réduit de déformations
possibles.
3.3. OCCULTATION 37
(a)
(b)
(c)
(d)
Cette méthode générale est applicable pour la reconstruction 3D. L’ensemble des
déformations possibles du visage est alors l’ensemble des rotations / translations et
changements d’échelle.
Plus généralement cette méthode peut servir aussi à la reconnaissance d’actions
faciales si l’ensemble des déformations possibles contient l’ensemble des défor-
mations dues aux actions faciales.
3.3 Occultation
visage. Dans le cas d’une communication en Langue des Signes, ces objets sont
les mains. On ne traitera alors pas les parties cachées par d’autres objets (lunettes
noires par exemple).
Un module de suivi de l’enveloppe externe des mains peut permettre de déduire
quelles zones du visage sont cachées. Les mesures des détecteurs travaillant sur
ces zones seront alors invalidées.
4
Formalisme et architecture
On présente dans ce chapitre les spécifications d’un système d’analyse des expres-
sions du visage dans un contexte de communication en Langue des Signes, dans
un but d’aide à la compréhension.
La conception du système est guidée par les connaissances des linguistes. Ces
connaissances sont, dans un premier temps, traduites de manière informatique. La
manière de représenter ces connaissances guide la manière de les utiliser.
Les connaissances sur les expressions du visage présentes en Langue des Signes
sont décrites par les linguistes. Elles définissent la manière dont les expressions du
visage prennent part à la construction d’un langage articulé tel que la Langue des
Signes. Les expressions du visage interviennent à plusieurs niveaux langagiers :
lexical, syntaxique et sémantique.
Puisque l’analyse informatique des expressions du visage se trouve être ici me-
née dans un contexte de communication humaine et en particulier dans le contexte
d’une communication en Langue des Signes, il est nécessaire qu’elle prenne compte
de l’aspect langagier, ce qui permettra de décoder des expressions qui sont, a priori
, complexes ou coûteuses à analyser.
Une des approches préliminaires consiste alors à intégrer à un système informa-
tique d’analyse, les différentes connaissances linguistiques établies par les spécia-
listes de la Langue des Signes (en particulier Christian Cuxac dans [19]).
Les descriptions des linguistes sont faites de manière informelle et relativement
subjective. Par exemple, définir l’expression fière ou encore sûr de soi n’a
4.1.1 Connaissances
Chaque expression de la Langue des Signes est décrite soit directement par un en-
semble d’états musculaires, soit par composition (spatiale et/ou temporelle) d’autres
expressions. On englobera ces entités (expression, émotion, état musculaire, etc.)
sous le terme de connaissance.
On appelle connaissances élémentaires les connaissances directement observables
(par exemple l’état des composantes : les yeux sont ouverts, la bouche fermée,
... ). Elles seront généralement directement extraites par des opérateurs de Trai-
tement d’Images.
On appelle connaissances composées les connaissances qui sont définies à partir
de la composition d’autres connaissances (élémentaires ou non).
A chaque connaissance, sont associés un nom et un état. Par exemple, à la connais-
sance nommée yeux-ouverts est associé un état représentant ici un degré
d’ouverture des yeux.
De manière générale, l’état d’une connaissance (élémentaire ou composée) repré-
sente toutes les informations nécessaires à la compréhension d’une connaissance,
et il peut être formé de plusieurs propriétés.
A chaque connaissance est donc associé un ensemble de propriétés la caractéri-
sant. Chaque propriété peut prendre un certain nombre de valeurs, défini par un
ensemble de définition ou domaine.
Les connaissances ayant le même ensemble de propriétés corresponde générale-
ment à un niveau d’analyse distinct. Par exemple, toutes les connaissances élé-
mentaires partagent les mêmes propriétés (l’amplitude), toutes les actions faciales
partagent les mêmes propriétés.
4.1. FORMALISME DE REPRÉSENTATION 41
Connaissances élémentaires
A partir des connaissances élémentaires qui viennent d’être définies, il est possible
de définir toutes les autres connaissances, par composition. Il existe plusieurs types
de compositions :
– les redéfinitions qui correspondent au renommage d’un ensemble de connais-
sances,
– les compositions langagières qui permettent de définir l’ensemble des expres-
sions présentes en Langue des Signes.
– les actions faciales qui expriment l’évolution dans le temps d’un état muscu-
laire, selon un certain profil (simple, hochement, tremblement),
Quelque soit le type de composition, elle peut être définie par un ensemble de va-
leurs combinées entres elles par un certain nombre d’opérateurs de composition.
L’ensemble des valeurs de chaque connaissance intervenant dans la définition de la
composition est désigné par un ensemble de sélecteurs.
Opérateurs de composition
F IG . 4.2 – Profil temporel des actions faciales. (a) simple (b) tremblement (c) ho-
chement
Chaque action faciale est définie par rapport à une connaissance élémentaire. Par
exemple, la connaissance tremblement- joues est définie par rapport à gonflement-
joues. Pour distinguer les deux sens d’évolutions d’un couple de muscles anta-
gonistes, est aussi associé à une action faciale, un signe. Une action faciale au
signe positif a un profil temporel tel que présenté en figure 4.2. Une action faciale
au signe négatif a un profil temporel symétrique. Ainsi, une action faciale de ho-
chement négative commence par une évolution dans le domaine des négatifs, puis
dans le domaine des positifs.
A chaque connaissance élémentaire est associée son action faciale simple dont le
nom est préfixé par af-.
Sélecteurs
Il est possible de préciser la valeur des connaissances qui font partie de la définiton
d’une composition à l’aide de sélecteurs.
Un sélecteur permet de sélectionner un sous-ensemble des valeurs possibles d’une
connaissance et peut être vue comme la sélection d’un sous-ensemble de valeurs
dans une base de données. Sans précisions, une connaissance utilisée comme com-
posante indique que n’importe quelle valeur de la composante est valable. C’est
ce mécanisme qui permet de traduire les qualificatifs utilisés dans les descriptions
linguistiques : yeux légèrement ouverts par exemple.
Par exemple, joues-gonflées indique que la règle s’applique si les joues sont
gonflées (quelque soit l’amplitude de gonflement). Par contre, joues-gonflées
Un sélecteur est donc une expression logique permettant de ne garder que les va-
leurs qui vérifient cette expression. L’expression logique se refère aux propriétés
de chaque connaissance. Par exemple dans le sélecteur (amplitude = légèrement)
on se refère à un ensemble de valeurs de la propriété amplitude de la connaissance.
Il est à noter que les valeurs des propriétés sont généralement données ici par des
qualificatifs flous (légèrement, long, grand, ...) afin de garder une cohérence avec
les descriptions linguistiques d’origine. Ces qualificatifs flous seront discrétisés au
moment de l’analyse : durée = longue pourra par exemple se traduire par
durée >= 3.
L’ensemble des propriétés des différents types de connaissances est donné en fi-
gure 4.3. 0+ indique un domaine à valeurs positives uniquement. -0+ indique un
domaine à valeurs positives ou négatives. Un domaine peut aussi être constitué
d’une union de plusieurs valeurs symboliques (simple, tremblement, hochement).
On remarquera alors que la propriété de durée n’existe pas sur les connaissanes
statiques. Cependant, il est quand même possible de s’y réferer. Sélectionner une
durée sur une connaissance statique est équivalent à composer plusieurs fois cette
connaissance avec l’opérateur de séquencement. Par exemple, A ( durée >=
3 ) est équivalent à A + A + A + A ?.
A partir des sélecteurs et des opérateurs, il est donc possible de traduire les connais-
sances linguistiques de manière formelle.
La figure 4.4 représente l’ensemble des compositions par redéfinition.
L’ensemble des actions faciales du corpus est donné en figure 4.5 (seuls quelques
exemples d’actions faciales simples sont donnés).
La définition des expressions du visage présentes en Langue des Signes (d’après
les descriptions de Cuxac [19]) est donnée en figure 4.7.
Enfin, la définition des émotions (d’après Cuxac [19] et Pantic [37]) est donnée en
figure 4.6
46 CHAPITRE 4. FORMALISME ET ARCHITECTURE
Nom Composition
sourcils-relevés sourcil-gauche-relevé,
sourcil-droit-relevé
sourcils-froncés sourcil-gauche-froncé,
sourcil-droit-froncé
sourcils-intérieurs-relevés sourcil-intérieur-gauche-relevé,
sourcil-droit-relevé
sourcils-intérieurs-froncés sourcil-intérieur-gauche-froncé,
sourcil-droit-froncé
lèvres-projetées lèvre-inférieure-projetée,
lèvre-supérieure-projetée
lèvres-étirées lèvre-gauche-étirée,
lèvre-droite-étirée
lèvres-serrées lèvre-gauche-serrée,
lèvre-droite-serrée
coins-bouches-relevés coin-bouche-gauche-relevé,
coin-bouche-droit-relevé
coins-bouches-abaissés coin-bouche-gauche-abaissé,
coin-bouche-droit-abaissé
joues-gonflées joue-gauche-gonflée,
joue-droite-gonflée
joues-creusées joue-gauche-creusée,
joue-droite-creusée
visage-incliné visage-incliné-gauche ||
visage-incliné-droite
sourire-en-coin (lèvre-gauche-étirée,
-(lèvre-droite-étirée),
coin-bouche-gauche-relevé?)
|| (lèvre-droite-étirée,
-(lèvre-gauche-étirée),
coin-bouche-droit-relevé?)
souffle-air bouche-ouverte, joues-gonflées
lèvres-arrondies bouche-ouverte, lèvres projetées
Nom Définition
émotion-joie lèvres-étirées, coins-bouches-relevées,
yeux-plissés, bouche-ouverte?
émotion-tristesse sourcils-intérieurs-relevés, yeux-plissés,
coins-bouches-abaissés
émotion-colère yeux-plissés, sourcils-abaissés, ( (
lèvres-serrées, - lèvres-projetées ) ||
lèvre-inférieure-projetée )
émotion-dégoût nez-pincé, lèvres-ouvertes?
émotion-peur sourcils-intérieurs-relevés, yeux-plissés,
bouche-ouverte
émotion-surprise sourcils-relevés, bouche-ouverte(grandement)
émotion-douleur sourcils-froncés, nez-pincé
expression fière , regard neutre
normalité joues-creusées, lèvres-projetées en creusant un peu les joues et en projetant en légère
lippe arrondie les lèvres
conditionnel visage-incliné, visage-reculé(légèrement), inclinaison et léger mouvement de recul du visage
regard-en-haut, sourcils-relevés vers l’arrière ; le regard, désinvesti, est dirigé vers
le haut, les sourcils sont relevés
hypothèse clignement-yeux + regard-en-haut clignement très bref des yeux suivi d’une fuite du re-
mentale gard ultra-rapide vers le haut
négatif la tête
volitif mâchoires-serrées(fortement) en serrant fortement les mâchoires, l’expression (re-
gard) est plus ou moins intense
incitatif visage-incliné, lèvres-arrondies, mouvement d’inclinaison du visage accompagné
yeux-plissés d’une légère moue (avancée des lèvres faiblement
49
arrondies) et d’un plissement des yeux
réprobatif incitatif, sourcils-froncés, visage-non proche de la précédente, mais les sourcils sont fron-
cés en même temps que le locuteur fait non de la
tête
ironique visage-incliné, sourire-en-coin bref mouvement d’inclinaison du visage, proche de
l’interrogation, regard plutôt vague, sourire en coin
vers l’avant
problématisation froncement-sourcils le froncement des sourcils est associé à une problé-
matisation
concessif relèvement-sourcils un relèvement marqué des sourcils est associé à un
changement thématique
interrogatif sourcils-relevés, visage-reculé, les sourcils sont relevés, le front légèrement plissé,
visage-relevé le visage se porte vers l’arrière, le menton fortement
relevé
négatif visage-non, sourcils-froncés non de la tête + froncement des sourcils
interro-négatif visage-relevé, visage-non, menton et visage relevés, combinaison du relève-
(sourcil-gauche-froncé, ment et du froncement des sourcils, non ... non
sourcils-droit-relevé) || de la tête
(sourcil-gauche-relevé,
sourcil-droit-froncé)
duratif tremblement-lèvres(légèrement), souffle-air léger tremblement des lèvres avec un souffle d’air
continu souffle-air(léger) léger souffle d’air
ponctuel (joues-gonflées, bouche-fermée) + très brève explosion d’air faite par les lèvres
(joues-neutres, bouche-ouverte)
résultatif lèvres-serrées + lèvres-étirées en serrant et en rétractant les lèvres
De manière interne, les connaissances sont représentées sous forme d’un ensemble
de structures de données, qui découlent de l’analyse.
Pour résumer :
– Une connaissance possède un nom et un état.
– L’état d’une connaissance est décrit par un ensemble de propriétés, d’un certain
type (entier, chaine, symbole) et définies sur un certain domaine.
– Une connaissance est associée à une fonction qui permet de la vérifier et/ou une
fonction qui permet de l’extraire.
– Chaque fonction est soit un opérateur de Traitement d’Images, soit une règle de
composition.
– Une règle de composition permet de composer plusieurs connaissances pour ex-
primer une action faciale, une redéfiniton ou une expression.
– Les compositions autre que la définition des actions faciales sont formées de plu-
sieurs connaissances combinées par un ensemble d’opérateurs de composition.
– L’état d’une connaissance utilisée dans la définition d’une autre peut être spécifié
par un sélecteur.
– Un sélecteur sélectionne un sous-ensemble d’une propriété d’une connaissance.
Toutes ces règles sont résumées par un schéma UML (voir figure 4.10).
Toutes les connaissances sont traitées par le système à partir de leur représentation
interne. Le stockage externe (en dehors du système) des connaissances est du même
type que le stockage interne.
On a choisi ici une représentation externe des connaissances basée sur XML. Ce
langage de haut niveau possède plusieurs avantages qui ont motivé ce choix, en
particulier le fait que XML soit un langage de description générique normalisé et
donc associé à un ensemble d’outils de traitements largement disponibles.
La structure d’un document XML peut être validée par une description de sa struc-
ture, à l’aide d’un fichier DTD (Document Type Definition). De nombreux outils
permettent, à partir d’un document DTD, de valider la structure d’un document
XML.
La structure du document XML est directement guidée par la structure du forma-
lisme interne adopté précédemment.
<?xml version="1.0"?>
<!DOCTYPE knowledges [
<!ELEMENT knowledges
52 CHAPITRE 4. FORMALISME ET ARCHITECTURE
(knowledge-definition*)>
<!ELEMENT knowledge-definition
(function)*>
<!ATTLIST knowledge-definition name CDATA #REQUIRED>
<!ELEMENT function
(composition-rule |
image-operator |
facial-action |
EMPTY)>
<!ELEMENT image-operator
(EMPTY)>
<!ATTLIST image-operator name CDATA #REQUIRED>
<!ELEMENT facial-action
(EMPTY)>
<!ATTLIST facial-action
type
(simple | tremblement | hochement)
#REQUIRED>
<!ATTLIST facial-action reference CDATA #REQUIRED>
<!ATTLIST facial-action sign (+ | -) #REQUIRED>
<!ELEMENT composition-rule
(composition | selector)>
<!ELEMENT composition
(composition | selector)*>
<!ATTLIST composition operator CDATA #REQUIRED>
<!ELEMENT selector
(selection)?>
<!ATTLIST selector name CDATA #REQUIRED>
<!ELEMENT selection
(EMPTY)>
<!ATTLIST selection property CDATA #REQUIRED>
4.1. FORMALISME DE REPRÉSENTATION 53
<knowledges>
<knowledge-definition name="af-visage-non-gd">
<function type="check-or-extract">
<facial-action reference="rotation-Y"
type="hochement"
sign="+"/>
</function>
</knowledge-definition>
<knowledge-definition name="af-visage-non-dg">
<function type="check-or-extract">
<facial-action reference="rotation-Y"
type="hochement"
sign="+"/>
</function>
</knowledge-definition>
<knowledge-definition name="af-visage-non">
<function type="check-or-extract">
<composition-rule>
<composition operator="disjonction">
<selector name="af-visage-non-gd"/>
<selector name="af-visage-non-dg"/>
</composition>
</composition-rule>
</function>
</konwledge-definition>
54 CHAPITRE 4. FORMALISME ET ARCHITECTURE
<knowledge-definition name="interro-négatif">
<function type="check-or-extract">
<composition-rule>
<composition operator="conjonction">
<selector name="visage-relevé"/>
<selector name="af-visage-non"/>
<composition operator="disjonction">
<composition operator="conjonction">
<selector name="sourcil-gauche-froncé"/>
<selector name="sourcil-droit-relevé"/>
</composition>
<composition operator="conjonction">
<selector name="sourcil-gauche-relevé"/>
<selector name="sourcil-droit-froncé"/>
</composition>
</composition>
</composition>
</composition-rule>
</function>
</konwledge-definition>
<knowledge-definition name="émotion-surprise">
<function type="check-or-extract">
<composition-rule>
<composition operator="conjonction">
<selector name="sourcils-relevés"/>
<selector name="bouche-ouverte">
<selection property="amplitude"
expression="grand"/>
</selector>
</composition>
</composition-rule>
</function>
</knowledge-definition>
<knowledge-definition name="joues-gonflées">
<function type="check">
<image-operator name="correlation-joues"/>
4.2. ARCHITECTURE DU SYSTÈME D’ANALYSE 55
</function>
</knowledge-definition>
</knowledges>
connaissances de plus bas niveau étant les connaissances représentant l’état mus-
culaire des composantes faciales.
Les règles permettent de guider l’analyse. Pour chaque règle, si les connaissances
de la partie droite sont présentes, on peut déduire la nouvelle connaissance de la
partie gauche.
tion) peuvent être extraites à partir d’un module de reconstruction des paramètres
3D du visage.
Cependant, certaines connaissances sont difficiles à extraire directement. C’est le
cas par exemple des connaissances sur l’état des joues (gonflement ou saillance de
la langue), des yeux (plissement, regard), des mâchoires (contraction), des lèvres
(projection). Soit parce que la définition de la séquence vidéo risque de ne pas
être assez élevée pour différencier un état sur une image (regard, contraction des
mâchoires), soit parce que certaines connaissances ne sont pas visibles à partir
d’une vue de face (projection des lèvres), soit parce qu’il n’existe pas d’opérateur
de Traitement d’Images adéquat.
Il peut être par contre plus facile d’avoir une idée de l’état de certaines com-
posantes. Par exemple, il est possible de savoir que les joues, sur une image, ne
sont pas dans le même état que sur une autre image, sans savoir exactement dans
quel état elles se trouvent. On peut, par exemple, utiliser des mesures de corré-
lations (décomposition en sous-espaces propres par exemple) pour savoir si une
zone de l’image a changé d’état par rapport à une configuration initiale (neutre).
On distingue alors l’état neutre des autres, plutôt que de distinguer tous les états
possibles.
Dans ce type d’analyse (ascendante), les connaissances sont composées à partir de
connaissances de bas niveau. Du fait de l’aspect temporel de certaines connais-
sances, il existe bien des cas où aucune connaissance ne peut être directement
déduites d’une image isolée. Ainsi, les décisions sont prises au dernier moment,
quand on a extrait suffisamment de connaissances pour pouvoir distinguer entre
les différentes compositions possibles, et l’analyse ascendante implique de stocker
beaucoup de connaissances avant la décision.
Dans certains cas, il est plus facile d’utiliser des opérateurs de vérification que des
opérateurs d’extraction. C’est le cas par exemple pour l’état des joues, où il est
plus facile de vérifier qu’une joue est gonflée plutôt que d’extraire son état.
4.2. ARCHITECTURE DU SYSTÈME D’ANALYSE 57
L’analyse descendante part de connaissances de haut niveau et les vérifie par plu-
sieurs mécanismes : prédiction et/ou suivi. L’intérêt de l’analyse descendante est
qu’elle traite des connaissances de plus haut niveau, qui sont généralement proches
de la compréhension humaine. De plus, étant située à un plus haut niveau, elle est
généralement moins coûteuse qu’une analyse ascendante classique.
Si certaines informations sont connues à un instant donné de l’analyse, il est parfois
possible de prédire les connaissances sur les prochaines images. Ces prédictions
sont alors à vérifier. L’hypothèse est alors que les opérateurs de vérification sont
moins coûteux que les opérateurs d’extraction.
De même, il est possible de tirer profit des connaissances déjà accumulées à un
instant de l’analyse pour suivre leur évolution, plutôt que d’appeler des opérateurs
d’extraction qui procèdent sans informations préalables. Il est généralement plus
facile de trouver le prochain état d’un état donné, plutôt que d’extraire un état sans
connaissances préalables.
Par exemple, connaissant la position de quelques points de références des sourcils
sur une image donnée, il est moins coûteux de suivre la position de ces points sur
l’image suivante plutôt que d’extraire leur nouvelle position.
On a donc tout intérêt à mener l’analyse le plus possible de manière descendante.
Malheureusement, il est imposible de mener une analyse exclusivement descen-
58 CHAPITRE 4. FORMALISME ET ARCHITECTURE
dante. D’abord parce qu’elle tire profit d’un certain nombre d’informations qu’il
a bien fallu extraire d’une manière ou d’une autre (par une analyse ascendante) et
ensuite parce que les mécanismes de vérification ne sont pas toujours suffisants.
Lorsque la prédiction échoue, il est nécessaire de faire un retour arrière et de traiter
une autre possibilité. Si aucune possibilité n’est valable, on manque d’informations
pour conclure, il est donc nécessaire de mener à nouveau une analyse ascendante
pour extraire de nouvelles connaissances.
Les opérateurs de suivi sont peu coûteux, mais peuvent donner des résultats faussés.
Par exemple, suivre la position d’un point de référence d’une image à l’autre par
mesure de corrélation, est difficile si, par exemple, la luminosité change beaucoup
sur la prochaine image. Il est alors nécessaire de mener à nouveau une analyse
ascendante.
Prédiction
puisque la prédiction n’est plus vrai. On gagnerait ainsi en temps de calcul dans le
cas où la prédiction serait vérifiée.
On se limitera ici à la prédiction d’une image à l’autre. Le mécanisme de retour
arrière n’étant nécessaire qu’en cas de prédiction sur plus d’une image, on ne
prédiction
souffle d’air
bouche ouverte
Statique
yeux plissés
Le mécanisme de prédiction peut être pris en compte à un niveau encore plus haut,
en ayant connaissance de l’agencement temporel des expressions dans une locution
en Langue des Signes.
Par exemple, Christian Cuxac indique, à propos de l’expression modale capaci-
tif qu’elle est souvent accompagnée de l’assertif ou de l’assertif négatif. Ainsi,
l’expression capacitif .
La Langue des Signes, comme tout langage articulé possède un certain nombre
de niveaux langagiers . Les expressions du visage appartiennent elles aussi à
visage.
2. un rôle syntaxique puisqu’elles permettent, à elles seules de définir la plu-
part des modes du discours (conditionnel, intérrogatif, assertif, etc.),
3. un rôle sémantique puisque le regard permet (généralement avec un geste
du corps) d’initier une situation de Transfert Personnel. Dans cette situation,
les émotions que reflètent le locuteur sont celles ressenties par le personnage
joué.
L’analyse d’une langue est généralement guidée par ces niveaux langagiers. Dans
le cas d’un langage informatique, le découpage est clair et tous les traducteurs /
interpréteurs / compilateurs travaillent à trois niveaux : lexical, syntaxique et sé-
mantique. Les niveaux langagiers sont des niveaux d’abstraction du langage.
Pour l’analyse d’un langage informatique, le niveau lexical est le niveau le plus
bas. Les données brutes à traiter sont les caractères. Les caractères sont composés
pour former des lexèmes.
62 CHAPITRE 4. FORMALISME ET ARCHITECTURE
Pour l’analyse informatique d’un langage articulé, le niveau lexical n’est pas le
plus bas. La composition des différents indices en éléments lexicaux (i.e. les états
musculaires en expression) n’est pas immédiate.
C’est pourquoi le niveau lexical langagier pour l’analyse des expressions est consti-
tué de différents niveaux d’analyse. Ces niveaux d’analyse sont des niveaux de
composition. Chaque connaissance d’un niveau est composée de connaissances
des niveaux inférieurs.
Les niveaux d’analyse sont ainsi différents des niveaux langagiers, puisqu’on peut
avoir des connaissances d’un niveau d’analyse peu elevé interprété par un niveau
langagier haut. Par exemple, une information statique sur le regard, ne nécessitant
que peu de compositions peut être interprété en terme de haut niveau langagier
(passage en situation de Transfert Personnel par exemple).
On distingue ici essentiellement trois niveaux d’analyse : le niveau statique où les
connaissances sont extraites directement des informations brutes (de la séquence
vidéo), le niveau dynamique qui compose temporellement les connaissances du
niveau statique et le niveau des expressions qui compose les connaissances des
niveaux précédents.
Le niveau statique correspond aux attributs du visage directement observables.
Les connaissances extraites sont généralement des connaissances sur l’état actuel
(i.e. sur l’image courante) d’une certaine composante du visage, ou d’un certain
muscle. Les connaissances sont extraites isolément sur chaque image.
Le niveau dynamique correspond à l’intégration temporelle des connaissances
du niveau statique. Les connaissances statiques sont intégrées temporellement soit
pour former une nouvelle connaissance sur l’évolution simple d’un muscle, soit
pour former une action faciale, symbolisant un ensemble d’évolutions.
Le niveau des expressions compose les connaissances des deux niveaux précé-
dents. Les compositions sont modélisées par les règles décrites précédemment.
Les niveaux langagiers (niveau lexical, syntaxique et sémantique) ne peuvent que
difficilement aider à la compréhension s’ils sont uniquement composés d’informa-
tions sur les expressions du visage.
Le système d’analyse des expressions du visage présentes en Langue des Signes
ne constitue donc qu’un module d’un système plus global de compréhension, qui
intègre les connaissances des différents modules (expressions du visage, mouve-
ments du corps, configurations de la main).
4.2. ARCHITECTURE DU SYSTÈME D’ANALYSE 63
niveau syntaxique
niveau lexical
action faciale
5.1.2 Prétraitements
Les connaissances sur les translations et rotations du visage seront extraites par
une méthode de reconstruction 3D avec adaptation de modèle 3D (en ne prenant
en compte que le haut du visage, i.e. sans la partie du menton dont les mouvements
introduisent des rotations hors plan) du type Candide.
Les zones susceptibles d’être un visage seront extraites par analyse de la couleur,
en utilisant un modèle de couleur de la peau. Les pixels appartenant à la peau seront
regroupés par une analyse en composantes connexes pour former (au maximum)
trois formes, dont une plus grande : le visage et les deux mains du locuteur. La
position de l’enveloppe externe des mains pourra ainsi servir à traiter le problème
d’occultation.
La position des boîtes englobantes des différentes composantes sera extraite avec
une technique basée sur les projections verticales et horizontales du visage, dans la
même idée que l’opérateur présenté par Pantic (voir A.1).
Toutes les autres connaissances élémentaires (gonflement des joues, plissement des
yeux, projection des lèvres, etc.) n’ont pas d’opérateur d’extraction correspondant,
mais des opérateurs de vérification, qui seront, a priori , des mesures de corrélation.
2 vue de face
normalisée
soustraction
informations
67
68 CHAPITRE 5. CONCEPTION
Une connaissance quelconque peut être vérifiée à tout moment. Les opérateurs de
vérification peuvent être les mêmes que les opérateurs d’extraction, auquel cas, le
résultat de l’extraction est comparée au résultat attendu. Mais l’intérêt est d’avoir
des opérateurs de vérification moins coûteux que les opérateurs d’extraction.
Les opérateurs de Traitement d’Images adaptés au mécanisme de vérification sont
les opérateurs de mesures par corrélation, puisque la vérification consiste à com-
parer l’observation à un modèle hypothètique.
La vérification par règles de compositions peut être vue comme une déduction
par chaînage arrière dans un système expert. La règle dont la partie gauche est la
connaissance à vérifier est choisie et si toutes les connaissances de la partie droite
sont présentes dans la base, la règle est vérifiée. Si une connaissance de la partie
droite est elle-même définie par une règle de composition, cette règle est à son tour
développée.
Par exemple, avec une règle du type Z := A + B, si A a été validée sur l’image
courante, le premier opérateur à appeler pour la prochaine image sera la fonction
de vérification de la règle Z := B. Ainsi, cette règle sera traitée en priorité.
Lors d’une analyse ascendante, la file est remplie par les opérateurs d’extraction de
connaissances, puis par les règles de composition, dans un ordre arbitraire.
Par exemple, pour l’expression gros définie par (joues-gonflées, bouche-
fermée) + (joues-neutres, bouche-ouverte), et en supposant que
les connaissances sur les joues ne peuvent être que vérifiées, on a, par exemple :
Dynamique vérification
mise en priorité
bouche ouverte ?
bouche fermée joues gonflées ?
Statique
joues neutres ?
OK
image 1 image 2
5.3.1 Algorithme
K := 0;
F := 0;
Pour chaque image i faire
ajouter à F les fonctions d’extraction
Tant que F non vide faire
f := F.défiler();
Si (f est un opérateur)
appeler f et ajouter à K
les nouvelles connaissances;
Fin Si
Si (f est une règle)
Validation(f, r);
Si (r.état == VALIDATION-REPORTEE)
[Link]([Link]);
[Link] := i;
Fin Si
Si (r.état == VALIDATION-PARTIELLE)
[Link]([Link]);
Fin Si
Si (r.état == VALIDE)
k := [Link];
Si ([Link] != 0)
[Link]ée := i - [Link];
Fin Si
Ajouter [Link] à K;
Fin Si
Fin Si
Fin Tant Que
échanger F et F2;
Fin Pour
La validation des règles est menée par la fonction Validation qui prend en para-
mètre une règle. Le résultat de cette fonction possède plusieurs champs. Le champ
état indique si la règle est entièrement validée (VALIDE), si la validation est re-
portée aux images suivantes par un mécanisme de prédiction (VALIDATION-RE-
PORTEE) ou si la validation n’est que partielle, auquel cas on utilise des opérateurs
de vérification (VALIDATION-PARTIELLE).
La résultat de Validation contient la règle temporaire à valider sur les images
suivantes en cas de validation reportée (champ reste). Il contient la liste des
connaissances à vérifier en cas de validation partielle (champ manque). Il contient
5.4. AJOUT DE NOUVELLES CONNAISSANCES 71
partagent les mêmes propriétés) que les connaissances qui les composent. Par
exemple, souffle-air est une connaissance statique, ayant comme propriétés
une position et une amplitude, de même que les connaissances qui la composent
(bouche-ouverte et joues-gonflées).
Quelle amplitude donner à souffle-air quand bouche-ouverte et joues-
gonflées sont présentes dans la base ? L’amplitude de la nouvelle connaissance
sera composée à partir des amplitudes des connaissances composantes. On peut
ici utiliser plusieurs opérateurs : faire la moyenne des amplitudes, le minimum, le
maximum, ou autre. On choisira généralement d’utiliser le maximum.
La propriété d’amplitude des actions faciales correspond au maximum d’ampl-
tiude de la connaissance élémentaire qui les compose. Par exemple, l’amplitude
de l’action faciale af-tremblement-joues correspond au maximum d’am-
plitude de chaque gonflement de joue qui compose l’action faciale.
De même, l’amplitude d’une expression correspond au maximum d’amplitude des
connaissances qui la compose.
La propriété de durée pour les actions faciales et les expressions est calculée comme
la somme des durées de chaque connaissance qui les compose.
72 CHAPITRE 5. CONCEPTION
6
Conclusion
Le but de cette étude était de mettre en évidence les spécificités de l’analyse des
expressions du visage dans un contexte de communication Homme-Homme, et en
particulier dans le contexte de la Langue des Signes, riche en expressions.
La Langue des Signes apporte son lot de problèmes quant à l’analyse informatique
des expressions : problème de changement de pose, d’occultation et de représen-
tation des connaissances linguistiques. C’est ce dernier point, la représentation des
connaissances, qui a été traité ici.
Le formalisme informatique présenté a été choisi parce que proche du formalisme
utilisé par les linguistes. La difficulté réside dans le fait que les descriptions exis-
tantes sont informelles et relativement subjectives. Un formalisme informatique
permet de léver les différentes ambiguités d’interprétation en se référant à des in-
dices objectifs : l’état des muscles faciaux.
De ce formalisme informatique est proposé l’architecture d’un système permet-
tant l’analyse informatique des expressions d’un locuteur en Langue des Signes.
L’accent est mis sur le mécanisme d’analyse et en particulier sur le mécanisme de
prédiction et vérification qui permettent de placer le système à un niveau de com-
préhension proche de l’humain et de décoder les différentes expressions à moindre
coût.
La prochaine étape consiste à valider ou invalider ce formalisme dans un système
d’analyse sur des cas réels, avec la participation de linguistes ; d’abord en condi-
tions maitrisées , en mettant de côté les problèmes de pose et d’occultation ;
Une des méthodes de détection de zones candidates consiste à détecter les zones de
la peau. Cette méthode nécessite donc une modélisation de la couleur de la peau.
La méthode la plus simple ([1]) consiste à représenter les couleurs dans le modèle
YCrCb, puisque les différences de couleur de peau entre les différents individus (et
ce, quelque soit le type de pigmentation de la peau) sont dûes à une différence de
76 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
luminance plutôt qu’une différence de chrominance. Les pixels ayant des valeurs
de Cr et Cb comprises dans un certain intervalle ([RCr1, RCr2] et [RCb1, RCb2]
respectivement) sont sélectionnés comme pixels faisant partie de la peau.
Avantages : Cette méthode est rapide à exécuter. La décision est effectuée direc-
tement sur chaque pixel.
Inconvénients : Le nombre de fausses alarmes est assez grand, d’abord parce
que l’unique information de couleur n’est parfois pas assez discriminante
et parce que le modèle est construit a priori .
La classification d’un pixel dans une des deux classes ( peau ou non-peau )
peut être vue comme une mesure de probabilité qu’un pixel appartienne à l’une
ou l’autre classe. On modélise généralement la distribution de probabilités qu’un
pixel appartienne à la peau comme un mélange de lois normales multi-variées (gé-
néralement de dimension 3 pour la couleur). Lors de la phase d’apprentissage,
chaque nouvelle image permet de préciser le nombre et les paramètres de chaque
gaussienne (moyenne et variance). Un algorithme classique pour l’adapation d’un
mélange de gaussiennes donné est l’algorithme Expectation Maximization ([48]).
Jones et Rehg ([3]) ont mené une étude comparative des deux méthodes. Ils ont
construit les deux modèles à partir d’un ensemble d’images séléctionnées de ma-
nière automatique sur le Web (6822 photos au total). Leurs tests montrent que la
modélisation par histogramme est plus efficace et plus rapide (à construire et à
évaluer) que la modélisation par mélanges de lois gaussiennes.
Leur meilleur histogramme (taille 32) possède une aire de 0.942 sur la courbe de
ROC (mesure statistique indiquant le rapport entre réussite et fausses alarmes ),
alors qu’un modèle idéal a une aire de 1. Ce détecteur permet de classer correcte-
ment à 80% avec 8.5% de fausses alarmes ou à 90% avec 14.2% de fausses alarmes
(le taux de réussite par rapport au taux de fausses alarmes est paramétrable).
Analyse de la forme
Une approche pour détecter les zones candidates consiste à sélectionner les objets
ayant une forme proche de celle du visage.
La forme la plus simple du visage est l’ellipse (si le visage est vu de face). La dé-
tection par critère de forme consiste généralement à trouver les contours de l’image
et à vérifier qu’ils sont organisées géométriquement selon un certain modèle (oval,
ellipse). Le problème est alors de trouver la position optimale de l’ellipse dans
l’image. On cherche donc à maximiser une certaine mesure d’ adéquation entre
l’ellipse et l’image. On peut, par exemple, utiliser la somme des gradients entou-
rant l’ellipse comme mesure d’adéquation. Un des problèmes est que cette méthode
est peu efficace lorsque l’arrière-plan est relativement complexe. On peut ensuite
ajouter une mesure de corrélation sur l’histogramme de la partie interne de l’ellipse
entre la position initiale et la position courante.
Pour savoir si une région de l’image a une certaine forme, on mesure généralement
différentes caractéristiques.
Une des caractéristiques souvent utilisée est la projection. On projette verticale-
ment et horizontalement les pixels de la forme. Les deux profils obtenus pourront
être comparés à la forme désirée.
Pantic ([37]) utilise cette méthode pour la détection du visage et de ses compo-
santes. Les pics du profil vertical donnent les positions de la frontière entre che-
veux et front, des yeux, des narines, de la bouche et de la frontière entre menton et
cou. La ligne horizontale des yeux est le maximum local du deuxième pic.
78 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
A partir de cette ligne, la ligne verticale coupant le visage en deux et passant par la
zone entre les deux yeux est donnée par le minimum des différences de contraste
sur la ligne horizontale des yeux extraite précédemment.
Le visage ainsi découpé en quatre zones permet de définir les zones des yeux, de la
bouche et du nez. La zone de l’oeil gauche est définie initialement comme ayant les
mêmes dimensions que le coin supérieur gauche du visage et étant coupé en deux
verticalement par la ligne horizontale traversant les yeux. Cette zone est réduite en
ne gardant que les maxima locaux. La même analyse est faite pour l’oeil droit, la
bouche et le nez.
Inconvénients : L’inconvénient majeur est que cette méthode est très contrainte.
Les décisions étant prises par rapport à des critères de luminosité, les ré-
sultats sont grandement faussés si la luminosité n’est pas idéale. Une infor-
mation de luminosité bruitée peut aussi beaucoup fausser la décision. Cette
méthode nécessite donc une phase de prétraitement.
De plus, cette méthode suppose que le visage soit vu de face.
Analyse du mouvement
Si l’objet d’étude est le visage d’une personne filmé par une caméra fixe, l’arrière-
plan est généralement fixe. Ainsi, détecter les zones de l’image en mouvement
revient à détecter les zones de l’image susceptibles d’être un visage.
Une simple analyse par différences d’images permet de sélectionner les zones en
mouvements.
A.2. ANALYSE PAR EXTRACTION DES COMPOSANTES 79
Sourcils
Les sourcils, s’ils sont présents, sont généralement plus foncés que le reste du vi-
sage. Un détecteur de contours peut permettre la détection des sourcils.
Yeux
La zone des yeux est composée de plusieurs composantes intéressantes pour l’ana-
lyse des expressions : les paupières, les yeux (iris, blanc), les muscles entourant les
yeux qui entrent en jeu dans l’action faciale plissement des yeux et les rides
sur le côté.
paupières Les paupières ont la couleur de la peau. Détecter une zone ayant la
couleur de la peau à l’endroit des yeux indique la présence des paupières.
Le clignement d’yeux est un processus naturel qui intervient relativement fréquem-
ment. Il est possible de détecter les yeux en se basant sur le principe qu’ils clignent
avec une certaine fréquence et tous les deux en même temps.
iris, blanc des yeux Les yeux possède un profil horizontal de couleur très
spécifique : clair, foncé et clair. Une analyse du gradient ou des histogrammes
verticaux / horizontaux peut permettre de détecter les caractéristiques des yeux.
Le forme ronde de l’oeil peut aussi servir à la détection, par exemple, par une
transformée de Hough.
80 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
Une première méthode basée sur la luminosité consiste à dire que l’iris est la partie
la plus sombre de la zone de l’oeil. On peut ainsi faire varier un seuil de binarisa-
tion jusqu’à obtenir deux formes distinctes. En se basant sur des critères morpho-
métriques, on peut donc détecter la position des yeux.
Christophe Collet ([18]) propose une méthode pour détecter les yeux (et leur confi-
guration). L’analyse est basée sur le gradient. Les yeux ayant un profil de lumi-
nosité horizontal spécifique, il tente de reconnaître ce profil dans différentes
zones de l’image. La zone des yeux est celle ayant le plus de correspondances.
Bouche
La zone de la bouche est une des zones du visage la plus mobile. La mâchoire peut
ainsi être abaissée ou décalée à gauche ou à droite. Les éléments les plus importants
de cette zone sont les lèvres. Les autres éléments sont les dents, la langue et les
rides naso-labiales.
Les techniques de contours actifs sont souvent utilisées pour l’extraction de la
forme de la bouche. Le principal problème des contours actifs est leur difficulté
d’initialisation. Delmas ([20]) propose une méthode de détection des commissures
de la bouche pour initialiser un snake. L’idée est que sur une image de la par-
tie inférieure du visage, les zones les plus sombres de l’image correspondent aux
commissures de la bouche, qu’elle soit ouverte ou fermée.
Le principe est alors de determiner, pour chaque colonne de l’image, le minimum
de luminance. Afin de tenir compte de l’aspect symétrique et du centrage hori-
zontal de la bouche, on introduit une fonction de pondération (semblable à une
gaussienne) favorisant les minima proches du centre de l’image plutôt que ceux
situés sur les bords, a priori en dehors de la bouche. On construit alors un vecteur
d’accumulation , somme des projections pondérées des minima précédemment
détectés. La composante la plus forte de ce vecteur donne alors la position verti-
cale de la bouche. Pour trouver les commissures, on effectue alors un chaînage des
minima de luminance.
Une fois les deux lèvres repérées, il est plus facile de différencier la configuration
de l’intérieure de la bouche : la présence des dents ou de la langue peut être détecté
par l’analyse de la couleur, puisque les deux ont des couleurs très différentes.
Une autre technique consiste à suivre la position du menton. Etant donné que le
mouvement du menton entraîne le mouvement de la lèvre inférieure, on peut dé-
duire la position de la lèvre inférieure de la position du menton.
A.2. ANALYSE PAR EXTRACTION DES COMPOSANTES 81
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Rides
Les rides les plus importantes du visage sont les rides du haut du nez (froncement
du nez), du front (relèvement des sourcils), du coin des yeux (plissement des yeux)
et les rides nasio-labiales qui interviennent généralement lors du sourire.
Les rides apparaissent sur les images sous forme d’une forte différence de lumi-
nosité. Utiliser un détecteur de contours (détectant aussi son orientation) sur des
zones pertinentes de l’image (front, nez, coin des yeux, ...) permet d’extraire l’in-
formation sur les rides.
A.2.1 Evaluation
L’avantage de ces méthodes est qu’elles sont généralement très simple à metter en
oeuvre.
Malheureusement, puisque les modèles sous-jacents sont construits a priori , ces
méthodes sont généralement spécifiques à une configuration donnée (visage vu de
face, luminosité constante, etc.). Il devient difficile de les généraliser (rotation du
82 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
veaux de gris), considérées comme un vecteur (en concaténant chaque ligne de
l’image) :
on construit un visage moyen :
On construit ensuite la matrice suivante :
La matrice de covariance est multipliée par sa transposée :
#"
Pour trouver les valeurs propres, on résoud l’équation % , ! / où I est la
matrice identité.
A.3. MISE EN CORRESPONDANCE DE MODÈLES 83
On a
Les vecteurs propres sont alors :
dans l’espace des visages propres : , /
, est / projetée
La nouvelle image
, où
Turk et Pentland ([6]) utilisent cette méthode pour la reconnaissance des visages.
Les résultats de reconnaissance sont très bons pour un visage faisant partie de la
base d’apprentissage (même en présence d’une forte occultation). La reconnais-
sance d’un nouveau visage (i.e. , ne faisant pas partie de la base d’apprentissage)
nécessite la construction d’une base d’apprentissage la plus représentative possible.
Pour que cette méthode soit robuste aux changements de pose et/ou d’illumination,
il faut intégrer dans la base d’apprentissage des visages ayant différentes poses
et/ou illuminations. La construction de la base d’apprentissage devient alors diffi-
cile.
tion peuvent correspondre à ces différences. Ainsi, Taylor et Cootes ont observés
que faire varier un visage autour du premier axe, changeait son illumination ; le
deuxième axe correspondrait aux différences de pilosité (barbre et sourcils) et le
troisième axe au sourire.
Le concept de visage-propre peut être étendu au concept de composantes-propres
(eigen-features). Plutôt que d’effectuer une décomposition en valeurs propres de
l’image du visage, on effectue la décomposition sur les images des différentes com-
posantes.
Taylor et Cootes ([29]) ont introduit le concept d’Active Shape Model et d’Active
Appearance Model qui consiste à modéliser le visage en prenant en compte à la fois
les informations de forme et les informations d’apparence. Un ensemble de points
de contrôle est placé manuellement sur un ensemble de visages d’apprentissage.
De ces points, on déduit un arrangement spatial et on mémorise l’information de
couleur (ou de niveaux de gris) de cette forme. En effectuant une analyse en compo-
santes principales sur les données d’apprentissage (aussi bien sur les informations
de forme que d’apparence), on peut ainsi recomposer un visage.
84 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
Un réseau de neurones peut être vu comme une fonction ayant un certain nombre
d’entrées et un certain nombre de sorties. Le principe de l’apprentissage est de
donner en entrée au réseau un certain nombre d’exemples et de fixer la sortie à la
valeur désirée. Une méthode d’apprentissage permet alors au neurone de s’adap-
ter au mieux pour qu’il affiche la même sortie quand on lui donnera des donnés
proches des données d’apprentissage. L’un des avantages des réseaux de neurones
est leur robustese au bruit.
Cottrell et Padgett ([44]) ont cherché des méthodes d’analyse automatique du vi-
sage les plus proches possibles de la réalité biologique. Ainsi, un réseau de neu-
rones dit auto-supervisé , c’est à dire dont la couche d’entrée et la couche
de sortie sont identiques et égales à l’image d’un visage, effectue une analyse en
composantes principales. Le nombre de composantes principales est donné par le
nombre de neurones de la couche cachée. Chaque neurone de la couche cachée
correspond aux valeurs propres de la décomposition.
Rowley, Baluja et Kanade ([5]) ont construit un réseau de neurones qui, à partir
d’une image prétraitée de 20x20 pixels indique s’il s’agit d’un visage ou non. Le
prétraitement consiste à égaliser l’histogramme. L’image est balayée en fenêtres de
20x20. Pour détecter les visages de différentes tailles, une analyse multi-résolutions
est effectuée. L’extension du système consistait à ajouter un réseau de neurones
indiquant le degré de rotation d’un visage. Ainsi, le système est capable de détecter
des visages ayant subi des rotations dans le plan et de différentes échelles.
Les réseaux de neurones peuvent aussi servir pour la reconnaissance des expres-
sions faciales. Par exemple, la reconnaissance des configurations de la bouche peut
être détectée par un réseau de neurones. Le réseau aura alors été entraîné sur un
ensemble d’images de bouches ayant des configurations différentes ([37]).
Avantages : Les réseaux de neurones sont généralement utilisés pour leur faible
sensibilité au bruit et leur capacité d’apprentissage.
Inconvénients : Malheureusement, les réseaux de neurones, sont souvent difficile
à construire. Leur structure (nombre de couches cachées pour les perceptrons
A.3. MISE EN CORRESPONDANCE DE MODÈLES 85
par exemple) influe beaucoup sur les résultats et il n’existe pas de méthode
pour déterminer automatiquement cette structure.
La phase d’apprentissage est difficile à mener puisque les exemples doivent
être correctement choisis (en nombre et configuration).
A.3.4 Evaluation
Les avantages principaux de ces méthodes sont qu’elles sont génériques et peuvent
donc s’adapter à beaucoup de problèmes. Ces méthodes sont généralement moins
sensibles au bruit que les méthodes classiques, puisqu’il existe un modèle sous-
jacent de comparaison.
Par contre, la construction du modèle (i.e. l’apprentissage) est souvent long et né-
cessite un corpus intelligent (i.e. adapté au problème).
mesures. Elles peuvent être vues comme des méthodes de classification, i.e. des
méthodes qui indiquent que l’observation se trouve dans un ensemble préétabli de
configurations.
Les méthodes de mise en correspondance de modèles sont mal adaptées au pro-
blème de quantification : il est, par exemple, difficile de concevoir un réseau de
neurones qui indique quelle est le degré d’ouverture, en pixels, de la bouche ; il est
plus facile de construire un réseau de neurones qui décide si la bouche est ouverte
ou fermée.
Ces méthodes sont donc bien adaptées à l’extraction d’informations sur des com-
86 ANNEXE A. MÉTHODES D’ANALYSE DU VISAGE
posantes dont certains états sont difficile à quantifier par des opérateurs classiques
(le gonflement de la joue par exemple) ou à l’extraction d’informations sur des
composantes n’ayant qu’un nombre restreint d’états.
Les méthodes de contours actifs sont des méthodes qui peuvent être utilisées aussi
bien au niveau global que local (bien que pour le visage, elles soient plus souvent
utilisées de manière locale, pour une composante particulière). Elles se basent sur
les contours de l’image.
Le but est de faire évoluer une forme. Cette forme possède un certain nombre
de contraintes. Les courbes sont définies comme suit pour les modèles continus :
([26]).
, ) &% / , , ) % / , ) %&/ /)
%
et
A.5. ESTIMATION DE LA DYNAMIQUE 87
, /
, / ,) /
, / )
)
où , , )0/ /
Les snakes sont très utilisés pour l’extraction et le suivi de composantes. Certains
l’utilisent pour extraire et suivre les yeux, d’autres pour la bouche ([37]).
Avantages : L’avantage des contours actifs est qu’ils peuvent modéliser des
Une fois les composants du visage extraits, la mesure de leur dynamique permet
de caractériser les expressions.
La méthode dite du flux optique permet une estimation du mouvement sous
considéré. Par exemple, sous l’hypothèse que la première image d’une séquence
représente un visage affichant l’expression neutre , les mouvements des diffé-
rentes composantes pourront être mis en évidence sur chaque image suivante par
différence avec la première image.
Bibliographie
Détection du visage
[1] Douglas C HAI and King N. N GAN. « Locating Facial Region of a Head-
and-Shoulders Color Image ». In Proceedings of the Third IEEE International
Conference on Automatic Face and Gesture Recognition (FG’98), pages 124–
129, Nara, Japan, April 1998.
[2] Erik H JELMAS and Boon Kee L OW. « Face Detection : A Survey ». Com-
puter Vision and Image Understanding, 83(3) :236–274, 2001.
[3] Michael J. J ONES and James M. R EHG. « Statistical Color Models with
Application to Skin Detection ». In Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, volume 1, page 1274, Fort Collins,
Colorado, June 1999.
[4] Alexandre L EMIEUX and Marc PARIZEAU. « Experiments on Eigenfaces
Robustness ». In International Conference on Pattern Recognition (ICPR),
volume 1, page 10421, Québec, 2002.
[5] Henry A. ROWLEY, Shumeet BALUJA and Takeo K ANADE. « Rotation Inva-
riant Neural Network-Based Face Detection ». In Proceedings of IEEE Confe-
rence on Computer Vision and Pattern Recognition, page 38, Santa Barbara,
CA, June 1998.
[6] Matthew T URK and Alex P ENTLAND. « Eigenfaces for recognition ». Jour-
nal of Cognitive Neuroscience, 3(1) :71–86, Winter 1991.
[7] Ming-Hsuan YANG, David J. K RIEGMAN and Narenda A HUJA. « Detecting
Faces in Images : A Survey ». IEEE Transactions on Pattern Analysis and
Machine Intelligence, 24(1) :34–58, January 2002.
[8] Z HAO, R. C HELLAPPA, A. ROSENFELD and P. P HILLIPS. « Face recogni-
tion : A literature survey ». Technical Report CAR-TR-948, Center for Auto-
mation Research, University of Maryland, 2000.
Divers