0% ont trouvé ce document utile (0 vote)
170 vues12 pages

Comment Extraire La Sémantique D'une Image ?: Alain Boucher Et Thi-Lan Le

Cet article présente un état de l'art de la recherche d'images par le contenu et propose un système de recherche symbolique basé sur la couleur et la texture. Il discute des façons d'ajouter de la sémantique dans l'analyse d'image via des concepts et l'interaction homme-machine.

Transféré par

aicha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
170 vues12 pages

Comment Extraire La Sémantique D'une Image ?: Alain Boucher Et Thi-Lan Le

Cet article présente un état de l'art de la recherche d'images par le contenu et propose un système de recherche symbolique basé sur la couleur et la texture. Il discute des façons d'ajouter de la sémantique dans l'analyse d'image via des concepts et l'interaction homme-machine.

Transféré par

aicha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

SETIT 2005

3rd International Conference: Sciences of Electronic,


Technologies of Information and Telecommunications
March 27-31, 2005 – TUNISIA

Comment extraire la sémantique d’une image ?


Alain Boucher* et Thi-Lan Le**
*
Institut de la Francophonie pour l’Informatique, Hanoi, Vietnam
[email protected]
**
Centre de Recherche International MICA, Institut Polytechnique de Hanoi, Vietnam
[email protected]

Résumé: Dans cet article, nous présentons un état de l’art de la recherche d’images par le contenu, avec certains
résultats, mais aussi les problèmes qui subsistent. Nous proposons notre système de recherche symbolique d’images
basé avant tout sur la couleur et la texture. À partir des connaissances existantes sur la recherche d’images par le
contenu symbolique, nous discutons de façons pour ajouter de la sémantique dans le processus d’analyse de l’image. Il
existe deux méthodes pour arriver à cela : définition de concepts (ontologie) et interaction homme-machine. Nous
présentons notre approche et nos résultats préliminaires et les discutons dans le but de parvenir à concevoir un système
utile pour l’homme, c’est-à-dire exploitant les données au niveau sémantique. De plus, nous discutons des extensions
possibles de ces mécanismes vers la recherche d’informations multimédias, où l’image côtoie la vidéo, la parole, le son
et le texte. Dans cette optique, nous démontrons que la meilleure voie possible est de lier ces médias très différents via
l’extraction de sémantique.
Mots clés: Bases de données multimédia, Recherche d’information, Interaction, Sémantique, Traitement d’images.

utilisateurs humains d’un tel système.


1. Introduction Dans la section 2 de cet article nous revenons en
La dernière décennie a vu une explosion du arrière et relions l’historique des travaux en vision par
nombre d’articles publiés dans le domaine de ordinateur aux problèmes d’aujourd’hui en
l’indexation et de la recherche d’images. La mise à interprération, analyse et recherche d’informations au
portée de chacun d’appareils photos et de caméras niveau sémantique de l’image. Ensuite, dans la section
numériques, conjugée avec la montée en puissance et 3, nous discutons de recherche d’images par le
en stockage des ordinateurs, ont contribuées à créer à contenu symbolique et présentons aussi nos résultats
la fois un besoin, mais aussi certaines réponses dans actuels dans le domaine. Dans la section 4, nous nous
ce domaine. Plusieurs équipes de recherche ont intéressons à la recherche d’information au niveau
développés des travaux dans ce sens, ce qui a sémantique, où nous présentons les approches
débouché sur plusieurs avancées dans le problème possibles et discutons de notre prototype dans ce
plus général du traitement d’images et de la vision par domaine. Enfin, la section 5 contient des quelques
ordinateur. Ce nouveau problème, ou défi, a redéfini réflexions sur l’évolution du domaine vers la
en des termes nouveaux les objectifs du traitement recherche d’information multimédia.
automatique des images, et cela a conduit à de
nouvelles réflexions simplement par l’introduction 2. Evolution de la notion de sémantique
d’une problématique légèrement différente à ce qui se
faisait avant. 2.1. En vision par ordinateur…
Nous nous intéressons dans cet article à La recherche en traitement d’images et en vision
l’interprétation du contenu des images à des fins par ordinateur s’est orientée pendant de nombreuses
d’indexation et de recherche d’information. Deux années sur l’extraction d’informations et sur la
niveaux d’interprétation d’une image sont définis : reconnaissance des éléments qui constituent l’image.
symbolique, ou bas niveau, et sémantique, ou haut On retrouve ici notamment les travaux de Marr
niveau. L’objectif de la recherche étant d’obtenir une (Marr, 1982) qui a clairement défini les étapes de la
interprétation de l’image au niveau sémantique, afin vision par ordinateur en partant de la segmentation et
de communiquer des résultats fidèles aux attentes des l’extraction de caractéristiques de base (bas niveau) et
SETIT2005

progressant de façon unidirectionnelle vers


l’interprétation de l’image (haut niveau). Cette Fossé sémantique
approche, qualifiée d’ascendante, a longtemps dominé
et est encore très largement utilisé aujourd’hui.
Maison RGB = (225,0,32)
Il existe un autre courant de pensée, attestant que Forme = 1,23
l’interprétation ne pouvait se faire que si elle était
dirigé par un but. Il s’agit de l’approche descendante,
partant du haut niveau et allant vers le bas niveau
(Clouard et al., 1995).
Malgré tous les efforts et les avancées qui ont été
faits, le problème demeure encore entier, ou presque.
Comme dans plusieurs autres domaines lorsqu’on
hésite entre deux voies opposées, la solution probable
se trouve probablement quelque part entre les deux.
Dans cette optique, il existe aussi plusieurs travaux Monde Caméra
combinant les approches ascendante et descendante
Fossé sensoriel
(Germond et al., 1997). L’extraction d’informations
bas niveau est nécessaire, mais l’analyse « en
aveugle » de l’image entière est impossible et il faut Figure 1. Le fossé sensoriel entre le monde observé et
cibler un ou quelques objectifs que l’on désire l’image acquise ainsi que le fossé sémantique entre
accomplir par les traitements. l’analyse par l’ordinateur et l’interprétation humaine
de l’image.
L’analogie est facile avec la vision humaine, ou la
vision sert à déterminer et à accomplir l’action. On ne espoirs. De nombreux travaux ont été publiés sur la
fait pas que voir, tel un observateur extérieur, mais recherche d’images par le contenu symbolique, et cela
nous sommes au centre de la scène et notre survie a permis de nombreuses avancées sur l’utilisation de
dépend de notre vision. Cette analogie a, entre autres, la couleur, des textures, des formes, et autres
motivé toute une philosophie de recherche autour de invariants de l’image.
ce qu’on appelle la vision active (Aloimonos et al., Cependant, après l’euphorie initiale, on retombe
1987) et ses dérivées. Malgré de nombreuses et réelles sur les mêmes vieux problèmes, mais cette fois, et
avancées, le problème de contrôle entre le bas niveau c’est une nouveauté, on leur donne des noms : le fossé
et le haut niveau n’est toujours pas résolu aujourd’hui, sensoriel et le fossé sémantique (voir figure 1).
et les percées vers le grand public des applications de
vision haut niveau ne sont pas encore à la hauteur des Le fossé sensoriel était déjà connu, et même très
attentes. Comment concilier le bas niveau, plutôt bien documenté et travaillé. Il intervient avant même
mathématique, avec le haut niveau, plutôt du domaine l’analyse bas niveau de l’image, soit au niveau de
de l’intelligence artificielle ? Ce problème était l’acquisition de l’image. Il est défini comme « le fossé
autrefois largement vu comme un problème de entre les objets dans le monde réel et l’information
contrôle uniquement (Boucher, 1999), et les efforts contenue dans une description (informatique) dérivée
ciblaient l’améloration de ce contrôle dans les de l’enregistrement de cette scène » (Smeulders et al.,
systèmes de vision. 2000). Il s’agit de la projection d’une réalité, souvent
3D et continue, dans une représentation informatique
2.2. … et en recherche d’images par le contenu discrète et 2D. Ce fossé est soit accepté par les
chercheurs travaillant sur les images 2D, ou repoussé
Après tout cela est arrivé l’essor d’un nouveau
par les chercheurs travaillant sur les images 3D ou
domaine qu’est l’indexation et la recherche d’images.
stéréoscopiques.
En fait, le domaine n’est pas nouveau, puisqu’il
provient directement du problème, plus vaste, de la En imagerie 2D, l’hypothèse courante de travail est
recherche d’information (Baeza-Yates et al, 1999), que dans tous les cas, l’humain réussit à utiliser, et à
mais on peut dire, sans se tromper, qu’il y a eu un interpréter, les images 2D, donc l’ordinateur pourrait
véritable engouement de la part des équipes de très bien le faire aussi. Cette hypothèse est nécessaire
recherche de partout dans le monde vers ce domaine il dans la pratique puisque la masse d’images qui nous
y a environ une dizaine d’années seulement, pour des entoure est bien souvent qu’en 2D, ce qui fait que le
raisons évoquées dans l’introduction. Outre les besoin d’outils pour travailler, et interpréter, les
avancées techniques, ce domaine a aussi contribué à images 2D est criant et bien réel. Cependant, cette
de nouvelles réflexions sur le domaine. Le problème hypothèse ne fait que renforcer le deuxième fossé, en
était redéfini, car on ne cherche plus à reconnaître les limitant les informations disponibles et en repoussant
éléments constituant l’image, mais on cherche la une partie du traitement vers l’interprétation, soit plus
similarité entre les images. Cette nouvelle définition haut dans la chaîne de traitement.
de la tâche a sans doute fait naître de nombreux
SETIT2005

l’homme, celui-ci s’attend à un dialogue se situant au


64 60 69 100 149 151 niveau sémantique. Même dans un discours au niveau
65 62 68 97 145 148 symbolique, l’homme ajoute sans le vouloir une
65 66 70 95 142 146 interprétation sémantique aux symboles, ce qui fausse
66 66 68 90 135 140 la compréhension entre l’homme et la machine.
66 64 64 84 129 134
59 63 62 88 130 128 Sans pouvoir éviter ce phénomène, il faut en
prendre conscience dans la recherche de systèmes
(a) (b) adaptés pour l’homme, ce que nous discuterons en
section 4. Mais auparavant, la prochaine section
Figure 2. Représentations différentes d’une même image
évoquant des sémantiques différentes. (a) Représentation en
continue la discussion sur la recherche d’images au
niveau de gris, interprétée sémantiquement par l’humain. niveau symbolique en expliquant et discutant les
(b) Représentation matricielle d’une partie de l’image, résultats de notre système.
manipulable par l’ordinateur.

Le fossé sémantique est le plus difficile à traiter. 3. Recherche d’images par le contenu
Depuis plusieurs années, les chercheurs tournaient symbolique
autour de ce fossé sans véritablement le nommer, ce
qui est chose faite aujourd’hui. Le fossé sémantique 3.1. Intérêt de l’approche
est définit comme « le manque de concordance entre Nous avons déjà mentionné l’intérêt actuel porté
les informations qu’on peut extraire des données sur les bases d’images, les techniques d’indexation et
visuelles et l’interprétation qu’on ces mêmes données les techniques de recherche d’images dans de telles
pour un utilisateur dans une situation déterminée » bases. Cependant, dans les applications pratiques de
(Smeulders et al., 2000). ces bases d’images que l’on retrouve aujourd’hui, que
ce soit pour les chaînes de télévision, les journaux, les
Ce fossé n‘est ni plus ni moins que le même
musées et mêmes pour les moteurs de recherche sur
problème de liaison entre traitements de bas niveau et
Internet qui proposent des solutions de recherche
traitements de haut niveau, sauf que maintenant, il est
d’images, l’indexation et la recherche de ces images se
clairement vu comme un problème de gestion
fait en se basant majoritairement sur des annotations
d’informations et non uniquement comme un
textuelles ou des éléments de texte qu’on peut
problème de contrôle. Et même si l’application en
rattacher aux images. Dans plusieurs cas (chaînes de
indexation et recherche d’images a permis pendant un
télévision, journaux, …), l’archivage des images et
certain temps de redéfinir l’objectif des traitements, on
des séquences vidéos ne se fait qu’au prix d’une étape
se heurte de nouveau à un problème récurrent en
d’annotation manuelle à l’aide de mots-clés. Cette
vision par ordinateur (qui relève d’ailleurs autant de la
indexation représente une tâche longue et répétitive
vision par ordinateur que de l’intelligence artificielle).
pour l’humain, surtout avec les bases d’images qui
Nous résumons, en simplifiant outrageusement, le deviennent aujourd’hui de plus en plus grandes. De
problème avec la figure 2. Ce que nous voyons et plus, cette tâche est très subjective à la culture, à la
interprétons est représenté à la figure 2a : une voiture connaissance et aux sentiments de chaque personne.
que nous voyons et imaginons très bien. La figure 2b
Le besoin de méthodes d’indexation et de
représente une portion de la première image sous
recherche directement basées sur le contenu de
forme de matrice de nombres. Il s’agit de la
l’image n’est donc plus à démontrer. Partant de
représentation utilisée par l’ordinateur pour traiter les
l’image, cette approche se base essentiellement sur des
images : une matrice de nombres. Il est important de
descripteurs extraits automatiquement à partir de
noter que ces deux représentations sont duales et
l'image telles que la couleur, la texture, la forme, et
entièrement équivalentes, comme chacun le sait.
tout autre descripteur de l’image qu’on peut imaginer.
Pourtant, la seconde représentation ne nous évoque
Elle est indépendante des personnes et du contexte,
absolument aucun sentiment équivalent à la première
donc plus objective. Mais il est difficile de trouver des
image.
descripteurs puissants pour représenter les images.
Que se passe-t-il ? Par notre constitution, notre
Nous avons construit un premier système pour la
éducation, notre apprentissage de la vie, notre volonté
recherche d’images basé essentiellement sur la couleur
de survie et par d’autres phénomènes qui dépassent le
et la texture. Cependant, tel que déjà argumenté dasn
cadre de cet article, nous sommes capable d’extraire le
la section précédente, nous reconnaissons qu’utilisées
contenu sématnique de la première représentation,
seules, ces caractéristiques symboliques ne peuvent
tandis que l’ordinateur n’arrive pas à extraire de
pas satisfaire pleinement les requêtes des utilisateurs.
sémantique, que de la symbolique, de l’une ou l’autre
La raison principale de cet état de fait est qu’un
des représentations.
utilisateur pense sa requête en termes sémantiques
Or, pour la majorité des applications où (une montagne, une maison ou une personne connue),
l’ordinateur interagit avec l’homme, où l’ordinateur et non en termes de valeurs symboliques extraites
tente d’apporter une solution à un problème de (zone rouge, texture rayée, etc.) des images. Mais il
SETIT2005

faut commencer quelque part et ces caractéristiques Huang et al. (Huang et al., 1997) ont proposé le
sont la première piste d’information que nous corrélogramme et l’auto-corrélogramme.
possédons. Il faut donc les exploiter à leur juste
La deuxième approche recherche d'autres espaces
mesure. L’aspect sémantique est discuté à la section 4.
de couleurs qui se basent sur la perception de couleur
Un système de recherche d’images par le contenu de l’humain. L’espace RVB est un espace de couleur
symbolique est donc un système se basant sur les utilisé couramment, par facilité, dans tous les systèmes
couleurs, les textures, les formes, ainsi que d’autres de vision automatique, mais il n’est pas forcément le
caractéristiques. Mais une image contient beaucoup de mieux adapté. En effet, les trois composantes RVB
caractéristiques. Donc, comment peut-on choisir les sont très dépendantes les unes des autres. Un simple
caractéristiques adéquates et comment peut-on changement d’éclairage dans la scène modifie les trois
combiner ces caractéristiques ? Ce sont ces aspects composantes, alors que les objets de la scène n’ont pas
que nous discutons ici. changés de couleur, mais se sont simplement
assombris ou éclairés. Dans (Smeulders et al., 2000)
3.2. Caratéristiques symboliques de l’image les auteurs ont présenté quelques expérimentations
intéressantes pour utiliser d’autres espaces en
3.2.1. La couleur indexation, tandis que Park et al. (Park et al., 1999)
La couleur est très souvent le premier descripteur ont proposé l'espace CIE LUV et Gong et al. (Gong &
qui est employé pour la recherche d’images. Plusieurs al., 1998) ont employé l’espace HVC. Un panorama
travaux ont déjà prouvé qu’il s’agit d’un descripteur des travaux existants permet de trouver plusieurs
efficace (Smeulders et al., 2000). Une technique très espaces couleurs différents comme solution au lieu
utilisée pour la couleur est l’intersection d’un espace unique. La solution se trouve
d’histogrammes (Swain et al., 1991). Les probablement dans l’utilisation de plusieurs espaces
histogrammes sont faciles et rapides à calculer, et complémentaires (Vandenbroucke, 2000).
robustes à la rotation et à la translation. Cependant
l’utilisation d’histogrammes pour l'indexation et la Dans notre système de recherche d’images, nous
recherche d’images pose quatre problèmes (Gong et avons adopté les espaces RVB et HSV, choisis pour
al., 1998). Premièrement, ils sont de grandes tailles, leur complémentarité.
donc par conséquent il est difficile de créer une
indexation rapide et efficace en les utilisant tels quels. 3.2.2. La texture
Deuxièmement, ils ne possèdent pas d’informations La texture, autre primitive visuelle, est étudiée
spatiales sur les positions des couleurs. depuis une vingtaine d’années et plusieurs techniques
Troisièmement, ils sont sensibles à de petits ont été développées pour l’analyser. Une méthode très
changements de luminosité, ce qui est problématique connue pour analyser la texture est la matrice de co-
pour comparer des images similaires, mais acquises occurrences de Haralick. Afin d'estimer la similarité
dans des conditions différentes. Et quatrièmement, ils entre des matrices de co-occurrences, quatre
sont inutilisables pour la comparaison partielle des caractéristiques extraites de ces matrices sont
images (objet particulier dans une image), puisque largement utilisées : l’énergie, l’entropie, le contraste
calculés globalement sur toute l’image. Plusieurs et le moment inverse de différence.
travaux récents ont été effectuées pour améliorer ces Il existe aussi d’autres méthodes pour analyser les
problèmes. Il existe deux approches suivies par les textures dont celle basée sur les filtres de Gabor.
chercheurs : l’une ajoute des informations spatiales à Après avoir appliquée la transformation de Gabor sur
l’histogramme, l’autre utilise d’autres espaces de une image, une région de texture est caractérisée par la
codage des couleurs qui se rapprochent plus de la moyenne et la variance des coefficients de
perception humaine. transformation. Un vecteur de caractéristiques est
La première approche ajoute des informations construit en utilisant ces caractéristiques comme
spatiales aux histogrammes. Dans (Stricker et al., composants.
2004), les auteurs ont divisé une image en cinq blocs Une méthode n’ayant pas forcément d’avantage
fixés superposés et ils ont extrait les trois premiers majeur sur l’autre, nous avons utilisé les matrices de
moments d’inertie de chaque bloc pour créer un co-occurrences pour notre système de recherche
vecteur de descripteurs. Pass et Zabih (Pass et al., d’images.
1996) ont ajouté de la cohérence spatiale dans des
histogrammes. Un pixel est cohérent s'il appartient à 3.2.3. Caractéristiques globales vs locales
une région validée par la segmentation et incohérent A la base, les caractéristiques présentées
autrement (soit les pixels situés hors des régions précédemment sont calculées de façon globale sur
segmentées). Les valeurs d’un histogramme sont l’image. Cependant, un système basé uniquement sur
divisées en deux classes en fonction des pixels des caractéristiques globales ne peut pas donner les
correspondants à ces valeurs : classe cohérente et résultats désirés. Soit une image composée de
classe incohérente. La comparaison entre deux plusieurs objets ayant des caractéristiques, couleurs et
histogrammes devient la comparaison entre les valeurs textures, très différentes, le vecteur de caractéristiques
d’histogrammes dans les classes correspondantes. global extrait à partir de l’image entière perd les
SETIT2005

informations locales (les objets) et ne produit qu’une


moyenne grossière du contenu de cette image. Par
contre, l’analyse uniquement basée sur des
caractéristiques locales risque de perdre le sens global
de l’image, en submergeant celui-ci dans un flot de
petits détails inutiles. Par conséquent, un compromis
doit être trouvé, différent selon les applications et
(a) (b)
selon les requêtes individuelles, entre caractéristiques
globales et caractéristiques locales. Figure 3. Deux découpages différents de l’image. (a)
Découpage en grille de l’image. (b) Découpage par la
Deux approches différentes peuvent être segmentation division-fusion de l’image.
employées pour calculer les caractéristiques locales.
La première approche consiste à diviser une image en
composants. L’approche locale utilisée repose soit sur
utilisant une grille et les caractéristiques de chaque
la division d’une image, soit par découpage en grille
bloc sont calculées pour chaque case de cette grille.
ou par segmentation, en quelques zones générales
Dans la figure 3a, l'image est divisée en 12 zones de
d'intérêt, sans rechercher le calcul exact de toutes les
même taille et les caractéristiques sont calculées pour
régions. Pour ce faire, nous utilisons une technique
chacune de ces zones.
très connue qu’est la segmentation par division-fusion.
La deuxième approche consiste à segmenter Nous recherchons des régions homogènes, mais
l’image pour la diviser en zones locales plus proches utilisons comme critère d’arrêt de l’algorithme la
des objets constituant l’image et ensuite calculer les division de l’image en 3 à 10 régions maximum (voir
caractéristiques pour chacune des régions extraites. La figure 3b). Encore une fois, sans précision sur la
segmentation est une étape qu'on souhaiterait éviter, requête, il est inutile de chercher le découpage
en raison de tous les problèmes pour choisir une « parfait » pour deux raisons : (1) la définition même
"bonne" méthode de segmentation valide pour toutes de perfection dans ce cas est subjective à chaque
les images de la base d’images. Cependant, la division personne voire à chaque requête et (2) les zones
d'une image en régions ou objets d'intérêt est souvent similaires recherchées dans la base d’images ne sont
nécessaire pour pouvoir s’attaquer ensuite à que similaires et pas identiques.
l'extraction d’informations sémantiques à partir de
l'image. Plutôt que de viser une segmentation exacte 3.2.4. Autres caractéristiques de l’image
(en terme d’interprétation de l’image), on préfère Il existe plusieurs autres caractéristiques, ou
souvent parler de « groupement de pixels » (Forsyth et descripteurs, de l’image qui peuvent être utilisées pour
al., 2003) ou encore de « segmentation faible » mesurer la similarité d’une image, telles que la forme,
(Medioni et al., 2005) selon les auteurs. Dans les deux les points d’intérêt, les invariants, et plus encore. La
cas, il s’agit simplement d’oublier le découpage précis forme est une caratéristique visuelle importante et elle
en terme d’objets, mais plutôt de découper l’image en est une des caractéristiques de base pour décrire le
régions similaires du point de vue caractéristiques contenu d'une image. Cependant, la description des
mesurées sur l’image (voir figure 3b). Cette dernière formes est une tâche difficile, surtout dans un contexte
idée apparaît comme plus logique, car l’idée même de « segmentation faible » et dans un contexte où on
d’objet est une vue sémantique de l’image, or il est recherche la similitude et non l’exactitude. Ainsi dans
facile de conclure à la lumière des innombrables les systèmes de recherche récents, peu emploient la
travaux en segmentation des dernières décennies que forme comme critère de recherche.
segmentation bas niveau (basée uniquement sur les D'autres caractéristiques telles que des invariants,
caractéristiques issues de l’image) et découpage les points d’intérêts sont recherchés pour améliorer les
sémantique de l’image sont deux idées complètement performances des systèmes de recherche d’images
différentes. Un objet tel que nous le percevons dans (Alfarez et al., 2001, Sun et al., 2004, Wang et al.,
l’image n’est pas forcément homogène en termes de 1998). Iqbal et Aggarwal (Iqbal et al., 2002) ont ajouté
caractéristiques, tandis qu’une zone homogène de la structure de l'image à la couleur et la texture pour le
l’image peut très bien contenir plusieurs objets système CIRES. Dans (Sciascio & al., 1997), les
différents. auteurs ont présenté un système de recherche d’images
Dans notre système de recherche d’images, nous basé sur la couleur, l’orientation d'objet et la position
combinons approche globale et approche locale dans relative. Chacune de ces combinaisons a des avantages
la mesure de la similarité entre deux images. Du point et des inconvénients et chacune peut être bien adaptée
de vue symbolique, les deux approches sont pour certaines bases d'images, mais ne fonctionnera
complémentaires dans la mesure de la similarité. En pas correctement avec d'autres.
effet, tant que la requête n’est pas mieux définie (voir Les problèmes du bon choix de caractéristiques
la section 4.3 sur l’interaction pour la recherche pour décrire l’image et de la pondération de ces
sémantique), aucune information ne permet de caractéristiques ne sont pas encore résolus. Alors
conclure que les images recherchées doivent être qu’un consensus minimal sur l’utilisation de la couleur
semblables dans leur globalité, ou dans leurs
SETIT2005

et de la texture semble se dégager des travaux http://www1.cs.columbia.edu/CAVE/research/


présentés ces dernières années, certaines systèmes softlib/coil-100.html.
ajoutent d’autres caractéristiques, variables selon les
La figure 4 montre l’interface de base de notre
systèmes et surtout selon les applications visées.
système, ainsi que quelques exemples de résultats en
Quant à la pondération des caractéristiques dans la
utilisant les deux bases d’images mentionnées, avec
fonction de mesure de la similarité entre les images,
les seize premiers résultats d’une requête qui sont
elle varie aussi fortement selon les systèmes, les
présentés avec leurs noms, leurs distances avec la
applications et mêmes selon les requêtes. La solution
requête, ainsi que leurs rangs.
semble se trouver dans l’adaptation de la fonction et
de ses poids, mais selon quels critères ? Ces critères ne La figure 5 montre pour chaque classe d’images
sont pas forcément d’ordre symbolique, mais plutôt (10) de la base d’images Wang les courbes de
d’ordre sémantique. Nous reviendrons sur ce sujet à la précision vs rappel. Nous ne montrons pas les courbes
section 4.3. pour l’autre base d’images (Columbia COIL-100), car
ces courbes ne sont pas représentatives, à cause de la
3.3. Notre système de recherche symbolique simplicité relative de la base dans ce contexte
Dans le cadre de nos recherches, nous développons (précision=100 pour toute valeur de rappel ou
actuellement un système de recherche d’images par le presque). Ces résultats, ainsi que ceux de la figure 4,
contenu. Nous présentons dans cette section la partie sont comparables à d'autres travaux déjà publiés sur
symbolique de ce système avant d’exposer dans les des bases d’images similaires. Cependant, ils ne
sections suivantes les extensions sémantiques de ce peuvent être considérés comme parfaits, puisque
système. Les caractéristiques de base retenues sont la même si nous retrouvons dans ces résultats des
couleur et la texture. Pour la couleur, deux espaces de autobus ou des boîtes de comprimés, aucune
couleur différents sont combinés : RVB et HSV. La information sémantique n’a été utilisée et rien ne
comparaison se fait en calculant les intersections garanti qu’en complexifiant la base d’images utilisée
d’histogrammes (Swain et al., 1991). Notre système les résultats seront les mêmes. On le voit dans le
utilise à la fois les histogrammes globaux (sur toute deuxième exemple (figure 4b) où les boîtes de
l’image) et locaux (selon un découpage par blocs en couleurs et textures similaires sont mélangées aux
grille, ou par segmentation – voir section 3.2.3). Pour
la texture, nous calculons les matrices de co-
occurrences et nous avons créé un vecteur de
caractéristiques en extrayant les quatre caractéristiques
les plus appropriées des matrices : l’énergie,
l’entropie, le contraste et le moment inverse de
différence. L'utilisateur choisit une requête et une
méthode avec quelques paramètres. Le système
calcule les vecteurs de caractéristiques pour chaque
image de la base d’images et les compare pour
proposer ses résultats.
Ce système est assez similaire à d’autres systèmes
dans sa conception, sauf que l’accent a été mis dans la
flexibilité de manipulation des différentes (a)
caractéristiques de l’image. Cette flexibilité nous sera
très utile afin d’augmenter les capacités du systèmes
par l’ajout de raisonnement au niveau sémantique
(voir section 4).

3.4. Evaluation et bases d’images


Pour évaluer et valider notre système de recherche
d’images, nous avons utilisé deux bases d’images
disponibles sur Internet à des fins de recherche :
• la base de 1000 images (10 classes x 100
images/classe) de J.Z. Wang de l’Université de
Pennsylvanie (Wang et al., 2001) :
http://wang.ist.psu.edu/ ; (b)

• la base de 7200 images (100 objets x 72 Figure 4. Interface et exemples de résultats de notre
images/objet) de l’Université Columbia (COIL- système de recherche des images par le contenu
100) (Nene et al., 1998) : symbolique. (a) Base d’images de Wang. (b) Base
d’images Columbia COIL-100.
SETIT2005

déboucher sur de réelles avancées répondant à des


besoins et applications divers, tant personnels que
professionnels.
Raisonner au niveau sémantique signifie que
l’analyse de l’image se fait en termes d’objet et de
contenu, et non pas seulement en termes de
statistiques sur les couleurs, les textures ou autres
caractéristiques bas niveau de l’image. Ce qui
demande un complément d’information certain à la
méthode, car par définition, seules les caractéristiques
de base sont disponibles immédiatement dans l’image.
La sémantique elle-même n’est pas inscrite dans
l’image, mais se trouve ailleurs. Il faut donc
rechercher ces sources extérieures nous donnant accès
aux clés de décodage sémantique de l’image.
Figure 5. Courbes de précision versus rappel pour les
10 classes d’images de la base d’images de Wang. Nous soutenons que la sémantique exprimée dans
une image dépend de deux éléments :
résultats. • du niveau de connaissances et de la perception
Sur ce point, il est à noter que l’évaluation faite qu’a l’observateur de cette image ;
avec les bases d’images actuellement disponibles sur • de l’objectif poursuivi par l’utilisateur de cette
Internet est limitée, car la majorité de ces bases sont image lorsqu’il la regarde.
calibrées pour la recherche et ne correspondent pas
forcément aux images rencontrées dans les Et c’est pourquoi cette sémantique doit retrouvée
applications réelles et grand public. Le principal selon deux approches complémentaires et
avantage des bases utilisées ci-dessus réside dans leur indissociables : (1) l’une recherche des moyens pour
disponibilité pour tous afin de comparer les différents « connecter » (ou lier) la connaissance sémantique
travaux de recherche. Pour les applications réelles, les humaine et l’apparence de l’image (les
images ne comportent pas forcément qu’un seul objet, caractéristiques extraites de celle-ci), (2) l’autre
mais souvent plusieurs objets en avant-plan et recherche des méthodes pour comprendre l’objectif de
possiblement plusieurs objets en arrière-plan. Ce qui l’utilisateur, le sens de sa requête. Et c’est avec la
fait donc qu’une image n’appartient pas qu’à une seule combinaison des deux approches que l’on pourra faire
classe, mais à plusieurs classes. Ce qui peut émerger la sémantique de l’image. Grâce à notre
compliquer le processus de recherche d’images, mais connaissance, nous voyons qu’une tache verte
aussi le processus d’évaluation. Dans cet optique, nous observée dans une image correspond à de la
développons actuellement une base de plus de 8000 végétation, ce que l’ordinateur ne peut savoir. Ensuite,
images annotées et acquises en conditions réelles sans nos buts conditionnent notre compréhension de
a priori d’utilisation pour la recherche (photos l’image. Par exemple, dans (Ballard et al. 1992), selon
collectées de plusieurs photographes amateurs). la question posée à un observateur d’une image, le
Chaque image fait partie de plusieurs classes parcours, le regard posé et les informations recueillies
différentes et le système devra donc s’adapter aux dans l’image varient. Il en est de même en recherche
classes souhaitées par l’utilisateur. Cette base est d’images similaires où une requête peut signifier
toujours en cours de développement et sera disponible différents buts selon le contexte (Santini & al., 2001).
pendant l’année 2005. Une démonstration de l’état Nous poursuivons cette présentation par l’étude de
actuel de la base est consultatble sur Internet en allant ces deux approches : (1) la définition des concepts de
sur http://www.mica.edu.vn/ImagesDemo/. l’image et (2) l’interaction avec l’utilisateur. Nos
recherches sur ce sujet n’étant pas encore complétées,
4. Recherche d’images par le contenu nous présentons dans la suite certains éléments
sémantique seulement de notre prototype de recherche d’images
par le contenu sémantique.
4.1. Qu’est-ce que la sémantique d’une image ?
4.2. Définitions des concepts
Après avoir présenté les aspects d’un système de
recherche d’images par le contenu symbolique, illustré La définition des concepts est la définition de
avec les résultats de notre système, nous présentons termes sémantiques que nous voulons utiliser pour
maintenant les extensions possibles d’un tel système décrire l’image et leurs définitions en termes de
pour traiter les images au niveau sémantique, c’est-à- caractéristiques que nous pouvons extraire de l’image.
dire au niveau de jugement que l’humain porte en Les deux éléments sont importants, car la définition
regardant les images. C’est à cette condition que la seule d’un vocabulaire ne permettra pas au système de
recherche d’information sur les images pourra retrouver ces termes dans l’analyse automatique de
SETIT2005

l’image. depuis longtemps, mais qui devient plus flagrante en


recherche d’images similaires, du fait des visées grand
Il existe plusieurs mécanismes de représentation de
public et généraliste, est le choix de la base
connaissances issus du domaine de l’intelligence
d’exemples pour apprendre les caractéristiques.
artificielle. Nous retenons ici le plus utilisé ces
Contrairement à d’autres applications en vision,
dernières années en recherche, soit les ontologies.
aucune hypothèse, ou très peu, ne peut être faite sur
Selon (Mezaris & al., 2003) : «Une ontologie peut être
l’acquisition des images. Ce qui fait que nous
définie comme des spécifications d'un vocabulaire de
souhaitons être capable à la fois de traiter des images
representation pour un domaine partagé du discours
acquises en condition d’intérieur ou d’extérieur, de
qui peut inclure des définitions de classes, des
jour comme de nuit, et de tout objet possible vu de
relations, des fonctions et d'autres objets ».
n’importe quel côté. Le dernier point rappelle le fossé
Mais il existe un problème récurrent à toute sensoriel (voir section 2.2). Ce fossé limite les
représentation de connaissances pour l’image. interprétations possibles d’une image, sachant que les
Comment connecte-t-on la connaissance haut niveau apparences des objets peuvent être trop différentes
et l’apparence de l’image ? Dans (Maillot et al., 2004), selon les points de vue. Il s’agit du moins d’une limite
les auteurs présentent une méthode pour définir des dans les conditions technologiques actuelles, puisque
concepts visuels. Ces concepts visuels permettent de le cerveau humain est capable d’une telle abstraction.
connecter la connaissance de domaine et l’apparence
La représentation dec concepts sémantiques
de l’image en utilisant de l’apprentissage de
couplée à des techniques d'apprentissage pour lier les
caractéristiques. Chaque concept est appris à l’aide
concepts à l’image est une étape nécessaire pour
d’exemples extraits manuellement des images. La
obtenir la recherche d’images par le contenu
segmentation manuelle d’exemples est utilisée ici pour
sémantique, malgré les difficultés évoquées ci-haut.
fournir de bons exemples pour l’apprentissage, mais
Cependant, et malgré cela, il n’est pas possible de
en même temps cela limite la capacité du système
prévoir, ou d’apprendre, toutes les questions possibles
pour retrouver la même qualité de régions en
des utilisateurs lors de requêtes de recherche d’images
segmentation automatique. Les auteurs travaillent
similaires. Il s’agit de la plus grande limite à
actuellement sur ce point. Mais comment peux-t-on
l’utilisation de méthodes de représentation de
travailler dans un contexte général, et de
connaissance et d'apprentissage automatique.
« segmentation faible » (voir section 3.2.3) et fournir
un vocabulaire sémantique « de qualité » au système 4.3. Interaction avec l’utilisateur
de recherche ? Avec une seule requête, le système ne peut pas
Dans (Mulhem et al. 2003), les auteurs utilise un comprendre les intentions de l’utilisateur, parce que la
vocabulaire général pour identifier les visages, les sémantique de l’image change lorsqu’on change de
foules, le ciel, le sol, l’eau, le feuillage, les montagnes, contexte. Santini et al. (Santini et al., 2001) ont donné
les bâtiments, etc. La représentation des concepts et le un bon exemple de cela, en expliquant qu’une même
raisonnement sur ceux-ci se font à l’aide de graphes image (une peinture d’un visage) utilisée par un même
conceptuels, autre technique répandue. utilisateur dans deux contextes différents possède
deux sémantiques différentes : l’une est une peinture,
Dans tous ces cas, la difficulté majeure est le visant à rechercher d’autres peintures, l’autre est un
nombre de concepts sémantiques que l’on peut donner visage, visant à rechercher d’autres visages, peints ou
au système. Alors qu’il est relativement aisé de faire non. Pour palier ce problème, quelques systèmes ont
apprendre au système un certain nombre de concepts intégré des interfaces où les utilisateurs peuvent
généraux, le problème devient très complexe interagir avec le système. Par ces interactions, le
lorsqu’on désire apprendre un nombre important de système apprend les intentions de l’utilisateur et rend
concepts. Sauf dans le cas d’applications spécifiques, des résultats qui peuvent satisfaire l’utilisateur.
où l’on peut sur-spécialiser le système, il est difficile
dans le cas général de faire une sélection pertinente de L’idée de construire des systèmes semi-interactifs
concepts qui seraient valides pour tous les usages pour résoudre des problèmes de vision par ordinateur
imaginables, ou même pour restreindre un peu, tous prend de plus en plus d’ampleur ces dernières années,
les usages généraux imaginables. et pas seulement pour la recherche d’information,
mais aussi en reconnaissance des formes et autres
Pour connecter les concepts sémantiques aux (Boucher et al., 2002). La motivation de cette
caractéristiques de l’image, l’apprentissage est une approche est de se dire qu’un système automatisé en
tendance populaire et efficace (Dong et al., 2003, vision par ordinateur peut apporter une aide
Weber et al., 2000), aussi bien ici que dans plusieurs substantielle au processus de décision humain, mais ne
domaines de l'informatique en général. On le voit peut complètement remplacer l’humain (du moins, pas
comme la meilleure manière pour ajouter la aujourd’hui), et ce particulièrement dans les domaines
connaissance dans le système sans imposer une vision demandant une haute expertise ou une abstraction
définie par l’humain de cette connaissance. sémantique qu’il serait impossible ou presque
Une difficulté de l’apprentissage qui est connue d’incorporer dans un logiciel informatique. Dans bien
SETIT2005

des cas, quelques clics de souris, permettent de des utilisateurs. Ces requêtes ne peuvent, bien sur, être
débloquer un problème plus efficacement que le plus comprises qu’après quelques interactions avec
puissant des algorithmes. l’utilisateur. Cette section montre le prototype que
nous étudions actuellement.
Ce cas de figure utilise la complémentarité entre la
machine d’une part, puissante pour le traitement de Ces interactions se font via les aspects suivants :
volumes importants de données, et l’humain d’autre
• Des exemples et des contre-exemples de
part, garant du contexte d’utilisation et de l’abstraction
réponses à la requête ;
sémantique nécessaire. Ce contexte et cette
sémantique peuvent être apprises par la machine, mais • Les régions des images utiles pour préciser la
bien souvent qu’au prix d’hypothèses simplificatrices requête.
ou d’une application très spécialisée. En recherche
Concernant le premier point, il s’agit d’un aspect
d’information, cette complémentarité entre la machine
classique en recherche d’informations (au sens
et l’humain est encore plus évidente, puisqu’il est
général), mais étrangement peu exploité en recherche
presque impossible de connaître les intentions
d’images. On retrouve quelques travaux traitant le cas
complètes de l’utilisateur formulant une nouvelle
de plusieurs images requêtes positives (Iqbal et al.,
requête.
2003), mais à notre connaissance presque rien sur le
Prenons l’exemple très simple des moteurs de cas des images requêtes négatives, qui sont plus
recherche existant sur Internet. A partir d’une complexe à incorporer dans la fonction de mesure de
première requête, l’utilisateur sélectionne les réponses similarité.
qu’il juge les plus satisfaisantes pour sa requête,
Pour le deuxième point, il est essentiel pour
accumule de nouvelles informations et reformule une
comprendre si l’utilisateur s’intéresse à la globalité de
nouvelle requête en ajoutant ou modifiant ses mots-
l’image (scènes similaires), ou qu’à une portion de
clés pour s’assurer un plus grand nombre de réponses
l’image, qui peut se trouver en avant-plan ou arrière-
appropriées. C’est du moins la façon instinctive avec
plan selon les cas. Cela permet à l’utilisateur
laquelle beaucoup de personnes utilisent, sans
d’exprimer des requêtes dans le genre : « je veux les
forcément en prendre conscience, les moteurs de
images ayant un arrière-plan de montagnes enneigées
recherche. Santini et al. (Santini et al., 2001) ont
comme ces exemples, mais sans me soucier du
proposé ainsi un modèle d’interaction où l’utilisateur
contenu d’avant-plan ».
change les positions des images dans un espace de
représentation pour aider le système à trouver la La figure 6 montre un exemple de requête
requête exacte (au sens de ce que veut l’utilisateur). interactive. A partir d’une première image requête, le
système renvoie les premiers résultats sous la forme
Quelques travaux ont cherché à transposer les
d’un graphique 2D (voir figure 6a), où la requête se
techniques d’enrichissement de la requête, entre autres
situe dans le coin en bas à gauche, et les autres étant
par le relevance feedback (traduit parfois en français
présentées selon la distance des caractéristiques de
par « pertinence rétroactive » ou « retour de
base, soit pour cet exemple, l’histogramme RVB vs
pertinence ») (Rui et al., 1998, Giacinto et al., 2004).
l’histogramme HSV (deux espaces couleurs
Au début, les poids des descripteurs pour chaque
complémentaires). Dans le cas de plus de trois
image de la base sont fixes et objectifs, puisque
caractéristiques utilisées dans le calcul de la fonction
calculés de façon indépendante, tandis que les
de similarité, une analyse en composantes principales
requêtes de l’utilisateur sont subjectives par nature.
permet de ne retenir que les deux axes principaux et
L’objectif est de faire des interactions entre le système
assurer une représentation dans un plan 2D pour
et l’utilisateur afin de faire refléter cette subjectivité
l’utilisateur. Cette réprésentation permet une meilleure
dans les poids des descripteurs pour la composition de
interaction avec l’utilisateur par sa disposition plus
la réponse. A notre connaissance, cette technique est
intuitive des résultats dans un même plan.
surtout utilisée lorsqu’on a préalablement indexé les
images d’une base d’images, et non lorsqu’on calcule Ensuite, l’utilisateur peut sélectionner les exemples
sur demande la similarité entre images. Par exemple, (positifs) et les contre-exemples (négatifs) pour affiner
les différences d’histogrammes placent toujours sa requête (voir figure 6b). Dans ce cas-ci, toutes les
l’image requête comme référentiel de la comparaison, régions de l’image contribuent à la nouvelle requête.
tandis qu’une indexation préalable se fait sans image Mais il est également possible de choisir pour
de référence. certaines images les régions positives et négatives,
permettant un niveau de détail plus grand (figure 6c).
4.4 Notre prototype de recherche sémantique Il est à remarquer que la représentation en régions suit
Pour notre système, nous nous sommes d’abord la segmentation grossière (dite « faible ») que nous
intéressés à l’étude de l’interaction dans les systèmes avons discuté en section 3.2.3 et qui est déjà utilisée
de recherche d’images. Ceci pour permettre au par le système pour les calculs. Même si cette
système de modifier la fonction de mesure de segmentation ne correspond pas toujours exactement
similarité entre les images en fonction des requêtes aux souhaits de l’utilisateur en terme de précision de
requête, elle représente néanmoins la façon pour le
SETIT2005

5. Réflexions sur une extension multimédia


L’extension naturelle des travaux que nous avons
présentés dans cet article est de définir un cadre de
recherche d’informations multimédia. En effet, si
beaucoup de travaux existent sur les médias pris
séparément, il existe peu de recherches faite sur le
couplage entre plusieurs sources d’informations, telle
que l’image, la vidéo, la parole, le son et le texte. Il
s’agit d’un axe de recherche que nous débutons
seulement, mais nous jugeons utile de présenter
certaines réflexions brutes sur le sujet, car cela peut
orienter les travaux non seulement sur le multimédia,
mais aussi sur chaque média isolé afin d’obtenir une
meilleure convergence le moment voulu.
Il existe plusieurs travaux couplant l’image et le
texte, ou la vidéo et le texte (Ide et al., 2003), mais
pour nombre de ces travaux, la recherche principale se
(a)
fait sur le texte, ou les annotations de l’image, et le
contenu de l’image est bien souvent négligé dans la
N fonction de recherche.
Une difficulté majeure dans le couplage
multimédia est de faire correspondre des informations
Y de natures différentes.
Dans la recherche d’informations textuelles, les
éléments de base manipulés par le système sont des
mots de vocabulaire, ou des phrases, qui existent déjà
dans la langue. Le travail consiste principalement à
extraire la sémantique à partir de ces mots, ce qui n’est
pas forcément facile, mais les recherches dans ce
(b) domaine s’appuie sur la structure existante de la
langue et sur tous les travaux déjà effectués par les
N linguistes. Nous pouvons dire que la requête possède
déjà une sémantique « intermédiaire ». Le terme
« intermédiaire » réfère au fait que nous connaissons
déjà la(les) définition(s) de ces mots, mais qu’il reste à
extraire la sémantique globale de la combinaison des
Y mots. Plusieurs progrès ont été faits sur ce type de
recherche, dont les meilleurs exemples sont les
moteurs de recherche sur Internet qui existent
aujourd’hui, même s’il demeure encore plusieurs
problèmes à résoudre (Baeza-Yates et al., 1999).
Dans la recherche d’informations avec la parole, la
(c) tâche est déjà plus difficile. D’un signal audio, il faut
d’abord effectuer la reconnaissance de la parole, et les
Figure 6. Prototype de système de recherche interactif. (a) meilleurs systèmes aujourd’hui arrivent à de bons taux
Représentation graphique des résultats de la première de reconnaissance selon les langues et les conditions
requête. (b) Sélection d’images exemples positifs (Y – un
seul éléphant avec le ciel) et exemples négatifs (N – un d’acquisition (Cox et al. 2000). Une fois la
troupeau d’éléphant). (c) Sélection de régions segmentées reconnaissance des mots effectués, alors cette
comme exemples positifs (Y- le ciel) et exemples négatifs recherche d’informations peut s’appuyer sur tous les
(N – le cheval). travaux existants pour la recherche d’informations
textuelles, car nous sommes revenus presqu’au point
système de représenter le contenu de l’image. La de départ, en ayant obtenu les mots exprimés, à
précision de la segmentation n’est pas un grand quelques termes manquants près.
problème en comparaison avec les fossés sensoriel et
sémantique, et avec les différences d’illumination et Pour la recherche d’informations avec l’image, le
d’apparence des différentes images souhaitées par la problème est plus difficile, car il n’existe pas de
requête. langage ou de vocabulaire structurant le contenu de
l’image. De plus, l’interprétation de l’image est
SETIT2005

complexifiée par l’existance des fossés sensoriel et descripteurs efficaces pour exprimer le contenu de
sémantique déjà discutés dans la section 2.2. Dans le l’image. Dans cet article, nous avons d’abord présenté
cas de la recherche d’informations par la vidéo, le quelques notions sur les systèmes de recherche par le
problème est presque le même, sauf que nous contenu symbolique, et avons présenté nos travaux
possédons quelques informations supplémentaires dans ce domaine.
avec le mouvement, ce qui permet plus aisément de
Mais en utilisant seulement des caractéristiques
segmenter l’image, de séparer l’arrière-plan de
symboliques, un système de recherche se retrouve
l’avant-plan et de définir les objets importants pour la
rapidement limité. C’est pourquoi nos travaux porte
requête. Mais avec l’absence de structure de
sur l’ajout de sémantique dans un système de
vocabulaire et de langage, l’interprétation sémantique
recherche des images par le contenu. Aujourd’hui,
de l’image est beaucoup plus difficile, et surtout, le
deux approches complémentaires permettent d’ajouter
couplage avec les autres médias d’informations,
de la sémantique dans un tel système : définitions des
comme le texte et la parole, n’est pas évident.
concepts (par ontologies ou autres) et interaction
Cependant, il est possible de faire une recherche
homme-machine. On retrouve assez facilement des
d’informations en additionnant les résultats de
travaux utilisant l’une ou l’autre de ces approches.
recherches séparées sur chaque média, mais cette
Cependant, il n’existe pas à notre connaissance de
solution n’est pas satisfaisante, car elle n’exploite pas
travaux regroupant ces deux techniques et il s’agit
à leur juste valeur les complémentarités existantes
d’un manque grave à notre avis. Ces approches
entre les médias.
répondent à deux objectifs différents. Une ontologie
Une solution à ce problème a déjà été discuté à la permet de définir la structure des concepts présents
section 4.2. La définition de concepts, par l’utilisation dans l’image, tandis que l’interaction permet de
d’ontologies ou d’autres techniques, est une première définir les intentions de l’utilisateur dans une requête.
voie vers la structuration des éléments de l’image en Nous soutenons que ces objectifs sont
un vocabulaire exploitable en complémentarité avec complémentaires et ne devraient pas être dissociés si
d’autres médias. C’est à ce prix qu’il sera possible l’on souhaite obtenir un système de recherche non
d’établir une véritable complémentarité entre les seulement performant, mais surtout répondant aux
médias. Car une fois que le vocabulaire de chaque besoins et attentes des utilisateurs.
média sera structuré (ou au moins semi-structuré),
Certaines idées et le prototype de recherche
alors il sera possible d’établir des règles de
sémantique présentés dans cette article restent à
raisonnement. Un exemple de règle est de relier un
compléter. Mais la réflexion sur les concepts
mouvement rapide dans une vidéo avec un bruit sec
d’extraction de sémantique qui est développée permet
simultané. Les deux médias séparés peuvent être
de voir plus clair sur l’avenir de la recherche d’images
difficile à interpréter, mais pris ensemble l’hypothèse
par le contenu.
d’un choc ou d’un chute devient plus plausible.
Ces points sont d’autant plus valables dans
Il est à prévoir que nous assisterons dans les
l’optique d’un système multimédia de recherche par le
prochaines années à l’émergence de véritables
contenu. Un tel système, couplant texte, parole, son,
systèmes de recherche d’information multimédia
image et vidéo, doit permettre l’échange
utilisant des raisonnements croisés et complémentaires
d’informations entre les différents médias pour
entre les différents médias. Mais cela ne pourra se
l’interprétation du contenu, et ainsi pour la recherche
faire que par la définition d’une structure, ou d’un
robuste d’informations similaires.
vocabulaire, pour l’interprétation de chaque média.
Ceci est d’autant plus vrai pour l’image ou la vidéo.
Ce n’est qu’en recherchant des voies pour exprimer le Références
contenu de l’image sur le plan sémantique que les R. Alferez and Y.F. Wang. Image indexing and retrieval
raisonnements entre médias pourront être réalisés. using image-derived, Geometrically and Illumination
Alors qu’aujourd’hui, bon nombre de travaux profitent Invariant Features. Proc. of the 2001 IEEE Multimedia
de l’information provenant des autres médias pour Conference, Tokyo (Japan), 2001.
palier le manque de structure de l’image, nous Y. Aloimonos, I. Weiss, and A. Bandyopadhyay. Active
espérons que l’avenir verra aussi l’émergence de Vision. International Journal on Computer Vision, 1(4),
travaux où le contenu de l’image servira aussi à palier pp. 333-356, January 1987.
le manque de connaissances pour les autres médias,
R. Baeza-Yates and B. Ribeiro-Neto. Modern Information
comme c’est le cas pour le raisonnement humain.
Retrieval. Addison-Wesley, 1999.
D.H. Ballard and C.M. Brown. Principles of Animate vision.
6. Conclusions CVGIP: Image Understanding, 56(1), pp. 3-21, July
La recherche d’images similaires est un domaine 1992.
qui attire de plus en plus l’attention des groupes de
A. Boucher. Une approche décentralisée et adaptative de la
recherche. La problématique est de bien comprendre gestion d'informations en vision. Thèse de Doctorat en
l’intention des utilisateurs et de trouver des Informatique, Université Joseph Fourier, 1999.
SETIT2005

A. Boucher, P.J. Hidalgo, M. Thonnat, J. Belmonte, C. Multimedia Systems and Content-Based Image
Galan, P. Bonton and R. Tomczak. Development of a Retrieval, Idea Publishing, chap. 9, pp. 201-226, 2003.
semi-automatic system for pollen recognition.
S. A. Nene, S. K. Nayar and H. Murase. Columbia Object
Aerobiologia, 18(3-4), pp. 195-201, Sept.-Dec. 2002.
Image Library (COIL-100). Technical Report CUCS-
R. Clouard, A. Elmoataz, C. Porquet and M. Revenu. 006-96, February 1996.
BORG: a Knowledge-based system for the automation
V. Mezaris, I. Kompatsiaris and M. Strintzis. An Ontology
of Image Segmentation Task. IEEE Intertnational
Approach to Object-Based Image Retrieval. Proc. of
Conference on Image Processing and its Applications,
International Conference on Image Processing (ICIP),
pp. 524-528, 1995. Edinburgh (UK).
vol. 2, pp. 511-514, Sept. 2003.
R.V. Cox, C.A. Kamm, L. Rabiner, J. Schroeter and J.G.
D. Park, J. Park and J.H.Han. Image Indexing using Color
Wilpon. Speech and Language Processing for Next-
Histogram in the CIELUV Color Space. Proc. of the 5th
Millennium Communications Services. Proceedings of
Japan-Korea Joint Workshop on Computer Vision, pp.
the IEEE, vol. 88, no 8, pp. 1314-1337, August 2000.
126-132, January 1999.
A. Dong and B. Bhanu. Active Concept Learning for Image
G. Pass and R. Zabih. Histogram refinement for content-
Retrieval in Dynamic Databases. Proc. of Int. Conf. on
based image retrieval. Proc. of the Third IEEE Workshop
Computer Vision (ICCV), vol. 1, pp. 90, 2003.
on Applications of Computer Vision, Sarasota (FL,
D.A. Forsyth and J. Ponce. Computer Vision – A Modern USA), Dec. 1996.
Approach. Prentice-Hall, 2003.
Y. Rui, T.S. Huang, M. Ortega and S. Machrotra. Relevance
L. Germond, C. Garbay, C. Taylor, and S. Solloway. Feedback: A Power Tool for Interactive Content-Based
Coopération entre processus guidés par les données et Image Retrieval. IEEE Transactions on Circuits and
processus guidés par les modèles pour la segmentation. Video Technology, vol. 8, no 5, Sept. 1998.
Actes GRETSI, Grenoble (France), vol. 2, pp. 371-374,
S. Santini, A. Gupta, and R. Jain. Emergent Semantics
1997.
though interaction in Image Databases. IEEE
G. Giacinto and F. Roli. Nearest-Prototype Relevance Transactions on Knowledge and Data Engineering, vol.
Feedback for Content Based Image Retrieval. Proc. of 13, no. 3, pp. 332-351, May/June 2001.
Int. Conf. on Pattern Recognition (ICPR), 2004.
E.D. Sciascio. Similarity Evaluation In Image Retrieval
Y. Gong, G. Proietti and C. Faloutsos. Image Indexing and Using Simple Features. Proc. of Storage and Retrieval
Retrieval Based on Human Perceptual Color Clustering. for Image and Video Databases V, February 8-14, San
Proc. of International Conference on Computer Vision Jose (CA, USA), vol. 3022, pp. 467-477, 1997.
and Pattern Recognition(CVPR), June 1998.
A.W.M. Smeulders, M. Worring, S.Santini, A.Gupta and R.
J. Huang, S.Kumar, M. Mitra, W.J. Zhu and R. Zabih. Image Jain. Content-Based Image Retrieval at the End of the
Indexing Using Color Correlograms. Proc. of Conf. on Early Years. IEEE Trans. on Patt. Anal. and Machine
Comp. Vision and Patt. Recog.(CVPR), San Juan (Puerto Intell., vol. 22, no 12, pp. 1349-1380, Dec.2000.
Rico), pp. 762-768, 1997.
M. Stricker and A. Dimai. Color indexing with weak spatial
I. Ide, H. Mo and N. Katayama. Threading news video constraints. SPIE Proc., vol. 2670, pp. 29 - 40, 1996.
topics. Proc. of 5th ACM SIGMM International
Y. Sun and S. Ozawa. A novel image retrieval algorithm by
Workshop on Multimedia Information Retrieval, pp.
using salient points in wavelet domain. Proc. of Asian
239-246, Berkeley (CA,USA), 2003.
Conference on Computer Vision (ACCV), 2004
Q. Iqbal and J.K. Aggarwal. Combining structure, color and
M.J. Swain and D.H. Ballard. Color indexing. Int. J. of
texture for image retrieval: a performance evaluation.
Computer Vision, vol. 7, no. 1, pp. 11-22, 1991.
IEEE Int. Conf. on Patt. Recog. (ICPR), Quebec
(Canada), 2002. N. Vandenbroucke. Segmentation d’images couleur par
classification de pixels dans des espaces d’attributs
Q. Iqbal and J.K. Aggarwal. Feature Integration, Multi-
colorimétriques adaptés - Application à l’analyse
image Queries and Relevance Feedback in Image
d’images de football. Thèse de doctorat, Université des
Retrieval. Proc. of 6th International Conference on
Sciences et Technologies de Lille, 2000.
Visual Information Systems (VISUAL), Miami (FL,
USA), pp. 467-474, 2003 J.Z. Wang, J. Li, G. Wiederhold. SIMPLIcity: Semantics-
sensitive Integrated Matching for Picture Libraries.
N. Maillot, M. Thonnat and C. Hudelot. Ontology Based
IEEE Trans. on Patt. Anal. and Machine Intell., vol 23,
Object Learning and Recognition: Application to Image
no.9, pp. 947-963, 2001.
Retrieval. International Conference on Tools with
Artificial Intelligence (ICTAI), 2004. J.Z. Wang, G. Wiederhold, O. Firschein, and S.X. Wei.
Content-based image indexing and searching using
D. Marr. Vision. W.H. Freeman, 1982.
Daubechies wavelets. International Journal of Digital
G. Medioni and Sing Bing Kang, editors. Emerging Topics Libraries, pp. 311-328, Springer-Verlag, 1998.
in Computer Vision. IMSC Press Multimedia Series,
M. Weber, M. Welling and P. Perona. Towards Automatic
Prentice-Hall PTR, chap. 8, 2005.
Discovery of Object Categories. IEEE Conf. on Comp.
P. Mulhem, J.H. Lim, W.K. Leow and M. Kankanhalli, Vision and Patt. Recog. (CVPR), vol. 2, p. 101, 2000.
Advances in Digital Home Image Albums, in

Vous aimerez peut-être aussi