Comment Extraire La Sémantique D'une Image ?: Alain Boucher Et Thi-Lan Le
Comment Extraire La Sémantique D'une Image ?: Alain Boucher Et Thi-Lan Le
Résumé: Dans cet article, nous présentons un état de l’art de la recherche d’images par le contenu, avec certains
résultats, mais aussi les problèmes qui subsistent. Nous proposons notre système de recherche symbolique d’images
basé avant tout sur la couleur et la texture. À partir des connaissances existantes sur la recherche d’images par le
contenu symbolique, nous discutons de façons pour ajouter de la sémantique dans le processus d’analyse de l’image. Il
existe deux méthodes pour arriver à cela : définition de concepts (ontologie) et interaction homme-machine. Nous
présentons notre approche et nos résultats préliminaires et les discutons dans le but de parvenir à concevoir un système
utile pour l’homme, c’est-à-dire exploitant les données au niveau sémantique. De plus, nous discutons des extensions
possibles de ces mécanismes vers la recherche d’informations multimédias, où l’image côtoie la vidéo, la parole, le son
et le texte. Dans cette optique, nous démontrons que la meilleure voie possible est de lier ces médias très différents via
l’extraction de sémantique.
Mots clés: Bases de données multimédia, Recherche d’information, Interaction, Sémantique, Traitement d’images.
Le fossé sémantique est le plus difficile à traiter. 3. Recherche d’images par le contenu
Depuis plusieurs années, les chercheurs tournaient symbolique
autour de ce fossé sans véritablement le nommer, ce
qui est chose faite aujourd’hui. Le fossé sémantique 3.1. Intérêt de l’approche
est définit comme « le manque de concordance entre Nous avons déjà mentionné l’intérêt actuel porté
les informations qu’on peut extraire des données sur les bases d’images, les techniques d’indexation et
visuelles et l’interprétation qu’on ces mêmes données les techniques de recherche d’images dans de telles
pour un utilisateur dans une situation déterminée » bases. Cependant, dans les applications pratiques de
(Smeulders et al., 2000). ces bases d’images que l’on retrouve aujourd’hui, que
ce soit pour les chaînes de télévision, les journaux, les
Ce fossé n‘est ni plus ni moins que le même
musées et mêmes pour les moteurs de recherche sur
problème de liaison entre traitements de bas niveau et
Internet qui proposent des solutions de recherche
traitements de haut niveau, sauf que maintenant, il est
d’images, l’indexation et la recherche de ces images se
clairement vu comme un problème de gestion
fait en se basant majoritairement sur des annotations
d’informations et non uniquement comme un
textuelles ou des éléments de texte qu’on peut
problème de contrôle. Et même si l’application en
rattacher aux images. Dans plusieurs cas (chaînes de
indexation et recherche d’images a permis pendant un
télévision, journaux, …), l’archivage des images et
certain temps de redéfinir l’objectif des traitements, on
des séquences vidéos ne se fait qu’au prix d’une étape
se heurte de nouveau à un problème récurrent en
d’annotation manuelle à l’aide de mots-clés. Cette
vision par ordinateur (qui relève d’ailleurs autant de la
indexation représente une tâche longue et répétitive
vision par ordinateur que de l’intelligence artificielle).
pour l’humain, surtout avec les bases d’images qui
Nous résumons, en simplifiant outrageusement, le deviennent aujourd’hui de plus en plus grandes. De
problème avec la figure 2. Ce que nous voyons et plus, cette tâche est très subjective à la culture, à la
interprétons est représenté à la figure 2a : une voiture connaissance et aux sentiments de chaque personne.
que nous voyons et imaginons très bien. La figure 2b
Le besoin de méthodes d’indexation et de
représente une portion de la première image sous
recherche directement basées sur le contenu de
forme de matrice de nombres. Il s’agit de la
l’image n’est donc plus à démontrer. Partant de
représentation utilisée par l’ordinateur pour traiter les
l’image, cette approche se base essentiellement sur des
images : une matrice de nombres. Il est important de
descripteurs extraits automatiquement à partir de
noter que ces deux représentations sont duales et
l'image telles que la couleur, la texture, la forme, et
entièrement équivalentes, comme chacun le sait.
tout autre descripteur de l’image qu’on peut imaginer.
Pourtant, la seconde représentation ne nous évoque
Elle est indépendante des personnes et du contexte,
absolument aucun sentiment équivalent à la première
donc plus objective. Mais il est difficile de trouver des
image.
descripteurs puissants pour représenter les images.
Que se passe-t-il ? Par notre constitution, notre
Nous avons construit un premier système pour la
éducation, notre apprentissage de la vie, notre volonté
recherche d’images basé essentiellement sur la couleur
de survie et par d’autres phénomènes qui dépassent le
et la texture. Cependant, tel que déjà argumenté dasn
cadre de cet article, nous sommes capable d’extraire le
la section précédente, nous reconnaissons qu’utilisées
contenu sématnique de la première représentation,
seules, ces caractéristiques symboliques ne peuvent
tandis que l’ordinateur n’arrive pas à extraire de
pas satisfaire pleinement les requêtes des utilisateurs.
sémantique, que de la symbolique, de l’une ou l’autre
La raison principale de cet état de fait est qu’un
des représentations.
utilisateur pense sa requête en termes sémantiques
Or, pour la majorité des applications où (une montagne, une maison ou une personne connue),
l’ordinateur interagit avec l’homme, où l’ordinateur et non en termes de valeurs symboliques extraites
tente d’apporter une solution à un problème de (zone rouge, texture rayée, etc.) des images. Mais il
SETIT2005
faut commencer quelque part et ces caractéristiques Huang et al. (Huang et al., 1997) ont proposé le
sont la première piste d’information que nous corrélogramme et l’auto-corrélogramme.
possédons. Il faut donc les exploiter à leur juste
La deuxième approche recherche d'autres espaces
mesure. L’aspect sémantique est discuté à la section 4.
de couleurs qui se basent sur la perception de couleur
Un système de recherche d’images par le contenu de l’humain. L’espace RVB est un espace de couleur
symbolique est donc un système se basant sur les utilisé couramment, par facilité, dans tous les systèmes
couleurs, les textures, les formes, ainsi que d’autres de vision automatique, mais il n’est pas forcément le
caractéristiques. Mais une image contient beaucoup de mieux adapté. En effet, les trois composantes RVB
caractéristiques. Donc, comment peut-on choisir les sont très dépendantes les unes des autres. Un simple
caractéristiques adéquates et comment peut-on changement d’éclairage dans la scène modifie les trois
combiner ces caractéristiques ? Ce sont ces aspects composantes, alors que les objets de la scène n’ont pas
que nous discutons ici. changés de couleur, mais se sont simplement
assombris ou éclairés. Dans (Smeulders et al., 2000)
3.2. Caratéristiques symboliques de l’image les auteurs ont présenté quelques expérimentations
intéressantes pour utiliser d’autres espaces en
3.2.1. La couleur indexation, tandis que Park et al. (Park et al., 1999)
La couleur est très souvent le premier descripteur ont proposé l'espace CIE LUV et Gong et al. (Gong &
qui est employé pour la recherche d’images. Plusieurs al., 1998) ont employé l’espace HVC. Un panorama
travaux ont déjà prouvé qu’il s’agit d’un descripteur des travaux existants permet de trouver plusieurs
efficace (Smeulders et al., 2000). Une technique très espaces couleurs différents comme solution au lieu
utilisée pour la couleur est l’intersection d’un espace unique. La solution se trouve
d’histogrammes (Swain et al., 1991). Les probablement dans l’utilisation de plusieurs espaces
histogrammes sont faciles et rapides à calculer, et complémentaires (Vandenbroucke, 2000).
robustes à la rotation et à la translation. Cependant
l’utilisation d’histogrammes pour l'indexation et la Dans notre système de recherche d’images, nous
recherche d’images pose quatre problèmes (Gong et avons adopté les espaces RVB et HSV, choisis pour
al., 1998). Premièrement, ils sont de grandes tailles, leur complémentarité.
donc par conséquent il est difficile de créer une
indexation rapide et efficace en les utilisant tels quels. 3.2.2. La texture
Deuxièmement, ils ne possèdent pas d’informations La texture, autre primitive visuelle, est étudiée
spatiales sur les positions des couleurs. depuis une vingtaine d’années et plusieurs techniques
Troisièmement, ils sont sensibles à de petits ont été développées pour l’analyser. Une méthode très
changements de luminosité, ce qui est problématique connue pour analyser la texture est la matrice de co-
pour comparer des images similaires, mais acquises occurrences de Haralick. Afin d'estimer la similarité
dans des conditions différentes. Et quatrièmement, ils entre des matrices de co-occurrences, quatre
sont inutilisables pour la comparaison partielle des caractéristiques extraites de ces matrices sont
images (objet particulier dans une image), puisque largement utilisées : l’énergie, l’entropie, le contraste
calculés globalement sur toute l’image. Plusieurs et le moment inverse de différence.
travaux récents ont été effectuées pour améliorer ces Il existe aussi d’autres méthodes pour analyser les
problèmes. Il existe deux approches suivies par les textures dont celle basée sur les filtres de Gabor.
chercheurs : l’une ajoute des informations spatiales à Après avoir appliquée la transformation de Gabor sur
l’histogramme, l’autre utilise d’autres espaces de une image, une région de texture est caractérisée par la
codage des couleurs qui se rapprochent plus de la moyenne et la variance des coefficients de
perception humaine. transformation. Un vecteur de caractéristiques est
La première approche ajoute des informations construit en utilisant ces caractéristiques comme
spatiales aux histogrammes. Dans (Stricker et al., composants.
2004), les auteurs ont divisé une image en cinq blocs Une méthode n’ayant pas forcément d’avantage
fixés superposés et ils ont extrait les trois premiers majeur sur l’autre, nous avons utilisé les matrices de
moments d’inertie de chaque bloc pour créer un co-occurrences pour notre système de recherche
vecteur de descripteurs. Pass et Zabih (Pass et al., d’images.
1996) ont ajouté de la cohérence spatiale dans des
histogrammes. Un pixel est cohérent s'il appartient à 3.2.3. Caractéristiques globales vs locales
une région validée par la segmentation et incohérent A la base, les caractéristiques présentées
autrement (soit les pixels situés hors des régions précédemment sont calculées de façon globale sur
segmentées). Les valeurs d’un histogramme sont l’image. Cependant, un système basé uniquement sur
divisées en deux classes en fonction des pixels des caractéristiques globales ne peut pas donner les
correspondants à ces valeurs : classe cohérente et résultats désirés. Soit une image composée de
classe incohérente. La comparaison entre deux plusieurs objets ayant des caractéristiques, couleurs et
histogrammes devient la comparaison entre les valeurs textures, très différentes, le vecteur de caractéristiques
d’histogrammes dans les classes correspondantes. global extrait à partir de l’image entière perd les
SETIT2005
• la base de 7200 images (100 objets x 72 Figure 4. Interface et exemples de résultats de notre
images/objet) de l’Université Columbia (COIL- système de recherche des images par le contenu
100) (Nene et al., 1998) : symbolique. (a) Base d’images de Wang. (b) Base
d’images Columbia COIL-100.
SETIT2005
des cas, quelques clics de souris, permettent de des utilisateurs. Ces requêtes ne peuvent, bien sur, être
débloquer un problème plus efficacement que le plus comprises qu’après quelques interactions avec
puissant des algorithmes. l’utilisateur. Cette section montre le prototype que
nous étudions actuellement.
Ce cas de figure utilise la complémentarité entre la
machine d’une part, puissante pour le traitement de Ces interactions se font via les aspects suivants :
volumes importants de données, et l’humain d’autre
• Des exemples et des contre-exemples de
part, garant du contexte d’utilisation et de l’abstraction
réponses à la requête ;
sémantique nécessaire. Ce contexte et cette
sémantique peuvent être apprises par la machine, mais • Les régions des images utiles pour préciser la
bien souvent qu’au prix d’hypothèses simplificatrices requête.
ou d’une application très spécialisée. En recherche
Concernant le premier point, il s’agit d’un aspect
d’information, cette complémentarité entre la machine
classique en recherche d’informations (au sens
et l’humain est encore plus évidente, puisqu’il est
général), mais étrangement peu exploité en recherche
presque impossible de connaître les intentions
d’images. On retrouve quelques travaux traitant le cas
complètes de l’utilisateur formulant une nouvelle
de plusieurs images requêtes positives (Iqbal et al.,
requête.
2003), mais à notre connaissance presque rien sur le
Prenons l’exemple très simple des moteurs de cas des images requêtes négatives, qui sont plus
recherche existant sur Internet. A partir d’une complexe à incorporer dans la fonction de mesure de
première requête, l’utilisateur sélectionne les réponses similarité.
qu’il juge les plus satisfaisantes pour sa requête,
Pour le deuxième point, il est essentiel pour
accumule de nouvelles informations et reformule une
comprendre si l’utilisateur s’intéresse à la globalité de
nouvelle requête en ajoutant ou modifiant ses mots-
l’image (scènes similaires), ou qu’à une portion de
clés pour s’assurer un plus grand nombre de réponses
l’image, qui peut se trouver en avant-plan ou arrière-
appropriées. C’est du moins la façon instinctive avec
plan selon les cas. Cela permet à l’utilisateur
laquelle beaucoup de personnes utilisent, sans
d’exprimer des requêtes dans le genre : « je veux les
forcément en prendre conscience, les moteurs de
images ayant un arrière-plan de montagnes enneigées
recherche. Santini et al. (Santini et al., 2001) ont
comme ces exemples, mais sans me soucier du
proposé ainsi un modèle d’interaction où l’utilisateur
contenu d’avant-plan ».
change les positions des images dans un espace de
représentation pour aider le système à trouver la La figure 6 montre un exemple de requête
requête exacte (au sens de ce que veut l’utilisateur). interactive. A partir d’une première image requête, le
système renvoie les premiers résultats sous la forme
Quelques travaux ont cherché à transposer les
d’un graphique 2D (voir figure 6a), où la requête se
techniques d’enrichissement de la requête, entre autres
situe dans le coin en bas à gauche, et les autres étant
par le relevance feedback (traduit parfois en français
présentées selon la distance des caractéristiques de
par « pertinence rétroactive » ou « retour de
base, soit pour cet exemple, l’histogramme RVB vs
pertinence ») (Rui et al., 1998, Giacinto et al., 2004).
l’histogramme HSV (deux espaces couleurs
Au début, les poids des descripteurs pour chaque
complémentaires). Dans le cas de plus de trois
image de la base sont fixes et objectifs, puisque
caractéristiques utilisées dans le calcul de la fonction
calculés de façon indépendante, tandis que les
de similarité, une analyse en composantes principales
requêtes de l’utilisateur sont subjectives par nature.
permet de ne retenir que les deux axes principaux et
L’objectif est de faire des interactions entre le système
assurer une représentation dans un plan 2D pour
et l’utilisateur afin de faire refléter cette subjectivité
l’utilisateur. Cette réprésentation permet une meilleure
dans les poids des descripteurs pour la composition de
interaction avec l’utilisateur par sa disposition plus
la réponse. A notre connaissance, cette technique est
intuitive des résultats dans un même plan.
surtout utilisée lorsqu’on a préalablement indexé les
images d’une base d’images, et non lorsqu’on calcule Ensuite, l’utilisateur peut sélectionner les exemples
sur demande la similarité entre images. Par exemple, (positifs) et les contre-exemples (négatifs) pour affiner
les différences d’histogrammes placent toujours sa requête (voir figure 6b). Dans ce cas-ci, toutes les
l’image requête comme référentiel de la comparaison, régions de l’image contribuent à la nouvelle requête.
tandis qu’une indexation préalable se fait sans image Mais il est également possible de choisir pour
de référence. certaines images les régions positives et négatives,
permettant un niveau de détail plus grand (figure 6c).
4.4 Notre prototype de recherche sémantique Il est à remarquer que la représentation en régions suit
Pour notre système, nous nous sommes d’abord la segmentation grossière (dite « faible ») que nous
intéressés à l’étude de l’interaction dans les systèmes avons discuté en section 3.2.3 et qui est déjà utilisée
de recherche d’images. Ceci pour permettre au par le système pour les calculs. Même si cette
système de modifier la fonction de mesure de segmentation ne correspond pas toujours exactement
similarité entre les images en fonction des requêtes aux souhaits de l’utilisateur en terme de précision de
requête, elle représente néanmoins la façon pour le
SETIT2005
complexifiée par l’existance des fossés sensoriel et descripteurs efficaces pour exprimer le contenu de
sémantique déjà discutés dans la section 2.2. Dans le l’image. Dans cet article, nous avons d’abord présenté
cas de la recherche d’informations par la vidéo, le quelques notions sur les systèmes de recherche par le
problème est presque le même, sauf que nous contenu symbolique, et avons présenté nos travaux
possédons quelques informations supplémentaires dans ce domaine.
avec le mouvement, ce qui permet plus aisément de
Mais en utilisant seulement des caractéristiques
segmenter l’image, de séparer l’arrière-plan de
symboliques, un système de recherche se retrouve
l’avant-plan et de définir les objets importants pour la
rapidement limité. C’est pourquoi nos travaux porte
requête. Mais avec l’absence de structure de
sur l’ajout de sémantique dans un système de
vocabulaire et de langage, l’interprétation sémantique
recherche des images par le contenu. Aujourd’hui,
de l’image est beaucoup plus difficile, et surtout, le
deux approches complémentaires permettent d’ajouter
couplage avec les autres médias d’informations,
de la sémantique dans un tel système : définitions des
comme le texte et la parole, n’est pas évident.
concepts (par ontologies ou autres) et interaction
Cependant, il est possible de faire une recherche
homme-machine. On retrouve assez facilement des
d’informations en additionnant les résultats de
travaux utilisant l’une ou l’autre de ces approches.
recherches séparées sur chaque média, mais cette
Cependant, il n’existe pas à notre connaissance de
solution n’est pas satisfaisante, car elle n’exploite pas
travaux regroupant ces deux techniques et il s’agit
à leur juste valeur les complémentarités existantes
d’un manque grave à notre avis. Ces approches
entre les médias.
répondent à deux objectifs différents. Une ontologie
Une solution à ce problème a déjà été discuté à la permet de définir la structure des concepts présents
section 4.2. La définition de concepts, par l’utilisation dans l’image, tandis que l’interaction permet de
d’ontologies ou d’autres techniques, est une première définir les intentions de l’utilisateur dans une requête.
voie vers la structuration des éléments de l’image en Nous soutenons que ces objectifs sont
un vocabulaire exploitable en complémentarité avec complémentaires et ne devraient pas être dissociés si
d’autres médias. C’est à ce prix qu’il sera possible l’on souhaite obtenir un système de recherche non
d’établir une véritable complémentarité entre les seulement performant, mais surtout répondant aux
médias. Car une fois que le vocabulaire de chaque besoins et attentes des utilisateurs.
média sera structuré (ou au moins semi-structuré),
Certaines idées et le prototype de recherche
alors il sera possible d’établir des règles de
sémantique présentés dans cette article restent à
raisonnement. Un exemple de règle est de relier un
compléter. Mais la réflexion sur les concepts
mouvement rapide dans une vidéo avec un bruit sec
d’extraction de sémantique qui est développée permet
simultané. Les deux médias séparés peuvent être
de voir plus clair sur l’avenir de la recherche d’images
difficile à interpréter, mais pris ensemble l’hypothèse
par le contenu.
d’un choc ou d’un chute devient plus plausible.
Ces points sont d’autant plus valables dans
Il est à prévoir que nous assisterons dans les
l’optique d’un système multimédia de recherche par le
prochaines années à l’émergence de véritables
contenu. Un tel système, couplant texte, parole, son,
systèmes de recherche d’information multimédia
image et vidéo, doit permettre l’échange
utilisant des raisonnements croisés et complémentaires
d’informations entre les différents médias pour
entre les différents médias. Mais cela ne pourra se
l’interprétation du contenu, et ainsi pour la recherche
faire que par la définition d’une structure, ou d’un
robuste d’informations similaires.
vocabulaire, pour l’interprétation de chaque média.
Ceci est d’autant plus vrai pour l’image ou la vidéo.
Ce n’est qu’en recherchant des voies pour exprimer le Références
contenu de l’image sur le plan sémantique que les R. Alferez and Y.F. Wang. Image indexing and retrieval
raisonnements entre médias pourront être réalisés. using image-derived, Geometrically and Illumination
Alors qu’aujourd’hui, bon nombre de travaux profitent Invariant Features. Proc. of the 2001 IEEE Multimedia
de l’information provenant des autres médias pour Conference, Tokyo (Japan), 2001.
palier le manque de structure de l’image, nous Y. Aloimonos, I. Weiss, and A. Bandyopadhyay. Active
espérons que l’avenir verra aussi l’émergence de Vision. International Journal on Computer Vision, 1(4),
travaux où le contenu de l’image servira aussi à palier pp. 333-356, January 1987.
le manque de connaissances pour les autres médias,
R. Baeza-Yates and B. Ribeiro-Neto. Modern Information
comme c’est le cas pour le raisonnement humain.
Retrieval. Addison-Wesley, 1999.
D.H. Ballard and C.M. Brown. Principles of Animate vision.
6. Conclusions CVGIP: Image Understanding, 56(1), pp. 3-21, July
La recherche d’images similaires est un domaine 1992.
qui attire de plus en plus l’attention des groupes de
A. Boucher. Une approche décentralisée et adaptative de la
recherche. La problématique est de bien comprendre gestion d'informations en vision. Thèse de Doctorat en
l’intention des utilisateurs et de trouver des Informatique, Université Joseph Fourier, 1999.
SETIT2005
A. Boucher, P.J. Hidalgo, M. Thonnat, J. Belmonte, C. Multimedia Systems and Content-Based Image
Galan, P. Bonton and R. Tomczak. Development of a Retrieval, Idea Publishing, chap. 9, pp. 201-226, 2003.
semi-automatic system for pollen recognition.
S. A. Nene, S. K. Nayar and H. Murase. Columbia Object
Aerobiologia, 18(3-4), pp. 195-201, Sept.-Dec. 2002.
Image Library (COIL-100). Technical Report CUCS-
R. Clouard, A. Elmoataz, C. Porquet and M. Revenu. 006-96, February 1996.
BORG: a Knowledge-based system for the automation
V. Mezaris, I. Kompatsiaris and M. Strintzis. An Ontology
of Image Segmentation Task. IEEE Intertnational
Approach to Object-Based Image Retrieval. Proc. of
Conference on Image Processing and its Applications,
International Conference on Image Processing (ICIP),
pp. 524-528, 1995. Edinburgh (UK).
vol. 2, pp. 511-514, Sept. 2003.
R.V. Cox, C.A. Kamm, L. Rabiner, J. Schroeter and J.G.
D. Park, J. Park and J.H.Han. Image Indexing using Color
Wilpon. Speech and Language Processing for Next-
Histogram in the CIELUV Color Space. Proc. of the 5th
Millennium Communications Services. Proceedings of
Japan-Korea Joint Workshop on Computer Vision, pp.
the IEEE, vol. 88, no 8, pp. 1314-1337, August 2000.
126-132, January 1999.
A. Dong and B. Bhanu. Active Concept Learning for Image
G. Pass and R. Zabih. Histogram refinement for content-
Retrieval in Dynamic Databases. Proc. of Int. Conf. on
based image retrieval. Proc. of the Third IEEE Workshop
Computer Vision (ICCV), vol. 1, pp. 90, 2003.
on Applications of Computer Vision, Sarasota (FL,
D.A. Forsyth and J. Ponce. Computer Vision – A Modern USA), Dec. 1996.
Approach. Prentice-Hall, 2003.
Y. Rui, T.S. Huang, M. Ortega and S. Machrotra. Relevance
L. Germond, C. Garbay, C. Taylor, and S. Solloway. Feedback: A Power Tool for Interactive Content-Based
Coopération entre processus guidés par les données et Image Retrieval. IEEE Transactions on Circuits and
processus guidés par les modèles pour la segmentation. Video Technology, vol. 8, no 5, Sept. 1998.
Actes GRETSI, Grenoble (France), vol. 2, pp. 371-374,
S. Santini, A. Gupta, and R. Jain. Emergent Semantics
1997.
though interaction in Image Databases. IEEE
G. Giacinto and F. Roli. Nearest-Prototype Relevance Transactions on Knowledge and Data Engineering, vol.
Feedback for Content Based Image Retrieval. Proc. of 13, no. 3, pp. 332-351, May/June 2001.
Int. Conf. on Pattern Recognition (ICPR), 2004.
E.D. Sciascio. Similarity Evaluation In Image Retrieval
Y. Gong, G. Proietti and C. Faloutsos. Image Indexing and Using Simple Features. Proc. of Storage and Retrieval
Retrieval Based on Human Perceptual Color Clustering. for Image and Video Databases V, February 8-14, San
Proc. of International Conference on Computer Vision Jose (CA, USA), vol. 3022, pp. 467-477, 1997.
and Pattern Recognition(CVPR), June 1998.
A.W.M. Smeulders, M. Worring, S.Santini, A.Gupta and R.
J. Huang, S.Kumar, M. Mitra, W.J. Zhu and R. Zabih. Image Jain. Content-Based Image Retrieval at the End of the
Indexing Using Color Correlograms. Proc. of Conf. on Early Years. IEEE Trans. on Patt. Anal. and Machine
Comp. Vision and Patt. Recog.(CVPR), San Juan (Puerto Intell., vol. 22, no 12, pp. 1349-1380, Dec.2000.
Rico), pp. 762-768, 1997.
M. Stricker and A. Dimai. Color indexing with weak spatial
I. Ide, H. Mo and N. Katayama. Threading news video constraints. SPIE Proc., vol. 2670, pp. 29 - 40, 1996.
topics. Proc. of 5th ACM SIGMM International
Y. Sun and S. Ozawa. A novel image retrieval algorithm by
Workshop on Multimedia Information Retrieval, pp.
using salient points in wavelet domain. Proc. of Asian
239-246, Berkeley (CA,USA), 2003.
Conference on Computer Vision (ACCV), 2004
Q. Iqbal and J.K. Aggarwal. Combining structure, color and
M.J. Swain and D.H. Ballard. Color indexing. Int. J. of
texture for image retrieval: a performance evaluation.
Computer Vision, vol. 7, no. 1, pp. 11-22, 1991.
IEEE Int. Conf. on Patt. Recog. (ICPR), Quebec
(Canada), 2002. N. Vandenbroucke. Segmentation d’images couleur par
classification de pixels dans des espaces d’attributs
Q. Iqbal and J.K. Aggarwal. Feature Integration, Multi-
colorimétriques adaptés - Application à l’analyse
image Queries and Relevance Feedback in Image
d’images de football. Thèse de doctorat, Université des
Retrieval. Proc. of 6th International Conference on
Sciences et Technologies de Lille, 2000.
Visual Information Systems (VISUAL), Miami (FL,
USA), pp. 467-474, 2003 J.Z. Wang, J. Li, G. Wiederhold. SIMPLIcity: Semantics-
sensitive Integrated Matching for Picture Libraries.
N. Maillot, M. Thonnat and C. Hudelot. Ontology Based
IEEE Trans. on Patt. Anal. and Machine Intell., vol 23,
Object Learning and Recognition: Application to Image
no.9, pp. 947-963, 2001.
Retrieval. International Conference on Tools with
Artificial Intelligence (ICTAI), 2004. J.Z. Wang, G. Wiederhold, O. Firschein, and S.X. Wei.
Content-based image indexing and searching using
D. Marr. Vision. W.H. Freeman, 1982.
Daubechies wavelets. International Journal of Digital
G. Medioni and Sing Bing Kang, editors. Emerging Topics Libraries, pp. 311-328, Springer-Verlag, 1998.
in Computer Vision. IMSC Press Multimedia Series,
M. Weber, M. Welling and P. Perona. Towards Automatic
Prentice-Hall PTR, chap. 8, 2005.
Discovery of Object Categories. IEEE Conf. on Comp.
P. Mulhem, J.H. Lim, W.K. Leow and M. Kankanhalli, Vision and Patt. Recog. (CVPR), vol. 2, p. 101, 2000.
Advances in Digital Home Image Albums, in