Indexation d’images
Plan du cours
Généralités
Méthodes
Indexation textuelle
Indexation par le contenu
Quelques chiffres :
INA : 500 000 h video + 600 000 h audio + 2 000 000 de
photos
82 Milliards de photos par an dans le monde
390 Millions d’images indexées par Google
4250 films commerciaux par an (UNESCO)
Motivations :
Conservation d’un patrimoine (culturel, scientifique,…)
Valorisation en facilitant l’accès et l’exploration
Exploitation commerciale (photos numériques, TV
numérique, …)
Généralités : quelles images ?
biomédical, satellitaires, photos, 2D ou 3D,…
3 catégories générales
Images d’art (auteur, titre,…)
Images documentaires (reliées à un texte)
Images ordinaires
Centres d’intérêts actuels :
Audio-vidéo, multimédia, 3D
les acteurs
Acteurs industriels :
QBIC (IBM),Virage, Netra
NewPhenix (CEA)
Acteurs académiques
VisualSeek (Columbia), …
IMEDIA (INRIA, Rocquencourt), RETIN (ETIS,Cergy),
KIWI (Insa, Lyon), DIVAN (INA)…
définition
Objectif de l’indexation : faciliter l’accès à des bases de
données en extrayant une information synthétique.
Fouille de données (Data Mining), Extraction de connaissances,
Vision artificielle
Généralité
Catalogue :
Exploitation de données globales sur le document visuel,
indépendantes du contenu
Classification :
Exploitation d’une caractéristique globale du document visuel
Indexation
Exploitation d’une analyse fine du contenu du document visuel
Introduction
1980 : Annotation textuelle des images
1990 : Indexation par la couleur, la forme et la texture
1993 : Requête en utilisant la similarité des images
1997 : Requête par images exemplaires et mesure de la
pertinence (relevance feedback)
2000 : apprentissage sémantique et adaptation à
l’utilisateur
Enjeux actuels : annotation interactive, formalisation de la
connaissance (ontologies), grosses bases de données
(problèmes de stockage, de vitesse d’accès,…), données
hétérogènes, …
Indexation d’images à partir du texte
Indexation d’images à partir du texte
ROME (AFP), 2005-06-11
[Link]
L'Italienne Clementina
Cantoni arrive vendredi 10
juin sur le sol italien après
25 jours de détention en
Afghanistan
Indexation d’images à partir du texte
Une image illustre un document mais le document ne
décrit pas forcément l’image ;
Le texte accompagnateur d’une image ne suffit généralement
pas
La richesse du contenu d’une image dépend du domaine
de connaissances de celui qui la regarde ;
Nécessité de modéliser ce domaine
Aspects subjectifs du contenu
Plus facile de faire une description des objets contenus dans
l’image que des émotions qui en résultent
Indexation d’images à partir du texte
Avantages :
exploite les outils d’indexation textuelle, prise en compte plus
aisée des aspects sémantiques.
Inconvénients :
vocabulaire limité
difficultés de l’annotation : définition du vocabulaire, temps
d’annotation >> temps réel, subjectivité, etc.
Indexation d’images à partir du texte
Ontologies
Nécessité de définir un langage de description
Limité par le contexte de production
Limite l’utilisation
Définition d’ontologies : modélisation du contexte
(objets/concepts et relations entre eux) de façon à lever
toute ambiguïté d’interprétation
« Le problème fondamental est de respecter la diversité des
langages et des représentations du monde, tout en permettant
l'échange d'information.[…]. Identifier, modéliser les concepts
d'un domaine, pertinents pour une des applications, Se mettre
d'accord, au sein d'une communauté, sur les termes employés
pour se référer à ces concepts. »
Taxonomie / Nomenclature
Indexation par le contenu
Initialement les objets multimédia étaient traités comme
un seul item.
Recherche sur mot clé introduit manuellement dans le
système.
Utilisation de relations entre objets.
Il est très difficile d’expliciter tous les aspects des
données qui sont important pour les utilisateurs.
Une annotation textuelle est toujours restrictive même si elle prend
en compte en même temps des informations syntaxiques et
symboliques.
L’approche la plus répandue reste quand même l’annotation
textuelle et manuelle.
Avantage :
recherche indépendante du type de média.
Indexation textuelle classique.
Inconvénients :
Coût très important.
Difficile de trouver un langage commun pour décrire les choses. Exemple
: clair, lumineux (les thésaurus ne résolvent pas tout).
Une même personne peut décrire le même concept différemment en
fonction de la situation.
Le non verbal ne peut être exprimé sans ambigüité.
Indexation par le contenu : principe (1/2)
Principe (2/2)
Off-line : production d’indexes issus de l’analyse du
contenu des images
Extraction de caractéristiques pertinentes
Réduction de la dimensionnalité
Organisation par classification
On-line : gestion des requêtes d’un utilisateur
« Gap sémantique »
Relevance feedback
Extraction de caractéristiques (1/2)
Caractéristiques :
Spécifiques : points saillants, minuties,…
Générales : couleur, texture, forme
Globale ou locale :
Blocs arbitraires, segmentation, information topologique
Extraction de caractéristiques
Problème de représentation
Caractéristiques numériques, symboliques, graphes,…
Invariances
Translation, rotation, homothétie,
non-linéaires ?
Caractéristiques et notion de similarité
Images similaires ?
Deux images seront comparées par l’intermédiaire des
caractéristiques extraites
Sim( Im1, Im2 ) = Sim( f(Im1), f(Im2) ), avec f la fonction
d’extraction des caractéristiques
Mesures de similarités, distances
(A) s( x, x ) = s( y, y ) > s( x, y )
(B) s( x, y ) = s( y, x )
(C) d( x, x) = 0
(D) d(x,y) = 0 => x = y
(E) d(x, y) <= d(x,z) + d(z,y)
(F) d(x,y) <= max( d(x,z), d(z,y) )
Distance euclidienne
Distance euclidienne généralisée
Malahanobis
Chi2
Similarité en cosinus
Combinaisons linéaires de similarités (ou distances)
Réduction d’information
Réduction de la dimensionnalité
ACP
Algorithmes de sélection
Quantification (forme de clusterisation)
Sélection = Mettre des poids sur chaque caractéristiques
Automatiquement :
Supervisé, non supervisé
Supervisé, wrapper : SVM-RFE, Fisher,…
Non supervisé, filter : clusterisation des caractéristiques
Comparaison des caractéristiques après une
transformation F
« Notion du noyau »
K(x,y) = < F (x), F (y)>, K semi-defini positif
D(x,y) = <x,x> + <y,y> -2<x,y> devient
D(F(x), F(y) ) = K(x,x) + K(y,y) -2K(x,y)
Intérêt : la spécification de K définit implicitement F
Intensivement utilisé pour ACP, la discrimination de Fisher,
la classification SVM,…
Requêtes
Grande diversité
Les systèmes imposent des types de requête :
Recherche d’une image dans une base
Recherche d’images similaires à une image exemplaire
Recherche d’images similaires à des images exemples et
dissimilaires à d’autres
Recherche d’images contenant une région de l’image
exemplaire
…
Feedback utilisateur
Défaut majeur des systèmes standards : l’utilisateur doit
s’adapter au système
Caractéristiques extraites automatiquement non intuitive
Fossé entre la formulation des requêtes et le codage de
l’information
Nécessité d’adapter le système à l’utilisateur
Apprentissage : requêtes, mesures de similarités
Feedback utilisateur
Evaluation
Exploitation du rang de récupération
Critère de validation de MPEG7
Rank*(k) = rang(k) si < K(q), 1.25K sinon
AVR(q) : moyenne des rangs
MRR(q) = AVR(q) – 0.5( 1 + NG(q) )
NMRR(q) = MRR(q) / ( 1.25K – 0.5(1+NG(q)) )
Critère final : moyenne des NMRR
Notations : q = 1 requête ; k = une image pertinente pour
la requête ; NG(q) nombre d’images pertinentes pour la
requête ; K limite de rang acceptable
MPEG : Motion Picture Expert group
MPEG7 : A Multimedia Content Description Interface,
normalisé en 2001
Standard de description du contenu de données
multimédia + interprétation du sens de l’information
S’appuie sur XML (langage à balises)
Un éditeur gratuit d’IBM (pour indexer des videos)
[Link]/tech/videoannex
Conclusion
Indexation des images : problème non résolu
Experts issus de domaines variés (informatique,
traitement de l’image, psycho visuel, apprentissage
machine, …)
Deux axes à étudier simultanément :
Techniques d’analyse d’image donc d’extraction et de
comparaison de l’information
Pertinence de l’information pour un utilisateur
Produits commerciaux encore basiques …