0% ont trouvé ce document utile (0 vote)
58 vues10 pages

Cours Chap5 2pp

Transféré par

Wided Miled
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
58 vues10 pages

Cours Chap5 2pp

Transféré par

Wided Miled
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Bases de données multimédia

V – Description globale

ENSIMAG
2014-2015

Matthijs Douze & Karteek Alahari

Description globale

 Une description globale est une représentation de l’image dans son


ensemble, sous la forme d’un vecteur de taille fixe
 Elle se contente le plus souvent d’exploiter un indice visuel unique
 Caractéristiques
► un type de vecteur de description par objet
► mesure de (dis-)similarité définie sur l’espace de ces descripteurs
Exemple de description globale : histogramme de couleur

 Chaque pixel est décrit par un vecteur de couleur


► par exemple un vecteur RGB ∈ R3 , mais le plus souvent on utilise un
autre espace de couleur plus approprié
 L’ensemble des vecteurs de couleurs forme une distribution
► description de la distribution avec un histogramme
► Nécessite discrétisation de l’espace + normalisation
 Comparaison de deux histogrammes par une mesure de dissimilarité, par
exemple la « distance » du Chi-2 ou earth mover's distance (au tableau)

Color indexing, Swain & Ballard,IJCV 1991

The earth mover's distance, multi-dimensional scaling, and color-based image retrieval Y Rubner,
LJ Guibas, C Tomasi - Proceedings of DARPA Image, 1997

Distance -> représentation

 Multi-dimentional scaling
Palette adaptative

 Apprentissage de la palette par k-means


► échantillonnage qui évite d'écraser les couleurs rares
 normalisation d'histogramme

« bag-of-Colors for improved image search », C. Wengert, M. Douze, H. Jégou, ACM MM 2011

« apparence globale » de l'image : descripteur GIST

 Similaire à SIFT sur une pyramide d'images, avec image = patch.


 Peut prendre en compte la couleur si appliqué sur les canaux R, G, B
séparément.

 [Modeling the shape of the scene: a holistic representation of the spatial enveloppe, Aude Oliva,
Antonio Torralba, IJCV 2001], [Gist of the scene, A. Oliva, Neurobiology of attention, 2005]
Exemple de description globale : contours

 Exemple de descripteur de texture


 Descripteur = histogramme d’orientation des contours

Aggrégation de descripteurs locaux -- BoW

 Définir un descripteur global à partir de l'ensemble des descripteurs locaux


d'une image
► compact...
► facile à manipuler, comparer: un vecteur par image

 La base: “bag of features”


► bag = on perd l'ordre, la géométrie

 Quantification: “bag of words”


► 1 descripteur local -> un entier (par kmeans quantification vectorielle)
► histogramme des entiers = descripteur global
“pyramide” spatiale: comment garder la géométrie
 Calculer des aggrégats de descripteurs sur des sous-images
► géométrie rigide
► taille des vecteurs multipliée

Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, S. Lazebnik, C.
Schmid, J. Ponce, CVPR06

Autres méthodes local → global

 Bag of features
► entrée : ensemble de descripteurs locaux
► sortie : vecteur descripteur global de l'image
► géométrie supprimée, sauf spatial pyramid

 changement de méthode local → global


VLAD : Vector of Locally Aggregated Descriptors

 D-dimensional descriptor space (SIFT: D=128)


 k centroids : c1,…,ck c2
c1

c3
c4

c5
Aggregating local descriptor into a compact image

representaton, H. Jegou & al. CVPR 2010

VLAD : Vector of Locally Aggregated Descriptors

 D-dimensional descriptor space (SIFT: D=128)


 k centroids : c1,…,ck

v1 v2 v3 v4
v5

 Output: v1 ... vk = descriptor of size k*D


 L2-normalized
 Typical k = 16 or 64 : descriptor in 2048 or 8192 D
 Similarity measure = L2 distance.
Exercice

 calculer les descripteurs globaux BoW et VLAD

c1=(1, 1) , c 2 =(5,2) , c3=(1,4)

x1 =(3, 0) , x 2 =(2,2) , x3 =(3,4) , x 4 =(0,4) , x5 =(0, 1)

Fisher vector

“Fisher kernels on visual vocabularies for image Categorization”. Perronnin & Dance, CVPR 2007
Descripteurs denses

 Aggrégation de descripteurs
► taille du descripteur global indépendant du nb de descripteurs locaux
► performance croissante avec le nb de descripteurs
“Sampling strategies for bag-of-features image classification”, E. Nowak, F. Jurie, B. Triggs, ECCV
2006

 détecteur aléatoire marche bien


 dense = on se passe de détecteur
 important: récupérer une information statistique sur l'image
► ~ texture

“Dense interest points” T.Tuytelaars, CVPR 2010

Résistance du Fisher Vector à la dilution

 Test sur une vidéo = suite d'images


► +/- de cohérence temporelle
 comparaison d'une image aux autres
► plot de corrélation sur un axe des temps
► “pic” pour la frame en question
 puis “dilution” de la frame de la vidéo
► en faisant la moyenne des descripteurs de Fisher sur le
voisinage de l'image
Résistance du descripteur de Fisher à la dilution

 pas de moyenne (15


fps)

 moyenne sur chaque


seconde (15 images)

 moyenne sur chaque


minute (900 images)

Idem avec des descripteurs aléatoires (10000 vecteurs uniformes)


D=40 D=400 D=4000

 Pas de
moyenne

 moyenne
par paquets
de 10

 Moyenne
par paquets
de 100
Utilisation de la propriété de dilution pour l'indexation

 Group testing
► Combiner les descripteurs de
plusieurs images de la base ->
plus compact
► Comparer la requête avec les
descripteurs de groupes
► Raffiner...
 Marche avec des descripteurs
de dimension suffisamment
grande

“A Group Testing Framework for Similarity Search in High-dimensional Spaces”, Miaojing Shi,
Teddy Furon, Hervé Jégou, ACM multimedia 2014

Conclusion
 Descripteurs globaux
► souvent version aggrégée de descripteurs locaux
► statistique sur les textures (surtout avec des descripteurs denses)
► multi-échelle = la disposition globale des images apparaît aussi

 taille = aussi grand qu'on veut (1000 – 1M dimensions)


► BoW épars
► Fisher / VLAD dense

Vous aimerez peut-être aussi