0% ont trouvé ce document utile (0 vote)
31 vues8 pages

Détection de pose pour véhicules 3D

Ce document présente une méthode de détection de pose de véhicules pour la reconnaissance de marque et modèle, utilisant des réseaux de neurones convolutionnels (CNN) pour extraire des points d'intérêt et les mettre en correspondance avec des modèles 3D. L'approche vise à améliorer la précision de la détection de pose, facilitant ainsi la reconnaissance fine des sous-classes de véhicules. Les résultats montrent que cette méthode surpasse les approches basées sur des modèles déformables en termes de performance.

Transféré par

amne
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues8 pages

Détection de pose pour véhicules 3D

Ce document présente une méthode de détection de pose de véhicules pour la reconnaissance de marque et modèle, utilisant des réseaux de neurones convolutionnels (CNN) pour extraire des points d'intérêt et les mettre en correspondance avec des modèles 3D. L'approche vise à améliorer la précision de la détection de pose, facilitant ainsi la reconnaissance fine des sous-classes de véhicules. Les résultats montrent que cette méthode surpasse les approches basées sur des modèles déformables en termes de performance.

Transféré par

amne
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Détection de pose de véhicule pour la reconnaissance de marque et modèle

Pose Detection for vehicle Make and Model Recognition


[Link] 1 [Link] 1 [Link]ère 2 J.Rabarisoa1 T.Chateau2
1
CEA, LIST, Laboratoire Vision et Ingénierie des Contenus, France
2
Institut Pascal, UMR6602, CNRS, Université Blaise Pascal, Clermont-Ferrand, France

F-91191 Gif-sur-Yvette, France


[Link]@[Link]

Résumé par ordinateur. En effet, discriminer des objets parfois


Nous présentons une nouvelle méthode de détection de très semblables, comme par exemple deux
pose d'un véhicule dans une image dans le but de « berline tricorps » est très complexe. Le problème traité
reconnaître sa marque et son modèle. Notre approche ici est au-delà d'un problème d'une reconnaissance de
repose sur la mise en correspondance entre le véhicule classes d'objets sémantiquement et visuellement différents
dans l'image et des modèles 3D rigides. En utilisant un ( personne, voiture, bus, moto, avion…). Notre objectif
détecteur fondé sur des réseaux de neurones final est de reconnaître des sous-classes de l'objet
convolutionnels (CNN), des points d'intérêts « véhicule » très proches visuellement. Nous parlons d'une
correspondant à des parties prédéfinies sur le véhicule reconnaissance fine de d'objets.
sont extraits sur l'image. Ces points seront ensuite filtrés
et mis en correspondance avec les points des modèles 3D. La grande majorité des méthodes de reconnaissance de
Notre méthode permet d'améliorer les performances de la marque et de modèle de véhicules [1, 2] nécessite une
détection de pose et est plus adaptée pour la détection de pose préalable. Plus celle-ci est précise, plus
reconnaissance de marque et modèle de véhicules que des les contraintes d'apparence liées au point de vue
approches basées sur un modèle déformable. disparaissent et permettent d'orienter les algorithmes de
classification vers de la reconnaissance fine.
Mots Clef Nous proposons ici un détecteur de pose basé sur
Détection de pose, Mise en correspondance, Points l'appariement de modèles 3D avec le véhicule dans
d'intérêts, Réseaux de Neurones Convolutionnels l'image. Des points d'intérêts correspondant à des parties
du véhicule sont extraits à l'aide d'un détecteur multi-
classes appris avec des réseaux de neurones
Abstract convolutionnels (CNN) sur une base de données
We propose a new approach for vehicle pose estimation synthétique de grande taille. Deux phases de post-
with the goal of make and model recognition. Our traitement sont intégrées dans notre approche pour
algorithm is based on the matching between the vehicle in regrouper et sélectionner les détections présentant une
the image and 3D models. With a detector based on cohérence spatiale. Le fait d'utiliser la géométrie entre
Convolutionnal Neural Networks (CNN), interest points parties permet une mise en correspondance robuste entre
corresponding to predifined parts are extracted in the le véhicule dans l'image et son modèle 3D.
image. These points are then filtered and matched with La Fig.1 donne une vision d'ensemble de l'approche
3D models points. Compared to approaches based on proposée qui sera par la suite utilisée comme première
active shape models, our approach increases pose étape d'un algorithme de reconnaissance de marque et
estimation accuracy and improves make and model modèle de véhicules.
recognition.
Notre choix s'est porté sur une méthode d'apprentissage
Keywords automatique basée sur les réseaux de neurones
Pose estimation, Matching, Interest points, Convolutional convolutionnels largement abordés dans la littérature de
Neural Networks ces dernières années. En effet, les CNN ont démontré leur
efficacité dans les problèmes de classification tels que la
1 Introduction détection d'objet [3, 4], la segmentation [3] et la
La reconnaissance de marques et de modèles de véhicules reconnaissance de visage [5].
permet des applications diverses dans les systèmes de Nous présentons dans la section suivante l'état de l'art.
transport intelligent et de surveillance automatique telle Nous détaillons dans la troisième section la méthode
que le suivi, le recensement, le contrôle de véhicules, ou proposée pour l'estimation de la pose. Nous présentons les
encore l'automatisation de l'accès. Ce type de résultats et l'étude comparative à une méthode de l'état de
reconnaissance est un défi dans le domaine de la vision l'art dans la section 4.
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Entrée aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Image de contours Parties détectéesaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Parties filtrées
Azimuth : 45° aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Boite englobante Sortie
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Mise en correspondance
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Modèle 3D aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Fig. 1 : Vue d'ensemble du système proposé. L'algorithme consiste à détecter les contours dans l'image puis procéder à une
détection de parties. Ces détections sont ensuite filtrées et mise en correspondance avec un modèle 3D.
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

2 Etat de l'art
Notre étude bibliographique s'est concentrée sur deux plusieurs caractéristiques géométriques et d'apparence.
problématiques. La première est la reconnaissance fine D'autres méthodes utilisent un a priori faible de l'objet
d'objet, en particulier la marque et le modèle de véhicules. dans l'image, par exemple la classe « véhicule ». Ainsi, les
La seconde est la détection de pose qu'elle soit grossière auteurs de [16] proposent d'utiliser un modèle 3D moyen
ou fine. de parties pour les mettre en correspondance avec celles
de l'image tout en respectant une cohérence spatiale.
Pour la reconnaissance de marque et modèle de véhicules, Pepik et al. [18] proposent une nouvelle méthode appelée
Medioni et al. [1] introduisent une mesure de similarité DPM 3D en s'inspirant du DPM [8] pour détecter l'objet
basée sur la mise en correspondance entre points d'intérêts et son point de vue. Zia et al. [13, 14, 15] introduisent
SIFT détectés sur des modèles 3D texturés et sur l'image dans leur approche un modèle déformable 3D (ASM
d'entrée. La méthode proposée dans [2] repose sur des Active Shape Model [19]). En faisant varier les paramètres
modèles de courbes 3D propres à chaque modèle de de forme et de caméra, plusieurs configurations sont
véhicules et effectue une mise en correspondance basée générées et projetées dans l'image. La configuration
contours afin de détecter la marque et le modèle. Les maximisant le score (provenant d'un détecteur de parties)
auteurs de [6][7] s'intéressent à la reconnaissance fine sur l'ensemble des sommets projetés est retenue.
d'objets et en particulier la classe « chaise » et non
« véhicule ». Ils apprennent un grand nombre de 3 La méthode d'estimation de la pose
détecteurs multi-vues DPM (Deformable Part Models) [8] Nous présentons dans cette section notre méthode de
sur des rendus de modèles 3D de chaises. détection de pose précise de véhicules appelée Deep
Pose Car (DeepPC).
Pour la détection de pose grossière, les méthodes [9, 10, Les deux entrées de notre algorithme sont la boîte
11, 12] proposent de discrétiser les points de vue en 8 ou englobant le véhicule et la pose grossière qui correspond à
16 azimuths. S'inspirant du DPM, les travaux [9, 10] la discrétisation de l'ensemble des azimuths comme le
proposent le VDPM (Viewpoint-DPM) où chaque classe à montre la Fig. 1. Plusieurs méthodes [8 ,9, 10] permettent
apprendre correspond à un point de vue discret. Liebelt et de calculer ces deux entrées (boîte, pose grossière)
Schmid [11] proposent une méthode de détection d'objets automatiquement. Dans ce travail, nous ne nous
multi-vues en utilisant un modèle d'apparance de partie intéressons pas à cette étape d'initialisation.
appris sur des images réelles et un modèle de cohérence
géométrique 3D construit à partir de modèles synthétiques Notre méthode de détection de pose précise se décompose
3D. en deux étapes : la détection des parties et la mise en
correspondance. La détection des parties (points
Plusieurs méthodes de détection de pose précise [13, 14, d'intérêts) est effectuée avec un détecteur multi-classes
15, 16] utilisent les méthodes de détection de pose appris avec des réseaux de neurones convolutionnels. Les
grossière comme initialisation. Les auteurs de [17] partent hypothèses résultant de cette détection sont groupées et
du principe que l'objet est connu au préalable et mettent filtrées en prenant en compte les contraintes géométriques
en correspondance son modèle 3D avec l'image par propres aux véhicules. La mise en correspondance permet
minimisation d'une fonction de coût combinant d'apparier les parties détectées avec les points
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa correspondants dans les modèles 3D.
caractéristiques (calcul des contours) pour introduire une
cohérence entre les données apprises et les données à
Az = 180 tester mais permet de s'affranchir d'un effort de
labellisation important.
Az = 225 Az = 135 Pour procéder à la détection des parties un CNN est
appris pour chaque azimuth grossier. La sortie de chaque
réseau consiste en N+1 classes avec N le nombre de
parties visibles dans l'azimuth associé au réseau plus une
Az = 270 Az = 90 classe de « background ». Chaque réseau possède deux
étapes d'extraction de caractéristiques. Chacune de ses
étapes est caractérisée par une couche de convolution, une
fonction d'activation (tangente hyperbolique) et une
Az = 45 couche de pooling (max pooling). Les filtres de
Az = 315
convolution appris sont de taille 5 x 5. La partie du CNN
Az = 0
dédiée à la détection (réseaux de neurones complètement
Fig. 2 : Représentation des 8 azimuths grossiers supposés connectés) est constituée d'une couche cachée et d'une
connus. couche de sortie à N+1 classes. La Fig. 3 présente
l'architecture des CNN utilisés.
3.2 Détection des parties Extraction des
La détection de parties qui seront mises en caractéristiques Classification
correspondance se décompose en trois phases. La
première phase consiste à extraire une image de contours Part 1
à partir de l'image d'entrée et à détecter sur celle-ci les S
parties en utilisant un modèle appris avec des CNN sur O Part 2
des données synthétiques. La seconde phase permet de F
regrouper les hypothèses proches associées à la même F F T
partie. La dernière phase est un filtrage par cohérence CC M
spatiale permettant de garder une seule détection par
partie. Patch A Part N
32x32 de la X Bg
3.2.1 Entrainement des CNN partie i
Pour générer un nombre conséquent d'exemples positifs
sans procéder à un étiquetage important sur une base de
données d'images de véhicules réels, nous avons choisi Fig. 3 : Architecture des CNN appris sur des patchs
d'extraire des patchs synthétiques par projection de extraits de données synthétiques.
modèles 3D. Ces exemples sont utilisés pour entrainer les
CNN. Les sommets des modèles 3D correspondants aux 3.2.2 Détection des parties avec les CNN
points d'intérêts que l'on cherche à détecter sont annotés Une carte de contours de l'image est tout d'abord calculée
(36 points 3D annotés sur chaque modèle). Pour extraire grâce à l'algorithme proposé dans [21]. Nous effectuons
des caractéristiques communes entre les images ensuite une détection par fenêtre glissante en utilisant le
synthétiques (données d'apprentissage) et les images détecteur correspondant à l'azimuth grossier de l'image.
réelles (données à tester) nous avons opté pour l'extraction La Fig. 4 montre les résultats de la détection de parties
des contours saillants sur les modèles 3D et les contours avec un réseau de neurones appris sur l'azimuth 45.
sur les images 2D avec des méthodes basées Canny [20,
21]. En effet, les contours saillants 3D correspondent aux
lignes connectant deux faces dont les normales forment un
angle suffisamment grand (plus de 60° dans notre cas).
Ces lignes sont localisées aux endroits où la variation
d'intensité pixellique semble la plus forte dans une image.
Des travaux ont déjà utilisé ces rendus « contours »
comme descripteurs pour la compréhension de scène [14,
15, 22]. Ainsi, un nombre très important de données
(nécessaire pour l'apprentissage des CNN) ont été
générées en projetant les modèles 3D suivant différentes
matrices de projection. De plus, bien que les CNN ont
pour but de ne pas avoir à calculer des caractéristiques sur Fig. 4 : Première ligne, l'image à tester et sa carte de
les données avant d'effectuer l'apprentissage, le fait de les contours sur laquelle va être effectuée la détection.
apprendre sur des données synthétiques nous oblige a Deuxième ligne, les parties détectées. Chaque couleur
appliquer une première couche de calcul de correspond à une partie.
L'implémentation de la fenêtre glissante est inspirée de 3.2.3 Agglomération des détections
[23]. Au lieu d'extraire des patchs 32 x 32 sur la carte de Nous proposons d'appliquer un clustering sur les
contours et de les faire passer un par un dans le réseau détections résultantes de la phase précédente, l'objectif
complet pour prédire sa classe, nous avons divisé la étant de réduire leur nombre. Il s'agit de regrouper les
détection en deux étapes : l'extraction des caractéristiques détections associées à une même partie et agglomérées
et la classification. L'extraction des caractéristiques se fait dans un voisinage proche. L'algorithme k-means [24] est
sur l'ensemble de l'image, ce qui permet de calculer la appliqué sur l'ensemble des hypothèses de chaque partie.
suite des convolutions en une seule fois (cf Fig. 5). La Fig. 7 illustre le résultat de ce clustering.
À la fin de cette étape, une carte de caractéristiques est À chaque partie p sera associée un nombre k p de clusters.
générée. C'est sur celle-ci que les patchs à classifier sont L'idée est de trouver la valeur de k p maximum tel que
extraits (Fig. 6). Contrairement à [14], chaque patch est l'ensemble des distances entre les centres des clusters
attribué à une classe qui correspond à celle qui a le score soient supérieures à un seuil. L'estimation du nombre de
maximal. La suite de l'algorithme n'utilisera pas de carte clusters correspondant à l'ensemble des hypothèses d'une
de score mais une carte de classes. partie est calculée comme suit :
La détection de parties fournit un ensemble d'hypothèses
de points d'intérêts auxquelles sont associés des points 3D
k (k+1)
dans la base de modèles 3D. Notre motivation étant de k p=max k ( D p ( k) , D p ( k)= ) avec
garder une seule détection par partie, nous cherchons à 2
réduire les bonnes détections redondantes et supprimer le
p p
maximum de fausses détections. D p (k)=Card {(i, j),‖ci −c j ‖>seuil , 1⩽i< j⩽k }
Carte de
p
caractéristiques c i correspond au centre du cluster i des détections
Etape d'extraction associées à la partie p, le seuil est fixé pour une image
des
caractéristiques
normalisée par rapport à la hauteur de la boîte englobant
le véhicule (pour nos expériences le seuil est fixé à 10
pixels pour une hauteur de 155 pixels).

Fig. 5 : Étape d'extraction des caractéristiques

S
O
F F
F T N+1
C C M scores Fig. 7 : Première ligne, les parties détectées. Deuxième
A ligne, les centres de clusters trouvés.
X
3.2.4 Filtrage par cohérence spatiale
Après l'agglomération des détections, un filtrage par
cohérence spatiale est appliqué pour sélectionner une
seule détection par partie détectée.
Fig. 6 : Classification par extraction de patchs sur la Pour cela, nous avons généré pour chaque modèle 3D un
carte de caractéristiques (fenêtre glissante). Les briques ensemble de configurations C (azimuth, élévation, focale)
grises correspondent aux couches du CNN complètement que nous projetons dans la boîte englobant le véhicule.
connectées (fully connected). Environ 400k configurations ont été précalculées pour
chaque modèle et chaque azimuth grossier. L'idée ici est 3.3 Mise en correspondance
de projeter le modèle dans un maximum de L'étape du filtrage par cohérence spatiale permet de
configurations. Nous cherchons, pour chaque détecter des points d'intérêts proches de la solution
configuration, les hypothèses de parties qui se trouvent optimale. Le but de la mise en correspondance est de
dans un voisinage des sommets projetés. Le filtrage retrouver la pose précise en partant de cette solution.
consiste à retenir la configuration qui maximise le nombre Nous utilisons alors une méthode de détection de pose
d'hypothèses dans le voisinage des sommets projetés et 2D/3D [25] itérative basée sur l'optimisation de
qui minimise la distance entre ces sommets et les Levenberg-Marquardt pour faire la mise en
hypothèses des parties. La Fig. 8 illustre le correspondance de ces points 2D filtrés et les points des
fonctionnement du filtrage par cohérence spatiale, modèles 3D (Fig. 9). Ce calcul de pose est robuste aux
mauvaises détections (outliers) de par l'utilisation d'un
tirage aléatoire de type RANSAC.

Détection de pose robuste


(a)

(b) (c)

Fig. 8 : Filtrage par cohérence spatiale. (a) 3 exemples


de configurations projetés sur le véhicule (colonne de
gauche) et les parties filtrées qu'elles engendrent
(colonne de droite). (b) La configuration retenue en
rouge. (c) les parties filtrées. Fig. 9 : Calcul de la pose par la mise en correspondance
du modèle 3D du véhicule avec l'image.
Ainsi pour chaque configuration c∈C , on calcule :
j j j
d c =mini (‖qc − pi ‖) , 4 Expérimentations
Cette section présente les expérimentations effectuées
c c
nc =Card({d j }, d j <seuil , j∈{1, N }) , pour évaluer notre méthode par rapport à l'état de l'art.
Notre base de données de modèles 3D est constituée de 36
dc modèles de voitures. Plusieurs expérimentations ont été
d c= ∑
c
dj ,
c
nc
, Dc = réalisées afin d'une part, d'évaluer la capacité de
j, d < seuil
j
j
l'algorithme à mettre en correspondance ces modèles sur
qc étant le point projeté dans la configuration c associé au l'image, et d'autre part, prédire la marque et le modèle du
point 3D de la partie j annotée dans le modèle 3D et pij véhicule en sélectionnant le modèle 3D le mieux mis en
étant le point correspondant à l'hypothèse i de la partie j. correspondance. La Fig. 13 montre certains résultats
Finalement, on retiendra la configuration C r telle que : obtenus avec l'algorithme présenté.

Génération des données d'apprentissage


C r= argminc {D c , n} ,
Comme [14] les données d'apprentissage positives sont
des patchs 32 x 32 centrés sur les sommets annotés
avec n=argmax c {n c } . extraits de rendus « contours » des modèles 3D. Ces
données ont été bruitées afin de les rendre plus réalistes:
des morceaux de ligne et d'ellipse ont été ajoutés
aléatoirement dans les données ainsi qu'un bruit
impulsionnel. Les négatifs sont, d'une part, des patchs 32 Azimuth 0 45 90 135 180 225 270 315
x 32 extraits aléatoirement de PASCAL VOC 2007 Performance 95,1 95,4 96,1 93,6 92,5 94,2 96,3 94,9
auxquels a été appliqué un détecteur de contours de type (%)
Canny et d'autre part, des patches 32 x 32 extraits des
rendus 3D qui ne correspondent pas aux parties (cf Fig. Tableau. 1 : Perfomances des 8 CNN pour la détection
10). Nous avons généré les exemples positifs en faisant des parties. La performance correspond au nombre de
varier les paramètres intrinsèques et extrinsèques de la parties correctement classifiées sur le nombre total de
caméra pour tous les modèles 3D de la base (36 modèles). patchs.
Cette manière de procéder permet de générer un grand La base de données d'images réelles
nombre de données en évitant un effort d'étiquetage trop Il n'existe pas à ce jour de base de données mettant en
important. Chaque CNN apprend sur environ 1,5 millions relation des modèles 3D et des images réelles
de patchs (500 000 de positifs et 1 million de négatifs) en correspondant exactement à ces modèles. Nous avons
environ 12h. donc constitué une base de données d'images provenant
d'internet correspondant aux modèles 3D présents dans
notre base. Cette base de données réelle est constituée de
400 images triées par azimuth grossier et par modèles. Les
boîtes englobantes ainsi que les parties visibles dans
chaque azimuth sont annotées.

Protocole d'évaluation de la mise en correspondance


Le protocole d'évaluation pour la mise en correspondance
du modèle 3D avec le véhicule dans l'image est le même
que [14]. Chaque image est normalisée par rapport à la
hauteur de la boîte englobant le véhicule. Une partie est
supposée bien mise en correspondance si sa distance à la
partie de la vérité terrain est inférieure à un certain seuil
(20 pixels). Pour ce travail, nous nous sommes comparés à
[14] en nous affranchissant de leur modèle 3D
déformable. Pour notre méthode et celle de [14], nous
donnons le modèle 3D correspondant à l'image et nous
évaluons la capacité des deux algorithmes à mettre en
correspondance ce modèle 3D avec le véhicule. La Fig. 11
présente les résultats obtenus.

Fig. 10 : Première ligne, rendu « contours » dans une


certaine configuration (azimuth, élevation, focale).
Deuxième ligne, les patchs utilisés comme positifs.
Chaque patch correspond à une classe à apprendre.
Troisième ligne : patchs de négatifs correspondant à la
classe background. Dernière ligne : patchs de négatifs
provenant de PASCAL VOC correspondant également à
la classe background

Évaluation des détecteurs


Nous avons dans un premier temps évalué les 8 détecteurs
de parties. Nous avons pour cela généré des patchs de test
provenant de rendus «contours» des modèles 3D. Ces Fig. 11 : Résultats de l'évaluation de la mise en
données ont l'avantage d'être de la même nature (contours correspondance (en rouge la courbe correspondant à
saillants) que les données d'apprentissage. Le Tableau. 1 [14], en bleu la courbe de notre méthode). En ordonnée :
regroupe les performances de détection pour chaque le pourcentage de parties bien mises en correspondance,
azimuth grossier sur cette base de test constituée d'environ en abscisse : la valeur du seuil permettant de considérer
25 000 exemples de parties par azimuth. si une partie est bien appariée ou non.
Nous pouvons remarquer que notre méthode de mise en résultats obtenus montrent que notre méthode est très
correspondance est plus efficace que celle de [14] : pour efficace pour mettre en correspondance un modèle 3D
un seuil de 20 pixels nous obtenons 93,2 % de parties bien avec le véhicule dans l'image. Pour reconnaitre la marque
mises en correspondance contre 86,9 % pour [14]. et le modèle du véhicule le critère utilisé semble trop peu
discriminant même si nous obtenons de meilleurs résultats
Reconnaissance de marques et modèles de véhicules qu'une méthode de l'état de l'art. Pour la suite, nous
Pour finir, nous avons également évalué la capacité de prévoyons d'améliorer la détection de pose et la
l'algorithme à reconnaître la marque et le modèle du reconnaissance fine en raffinant l'algorithme existant avec
véhicule dans l'image d'entrée. Chaque modèle 3D est mis une mise en correspondance plutôt basée sur les contours.
en correspondance sur l'image grâce à notre algorithme de
détection de pose. Pour chaque modèle nous calculons Bibliographie
l'erreur de reprojection et le nombre de points utilisés [1] J. Prokaj, G. Medioni, 3-D Model Based Vehicle
pour la détection de pose 2D/3D (inliers). Nous classons allRecognition, WACV, 2009.
alors les modèles en nous basant sur ces deux critères : [2] K. Ramnah, S.N. Sinha, R. Szeliski, Car Make and
par ordre croissant suivant le nombre d'inliers puis par Model Recognition using 3D Curve Alignment,
ordre décroissant suivant l'erreur de reprojection. WACV, 2009.
Sur ce point, nous nous sommes comparés à [15] qui [3] R.B. Girshick, J. Donahue, T. Darrell, J. Malik, Rich
propose une méthode de reconnaissance fine basée sur son feature hierarchies for accurate object detection and
modèle déformable 3D : l'ASM 3D mis en semantic segmentation, arxiv:1311.2524, 2013.
correspondance est comparé (plus proches voisins) à la [4] M. Oquab, L. Bottou, I. Laptev, J. Sivic, Learning and
base de modèles 3D afin d'être classifié. La Fig. 12 transferring mid-level image representations using
montre les résultats obtenus. convolutional neural networks, Technical Report
HAL-00911179, INRIA, 2013.
[5] Y. Taigman, M. Yang, M.A. Ranzato, L. Wolf,
DeepFace : Closing the Gap to Human-Level
Performance in Face Verification, CVPR, 2014,
[6] M. Aubry, D. Maturana, A. Efros, B. Russell, J. Sivic
Seeing 3D chairs: exemplar part-based 2D-3D
alignment using a large dataset of CAD models,
CVPR, 2014.
[7] [Link], [Link], [Link], FPM : Fine pose
Parts-based Model with 3D CAD models, ECCV, 2014
[8] P.F. Felzenszwalb, R.B. Girshick, D. McAllester, and
[Link], Object detection with discriminatively
trained part based models, PAMI, 2010.
[9] R.J. Lopez-Sastre, T. Tuytelaars, S. Savarase,
Deformable Part Models Revisited: A Performance
Evaluation for Object Category Pose Estimation,
ICCV, 2011.
Fig. 12 : Résultats de la reconnaissance de marque et
[10] Y. Xiang, R. Mottaghi , S. Savarese, Beyond
modèle de véhicules. Les courbes représentent le
PASCAL : A Benchmark for 3D Object Detection in
pourcentage de marques et modèles trouvé pour un rang
the wild, WACV, 2014.
donné (notre méthode en bleu, celle de [15] en rouge)
[11] J. Liebelt, C. Schmid, Multi-View Object class
Detection with a 3D Geométrique Model, CVPR,
Notre mise en correspondance semble plus efficace que 2010.
[15] lorsqu'il s'agit de détecter la marque et le modèle d'un [12] M. Özuysal, V .Leptit, P. Fua, Pose Estimation for
véhicule : 22 % des modèles sont correctement trouvés au Category Specific Multiview Object Localization,
rang 1 contre 6,4 % pour [15]. Cependant, les critères CVPR, 2009.
utilisés pour classifier les modèles sont assez faibles et ne [13] M. Zeeshan Zia, M. Stark, B. Schiele, K. Schindler,
permettent pas de dissocier des classes de véhicules très Revisiting 3D Geometric Models for Accurate Object
semblables. Shape and Pose, PAMI, 2013.
[14] M. Zeeshan Zia, M. Stark, K. Schindler, Explicit
4 Conclusion Occlusion Modeling for 3D Object Class
Pour conclure, la méthode de détection de pose proposée Representations, CVPR, 2013.
repose sur des détecteurs de points d'intérêts appris sur [15] M. Zeeshan Zia, M. Stark, B. Schiele, [Link],
des données synthétiques. Les hypothèses de parties sont Detailed 3D Representations for Object Modeling and
ensuite filtrées puis mises en correspondance avec les Recognition, PAMI, 2013.
points de modèles 3D. L'objectif final de ce travail est la [16] Y. Xiang, S. Savareses, Estimating the Aspect
reconnaissance de marque et modèle de véhicules. Les Layout of Object Categories, CVPR, 2012.
[17] J.J. Lim, H. Pirsiavash, A. Torralba, Parsing IKEA [22] S. Satkin, [Link] [Link], Data-Driven Scene
Objects: Fine Pose estimation, ICCV, 2013. qsdUnderstanding from 3D Models, BMVC, 2012.
[18] B. Pepik, M. Stark, P. Gehler, B. Schielen, Teaching [23] F. Iandola, M. Moskewicz, S. Karayev, R. Girshick,
3D Geometry to Deformable Part Models, CVPR, T. Darrell, K. Keutzer, DenseNet : Implementing
2012. Efficient ConvNet Descriptor Pyramids,
[19] T.F. Cootes, C.J. Taylor, D.H Cooper, J. Graham, arxiv:1404.1869, 2014.
Active Shape Models – Their training and application, [24] J. MacQueen, Some methods for classification and
Computer Vision and Image Understanding, 1995. analysis of multivariate observations. Proceedings of
[20] J. Canny, A Computational Approach To Edge the Fifth Berkeley Symposium on Mathematical
Detection, IEEE Trans. PAMI,1986. Statistics and Probability, Volume 1: Statistics, 281--
[21] L. Wang, S. You, U. Neumann, Supporting Range 297, University of California Press, Berkeley, Calif.,
and Segment-based hysteresis thresholdong in edge 1967.
detection, ICIP, 2008. [25] Z. Zhang, A Flexible New Technique for Camera
Calibration, PAMI, 2000

Fig. 13 : Résultats de la détection de pose. A gauche, la détection de pose lorsque le modèle à mettre en correspondance
est connu. A droite, la détection de pose lorsque le modèle n'est pas connu. Le modèle affiché est celui qui minimise
l'erreur de reprojection sur l'ensemble des modèles et qui maximise le nombre d'inliers.

[21] S. Satkin, [Link] [Link], Data-Driven Scene


qsdUnderstanding from 3D Models, BMVC, 2012.

Vous aimerez peut-être aussi