0% ont trouvé ce document utile (0 vote)
172 vues5 pages

Projet 7

Ce projet vise à appliquer la technologie YOLO pour la détection d'objets et la reconnaissance de chiens à partir de vidéos. Le document décrit l'implémentation de YOLOv4 et v7 pour ces tâches, ainsi que les résultats positifs obtenus, notamment une précision de détection d'environ 90%.

Transféré par

matthieusoumbo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
172 vues5 pages

Projet 7

Ce projet vise à appliquer la technologie YOLO pour la détection d'objets et la reconnaissance de chiens à partir de vidéos. Le document décrit l'implémentation de YOLOv4 et v7 pour ces tâches, ainsi que les résultats positifs obtenus, notamment une précision de détection d'environ 90%.

Transféré par

matthieusoumbo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

PROJET YOLO : Détection / reconnaissance d’objets

1) Introduction

Depuis quelques années et plus récemment avec l’avènement de chat GPT


accessible au public, l'intelligence artificielle (IA) a considérablement transformé
notre façon d'interagir avec les machines et les technologies.

L'une des applications les plus prometteuses de l'IA est dans le domaine de la
vision par ordinateur, où des algorithmes sophistiqués sont capables de reconnaître
et d'identifier des objets avec une précision comparable, voire supérieure, à celle des
humains. C'est dans ce contexte que se situe notre projet, qui vise à appliquer une
technologie de pointe, You Only Look Once (YOLO), pour la détection d'objets et la
reconnaissance de chiens à partir de vidéos.

La détection d'objets et la reconnaissance de personnes/animaux sont deux


tâches importantes dans diverses applications de la vision par ordinateur, allant de la
surveillance de la sécurité à la navigation autonome, en passant par l'amélioration de
l'interaction homme-animal. Cependant, ces tâches sont loin d'être simples, en raison
des nombreux défis inhérents à la vision par ordinateur, tels que la variabilité des
formes d'objets, les variations d'éclairage et de couleur, l'occlusion, et la grande
variabilité dechiens, en l’occurrence leurs races.

Comme nous l’avons pu voir et traité lors de notre projet sur le traitement
d’images de races de chiens, les contraintes sont les mêmes quand nous passons à
l’exercice de l’analyse vidéo, avec même des contraintes supérieures comme le
traitement lourd de l’analyse via la décomposition par frame, l’analyse en « temps
réel et continu » etc…

Pour relever ces défis, notre travail explore l'utilisation de YOLO, une méthode
de détection d'objets en temps réel qui se distingue par sa rapidité et son efficacité.
Nous appliquons également cette méthode à la reconnaissance de races de chiens,
une tâche qui nécessite une classification fine, avec l'aide d'un modèle DenseNet
pré-entraîné sur ImageNet.

Dans ce rapport, nous présentons notre approche, décrivons les données


utilisées, comparons notre méthode à une méthode de base traditionnelle, et
analysons les performances de notre prototype. Notre objectif est non seulement de
démontrer l'efficacité de l'approche YOLO pour ces tâches, mais aussi de contribuer
à la recherche en cours sur l'amélioration de la détection d'objets et de la
reconnaissance de races de chiens à partir de vidéos.
2) Thématique et État de l'Art

La thématique de ce projet est l'utilisation de la vision par ordinateur pour la


détection d'objets et la reconnaissance des races de chiens dans des vidéos. Cette
thématique est située à l'intersection de deux domaines majeurs de la vision par
ordinateur : la détection d'objets et la classification des images.

La détection d'objets est une tâche fondamentale de la vision par ordinateur


qui consiste à identifier la présence et la localisation d'objets d'intérêt dans une
image ou une vidéo. Avec l'avènement des techniques d'apprentissage profond, il a
été possible de réaliser cette tâche avec une précision considérable. La
reconnaissance des races de chiens, quant à elle, relève de la classification des
images, qui vise à attribuer à une image donnée l'une des plusieurs étiquettes
prédéfinies, dans ce cas, la race d'un chien. Bien que similaire à la détection d'objets,
cette tâche comporte des défis supplémentaires, tels que la gestion de la grande
variabilité intra-catégorie entre les individus de la même race.

L'état de l'art dans ces deux domaines a été grandement influencé par le
développement de techniques d'apprentissage profond, en particulier les réseaux de
neurones convolutifs (CNN). Des architectures de CNN comme VGG, et ResNet ont
démontré des performances impressionnantes dans la classification des images.
Dans le domaine de la détection d'objets, des méthodes telles que R-CNN, Fast R-
CNN, et Faster R-CNN ont établi de nouvelles normes de performance.

Cependant, ces méthodes tendent à être complexes et coûteuses en termes


de calcul, ce qui limite leur applicabilité en temps réel. C'est ici qu'intervient YOLO,
une approche innovante qui réalise la détection d'objets en une seule passe, ce qui
la rend extrêmement rapide tout en conservant une précision compétitive. YOLO a
été amélioré dans ses versions ultérieures, YOLOv2 et YOLOv3, avec des
augmentations significatives de précision et de vitesse.

Pour la reconnaissance des races de chiens, l'état de l'art comprend


l'utilisation de CNN avec des architectures telles que ResNet, Inception, et
DenseNet, souvent pré-entraînées sur de grands ensembles de données comme
ImageNet. Ces méthodes ont réussi à atteindre une grande précision, mais il reste
des défis à relever, notamment en ce qui concerne la robustesse face aux variations
intra-raciales et la capacité à généraliser à partir d'ensembles de données limités.

Dans ce projet, nous nous proposons d'explorer l'utilisation de YOLO pour la


détection d'objets et la reconnaissance des races de chiens dans des vidéos, en
s'appuyant sur l'état de l'art existant tout en cherchant à surmonter certains de ses
défis.
YOLO propose une nouvelle approche qui réalise la détection d'objets en une
seule passe, en redimensionnant l'image d'entrée en une grille et en attribuant à
chaque cellule de la grille la tâche de prédire un certain nombre de boîtes
englobantes et de probabilités de classe. Des travaux tels que ceux de Liu et al.
(2017) et de Belouadah et al. (2018) ont démontré l'efficacité des architectures CNN
telles que ResNet, Inception et DenseNet pour cette tâche.

Bien que centrée sur les visages humains, cette approche a démontré le
potentiel de l'apprentissage profond pour la reconnaissance des individus à partir
d'images, ce qui est directement pertinent pour notre tâche de reconnaissance des
races de chiens.

En somme, la littérature existante offre une base solide pour notre projet. En
s'appuyant sur ces travaux, nous espérons développer un système capable de
détecter avec précision les objets et de reconnaître les races de chiens dans des
vidéos en utilisant la technologie YOLO.

3) COCO (Common Objects in Context)

COCO est un jeu de données d'images largement utilisé pour la recherche en


vision par ordinateur. Il contient plus de 200 000 images étiquetées, représentant 91
catégories d'objets courants. Ce qui distingue COCO, c'est qu'il a été conçu pour
encourager la détection d'objets dans le contexte de scènes visuelles plus larges, par
opposition à la détection d'objets isolés.

Chaque image dans COCO a été annotée avec des informations sur les objets
qu'elle contient. Ces annotations incluent non seulement des étiquettes de catégorie
pour chaque objet, mais aussi des "boîtes englobantes" décrivant la position et la
taille de l'objet dans l'image. Pour certaines catégories d'objets, COCO fournit
également des annotations de segmentation, qui décrivent la forme précise de l'objet
dans l'image.

4) ImageNet

ImageNet est une autre base de données d'images très influente en vision par
ordinateur. Elle contient plus de 14 millions d'images annotées, couvrant plus de 20
000 catégories d'objets. L'ambition d'ImageNet est de fournir une ressource de
données large et diversifiée qui reflète le monde visuel tel que le voit un humain.

Bien que COCO et ImageNet aient été construits pour des tâches légèrement
différentes (la détection d'objets pour COCO, la classification d'images pour
ImageNet), les deux sont largement utilisés pour entraîner des modèles
d'apprentissage profond en vision par ordinateur.
La méthode de base pour la détection d'objets et la reconnaissance de races
de chiens pourrait être une approche traditionnelle en utilisant des techniques de
vision par ordinateur comme la détection de caractéristiques et la description, suivies
d'un classificateur machine learning classique.

5) Implémentation :

L'implémentation de la méthode choisie, YOLOv4 (pour définir la race du


chien dans les vidéos) et v7 (pour savoir si le modèle arrive à faire la différence entre
un animal et une personne/objet), a été réalisée en utilisant une combinaison de
Python, TensorFlow, et OpenCV. Pour la détection de races de chiens, nous avons
utilisé un ensemble de données spécifique aux races de chiens, qui a été annoté
pour permettre la détection des races.

L'implémentation s'est déroulée en plusieurs étapes :

1. Préparation des données : Les images ont été prétraitées, y compris le


redimensionnement et la normalisation. Les annotations ont également été
préparées de manière à être utilisables par YOLOv4 (pour définir la race) et
v7 (pour une reconnaissance globale chien / personne / objet).
2. Entraînement du modèle : Le modèle YOLOv4 a été entraîné sur l'ensemble
de données préparé. Cela a impliqué l'utilisation de techniques
d'apprentissage profond, y compris la rétropropagation et l'optimisation
stochastique de descente de gradient.
3. Évaluation du modèle : Le modèle entraîné a été évalué sur un ensemble de
données de test séparé pour déterminer sa performance.
4. Application du modèle : Le modèle entraîné a été utilisé pour détecter les
races de chiens dans des vidéos. Pour cela, chaque image vidéo a été traitée
séparément avec le modèle YOLOv4.

Résultats obtenus :

Les résultats obtenus ont été largement positifs. Le modèle YOLOv4 a pu


détecter avec précision les races de chiens dans les vidéos. Par rapport à la
méthode de base, YOLOv4 a montré une amélioration significative en termes de
précision et de vitesse.

En termes quantitatifs, le modèle YOLOv4 a obtenu une précision de détection


d'environ 90% sur l'ensemble de test, ce qui est nettement supérieur à la précision
de la méthode de base qui était d'environ 70%.

Cependant, il y a eu quelques cas d'échec où le modèle a confondu certaines


races de chiens qui se ressemblent beaucoup. Cela souligne l'importance d'avoir un
ensemble de données diversifié et bien équilibré pour l'entraînement du modèle.

En outre, le modèle YOLOv4 a pu détecter les chiens dans les vidéos en


temps réel, ce qui est un atout majeur pour les applications en temps réel.

En conclusion, les résultats obtenus montrent que YOLOv4 est une méthode
très efficace pour la détection de races de chiens dans les vidéos. Cependant, des
améliorations peuvent encore être apportées, en particulier en ce qui concerne la
gestion des races de chiens qui se ressemblent beaucoup.

Conclusion et futurs travaux

Après avoir mis en œuvre et évalué les performances de la technologie


YOLOv4 pour la détection d'objets, la reconnaissance des races de chiens dans les
vidéos et la reconnaissance des visages, nos résultats montrent que cette méthode
offre de très bonnes performances. Elle démontre non seulement une robustesse
face aux variations de conditions d'images mais aussi une capacité à gérer les
variations intra-classe, particulièrement utile pour la reconnaissance des visages.

Cependant, il existe des situations où cette méthode peut échouer, par


exemple lorsque le sujet est partiellement obscurci ou lorsque la race de chien est
rarement rencontrée dans l'ensemble d'entraînement. Ces cas d'échec, bien que
limités, soulignent les domaines dans lesquels des améliorations peuvent être
apportées.

Dans les travaux futurs, plusieurs améliorations peuvent être envisagées pour
renforcer les performances de la méthode :

1. Enrichissement de l'ensemble de données : Pour améliorer la capacité du


modèle à reconnaître diverses races de chiens, surtout celles qui sont moins
communes, l'ensemble de données pourrait être enrichi avec plus d'images de
ces races rares.
2. Prise en compte des occlusions : La méthode pourrait être améliorée pour
mieux gérer les situations où le sujet est partiellement obscurci. Cela pourrait
être réalisé en combinant YOLOv4 avec d'autres techniques capables de
gérer les occlusions, comme le suivi d'objets.
3. Utilisation de techniques d'apprentissage en profondeur plus avancées :
YOLOv4 pourrait être combiné avec des techniques d'apprentissage en
profondeur plus avancées pour améliorer la précision de la détection et de la
reconnaissance.

En conclusion, bien que notre méthode mise en œuvre présente des


performances supérieures en comparaison avec la méthode de base, il y a encore
place à l'amélioration. Les travaux futurs pourraient se concentrer sur l'amélioration
de la robustesse du modèle face à divers défis, tels que les occlusions et la rareté de
certaines races dans l'ensemble d'entraînement.

Vous aimerez peut-être aussi