0% ont trouvé ce document utile (0 vote)

172 vues5 pages

Projet 7

Ce projet vise à appliquer la technologie YOLO pour la détection d'objets et la reconnaissance de chiens à partir de vidéos. Le document décrit l'implémentation de YOLOv4 et v7 pour ces tâches, ainsi que les résultats positifs obtenus, notamment une précision de détection d'environ 90%.

Transféré par

matthieusoumbo

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

172 vues5 pages

Projet 7

Transféré par

matthieusoumbo

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

PROJET YOLO : Détection / reconnaissance d’objets

1) Introduction

Depuis quelques années et plus récemment avec l’avènement de chat GPT

accessible au public, l'intelligence artificielle (IA) a considérablement transformé
notre façon d'interagir avec les machines et les technologies.

L'une des applications les plus prometteuses de l'IA est dans le domaine de la
vision par ordinateur, où des algorithmes sophistiqués sont capables de reconnaître
et d'identifier des objets avec une précision comparable, voire supérieure, à celle des
humains. C'est dans ce contexte que se situe notre projet, qui vise à appliquer une
technologie de pointe, You Only Look Once (YOLO), pour la détection d'objets et la
reconnaissance de chiens à partir de vidéos.

La détection d'objets et la reconnaissance de personnes/animaux sont deux

tâches importantes dans diverses applications de la vision par ordinateur, allant de la
surveillance de la sécurité à la navigation autonome, en passant par l'amélioration de
l'interaction homme-animal. Cependant, ces tâches sont loin d'être simples, en raison
des nombreux défis inhérents à la vision par ordinateur, tels que la variabilité des
formes d'objets, les variations d'éclairage et de couleur, l'occlusion, et la grande
variabilité dechiens, en l’occurrence leurs races.

Comme nous l’avons pu voir et traité lors de notre projet sur le traitement
d’images de races de chiens, les contraintes sont les mêmes quand nous passons à
l’exercice de l’analyse vidéo, avec même des contraintes supérieures comme le
traitement lourd de l’analyse via la décomposition par frame, l’analyse en « temps
réel et continu » etc…

Pour relever ces défis, notre travail explore l'utilisation de YOLO, une méthode
de détection d'objets en temps réel qui se distingue par sa rapidité et son efficacité.
Nous appliquons également cette méthode à la reconnaissance de races de chiens,
une tâche qui nécessite une classification fine, avec l'aide d'un modèle DenseNet
pré-entraîné sur ImageNet.

Dans ce rapport, nous présentons notre approche, décrivons les données

utilisées, comparons notre méthode à une méthode de base traditionnelle, et
analysons les performances de notre prototype. Notre objectif est non seulement de
démontrer l'efficacité de l'approche YOLO pour ces tâches, mais aussi de contribuer
à la recherche en cours sur l'amélioration de la détection d'objets et de la
reconnaissance de races de chiens à partir de vidéos.
2) Thématique et État de l'Art

La thématique de ce projet est l'utilisation de la vision par ordinateur pour la

détection d'objets et la reconnaissance des races de chiens dans des vidéos. Cette
thématique est située à l'intersection de deux domaines majeurs de la vision par
ordinateur : la détection d'objets et la classification des images.

La détection d'objets est une tâche fondamentale de la vision par ordinateur

qui consiste à identifier la présence et la localisation d'objets d'intérêt dans une
image ou une vidéo. Avec l'avènement des techniques d'apprentissage profond, il a
été possible de réaliser cette tâche avec une précision considérable. La
reconnaissance des races de chiens, quant à elle, relève de la classification des
images, qui vise à attribuer à une image donnée l'une des plusieurs étiquettes
prédéfinies, dans ce cas, la race d'un chien. Bien que similaire à la détection d'objets,
cette tâche comporte des défis supplémentaires, tels que la gestion de la grande
variabilité intra-catégorie entre les individus de la même race.

L'état de l'art dans ces deux domaines a été grandement influencé par le
développement de techniques d'apprentissage profond, en particulier les réseaux de
neurones convolutifs (CNN). Des architectures de CNN comme VGG, et ResNet ont
démontré des performances impressionnantes dans la classification des images.
Dans le domaine de la détection d'objets, des méthodes telles que R-CNN, Fast R-
CNN, et Faster R-CNN ont établi de nouvelles normes de performance.

Cependant, ces méthodes tendent à être complexes et coûteuses en termes

de calcul, ce qui limite leur applicabilité en temps réel. C'est ici qu'intervient YOLO,
une approche innovante qui réalise la détection d'objets en une seule passe, ce qui
la rend extrêmement rapide tout en conservant une précision compétitive. YOLO a
été amélioré dans ses versions ultérieures, YOLOv2 et YOLOv3, avec des
augmentations significatives de précision et de vitesse.

Pour la reconnaissance des races de chiens, l'état de l'art comprend

l'utilisation de CNN avec des architectures telles que ResNet, Inception, et
DenseNet, souvent pré-entraînées sur de grands ensembles de données comme
ImageNet. Ces méthodes ont réussi à atteindre une grande précision, mais il reste
des défis à relever, notamment en ce qui concerne la robustesse face aux variations
intra-raciales et la capacité à généraliser à partir d'ensembles de données limités.

Dans ce projet, nous nous proposons d'explorer l'utilisation de YOLO pour la

détection d'objets et la reconnaissance des races de chiens dans des vidéos, en
s'appuyant sur l'état de l'art existant tout en cherchant à surmonter certains de ses
défis.
YOLO propose une nouvelle approche qui réalise la détection d'objets en une
seule passe, en redimensionnant l'image d'entrée en une grille et en attribuant à
chaque cellule de la grille la tâche de prédire un certain nombre de boîtes
englobantes et de probabilités de classe. Des travaux tels que ceux de Liu et al.
(2017) et de Belouadah et al. (2018) ont démontré l'efficacité des architectures CNN
telles que ResNet, Inception et DenseNet pour cette tâche.

Bien que centrée sur les visages humains, cette approche a démontré le
potentiel de l'apprentissage profond pour la reconnaissance des individus à partir
d'images, ce qui est directement pertinent pour notre tâche de reconnaissance des
races de chiens.

En somme, la littérature existante offre une base solide pour notre projet. En
s'appuyant sur ces travaux, nous espérons développer un système capable de
détecter avec précision les objets et de reconnaître les races de chiens dans des
vidéos en utilisant la technologie YOLO.

3) COCO (Common Objects in Context)

COCO est un jeu de données d'images largement utilisé pour la recherche en

vision par ordinateur. Il contient plus de 200 000 images étiquetées, représentant 91
catégories d'objets courants. Ce qui distingue COCO, c'est qu'il a été conçu pour
encourager la détection d'objets dans le contexte de scènes visuelles plus larges, par
opposition à la détection d'objets isolés.

Chaque image dans COCO a été annotée avec des informations sur les objets
qu'elle contient. Ces annotations incluent non seulement des étiquettes de catégorie
pour chaque objet, mais aussi des "boîtes englobantes" décrivant la position et la
taille de l'objet dans l'image. Pour certaines catégories d'objets, COCO fournit
également des annotations de segmentation, qui décrivent la forme précise de l'objet
dans l'image.

4) ImageNet

ImageNet est une autre base de données d'images très influente en vision par
ordinateur. Elle contient plus de 14 millions d'images annotées, couvrant plus de 20
000 catégories d'objets. L'ambition d'ImageNet est de fournir une ressource de
données large et diversifiée qui reflète le monde visuel tel que le voit un humain.

Bien que COCO et ImageNet aient été construits pour des tâches légèrement
différentes (la détection d'objets pour COCO, la classification d'images pour
ImageNet), les deux sont largement utilisés pour entraîner des modèles
d'apprentissage profond en vision par ordinateur.
La méthode de base pour la détection d'objets et la reconnaissance de races
de chiens pourrait être une approche traditionnelle en utilisant des techniques de
vision par ordinateur comme la détection de caractéristiques et la description, suivies
d'un classificateur machine learning classique.

5) Implémentation :

L'implémentation de la méthode choisie, YOLOv4 (pour définir la race du

chien dans les vidéos) et v7 (pour savoir si le modèle arrive à faire la différence entre
un animal et une personne/objet), a été réalisée en utilisant une combinaison de
Python, TensorFlow, et OpenCV. Pour la détection de races de chiens, nous avons
utilisé un ensemble de données spécifique aux races de chiens, qui a été annoté
pour permettre la détection des races.

L'implémentation s'est déroulée en plusieurs étapes :

1. Préparation des données : Les images ont été prétraitées, y compris le

redimensionnement et la normalisation. Les annotations ont également été
préparées de manière à être utilisables par YOLOv4 (pour définir la race) et
v7 (pour une reconnaissance globale chien / personne / objet).
2. Entraînement du modèle : Le modèle YOLOv4 a été entraîné sur l'ensemble
de données préparé. Cela a impliqué l'utilisation de techniques
d'apprentissage profond, y compris la rétropropagation et l'optimisation
stochastique de descente de gradient.
3. Évaluation du modèle : Le modèle entraîné a été évalué sur un ensemble de
données de test séparé pour déterminer sa performance.
4. Application du modèle : Le modèle entraîné a été utilisé pour détecter les
races de chiens dans des vidéos. Pour cela, chaque image vidéo a été traitée
séparément avec le modèle YOLOv4.

Résultats obtenus :

Les résultats obtenus ont été largement positifs. Le modèle YOLOv4 a pu

détecter avec précision les races de chiens dans les vidéos. Par rapport à la
méthode de base, YOLOv4 a montré une amélioration significative en termes de
précision et de vitesse.

En termes quantitatifs, le modèle YOLOv4 a obtenu une précision de détection

d'environ 90% sur l'ensemble de test, ce qui est nettement supérieur à la précision
de la méthode de base qui était d'environ 70%.

Cependant, il y a eu quelques cas d'échec où le modèle a confondu certaines

races de chiens qui se ressemblent beaucoup. Cela souligne l'importance d'avoir un
ensemble de données diversifié et bien équilibré pour l'entraînement du modèle.

En outre, le modèle YOLOv4 a pu détecter les chiens dans les vidéos en

temps réel, ce qui est un atout majeur pour les applications en temps réel.

En conclusion, les résultats obtenus montrent que YOLOv4 est une méthode
très efficace pour la détection de races de chiens dans les vidéos. Cependant, des
améliorations peuvent encore être apportées, en particulier en ce qui concerne la
gestion des races de chiens qui se ressemblent beaucoup.

Conclusion et futurs travaux

Après avoir mis en œuvre et évalué les performances de la technologie

YOLOv4 pour la détection d'objets, la reconnaissance des races de chiens dans les
vidéos et la reconnaissance des visages, nos résultats montrent que cette méthode
offre de très bonnes performances. Elle démontre non seulement une robustesse
face aux variations de conditions d'images mais aussi une capacité à gérer les
variations intra-classe, particulièrement utile pour la reconnaissance des visages.

Cependant, il existe des situations où cette méthode peut échouer, par

exemple lorsque le sujet est partiellement obscurci ou lorsque la race de chien est
rarement rencontrée dans l'ensemble d'entraînement. Ces cas d'échec, bien que
limités, soulignent les domaines dans lesquels des améliorations peuvent être
apportées.

Dans les travaux futurs, plusieurs améliorations peuvent être envisagées pour
renforcer les performances de la méthode :

1. Enrichissement de l'ensemble de données : Pour améliorer la capacité du

modèle à reconnaître diverses races de chiens, surtout celles qui sont moins
communes, l'ensemble de données pourrait être enrichi avec plus d'images de
ces races rares.
2. Prise en compte des occlusions : La méthode pourrait être améliorée pour
mieux gérer les situations où le sujet est partiellement obscurci. Cela pourrait
être réalisé en combinant YOLOv4 avec d'autres techniques capables de
gérer les occlusions, comme le suivi d'objets.
3. Utilisation de techniques d'apprentissage en profondeur plus avancées :
YOLOv4 pourrait être combiné avec des techniques d'apprentissage en
profondeur plus avancées pour améliorer la précision de la détection et de la
reconnaissance.

En conclusion, bien que notre méthode mise en œuvre présente des

performances supérieures en comparaison avec la méthode de base, il y a encore
place à l'amélioration. Les travaux futurs pourraient se concentrer sur l'amélioration
de la robustesse du modèle face à divers défis, tels que les occlusions et la rareté de
certaines races dans l'ensemble d'entraînement.

Vous aimerez peut-être aussi

TP 4 - Object Detection YOLO
Pas encore d'évaluation
TP 4 - Object Detection YOLO
3 pages
Bouti Lembarek
Pas encore d'évaluation
Bouti Lembarek
75 pages
6LoWPAN TechniquesDeLIngenieur
Pas encore d'évaluation
6LoWPAN TechniquesDeLIngenieur
6 pages
Vehicules Intelligents Etude Et Developpement D'un Capteur Intelligent de Vision
Pas encore d'évaluation
Vehicules Intelligents Etude Et Developpement D'un Capteur Intelligent de Vision
226 pages
Conversion Numérique-Analogique et Analogique-Numérique : Théorie et Expérimentation
Pas encore d'évaluation
Conversion Numérique-Analogique et Analogique-Numérique : Théorie et Expérimentation
4 pages
Avantages et inconvénients des capteurs ultrason
Pas encore d'évaluation
Avantages et inconvénients des capteurs ultrason
2 pages
Capteur de Force : Fonctionnement et Applications
Pas encore d'évaluation
Capteur de Force : Fonctionnement et Applications
3 pages
Cours La Video Numerique (E)
Pas encore d'évaluation
Cours La Video Numerique (E)
13 pages
Maintien d'Altitude d'un Quadrirotor
Pas encore d'évaluation
Maintien d'Altitude d'un Quadrirotor
94 pages
42 Subject
Pas encore d'évaluation
42 Subject
10 pages
Estimation SoC et SoH des batteries Li-ion
Pas encore d'évaluation
Estimation SoC et SoH des batteries Li-ion
13 pages
Comprendre les capteurs CCD en imagerie
0% (1)
Comprendre les capteurs CCD en imagerie
4 pages
Trame Master Physique NOA
Pas encore d'évaluation
Trame Master Physique NOA
4 pages
These
Pas encore d'évaluation
These
194 pages
Examen 2018 2019 v1
Pas encore d'évaluation
Examen 2018 2019 v1
2 pages
CV d'Amri Mohamed : Ingénieur en électronique
Pas encore d'évaluation
CV d'Amri Mohamed : Ingénieur en électronique
3 pages
L'IoT et l'IA : Révolution Numérique
Pas encore d'évaluation
L'IoT et l'IA : Révolution Numérique
15 pages
Reconnaissance Gestes avec Raspberry Pi
Pas encore d'évaluation
Reconnaissance Gestes avec Raspberry Pi
20 pages
Modele Rapport PFE (Repaired)
Pas encore d'évaluation
Modele Rapport PFE (Repaired)
24 pages
B11 TP
Pas encore d'évaluation
B11 TP
15 pages
La Proposition D'une Nouvelle Approche Basée Deep Learning Pour La Prédiction Du Cancer D U Sain
Pas encore d'évaluation
La Proposition D'une Nouvelle Approche Basée Deep Learning Pour La Prédiction Du Cancer D U Sain
110 pages
TP Imagerie Médicale: Traitements et Algorithmes
Pas encore d'évaluation
TP Imagerie Médicale: Traitements et Algorithmes
4 pages
Conception d'un radar de vitesse
Pas encore d'évaluation
Conception d'un radar de vitesse
16 pages
Transmission d'information : méthodes et analyses
Pas encore d'évaluation
Transmission d'information : méthodes et analyses
2 pages
Introduction à la logique floue
Pas encore d'évaluation
Introduction à la logique floue
14 pages
Circuits Intégrés : TTL et CMOS Explained
Pas encore d'évaluation
Circuits Intégrés : TTL et CMOS Explained
5 pages
Sujet BTS SNIR 2024 : Épreuve E4
Pas encore d'évaluation
Sujet BTS SNIR 2024 : Épreuve E4
55 pages
Transistors CMOS à Basse Tension
100% (2)
Transistors CMOS à Basse Tension
45 pages
Cours RNA2
Pas encore d'évaluation
Cours RNA2
115 pages
Conception de capteurs intelligents avec Deep Learning
Pas encore d'évaluation
Conception de capteurs intelligents avec Deep Learning
34 pages
Commande d'un Pendule Inversé Mobile
Pas encore d'évaluation
Commande d'un Pendule Inversé Mobile
72 pages
Corriger Examen DispositifsRF 2022 STB
Pas encore d'évaluation
Corriger Examen DispositifsRF 2022 STB
5 pages
Traitement d'Images Numériques
Pas encore d'évaluation
Traitement d'Images Numériques
34 pages
TP : Acquisition de données Arduino-LabVIEW
Pas encore d'évaluation
TP : Acquisition de données Arduino-LabVIEW
6 pages
Stabilité des systèmes linéaires en électronique
100% (1)
Stabilité des systèmes linéaires en électronique
20 pages
Système de Surveillance par Capteurs Sans Fil
Pas encore d'évaluation
Système de Surveillance par Capteurs Sans Fil
32 pages
TP1 Prise en Main v3
100% (1)
TP1 Prise en Main v3
13 pages
Cours de Électronique Analogique
Pas encore d'évaluation
Cours de Électronique Analogique
53 pages
Montage Potentiometrique
Pas encore d'évaluation
Montage Potentiometrique
4 pages
DL Lect2 2024 2025 Version Finale 2
Pas encore d'évaluation
DL Lect2 2024 2025 Version Finale 2
48 pages
Traitement du Signal : Concepts et Méthodes
Pas encore d'évaluation
Traitement du Signal : Concepts et Méthodes
0 page
"CAN Flash : Vitesse et Applications"
Pas encore d'évaluation
"CAN Flash : Vitesse et Applications"
5 pages
Introduction à l'Optronique
Pas encore d'évaluation
Introduction à l'Optronique
63 pages
Introduction au Traitement du Signal
Pas encore d'évaluation
Introduction au Traitement du Signal
125 pages
Localisation Robot Mobile par Webcam
Pas encore d'évaluation
Localisation Robot Mobile par Webcam
101 pages
Étude et Simulation d'un Quadrirotor
Pas encore d'évaluation
Étude et Simulation d'un Quadrirotor
109 pages
Hammal Lynda PDF
Pas encore d'évaluation
Hammal Lynda PDF
157 pages
GEMMA : Langage Graphique pour États de Machine
Pas encore d'évaluation
GEMMA : Langage Graphique pour États de Machine
5 pages
Debruitage Compressed 1pdf - Io
Pas encore d'évaluation
Debruitage Compressed 1pdf - Io
74 pages
CHE7777
Pas encore d'évaluation
CHE7777
180 pages
Exercices - 3ISE Info Industrielle
0% (1)
Exercices - 3ISE Info Industrielle
2 pages
TP Aii Astable
Pas encore d'évaluation
TP Aii Astable
1 page
Débit binaire et transmission de données
Pas encore d'évaluation
Débit binaire et transmission de données
2 pages
Introduction aux Réseaux CNN
Pas encore d'évaluation
Introduction aux Réseaux CNN
8 pages
Amplificateurs opérationnels : exercices pratiques
Pas encore d'évaluation
Amplificateurs opérationnels : exercices pratiques
9 pages
Identification et Authentification Vocale
Pas encore d'évaluation
Identification et Authentification Vocale
175 pages
Classification des races de chiens par Deep Learning
Pas encore d'évaluation
Classification des races de chiens par Deep Learning
18 pages
Classification de races de chiens avec DenseNet
Pas encore d'évaluation
Classification de races de chiens avec DenseNet
3 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
11 pages
Réseaux de neurones : Apprentissage et applications
Pas encore d'évaluation
Réseaux de neurones : Apprentissage et applications
6 pages
Modèle de Perceptron et Apprentissage IA
Pas encore d'évaluation
Modèle de Perceptron et Apprentissage IA
17 pages
Keras FR
Pas encore d'évaluation
Keras FR
19 pages
Intelligence Artificielle
Pas encore d'évaluation
Intelligence Artificielle
28 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
Chaînage en IA : Avant, Arrière, Mixte
Pas encore d'évaluation
Chaînage en IA : Avant, Arrière, Mixte
12 pages
Aperçu de l'apprentissage automatique
Pas encore d'évaluation
Aperçu de l'apprentissage automatique
3 pages
QCM Module 6,7,8,9
Pas encore d'évaluation
QCM Module 6,7,8,9
2 pages
Systèmes D'information (PDFDrive)
Pas encore d'évaluation
Systèmes D'information (PDFDrive)
219 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
Introduction à l'algorithme AdaBoost
Pas encore d'évaluation
Introduction à l'algorithme AdaBoost
35 pages
Digiu French
Pas encore d'évaluation
Digiu French
64 pages
Systèmes de Reconnaissance des Formes
Pas encore d'évaluation
Systèmes de Reconnaissance des Formes
15 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
131 pages
Impact économique de l'intelligence artificielle
Pas encore d'évaluation
Impact économique de l'intelligence artificielle
16 pages
TD4-Clustering1 (Corrigé)
100% (1)
TD4-Clustering1 (Corrigé)
3 pages
Détecteur double tôle UDK20 R1000
Pas encore d'évaluation
Détecteur double tôle UDK20 R1000
71 pages
Application Deep Learning pour Signalisation
Pas encore d'évaluation
Application Deep Learning pour Signalisation
78 pages
Compromis Biais-Variance - IA-Z
Pas encore d'évaluation
Compromis Biais-Variance - IA-Z
6 pages
Machine Learning Vs Deep Learning
Pas encore d'évaluation
Machine Learning Vs Deep Learning
3 pages
Les Bibliothèques en Python
100% (1)
Les Bibliothèques en Python
7 pages
ICA3
Pas encore d'évaluation
ICA3
86 pages
MachineLearning Partie1 Sagar-Samya
Pas encore d'évaluation
MachineLearning Partie1 Sagar-Samya
30 pages
Apprentissage par renforcement en IA
Pas encore d'évaluation
Apprentissage par renforcement en IA
22 pages
ACP, ACF, ACM Et Clustering de Clientèle
Pas encore d'évaluation
ACP, ACF, ACM Et Clustering de Clientèle
31 pages
Rapport Ia
Pas encore d'évaluation
Rapport Ia
16 pages
Scoring et règles métier sur z/OS IBM
Pas encore d'évaluation
Scoring et règles métier sur z/OS IBM
4 pages
Classification supervisée en Machine Learning
Pas encore d'évaluation
Classification supervisée en Machine Learning
11 pages
l16b2742 Rapport-Information
Pas encore d'évaluation
l16b2742 Rapport-Information
37 pages