Python
Python
Mémoire
Master Académique
Présenté Par :
NAILI Tarek
LOUAZENE Abderraouf
-THEME-
Jury :
Nous remercions avant tout Allah le tout puissant pour son aide,
disponibilité permanente.
Chacun par son nom, pour avoir accepté de faire partie du jury d’évaluation
de ce modeste travail.
Merci à tous.
I
Dédicace
Je dédie ce modeste travail
Aux deux lumières de mon chemin a mes très chère
parents qui on
largement contribué a mon éducation et a mon
enseignement
A mes frères et mes soeurs et à toute ma famille.
A mes amis pour leurs soutiens et leurs
encouragements et l’équipé Tachma Tarek , Tarek ,
Fouad , kais et Moustafa
À tous les professeurs et enseignants qui m’ont suivi
durant tout
mon cursus scolaire et qui m’ont permis de réussir dans
mes études.
A tous ceux qui m’ont aidé de prés ou de loin.
II
Sommaire
Remerciements ................................................................................................I
Dédicace… .....................................................................................................II
Sommaire… ................................................................................................. III
Liste des figures ......................................................................................... VII
Liste des tableaux ........................................................................................IX
Acronymes .................................................................................................... X
Résumé… ......................................................................................................XI
Introduction général ....................................................................................... 1
Chapitre I La Biométrie
V
Liste des figures
Figure I. 1: L’architecture d’un système biométrique 4
Figure I. 2 : Système biométrique basé sur l’empreinte 5
Figure I. 3 : Système biométrique basé sur l’Iris 5
Figure I. 4 : Système biométrique basé sur la main 6
Figure I. 5 : Système biométrique basé sur la voix 6
Figure I. 6 : Système biométrique basé sur la signature 6
Figure I. 7 : Système biométrique basé ADN 7
Figure II. 1 : Image numérique 10
Figure II. 2 : Acquisition Image numérique 11
Figure II. 3 : Exemple d’histogramme d’une image couleur 12
Figure II. 4 : L’effet de la résolution sur une image 13
Figure II. 5 : Les voisins d’un pixel 13
Figure II. 6 : Image à binaier 14
Figure II. 7 : Images à niveaux de gris 14
Figure II. 8 : Image par spectre r.v.b 15
Figure II. 9 : Binarisation d’une image. 17
Figure II. 10 : Image et Domaines d'Applications 20
Figure III. 1 : Images typiques pour la Détection du visage 22
Figure III. 2 : Un scénario réel de détection de visages. 23
Figure III. 3: Plusieurs pose pour le visage 26
Figure III.4: les traits du visage invisible 26
Figure III.5 : Exemple Expression faciale 26
Figure III.6 : Exemple des visages occlus par d'autres objets. 27
Figure III.7: Exemple Améliorer l'éclairage du visage 27
Figure III.8 : Exemples des photos de "People Marching" 28
Figure III. 9 : Exemples des photos de "Football" 28
Figure III. 10 : Exemples des photos de "Angler " 28
Figure III. 11 : Exemples des photos de " Funeral" 28
Figure III. 12 : Exemples des photos Bases de données de FDDB 29
Figure III. 12 : Exemples des photos "BIG" 29
Figure IV.1 : La relation entre l’intelligence artificielle, le ML et le deep 30
learning
Figure IV.2 : La différence de performance entre le l'apprentissage en 32
profondeur (deep learning)et la ML classiques fonction de la quantité de données
VII
Figure IV.4 : Ensemble de neurones (cercles) créant la profondeur d'une couche 35
de convolution (bleu). Ils sont liés à un même champ récepteur (rouge).
Figure IV.5 : L'opération de convolution commence par le coin supérieur gauche 35
Figure IV.6 : La deuxième opération de convolution 36
Figure IV.7 : La carte des caractéristiques du filtre donné a été complétée 36
Figure IV.8 : L'image d'entrée 4x4 pixels 36
Figure IV.9 : Les cas de pooling qui en résultent utilisent deux méthodes 37
différentes
Figure IV.10 : Exemple de max pooling (2×2). 39
Figure IV.11 : L'architecture de ResNet 39
Figure IV.12 : L'architecture de VGG16 40
Figure V.1: Exemple courbe de loss 43
Figure V.2 : Détecte visage par CNN 45
Figure V.3 : l'architecture du SSD 45
Figure V.4 : Les courbes Résultats de Expérience 1 46
Figure V.5 : Les courbes Résultats de Expérience 2 49
Figure V.6 : Les courbes Résultats de Expérience 3 50
Figure V.7: Les courbes Résultats de Expérience 4 52
VIII
Liste des tableaux
VIII
Abréviation
X
Résumé
La détection visage est actuellement un domaine en plein essor . Elle rentre petit à
petit dans nos vies au travers de nos téléphones mobiles ou de nos ordinateurs portables .
Malgré l'amélioration du taux de détection elle reste actuellement l'objet de nombreuses
études et de nombreux travaux d’approfondissement. L'objectif de notre projet sera de mettre
en œuvre un système de détection et alignement de visage pour pouvoir ultérieurement
continuer la detecter visage.
Nous vous présenterons la technique permettant la localisation des repères faciaux .Cette
technique est basée sur les réseaux de neurones Convolutive (CNN) qui sont très connus.
L'objectif du mécanisme de détection et d'alignement du visage que nous vous présenterons
est d'effectuer les opérations suivantes :
Mots clés : Détection de visage -Resnet50 -Resnet101-L’apprentissage en profondeur
Abstract
Face detection is currently a booming field. It is gradually entering our lives through
our mobile phones or our laptops. Despite the improvement in the detection rate, it currently
remains the subject of numerous studies and numerous in-depth studies. The objective of our
project will be to implement a face detection and alignment system in order to be able to
continue face detection later on.
We will present to you the technique allowing the localization of facial landmarks.
This technique is based on Convolutional Neural Networks (CNN) which are very well
known. The purpose of the face detection and alignment mechanism that we will present to
you is to perform the following operations:
ملخص
ملخص
يددل حيانادا نددريجيا ً مدل لدات نوانلادا ال أ ولده ة ةجمديو ال يدونر.مجاًل متطور
ً يعد التعرف على الوجه حاليًا
إًل ةنه ًل ييات حاليًدا موودوا العديدد مدل الدرا دا، على الرغم مل التأسل في معدت ال شف.ال أ وله الخاصه باا
ي ون المدف مل مشر عاا نو ناليذ نظام اكتشاف الوجه ال أاذاو حتى نت ل مل.العديد مل الدرا ا ال تع قه
.متابعه اكتشاف الوجه ًلحقًا
.) ال عر فده جددًاCNN نستاد نذه التقايه إلدى الشد ا العيد يه التافيليده، وف نقدم نقايه نأديد معالم الوجه
الغرض مل آليه كشف الوجه ال أاذاو التي اقدمما لك نو إجراء الع ليا التاليه
XI
كل ا ملتاحيه :كشف الوجه
-Resnet50 -Resnet101-التعلم الع يق
XI
I
يعد
XI
II
Introduction générale
Au cours des dernières années, des progrès considérables ont été réalisés dans le
domaine de la détection de visage à partir des imaages. Ce progrès est dû aux nombreux
travaux dans ce domaine et à la disponibilité des bases de donnée contenant un grand nombre
d'image qui permis aux chercheurs de progresser de manière crédible dans l'exécution de leurs
approches dans ce domaine, avec la possibilité de les comparer à d'autres approches qu'ils
utilisent les mêmes bases. Dans la fin des années 1980 Yan le Cun a développé un type de
réseau particulier qui s'appelle le réseau de neurone convolutif, ces réseaux sont une forme
particulière de réseau neuronal multicouche dont l'architecture des connexions est inspirée de
celle du cortexvisuel des hêtres humain. En 2012 plusieurs événements sont soudainement
survenus.
Tout d'abord, plusieurs records de visage dans des images ont été battus par des
réseaux de neurones convolutif,. Dans notre projet on va utiliser Deep learning ( les réseaux
de neurones convolutif, ) pour la localisation des points de repères faciaux dans une image.
Pour ce faire, nous avons structuré notre mémoire en cinq chapitres Dans le premier
chapitre nous présenterons bordé des généralités sur la biométrie, Les caractéristiques des
systèmes biométriques et leurs modes de fonctionnement Le deuxième chapitre sera
présenterons nous introduisons des notions générales sur le traitement d’images, en donnant
la définition et les caractéristiques de l’image, Exemples de Domaines d'Applications et les
filtres les plus utilisées pour l’amélioration de la qualité des images. Le troisième chapitre ,
sera présenterons principe détection visage et méthode utilisé et branches possible dans ce
domaine et ses problèmes Le quatrième chapitre sera consacré à la description détaillée des
Deep learning , ainsi que les différentes architectures des réseaux de neurones convolutif,.
Dans le dernier chapitre, nous exposerons la les résultats obtenus et l’analyse ainsi la
comparaison entre les méthodes utilisés
1
Chapitre I
La Biométrie
I.1. Introduction
Dans tous les domaines de sécurité et de contrôle d’accès, on utilise des mots de passe,
ou des clés qui se compose de chiffres, ou de lettres. Mais, dans ces derniers temps avec
l’avancement de la technologie ces mots de passe sont devenus facilement falsifiables et
franchissables. C’est pour ça, que les chercheurs de différents domaines ont orientés leurs
travaux sur des clés et mots de passe impossible à falsifier, sûr et surtout efficace. La
biométrie est devenue à la mode dans les domaines qui requiert un niveau élevé de sécurité et
de contrôle des systèmes de reconnaissance biométriques, utilisés de plus en plus largement
tant dans le domaine privé que public, comportent de nombreux avantages pour les personnes
qui les introduisent et les personnes concernées. Toutefois, l’utilisation de données
biométriques pour l’identification ou la vérification d’une identité prétendue comporte
également des risques quant au respect des droits et des libertés fondamentales. Le présent
chapitre a pour objectif de défini la terminologie « Biométrie »
I.2. Définition
La biométrie recense nos caractères physiques (et comportementaux) les plus uniques,
qui peuvent être captés par des instruments et interprétés par des ordinateurs de façon à être
utilisés comme des représentants de nos personnes physiques dans le monde numérique.
Ainsi, nous pouvons associer à notre identité des données numériques permanentes, régulières
et dénuées de toute ambiguïté, et récupérer ces données rapidement et automatiquement à
l’aide d’un ordinateur [2]
I. 3. Fonction de la biométrie
L'identification : consiste à déterminer l'identité d'une personne .Il s'agit de saisir une donnée
biométrique de cette personne, en prenant par exemple une photo de son visage, en
enregistrant sa voix, ou en captant l'image de son empreinte digitale. Ces données sont ensuite
2
Chapitre I La Biométrie
comparées aux données biométriques de plusieurs autres personnes qui figurent dans une
base.
L'identification dans ce cas, la personne est identifiée parmi d'autres (vérification 1 :n) . Ses
données personnelles sont comparées aux données d'autres personnes contenues dans la même
base de données ou dans d'éventuelles bases de données reliées.
L'identification nécessite en général une base de données centralisée qui permet de comparer
les données biométriques de plusieurs personnes. L'authentification peut se passer d'une telle
base de données centralisée. On peut simplement enregistrer des données sur un support
décentralisé, du type de nos cartes à microprocesseur.
A l'inverse, dans l'hypothèse d'un procédé d'identification nécessitant une base de données
externe, l'utilisateur n'a pas la maîtrise physique de ses données, avec tous les risques que cela
présente .a partir du moment où les données biométriques sont en possession d'un tiers, il y a
toujours un risque qu'elles soient utilisées à des fins différentes de ce à quoi la personne
concernée a consenti.
3
Chapitre I La Biométrie
Le risque concerne aussi bien la base de stockage des éléments biométriques de référence que
les données biométriques présentées par l'utilisateur au moment de l'usage du service : ces
données peuvent être captées par des hackers lors de leur transmission, nécessaire à la
comparaison avec le modèle de référence stocké à la base centralisée. [3]
Module de reconnaissance : c’est une phase qui se déroule à chaque fois qu’une personne se
présente devant le système. Elle consiste en l’extraction des paramètres comme pour l’étape
d’apprentissage suivie dune autre étape de comparaison et de prise de décision selon le mode
opératoire du système : identification (partir de l’échantillon biométrique recherche du gabarit
correspondant) ou vérification (échantillon biométrique correspond bien au gabarit) [4]
4
Chapitre I La Biométrie
I.5. Différentes modalités
L’iris : Liris est la membrane colorée de l’œil. Les iris sont uniques et les deux iris d’un
même individu sont différents. La reconnaissance de l’iris est donc aussi considérée comme
une des méthodes biométriques les plus fiables qu’il soit.
5
Chapitre I La Biométrie
La main : Cette méthode consiste à déterminer les caractéristiques de la main d’unindividu
sa forme, la longueur, la largeur, la courbure des doigts, etc. Les systèmes de reconnaissance
de la géométrie de la main sont simples d’usage. [5]
La signature: Est une technique simple et acceptable par les utilisateurs, mais nous ne
Pouvons pas maintenir la même forme de la signature pour toute la vie.
6
Chapitre I La Biométrie
La biométrie existe dans plusieurs secteurs, en effet, chaque secteur qui nécessite
d’identifier ou vérifier une personne est concerné. On peut citer 3 champs d’applications de la
biométrie :
7
Chapitre I La Biométrie
Applications gouvernementales : la carte d’identité nationale, le permis de conduire, la
sécurité sociale, le contrôle des frontières, le contrôle des passeports, etc.
- La nécessité d’une intégration pour enregistrer les données, et une intégration matérielle
supplémentaire est obligatoire.
-Un dommage dans les attributs physiques peut changer le modèle qui permet l’accès.
8
Chapitre I La Biométrie
modalité utilisée, l’acquisition de données biométriques est effectuée sans ou avec contact
avec le capteur biométrique. Ce contact est une source d’inquiétudes pour certains utilisateurs
pour des raisons hygiènes et d’intrusion physique. Prenons le cas de reconnaissance par la
rétine : cette technologie assure une bonne fiabilité et une haute barrière contre la fraude.
Malgré l’efficacité de cette technologie, elle est considérée comme intrusive et elle est très
peu utilisée dans les milieux de la sécurité privée. Le recours a la biométrie présente
également des risques en termes de respect des droits et des libertés fondamentales. En
France, la Commission Nationale de l’Informatique et des Libertés (CNIL), n’autorisent les
applications qui font de l’usage de biométrie de trace (ex., empreinte digitale) que dans la
mesure où le besoin de la s´écrite est important. Ces contraintes d’utilisation limitent de plus
en plus la prolifération de certaines modalités pour des applications moins sécuritaires
(comme le contrôle d’accès a des bâtiments).
Enfin, les systèmes biométriques sont vulnérables a des attaques spécifiques. Ratha et
al. [7]Présente huit emplacements de points de compromission d’un système biométrique.
Même s’il est plus difficile de falsifier un iris que de décrypter un mot de passe, il est
toutefois possible de reproduire d’autres types de modalités. Les travaux présent´es dans [8]
montrent la facilite de reproduire des empreintes digitales en utilisant des images résiduelles
sur le capteur.
I.11.Conclusion
Dans ce chapitre, nous avons présenté les différentes technologies utilisées dans les
systèmes biométriques pour l’identification des personnes. nous avons aussi donné un aperçu
sur les systèmes de reconnaissances biométriques et une évaluation de leurs performances.
cette étude nous a permis de constater que les systèmes biométriques est plus efficace dans le
domaine de sécurité.
9
Chapitre II
Généralité Sur Le Traitement D’Image
II.1. Introduction
Le traitement d’images est un domaine très vaste qui a connu, et qui connaît encore, un
développement important depuis quelques dizaines d’années.
Dans ce chapitre, nous abordons les notions de base nécessaires à la compréhension des
techniques de traitement d’images. ensuite, nous allons donner un aperçu sur les différents
techniques connues dans ce domaine.
Une image est plutôt difficile à décrire d'une façon générale. une image est une
représentation du monde. en traitement d'image, la majorité du temps, on considère qu'il s'agit
d'une fonction mathématique de RxR dans R où le couplet d'entrée est considéré comme une
position spatiale, le singleton de sortie comme l'intensité (couleur ou niveaux de gris) du
phénomène physique. Il arrive cependant que l'image soit dite "3D" donc la fonction est de
RxRxR dans R. Les images couleurs peuvent être représentées soit par trois images représentant
les trois couleurs fondamentales, soit par une image de RxR dans RxRxR
L’image numérique est l’image dont la surface est divisée en éléments de tailles fixes
appelés cellules ou pixels, ayant chacun comme caractéristique un niveau de gris ou de couleurs
prélevé à l’emplacement correspondant dans l’image réelle, ou calculé à partir d’une description
interne de la scène à représenter
10
Chapitre II Généralité Sur Le Traitement D’Image
II.3. Acquisition d'image
Informations binaires qui seront stockées dans un fichier. l'une des caractéristiques
intéressantes de ces capteurs est la taille du plus petit élément (pixel), mais aussi l'inter
corrélation de deux éléments voisins : plus cette inter corrélation est faible, meilleure est
l’image . le processus général pour l'acquisition d'une image numérique est illustré sur la figure
suivante :
II.4.1. Pixel
Le pixel est le plus petit élément de l’image. il possède une valeur i(i,j) qui représente
son niveau de gris . il est repéré par ses coordonnées i et j dans les deux axes du plan de l’image.
une image numérique contient un nombre fini de points. ces points sont appelés pixels (extrait
des mots anglais "picture element", c’est à dire élément d’image). les pixels sont situés sur une
grille régulière. a chaque pixel de la grille est associé une couleur ou une nuance de gris. le
11
Chapitre II Généralité Sur Le Traitement D’Image
passage d’une image continue à une grille de pixels s’appelle l’échantillonnage : on ne conserve
que quelques points d’une image continue.
Pratiquement toujours, la valeur d’un pixel est un mot binaire de longueur k bits, par
conséquent un pixel peut prendre l’une des valeurs de l’intervalle [0…2k-1]. la valeur k est
appelée profondeur de l’image. l'ensemble de ces pixels est contenu dans un tableau à deux
dimensions (une matrice) constituant l'image finalement obtenue.
La taille d’une image est le nombre de pixels de cette image, la taille d’une image qui
est représenté par (328×456) dont 328 est le nombre de lignes, et 456 est le nombre de colonnes,
est égale à : 328 × 456 = 149568 pixels.
II.4.4. Bruit :
II.4.5. Histogramme
L’histogramme des niveaux de gris ou des couleurs d’une image est une fonction qui
associe à chaque valeur d’intensité le nombre de pixels de l’image ayant cette valeur.
12
Chapitre II Généralité Sur Le Traitement D’Image
II.4.6. Résolution
La taille du pixel définit la résolution par rapport à l’image analogique originale, c’est-
à-dire la finesse de la grille. plus la résolution baisse, plus le nombre de pixels dans l’image
diminue, et plus la qualité de l’image numérique se dégrade (voir figure souvent). [8]
Afin de mieux analyser et caractériser une image, il faut utiliser des images de grande
résolution.
II.4.7. Connexité
La connexité est une propriété de liaison entre deux pixels qui fait qu’on les considère
comme faisant partie de la même région dans une image. En supposant que deux pixels P et Q
vérifient déjà un certain critère de similarité, on peut définir différents types de connexités :
4-connexité : Les deux pixels sont tels que Q est un des 4-voisins de P.
8-connexité : Les deux pixels sont tels que Q est un des 8-voisins de P.
(voir figure Suivent )
représente un pixel central avec ces voisins en fonction de la connexité :
II.4.8. Région
Une région est un ensemble de pixels liés par la connexité, ayant des caractéristiques
communes tel que intensité, texture. qui les différencient des pixels des régions voisines. [9]
13
Chapitre II Généralité Sur Le Traitement D’Image
II.5. Type des images
On appelle par image binaire tout image ne comportant que deux niveaux de gris
0 pour représenter le noir et 1 pour représenter le blanc.
Même s’il est parfois utile de pouvoir représenter des images en noir et blanc, les
applications multimédias utilisent le plus souvent des images en couleurs. La représentation des
couleurs s’effectue de la même manière que les images monochromes avec cependant quelques
14
Chapitre II Généralité Sur Le Traitement D’Image
particularités. En effet, il faut tout d’abord choisir un modèle de représentation. On peut
représenter les couleurs à l’aide de leurs composantes primaires. Les systèmes émettant de la
lumière (écrans d’ordinateurs,...) sont basés sur le principe de la synthèse additive : les couleurs
sont composées d’un mélange de rouge, vert et bleu (modèle R.V.B.)Voir le figure suivante :
Mais il existe aussi d’autres codages de la couleur que RVB . exemple CMJ : Cyon, Magenta,
Jaune …
15
Chapitre II Généralité Sur Le Traitement D’Image
II.7.1. Carte binaire Windows (BMP)
Le format BMP est l’un des formats les plus simples. Il a été développé conjointement
par Microsoft et IBM. Cette technologie a pour principal avantage la qualité des images fournies
pas de compression (pas de perte de qualité). Cela fait de lui un format d’image très lourd, pas
ou peu utilisé sur Internet.
C'est le format le plus courant, on le rencontre sur internet. il occupe peu d'espace
disque. c'est le format développé par les photographes pour transmettre des images de qualité
photographique professionnelle. il gère des millions de couleurs mais il ne possède pas de
palette de couleurs associée et donc les couleurs peuvent être différentes sur des machines et
des systèmes différents.
Les fichiers au format GIF sont fortement compressés tout en gardant une qualité très
correcte. ils possèdent une palette de couleurs associée (limité à 256 couleurs) et occupent peu
d'espace disque.
Le format PNG reprend le principe de codage du format GIF mais n’est pas limité à 256
couleurs, et offre une compression généralement plus efficace. Il permet donc contrairement à
GIF d’enregistrer des photographies sans perte de qualité, mais avec un gain d’espace de
stockage moindre comparativement au format JPEG. Nous avons utilisés dans notre système
des images de format BMP, Pour cela, nous allons décrire la structure d’un fichier BMP. érieure
à celle du fichier BMP. [11]
16
Chapitre II Généralité Sur Le Traitement D’Image
II.8.1. Binarisation
II.8.2. Segmentation
La segmentation d'images est une opération qui a pour but de rassembler des pixels entre
eux suivant des critères prédéfinis, et peut-être accomplie selon plusieurs méthodes. Les pixels
ainsi regroupés en régions constituent un pavage ou une partition de l'image.
II.8.3. Convolution
La convolution est le remplacement de la valeur d’un pixel par une combinaison de ses
avoisinants. Elle consiste à faire balayer une fenêtre d’analyse (masque) sur l’ensemble des
pixels de l’image. L’opération de convolution est calculée en tout point de l’image source en 3
étapes :
1. On centre le masque (par exemple un masque carré (3*3) sur le pixel courant.
3. Puis on somme les 9 produits pour obtenir la valeur du pixel de l’image filtrée.
17
Chapitre II Généralité Sur Le Traitement D’Image
II.8.4. Filtrage
Le filtrage des images est un traitement local utilisé principalement pour réaliser une
analyse spatiale d’une image. Son objectif est d’accentuer les variances d’intensité de l’image,
ou de détecter les contours et de réduire les bruits existants. Il existe un grand nombre de filtres,
on peut les classer en deux grandes catégories les filtres linéaires et les filtres non linéaires.
Consistent à atténuer les pixels de l'image ayant une fréquence haute (pixels foncés). ce
type de filtrage est généralement utilisé pour atténuer le bruit de l'image, c'est la raison pour
laquelle on parle habituellement de lissage. les filtres moyens sont des types de filtres passe-
bas dont le principe est de faire la moyenne des valeurs des pixels avoisinants. le résultat de ce
filtre est une image plus floue.
1 1 1
1 4 1
1 1 1
Tableau. II.1. Masque de convolution passe-bas
À l'inverse des filtres passe-bas, les filtres passe-haut atténuent les pixels de basse
fréquence de l'image et permettent notamment d'accentuer les détails et le contraste, c'est la
raison pour laquelle le terme de "filtre d'accentuation" est parfois utilisé.
18
Chapitre II Généralité Sur Le Traitement D’Image
0 -1 0
-1 5 -1
0 -1 0
Tableau. II.2. Masque de convolution passe-haut.
Ils sont conçus pour régler les problèmes des filtre linéaires, surtout ce qui concerne la
mauvaise conservation des contours. Leur principe est le même que les filtres linéaires, il s’agit
toujours de remplacer la valeur de chaque pixel par la valeur d’une fonction calculée dans son
voisinage. La différence est que cette fonction n’est plus linéaire mais une fonction quelconque
a. Le filtre médian
Le filtre médian appartient à la famille des filtres d’ordre. Les filtres d'ordre procèdent
en remplaçant la valeur de chaque pixel par la valeur du pixel qui occupe un certain rang
lorsqu'on trie les valeurs des pixels rencontrés dans un certain voisinage de ce pixel.
b. Le filtre maximum
On applique le même traitement que celui du filtre médian mais la valeur du pixel du
centre va être remplacée par le maximum
c. Le filtre minimum
On applique le même traitement que celui du filtre médian mais, cette fois, la valeur du
pixel du centre va être remplacée par le minimum [11].
• Contrôle de présence / absence. Sur des chaînes de production, on vérifie en bout de chaîne
avec une caméra vidéo la présence d'une pièce dans un ensemble plus complexe. Pour cela bien
souvent il suffit de faire un simple seuillage dans une région spécifique.
• Contrôle du niveau de maturation des fruits sur une chaîne de conditionnement. Il s'agit
de reconnaître à la couleur et à la texture du fruit son degré de maturité et donc la catégorie sous
laquelle il sera emballé puis vendu.
19
Chapitre II Généralité Sur Le Traitement D’Image
• Construction et correction de cartes géographiques d'après des images satellites ou des
images aériennes. On recale d'après des informations topographiques les images reçues, puis
on les met sur la carte en correspondance avec les informations trouvées dans l'image : voies
de communication, voies et plans d'eau, parcelles agricoles...
• Recherche d'image par le contenu. L'objectif de cette technique est de rechercher, parmi
une base de données d'images, les images similaires à une image exemple, ou ayant certaines
caractéristiques, par exemple rechercher toutes les images comportant un vélo.
• Analyse de la vidéo. L'objectif de cette technique devenue une discipline depuis les années
2000 (lorsque la puissance des processeurs peu onéreux et en particulier des PC a permis des
traitements puissants en temps réel) est d'interpréter les faits observés à l'image afin de signaler
ou d'enregistrer des faits marquants. Le plus souvent, la caméra est fixe et observe les
mouvements d'une scène. Les applications sont nombreuses : Protection des biens (détection
d'intrusion, détection d'objet abandonné ou déposé...), Identification (biométrie faciale),
Sécurité des personnes (détection de chutes de personnes, franchissement de rambardes, ...),
Animations (planchers animés selon les mouvements des danseurs en boîte de nuit), Détection
de feux (industriel, forêts, tunnels, ...), Surveillance de tunnels (comptage, mesure de vitesse,
détection de fuites/anomalies dans les plafonds), surveillance de tuyaux et autres process
industriels Voir le figure suivante :. [16]
20
Chapitre II Généralité Sur Le Traitement D’Image
II.10. Conclusion
Le traitement d’images est l’ensemble des méthodes et techniques opérant sur celles-ci,
dont le but est de rendre cette opération possible, plus simple, plus efficace et plus agréable,
d’améliorer l’aspect visuel de l’image et d’en extraire des informations utiles.
Dans ce chapitre nous avons présenté les différents concepts liés à l’image numérique,
on a parlé sur les types d’une image, ces caractéristiques et quelques formats de fichiers
d’images, on a expliqué aussi la structure d’un fichier bitmap et finalement nous avons présenté
quelques traitement d’images usuels.
21
Chapitre III
Détection de visage
Dans les technologies des ordinateurs ont permis d'améliorer la vie des humains grâce
à l'intelligence artificielle. en effet, cette tendance a déjà incité un développement actif dans
l'intelligence des machines. la vision par ordinateur, par exemple, vise à reproduire la vision
humaine traditionnellement, des systèmes de vision par ordinateur ont été utilisés dans des
tâches spécifiques telles que les tâches visuelles répétitives et fastidieuses d'inspectiondans des
chaînes de montage. le développement actuel dans ce domaine se dirige versdes applications
de vision plus généralisées, telles que la reconnaissance de visage et les techniques de codage
des vidéos.
Ont conduit une étude détailléesur la recherche en Détection de visage. Dans leur étude,
plusieurs aspects, compris la segmentation et l'extraction des traits, liées à la Détection de
visage ont été passés en revue. Une des conclusions de était que le problème de détection de
visage a suscité étonnamment peu d'attention. Ceci a certainement changé au cours des
dernières années comme on le montrera dans cet aperçu.
22
Chapitre III Détection de visage
La détection de visage est une étape indispensable et importante dans les systèmes de
reconnaissance faciale et ce dernier ne pourra pas être automatique s'il n'a pas été passé par une
étape de détection efficace, L'étape de détection commence par une capture de la scène
contenant un visage puis extrait le visage à partir de l'image capturée par l'une des méthodes de
détection afin de garder une région qui contient les composant du visage (les yeux, le nez, la
bouche,...) qui sera par la suite affinée par une procédure de prétraitement.
Les techniques de détection de visage sont divisées en deux approches parce qu’ils
exigent des informations appropriées du visage, [32] pour les techniques de la premier approche
utilisent une méthodologie classique de détection dans laquelle les traits de bas niveau doivent
être dérivé avant l’analyse de connaissance et les propriétés de la couleur de peau et la géométrie
23
Chapitre III Détection de visage
du visage sont exploiter dans toute la procédure du système de détection, ces techniques
appartiennent à l’approche basé sur les traits. [31]
La détection du visage est une première étape importante de tout système lié à l’analyse
du visage humain. Les recherches sur la reconnaissance faciale ont commencé tôt avec les
images à face unique et plus tard la détection faciale problème a gagné plus d’attention. La
recherche dans la vision par ordinateur et la reconnaissance des modèles est problèmes de
détection. Par conséquent, il existe une variété de méthodes attribuées à la détection en taille.
Plusieurs chercheurs ont regroupé les techniques de détection du visage dans différentes
catégories. Yang Kriegman Ahuja [34] a regroupé les techniques de détection en taille en quatre
catégories, comme l’illustre le tableau suivant
24
Chapitre III Détection de visage
III.4.1. Méthode basée sur les connaissances
Dans les méthodes basées sur les connaissances, certaines les connaissances antérieures,
qui peuvent également être appelées règles, sur la géométrie du visage sont utilisées comme les
caractéristiques d'un visage et leurs relations. Par exemple, une image contient deux yeux, deux
sourcils, un nez et une bouche et liées à leurs distances et positions relatives, certaines règles
doivent être connues comme chacun des yeux et des sourcils sont symétriques, etc. Les traits
du visage connus sont extraits dans une image et l'emplacement de les candidats de visage ou
de caractéristique faciale sont déterminés sur la base de règles faciales codées par le chercheur.
Enfin, un processus de vérification est appliqué pour réduire les fausses détections.
Dans les méthodes de la mise en correspondance, un motif de visage standard est utilisé
et ce motif est généralementface frontale. Ce modèle est prédéfini manuellement ou paramétré
par une fonction. Le les valeurs de corrélation avec les motifs standards sont calculées pour le
contour du visage, les yeux, le nez, et la bouche indépendamment sur une image d'entrée
donnée. Cette approche est simple à mettre en œuvre cependant, il n'a pas la capacité de détecter
les visages avec des variations d'échelle, de pose et de forme. Mais d'autres techniques telles
que la multirésolution, la multiéchelle, les sous-modèles et les modèles déformables sont
proposées pour obtenir une invariance d'échelle et de forme.
25
Chapitre III Détection de visage
par en utilisant cette méthode, est basée sur la recherche des différences entre les modèles de
visage et de non-visage. Pour faire la distinction entre les motifs faciaux et non faciaux, de
nombreuses techniques de reconnaissance de formes ont déjà utilisé. Les méthodes qui reposent
sur la reconnaissance de formes seront présentées plus tard. Le suivant les sous-sections sont
consacrées aux méthodes bien connues basées sur l'apparence.
Les problèmes liés à la détection de visage peuvent être attribués aux facteurs suivants:
· Pose :
Les images d'un visage changent, au changement relatif de la pose d'appareil photo
(bandeau, 45 degrés, profil, d'à l'envers), et certains dispositifs faciaux tels qu'un oeil ou le
nez peuvent devenir par
26
Chapitre III Détection de visage
Occlusion :
Des visages peuvent être partiellement occlus par d'autres objets. Dans une image avec un
groupe de personnes, quelques visages peuvent partiellement occlure d’autres visages.
· Orientation d'image :
Les images de visage changent directement pour différentes rotations autour de l'axe optique
de l’appareil photo. tiellement ou complètement occlue.
Plusieurs bases de données contenant des informations qui permettent l’évaluation des
Systèmes de détection de visages sont disponibles. Toutefois, ces bases de données sont
généralement adaptées aux besoins de quelques algorithmes spécifiques de detction . ci dessous
des exemples de base de donne
visage plus large )WIDER FACE( est un ensemble de données qui comprend 32 203
photos et identifie 393 703 visages avec un degré élevé de taille, de posture et de variabilité
d’occlusion. La base de données est divisée en trois sections : formation (40 %), validation
27
Chapitre III Détection de visage
(10 %) et tests (50 %). De plus, les photographies sont classées en trois catégories (facile,
moyen et dur) en fonction de la difficulté de détection. Les images et les annotations des
ensembles de formation et de validation sont disponibles en ligne, mais les annotations de
l’ensemble de test ne le sont pas, et les résultats sont transmis au serveur de base de données
pour que les courbes de précision-rappel soient reçues. [36]
28
Chapitre III Détection de visage
Face Detection Dataset and Benchmark (FDDB) est un ensemble de faces étiquetées
dérivées de l’ensemble de données Faces in the Wild. Il y a 5171 annotations faciales au total,
avec des photos allant de 363x450 à 229x410. Une variété de problèmes sont présents dans
l’ensemble de données, y compris les angles de posture inconfortables, les visages flous et la
basse résolution. Il y a des images en niveaux de gris et en couleur [37]
III.7. Conclusion:
29
Chapitre IV
L'apprentissage en profondeur
IV.1. Introduction
l'apprentissage en profondeur est basé sur l’idée des réseaux de neurones artificielles et
il est taillé pour gérer de larges quantités de données en ajoutant des couches au réseau. Un
modèle de l'apprentissage en profondeur a la capacitéd’extraire des caractéristiques à partir des
données brutes grâce aux multiples couches de traitement composé de multiples
transformations linéaires et non linéaires et apprendre sur ces caractéristiques petit à petit à
travers chaque couche avec une intervention humaine minime[13] Sur les cinq dernières années,
le l'apprentissage en profondeur est passé d’un marché de niche ou seulement une poignée de
chercheurs s’y intéressait au domaine le plus prisé par les chercheurs. Les recherches en relation
avec le l'apprentissage en profondeur apparaissent maintenant dans les top journaux comme
Science [14], Nature [15] et Nature Methods pour ne citer que quelques-uns. Le l'apprentissage
en profondeur a coquerie le GO [16] , appris à conduire une voiture[17] , diagnostiquer le
cancer[18] et l’autisme[19] et même devenu un artiste[20] .Le terme " l'apprentissage en
profondeur " a été introduit pour la première fois au ML par Dechter (1986) [21] , et aux réseaux
neuronaux artificiels par Aizenberg et al (2000) . [22]
30
Chapitre IV L'apprentissage en profondeur
IV.2. Définition
Les algorithme de ML décrits dans la première partie fonctionnent bien pour une grande
variété de problèmes. cependant ils ont échoues à résoudre quelques problèmes majeurs de l’IA
telle que la reconnaissance vocale et la reconnaissance d’objets.le développement du
l'apprentissage en profondeur fut motivé en partie par l’échec des algorithmes traditionnels dans
de telle tache de l’IA.Mais ce n’est qu’après que de plus grandes quantités de données ne soit
disponibles grâce notamment au grand les données ( big data( et aux objets connectés et que les
machines de calcul soient devenues plus puissantes qu’on a pu comprendre le potentiel réel du
l'apprentissage en profondeur .
31
Chapitre IV L'apprentissage en profondeur
quantité de données qu’ ils peuvent recevoir des fois appelée "plateau de performance", les
modèles de l'apprentissage en profondeur n’ont pas de telles limitations (théoriquement) et ils
sont même allés jusqu’à dépasser la performance humaine dans des domaines comme l’image
processing. . (Voir la figure Suivent )
32
Chapitre IV L'apprentissage en profondeur
Les réseaux de neurones convolutifs sont conçus pour fonctionner avec des entrées
structurées en grille, qui ont de fortes dépendances. Les images sont un exemple de données
structurées en grille et qui sont généralement bien adaptés pour ce type de réseaux de neurones.
Autres formes de données comme le texte, les séries chronologiques et les séquences (qui sont
des données séquentielles) peuvent être considérés comme des cas particuliers de structure en
grille données avec divers types de relations entre les éléments adjacents.
Les CNN, également appelés ConvNets, sont constitués de plusieurs couches et sont
principalement utilisés pour le traitement d’images et la détection d’objets.
Les CNN sont largement utilisés pour identifier des images satellites, traiter des images
médicales, prévoir des séries chronologiques et détecter des anomalies. [25]
33
Chapitre IV L'apprentissage en profondeur
Un réseau de neurones convolutif n'est pas seulement un réseau neuronal profond avec
de nombreuses couches cachées. Il s'agit plutôt d'un réseau profond qui simule le
fonctionnement du cortex visuel du cerveau pour reconnaître et classifier des images ou des
vidéos, et pour découvrir un objet ou même une partie dans une image.
La première partie d’un réseau de neurones convolutif est la partie convolutionnelle qui
sert à extraire les caractéristiques de l'image. Ensuite, l'image passe par le fichier de séquence
de filtre, ou le noyau d'enroulement, ce qui conduit à la création d'une nouvelle image appelée
cartes de convolution .
Une architecture CNN est formée par un empilement de couches de traitement indépendantes
La convolution est un outil mathématique utilisé pour simplifier des équations plus
complexes et pour faire du traitement de l’image et du signal numérique, car elle permet de
faire l’extraction des caractéristiques à partir des images d'entrées, afin d’appliquer le bon filtre
.Le filtre (aussi connu sous le nom du noyau de convolution) consiste en des poids appliquer à
une image. La sortie de la couche de convolution est l’image entrée mais avec certaines
modifications en constituant ainsi une carte des caractéristiques La couche de convolution
fonctionne de manière très différente des autres couches du réseau neuronal. Cette couche
34
Chapitre IV L'apprentissage en profondeur
n'utilise pas de poids de connexion et de somme pondérée. Au lieu de cela, elle contient des
filtres qui convertissent les images. Nous appellerons ces filtres des filtres de convolution .Si
par exemple, la couche de convolution contient quatre filtres, il générera quatre cartes de
caractéristiques. La convolution est une opération qui se base sur le plan bidimensionnel de la
donnée et son concept et ses étapes de calcul sont simples. [27]
Nous allons générer une carte des caractéristiques via l'opération de filtrage de
convolution de cette image. Pour cela, nous utilisons les deux filtres de convolution présentés
ci-dessous. Il convient de noter que les filtres du ConvNet sont déterminés par le processus de
formation et non par décision manuelle.
En commençant par le premier filtre, l'opération de convolution commence au coin supérieur
gauche de la matrice de la même taille que le filtre de convolution la Figure L'opération de
convolution est la somme des produits des éléments qui sont situées sur les mêmes positions
des deux matrices. Le résultat de 7 dans la matrice de résultat est trouvé comme suit: (1×1) +
(1×0) + (4×0) + (6×1) = 7
35
Chapitre IV L'apprentissage en profondeur
Le même processus se répète jusqu'à ce que la carte des caractéristiques du filtre donné soit
produite, comme le montre la figure
36
Chapitre IV L'apprentissage en profondeur
Nous combinons les pixels de l'image d'entrée dans une matrice de 2×2 sans que les
éléments chevauchent. Une fois que l'image d'entrée passe à travers la couche de Pooling, elle
se réduit en une image de 2×2 pixels. La figure montre les cas de Pooling qui en résulte en
utilisant le MeanPooling et MaxPooling.
Figure IV.9 : Les cas de pooling qui en résultent utilisent deux méthodes différentes
Les CNNs utilisent plus d'hyperparamètres qu'un MLP standard. Même si les règles
habituelles pour les taux d'apprentissage et des constantes de régularisation s'appliquent
toujours, il faut prendre en considération les notions de nombre de filtres, leur forme et la forme
du max pooling.
37
Chapitre IV L'apprentissage en profondeur
Les formes de filtre varient grandement dans la littérature. Ils sont généralement choisis
en fonction de l'ensemble de données. Les meilleurs résultats sur les images de MNIST (28 x
28) sont habituellement dans la gamme de 5 × 5 sur la première couche, tandis que les
ensembles de données d'images naturelles (souvent avec des centaines de pixels dans chaque
dimension) ont tendance à utiliser de plus grands filtres de première couche de 12 × 12, voire
15 × 15.
Le défi est donc de trouver le bon niveau de granularité de manière à créer des
abstractions à l'échelle appropriée et adaptée à chaque cas.
Les valeurs typiques sont 2 × 2 (figure 10). De très grands volumes d'entrée peuvent
justifier un pooling 4 × 4 dans les premières couches. Cependant, le choix de formes plus
grandes va considérablement réduire la dimension du signal, et peut entraîner la perte de trop
d'information.
38
Chapitre IV L'apprentissage en profondeur
Il existe plusieurs modèles dans le domaine des réseaux convolutifs qui ont un nom. Les
plus courants sont:
IV.10.1. ResNet :
Réseau résiduel développé par kaiming he et al. a été le gagnant d'ilsvrc 2015. il propose
des connexions spéciales et un usage intensif de la normalisation des lots . l'architecture ne
contient pas de couches entièrement connectées à la fin du réseau. (la présentation de kaiming
( vidéo , diapositives ) et quelques expériences récentes reproduisant ces réseaux dans
torch). resnets sont actuellement des modèles de réseaux neuronaux convolutifs de pointe et
constituent le choix par défaut pour l'utilisation de convnets dans la pratique. en particulier, voir
également les développements plus récents qui modifient l'architecture originale de kaiming he
et al. mappages d'identité dans des réseaux résiduels profonds
39
Chapitre IV L'apprentissage en profondeur
IV.10.2. VGG16
VGG16 est un réseau Covnet à 16 couches utilisé par le groupe de géométrie visuelle
(VGG) de l’Université d’Oxford dans le cadre du concours ILSVRC (ImageNet) en 2014. Le
modèle atteint un taux de succès de 92,5% dans le top 5 sur l’ensemble de validation
Il prend en entrée une image en couleurs de taille 224*224 px et la classifie dans une
des 1000 classes. Il renvoie donc un vecteur de taille 1000, qui contient les probabilités
d’appartenance à chacune des classes. L’architecture de VGG-16 est illustrée par les schémas
ci-dessous
IV.10.3. VGG19
Utilisé comme données d'entrée pour VGGNet. Dans la phase d'apprentissage, des
couches convolutives sont utilisées Extraction d'entités et de couches de pooling maximales
associées à certaines couches convolutivesRéduisez les dimensions des fonctions. Dans la
première couche convolutive, il y avait 64 cœurs
Appliquer pour extraire l'entité des images saisies. Des couches entièrement connectées
ont été utilisées pour préparer vecteurs de fonctions. Le vecteur de caractéristiques acquis est
en outre exposé pour PCA et SVD aux dimensions Réduisez et sélectionnez la fonction de
données d'image pour de meilleurs résultats de classification. réduire haut Les données
dimensionnelles utilisant PCA et SVD sont une tâche importante. PCA et SVD sont plus
bénéfiques car Elle est plus rapide et numériquement plus stable que les autres techniques de
40
Chapitre IV L'apprentissage en profondeur
réduction. Technique. Les performances du système basé sur VGG-19 ont été comparées à une
autre caractéristique Architectures d'extraction incluant AlexNet et SIFT. AlextNet est une
fonction d'extraction multicouche
La création d'un réseau de neurones convolutifs est une tâche difficile et coûteuse car
elle nécessite une bonne expérience, du matériel et la quantité de données nécessaires. La
première étape consiste à fondre l'architecture du réseau, c'est-à-dire le nombre de couches, la
taille et les opérations matricielles qui les relient, puis la formation consiste à optimiser les
paramètres du réseau pour réduire l'erreur de classification en sortie. Le temps d’exécution peut
prendre plusieurs jours pour les meilleurs réseaux CNN car les unités de traitement graphique
(GPU) fonctionnent sur des centaines de milliers d'images[26]
Un avantage majeur des réseaux convolutifs est l'utilisation d'un poids unique associé
aux signaux entrant dans tous les neurones d'un même noyau de convolution. Cette méthode
réduit l'empreinte mémoire, améliore les performances [27] et permet une invariance du
traitement par translation. C'est le principal avantage du CNN par rapport au MLP, qui lui
considère chaque neurone indépendant et donc affecte un poids différent à chaque signal
entrant. Lorsque le volume d'entrée varie dans le temps (vidéo ou son), il devient intéressant de
rajouter un paramètre de temporisation (delay) dans le paramétrage des neurones.
Comparés à d'autres algorithmes de classification de l'image, les réseaux de neurones
convolutifs utilisent relativement peu de pré-traitement. Cela signifie que le réseau est
responsable de faire évoluer tout seul ses propres filtres (apprentissage sans supervision), ce qui
n'est pas le cas d'autres algorithmes plus traditionnels. L'absence de paramétrage initial et
d'intervention humaine est un atout majeur des CNN.
41
Chapitre IV L'apprentissage en profondeur
IV.13. Conclusion
Dans ce chapitre, nous avons présenté les concepts de base des réseaux de neurones
artificiels et des réseaux de neurones à convolution (CNN) et nous avons présenté les opérations
de base des réseaux CNN à savoir, le fonctionnement de la couche de convolution, le Polling,
la couche complètement connectée.
42
Chapitre V
Résultats et analyse
V.1. Introduction .................................................................................................. 43
V.2. Performance de system ................................................................................ 43
V.3. Base de données utilisée ............................................................................... 44
V.4. Approche proposée ....................................................................................... 44
V.5. Détecteur SSD ............................................................................................. 45
V.6. Résultats ....................................................................................................... 45
V.7. Analyse et Comparaison ............................................................................... 53
V.8. Conclusion .................................................................................................... 54
Chapitre V Résultats et analyse
V.1. Introduction
Nous présenter dans ce chapitre une méthode de détection de visage basée sur les
réseaux de neurones convolutif, nous avons utilisé deux différents model de CNN ( resnet50
resnet101) et nous avons montré Des différents résultats obtenus en termes de ( précision / perte
) . La comparaison des résultats a montré que le nombre d'époques, la taille de la base et le
model CNN, sont des facteurs importants pour l'obtention de meilleurs résultats .Ce travail il a
été développé en utilisant le langage de programmation MATLAB (MATLAB de PC version
2022)
Résultat de noter system nous a donne troi type de courbe ( pour chaque paramètres une
courbe " précision RMES loss ")
Loss= -log(Y_pred)
L'erreur quadratique moyenne (RMSE). Elle est définie comme la racine carrée de
l'erreur quadratique moyenne.
43
Chapitre V Résultats et analyse
𝑛
1
𝑅𝑀𝑆𝐸 = √ ∑(𝜖𝑖)2
𝑛
𝑖=1
Avec :
- n, le nombre d'observations
La mesure de précision, elle évalue Le pourcentage de nombre des visage Détectée divisant
par Le nombre total de visage premier plan par l'algorithme suivent
Nous avons utilisé la base de données visage plus large )WIDER FACE( qui comprend
32 203 photos et identifie 393 703 visages avec un degré élevé de taille, répartis sur trois
répertoire le première dossier pour l’apprentissage ( WIDER_ train ) et le deuxième pour la
validation ( WIDER_ val) et le dernier pour le test (WIDER_ test) .
Nous avons choisi un model cnn pour avoir des matrice représente chaque application
filtre convolutif ensuit le ssd utilisé les caractéristiques pour Définir la zone du visage ,A
cet effet, nous avion utilisai , deux modèles onde CNN que nous expliquerons dans le prochain
titre , A partir d'une image générale, on détectai le visage comme la Figer suivent
44
Chapitre V Résultats et analyse
V.6. Résultats :
Après avoir appliqué notre programme utilisant deux modèles CNN (Resnet-50 ,
Resnet-101) On obtient les résultats suivants :
Expérience 1
Dans cette expérience nous avons utilisé le Model ResNet50 et le détecteur SSD pour
déterminer la zone de visage dans une image . nous avons utilisée 50 % de base de données et
tourne 4 fois sue la base de données (epoche=4)
45
Chapitre V Résultats et analyse
Tab.V.1 présente les résultats 1 obtenus pour chaque itération et le temps d'exécution de
chaque étapes .
46
Chapitre V Résultats et analyse
Expérience 2
Dans cette expérience nous avons utilisé le Model ResNet 50 et le détecteur SSD pour
déterminer la zone de visage dans une image . nous avons utilisée 100 % de base de données et
tourne 10 fois sue la base de données (epoche=10)
Tab.V.2 présente les résultats 2 obtenus pour chaque itération et le temps d'exécution de
chaque étapes .
47
Chapitre V Résultats et analyse
48
Chapitre V Résultats et analyse
Nous pouvons remarqué début les valeurs de (Loss , REMS) diminue très rapide jusqu'à
700 itération, puis elles diminuent lentement pour un nombre important des itérations jusqu'à
ce qu'elles se stabilise a la valeur (0.79 , 2.4163). et pour la courbe de précision (ACC) au début
la valeur de (Acc) augmente très rapide jusqu'à 700 itération puis elles augmente lentement un
nombre important des itérations jusqu'à ce qu'elles se stabilise a la valeur (99.85%).
Expérience 3
Dans cette expérience nous avons utilisé le Model ResNet101 et le détecteur SSD pour
déterminer la zone de visage dans une image . nous avons utilisée 50 % de base de données et
tourne 4 fois sue la base de données (epoche=4)
Tab.V.3 présente les résultats 3 obtenus pour chaque itération et le temps d'exécution de
chaque étapes .
49
Chapitre V Résultats et analyse
50
Chapitre V Résultats et analyse
Figure V.6 : Les courbes Résultats de Expérience 3
Nous pouvons remarqué début les valeurs de (Loss , REMS) diminue très rapide jusqu'à
350 itération, puis elles diminuent lentement pour un nombre important des itérations jusqu'à
ce qu'elles se stabilise a la valeur (0.75 , 2.3226). et pour la courbe de précision (ACC) au début
la valeur de (Acc) augmente très rapide jusqu'à 350 itération puis elles augmente lentement un
nombre important des itérations jusqu'à ce qu'elles se stabilise a la valeur (99.85%).
Expérience 4
Dans cette expérience nous avons utilisé le Model ResNet101 et le détecteur SSD pour
déterminer la zone de visage dans une image . nous avons utilisée 100 % de base de données et
tourne 10 fois sue la base de données (epoche=10)
Tab.V.4 présente les résultats 4 obtenus pour chaque itération et le temps d'exécution de
chaque étapes .
51
Chapitre V Résultats et analyse
nous pouvons remarqué début les valeurs de (Loss , REMS) diminue très rapide jusqu'à
750 itération, puis elles diminuent lentement pour un nombre important des itérations jusqu'à
ce qu'elles se stabilise a la valeur (0.48, 1.8280). et pour la courbe de précision (ACC) au début
la valeur de (Acc) augmente très rapide jusqu'à 750 itération puis elles augmente lentement un
nombre important des itérations jusqu'à ce qu'elles se stabilise a la valeur (99.91%).
52
Chapitre V Résultats et analyse
Les courbes (Loss, REMS, ACC) ont une forme similaire pour toutes les expériences
mais avec des valeurs différentes.
Sur cette base, nous pouvons analyser ces résultats comme suit :
Au début les courbes (loss, REMS) diminuent rapidement et les courbes de précision
augmentent rapidement aussi, Cela est dû au fait que le modèle est nouveau et qu'au début de
son apprentissage les résultats s'améliorent rapidement et cela grâce à la phase d'apprentissage
où il acquiert des informations sur les images de la base de données et le zones de visages.
Quant aux meilleurs résultats, il était évident lors de l'utilisation de 100% de la base de
données, cela est dû au fait que plus le modèle apprend sur un grand nombre d'images, meilleurs
sont les résultats.
53
Chapitre V Résultats et analyse
Et au final, le meilleur résultat de notre expérience est de résultat 4 (utilisant le model
ResNet-101 avec le nombre total des images de notre base de données et bien sur le maximum
des epochs appliqués )
V.8. Conclusion
Nous avons présenté dans ce chapitre une approche de classification basée sur les
réseaux de neurones convolutif, pour cela nous avons utilisé trois modèles avec différents
architectures et nous avons montré les différents résultats obtenus en termes de précision et
d'erreur. La comparaison des résultats trouvés a montré que le nombre d'époque, la taille de la
base et la profondeur de réseaux, sont des facteurs importants pour l'obtention de meilleurs
résultats.
54
Conclusion Générale
La biométrie est un domaine à la fois intéressant et complexe. elle tente, par des outils
mathématiques souvent très évolués, de faire la distinction entre des individus, nous obligeant
à travailler dans un contexte de très grande diversité. cette diversité se retrouve également
dans le nombre considérable d’algorithmes qui ont été proposés en détection de visage.
Notre travail basé sur le problème de détection de visage, qui consiste à la mise au
point d’un système robuste destiné a détecté le visage dans une image en utilisant la technique
de réseau de neurone convolutif,
En guise de perspectives, dans un premier temps une extension de ce travail peut être
envisagée par l’étude et la réalisation d’un système biométrique de détection de visage avec
des performances assez hautes exemples utilisé des autre modèles CNN, d’autres détecteurs et
créer un nouveau modèle qui fait l'apprentissage sur une nouvelle base de données proposée
spécifique aux visages cela nous a donné un bon résultat malgré le problème de matériel
55
Références
[1] Dictionnaire de Larousse, biométrie.
[3] https://www.thalesgroup.com/fr/europe/france/dis/gouvernement/inspiration/biometrie
[4] ISO/IEC 19795-1. Information technology – biometric performance testing and reporting – part 1 :
Principles and framework, 2006. [cit´e p. 3, 14, 20, 21, 22, 23, 26, 27, 33, 154]
[5] P. Florent, D. Jean-Luc, Introduction à la Biométrie Authentification des Individus par Traitement Audio-
Vidéo, Institut Eurécom, 2007.
[7] N. K. Ratha, J. H. Connell, and R. M. Bolle. An analysis of minutiae matching strength. In Audio- and
Video-Based Biometric Person Authentication, pages 223–228, 2001. [cit´e p. 3, 4, 22, 56]
[8] T. Matsumoto, H. Matsumoto, K. Yamada, and S. Hoshino. Impact of artificial “gummy” fingers on
fingerprint systems. In The International Society for Optical Engineering, volume 4677, 2002. [cit´e p. 22]
[9] M. Theofanos, B. Stanton, and C. A. Wolfson. Usability & Biometrics : EnsuringSuccessful Biometric
Systems. National Institute of Standards and Technology (NIST),2008. [cit´e p. 23]
[10] Ahlem ADJIMI Classification des empreintes digitales par les réseaux de neurones flous Master
Académique en Informatique Université de M’sila 27/06/2012
[13] L. Deng, D. Yu, et al., “Deep learning : methods and applications,” Foundations and Trends R in Signal
Processing, vol. 7, no. 3–4, pp. 197–387, 2014.
[15] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I.
Antonoglou, V. Panneershelvam, M. Lanctot, et al., “Mastering the game of go with deep neural networks
and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.
[17] E. Gibney, “Google reveals secret test of ai bot to beat top go players.,” Nature, vol. 541, no. 7636,p. 142,
2017.
56
[18] A. Esteva, B. Kuprel, R. A. Novoa, J. Ko, S. M. Swetter, H. M. Blau, and S. Thrun, “Dermatologistlevel
classification of skin cancer with deep neural networks,” Nature, vol. 542, no. 7639, pp. 115–118, 2017.
[19] H. C. Hazlett, “Early brain development in infants at high risk for autism spectrum disorder,” in Biological
Psychiatry, vol. 73, pp. 115S–115S, ELSEVIER SCIENCE INC 360 PARK AVE SOUTH, NEW YORK,
NY 10010-1710 USA, 2013.
[20] L. A. Gatys, A. S. Ecker, and M. Bethge, “A neural algorithm of artistic style,” arXiv preprint arXiv
:1508.06576, 2015.
[21] R. Dechter and J. Pearl, The cycle-cutset method for improving search performance in AI applications.
University of California, Computer Science Department, 1986.
[22] I. Aizenberg, N. N. Aizenberg, and J. P. Vandewalle, Multi-Valued and Universal Binary Neurons : Theory,
Learning and Applications. Springer Science & Business Media, 2013.
[23] https://dataanalyticspost.com/deep-learning-vieille-histoire-reserve-surprises/2022/05/05
[24] Charu C. Aggarwal, Neural Networks and Deep Learning, IBM T. J. Watson Research Center International
Business Machines,Yorktown Heights, NY, USA.
[25] https://mobiskill.fr/blog/conseils-emploi-tech/quels-sont-les-algorithmes-de-deeplearning/2022/05/05
[26] Phil Kim; Matleb Deep learning with machine learning, Neural networks and Artificial intelligence.
[27] A. Krizhevsky, I. Sutskever et G. E. Hinton. ImageNet Classification with Deep Convolutional Neural
Networks », Advances in neural Processing Systems de traitement. 2012.
[29] LeCun, Yann. L’apprentissage prédictif est le grand défi scientifique de l’intelligence artificielle .
[30] R.Chellappa et al « Human and machine recognition of faces : A survey, Proc IEEE 83,5,1995
[31] Valentin et al « Connectionist models of face processing : A survey » , Pattern Recog,27 ,1209-1230,1994
[33] H. A. Rowley, S. Baluja, and T. Kanade, Neural Network-Based Face Detection,IEEE Trans. Pattern
Analysis Machine Intelligence, vol. 20 no. 1, pp. 23-38, January1998
[34] Ming Hsuan Yang, David J. Kriegman, and Narendra Ahuja. Detecting Faces inImages: A Survey. IEEE
Transactions on Pattern Analysis and Machine Intelligence,vol. 24, no. 1, pp. 34–58, January 2002.
[35] S.A. Sirohey, Human Face Segmentation and Identification, Technical Report CS-TR-
57