0% ont trouvé ce document utile (0 vote)

23 vues21 pages

INF1421 Module1 Introduction - Jan2019

Le document présente une introduction à l'apprentissage machine, ses techniques principales telles que l'apprentissage supervisé, non supervisé, semi-supervisé et par renforcement, ainsi que ses champs d'application variés, notamment la reconnaissance de formes et le forage de données. Il décrit également des exemples d'applications dans des domaines comme la médecine, la reconnaissance d'écriture manuscrite, la reconnaissance faciale, l'apprentissage de l'apprenant et la foresterie. Ce module sert de base pour comprendre les concepts et méthodes de l'apprentissage machine.

Transféré par

jahnounti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

23 vues21 pages

INF1421 Module1 Introduction - Jan2019

Transféré par

jahnounti

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module 1

Introduction à l’apprentissage
machine

Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Techniques d’apprentissage machine . . . . . . . . . . . . . . . 3
1.3 Champs d’application de l’apprentissage machine . . . . . . . 6
1.3.1 Reconnaissance de formes . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Forage de données . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 Exemples d’applications . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Principe de l’apprentissage machine . . . . . . . . . . . . . . . 11
1.4.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Décisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Étapes de l’apprentissage machine . . . . . . . . . . . . . . . . 15
1.5.1 Collecte des données . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5.2 Extraction et sélection des caractéristiques . . . . . . . . . . . 15
1.5.3 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.4 Entraı̂nement, test et validation du modèle . . . . . . . . . . . 16
1.5.5 Validation par K-fold . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 Évaluation d’un système de reconnaissance de forme . . . . . 17
1.6.1 Taux de classification . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Dernière mise à jour le 3 janvier 2019

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 2/ 21

1.1 Introduction
L’apprentissage machine (aussi appelé apprentissage artificiel ou automatique, en an-
glais machine learning) est le processus par lequel un ordinateur acquiert de nouvelles
connaissances et améliore son mode de fonctionnement en tenant compte des résultats
obtenus lors de traitements antérieurs (Office québécois de la langue française, 2010).
Ceci permet de regrouper toutes les méthodes qui permettent de construire un modèle
de la réalité à partir de données, soit en améliorant un modèle existant moins général,
soit en créant un nouveau modèle représentatif de nouvelles données [4]. Ces modèles
servent souvent à prendre des décisions.

Il existe deux approches principales en apprentissage machine. La première est issue de

l’intelligence artificielle syntaxique ou symbolique. Elle est fondée sur la modélisation du
raisonnement logique et sur la représentation et la manipulation de la connaissance par
des symboles formels. La deuxième est issue de l’intelligence artificielle statistique ; elle
est qualifiée de statistique aussi parfois numérique parce que, souvent, la représentation
et la manipulation de la connaissance sont sous une forme numérique [4].

Le cours INF 1421 s’intéresse à l’apprentissage machine statistique.

1.2 Techniques d’apprentissage machine

Les algorithmes d’apprentissage sont catégorisés selon les techniques d’apprentissage qu’ils
emploient. Nous en citons l’apprentissage supervisé, l’apprentissage non supervisé, l’ap-
prentissage par renforcement et l’apprentissage semi-supervisé.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 3/ 21

Apprentissage machine

Apprentissage Apprentissage Apprentissage Apprentissage

supervisé non-supervisé semi-supervisé par renforcement

Regroupement
Règle
(Clustering)
d’association
Modules 5 et 6

Classification
(Modules 2, Regression
3, 4, 5 et 7)

Figure 1.1: Techniques d’apprentissage machine.

Apprentissage supervisé
Dans le cas d’un apprentissage supervisé (en anglais supervised learning), le système
observe des couples de types entrée-sortie et apprend une fonction (un modèle) qui permet
d’aboutir à la sortie à partir de l’entrée. Cette phase est appelée phase d’apprentissage
ou d’entraı̂nement. C’est en ce sens que l’apprentissage est appelé supervisé, métaphore
qui signifie qu’un professeur apprend au système la sortie à fournir pour chaque entrée.
Les données d’entrée et les données de sortie correspondantes, aussi appelées classes,
sont connues (aussi dites labellisées ou étiquetées). Telles que décrits précédemment,
elles sont regroupées dans un ensemble de données appelées données d’apprentissage ou

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 4/ 21

d’entrainement qui se présentent sous la forme de couples (xi , yi )1≤i≤N avec N le nombre
d’échantillons.

Apprentissage non supervisé

Contrairement à l’apprentissage supervisé, dans le cas non supervisé les données de sortie
ne sont pas connues. Le système apprend alors de lui-même à organiser les données ou
à déterminer des structures dans les données. La tâche d’apprentissage la plus courante
est le regroupement (clustering en anglais) qui consiste à regrouper les données d’entrées
selon leurs caractéristiques communes. Ce type d’apprentissage est utilisé dans le but de
visualiser ou explorer des données.

Apprentissage semi supervisé

L’apprentissage semi-supervisé se base sur un mélange de données étiquetées et non-
étiquetées. Ceci permet, d’une part, d’améliorer la qualité de l’apprentissage, et d’autre
part, de réduire le temps de préparation des données pour leur étiquetage.

Apprentissage par renforcement

L’apprentissage par renforcement se base sur des données d’entrée similaires à celles uti-
lisées en apprentissage supervisé. Cependant dans ce cas, l’apprentissage est guidé par
l’environnement sous la forme de récompenses (positive ou négative) calculées en fonction
de l’erreur commise lors de l’apprentissage. En robotique, l’apprentissage par renforce-
ment a permis de mettre au point des robots plus autonomes et adaptatifs que ceux
existants.

Le cours INF1421 présente les deux techniques les plus utilisées en apprentissage à savoir
l’apprentissage supervisé et l’apprentissage non supervisé.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 5/ 21

1.3 Champs d’application de l’apprentissage machine
Les champs d’application de l’apprentissage machine peuvent être regroupés selon deux
grands axes : la reconnaissance de formes et la fouille de données.

1.3.1 Reconnaissance de formes

La reconnaissance ou classification de formes (en anglais, pattern recognition) est l’en-
semble des techniques permettant à l’ordinateur de détecter la présence de formes vi-
suelles ou auditives spécifiées, en comparant leurs caractéristiques avec celles de motifs
de référence (Office québécois de la langue française, 2010). Les domaines d’applica-
tion de la reconnaissance des formes sont très variés. Ils regroupent la reconnaissance de
textes imprimés (hors ligne) ou manuscrits (en ligne), la reconnaissance de signature, la
reconnaissance vocale et la programmation de robots. Certaines de ces applications seront
détaillées dans la section 1.3.3.

1.3.2 Forage de données

Le forage de données (en anglais, data mining) est l’ensemble des techniques de recherche
et d’analyse de données qui permet de dénicher des tendances ou des corrélations cachées
parmi des masses de données, ou encore de détecter des informations stratégiques ou de
découvrir de nouvelles connaissances, en s’appuyant sur des méthodes de traitement sta-
tistique (Office québécois de la langue française, 2010). De ce fait, nous retrouvons toutes
les applications qui utilisent l’informatique décisionnelle pour déterminer, par exemple,
quels sont les critères qui regroupent les consommateurs de certaines régions ou bien quels
sont les indicateurs qui ont entrainé le déclenchement de certaines maladies.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 6/ 21

1.3.3 Exemples d’applications
L’apprentissage machine est un domaine de recherche multidisciplinaire qui permet de
créer des systèmes non biologiques qui imitent les capacités des systèmes biologiques.
Dans ce qui suit nous citerons quelques exemples :

Applications médicales
Le domaine médical est devenu parmi les principaux utilisateurs de l’apprentissage ma-
chine. La segmentation et l’annotation automatique de structures dans les images biomédicales
utilisent des techniques d’apprentissage machine pour plusieurs applications clés dont
l’aide au diagnostic, le suivi de structure anatomique et le suivi de pathologies. La figure
1.2 illustre la segmentation d’image de colonnes vertébrales pour l’aide au diagnostic et
le suivi de la scoliose idiopathique [3].

Figure 1.2: Segmentation de colonnes vertébrales basée sur des réseaux de neurones [3].

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 7/ 21

Reconnaissance de l’écriture manuscrite
Les systèmes de reconnaissance de l’écriture manuscrite ont pour but de traduire un
texte écrit en un texte codé numériquement. La reconnaissance de l’écriture manuscrite
regroupe deux types de systèmes : les systèmes hors-ligne et les systèmes en ligne.

Dans les systèmes de reconnaissance d’écriture hors-ligne ou statiques, l’écriture se présente

sur un support classique tel que le papier. Après numérisation, on obtient une image. Dans
ce cas, l’objectif est de traiter des documents de manière automatique. À l’opposé de ce
mode d’acquisition, la reconnaissance de l’écriture en ligne s’effectue souvent au moment
même où le scripteur écrit. L’acquisition est réalisée au moyen d’un stylet et d’une ta-
blette électronique qui peut être assimilée à un papier électronique. L’information acquise
correspond au suivi de la trajectoire de la pointe du stylet sur la tablette, laquelle est
mémorisée sous forme de signaux dépendants du temps, c’est-à-dire une séquence de co-
ordonnées de points ordonnées dans le temps (x(t), y(t)).
Figure 1.3: Google Handwiting.
Il existe sur le marché plusieurs applications de reconnaissance d’écriture manuscrite hors-
ligne (Exemple : GOCR, OCRopus et Tesseract) et en-ligne (Google Handwiting, Figure
1.3). Ces applications permettent la reconnaissance de chèque, la reconnaissance de codes
postaux et la reconnaissance d’adresse.

Reconnaissance de visage
La reconnaissance de visage est un domaine de la vision par ordinateur qui consiste
à reconnaı̂tre automatiquement une personne à partir d’une image de son visage. La
reconnaissance de visage trouve son application dans de nombreuses applications en
vidéosurveillance, biométrie, robotique, indexation d’images et de vidéos.
Il existe actuellement plusieurs applications commercialisées ou en cours de développement.
À titre d’exemple, nous citons le système de reconnaissance faciale, DeepFace, développé
par le réseau social Facekook dont la précision est à peine inférieure à ce que peut faire un
humain [2]. Cette technologie, qui demeure encore à l’étape de projet, a été développée

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 8/ 21

Figure 1.4: Système de reconnaissance faciale pour la vidéosurveillance dans les aéroports. [1].

par trois chercheurs internes de Facebook et un professeur de l’université de Tel-Aviv. Le

système de classification est capable de déterminer si deux photos contiennent le même
visage avec un taux de réussite de 97,25 %.

Apprentissage de l’apprenant (Learning analytics)

Ce section d’application est relativement récent. Son objectif est de mettre en place des
méthodes d’apprentissage personnalisées selon le besoin de l’apprenant. Grâce à l’appren-
tissage automatique, il est désormais possible de connaı̂tre l’apprenant : les algorithmes
collectent et analysent les données d’apprentissage pertinentes afin d’adapter le processus
de formation [5].

Foresterie
Les techniques d’apprentissage machine touche également de domaine de la foresterie. En
effet ces techniques sont utilisées afin d’identifier et de quantifier les arbres dans les forêts,

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 9/ 21

de manières automatiques à partir d’une application installée sur un terminal mobile (Fig.
1.5). L’objectif étant d’aider les propriétaires fonciers, les groupes de conservation et les
entreprises forestières à gérer leur inventaire et à préserver des habitats naturels précieux
[6].

Applications militaires
Le secteur du militaire est aussi l’un des principaux utilisateurs de l’apprentissage ma-
chine. Nous citons, à titre d’exemple, BigDog est un robot quadrupède à l’allure d’un
chien créé en 2005 par la société américaine Boston Dynamics en collaboration avec l’uni-
versité Harvard (Figure 1.7). Il s’agit d’un robot destiné à accompagner les soldats en Figure 1.5: Application Craze Branches dans
leur transportant du matériel dans des terrains trop irréguliers pour les véhicules. Le le domaine de la foresterie [6].
déplacement de BigDog est contrôlé par un système embarqué intelligent qui utilise un
réseau de capteurs. Le lien BigDog permet de visualiser une vidéo de ce robot sur Youtube.
Les drones utilisent également des techniques d’apprentissage machine pour pouvoir ef-
fectuer de nombreuses tâches complexes de manière autonome telle que le décollage,
l’atterrissage, la navigation ou même la destruction de cible. (Figure 1.6).

Figure 1.6: Drones.

Figure 1.7: Le robot BigDog.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 10/ 21
1.4 Principe de l’apprentissage machine
La définition présentée à la section 1.1 permet de ressortir les éléments importants sui-
vants sur le principe de l’apprentissage machine : il s’agit d’un ensemble de méthodes qui
permettent de construire un modèle de la réalité à partir de données, soit en améliorant
un modèle existant moins général, soit en créant un nouveau modèle représentatif de Données Modèles Décision
nouvelles données. Les modèles servent souvent à prendre des décisions.
Figure 1.8: Principe de l’apprentissage
Cette définition permet de schématiser le principe de l’apprentissage machine selon la
machine.
figure 1.8 dans laquelle nous avons en intrant un ensemble de données qui permettent de
construire un modèle. Ce modèle est utilisé pour la prise de décision.
Nous allons décrire dans la suite chacun de ces éléments puisqu’ils sont à la base du
principe de l’apprentissage machine.

1.4.1 Données
Le mot donnée se définit de différentes manières dans la littérature, selon les domaines
et les champs d’application. Mentionnons quelques exemples : Une donnée est...
• un enregistrement caractérisé par un ensemble de champs (terminologie des bases
de données).
• un individu défini par un ensemble de caractéristiques ou de variables (terminologie
issue de la statistique et du forage de données).
• une forme définie par un ensemble de caractéristiques ou de variables (terminologie
issue de la reconnaissance de formes).
• une instance caractérisée par un ensemble d’attributs (terminologie orientée objet
en informatique).
Étant donné que l’apprentissage machine trouve son application dans les axes de recon-
naissance de forme et de forage de données, nous utiliserons souvent les terminologies
issues de ces deux axes. Une donnée est donc un individu ou une forme caractérisée par

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 11/ 21
un ensemble de variables ou de caractéristiques.

La détermination du type de chaque variable est une étape nécessaire avant leur analyse.
Cette étape permet de décider des méthodes d’analyse appropriées.

Variables qualitatives
Une variable est dite qualitative si ses valeurs ne sont pas mesurables. Les valeurs d’une
variable qualitative sont appelées modalités. Le sexe, la profession, l’état matrimonial
sont quelques exemples de variables qualitatives. Les modalités de la variable sexe sont
Féminin et Masculin.

Une variable qualitative est dite ordinale si ses modalités suivent une relation d’ordre.
Par exemple, une pathologie peut être légère , modérée ou sévère . Ces valeurs
peuvent être ordonnées : légère < modérée < sévère, donc on parle d’une variable ordinale.

Une variable qualitative est dite nominale si ses modalités ne sont pas ordonnées natu-
rellement. Par exemple, dans une population de personnes actives, la profession est une
variable nominale.

Variables quantitatives
Une variable quantitative est dite discrète si elle ne peut prendre que des valeurs qui
peuvent être énumérées. Par exemple, le nombre de professeurs universitaires dans un
département ou le nombre d’étudiants dans une classe.
La variable quantitative est dite continue si ses valeurs potentielles ne peuvent pas être
énumérables (ou sont difficilement énumérables).

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 12/ 21
Variables binaires
Les variables binaires sont des variables quantitatives discrètes qui possèdent des pro-
priétés particulières.
Nous distinguons deux types de données binaires :
• Données symétriques : une variable binaire est dite symétrique si ses deux moda-
lités ont la même importance, c’est-à-dire si celles-ci peuvent être indifféremment
codées par 0 ou 1. Par exemple, la variable sexe peut être codée par 0 ou 1 pour
masculin (de même que pour féminin).
• Données asymétriques : une variable binaire est dite asymétrique si les deux mo-
dalités n’ont pas la même importance. Par exemple, le résultat d’un examen médical
ne peut pas être codé par 0 (négatif) ou 1 (positif) en ce qui concerne son impor-
tance.
I Exemple 1.1 Prenons l’ensemble de données décrites dans le tableau suivant :

Tableau 1.1: Un ensemble de données E décrivant la possibilité de jouer au tennis selon les
conditions météorologiques.
Individus Ciel Temp. (en °C) Humidité Vent Jouer
J1 Soleil 38 Élevée Faible Non
J2 Soleil 39 Élevée Fort Non
J3 Couvert 37.7 Élevée Faible Oui
J4 Pluie 20 Élevée Faible Oui
J5 Pluie 15 Normale Faible Oui
J6 Pluie 18 Normale Fort Non
J7 Couvert 18 Normale Faible Oui
J8 Soleil 21 Élevée Faible Non
J9 Soleil 15 Normale Faible Oui
J10 Pluie 21 Normale Fort Oui
J11 Soleil 23.5 Normale Fort Oui
J12 Couvert 23 Élevée Fort Oui
J13 Couvert 40 Normale Faible Oui
J14 Pluie 20 Élevée Fort Non

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 13/ 21
L’analyse de ce tableau permet de voir que nous disposons de 14 individus (14 jours : J1
à J14). Chaque individu est caractérisé par 4 variables qui correspondent aux conditions
météorologiques (État du ciel, Température, Humidité dans l’air, Force du vent). La classe
Jouer peut prendre les valeurs Oui ou Non.
La description des variables peut être résumée dans le tableau suivant :

Tableau 1.2: Description des variables.

Variables Type Unités/Modalitées

Ciel Qualitative Soleil, Couvert, Pluie
Temp. Qunatitative continue °C Figure 1.9: Température des 14 jours.
Humidité Qualitative Élevée, Normale
Vent Qualitative Fort, Faible

La figure 1.9 représente la variation de température au cours des 14 jours et la figure 1.10
le diagramme circulaire des variables Ciel, Humidité et Vent.

1.4.2 Modèles
Figure 1.10: Diagramme circulaire de la
La détermination du modèle est une étape importante de l’apprentissage machine. Cette
variable Ciel.
étape permet de déterminer une fonction qui permet de renvoyer une décision à partir des
données d’entrée (données d’apprentissage). Il existe plusieurs modèles possibles dans la
littérature parmi lesquels nous citons le modèle de Bayes (qui sera traité au Module 2)
et le modèle neuronal (qui sera traité au Module 5).

1.4.3 Décisions
La décision à prendre dépend essentiellement de la problématique de l’apprentissage ma-
chine à résoudre. Par exemple, s’il s’agit d’un problème de reconnaissance de forme, la

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 14/ 21
décision consiste souvent à reconnaı̂tre la classe de la forme (plus de détails sont four-
nis dans le Module 2). Par contre s’il s’agit d’un problème de regroupement, la décision
consistera à identifier les différents regroupements (plus de détails sont fournis dans le
Module 6).

1.5 Étapes de l’apprentissage machine

1.5.1 Collecte des données
La collecte de données est une étape très importante en apprentissage machine. Cette
étape est souvent coûteuse en temps et en argent. Les données collectées servent aussi
bien pour le développement du modèle que pour sa validation (comme décrit dans la
suite).

1.5.2 Extraction et sélection des caractéristiques

En apprentissage machine, nous travaillons rarement avec des données brutes. Une étape
d’extraction des caractéristiques est souvent nécessaire. Elle consiste à projeter l’ensemble
des données originales de dimension N dans un autre espace de dimension d via une trans-
formation A. Cet espace est appelé espace des caractéristiques.
x1
y1
Une caractéristique peut être par exemple : la couleur dans une image ou sa texture, la x2
surface d’un objet, son périmètre, la longueur des axes majeur et mineur, les angles des
Données
brutes x3 A y2
yd
Modèle Décision

axes majeur et mineur etc. xN

Figure 1.11: Extraction des caractéristiques.

Dans certains cas, nous réalisons, aussi, une sélection des caractéristiques qui consiste à
trouver les d0 caractéristiques parmi les d possibles qui discriminent le mieux les formes
à étudier.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 15/ 21
La caractéristique est, souvent, notée par x s’il s’agit d’un scalaire et par x = (x1 , x2 , ...., xd )t
s’il s’agit d’un vecteur de d variables ou caractéristiques.

1.5.3 Choix du modèle

Le choix du modèle dépend essentiellement des données à analyser et de la problématique
en question. Les paramètres du modèle sont déterminés durant la phase d’apprentissage
en utilisant l’algorithme qui lui est spécifique.

1.5.4 Entraı̂nement, test et validation du modèle

L’ensemble des données considérées pour une analyse par apprentissage machine supervisé
peut être réparti en trois sous-ensembles :
— Un ensemble d’entraı̂nement qui est utilisé pour l’apprentissage (entraı̂nement) des
paramètres du modèle.
— Un ensemble de validation. Il s’agit d’un ensemble de données qui permet d’évaluer
le modèle pendant la phase d’entraı̂nement. Cette étape, appelée validation du
modèle peut être omise en passant à la phase de test directement.
— Un ensemble de test. Une fois le modèle construit à partir de l’ensemble d’en-
traı̂nement, le modèle est évalué en utilisant un ensemble de test : un ensemble
d’échantillons n’ayant pas servi pour l’apprentissage.

Il existe différents types d’algorithmes pour réaliser le partage des données en données
d’apprentissage et données de test. Parmi ces méthodes on trouve la validation par K-fold.

1.5.5 Validation par K-fold

Le principe de cette méthode de validation consiste à diviser l’échantillon original en
K échantillons de même taille. Puis on prend un échantillon pour procéder à la valida-
tion. On répète le processus jusqu’à l’atteinte des K échantillons. En d’autres termes,

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 16/ 21
on divise l’ensemble des données original en K échantillons, puis on sélectionne un des
K échantillons comme ensemble de tests et les (K − 1) autres échantillons constitueront
l’ensemble d’apprentissages pour le développement du a conception du système de clas-
sification. À la fin, on prend la moyenne des résultats de validations pour avoir un seul
résultat.
La répartition la plus communément utilisée entre ces ensembles est une proportion de
2/3 pour l’apprentissage et 1/3 pour le test, c’est-à-dire avec un K = 3. Dans le cas de
grande taille de base de données, la validation 10-folds est plus appropriée.

I Exemple 1.2 Soit un ensemble de données de 1200 échantillons répartis équitablement

sur 4 classes. Nous désirons faire une partition 2/3 pour l’entraı̂nement et 1/3 pour le
test. Dans ce cas, nous devons considérer 800 échantillons pour l’entraı̂nement et 400
échantillons pour le test (soit 100 échantillons par classe pour le test).

1.6 Évaluation d’un système de reconnaissance de

forme
Lorsque l’apprentissage machine a pour objectif de développer un système de recon-
naissance (classification) de formes, la validation se fait en calculant le taux de bonne
classification et à travers la matrice de confusion.

1.6.1 Taux de classification

Soit S un ensemble d’échantillons d’apprentissage, et T un ensemble d’échantillons de test.
L’estimation du taux de bonne classification est mesurée sur l’ensemble de test selon :
nbr bien classifié(T)
τ=
nbr(T)

C’est-à-dire le rapport entre le nombre d’échantillons de l’ensemble de test qui sont bien

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 17/ 21
classifiés par rapport au nombre total d’échantillons de la base de test.

Le taux de bonne classification est généralement donné en pourcentage. Il lui correspond

une valeur complémentaire à 100 correspondant au taux d’erreur.
I Exemple 1.3 Reprenons l’ensemble de données décrites précédemment. Admettons
que la totalité des données a servi pour l’entraı̂nement (J1 à J14) et que nous dispo-
sons d’un ensemble de données de test constitué de 5 individus (5 jours : J15 à J19). Soit
Pred-Jouer la classe prédite par un classificateur quelconque.

Individus Ciel Temp. (en °C) Humidité Vent Jouer Pred-Jouer

J15 Soleil 38 Élevée Faible Non Oui
J16 Soleil 39 Élevée Fort Non Non
J17 Couvert 37.7 Élevée Faible Oui Oui
J18 Pluie 20 Élevée Faible Oui Non
J19 Pluie 15 Normale Faible Oui Oui

L’analyse de ce tableau permet de voir que la classe réelle Jouer est égale à la classe
prédite Pred-Jouer pour trois individus. Nous pouvons donc conclure que le taux de
bonne classification est de 3/5 ou bien 60%. Nous pouvons aussi dire que le taux d’erreur
est de (100 - 60) = 40%.

1.6.2 Matrice de confusion

La matrice de confusion est aussi connue sous les termes matrice d’erreur, tableau de
contingence ou matrice d’erreur de classification.

C’est une matrice (ou un tableau) affichant les statistiques de la précision de classification
et plus particulièrement les taux de classification par classes. Généralement, L’informa-
tion des lignes (données horizontales) correspond aux classes réelles des formes. Quant
aux colonnes (données verticales), elles contiennent l’information prédite résultant de la

Les valeurs de la diagonale de la matrice représentent le nombre de formes correctement

classifié. La somme des valeurs par ligne correspond au nombre d’échantillons de test par
classe. Le taux de classification par classes est donné par la valeur à la diagonale divisée
par la somme des valeurs par ligne.

I Exemple 1.4 Nous désirons dans cet exemple construire la matrice de confusion du
tableau de données précédent sachant que Jouer est la classe réelle et Pred-Jouer est la
classe prédite.

Individus Ciel Temp. (en °C) Humidité Vent Jouer Pred-Jouer

J15 Soleil 38 Élevée Faible Non Oui
J16 Soleil 39 Élevée Fort Non Non
J17 Couvert 37.7 Élevée Faible Oui Oui
J18 Pluie 20 Élevée Faible Oui Non
J19 Pluie 15 Normale Faible Oui Oui

L’analyse de ce tableau montre que la classe réelle est égale à la classe prédite sauf pour
J15 et J18. Nous pouvons donc représenter la matrice de confusion suivante :

Pred-Jouer
Oui Non
Jouer

Oui 2 1
Non 1 1

Ensuite, nous pouvons calculer le taux de bonne classification de Jouer=Oui et Jouer=

Non :
2
τ (Oui) = ∗ 100 = 66.6%
3
1
τ (Non) = ∗ 100 = 50%
2

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 19/ 21
Ainsi, nous retrouvons le taux de bonne classification global (situé sur la diagonale) :

(2 + 1)
τ= ∗ 100 = 60%
5

1.7 Annexes
Outre les fonctions standards de R décrites dans le Guide de notions générales , nous
présentons, ici, quelques fonctions utiles pour la compréhension et l’application des no-
tions étudiées précédemment en utilisant le logiciel R.
• readxl : est le paquet de transfert d’un fichier excel vers R.
https://cran.r-project.org/web/packages/readxl/index.html.
• boxplot : est la fonction qui permet d’afficher le graphique boite à moustache.
• plotix (Various Plotting Functions) : Il s’agit d’un ensemble de fonctions permet-
tant la génération de différents types de graphiques.
• confusionMatrix : est la fonction qui permet de calculer la matrice de confusion à
partir d’un tableau de données qui contient la classe réelle et la classe prédite.
https://www.rforge.net/doc/packages/SDMTools/confusion.matrix.html.

©Neila Mezghani, TÉLUQ, 2019. Tous droits réservés. Module 1 - Page 20/ 21
Références
[1] Caméra de vidéosurveillance à reconnaissance faciale. http://www.
inter-assistance.com/videosurveillance-reconnaissance-faciale.html.
Consulté : 20 septembre 2016.
[2] ”deepface”, le nouveau système de reconnaissance faciale de facebook qui
fait froid dans le dos. http://www.huffingtonpost.fr/2014/03/20/
deepface-reconnaissance-faciale-facebook_n_5000872.html. Consulté :
29 septembre 2016.
[3] B. Aubert, C. Vazquez, T. Cresson, S. Parent, and J. De Guise. Automatic spine and
pelvis detection in frontal x-rays using deep neural networks for patch displacement
learning. In 2016 IEEE 13th International Symposium on Biomedical Imaging (ISBI),
pages 1426–1429, April 2016.
[4] A. Cornuejois and L. Miclet. Eyrolles. Apprentissage artificiel - Concepts et algo-
rithmes, 2003.
[5] E. Friburg. ”le machine learning pour personnaliser l’apprentissage. https:
//domoscio.com/le-machine-learning-pour-personnaliser-lapprentissage/.
Consulté : 29 septembre 2016.
[6] A. E. Thessen. ”adoption of machine learning techniques in ecology and earth science.
https://peerj.com/preprints/1720.pdf. Consulté : 29 septembre 2016.

Vous aimerez peut-être aussi

Cours ML
Pas encore d'évaluation
Cours ML
127 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
6 pages
Premier Essai Apres Les Resumé
Pas encore d'évaluation
Premier Essai Apres Les Resumé
19 pages
Cours Fouilles Donnees
Pas encore d'évaluation
Cours Fouilles Donnees
37 pages
Cours
Pas encore d'évaluation
Cours
47 pages
Introduction à l'IA et au Machine Learning
Pas encore d'évaluation
Introduction à l'IA et au Machine Learning
17 pages
Apprentissage Automatique Et Profond
Pas encore d'évaluation
Apprentissage Automatique Et Profond
7 pages
Cours 1
Pas encore d'évaluation
Cours 1
4 pages
Chapitre 02 Machine Learning
Pas encore d'évaluation
Chapitre 02 Machine Learning
29 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
16 pages
Chap 2
Pas encore d'évaluation
Chap 2
5 pages
MLchap1 Verpedagogique23 24
Pas encore d'évaluation
MLchap1 Verpedagogique23 24
11 pages
Introduction à l'Apprentissage Machine
100% (2)
Introduction à l'Apprentissage Machine
97 pages
Cours MM Chap1 2020
Pas encore d'évaluation
Cours MM Chap1 2020
11 pages
Introduction et Applications du Machine Learning
Pas encore d'évaluation
Introduction et Applications du Machine Learning
32 pages
Modèles et Déploiement en ML
Pas encore d'évaluation
Modèles et Déploiement en ML
90 pages
1 - Introduction Au Machine Learning
Pas encore d'évaluation
1 - Introduction Au Machine Learning
15 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
Études Des Principaux Algorithmes de Data Mining
Pas encore d'évaluation
Études Des Principaux Algorithmes de Data Mining
20 pages
Algorithmes clés du data mining
Pas encore d'évaluation
Algorithmes clés du data mining
20 pages
Machine Learning Le Guide Ultime Du Débutant Pour Comprendre LApprentissage Automatique (Machine Learning For Beginners... (Sebastian Dark)
Pas encore d'évaluation
Machine Learning Le Guide Ultime Du Débutant Pour Comprendre LApprentissage Automatique (Machine Learning For Beginners... (Sebastian Dark)
99 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
2 pages
Chapitre 1 Le Paysage de L'apprentissage Automatique
Pas encore d'évaluation
Chapitre 1 Le Paysage de L'apprentissage Automatique
6 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
277 pages
Machine Learning Et Application en Finance: TH' Eme
Pas encore d'évaluation
Machine Learning Et Application en Finance: TH' Eme
73 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
28 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
28 pages
Introduction au Machine Learning et Algorithmes Supervisés
Pas encore d'évaluation
Introduction au Machine Learning et Algorithmes Supervisés
11 pages
IA et apprentissage automatique : concepts clés
Pas encore d'évaluation
IA et apprentissage automatique : concepts clés
12 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
22 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
Presentation ML
Pas encore d'évaluation
Presentation ML
10 pages
Introduction Au Machine Learning
Pas encore d'évaluation
Introduction Au Machine Learning
20 pages
Poly Apprauto FSur
Pas encore d'évaluation
Poly Apprauto FSur
174 pages
Chap01 Introduction
Pas encore d'évaluation
Chap01 Introduction
28 pages
Cours NN
Pas encore d'évaluation
Cours NN
79 pages
Introduction À L'apprentissage Automatique.1
Pas encore d'évaluation
Introduction À L'apprentissage Automatique.1
4 pages
Learning
Pas encore d'évaluation
Learning
9 pages
Machine Larning Bis
Pas encore d'évaluation
Machine Larning Bis
73 pages
Intro Machine Learning
100% (1)
Intro Machine Learning
240 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
7 pages
Apprentissage Automatique et Fraudes Bancaires
Pas encore d'évaluation
Apprentissage Automatique et Fraudes Bancaires
87 pages
IA Reformuler
Pas encore d'évaluation
IA Reformuler
19 pages
Cours - Article Machine Learning
Pas encore d'évaluation
Cours - Article Machine Learning
102 pages
Poly Apprauto FSur
Pas encore d'évaluation
Poly Apprauto FSur
178 pages
IA SE3 Chapter1
Pas encore d'évaluation
IA SE3 Chapter1
63 pages
Chap1-Introduction Au ML
Pas encore d'évaluation
Chap1-Introduction Au ML
41 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
4 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
20 pages
Chapitre I
Pas encore d'évaluation
Chapitre I
15 pages
Introduction Au Machine Learning - Chapitre1
Pas encore d'évaluation
Introduction Au Machine Learning - Chapitre1
13 pages
1 Introduction
Pas encore d'évaluation
1 Introduction
69 pages
Réseaux de neurones et sur-apprentissage
Pas encore d'évaluation
Réseaux de neurones et sur-apprentissage
3 pages
1licence 2024-2025
Pas encore d'évaluation
1licence 2024-2025
47 pages
15-EMD SID Exemple
Pas encore d'évaluation
15-EMD SID Exemple
2 pages
Feuilletage
Pas encore d'évaluation
Feuilletage
20 pages
66c3ab2333b9b Apprendre Le Machine Learning en Une Semaine
100% (1)
66c3ab2333b9b Apprendre Le Machine Learning en Une Semaine
91 pages
INF1421 Module7 ArbreDeDecison - Jan2019
Pas encore d'évaluation
INF1421 Module7 ArbreDeDecison - Jan2019
17 pages
Encadrement-Des-Stages JUIN 2023
Pas encore d'évaluation
Encadrement-Des-Stages JUIN 2023
15 pages
Épreuve SES Terminale : Structure et Évaluation
Pas encore d'évaluation
Épreuve SES Terminale : Structure et Évaluation
4 pages
Fiche de Progression PCG & ACC
100% (1)
Fiche de Progression PCG & ACC
2 pages
Les Entretiens Campusfrance
Pas encore d'évaluation
Les Entretiens Campusfrance
31 pages
CV Merveille
Pas encore d'évaluation
CV Merveille
1 page
L'image Friction
Pas encore d'évaluation
L'image Friction
111 pages
LEMOND - L'intervention Ergonomique. Un Regard Sur La Pratique Professionnelle de Lamonde
Pas encore d'évaluation
LEMOND - L'intervention Ergonomique. Un Regard Sur La Pratique Professionnelle de Lamonde
4 pages
Module de Mécanique Quantique MIPC-MIP: TD 3 (Complément de Cours)
Pas encore d'évaluation
Module de Mécanique Quantique MIPC-MIP: TD 3 (Complément de Cours)
2 pages
2 - Decision Tree 24
Pas encore d'évaluation
2 - Decision Tree 24
86 pages
"Sept Femmes Et Un Homme" Une Analyse Exégétique D'isaïe 4.1
Pas encore d'évaluation
"Sept Femmes Et Un Homme" Une Analyse Exégétique D'isaïe 4.1
95 pages
NMP - Assessment - Master - UGB
Pas encore d'évaluation
NMP - Assessment - Master - UGB
2 pages
Geographie CM1 Evaluation
Pas encore d'évaluation
Geographie CM1 Evaluation
27 pages
Fondements Théoriques de La Communication Non Verbale
Pas encore d'évaluation
Fondements Théoriques de La Communication Non Verbale
4 pages
Séquence Robot
Pas encore d'évaluation
Séquence Robot
8 pages
Éruption Dentaire : Phases et Anomalies
Pas encore d'évaluation
Éruption Dentaire : Phases et Anomalies
13 pages
Épreuve Orale Maths ENS Cachan : Analyse et Réactivité
Pas encore d'évaluation
Épreuve Orale Maths ENS Cachan : Analyse et Réactivité
1 page
Fiches Techniques 3as
Pas encore d'évaluation
Fiches Techniques 3as
19 pages
Ethique Et Gouvernance de Charreaux - Copie
Pas encore d'évaluation
Ethique Et Gouvernance de Charreaux - Copie
11 pages
Mécanique des Fluides Avancée
Pas encore d'évaluation
Mécanique des Fluides Avancée
52 pages
Méthodes d'Observation Éducative
100% (1)
Méthodes d'Observation Éducative
6 pages
Bilinguisme et Plurilinguisme : Défis et Perspectives
Pas encore d'évaluation
Bilinguisme et Plurilinguisme : Défis et Perspectives
21 pages
Renovaa, Making Business Better
Pas encore d'évaluation
Renovaa, Making Business Better
1 page
Vecteurs Plan Fiche Cours
Pas encore d'évaluation
Vecteurs Plan Fiche Cours
3 pages
CV Beghdad Zakia
Pas encore d'évaluation
CV Beghdad Zakia
1 page
Compte Rendu de La Production Écrite p1s1
Pas encore d'évaluation
Compte Rendu de La Production Écrite p1s1
2 pages
Terminologie Sur L
Pas encore d'évaluation
Terminologie Sur L
3 pages
Classement des langues parlées mondialement
Pas encore d'évaluation
Classement des langues parlées mondialement
2 pages
Structuration du Projet Sportif Jeunes
Pas encore d'évaluation
Structuration du Projet Sportif Jeunes
3 pages
Le Royaume Du Cayor
Pas encore d'évaluation
Le Royaume Du Cayor
2 pages
Presentation Du Secret Des Maitres
Pas encore d'évaluation
Presentation Du Secret Des Maitres
12 pages