0% ont trouvé ce document utile (0 vote)
31 vues56 pages

Chapitre 2

L'apprentissage automatique est un domaine de l'intelligence artificielle qui permet aux ordinateurs d'apprendre à partir de données sans être explicitement programmés. Le processus comprend la collecte et la préparation des données, l'entraînement de modèles, et l'évaluation de leurs performances. Les algorithmes peuvent être classés en apprentissage supervisé, non supervisé, semi-supervisé et par renforcement, chacun ayant des applications spécifiques.

Transféré par

oabbes60
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues56 pages

Chapitre 2

L'apprentissage automatique est un domaine de l'intelligence artificielle qui permet aux ordinateurs d'apprendre à partir de données sans être explicitement programmés. Le processus comprend la collecte et la préparation des données, l'entraînement de modèles, et l'évaluation de leurs performances. Les algorithmes peuvent être classés en apprentissage supervisé, non supervisé, semi-supervisé et par renforcement, chacun ayant des applications spécifiques.

Transféré par

oabbes60
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning

Pr. Safae Berrichi

[Link]@[Link]

Faculté des Sciences Juridiques, Économiques et Sociales, 2024/2025


Apprentissage Automatique 03
Apprentissage
Automatique

‘ Apprentissage Automatique ?

Pr. Safae Berrichi 3


Apprentissage
Automatique

• ‘ Apprentissage Automatique ?


L’apprentissage automatique est un champ d’étude de l’IA qui se fonde sur des approches statistiques
pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données, c’est-à-dire d’améliorer
leurs performances à résoudre des tâches sans être explicitement programmés pour chacune.
❖ Ce qui permet de ML est :
❖ Ajustement des modèles complexes
❖ Traitement d’énormes volumes de données
❖ A chaque nouvelle expérience, le modèle s’améliore, ce qui permet d’établir des meilleures prévisions.

Apprend avec l’expérience Apprend à partir des données Instructions programmées

Pr. Safae Berrichi 4


Apprentissage
Automatique


Approche classique :
Apprentissage Automatique ?

Pr. Safae Berrichi 5


Apprentissage
Automatique


Approche classique :
Apprentissage Automatique ?


Principe:
- Compréhension du problème computationnel.
- Description formelle des contraintes de l’entrée et de la sortie souhaitée
- Conception d’une solution algorithmique basée sur des connaissances/Règles.
▪ Limites:
- Connaissances incomplètes
- Algorithme trop coûteux

Pr. Safae Berrichi 6


Apprentissage
Automatique

‘ Apprentissage Automatique ?
Approche apprentissage automatique

Consiste à donner à l’ordinateur la capacité d’apprendre/faire des essais(Entraînement)
et d’apprendre de ses erreurs (Ajustement).

Pr. Safae Berrichi 7


Apprentissage
Automatique

‘ Apprentissage Automatique ?
Approche apprentissage automatique
▪ Principe: ’
‐ Analyser et traiter les données(Observations),
‐ Choisir un modèle,
‐ Entraîner le modèle avec des données,
‐ Estimer l’erreur du modèle,
‐ Mettre à jour le modèle.
▪ Contraintes:
‐ Les données doivent être de très bonne qualité.
‐ Le volume des données est important pour entraîner le modèle.
Pr. Safae Berrichi 8
Apprentissage
Automatique

‘ Apprentissage Automatique ?


Collecte des données Préparation des données
Recueillir des données
pertinentes pour votre
Les données collectées peuvent être
brutes, et il est souvent nécessaire de les 03
problème. nettoyer, de les transformer et de les
préparer pour l'analyse. Entraînement du modèle
05
Entraîner le modèle en

04
ajustant ses paramètres
Optimisation et prédiction Évaluation du modèle -ML est un processus itératif.
Déployer dans un environnement de Evaluer sur un ensemble de -La qualité des données et la
production pour effectuer des données de test indépendant pour compréhension du problème sont
prédictions en temps réel sur de mesurer ses performances. cruciales à chaque étape du processus.
nouvelles données. Pr. Safae Berrichi 9
Apprentissage
Automatique

01 ‘ Apprentissage Automatique ?
Collecte des données

• La première étape consiste à la collecte de données, celle-ci est très importante car la qualité et la
quantité des données collectées déterminent la qualité du modèle à venir.
• L'ensemble de données (Data set en anglais) peut être collecté à partir de diverses sources telles
que :

Fichier Bases de données Web crawling Sondages


s

Pr. Safae Berrichi 10


Apprentissage
Automatique

01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :

b. en fonction de l'expertise du domaine.

Utilisez vos connaissances du domaine ou trouvez un expert du domaine


et raisonnez sur la quantité des données qui peuvent être nécessaires pour
capturer raisonnablement la complexité utile du problème.

Pr. Safae Berrichi 11


Apprentissage
Automatique

01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :

c. en fonction des méthodes statistique.

Il existe des méthodes heuristiques statistiques qui vous permettent de


calculer une taille d'échantillon appropriée en fonction du nombre d'entités
d'entrée, d'entités de sortie (classes) ou de paramètres de modèle.

Pr. Safae Berrichi 12


Apprentissage
Automatique

01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :
d. en fonction de la courbe d'apprentissage (Learning Curve)

La courbe d'apprentissage est utile à de nombreuses fins, notamment


pour choisir les paramètres du modèle lors de la conception et pour
déterminer la quantité de données nécessaire pour une bonne
apprentissage.

Pr. Safae Berrichi 13


Apprentissage
Automatique

01 ‘ Apprentissage Automatique ?
Collecte des données
Est-il possible de les collecter ? ’
o Google Dataset Search ([Link]
o Kaggle ([Link]
o Mendeley Data ([Link]
o OpenML ([Link]
o Paper with Code ([Link]
o Hugging Face ([Link]
o Sinon les collecter vous-même.
Pr. Safae Berrichi 14
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

C’est l’étape la plus importante, qui consomme beaucoup de temps

• Nettoyage des données


• Conversion de ces données dans un format approprié pouvant
être adapté au modèle sélectionné
• Données numériques
• Données textuelles

Pr. Safae Berrichi 15


Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Voici quelques-unes des techniques de prétraitement de base :
1. Conversion des données : Comme les modèles d’apprentissage automatique ne peuvent gérer que des
fonctionnalités numériques, les données catégorielles et ordinales doivent donc être converties en
fonctionnalités numériques.
2. Ignorer les valeurs manquantes : A la détection des données manquantes, la ligne ou la colonne les
contenants peuvent être supprimées selon les besoins. Cette méthode est connue pour être efficace,
mais elle ne devrait pas être appliquée excessivement.
3. Remplissage des valeurs manquantes : Les données manquantes dans l'ensemble de données peuvent
être remplacées manuellement par la valeur moyenne, médiane ou la plus haute fréquence utilisée.
4. Détection des valeurs aberrantes : Certaines données d'erreurs qui pourraient être présentes dans
l’ensemble de données s'écartent considérablement des autres observations de l’ensemble de données.
Par exemple : Poids humain = 800kg
Pr. Safae Berrichi 16
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Conversion des données
Problème : Les modèles de Machine Learning ne peuvent traiter que des données numériques.
Exemple : Si une colonne contient des valeurs catégorielles comme ["Faible", "Moyen", "Élevé"], elle
peut être convertie en [0, 1, 2] (encodage ordinal).
Autre méthode : Pour des catégories sans ordre (ex. "Rouge", "Bleu", "Vert"), on utilise l’encodage
one-hot :
• "Rouge" → [1, 0, 0]
• "Bleu" → [0, 1, 0]
• "Vert" → [0, 0, 1] Pr. Safae Berrichi 17
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Traitement des valeurs manquantes
Les données manquantes dans l'ensemble de données d'apprentissage peuvent réduire la puissance d'un
modèle ou conduire à un modèle biaisé car nous n'avons pas correctement analysé le comportement et la
relation avec d'autres variables. Cela peut conduire à de mauvaises prédictions ou classifications.

Pr. Safae Berrichi 18


Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Traitement des valeurs manquantes
Quelles sont les méthodes pour traiter les valeurs manquantes ?
▪ Suppression par liste : nous supprimons les observations où
l'une des variables est manquante. C'est une méthode simple
mais elle réduit la taille de l'échantillon.
▪ Suppression par paires : nous effectuons l’analyse avec tous
les cas dans lesquels les variables d'intérêt sont présentes.
L'avantage de cette méthode est qu'elle garde autant de cas
disponibles pour l'analyse. L'un des inconvénients de cette
méthode est qu'elle utilise des tailles d'échantillon différentes
pour différentes variables. Pr. Safae Berrichi 19
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Moyenne
Imputation de cas
Moyenne
Imputation
généralisée
Traitement des valeurs manquantes similaires

Quelles sont les méthodes pour traiter les valeurs manquantes ?


▪ Imputation : est une méthode pour compléter les valeurs 25
manquantes par des valeurs estimées. Elle consiste à
remplacer les données manquantes pour un attribut donné par
la moyenne ou la médiane (attribut quantitatif) ou le mode
29
(attribut qualitatif) de toutes les valeurs connues de cette
311
variable. Il existe deux types d'imputation :
• Imputation généralisée : nous remplaçons les valeurs manquantes en utilisant toutes les valeurs non manquantes de
cette variable.
• Imputation de cas similaires : nous remplaçons les valeurs manquantes en utilisant les valeurs de cas similaires de
cette variable. Pr. Safae Berrichi 20
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Préparation des données textuelles
Le préparation (pre-processing) de texte fait ici référence au processus de suppression et de
transformation de certaines parties du texte afin que le texte devienne plus facilement compréhensible
pour les modèles qui apprennent le texte. Cela permet souvent à ces modèles de mieux fonctionner en
réduisant le bruit dans les données textuelles.
1. Nettoyage :
Un document est nettoyé quand en supprimant les chiffres, les dates, les traits d'union, les signes de
ponctuation et tous les caractères d’une langue non traitée.
Texte Brute
Nettoyage Texte Nettoyé
‫ علي إسبانيا بملعب‬0-2 ‫فاز المنتخب بنتيجة‬
‫فاز المنتخب بنتيجة علي إسبانيا بملعب يوم أكتوبر‬
.‫ أكتوبر‬01 ‫ ! يوم‬Bernabéu
Pr. Safae Berrichi 21
Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Préparation des données textuelles
2. Normalisation :
Lorsque nous normalisons un texte, nous essayons de réduire son caractère aléatoire, en le rapprochant
d'un « standard » prédéfini. Cela nous aide à réduire la quantité d'informations différentes que
l'ordinateur doit traiter, et améliore donc l'efficacité.

Texte Entré Texte Normalisé


‫فاز المنتخب بنتيجة علي إسبانيا بملعب‬ ‫فاز المنتخب بنتيجه على‬
Normalisation
‫يوم أكتوبر‬ ‫اسبانيا بملعب يوم اكتوبر‬

Pr. Safae Berrichi 22


Apprentissage
Automatique

02 ‘ Apprentissage Automatique ?
Préparation des données

Préparation des données textuelles
3. Tokenisation :
Consiste à diviser le texte en tokens individuels en utilisant comme délimiteurs les espaces et les
nouvelles lignes. Tokens
‫فاز‬
‫المنتخب‬
Texte Entré ‫بنتيجه‬
‫على‬
‫فاز المنتخب بنتيجه على اسبانيا بملعب يوم‬
‫اسبانيا‬
Tokenisation
‫اكتوبر‬ ‫بملعب‬
‫يوم‬
‫اكتوبر‬ Pr. Safae Berrichi 23
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle

Les algorithmes ne sont pas tous destinés aux mêmes usages. On les classe usuellement selon plusieurs
composantes.
Les modèles d’apprentissage automatique sont homogènes aux fonctions qui prédisent une sortie pour
une entrée donnée. Il existe plusieurs algorithmes selon le type d’apprentissage.

01 02
Apprentissage supervisé Apprentissage Non supervisé

03 04
Apprentissage semi supervisé ML Apprentissage par renforcement
Pr. Safae Berrichi 24
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
On distingue deux problèmes d’apprentissage supervisé : ’
1. Classification : Cet algorithme permet de prédire une valeur
discrète.
▪ Classification binaire : cela signifie qu'il n'y a que deux
classes ;
▪ Classification multi-classes (Single-label) : lorsque nous Classifieur
avons plus de deux classes, mais chaque instance est
affectée à une seule classe ;
▪ Classification multi-label : elle est appliquée lorsqu'une
instance peut appartenir à plusieurs classes.
Ex: Identifier si un email est un spam ou non ; Identifier en quelle C1 C2 C3 C4
langue un texte est écrit ;
Pr. Safae Berrichi 25
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
On distingue deux problèmes d’apprentissage supervisé : ’
2. Régression : Cet algorithme permet de prédire une valeur
numérique continue en fonction des caractéristiques.
L'objectif est d'estimer une relation quantitative entre les
variables.
Exemple : Régression linéaire simple (données sur des appartements
Parisiens)
o 𝑋𝑖: surface en m2.
o 𝑌𝑖: prix en dirhams/1000.

Pr. Safae Berrichi 26


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Exemple 1 : Classification des formes d’individus

Pr. Safae Berrichi 27


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Exemple 2 : Classification des chiffres
o 𝑋𝑖 : Image (matrice de pixels), caractéristiques
o 𝑌𝑖 : Identité du chiffre(Classe:{0,1,2,3,4,5,6,7,8,9})

𝑋𝑖
Exemples d’apprentissage :
𝑌𝑖

Exemples de test:

Pr. Safae Berrichi 28


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Exemple 3 : Régression , la cible est un nombre réel y ∈ 𝑅

Nouvelle observation (T, V) ⇒ taux de pollution ?


Pr. Safae Berrichi 29
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Algorithmes : ’
1. Régression (Utilisés pour prédire une valeur continue)
1. Régression linéaire – Ex : Prédire le prix d’une maison en fonction de sa superficie.
2. Régression polynomiale – Ex : Modéliser la courbe de température au fil du temps.
3. Arbre de décision (Decision Tree Regressor) – Ex : Estimer le salaire en fonction de
l’expérience.
4. Random Forest Regressor – Ex : Prédire les ventes d’un produit.
5. Gradient Boosting Regressor (XGBoost, LightGBM, CatBoost) – Ex : Prévision de
consommation d’énergie.
6. Support Vector Regression (SVR) – Ex : Prévision de la demande en fonction du temps.
7. Réseaux de neurones pour la régression (MLP, CNN, RNN) – Ex : Analyse de séries temporelles
comme la bourse.
Pr. Safae Berrichi 30
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Algorithmes : ’
2. Classification (Utilisés pour prédire une catégorie ou une classe)
1. Régression logistique – Ex : Prédire si un email est spam ou non (0 ou 1).
2. Arbre de décision (Decision Tree Classifier) – Ex : Diagnostiquer une maladie selon les
symptômes.
3. Random Forest Classifier – Ex : Identifier un chiffre manuscrit (0 à 9).
4. Gradient Boosting (XGBoost, LightGBM, CatBoost) – Ex : Classification d'images.
5. K-Nearest Neighbors (KNN) – Ex : Recommandation de produits basée sur les préférences des
utilisateurs.
6. Naïve Bayes – Ex : Analyse de sentiment des avis clients.
7. Support Vector Machine (SVM) – Ex : Détection de fraudes bancaires.
8. Réseaux de neurones – Ex : Reconnaissance faciale.
Pr. Safae Berrichi 31
Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Limites

Besoin de données étiquetées : Apprentissage supervisé nécessite


un grand volume de données d'entraînement étiquetées, ce qui peut
être difficile et coûteux à obtenir dans de nombreux cas.
L'annotation manuelle des données peut être fastidieuse

Pr. Safae Berrichi 32


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé

Limites

Problèmes de déséquilibre de classe :


Dans les cas où les classes ne sont pas équilibrées, c'est-à-dire
où certaines classes ont beaucoup moins d'exemples que
d'autres, les modèles d'apprentissage supervisé peuvent avoir
du mal à bien prédire les classes sous-représentées.

Pr. Safae Berrichi 33


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé

L’apprentissage non supervisé est lorsqu’une cible n’est pas explicitement donnée

- Données d’apprentissage: 𝑬 = {𝐗𝟏, … , 𝐗𝑵} uniquement les observations

Pr. Safae Berrichi 34


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé

Clustering/segmentation :

• Exemple : Regrouper des images qui possèdes les mêmes formes.


𝑋𝑖 : Image (matrice de pixels), caractéristiques de forme.

Pr. Safae Berrichi 35


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé

Clustering/segmentation :

• Exemple :

Pr. Safae Berrichi 36


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé

Algorithmes :
1. Partitionnement
1. K-moyennes
2. Partitionnement hiérarchique
3. Maximum de vraisemblance
4. Réseau de neurone
2. Visualisation et réduction de dimension
1. Analyse en composantes principales et à noyaux
2. Plongement localement linéaire

Pr. Safae Berrichi 37


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé

Caractéristique Apprentissage supervisé Apprentissage non supervisé

Données d'entrée Données connues et étiquetées Données inconnues

Complexité informatique Très complexe Moins de complexité


Temps réel Analyse hors ligne Analyse en temps réel

Sous-domaines Classification et régression Clustering et règles d'association

Précision Résultats précis Résultats modérés


Nombre de classes Nombre de classes connu Nombre de classes inconnu

Pr. Safae Berrichi 38


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage semi supervisé

- Le système doit apprendre avec une aide limitée.

- Entraînement: Les données partiellement “étiquetées” avec majoritairement des données sans
étiquette.
- Exemple: reconnaissance d’une personne parmis d’autres.

- Algorithmes : Combinaison l'algorithme d'apprentissage supervisé et non supervisé


• Réseau de neurones …

Pr. Safae Berrichi 39


Apprentissage
Automatique

‘ Apprentissage Automatique ?
03 Entraînement du modèle : Apprentissage par renforcement

Le système apprend avec un agent qui observe l’environnement. Il accomplit des tâches et obtient des
récompenses ou pénalités. Il en déduit alors la meilleure stratégie pour avoir un maximum de récompense

Exemple: Stationnement automatique, robot qui adapte sa façon de marcher en fonction de l’état du sol

Algorithme :
Q-learning

Pr. Safae Berrichi 40


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle

Qualités attendues d’un modèle:
• Précision : le taux d’erreur, proportion d’individus mal classés doit être le plus bas possible.
• Robustesse : le modèle doit dépendre aussi peu que possible de l’ échantillon d’apprentissage et se
généraliser à d’autres échantillons.
• Diversité des types de données utilisées : données qualitatives, discrètes, continues et manquantes.
• Rapidité de calcul du modèle(Complexité) : apprentissage rapide pour affinement du modèle.
• Paramétrage : pouvoir pondérer les erreurs de classement.

Pr. Safae Berrichi 41


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sur-apprentissage désigne le fait que le modèle produit par l’algorithme de Machine Learning s’adapte
bien au Training Set. C’est top ! c’est ce qu’on veut non 🤔 ?
La fonction prédictive s’adapte bien trop bien aux données d’apprentissage, le modèle prédictif
capturera tous les “aspects” et détails qui caractérisent les données du Training Set, même le bruit
produit par les données.

mais il prédira mal sur des données qu’il n’a pas encore vues lors de sa phase d’apprentissage.

Pr. Safae Berrichi 42


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sur-apprentissage

Le tracé en bleu représente une fonction de prédiction qui


passe par toutes les données d’apprentissage.

On voit bien que la fonction s’écarte beaucoup des points


rouges qui représentent des données non vues lors de la phase
d’apprentissage (Test Set).

Pr. Safae Berrichi 43


Apprentissage
Automatique

03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sous-apprentissage

Le modèle prédictif n’arrive même pas à capturer les corrélations des données d’apprentissage.
Par conséquent, le coût d’erreur en phase d’apprentissage reste grand.
Le modèle prédictif ne se généralisera pas bien non plus sur les données qu’il n’a pas encore vu.
Finalement, le modèle ne sera viable car les erreurs de prédictions seront grandes.

Pr. Safae Berrichi 44


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

L’évaluation d’un modèle consiste tout simplement à :
• l’utiliser sur une base d’exemples non utilisés lors de l’apprentissage
• calculer une métrique d’évaluation (taux de reconnaissance par exemple)

Pr. Safae Berrichi 45


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Pour construire le modèle puis valider la classification, nous devons au préalable disposer d’un
ensemble C d’instances classifiées (c.à.d. la classe de chaque instance est connue). Ensuite, nous
procédons selon l’une des deux approches suivantes.
Partitionnement : Tirer au hasard 10% de l’ensemble C, puis 20%, et considérer les échantillons
suivants :
• L’ensemble d’apprentissage est constitué des instances correspondantes aux 70% restantes
du corpus C.
• L’ensemble de validation est constitué des 10% d’instances obtenues au premier tirage.
• L’ensemble de test est constitué des 20% d’instances obtenues au deuxième tirage.

Pr. Safae Berrichi 46


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

• Validation croisée : choisir un entier k, puis scinder d’une manière aléatoire le corpus en k
échantillons de même taille. Ensuite,
• Choisir (k-1) échantillons pour l'apprentissage et le kème restant pour le test, et calculer le
taux d’erreur.
• Répéter cette opération k fois en changeant chaque fois l’échantillon de test.
• Le taux d’erreur du modèle est la moyenne des k taux d'erreur obtenus dans les phases
précédentes

Pr. Safae Berrichi 47


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle
Validation croisée : Exemple avec k=4 ’
1 2 3 4

1 2 3 4 1 2 3 4

1 2 3 4 1 2 3 4
Echantillon d’apprentissage Echantillon de test
Pr. Safae Berrichi 48
Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

L'objectif de Validation/développement set est de voir les performances de vos
algorithmes candidats, puis, pour vous diriger vers les changements les plus importants
à apporter aux paramètres des algorithmes. Finalement, pour vous aider à sélectionnez
l’algorithme qui convient le mieux à votre projet.

Pr. Safae Berrichi 49


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Matrice de confusion

Pr. Safae Berrichi 50


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Matrice de confusion : exemple

Pr. Safae Berrichi 51


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Accuracy : L’exactitude du système (Accuracy) est le taux de bonnes classifications :

La justesse seule n'ai pas suffisante comme mesure de performance, surtout pour les ensembles de
données avec des classes imbalancées.
Pr. Safae Berrichi 52
Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Rappel(Sensibilité/recall) et précision

Le rappel (ou sensibilité, taux de vrais positifs) est une métrique d'évaluation des modèles de classification,
calculée à partir de la matrice de confusion. Il mesure la capacité du modèle à identifier correctement les
instances positives.

Pr. Safae Berrichi 53


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

Rappel(Sensibilité/recall) et précision

La précision (ou taux de précision) est une métrique qui mesure la proportion de prédictions positives
correctes parmi toutes les prédictions positives effectuées par le modèle.

Pr. Safae Berrichi 54


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

F-mesure

Pr. Safae Berrichi 55


Apprentissage
Automatique

04 ‘ Apprentissage Automatique ?
Évaluation du modèle

• Exemple
observées
A B C total
réelles Classes A B C

A 1400 350 250 2000 Précision 84% 76% 72%

B 150 1650 100 1900 Rappel 70% 87% 76%

C 120 170 910 1200 F-mesure 76% 81% 74%

total 1670 2170 1260 5100


Pr. Safae Berrichi 56

Vous aimerez peut-être aussi