Chapitre 2
Chapitre 2
[Link]@[Link]
‘ Apprentissage Automatique ?
• ‘ Apprentissage Automatique ?
’
L’apprentissage automatique est un champ d’étude de l’IA qui se fonde sur des approches statistiques
pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données, c’est-à-dire d’améliorer
leurs performances à résoudre des tâches sans être explicitement programmés pour chacune.
❖ Ce qui permet de ML est :
❖ Ajustement des modèles complexes
❖ Traitement d’énormes volumes de données
❖ A chaque nouvelle expérience, le modèle s’améliore, ce qui permet d’établir des meilleures prévisions.
‘
Approche classique :
Apprentissage Automatique ?
‘
Approche classique :
Apprentissage Automatique ?
’
Principe:
- Compréhension du problème computationnel.
- Description formelle des contraintes de l’entrée et de la sortie souhaitée
- Conception d’une solution algorithmique basée sur des connaissances/Règles.
▪ Limites:
- Connaissances incomplètes
- Algorithme trop coûteux
‘ Apprentissage Automatique ?
Approche apprentissage automatique
’
Consiste à donner à l’ordinateur la capacité d’apprendre/faire des essais(Entraînement)
et d’apprendre de ses erreurs (Ajustement).
‘ Apprentissage Automatique ?
Approche apprentissage automatique
▪ Principe: ’
‐ Analyser et traiter les données(Observations),
‐ Choisir un modèle,
‐ Entraîner le modèle avec des données,
‐ Estimer l’erreur du modèle,
‐ Mettre à jour le modèle.
▪ Contraintes:
‐ Les données doivent être de très bonne qualité.
‐ Le volume des données est important pour entraîner le modèle.
Pr. Safae Berrichi 8
Apprentissage
Automatique
‘ Apprentissage Automatique ?
’
Collecte des données Préparation des données
Recueillir des données
pertinentes pour votre
Les données collectées peuvent être
brutes, et il est souvent nécessaire de les 03
problème. nettoyer, de les transformer et de les
préparer pour l'analyse. Entraînement du modèle
05
Entraîner le modèle en
04
ajustant ses paramètres
Optimisation et prédiction Évaluation du modèle -ML est un processus itératif.
Déployer dans un environnement de Evaluer sur un ensemble de -La qualité des données et la
production pour effectuer des données de test indépendant pour compréhension du problème sont
prédictions en temps réel sur de mesurer ses performances. cruciales à chaque étape du processus.
nouvelles données. Pr. Safae Berrichi 9
Apprentissage
Automatique
01 ‘ Apprentissage Automatique ?
Collecte des données
’
• La première étape consiste à la collecte de données, celle-ci est très importante car la qualité et la
quantité des données collectées déterminent la qualité du modèle à venir.
• L'ensemble de données (Data set en anglais) peut être collecté à partir de diverses sources telles
que :
01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :
01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :
01 ‘ Apprentissage Automatique ?
Collecte des données
Quelle quantité de données d’entraînement est nécessaire ? ’
Chaque projet ML a un ensemble de facteurs spécifiques qui ont un impact sur la taille des ensembles
de données d’entraînement nécessaires pour une modélisation réussie. Voici les plus incontournables
d'entre eux :
d. en fonction de la courbe d'apprentissage (Learning Curve)
01 ‘ Apprentissage Automatique ?
Collecte des données
Est-il possible de les collecter ? ’
o Google Dataset Search ([Link]
o Kaggle ([Link]
o Mendeley Data ([Link]
o OpenML ([Link]
o Paper with Code ([Link]
o Hugging Face ([Link]
o Sinon les collecter vous-même.
Pr. Safae Berrichi 14
Apprentissage
Automatique
02 ‘ Apprentissage Automatique ?
Préparation des données
’
C’est l’étape la plus importante, qui consomme beaucoup de temps
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Voici quelques-unes des techniques de prétraitement de base :
1. Conversion des données : Comme les modèles d’apprentissage automatique ne peuvent gérer que des
fonctionnalités numériques, les données catégorielles et ordinales doivent donc être converties en
fonctionnalités numériques.
2. Ignorer les valeurs manquantes : A la détection des données manquantes, la ligne ou la colonne les
contenants peuvent être supprimées selon les besoins. Cette méthode est connue pour être efficace,
mais elle ne devrait pas être appliquée excessivement.
3. Remplissage des valeurs manquantes : Les données manquantes dans l'ensemble de données peuvent
être remplacées manuellement par la valeur moyenne, médiane ou la plus haute fréquence utilisée.
4. Détection des valeurs aberrantes : Certaines données d'erreurs qui pourraient être présentes dans
l’ensemble de données s'écartent considérablement des autres observations de l’ensemble de données.
Par exemple : Poids humain = 800kg
Pr. Safae Berrichi 16
Apprentissage
Automatique
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Conversion des données
Problème : Les modèles de Machine Learning ne peuvent traiter que des données numériques.
Exemple : Si une colonne contient des valeurs catégorielles comme ["Faible", "Moyen", "Élevé"], elle
peut être convertie en [0, 1, 2] (encodage ordinal).
Autre méthode : Pour des catégories sans ordre (ex. "Rouge", "Bleu", "Vert"), on utilise l’encodage
one-hot :
• "Rouge" → [1, 0, 0]
• "Bleu" → [0, 1, 0]
• "Vert" → [0, 0, 1] Pr. Safae Berrichi 17
Apprentissage
Automatique
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Traitement des valeurs manquantes
Les données manquantes dans l'ensemble de données d'apprentissage peuvent réduire la puissance d'un
modèle ou conduire à un modèle biaisé car nous n'avons pas correctement analysé le comportement et la
relation avec d'autres variables. Cela peut conduire à de mauvaises prédictions ou classifications.
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Traitement des valeurs manquantes
Quelles sont les méthodes pour traiter les valeurs manquantes ?
▪ Suppression par liste : nous supprimons les observations où
l'une des variables est manquante. C'est une méthode simple
mais elle réduit la taille de l'échantillon.
▪ Suppression par paires : nous effectuons l’analyse avec tous
les cas dans lesquels les variables d'intérêt sont présentes.
L'avantage de cette méthode est qu'elle garde autant de cas
disponibles pour l'analyse. L'un des inconvénients de cette
méthode est qu'elle utilise des tailles d'échantillon différentes
pour différentes variables. Pr. Safae Berrichi 19
Apprentissage
Automatique
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Moyenne
Imputation de cas
Moyenne
Imputation
généralisée
Traitement des valeurs manquantes similaires
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Préparation des données textuelles
Le préparation (pre-processing) de texte fait ici référence au processus de suppression et de
transformation de certaines parties du texte afin que le texte devienne plus facilement compréhensible
pour les modèles qui apprennent le texte. Cela permet souvent à ces modèles de mieux fonctionner en
réduisant le bruit dans les données textuelles.
1. Nettoyage :
Un document est nettoyé quand en supprimant les chiffres, les dates, les traits d'union, les signes de
ponctuation et tous les caractères d’une langue non traitée.
Texte Brute
Nettoyage Texte Nettoyé
علي إسبانيا بملعب0-2 فاز المنتخب بنتيجة
فاز المنتخب بنتيجة علي إسبانيا بملعب يوم أكتوبر
. أكتوبر01 ! يومBernabéu
Pr. Safae Berrichi 21
Apprentissage
Automatique
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Préparation des données textuelles
2. Normalisation :
Lorsque nous normalisons un texte, nous essayons de réduire son caractère aléatoire, en le rapprochant
d'un « standard » prédéfini. Cela nous aide à réduire la quantité d'informations différentes que
l'ordinateur doit traiter, et améliore donc l'efficacité.
02 ‘ Apprentissage Automatique ?
Préparation des données
’
Préparation des données textuelles
3. Tokenisation :
Consiste à diviser le texte en tokens individuels en utilisant comme délimiteurs les espaces et les
nouvelles lignes. Tokens
فاز
المنتخب
Texte Entré بنتيجه
على
فاز المنتخب بنتيجه على اسبانيا بملعب يوم
اسبانيا
Tokenisation
اكتوبر بملعب
يوم
اكتوبر Pr. Safae Berrichi 23
Apprentissage
Automatique
03 ‘ Apprentissage Automatique ?
Entraînement du modèle
’
Les algorithmes ne sont pas tous destinés aux mêmes usages. On les classe usuellement selon plusieurs
composantes.
Les modèles d’apprentissage automatique sont homogènes aux fonctions qui prédisent une sortie pour
une entrée donnée. Il existe plusieurs algorithmes selon le type d’apprentissage.
01 02
Apprentissage supervisé Apprentissage Non supervisé
03 04
Apprentissage semi supervisé ML Apprentissage par renforcement
Pr. Safae Berrichi 24
Apprentissage
Automatique
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
On distingue deux problèmes d’apprentissage supervisé : ’
1. Classification : Cet algorithme permet de prédire une valeur
discrète.
▪ Classification binaire : cela signifie qu'il n'y a que deux
classes ;
▪ Classification multi-classes (Single-label) : lorsque nous Classifieur
avons plus de deux classes, mais chaque instance est
affectée à une seule classe ;
▪ Classification multi-label : elle est appliquée lorsqu'une
instance peut appartenir à plusieurs classes.
Ex: Identifier si un email est un spam ou non ; Identifier en quelle C1 C2 C3 C4
langue un texte est écrit ;
Pr. Safae Berrichi 25
Apprentissage
Automatique
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
On distingue deux problèmes d’apprentissage supervisé : ’
2. Régression : Cet algorithme permet de prédire une valeur
numérique continue en fonction des caractéristiques.
L'objectif est d'estimer une relation quantitative entre les
variables.
Exemple : Régression linéaire simple (données sur des appartements
Parisiens)
o 𝑋𝑖: surface en m2.
o 𝑌𝑖: prix en dirhams/1000.
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
’
Exemple 1 : Classification des formes d’individus
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
’
Exemple 2 : Classification des chiffres
o 𝑋𝑖 : Image (matrice de pixels), caractéristiques
o 𝑌𝑖 : Identité du chiffre(Classe:{0,1,2,3,4,5,6,7,8,9})
𝑋𝑖
Exemples d’apprentissage :
𝑌𝑖
Exemples de test:
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
’
Exemple 3 : Régression , la cible est un nombre réel y ∈ 𝑅
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
Algorithmes : ’
1. Régression (Utilisés pour prédire une valeur continue)
1. Régression linéaire – Ex : Prédire le prix d’une maison en fonction de sa superficie.
2. Régression polynomiale – Ex : Modéliser la courbe de température au fil du temps.
3. Arbre de décision (Decision Tree Regressor) – Ex : Estimer le salaire en fonction de
l’expérience.
4. Random Forest Regressor – Ex : Prédire les ventes d’un produit.
5. Gradient Boosting Regressor (XGBoost, LightGBM, CatBoost) – Ex : Prévision de
consommation d’énergie.
6. Support Vector Regression (SVR) – Ex : Prévision de la demande en fonction du temps.
7. Réseaux de neurones pour la régression (MLP, CNN, RNN) – Ex : Analyse de séries temporelles
comme la bourse.
Pr. Safae Berrichi 30
Apprentissage
Automatique
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
Algorithmes : ’
2. Classification (Utilisés pour prédire une catégorie ou une classe)
1. Régression logistique – Ex : Prédire si un email est spam ou non (0 ou 1).
2. Arbre de décision (Decision Tree Classifier) – Ex : Diagnostiquer une maladie selon les
symptômes.
3. Random Forest Classifier – Ex : Identifier un chiffre manuscrit (0 à 9).
4. Gradient Boosting (XGBoost, LightGBM, CatBoost) – Ex : Classification d'images.
5. K-Nearest Neighbors (KNN) – Ex : Recommandation de produits basée sur les préférences des
utilisateurs.
6. Naïve Bayes – Ex : Analyse de sentiment des avis clients.
7. Support Vector Machine (SVM) – Ex : Détection de fraudes bancaires.
8. Réseaux de neurones – Ex : Reconnaissance faciale.
Pr. Safae Berrichi 31
Apprentissage
Automatique
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
’
Limites
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage supervisé
’
Limites
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé
’
L’apprentissage non supervisé est lorsqu’une cible n’est pas explicitement donnée
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé
’
Clustering/segmentation :
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé
’
Clustering/segmentation :
• Exemple :
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé
’
Algorithmes :
1. Partitionnement
1. K-moyennes
2. Partitionnement hiérarchique
3. Maximum de vraisemblance
4. Réseau de neurone
2. Visualisation et réduction de dimension
1. Analyse en composantes principales et à noyaux
2. Plongement localement linéaire
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage non supervisé
’
Caractéristique Apprentissage supervisé Apprentissage non supervisé
03 ‘ Apprentissage Automatique ?
Entraînement du modèle : Apprentissage semi supervisé
’
- Le système doit apprendre avec une aide limitée.
- Entraînement: Les données partiellement “étiquetées” avec majoritairement des données sans
étiquette.
- Exemple: reconnaissance d’une personne parmis d’autres.
‘ Apprentissage Automatique ?
03 Entraînement du modèle : Apprentissage par renforcement
’
Le système apprend avec un agent qui observe l’environnement. Il accomplit des tâches et obtient des
récompenses ou pénalités. Il en déduit alors la meilleure stratégie pour avoir un maximum de récompense
Exemple: Stationnement automatique, robot qui adapte sa façon de marcher en fonction de l’état du sol
Algorithme :
Q-learning
03 ‘ Apprentissage Automatique ?
Entraînement du modèle
’
Qualités attendues d’un modèle:
• Précision : le taux d’erreur, proportion d’individus mal classés doit être le plus bas possible.
• Robustesse : le modèle doit dépendre aussi peu que possible de l’ échantillon d’apprentissage et se
généraliser à d’autres échantillons.
• Diversité des types de données utilisées : données qualitatives, discrètes, continues et manquantes.
• Rapidité de calcul du modèle(Complexité) : apprentissage rapide pour affinement du modèle.
• Paramétrage : pouvoir pondérer les erreurs de classement.
03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sur-apprentissage désigne le fait que le modèle produit par l’algorithme de Machine Learning s’adapte
bien au Training Set. C’est top ! c’est ce qu’on veut non 🤔 ?
La fonction prédictive s’adapte bien trop bien aux données d’apprentissage, le modèle prédictif
capturera tous les “aspects” et détails qui caractérisent les données du Training Set, même le bruit
produit par les données.
mais il prédira mal sur des données qu’il n’a pas encore vues lors de sa phase d’apprentissage.
03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sur-apprentissage
03 ‘ Apprentissage Automatique ?
Entraînement du modèle
Sur-apprentissage & sous-apprentissage ’
Sous-apprentissage
Le modèle prédictif n’arrive même pas à capturer les corrélations des données d’apprentissage.
Par conséquent, le coût d’erreur en phase d’apprentissage reste grand.
Le modèle prédictif ne se généralisera pas bien non plus sur les données qu’il n’a pas encore vu.
Finalement, le modèle ne sera viable car les erreurs de prédictions seront grandes.
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
L’évaluation d’un modèle consiste tout simplement à :
• l’utiliser sur une base d’exemples non utilisés lors de l’apprentissage
• calculer une métrique d’évaluation (taux de reconnaissance par exemple)
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Pour construire le modèle puis valider la classification, nous devons au préalable disposer d’un
ensemble C d’instances classifiées (c.à.d. la classe de chaque instance est connue). Ensuite, nous
procédons selon l’une des deux approches suivantes.
Partitionnement : Tirer au hasard 10% de l’ensemble C, puis 20%, et considérer les échantillons
suivants :
• L’ensemble d’apprentissage est constitué des instances correspondantes aux 70% restantes
du corpus C.
• L’ensemble de validation est constitué des 10% d’instances obtenues au premier tirage.
• L’ensemble de test est constitué des 20% d’instances obtenues au deuxième tirage.
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
• Validation croisée : choisir un entier k, puis scinder d’une manière aléatoire le corpus en k
échantillons de même taille. Ensuite,
• Choisir (k-1) échantillons pour l'apprentissage et le kème restant pour le test, et calculer le
taux d’erreur.
• Répéter cette opération k fois en changeant chaque fois l’échantillon de test.
• Le taux d’erreur du modèle est la moyenne des k taux d'erreur obtenus dans les phases
précédentes
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
Validation croisée : Exemple avec k=4 ’
1 2 3 4
1 2 3 4 1 2 3 4
1 2 3 4 1 2 3 4
Echantillon d’apprentissage Echantillon de test
Pr. Safae Berrichi 48
Apprentissage
Automatique
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
L'objectif de Validation/développement set est de voir les performances de vos
algorithmes candidats, puis, pour vous diriger vers les changements les plus importants
à apporter aux paramètres des algorithmes. Finalement, pour vous aider à sélectionnez
l’algorithme qui convient le mieux à votre projet.
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Matrice de confusion
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Matrice de confusion : exemple
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Accuracy : L’exactitude du système (Accuracy) est le taux de bonnes classifications :
La justesse seule n'ai pas suffisante comme mesure de performance, surtout pour les ensembles de
données avec des classes imbalancées.
Pr. Safae Berrichi 52
Apprentissage
Automatique
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Rappel(Sensibilité/recall) et précision
Le rappel (ou sensibilité, taux de vrais positifs) est une métrique d'évaluation des modèles de classification,
calculée à partir de la matrice de confusion. Il mesure la capacité du modèle à identifier correctement les
instances positives.
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
Rappel(Sensibilité/recall) et précision
La précision (ou taux de précision) est une métrique qui mesure la proportion de prédictions positives
correctes parmi toutes les prédictions positives effectuées par le modèle.
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
F-mesure
04 ‘ Apprentissage Automatique ?
Évaluation du modèle
’
• Exemple
observées
A B C total
réelles Classes A B C