Introduction au Machine Learning
UP: IL
4DS
Plan
Exemple introductif
Apprentissage automatique
Exemples d’application
Processus d’apprentissage
Types d’apprentissage
Enjeux et défis du Machine Learning
2
Exemple introductif
Reconnaitre des caractères manuscrits
Par énumération de règles:
Une série de pixels alignés => ‘1’
Une série de pixels en rond => ‘0’ …
3
Exemple introductif
Reconnaitre des caractères manuscrits
Reconnaître des caractères manuscrits est difficile :
Chaque écriture est différente et il est impossible de prévoir tous les cas.
4
Exemple introductif
Reconnaitre des caractères manuscrits
Reconnaitre des caractères, en laissant la machine apprendre à le faire
Reconnaître malgré différents styles d’écriture.
5
Apprentissage automatique
L’apprentissage automatique est la capacité des ordinateurs à apprendre et à accomplir
des tâches sans être explicitement programmés.
Concrètement :
On fournit au système un ensemble de données décrivant la tâche à accomplir, afin qu’il
puisse apprendre et construire un modèle à partir de ces données.
6
Apprentissage automatique
Programmation traditionnelle VS Apprentissage automatique
Informatique traditionnelle:
Fournir explicitement à la machine les instructions à exécuter
Apprentissage machine:
Fournir à la machine la capacité d’apprendre à résoudre des problèmes à partir
d’exemples d’entrées/sorties. Elle apprend pour pouvoir généraliser.
7
Apprentissage automatique
Place de l’apprentissage automatique dans l’IA
l’Intelligence Artificielle est une discipline qui vise à créer
des systèmes capables de simuler l’intelligence humaine.
L’apprentissage automatique est un sous-domaine de
l’intelligence artificielle où les machines apprennent
automatiquement à partir de données.
8
Exemples d’application
Prédiction de valeurs:
Estimer le prix d’une maison en fonction de certaines variables:
superficie, localisation, piscine, jardin, .. en se basant sur des
observations précédentes.
Détection des SPAM:
Analyser le contenu (ses mots) d’un mail
En se basant sur le nombre d’occurrences des mots, classer le
mail en spam ou ham. 9
Exemples d’application
Segmentation du marché:
Segmenter (catégoriser) les consommateurs dans une
base de données d’achats dans un supermarché
Recommandation d’items
Suggestions d’items similaires sur Amazon
(Smartphones, livres, musique, ..).
10
Exemples d’application
Aide au diagnostique médical:
déterminer les problèmes médicaux à partir des symptômes
Exemple: Detecter un cancer de la peau
11
Processus d’apprentissage
12
Concepts fondamentaux
Qu’est-ce qu’un modèle ?
Un modèle en Machine Learning est une représentation
mathématique qui relie les entrées (X) aux sorties (y).
Ce modèle est souvent noté f(x)
Après avoir été entraîné sur un ensemble de données
(données d’entrainement), le modèle devient capable de faire
des prédictions ou de prendre des décisions à partir de
nouvelles données (données de test).
13
Concepts fondamentaux
Notion d’apprentissage à partir des données
Jeu de données :
Features (X) : les variables ou attributs
utilisés par le modèle pour apprendre.
Labels (y) : les cibles ou valeurs que le
modèle doit prédire.
14
Concepts fondamentaux
Notion d’apprentissage à partir des données
Division du jeu de données :
Ensemble d’entraînement (Training set) :
Utilisé pour entraîner le modèle et lui
permettre d’apprendre les relations entre X
et y.
Ensemble de test (Testing set) :
Utilisé pour évaluer la performance et la
précision du modèle sur de nouvelles données.
15
Types d’apprentissage
16
Types d’apprentissage
Apprentissage supervisé
Entrainer un modèle prédictif basé sur les données d’apprentissage et leurs labels.
17
Types d’apprentissage
Apprentissage supervisé
Les nouvelles données sont classifiées en se basant sur le modèle prédictif:
18
Types d’apprentissage
Apprentissage supervisé
Il existe deux principaux types de problèmes en apprentissage supervisé :
1.Classification :
Le but est de prédire des catégories ou classes.
Exemple : Diagnostiquer si un patient est atteint d’une maladie particulière (oui/non).
19
Types d’apprentissage
Apprentissage supervisé
2.Régression :
Le but est de prédire une valeur continue.
Exemple :
Estimer le prix d’une maison en fonction de ses caractéristiques (surface,
nombre de chambres, localisation),
Prédire la température d’un lieu à une date donnée.
20
Types d’apprentissage
Apprentissage non supervisé
Le label de classe des données d’apprentissage n’est pas connu.
Le modèle doit extraire de l’information uniquement à partir de la structure des
entrées
Exemple de problème :
Regrouper les clients d’une entreprise en différents groupes selon leur comportement
d’achat, afin de cibler des campagnes marketing adaptées. Clustering
21
Types d’apprentissage
Apprentissage non supervisé
Clustering (Segmentation) :
Il s’agit de regrouper des objets similaires entre eux.
22
Types d’apprentissage
Apprentissage par renforcement
L’apprentissage par renforcement consiste à entraîner un agent à prendre des décisions
en interagissant avec un environnement.
Principe:
L’agent apprend par essais et erreurs, en recevant des
récompenses ou des pénalités selon ses actions, afin de
maximiser une fonction de récompense cumulative.
23
Enjeux et défis du Machine Learning
Biais
Biais dans les données:
Il survient lorsque les données utilisées pour entraîner un modèle ne représentent pas
correctement la réalité, ce qui peut entraîner des prédictions inexactes.
Exemple 1:
Un modèle de reconnaissance faciale entraîné
principalement sur des visages européens aura des
performances faibles sur d’autres groupes de
population (Exemple: des personnes d’origine
africaine).
24
Enjeux et défis du Machine Learning
Biais
Pourquoi il y a un biais ?
Le jeu de données n’est pas représentatif de tous les
types de visages.
Le modèle apprend surtout les caractéristiques des
visages européens.
Pour les autres populations, il n’a pas suffisamment
d’exemples pour bien généraliser, donc ses prédictions
deviennent moins fiables.
25
Enjeux et défis du Machine Learning
Biais
Exemple 2:
Entraîner un modèle médical seulement avec des données d’hôpitaux urbains:
Il risque d’être peu fiable pour des patients en zones non urbaines.
Les patients urbains ne représentent pas la diversité de tous les patients (mode de
vie, environnement, maladies fréquentes, accès aux soins…)
Pour les patients en zones non urbaines, les prédictions peuvent être incorrectes ou
inadaptées.
26
Enjeux et défis du Machine Learning
Biais
Biais de modèle:
Le biais se produit lorsque le modèle est trop simple pour capturer les relations complexes dans
les données.
Le problème due au choix du modèle, pas aux données.
Même avec des données parfaites, un modèle trop simple peut faire des erreurs systématiques.
Exemples:
Utiliser la régression linéaire pour un problème non linéaire.
Des hypothèses simplificatrices dans l'algorithme…
27
Enjeux et défis du Machine Learning
variance
La variance mesure la sensibilité d’un modèle aux petites variations des données
d’entraînement. Un modèle avec une variance élevée s'adapte trop bien aux données
d'entraînement, y compris au bruit. Cela, risque de mal généraliser sur de nouvelles
données.
Cause principale : Modèle trop complexe par rapport à la quantité ou à la qualité des
données.
Effet : Mauvaises performances sur les nouvelles données.
Exemple: Un arbre de décision très profond mémorise parfaitement les données
d’entraînement mais fait de mauvaises prédictions sur de nouvelles données.
28
Enjeux et défis du Machine Learning
Surapprentissage (Overfitting)
Un modèle sur-ajusté apprend parfaitement les données
d'entraînement, y compris les erreurs ou le bruit.
Cela est généralement dû à une variance élevée.
Conséquences :
Très bonnes performances sur les données d’entraînement.
Mauvaises performances sur de nouvelles données ou sur
l’ensemble de test (le modèle ne généralise pas).
29
Enjeux et défis du Machine Learning
Surapprentissage (Overfitting)
Solutions pour éviter le surapprentissage :
Utiliser un modèle plus simple (réduire la complexité).
Augmenter la quantité de données d’entraînement.
Choix des hyperparamètres
Méthodes de régularisations (par exemple la régularisation de type L1/Lasso et
L2/Ridge)…
30
Enjeux et défis du Machine Learning
Underfitting (sous-ajustement)
Un modèle sous-ajusté ne peut pas apprendre correctement
les relations dans les données, même sur l'ensemble
d'entraînement.
Cela est généralement dû à un biais élevé.
Conséquences :
Mauvaises performances sur l’ensemble d’entraînement.
Mauvaises performances sur l’ensemble de test.
Le modèle ne parvient pas à généraliser car il ne capture pas
les relations importantes entre les variables.
31
Enjeux et défis du Machine Learning
Underfitting (sous-ajustement)
Solutions pour éviter le sous-apprentissage :
Utiliser un modèle plus complexe adapté au problème.
Ajouter davantage de caractéristiques pertinentes.
Améliorer la qualité et la quantité des données d’entraînement…
32