Chapitre2: Apprentissage Supervisé:
Régression linéaire
2
Objectifs du chapitre
❑ Description :
L’objectifs de ce chapitre est de comprendre en profondeur le concept de régression linéaire, ses applications,
ses limitations et ses techniques associées
❑ Objectifs
Ce chapitre a pour objectif est de:
▪ Compréhension du concept de régression linéaire :
✓Définition de la régression linéaire.
✓Compréhension des termes tels que variables dépendantes et indépendantes.
▪ Méthodes de régression linéaire :
✓Présentation des différentes méthodes de régression linéaire, y compris la régression linéaire
simple et multiple.
✓Explication de la différence entre la régression linéaire simple et la régression linéaire multiple.
▪ Techniques de modélisation et d'évaluation :
✓Techniques de modélisation des données avec la régression linéaire.
✓Méthodes d'évaluation de la performance du modèle, telles que la validation croisée, le coefficient
de détermination (R²), l'erreur quadratique moyenne (EQM), etc.
3
Plan du Chapitre
Introduction
La régression
La régression linéaire vs. La régression non linéaire
A quoi sert la régression linéaire ?
Le coefficient de corrélation
La notion d’erreur quadratique moyenne
Plusieurs métriques d’évaluation
4
Introduction
Processus de Machine Learning Avec CRISP-DM: phase modélisation et
évaluation.
Modélisation et
évaluation
5
A quoi sert la régression
linéaire ?
La régression linéaire est une technique d'analyse
statistique qui vise à établir une relation linéaire entre
une variable dépendante continue et une ou plusieurs
variables indépendantes, permettant ainsi de prédire
des valeurs numériques en fonction des valeurs des
variables indépendantes.
Elle trouve des coefficients optimaux pour la ligne de
régression qui minimise la somme des carrés des écarts
entre les valeurs prédites et les valeurs réelles.
6
La régression
La régression permet de trouver et de quantifier la relation entre les variables.
Elle peut être utilisée pour faire des prédictions, estimer les effets de différents
facteurs sur une variable cible et identifier des motifs dans les données.
Exemple: Prédire le prix des maisons à partir de leur surface…
7
La régression
L'analyse de régression linéaire est utilisée pour créer un modèle qui décrit la
relation entre une variable dépendante et une ou plusieurs variables
indépendantes.
Selon qu'il y a une ou plusieurs variables indépendantes, on distingue l'analyse de
régression linéaire simple et l'analyse de régression linéaire multiple.
8
La régression
Dans le cas d'une régression linéaire simple, l'objectif est d'examiner l'influence
d'une variable indépendante sur une variable dépendante. Dans le second cas,
une régression linéaire multiple, on analyse l'influence de plusieurs variables
indépendantes sur une variable dépendante.
Dans la régression linéaire, une condition préalable importante est que l'échelle de
mesure de la variable dépendante soit métrique et que la distribution soit
normale. Si la variable dépendante est catégorique, une régression logistique est
utilisée. Exemple : Régression linéaire simple
La taille a-t-elle une influence sur le poids d'une personne ?
Exemple : Régression linéaire multiple
La taille et le sexe ont-ils une influence sur le poids d'une
personne ?
Variable dépendante
Variables indépendantes 9
La régression
Régression linéaire simple
L'objectif d'une régression linéaire simple est de prédire la valeur d'une variable
dépendante en fonction d'une variable indépendante. Plus la relation linéaire entre la
variable indépendante et la variable dépendante est grande, plus la prédiction est précise.
10
La régression
Régression linéaire simple
Définition des "coefficients de régression" :
a : le point d'intersection avec l'axe des ordonnées (y)
b : la pente de la droite
ŷ est l'estimation respective de la valeur y. Cela signifie que pour chaque valeur x,
la valeur y correspondante est estimée. Dans notre exemple, cela signifie que la
taille des personnes est utilisée pour estimer leur poids.
11
La régression
Régression linéaire simple
Lors du calcul de la droite de régression, on tente de déterminer les coefficients de régression (a et b)
de manière à ce que la somme des carrés des résidus soit minimale (MCO - "moindres carrés
ordinaires").
Le coefficient de régression b peut maintenant avoir différents signes, qui peuvent être interprétés
comme suit :
b > 0 : il existe une corrélation positive entre x et y (plus x est grand, plus y est grand)
b< 0 : il existe une corrélation négative entre x et y (plus x est grand, plus y est petit)
b = 0 : il n'y a pas de corrélation entre x et y.
Les coefficients de régression standardisés sont généralement désignés par la lettre "bêta". Il s'agit de
valeurs comparables entre elles. Ici, l'unité de mesure de la variable n'a plus d'importance.
12
La régression
Régression linéaire multiple
La régression linéaire multiple permet de prendre en compte plus de deux
variables indépendantes.
L'objectif est d'estimer une variable en fonction de plusieurs autres
variables. La variable à estimer est appelée variable dépendante (critère).
Les variables utilisées pour la prédiction sont appelées variables
indépendantes (prédicteurs).
13
Régression linéaire vs.
Régression non linéaire
L'analyse de régression peut être
linéaire, où la relation entre les
variables est modélisée comme
une ligne droite.
Elle peut être non linéaire, où
la relation est modélisée à l'aide
d'une courbe ou d'une autre
fonction non linéaire. 14
Notion d’erreur
quadratique moyenne
Pour évaluer la précision d’une droite
d’estimation, nous devons introduire
une métrique de l’erreur. Pour cela on
utilise souvent l’erreur quadratique
moyenne (ou mean squared error).
L’erreur quadratique moyenne est la
moyenne des carrées des différences
entre les valeurs prédites et les vraies
valeurs.
15
Notion d’erreur
quadratique moyenne
Optimiser l’ajustement de la régression linéaire
Objectif : Minimiser la fonction d’erreur: J(B0,B1)
Sélectionner (B0, B1) de telle sorte que f(x) soit proche de y pour
tous les échantillons de l'ensemble de données d'entraînement (x, y).
16
Notion d’erreur
quadratique moyenne
Optimiser l’ajustement de la régression linéaire
Trouver l’erreur minimale avec la descente de gradient
17
Notion d’erreur
quadratique moyenne
Optimiser l’ajustement de la régression linéaire
Trouver l’erreur minimale avec la descente de gradient
18
Plusieurs métriques
d’évaluation
• MAE (Erreur absolue moyenne)
• représente la différence entre les valeurs originales et prédites
obtenue en prenant la moyenne de la différence absolue sur
l'ensemble des données.
• MSE (Erreur quadratique moyenne)
• représente la différence entre les valeurs originales et prédites
obtenue en élevant au carré la différence moyenne sur
l'ensemble des données.
• RMSE (Racine de l'erreur quadratique moyenne)
• est le taux d'erreur obtenu en prenant la racine carrée de
MSE.
• R² (Coefficient de détermination)
• représente le coefficient mesurant à quel point les valeurs
s'ajustent par rapport aux valeurs originales. La valeur, de 0 à
1, est interprétée en pourcentage. Plus la valeur est élevée,
meilleure est la qualité du modèle.
19