Machine learning
Rakotoarimalala Tsinjo Tony
Cours 4: Régréssion linéaire multiple
Rakotoarimalala Tsinjo Tony Machine learning
Introduction : Machine Learning supervisé et Régression
Exemple : Prédire le score moyen d’un étudiant
Variable Valeur
Genre F
Niveau d’éducation des parents Bachelor’s degree
Cours de préparation Completed
Score moyen (cible) 81.33
Variables explicatives (features) : genre, niveau parental, cours de
préparation
Variable expliquée (target) : score moyen à prédire
La régression linéaire modélise la relation entre ces variables pour faire
des prédictions.
Objectif : prédire une valeur à partir d’exemples connus (apprentissage
supervisé)
Rakotoarimalala Tsinjo Tony Machine learning
Étapes de mise en place d’un modèle supervisé
Déroulement classique pour créer un modèle de machine learning
supervisé :
1 Compréhension du problème Déterminer ce que l’on veut prédire (ex. :
score moyen).
2 Exploration et nettoyage des données Supprimer les valeurs
manquantes, détecter les incohérences, repérer les outliers.
3 Encodage et transformation Convertir les variables catégorielles,
normaliser les variables numériques.
4 Séparation des variables Définir les variables explicatives (X) et la
variable cible (y).
5 Choix et entraînement du modèle Appliquer un algorithme (ex :
régression linéaire) aux données d’entraînement.
6 Évaluation du modèle Mesurer la qualité des prédictions (R2, MAE,
RMSE, etc.).
7 Interprétation et amélioration Analyser les résultats, ajuster les
paramètres, tester d’autres approches.
Rakotoarimalala Tsinjo Tony Machine learning
La régression recouvre plusieurs méthodes d’analyse
statistique permettant d’approcher une variable à partir
d’autres qui lui sont corrélées.
un modèle de régression linéaire est un modèle de régression
qui cherche à établir une relation linéaire entre une variable,
dite expliquée, et une ou plusieurs variables, dites explicatives.
la régression linéaire multiple est une méthode de
régression mathématique étendant la régression linéaire simple
pour décrire les variations d’une variable endogène (expliquée)
associée aux variations de plusieurs variables exogènes
(explicatives).
Rakotoarimalala Tsinjo Tony Machine learning
Exemple pour un cas simple avec une seule variable explicative
en abscisse la variable explicative (on n’a qu’une seule dans cet
exemple), et en ordonnée la variable expliqué
En bleu on a des nuages de points dans le plan
En rouge le modèle de régression linéaire
Rakotoarimalala Tsinjo Tony Machine learning
Contexte et cas d’usage
Pourquoi utiliser une régression linéaire multiple ?
Prédiction de variables quantitatives à partir de plusieurs facteurs
explicatifs.
Modèle interprétable, simple à mettre en œuvre, utilisé dans de nombreux
domaines.
Quelques cas d’application :
Immobilier : prédire le prix d’un logement en fonction de sa surface, son
quartier, le nombre de pièces, etc.
Éducation : expliquer les performances scolaires à partir du nombre
d’heures d’étude, du type d’école, du soutien parental.
Agriculture : estimer le rendement d’un champ selon la pluviométrie, le
type de sol, les engrais utilisés.
Santé : prédire les dépenses médicales en fonction de l’âge, du poids, du
statut fumeur, etc.
Ce type de modèle permet d’extraire des relations utiles pour la prise de
décision.
Rakotoarimalala Tsinjo Tony Machine learning
Idées principales de la régression linéaire multiple
Objectif : Modéliser la relation entre une variable cible y (quantitative) et
plusieurs variables explicatives x1 , x2 , . . . , xp .
Hypothèse fondamentale
La variable y est une combinaison linéaire des variables explicatives :
y = a0 + a1 x1 + a2 x2 + · · · + ap xp + ε
où ε est un bruit aléatoire (erreur).
Idées clés :
Estimer les coefficients (a0 , a1 , . . . , ap ) qui minimisent l’erreur quadratique
moyenne.
Le modèle peut être utilisé pour la prédiction ou l’interprétation des
relations entre variables.
Plus il y a de variables explicatives pertinentes, plus la prédiction peut
être précise — sous réserve d’éviter la colinéarité.
Rakotoarimalala Tsinjo Tony Machine learning
Estimateur de moindre carré
L’estimateur utilisé est donc un estimateur linéaire de la forme
yˆi = â0 + â1 xi,1 + · · · + âp xi,p , i = 1 · · · n
Les résidus estimés ϵ̂i ≡ yi − ŷi sont la différence entre la
valeur de y observée et estimée
L’objectif est de choisir les âi qui minimise la somme des
carrées des résidus
n
X n
X
(â0 , ., âp ) = argmin ϵ̂2i = argmin (yi −â0 −â1 xi,1 −· · ·−âp xi,p )2
i=1 â0 ,.,âp i=1
Les ϵ̂i peuvent être interpréter par la distance de la valeur
réelle et la valeur donnée par le modèle
Rakotoarimalala Tsinjo Tony Machine learning
Estimateur de moindre carré
Pn 2
Minimiser
P S= i=1 ϵ̂i revient à chercher des solutions de
∂( ϵ̂2i )
∂âj = 0 pour j allant de 0 à p
On a pour tout j = 0, · · · , p:
P 2 n
∂( ϵ̂i ) X
=0⇔ xi,j (yi − â0 − â1 xi,1 − · · · − âp xi,p ) = 0
∂âj i=1
Sous forme matricielle
1 1 ··· 1
! ! â0 0
ŷ1 1 x1,1 ··· x1,p 0
x1,1 x2,1 ··· xn,1 â1
... −
. . . . . = ..
. . . . . . . .
. . . . . . . . .
. . . . . .
ŷn 1 xn,1 ··· xn,p 0
x1,p x1,p ··· xn,p âp
| {z } | {z } | {z } | {z }
Y X A
XT
ou encore
X T Y − X Â = 0
Rakotoarimalala Tsinjo Tony Machine learning
Estimateur de moindre carré
Donc il nous suffit de résoudre l’équation suivante sur A
X T Y − X Â = 0
C’est-à-dire
−1
X T Y = X T XA ⇔ A = X T X XTY
Cette dernière suppose que X T X est inversible c’est-à-dire X de
rang p + 1 (pas de colinéarité entre les colonnes (les variables)
de X ). Dans la pratique on supprime tout simplement les colonnes
colinéaires.
Rakotoarimalala Tsinjo Tony Machine learning
Comparer les métriques : RMSE et R 2
RMSE – Root Mean Squared R 2 – Coefficient de détermina-
Error : tion :
Erreur quadratique moyenne qui Proportion de la variance ex-
mesure la dispersion entre les pliquée par le modèle. Variante
valeurs réelles et les prédictions. normalisée de l’erreur quadra-
v tique.
u n
u1 X
(yi − ŷi )2
P
RMSE = t (yi − ŷi )2 R2 = 1 − P
n (yi − ȳ )2
i=1
→ Plus le RMSE est faible, → Plus R 2 est proche de 1,
plus le modèle est précis. meilleure est l’explication.
Rakotoarimalala Tsinjo Tony Machine learning