0% ont trouvé ce document utile (0 vote)
60 vues11 pages

Regression Lineaire Multiple

Le document présente la régression linéaire multiple comme une méthode de machine learning supervisé pour prédire une variable cible à partir de plusieurs variables explicatives. Il décrit les étapes de mise en place d'un modèle, les concepts fondamentaux de la régression, ainsi que des applications dans divers domaines tels que l'éducation et l'immobilier. Enfin, il aborde les métriques d'évaluation du modèle, notamment le RMSE et le coefficient de détermination R².

Transféré par

naryrandriantsoa53
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
60 vues11 pages

Regression Lineaire Multiple

Le document présente la régression linéaire multiple comme une méthode de machine learning supervisé pour prédire une variable cible à partir de plusieurs variables explicatives. Il décrit les étapes de mise en place d'un modèle, les concepts fondamentaux de la régression, ainsi que des applications dans divers domaines tels que l'éducation et l'immobilier. Enfin, il aborde les métriques d'évaluation du modèle, notamment le RMSE et le coefficient de détermination R².

Transféré par

naryrandriantsoa53
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine learning

Rakotoarimalala Tsinjo Tony

Cours 4: Régréssion linéaire multiple

Rakotoarimalala Tsinjo Tony Machine learning


Introduction : Machine Learning supervisé et Régression

Exemple : Prédire le score moyen d’un étudiant


Variable Valeur
Genre F
Niveau d’éducation des parents Bachelor’s degree
Cours de préparation Completed
Score moyen (cible) 81.33

Variables explicatives (features) : genre, niveau parental, cours de


préparation
Variable expliquée (target) : score moyen à prédire
La régression linéaire modélise la relation entre ces variables pour faire
des prédictions.
Objectif : prédire une valeur à partir d’exemples connus (apprentissage
supervisé)

Rakotoarimalala Tsinjo Tony Machine learning


Étapes de mise en place d’un modèle supervisé
Déroulement classique pour créer un modèle de machine learning
supervisé :

1 Compréhension du problème Déterminer ce que l’on veut prédire (ex. :


score moyen).
2 Exploration et nettoyage des données Supprimer les valeurs
manquantes, détecter les incohérences, repérer les outliers.
3 Encodage et transformation Convertir les variables catégorielles,
normaliser les variables numériques.
4 Séparation des variables Définir les variables explicatives (X) et la
variable cible (y).
5 Choix et entraînement du modèle Appliquer un algorithme (ex :
régression linéaire) aux données d’entraînement.
6 Évaluation du modèle Mesurer la qualité des prédictions (R2, MAE,
RMSE, etc.).
7 Interprétation et amélioration Analyser les résultats, ajuster les
paramètres, tester d’autres approches.

Rakotoarimalala Tsinjo Tony Machine learning


La régression recouvre plusieurs méthodes d’analyse
statistique permettant d’approcher une variable à partir
d’autres qui lui sont corrélées.
un modèle de régression linéaire est un modèle de régression
qui cherche à établir une relation linéaire entre une variable,
dite expliquée, et une ou plusieurs variables, dites explicatives.
la régression linéaire multiple est une méthode de
régression mathématique étendant la régression linéaire simple
pour décrire les variations d’une variable endogène (expliquée)
associée aux variations de plusieurs variables exogènes
(explicatives).

Rakotoarimalala Tsinjo Tony Machine learning


Exemple pour un cas simple avec une seule variable explicative

en abscisse la variable explicative (on n’a qu’une seule dans cet


exemple), et en ordonnée la variable expliqué
En bleu on a des nuages de points dans le plan
En rouge le modèle de régression linéaire

Rakotoarimalala Tsinjo Tony Machine learning


Contexte et cas d’usage
Pourquoi utiliser une régression linéaire multiple ?

Prédiction de variables quantitatives à partir de plusieurs facteurs


explicatifs.
Modèle interprétable, simple à mettre en œuvre, utilisé dans de nombreux
domaines.
Quelques cas d’application :

Immobilier : prédire le prix d’un logement en fonction de sa surface, son


quartier, le nombre de pièces, etc.
Éducation : expliquer les performances scolaires à partir du nombre
d’heures d’étude, du type d’école, du soutien parental.
Agriculture : estimer le rendement d’un champ selon la pluviométrie, le
type de sol, les engrais utilisés.
Santé : prédire les dépenses médicales en fonction de l’âge, du poids, du
statut fumeur, etc.
Ce type de modèle permet d’extraire des relations utiles pour la prise de
décision.
Rakotoarimalala Tsinjo Tony Machine learning
Idées principales de la régression linéaire multiple

Objectif : Modéliser la relation entre une variable cible y (quantitative) et


plusieurs variables explicatives x1 , x2 , . . . , xp .

Hypothèse fondamentale
La variable y est une combinaison linéaire des variables explicatives :

y = a0 + a1 x1 + a2 x2 + · · · + ap xp + ε

où ε est un bruit aléatoire (erreur).

Idées clés :
Estimer les coefficients (a0 , a1 , . . . , ap ) qui minimisent l’erreur quadratique
moyenne.
Le modèle peut être utilisé pour la prédiction ou l’interprétation des
relations entre variables.
Plus il y a de variables explicatives pertinentes, plus la prédiction peut
être précise — sous réserve d’éviter la colinéarité.

Rakotoarimalala Tsinjo Tony Machine learning


Estimateur de moindre carré

L’estimateur utilisé est donc un estimateur linéaire de la forme

yˆi = â0 + â1 xi,1 + · · · + âp xi,p , i = 1 · · · n

Les résidus estimés ϵ̂i ≡ yi − ŷi sont la différence entre la


valeur de y observée et estimée
L’objectif est de choisir les âi qui minimise la somme des
carrées des résidus
n
X n
X
(â0 , ., âp ) = argmin ϵ̂2i = argmin (yi −â0 −â1 xi,1 −· · ·−âp xi,p )2
i=1 â0 ,.,âp i=1

Les ϵ̂i peuvent être interpréter par la distance de la valeur


réelle et la valeur donnée par le modèle

Rakotoarimalala Tsinjo Tony Machine learning


Estimateur de moindre carré
Pn 2
Minimiser
P S= i=1 ϵ̂i revient à chercher des solutions de
∂( ϵ̂2i )
∂âj = 0 pour j allant de 0 à p
On a pour tout j = 0, · · · , p:
P 2 n
∂( ϵ̂i ) X
=0⇔ xi,j (yi − â0 − â1 xi,1 − · · · − âp xi,p ) = 0
∂âj i=1

Sous forme matricielle


 
 1 1 ··· 1
 ! ! â0  0
 ŷ1 1 x1,1 ··· x1,p 0
x1,1 x2,1 ··· xn,1 â1

 ... −
 . . . .  .  =  .. 

 . . . . . . . .
. . . . . . . . .
. . . .  .  .
 ŷn 1 xn,1 ··· xn,p 0
x1,p x1,p ··· xn,p âp 
| {z } | {z } | {z } | {z }
Y X A
XT
ou encore  
X T Y − X Â = 0

Rakotoarimalala Tsinjo Tony Machine learning


Estimateur de moindre carré

Donc il nous suffit de résoudre l’équation suivante sur A


 
X T Y − X Â = 0

C’est-à-dire
 −1
X T Y = X T XA ⇔ A = X T X XTY

Cette dernière suppose que X T X est inversible c’est-à-dire X de


rang p + 1 (pas de colinéarité entre les colonnes (les variables)
de X ). Dans la pratique on supprime tout simplement les colonnes
colinéaires.

Rakotoarimalala Tsinjo Tony Machine learning


Comparer les métriques : RMSE et R 2

RMSE – Root Mean Squared R 2 – Coefficient de détermina-


Error : tion :
Erreur quadratique moyenne qui Proportion de la variance ex-
mesure la dispersion entre les pliquée par le modèle. Variante
valeurs réelles et les prédictions. normalisée de l’erreur quadra-
v tique.
u n
u1 X
(yi − ŷi )2
P
RMSE = t (yi − ŷi )2 R2 = 1 − P
n (yi − ȳ )2
i=1

→ Plus le RMSE est faible, → Plus R 2 est proche de 1,


plus le modèle est précis. meilleure est l’explication.

Rakotoarimalala Tsinjo Tony Machine learning

Vous aimerez peut-être aussi