0% ont trouvé ce document utile (0 vote)
23 vues30 pages

08 Ml-Regression

Le document traite de la régression linéaire, un outil statistique utilisé pour analyser les relations entre une variable dépendante et plusieurs variables indépendantes. Il explique les concepts de régression linéaire simple et multiple, ainsi que les méthodes pour estimer les paramètres du modèle et évaluer sa qualité à l'aide du coefficient de détermination R2. Des exemples pratiques et des hypothèses sous-jacentes sont également présentés pour illustrer l'application de la régression dans des contextes réels.

Transféré par

rakindodo94
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
23 vues30 pages

08 Ml-Regression

Le document traite de la régression linéaire, un outil statistique utilisé pour analyser les relations entre une variable dépendante et plusieurs variables indépendantes. Il explique les concepts de régression linéaire simple et multiple, ainsi que les méthodes pour estimer les paramètres du modèle et évaluer sa qualité à l'aide du coefficient de détermination R2. Des exemples pratiques et des hypothèses sous-jacentes sont également présentés pour illustrer l'application de la régression dans des contextes réels.

Transféré par

rakindodo94
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Intelligence Artificielle & Données

Intelligence Artificielle & Données


Machine Learning
Régression linéaire simple et multiple

Akka Zemmari

LaBRI, Université de Bordeaux

2024 - 2025
Intelligence Artificielle & Données
Régression linéaire

Introduction

▶ Un des objectifs principaux des statistiques est d’expliquer la


variabilité que l’on observe dans les données
▶ La régression linéaire est un outil statistique très utilisé pour
étudier la présence de liens entre une variable dépendante Y et
une ou plusieurs variables indépendantes X1 , X2 , · · · , Xp .
▶ un modèle de régression peut servir à répondre à un des trois
objectifs suivants :
▶ décrire une réalité,
▶ confronter des hypothèses : données provenant d’études
expérimentales contrôles,
▶ prédire.
Intelligence Artificielle & Données
Régression linéaire

Intuition1
Dans une entreprise, on a relevé les salaires des 32 employés (mensuel en
euros, noté sal), ainsi que certaines caractéristiques
socio-démographiques telles que l’ancienneté dans l’entreprise (en années,
notée anc), le nombre d’années d’études après le bac (noté apbac), le
sexe (1 = F /2 = M , noté sex), le type d’emplois occupés (en 3
catégories codées de 1 à 3, noté emp).

num anc sal sex apbac emp


1 7 1231 1 3 2
2 15 1550 1 3 2
... ... ... ... ... ...
31 12 1539 2 2 1
32 13 1587 2 2 2

On souhaite alors évaluer l’effet éventuel des caractéristiques


socio-démographiques sur le salaire des employés.
1
exemple tiré de https://www.math.univ-toulouse.fr/~barthe/M1modlin/poly.pdf
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire simple

Exemples
▶ On dispose de données relatives au taux d’absentéisme et au
nombres d’employés dans des entreprises.
On veut vérifier l’affirmation : plus le nombre d’employé est
grand, plus le taux d’absentéisme augmente ...
▶ On dispose des chiffres des dépenses en carte de crédit et des
revenus de personnes, y a-t-il un lien entre ces chiffres ?
Voir le notebook
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire simple

Formulation
▶ Données : un échantillon de n paires (xi , yi ) indépendants et
identiquement distribués (i.i.d.)
▶ On cherche un modèle permettant de prédire les valeurs de
Y = (yi )0≤i≤n en fonction des valeurs de X = (xi )0≤i≤n :

yi = β0 + β1 xi + εi
Intelligence Artificielle & Données
Régression linéaire simple

Hypothèses
▶ H1 : X et Y sont des grandeurs numériques mesurées sans
erreur. X est une donnée (exogène) dans le modèle, Y est
aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que
l’on a sur Y provient des insuffisances de X à expliquer ses
valeurs dans le modèle).
▶ H2 : Hypothèses sur le terme aléatoire. Les εi sont i.i.d.
▶ (H2.a) En moyenne les erreurs s’annulent, E (εi ) = 0.
▶ (H2.b) La variance de l’erreur est constante et ne dépend pas
de l’observation : homoscédasticité Var (εi ) = σε2
▶ (H2.c) En particulier, l’erreur est indépendante de la variable
exogène COV (xi , εi ) = 0.
▶ (H2.d) Indépendance des erreurs, les erreurs relatives à 2
observations sont indépendantes (elles ne sont pas corrélées).
▶ (H2.e) εi ∼ N (0, ε).
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire simple

Formulation
▶ Modèle de régression simple :

yi = β1 ∗ xi + β0 + εi , ∀i
ce que l’on peut écrire Y = Xβ + ε avec :
     
y1 1 x1 ε1
 y2   1 x2  ( )  
    β0  ε2 
Y =  . ,X =  .  ,β = , et ε =  .. ,
 ..   ..  β1  . 
yn 1 xn εn
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire simple


Formulation
▶ Objectif : trouver des estimateurs βˆ0 et βˆ1 de β0 et β1
respectivement.
▶ → Trouver les valeurs de β0 et β1 qui minimisent les écarts
entre les valeurs réelles et les valeurs prédites.
Plus formellement, il s’agit de minimiser la fonction :


n
S(β0 , β1 ) = ε2i .
i=1

comment faire ?
- on peut résoudre un système d’équations (voir le détail des
calculs au tableau).
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire simple

Formulation
▶ Objectif : trouver des estimateurs βˆ0 et βˆ1 de β0 et β1
respectivement.
Tout calcul fait :
∑n
(yi − y) (xi − x)
βˆ1 = i=1∑n 2
et βˆ0 = y − βˆ1 x
i=1 (xi − x)

avec
1∑ 1∑
n n
x= xi et y = yi .
n n
i=0 i=0
Intelligence Artificielle & Données
Régression linéaire simple

Graphiquement

▶ Voir le schéma au tableau.


▶ voir le jupyter notebook.
Intelligence Artificielle & Données
Régression linéaire simple

Analyse des sources de variabilités

Intuition
Objectif de la régression : minimiser


n ∑
n
S= ε2i = (yi − ŷi )2
i=1 i=1

avec yi : la vérité terrain et ŷi la valeur prédite par le modèle (Voir


le schéma et les explications au tableau).

A partir de quand peut-on dire que le modèle est de ”bonne


qualité” ?
Intelligence Artificielle & Données
Régression linéaire simple

Analyse des sources de variabilités


La variabilité des données se décompose en une partie expliquée par le
modèle de régression et une autre résiduelle (on parle de terme d’erreur).
Ce que l’on peut écrire :
SCT = SCR + SCE
▶ SCT : somme des carrés totaux (il s’agit de la variance)

n
2
SCT = (yi − y)
i=1

▶ SCE : somme des carrés expliqués par le modèle



n
2
SCE = (ŷi − y)
i=1

▶ SCR : somme des carrés résiduels, non expliqués par le modèle



n
2
SCR = (yi − ŷi )
i=1
Intelligence Artificielle & Données
Régression linéaire simple

Coefficient de détermination

Le coefficient de détermination R2 est défini par :


∑n
SCE SCR (yi − ŷi )
2
R = =1− = 1 − ∑i=0 n
SCT SCT i=0 (yi − y)

Ce coefficient mesure la variabilité expliquée par le modèle de


régression linéaire.
Il vérifie toujours 0 ≤ R2 ≤ 1. En particulier :
- R2 → 1 : le modèle est excellent
- R2 → 0 : le modèle ne sert à rien.
Intelligence Artificielle & Données
Régression linéaire simple

Que mesure R2 ?
Intelligence Artificielle & Données
Régression linéaire simple

Que mesure R2 ?

Attention :

”R2 → 1 : le modèle est excellent”

De quel modèle parle-t-on ?

Intuition : Quel est le R2 d’un modèle entraîné sur un nuage


composé de deux points ?

La volumétrie des données est-elle suffisante pour utiliser le modèle


pour la prédiction ?
Intelligence Artificielle & Données
Régression linéaire simple

Test de significativité globale du modèle

On a notre modèle :
Y = β1 ∗ X + β0
On teste alors l’hypothèse :

H0 : β1 = 0

contre l’hypothèse alternative

H1 : β1 ̸= 0

Question : décrire ces hypothèses avec des ”phrases”.


Intelligence Artificielle & Données
Régression linéaire simple

Test de significativité globale du modèle


Tableau d’analyse de variance
Source de variation Somme des carrés DdL2 Carrés moyen

n
2
Régression (expliqués) SCE = (ŷi − y) 1 SCE/1
i=1
∑n
2
Résidus SCR = (ŷi − yi ) n−2 SCR/(n − 2)
i=1
∑n
2
Total SCT = (yi − y) n−1
i=1

Statistique de test
SCE/1 R2
F= = ≡ F(1, n − 2)
SCR/(n − 2) (1−R2 )
(n−2)

Région critique au risque α

F > F1−α (1, n − 2)


Intelligence Artificielle & Données
Régression linéaire simple

Il est temps de voir un exemple

Voir le tableau et le jupyter notebook.


Intelligence Artificielle & Données
Régression linéaire simple

Prévision et intervalle de prévision

Prévision ponctuelle
Pour un individu i∗ , la prédiction ponctuelle s’écrit :

yˆi∗ = ŷ (xi∗ )

L’erreur de prévision est alors

ε̂i∗ = ŷi∗ − yi∗

avec yi∗ = β1 xi∗ + β0 + εi∗ et ŷi∗ = β1 xi∗ + β0 + εi∗ .


On démontre alors que
▶ E (ε̂i∗ ) = 0 (exercice).
▶ Var (ε̂i∗ ) = σε̂2 ∗ (voir Giraux & Chaix (1994)).
i
Intelligence Artificielle & Données
Régression linéaire simple

Prévision et intervalle de prévision

Prévision ponctuelle
Tout calcul fait :
( )
1 (xi∗ − x)2
σ̂ε̂2i∗ = σ̂ε2 1+ + ∑ 2
n i (xi − x)
Intelligence Artificielle & Données
Régression linéaire simple

Prévision et intervalle de prévision

Prévision ponctuelle
La variance de l’erreur sera d’autant plus faible que :
1. σ̂ε2 = SCR
n−2 est petit, i.e., la droite ajuste bien le nuage de
points.
2. (xi∗ − x)2 est petit, i.e., le point est proche du centre de
gravité du nuage.
∑ 2
3. i (xi − x) est grande, i.e., la dispersion des points est
grande.
4. n est grand, i.e., le nombre d’observations ayant servi à
construire le modèle est élevé.
Intelligence Artificielle & Données
Régression linéaire simple

Prévision et intervalle de prévision

Prévision par intervalle


On sait que ε ∼ N (′, σε ).
On en déduit un intervalle de confiance au niveau 1 − α pour la
prévision :
ŷi∗ ± t1−α/2 × σ̂εˆi∗ .
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple

▶ Généralisation de la régression linéaire simple au cas p ≥ 3.


▶ On dispose donc d’une réalisation :

Observation Y X1 X2 ··· Xp
1 y1 x1,1 x1,2 ··· x1,p−1
2 y2 x2,1 x2,2 ··· x2,p−1
.. .. .. .. .. ...
. . . . .
n yn xn,1 xn,2 ··· xn,p−1
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple

▶ On cherche à établir un modèle linéaire :

Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,

▶ Il faut alors estimer les paramètres (βi )0 ≤ i ≤ p du modèle.


▶ Solution : Utiliser, là encore, la méthode des moindres carrés.
Ce qui revient à minimiser la quantité :
  
∑n ∑p
yi − β0 + βj xij 
i=1 j=1
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple

▶ On cherche à établir un modèle linéaire :

Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,

▶ Une fois les β̂i calculés, on détermine le coefficient de


détermination
SCR
R2 =
SCT
Comme pour la régression simple, R2 mesure la qualité du
modèle.
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple


▶ On cherche à établir un modèle linéaire :

Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,

▶ On cherche à décider si le modèle est pertinent ou pas. On


pose alors le test de Fisher

H0 : β1 = β2 = · · · = βp = 0

Contre l’hypothèse alternative

H1 : ∃j tel que βj ̸= 0.

Attention à l’interprétation (voir les explications).


Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple

Comme pour la régression simple, on dresse le tableau (un peu


modifié) de la variance :

Source de variation Somme des carrés DdL3 Carrés moyen



n
2
Régression (expliqués) SCE = (ŷi − y) p SCE/p
i=1
∑n
2
Résidus SCR = (ŷi − yi ) n−p+1 SCR/(n − p + 1)
i=1
∑n
2
Total SCT = (yi − y) n−1
i=1
Et on calcule la statistique : Fobs = CMR/CME.
Au risque α, on lit la valeur critique F1−α,p,n−p+1 (dans une table
de Fisher ou en utilisant un logiciel/instruction adéquate).

3
Degrés de liberté
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple


Règle de décision :
Si | Fobs |≥ F1−α,p,n−p+1 alors on rejette H0 au risque α.
Si on rejette H0 :
▶ c’est pas fini ... cela veut juste dire qu’il existe au moins un βi
qui est non nul ...
▶ ⇒ Pour chacun des βi , on doit tester l’hypothèse nulle :

H0 : βi = 0.

▶ on calcule pour cela la statistique : tobs = β̂i .


s(β̂i )
▶ On lit la valeur critique t1− α ,n−p+1 d’une loi de Student avec
2
n − p + 1 DdL.
▶ Si | tobs |≥ t1− α ,n−p+1 alors on rejette H0 au risque α.
2
Intelligence Artificielle & Données
Régression linéaire simple

Régression linéaire multiple

Dans la pratique (du moins dans ce cours) :


Il faut savoir :
1. Utiliser les bonnes instructions Python pour charger les
données, faire la régression, récupérer les βi ,
2. générer le rapport de l’analyse , et (SURTOUT) SAVOIR LE
LIRE :
▶ y lire la significabilité du modèle,
▶ poser les bonnes hypothèses à tester,
▶ déduire le bon modèle à retenir (s’il en existe un).
Intelligence Artificielle & Données
Régression linéaire simple

Il est temps de voir un exemple

Voir le tableau et le jupyter notebook.

Vous aimerez peut-être aussi