Intelligence Artificielle & Données
Intelligence Artificielle & Données
Machine Learning
Régression linéaire simple et multiple
Akka Zemmari
LaBRI, Université de Bordeaux
2024 - 2025
Intelligence Artificielle & Données
Régression linéaire
Introduction
▶ Un des objectifs principaux des statistiques est d’expliquer la
variabilité que l’on observe dans les données
▶ La régression linéaire est un outil statistique très utilisé pour
étudier la présence de liens entre une variable dépendante Y et
une ou plusieurs variables indépendantes X1 , X2 , · · · , Xp .
▶ un modèle de régression peut servir à répondre à un des trois
objectifs suivants :
▶ décrire une réalité,
▶ confronter des hypothèses : données provenant d’études
expérimentales contrôles,
▶ prédire.
Intelligence Artificielle & Données
Régression linéaire
Intuition1
Dans une entreprise, on a relevé les salaires des 32 employés (mensuel en
euros, noté sal), ainsi que certaines caractéristiques
socio-démographiques telles que l’ancienneté dans l’entreprise (en années,
notée anc), le nombre d’années d’études après le bac (noté apbac), le
sexe (1 = F /2 = M , noté sex), le type d’emplois occupés (en 3
catégories codées de 1 à 3, noté emp).
num anc sal sex apbac emp
1 7 1231 1 3 2
2 15 1550 1 3 2
... ... ... ... ... ...
31 12 1539 2 2 1
32 13 1587 2 2 2
On souhaite alors évaluer l’effet éventuel des caractéristiques
socio-démographiques sur le salaire des employés.
1
exemple tiré de https://www.math.univ-toulouse.fr/~barthe/M1modlin/poly.pdf
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire simple
Exemples
▶ On dispose de données relatives au taux d’absentéisme et au
nombres d’employés dans des entreprises.
On veut vérifier l’affirmation : plus le nombre d’employé est
grand, plus le taux d’absentéisme augmente ...
▶ On dispose des chiffres des dépenses en carte de crédit et des
revenus de personnes, y a-t-il un lien entre ces chiffres ?
Voir le notebook
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire simple
Formulation
▶ Données : un échantillon de n paires (xi , yi ) indépendants et
identiquement distribués (i.i.d.)
▶ On cherche un modèle permettant de prédire les valeurs de
Y = (yi )0≤i≤n en fonction des valeurs de X = (xi )0≤i≤n :
yi = β0 + β1 xi + εi
Intelligence Artificielle & Données
Régression linéaire simple
Hypothèses
▶ H1 : X et Y sont des grandeurs numériques mesurées sans
erreur. X est une donnée (exogène) dans le modèle, Y est
aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que
l’on a sur Y provient des insuffisances de X à expliquer ses
valeurs dans le modèle).
▶ H2 : Hypothèses sur le terme aléatoire. Les εi sont i.i.d.
▶ (H2.a) En moyenne les erreurs s’annulent, E (εi ) = 0.
▶ (H2.b) La variance de l’erreur est constante et ne dépend pas
de l’observation : homoscédasticité Var (εi ) = σε2
▶ (H2.c) En particulier, l’erreur est indépendante de la variable
exogène COV (xi , εi ) = 0.
▶ (H2.d) Indépendance des erreurs, les erreurs relatives à 2
observations sont indépendantes (elles ne sont pas corrélées).
▶ (H2.e) εi ∼ N (0, ε).
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire simple
Formulation
▶ Modèle de régression simple :
yi = β1 ∗ xi + β0 + εi , ∀i
ce que l’on peut écrire Y = Xβ + ε avec :
y1 1 x1 ε1
y2 1 x2 ( )
β0 ε2
Y = . ,X = . ,β = , et ε = .. ,
.. .. β1 .
yn 1 xn εn
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire simple
Formulation
▶ Objectif : trouver des estimateurs βˆ0 et βˆ1 de β0 et β1
respectivement.
▶ → Trouver les valeurs de β0 et β1 qui minimisent les écarts
entre les valeurs réelles et les valeurs prédites.
Plus formellement, il s’agit de minimiser la fonction :
∑
n
S(β0 , β1 ) = ε2i .
i=1
comment faire ?
- on peut résoudre un système d’équations (voir le détail des
calculs au tableau).
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire simple
Formulation
▶ Objectif : trouver des estimateurs βˆ0 et βˆ1 de β0 et β1
respectivement.
Tout calcul fait :
∑n
(yi − y) (xi − x)
βˆ1 = i=1∑n 2
et βˆ0 = y − βˆ1 x
i=1 (xi − x)
avec
1∑ 1∑
n n
x= xi et y = yi .
n n
i=0 i=0
Intelligence Artificielle & Données
Régression linéaire simple
Graphiquement
▶ Voir le schéma au tableau.
▶ voir le jupyter notebook.
Intelligence Artificielle & Données
Régression linéaire simple
Analyse des sources de variabilités
Intuition
Objectif de la régression : minimiser
∑
n ∑
n
S= ε2i = (yi − ŷi )2
i=1 i=1
avec yi : la vérité terrain et ŷi la valeur prédite par le modèle (Voir
le schéma et les explications au tableau).
A partir de quand peut-on dire que le modèle est de ”bonne
qualité” ?
Intelligence Artificielle & Données
Régression linéaire simple
Analyse des sources de variabilités
La variabilité des données se décompose en une partie expliquée par le
modèle de régression et une autre résiduelle (on parle de terme d’erreur).
Ce que l’on peut écrire :
SCT = SCR + SCE
▶ SCT : somme des carrés totaux (il s’agit de la variance)
∑
n
2
SCT = (yi − y)
i=1
▶ SCE : somme des carrés expliqués par le modèle
∑
n
2
SCE = (ŷi − y)
i=1
▶ SCR : somme des carrés résiduels, non expliqués par le modèle
∑
n
2
SCR = (yi − ŷi )
i=1
Intelligence Artificielle & Données
Régression linéaire simple
Coefficient de détermination
Le coefficient de détermination R2 est défini par :
∑n
SCE SCR (yi − ŷi )
2
R = =1− = 1 − ∑i=0 n
SCT SCT i=0 (yi − y)
Ce coefficient mesure la variabilité expliquée par le modèle de
régression linéaire.
Il vérifie toujours 0 ≤ R2 ≤ 1. En particulier :
- R2 → 1 : le modèle est excellent
- R2 → 0 : le modèle ne sert à rien.
Intelligence Artificielle & Données
Régression linéaire simple
Que mesure R2 ?
Intelligence Artificielle & Données
Régression linéaire simple
Que mesure R2 ?
Attention :
”R2 → 1 : le modèle est excellent”
De quel modèle parle-t-on ?
Intuition : Quel est le R2 d’un modèle entraîné sur un nuage
composé de deux points ?
La volumétrie des données est-elle suffisante pour utiliser le modèle
pour la prédiction ?
Intelligence Artificielle & Données
Régression linéaire simple
Test de significativité globale du modèle
On a notre modèle :
Y = β1 ∗ X + β0
On teste alors l’hypothèse :
H0 : β1 = 0
contre l’hypothèse alternative
H1 : β1 ̸= 0
Question : décrire ces hypothèses avec des ”phrases”.
Intelligence Artificielle & Données
Régression linéaire simple
Test de significativité globale du modèle
Tableau d’analyse de variance
Source de variation Somme des carrés DdL2 Carrés moyen
∑
n
2
Régression (expliqués) SCE = (ŷi − y) 1 SCE/1
i=1
∑n
2
Résidus SCR = (ŷi − yi ) n−2 SCR/(n − 2)
i=1
∑n
2
Total SCT = (yi − y) n−1
i=1
Statistique de test
SCE/1 R2
F= = ≡ F(1, n − 2)
SCR/(n − 2) (1−R2 )
(n−2)
Région critique au risque α
F > F1−α (1, n − 2)
Intelligence Artificielle & Données
Régression linéaire simple
Il est temps de voir un exemple
Voir le tableau et le jupyter notebook.
Intelligence Artificielle & Données
Régression linéaire simple
Prévision et intervalle de prévision
Prévision ponctuelle
Pour un individu i∗ , la prédiction ponctuelle s’écrit :
yˆi∗ = ŷ (xi∗ )
L’erreur de prévision est alors
ε̂i∗ = ŷi∗ − yi∗
avec yi∗ = β1 xi∗ + β0 + εi∗ et ŷi∗ = β1 xi∗ + β0 + εi∗ .
On démontre alors que
▶ E (ε̂i∗ ) = 0 (exercice).
▶ Var (ε̂i∗ ) = σε̂2 ∗ (voir Giraux & Chaix (1994)).
i
Intelligence Artificielle & Données
Régression linéaire simple
Prévision et intervalle de prévision
Prévision ponctuelle
Tout calcul fait :
( )
1 (xi∗ − x)2
σ̂ε̂2i∗ = σ̂ε2 1+ + ∑ 2
n i (xi − x)
Intelligence Artificielle & Données
Régression linéaire simple
Prévision et intervalle de prévision
Prévision ponctuelle
La variance de l’erreur sera d’autant plus faible que :
1. σ̂ε2 = SCR
n−2 est petit, i.e., la droite ajuste bien le nuage de
points.
2. (xi∗ − x)2 est petit, i.e., le point est proche du centre de
gravité du nuage.
∑ 2
3. i (xi − x) est grande, i.e., la dispersion des points est
grande.
4. n est grand, i.e., le nombre d’observations ayant servi à
construire le modèle est élevé.
Intelligence Artificielle & Données
Régression linéaire simple
Prévision et intervalle de prévision
Prévision par intervalle
On sait que ε ∼ N (′, σε ).
On en déduit un intervalle de confiance au niveau 1 − α pour la
prévision :
ŷi∗ ± t1−α/2 × σ̂εˆi∗ .
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
▶ Généralisation de la régression linéaire simple au cas p ≥ 3.
▶ On dispose donc d’une réalisation :
Observation Y X1 X2 ··· Xp
1 y1 x1,1 x1,2 ··· x1,p−1
2 y2 x2,1 x2,2 ··· x2,p−1
.. .. .. .. .. ...
. . . . .
n yn xn,1 xn,2 ··· xn,p−1
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
▶ On cherche à établir un modèle linéaire :
Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,
▶ Il faut alors estimer les paramètres (βi )0 ≤ i ≤ p du modèle.
▶ Solution : Utiliser, là encore, la méthode des moindres carrés.
Ce qui revient à minimiser la quantité :
∑n ∑p
yi − β0 + βj xij
i=1 j=1
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
▶ On cherche à établir un modèle linéaire :
Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,
▶ Une fois les β̂i calculés, on détermine le coefficient de
détermination
SCR
R2 =
SCT
Comme pour la régression simple, R2 mesure la qualité du
modèle.
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
▶ On cherche à établir un modèle linéaire :
Y = β0 + β1 X1 + β2 X2 + · · · + βp Xp + ε,
▶ On cherche à décider si le modèle est pertinent ou pas. On
pose alors le test de Fisher
H0 : β1 = β2 = · · · = βp = 0
Contre l’hypothèse alternative
H1 : ∃j tel que βj ̸= 0.
Attention à l’interprétation (voir les explications).
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
Comme pour la régression simple, on dresse le tableau (un peu
modifié) de la variance :
Source de variation Somme des carrés DdL3 Carrés moyen
∑
n
2
Régression (expliqués) SCE = (ŷi − y) p SCE/p
i=1
∑n
2
Résidus SCR = (ŷi − yi ) n−p+1 SCR/(n − p + 1)
i=1
∑n
2
Total SCT = (yi − y) n−1
i=1
Et on calcule la statistique : Fobs = CMR/CME.
Au risque α, on lit la valeur critique F1−α,p,n−p+1 (dans une table
de Fisher ou en utilisant un logiciel/instruction adéquate).
3
Degrés de liberté
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
Règle de décision :
Si | Fobs |≥ F1−α,p,n−p+1 alors on rejette H0 au risque α.
Si on rejette H0 :
▶ c’est pas fini ... cela veut juste dire qu’il existe au moins un βi
qui est non nul ...
▶ ⇒ Pour chacun des βi , on doit tester l’hypothèse nulle :
H0 : βi = 0.
▶ on calcule pour cela la statistique : tobs = β̂i .
s(β̂i )
▶ On lit la valeur critique t1− α ,n−p+1 d’une loi de Student avec
2
n − p + 1 DdL.
▶ Si | tobs |≥ t1− α ,n−p+1 alors on rejette H0 au risque α.
2
Intelligence Artificielle & Données
Régression linéaire simple
Régression linéaire multiple
Dans la pratique (du moins dans ce cours) :
Il faut savoir :
1. Utiliser les bonnes instructions Python pour charger les
données, faire la régression, récupérer les βi ,
2. générer le rapport de l’analyse , et (SURTOUT) SAVOIR LE
LIRE :
▶ y lire la significabilité du modèle,
▶ poser les bonnes hypothèses à tester,
▶ déduire le bon modèle à retenir (s’il en existe un).
Intelligence Artificielle & Données
Régression linéaire simple
Il est temps de voir un exemple
Voir le tableau et le jupyter notebook.