Ecole Marocaine des Sciences de l’Ingénieur de Casablanca, Maroc
Modèles Statistiques
Rappels et Fondements
Régression Linéaire
Chapitre I : Régression Linéaire simple
Modèles Statistiques 2 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Variance et Écart-Type
I- Rappels et Fondements :
Variance : Mesure la dispersion des valeurs autour de leur moyenne.
n
1X
Var(X) = (xi − x̄)2
n i=1
Écart-type : Racine carrée de la variance.
p
σX = Var(X).
Interprétation
Plus la variance est grande, plus les valeurs de X sont éloignées de
leur moyenne.
L’écart-type est plus intuitif car il est exprimé dans la même unité que
la variable.
Modèles Statistiques 3 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Covariance
Covariance : Mesure la relation linéaire entre deux variables X et Y .
n
1X
Cov(X, Y ) = (xi − x̄)(yi − ȳ) = xy − x̄ȳ
n i=1
où :
n n n
1X 1X 1X
xy = xi yi , x̄ = xi , ȳ = yi .
n i=1 n i=1 n i=1
Signification
Cov(X, Y ) > 0 : X et Y varient dans le même sens.
Cov(X, Y ) < 0 : X et Y varient en sens inverse.
Cov(X, Y ) = 0 : pas de relation linéaire.
Modèles Statistiques 4 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Coefficient de Corrélation (r)
Définition : Le coefficient de corrélation de Pearson (r) est la
covariance normalisée par les écarts-types :
Cov(X, Y )
r= ∈ [−1, 1].
σX σY
Exemples d’interprétation
r ≈ 1 : forte corrélation positive.
r ≈ −1 : forte corrélation négative.
r = 0 : pas de relation linéaire.
|r| < 0.3 : corrélation faible.
|r| > 0.7 : bonne corrélation.
|r| > 0.9 : corrélation excellente.
Modèles Statistiques 5 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Exemple : 5 individus (Taille/Poids)
- Exemple de base :
Considérons un échantillon de 5 individus pour lesquels nous
avons mesuré la taille (en cm) et le poids (en kg). Le tableau
suivant présente ces valeurs ainsi que les quantités
intermédiaires nécessaires aux calculs statistiques :
Individu Taille xi (cm) Poids yi (kg) x2i yi2 xi yi
1 160 55 25600 3025 8800
2 170 65 28900 4225 11050
3 175 70 30625 4900 12250
4 180 80 32400 6400 14400
5 165 60 27225 3600 9900
Table – Tableau statistique des variables taille et poids
Modèles Statistiques 6 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Exemple : 5 individus (Taille/Poids)
1. Moyennes
5
1X 160 + 170 + 175 + 180 + 165
x̄ = xi = = 170,
5 5
i=1
5
1X 55 + 65 + 70 + 80 + 60
ȳ = yi = = 66.
5 5
i=1
2. Variance de x
Var(X) = x2 − x̄2
1
= (25600 + 28900 + 30625 + 32400 + 27225) − (170)2
5
= 50.
3. Variance de y
Var(Y ) = y 2 − ȳ 2
1
= (3025 + 4225 + 4900 + 6400 + 3600) − (66)2
5
= 74.
Modèles Statistiques 7 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Exemple : 5 individus (Taille/Poids)
4. Écart-type de x
p
σx = Var(X)
√
= 50
≈ 7.07.
5. Écart-type de y
p
σy = Var(Y )
√
= 74
≈ 8.60.
6. Covariance entre x et y
Cov(X, Y ) = xy − x̄ȳ
1
= (8800 + 11050 + 12250 + 14400 + 9900) − (170 × 66)
5
= 60.
Modèles Statistiques 8 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Calcul de la Corrélation
3. Coefficient de corrélation r
Cov(X, Y )
r=
σx σy
60
=
(7.07 × 8.60)
≈ 0.986.
Interprétation
Le coefficient de corrélation r ≈ 0.986 indique une forte corrélation
positive entre la taille et le poids.
Modèles Statistiques 9 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Exemples de Nuages de Points
Définition : Un nuage de points est la représentation
graphique de paires (xi , yi ).
Exemple 1 : Corrélation positive forte
Modèles Statistiques 10 / 19
Variance, écart-type et covariance
Rappels et Fondements
Exemple de Calcul
Régression Linéaire
Nuage de Points
Nuages de Points (suite)
Exemple 2 : Faible corrélation / Données dispersées
Remarque : On remarque une dispersion significative des points, ce qui
indique une faible corrélation entre ces deux variables.
Modèles Statistiques 11 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Introduction
II-Régression Linéaire
1- Définition :
La régression linéaire simple est une méthode d’analyse
statistique qui permet de modéliser la relation entre deux
variables :
Une variable indépendante X
Une variable dépendante Y
2-Objectif :
L’objectif est de trouver une droite Y = aX + b qui
minimise l’erreur entre les valeurs observées et prédites.
Modèles Statistiques 12 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Droite de Régression : Explications
3 - Droite de Régression :
Idée : Approcher la relation entre X et Y par une fonction linéaire de la
forme :
ŷ = Ax + B.
Cette droite permet de modéliser la tendance centrale des points dans un
nuage de données.
Méthode des moindres carrés : On cherche les coefficients A et B qui
minimisent la somme des carrés des résidus :
X
(yi − ŷi )2 .
Ces coefficients sont donnés par les formules :
Cov(X, Y )
A= ,
Var(X)
B = ȳ − Ax̄.
Modèles Statistiques 13 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Exemple : Calcul des coefficients A et B
4 - Exemple de régression linéaire
À partir des valeurs déjà calculées :
x̄ = 170, ȳ = 66, Var(X) = 50, Cov(X, Y ) = 60.
Nous déterminons les coefficients de la droite de régression
ŷ = Ax + B :
1. Calcul du coefficient A (pente)
Cov(X,Y ) 60
A= Var(X) = 50 = 1.2
2. Calcul du coefficient B (ordonnée à l’origine)
B = ȳ − Ax̄ = 66 − (1.2 × 170) = −138.
Conclusion : L’équation de la droite de régression est donc :
ŷ = 1.2x − 138.
Modèles Statistiques 14 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Représentation Graphique de la Régression
Modèles Statistiques 15 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Utilité de la Droite de Régression
5 - Prédiction à l’aide de la droite de régression
La droite de régression permet non seulement de modéliser la relation entre
la taille et le poids, mais aussi de prédire des valeurs inconnues. En effet,
pour une valeur x (taille) qui ne figure pas dans notre échantillon, nous
pouvons estimer la valeur de y (poids) à l’aide de l’équation obtenue :
ŷ = 1.2x − 138
Exemple de prédiction : Si une personne mesure 172 cm, son poids
prédit sera :
ŷ = 1.2 × 172 − 138 = 68.4 kg.
Interprétation : Grâce à cette approche, il est possible d’estimer des
valeurs même en dehors des données observées, ce qui est particulièrement
utile en analyse de données et en prise de décision.
Modèles Statistiques 16 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Coefficient de Détermination R2
6 - Le Coefficient de Détermination R2
Le coefficient de détermination R2 quantifie la qualité de l’ajustement du
modèle de régression. Il est défini par :
R2 = r 2 .
Interprétation :
R2 mesure la proportion de la variance de Y qui est expliquée par
la variable X à travers le modèle de régression linéaire.
Il varie entre 0 et 1. Plus R2 est proche de 1, plus le modèle est
performant pour expliquer les variations de Y .
Exemple :
Si r = 0.9, R2 = (0.9)2 = 0.81.
Cela signifie que 81% de la variabilité de Y est expliquée par X.
Conclusion :
R2 ≈ 1 ⇒ Le modèle explique presque toute la variance de Y .
R2 ≈ 0 ⇒ Le modèle n’explique quasiment rien de la variance de Y ,
donc la relation linéaire est faible ou inexistante.
Modèles Statistiques 17 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Exercice d’Application
7 - Exercice : Régression Linéaire et Corrélation
On souhaite étudier la relation entre le nombre d’heures d’étude par
semaine (X) et la note obtenue à un examen (Y ) pour un groupe de 6
étudiants. Le tableau suivant présente les données recueillies :
Étudiant Heures d’étude xi Note yi x2i yi2 xi yi
1 5 10 .. .. ..
2 8 12 .. .. ..
3 10 14 .. .. ..
4 12 16 .. .. ..
5 15 18 .. .. ..
6 18 19 .. .. ..
Modèles Statistiques 18 / 19
Introduction
Rappels et Fondements
Droite de Régression
Régression Linéaire
Coefficient de Détermination
Exercice d’Application
Questions :
1 Calculer la moyenne de X (heures d’étude) et Y (notes
obtenues).
2 Déterminer la variance de X et la covariance entre X et Y .
3 Calculer le coefficient de corrélation r.
4 Déterminer l’équation de la droite de régression ŷ = Ax + B.
5 Calculer le coefficient de détermination R2 et interpréter sa
valeur.
6 Prédire la note d’un étudiant qui a étudié 11 heures par semaine.
Modèles Statistiques 19 / 19