Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Introduction
Souvent, une seule variable est insuffisante pour expliquer une autre variable.
Par exemples :
le salaire ne dépend pas seulement du nombre d’années d’expériences mais aussi du
genre (homme ou femme), du secteur d’activité, du niveau d’études…
le nombre de bonnes réponses obtenues à l’examen ne dépend pas seulement du
nombre d’heures d’études mais aussi d’autres facteurs (milieu social, niveau d’études
des parents...)
Une analyse de régression simple n’est dans ce cas pas utile. Expliquer un
phénomène par un seul facteur biaiserait les conclusions et les interprétations.
S. BENABDALLAH L3 SOCIOLOGIE 65
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Principe
Exemple
Note/20 en math Y 10 12 12 19 17 17 20
Nbre d’heures d’études X1 25 50 75 100 125 150 175
Niveau d’études des
3 5 3 8 5 5 8
parents après le bac X2
Les élèves dont les notes sont élevées, parce que leurs parents ont un niveau
d’études supérieures élevé, pouvaient probablement profiter d’un environnement
favorable : suivi, soutien et aide aux devoirs…
S. BENABDALLAH L3 SOCIOLOGIE 66
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Principe
Note/20 en math
en fonction du nombre d'heures d'études
25
X2 = 8
Note /20 en math Y 20 X2 = 5
X2 = 8
X2 = 5
15 X2 = 5
10 X2 = 3 X2 = 3
0
0 50 100 150 200
Nbre d'heures d'études X
Ceci met clairement en évidence que les notes élevées des élèves ne sont pas dus
seulement à leur effort, mais aussi au facteur exogène niveau d’études des parents.
S. BENABDALLAH L3 SOCIOLOGIE 67
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Principe
La pente de la droite de régression simple est forte (biaisée) puisqu’elle attribue la
totalité de la progression de du niveau (la note) à l’effort de l’élève. Elle ignore
l’influence du niveau d’instruction des parents sur le niveau de leur enfant.
Comment faire ?
Faire une analyse « toutes choses égales par ailleurs » : contrôler l’influence d’une
autre variable exogène (ici le niveau d’études des parents), en maintenant sa valeur
constante, pour mesurer l’effet d’une seule autre variable (ici l’effort de l’élève) ou
inversement.
S. BENABDALLAH L3 SOCIOLOGIE 68
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Principe
Note/20 en math
en fonction du nombre d'heures d'études
25
X2 = 8
Note /20 en math Y 20 X2 = 8
X2 = 5
X2 = 5
15 X2 = 5
X2 = 3 X2 = 3
10
0
0 50 100 150 200
Nbre d'heures d'études X
En contrôlant le niveau des parents, on obtient une pente corrigée. C’est le principe de la régression
multiple.
S. BENABDALLAH L3 SOCIOLOGIE 69
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Le modèle de régression linéaire multiple (ou généralisé)
On cherche une relation linéaire entre une variable dépendante Y et plusieurs
variables indépendantes (au moins deux) X 1 , X 2 ,..., X k :
Yi = Yˆi + ε i = β 0 + β 1 X 1i + β 2 X 2 i + β 3 X 3 i + ... + β k X ki + ε i (1)
Yˆ
x Cas d' une régression sur deux
εi variables explicativ es
Yi = β 0 + β1 X 1i + β1 X 2 i + ε i
Yi
x
X2
X1
S. BENABDALLAH L3 SOCIOLOGIE 70
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Lecture des termes de l’équation linéaire et interprétation des paramètres
Y : variable dépendante ou expliquée. Yi une des valeurs de Y prises par l’individu i.
Yˆ : valeur estimée de Y pour des valeurs données X 1 , X 2 ,..., X k .
X 1 , X 2 ,..., X k : variables indépendantes ou explicatives.
ε : erreur aléatoire (d’autres facteurs influencent Y).
β 0 : constante. C’est la valeur prise par la variable dépendante Y lorsque les facteurs
exogènes X 1 , X 2 ,..., X k sont nuls.
β 1 : représente l’effet de la variation de la variable X sur la variation de la variable
1
expliquée Y en maintenant les autres variables X 2 ,..., X k constantes.
β 2 : représente l’effet de la variation de la variable X 2 sur la variation de la variable
expliquée Y en maintenant les autres variables constantesX 1 , X 3 ,..., X k .
….
S. BENABDALLAH L3 SOCIOLOGIE 71
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Conditions d’application
Comme dans la régression linéaire simple, les erreursε i doivent :
être de moyenne nulle ;
être indépendants de la variable indépendante X ;
avoir une variance constante pour pour toutes les valeurs de X ;
être indépendants ;
être distribués selon une loi normale.
D’autre part, les k variables doivent être fortement corrélées à la variable
dépendante Y et faiblement corrélées entre elles.
S. BENABDALLAH L3 SOCIOLOGIE 72
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Estimation des paramètres
Comme dans la régression linéaire simple, les paramètres β 1 ,..., β k peuvent être
estimés par la méthode des moindres carrés ordinaires (MCO).
Il s’agit de déterminer les valeurs de β 1 ,..., β k telle que la somme des carrés des erreurs
(ou résidus) soit la plus faible possible.
n
n
Min SCres = ∑(Yi −Yˆ)2 ce qui est équivalent à Min SCres = ∑εi2
i=1 i=1
L’équation (1) est en réalité un système d’équations qui peut s’écrire sous forme
matricielle :
Y1 1 X L X β ε1
1 ,1 k ,1
0
M = M M M M M + M
Y 1 X L X β ε
n 1,n k ,n k n
Y = X β + ε
−1 t
Les MCO conduisent à : βˆ = ( XX) XY . Les calculs sont effectués par ordinateur. Ils
t
sont trop compliqués pour être faits à la main.
S. BENABDALLAH L3 SOCIOLOGIE 73
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Estimation des paramètres - cas de deux variables exogènes
Cov ( X 1 , Y )V ( X 2 ) − Cov ( X 1 , X 2 )Cov ( X 2 , Y )
βˆ1 =
V ( X 1 )V ( X 2 ) − Cov ( X 1 , X 2 ) 2
Cov ( X 2Y )V ( X 1 ) − Cov ( X 1 X 2 )Cov ( X 1Y )
βˆ2 =
V ( X 1 )V ( X 2 ) − Cov ( X 1 X 2 ) 2
βˆ0 = Y − βˆ1 X1 − βˆ2 X 2
Exemple
Note/20 en math Y 10 12 12 19 17 17 20
Nbre d’heures d’études X1 25 50 75 100 125 150 175
Niveau d’études des
3 5 3 8 5 5 8
parents après le bac X2
X1 et X2 ne sont pas fortement corrélées : r = 0,63. On peut les introduire ensemble dans
la régression.
S. BENABDALLAH L3 SOCIOLOGIE 74
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Estimation des paramètres - cas de deux variables exogènes
Note/20 Nbre Niveau post-bac
(X1i-X1bar) (X2i-X2bar) (X1i-X1bar) (X1i- (X2i-
en math d’heures des parents (Yi-Ybar) (X1i-X1bar) (X2i-X2bar)
(Yi-Ybar) (Yi-Ybar) (X2i-X2bar) X1bar)2 X2bar)2
Yi d’études X1i X2i
10 25 3 -5,3 -75,0 -2,3 396,4 12,1 171,4 5625,0 5,2
12 50 5 -3,3 -50,0 -0,3 164,3 0,9 14,3 2500,0 0,1
12 75 3 -3,3 -25,0 -2,3 82,1 7,5 57,1 625,0 5,2
19 100 8 3,7 0,0 2,7 0,0 10,1 0,0 0,0 7,4
17 125 5 1,7 25,0 -0,3 42,9 -0,5 -7,1 625,0 0,1
17 150 5 1,7 50,0 -0,3 85,7 -0,5 -14,3 2500,0 0,1
20 175 8 4,7 75,0 2,7 353,6 12,8 203,6 5625,0 7,4
Ybar = X1bar = X2bar =
Total 1 125,0 42,4 425,0 17 500,0 25,4
15,3 100 5,3
Si on avait fait un régression sur uniquement
^
le nombre d’heures d'études
(régression simple), on aurait trouvé β1 = 0,064. β^ 0 6,000
^ ^ ^ ^
Dans cet, exemple on voit que β1 = 0,04 (corrigé). β2 > β1 : Le niveau β1 0,040
^
d’instruction des parents semblent avoir un effet plus important sur le β2 1,000
niveau de l’enfant que l’effort de ce dernier. Y^ = 6 + 0,04 X1 + X2
^
β0 = 6. D’autres facteurs non pris en compte dans la régression pourraient
aussi expliquer le niveau de l’enfant (retard scolaire, handicap,…)
Penser à ce que deviendrait ce tableau avec 2000 lignes et 20 variables !
S. BENABDALLAH L3 SOCIOLOGIE 75
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Significativité et qualité de la régression - Précision des paramètres
Les écarts-types S ( βˆ j ) des paramètres estimés correspondent aux racines carrées
des éléments diagonaux de la matrice :
n
∑ (Y i − Yˆi ) 2
V ( βˆ ) = i =1
( t XX ) −1 => Laissons l’ordinateur s’en occuper !
n − k −1
j = 0 pour le 1er paramètre β0. …, j = k pour le dernier paramètre βk.
n-k-1 s’appelle en statistique nombre de degrés de liberté.
On déduit un intervalle de variation (ou intervalle de confiance) pour chaque
paramètre β0,…, βk :
β j ∈ βˆ j − t α S ( βˆ j ) ; βˆ j + t α S ( βˆ j )
(1− , n − k −1) (1− , n − k −1)
2 2
t α est à chercher dans une table statistique appelée table de Student.
(1− , n − k −1)
2
S. BENABDALLAH L3 SOCIOLOGIE 76
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Significativité et qualité de la régression - Précision des paramètres
Comme dans la régression simple, la précision d’un paramètre estimé augmente
inversement avec son écart-type. Elle augmente avec la taille de l’échantillon et,
inversement, avec les erreurs ε i = Yi − Yˆi .
Elle peut aussi augmenter par l’introduction de variables supplémentaires pouvant
expliquer le phénomène étudié Y.
Si la valeur 0 appartient à l’intervalle du paramètre βj (j=1,..,k), on dira que βj n’est
statistiquement pas différent de 0. Cela signifie qu’il n’y a pas de relation linéaire
significative entre les deux variables Xj et Y. (Xj n’a aucun effet sur Y).
S. BENABDALLAH L3 SOCIOLOGIE 77
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Significativité et qualité de la régression - Significativité des paramètres
Comme dans la régression simple, la vérification de la significativité d’un paramètre
peut aussi se faire à l’aide d’un test statistique.
On veut par exemple savoir si le paramètre βj est significativement non nul.
Autrement dit, on veut savoir si, statistiquement, il existe un effet de la variation des
valeurs de la variable explicative Xj sur la variation des valeur de la variable
expliquée Y.
Comme dans la régression simple, on veut tester : H0 : β j = 0 contre H1 : β j ≠ 0
Procéder au test de Student :
βˆ j
On calcule : tc =
S ( βˆ ) j
On rejette H 0 si tc ≥ à un seuil critique t α
.
1− , n − 2
2
t α
1− , n − 2 est à chercher dans une table statistique appelée table de Student.
2
S. BENABDALLAH L3 SOCIOLOGIE 78
Statistique multivariée : régression multiple
L’analyse de la régression linéaire multiple
Significativité et qualité de la régression - Significativité des paramètres
Les logiciels statistiques renvoient la probabilité que l’effet de la variable exogène
(ou explicative) Xj sur la variable endogène (ou expliquée) soit nul (βj = 0).
Cette probabilité s’appelle P-value.
Si P-value est inférieure à 1%, on dira que βj est significatif (différent de 0) au seuil de
1%. La variable Xj a donc un effet significatif sur la variable Y au seuil de 1%.
Si P-value est inférieure à 5%, on dira que βj est significatif (différent de 0) au seuil de
5%. La variable Xj a donc un effet significatif sur la variable Y au seuil de5%.
Si P-value est inférieure à 10%, on dira que βj est significatif (différent de 0) au seuil
de 10%. La variable Xj a donc un effet significatif sur la variable Y au seuil de 10%.
Le seuil 1%, 5% ou 10% est le risque de vous tromper en affirmant l’existence d’un
effet de la variable explicative Xj sur la variable expliquée Y.
S. BENABDALLAH L3 SOCIOLOGIE 79