. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
Le problème de la multicolinéarité . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD
. . . . . . . . . . . . . . . . . . . . . .
28 novembre 2015
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 1 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 2 / 18
Définition et conséquences
. . . . . . . . . . . . . . . . . . . . . .
La multicolinéarité est le fait qu’une variable explicative est une . . . . . . . . . . . . . . . . . . . . . .
combinaison linéaire des autres variables explicatives. Par exemple si
une variable X3 en faisant la somme pondérée de deux autres . . . . . . . . . . . . . . . . . . . . . .
variables X1 et X2 , par exemple X3 = 2X1 + 3X2 , alors X1 , X2 et X3
seront multicolinéaires et on parle de multicolinéarité parfaite. . . . . . . . . . . . . . . . . . . . . . .
En pratique on rencontre rarement ce genre de situation. Par contre,
on rencontre assez souvent la situation où X3 est très proche d’une . . . . . . . . . . . . . . . . . . . . . .
combinaison linaire de X1 et X3 . Cela veut dire que la régression de
X3 sur X1 et X2 est très significative. . . . . . . . . . . . . . . . . . . . . . .
Dans ce cas la variable X3 partage une partie de sa variabilité avec X1
et X2 . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 3 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 4 / 18
Conséquences
Si la multicolinéarité est parfaite alors la matrice (X T X )−1 n’est pas . . . . . . . . . . . . . . . . . . . . . .
inversible, l’estimateur MCO n’est pas calculable
. . . . . . . . . . . . . . . . . . . . . .
Lorsque l’une des variables explicatives est proche d’une combinaison
linaire des autres variables alors X T X serait mal conditionnée
. . . . . . . . . . . . . . . . . . . . . .
(det(X T X ) proche de 0). (X T X )−1 aura des éléments très grands.
En cas de multicolinéarité, certaines des variances estimées des . . . . . . . . . . . . . . . . . . . . . .
coefficients vont être très grands
L’écart-type σ̂âi d’un coefficient ai est un indicateur de la stablité de . . . . . . . . . . . . . . . . . . . . . .
l’estimation de ce dernier. Si σ̂âi est du même ordre de grandeur que
ai , ce dernier est mal déterminé . . . . . . . . . . . . . . . . . . . . . .
Les t de Student sont sous-estimés, certaines variables ne paraissent
pas significatives . . . . . . . . . . . . . . . . . . . . . .
Les valeurs et signes de certains coefficients sont contradictoires :
coefficient d’une variable explicative négatif alors que la corrélation de
celle-ci avec y est positive.
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 5 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 6 / 18
Comment détecter la multicolinéarité
. . . . . . . . . . . . . . . . . . . . . .
Critère de Klein. Il s’agit simplement d’un critère de présomption de . . . . . . . . . . . . . . . . . . . . . .
la multicolinéarité. Il y a présomption de multicolinéarité si au moins
un des rxi ,xj élevé au carré est supérieur au R 2 . . . . . . . . . . . . . . . . . . . . . .
Le test de Farrar et Glauber teste les hypothèses H0 : Absence de
multicolinéartié et H1 : présence de multicolinéartié. Soit R la matrice . . . . . . . . . . . . . . . . . . . . . .
des corrélations des variables explicative. Ce test est basé sur la
statistique du . . . . . . . . . . . . . . . . . . . . . .
χ2 = − (n − 1 − (2p + 7)/6) ln(|R|) ∼ χ2p(p+1)/2 . . . . . . . . . . . . . . . . . . . . . .
Il y présomption de multicolinéarité si χ2 > χ21−α;p(p+1)/2 . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 7 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 8 / 18
Tolérance
. . . . . . . . . . . . . . . . . . . . . .
Pour diagnostiquer la multicolinéarité, on régresse chacune des VEs
sur les autres et on calcule le Rj2 . . . . . . . . . . . . . . . . . . . . . . .
Le coefficient de détermination Rj2 représente la part de variabilité de
. . . . . . . . . . . . . . . . . . . . . .
Xj qui est expliquée par les autres.
Idéalement ce Rj2 doit être faible et par conséquent 1 − Rj2 doit être
. . . . . . . . . . . . . . . . . . . . . .
grand
1 − Rj2 représente la partie de la variable qui n’est pas expliquée par . . . . . . . . . . . . . . . . . . . . . .
les autres variables et est donc la partie de Xj qui est susceptible
d’améliorer le modèle. . . . . . . . . . . . . . . . . . . . . . .
1 − Rj2 est appelée tolérance de la variable Xj . Idéalement elle doit
elle doit être le plus élevé possible. Si la tolérance¡ 0.10, il n’est pas . . . . . . . . . . . . . . . . . . . . . .
prudent (et en tout cas probablement peu intéressant) d’inclure la VE
dans les analyses en plus des VEs qui la prédisent.
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 9 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 10 / 18
Facteur d’inflation de la variance
On définit le facteur d’inflation de la variance par VIFj = 1/(1 − Rj2 ) . . . . . . . . . . . . . . . . . . . . . .
où Rj2 est le coefficient de détermination de la régression de la VE Xj
sur les autres VEs . . . . . . . . . . . . . . . . . . . . . .
V (â )
On peut montrer que VIFj = Vmin (âj j ) ici V (âj ) désigne la variance du
. . . . . . . . . . . . . . . . . . . . . .
coefficient de la VE j dans le modèle contenant toutes les VEs et
Vmin (âj ) est la petite variance du coefficient de la VE j dans un . . . . . . . . . . . . . . . . . . . . . .
modèle contenant la VE j c-à-d, le modèle de régression simple. C’est
ainsi qu’on l’appelle facteur d’inflation de la variance
. . . . . . . . . . . . . . . . . . . . . .
Dans le cas ou la VE j est indépendantes des autres VEs alors
VIFj = 1 donc pas d’inflation . . . . . . . . . . . . . . . . . . . . . .
On peut calculer plus simplement les VIFj en inversant la matrice de
corrélation des VEs et en prenant les éléments diagonaux de cette . . . . . . . . . . . . . . . . . . . . . .
dernière.
Comme pour la tolérance, il n’est pas prudent d’inclure une VE dont
la VIF dépasse 10, dans les analyses en plus des VEs qui la prédisent.
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 11 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 12 / 18
Coefficient de corrélation partielle
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
On définit le coefficient de corrélation partielle, noté ici rx1 ,x2 |x3 ,···xp ,
permet de connaı̂tre la valeur de la corrélation entre deux variables x1 . . . . . . . . . . . . . . . . . . . . . .
et x2 , si les variables x3 , · · · xp étaient demeurées constantes pour la
série d’observations considérées. . . . . . . . . . . . . . . . . . . . . . .
Autrement, le coefficient de corrélation partielle rx1 ,x2 |x3 ,···xp est le
coefficient de corrélation totale entre les variables x1 et x2 quand on . . . . . . . . . . . . . . . . . . . . . .
leur a retiré leur meilleure explication linéaire en termes de x1 , · · · xp .
Il est donné par re1 ,e2 où e1 et e2 sont résidus des régressions de x1 est . . . . . . . . . . . . . . . . . . . . . .
x2 sur les autres variables.
. . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 13 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 14 / 18
Coefficient de corrélation partielle
. . . . . . . . . . . . . . . . . . . . . .
On peut montrer que
. . . . . . . . . . . . . . . . . . . . . .
rx1 ,x2 − rx1 ,x3 rx2 ,x3
rx1 ,x2 |x3 = q
(1 − rx21 ,x3 )(1 − rx22 ,x3 ) . . . . . . . . . . . . . . . . . . . . . .
Cette formule se généralise et permet de calculer de proche en proche . . . . . . . . . . . . . . . . . . . . . .
les divers coefficients de corrélation partielle
. . . . . . . . . . . . . . . . . . . . . .
rx ,x |x − rx1 ,x3 |x4 rx2 ,x3 |x4
rx1 ,x2 |x3 ,x4 =q 1 2 4
(1 − rx21 ,x3 |x4 )(1 − rx22 ,x3 |x4 ) . . . . . . . . . . . . . . . . . . . . . .
Une corrélation partielle r est significative si . . . . . . . . . . . . . . . . . . . . . .
(n − d − 2)r 2 /(1 − r 2 ) > f1−α;n−d−2 où d est le nombre de variables
fixées.
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 15 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 16 / 18
Comment corriger le problème de multicolinéarité
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
Utiliser une des procédure de sélection de modèle pour choisir un . . . . . . . . . . . . . . . . . . . . . .
modèle contenant moins de variables
Effectuer une ACP sur les variables explicatives et utiliser les . . . . . . . . . . . . . . . . . . . . . .
premières composantes principales comme variables explicative es
hypothèses suivantes . . . . . . . . . . . . . . . . . . . . . .
Régression Ridge
Régression PLS . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 17 / 18 Sidi Mohamed MAOULOUD Le problème de la multicolinéarité 28 novembre 2015 18 / 18