Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
Chapitre 4 : Pratique de la régression linéaire multiple
Le but d’un modèle de régression est de décrire un phénomène à l’aide d’une ou plusieurs variables
explicatives. Un modèle repose toutefois sur un certain nombre d’hypothèses qui permettent d’établir
les propriétés des estimateurs choisis et de faire de l’inférence à partir de ceux-ci. Il est donc capital de
contrôler en utilisant l’ensemble de données à disposition, si ces hypothèses sont vérifiées sans quoi
toute procédure inférentielle ne serait pas valide. Dans ce chapitre, nous allons introduire quelques
méthodes qui permettent de déceler si l’une ou l’autre des hypothèses n’est pas satisfaite. On appelle ces
méthodes des diagnostics. A côtés de ces diagnostics, nous proposons également quelques remèdes qui
permettent d’adapter le modèle en conséquence. Le diagnostic le plus fréquemment utilisé est l’analyse
des résidus. Il est en effet possible à partir de graphiques de résidus, de déceler certaines aberrations du
modèle.
4.1. Diagnostic des hypothèses standards du modèle
4.1.1 Diagnostic de l’hypothèse de linéarité
Le diagnostic de l’hypothèse 𝐻1 de linéarité repose sur le graphique de la variable dépendante 𝑌 en
fonction de chacune des variables explicatives 𝑋𝑖 .
𝐻1 est validée si le graphe des 𝑛 points (𝑥𝑖𝑗 , 𝑦𝑖 ), 𝑖 = 1, . . . , 𝑛 montre un nuage de points linéaire.
Il est également possible de vérifier 𝐻1 en utilisant le graphe des résidus 𝜀̂𝑖 en fonction de la variable
prédite 𝑦̂𝑖 (ce type de graphiquement est le plus fréquemment utilisé pour vérifier la validité d’un
modèle). Il consiste à placer en ordonnée les résidus 𝜀̂𝑖 et en absence les valeurs estimées 𝑦̂𝑖 . ou encore
le graphique des résidus en fonction de chacune des variables explicatives. L’hypothèse 𝐻1 est valide si
les résidus répartis uniformément dans une bande horizontale du graphique.
4.1.2 Diagnostic de l’hypothèse de nullité de l’espérance des erreurs
La vérification de 𝐻2 peut se faire avec le graphe des résidus 𝜀̂𝑖 en fonction de la variable prédite 𝑦̂𝑖 vu
précédemment. Un nuage de points aléatoirement distribué autour de 0 signifie que les données
soutiennent l’hypothèse 𝐻2 . Ce résultat peut être confirmé ou non avec un test de conformité de
l’espérance des erreurs à la valeur de référence zéro :
𝐻𝑜: 𝐸(𝜀) = 0
𝐻1 : 𝐸(𝜀) ≠ 0
4.1.3 Diagnostic de l’hypothèse de l’homoscédasticité
La représentation graphique des résidus 𝜀̂𝑖 en fonction de la variable prédite 𝑦̂𝑖 du modèle ou celle
d’une des variables explicatives 𝑥𝑖𝑗 , fournit une série d’informations concernant la validité ou non de
𝐻3 . Les tests d’homogénéité des termes d’erreurs confrontent les hypothèses suivantes :
𝐻𝑜: 𝐻𝑜𝑚𝑜𝑠𝑐é𝑑𝑎𝑠𝑐𝑖𝑡é 𝑑𝑒𝑠 𝑒𝑟𝑟𝑒𝑢𝑟𝑠
𝐻1 : 𝐻é𝑡é𝑟𝑜𝑠𝑐é𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑡é 𝑑𝑒𝑠 𝑒𝑟𝑟𝑒𝑢𝑟𝑠
©Igor-Mathieu Gondje-Dacka, PhD 1 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
Parmi les tests plus courants, il y a le test de Golfeld et Quandt (1965), le test de Glejser, le test de
Breusch et Pagan (1979) et le test de White (1980).
4.1.4 Diagnostic de l’hypothèse d’indépendance des erreurs
L’hypothèse 𝐻4 peut être étudiée avec le graphe des résidus 𝜀̂𝑖 en fonction du temps (𝑡). Si le nuage
montre un amas de points systématiquement négatifs, puis positifs (corrélation sérielle), l’hypothèse 𝐻4
est sérieusement mise en doute. Le test de Durbain-Watson (1951) permet de vérifier l’hypothèse
d’indépendance des erreurs.
𝐻𝑜: Les erreurs sont non autocorrélées
𝐻1 : Les erreurs sont autocorrélées
La statistique DW prend ses valeurs entre 0 (auto-corrélation linéaire positive) et 4 (auto-corrélation
linéaire négative). L'hypothèse nulle est retenue si la statistique a une valeur proche de 2 (pas d'auto-
corrélation linéaire).
4.1.5 Diagnostic de l’hypothèse de normalité des erreurs
A. Approche graphique
De nombreuses représentations graphiques peuvent être réalisées en vue de vérifier la validité de
l’hypothèse 𝐻6 de normalité. Les plus usuels sont : la boîte à moustaches, l’histogramme et le Q-Q Plot.
B. Approche avec des indicateurs statistiques
La loi normale est caractérisée par un coefficient d’asymétrie 𝛾1 égal à zéro et un coefficient
d’aplatissement 𝛾2 égal à trois.
C. Tests de normalité des erreurs
Il existe des tests dans la littérature pour vérifier 𝐻6 . Ces tests éprouvent les hypothèses suivantes :
𝐻𝑜: 𝐿𝑒𝑠 𝑒𝑟𝑟𝑒𝑢𝑟𝑠 𝑠𝑢𝑖𝑣𝑒𝑛𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒
𝐻1 : 𝐿𝑒𝑠 𝑒𝑟𝑟𝑒𝑢𝑟𝑠 𝑛𝑒 𝑠𝑢𝑖𝑣𝑒𝑛𝑡 𝑝𝑎𝑠 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒
Les tests les plus courants sont : le test de Shapiro-Wilk (1965), le test d’adéquation de Lilliefors (1967)
et le test de Jarque-Bera (1980).
4.2 Vérification de l’hypothèse de multicolinéarité
La multicolinéarité parfaite ou exacte se produit lorsque qu’une des variables explicatives est une
combinaison linéaire parfaite des autres variables explicatives. Les conséquences dans l’ajustement d’un
modèle de régression sont nombreuses, notamment :
©Igor-Mathieu Gondje-Dacka, PhD 2 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
• Les variances estimées des coefficients de régression sont trop importantes rendant les
estimations des paramètres de régression peu précise ;
• Les coefficients estimés des variables explicatives peuvent présenter un signe opposé au signé
attendu ;
• La suppression d’une variable explicative aura une incidence considérable sur les coefficients
estimés des autres.
Il existe plusieurs méthodes dans la littérature pour détecter la présence de multicolinéarité dans un
modèle de régression linéaire multiple. Les plus utilisés en pratique sont présentés ci-dessous.
4.2.1 Détection avec le Facteur d’Inflation de la Variance
Les facteurs d’inflation de la variance (en Anglais : « Variance Inflation Factors (VIF) » ) sont définis
pour la variable 𝑋𝑗 par la formule suivante :
1
𝑉𝐼𝐹𝑗 =
1 − 𝑅𝑗2
Règle de détection de la multicolinéarité avec le facteur d’inflation de la variance
La variable explicative 𝑋𝑗 est suspectée d’être responsable de la multicolinéarité si son facteur d’inflation
de la variance est plus grand que 10 :
𝑉𝐼𝐹𝑗 > 10
4.2.2 Détection avec le Facteur de Tolérance
Lé dénominateur du facteur d’inflation de la variance est appelé Tolérance (en abrégé, TOL).
Règle de détection de la multicolinéarité avec la Tolérance
Une variable explicative est potentiellement responsable de la multicolinéarité, si sa valeur de Tolérance
est plus petite que 0,1 :
𝑇𝑂𝐿𝑗 < 0,1
4.3 Détection des données anormales
4.3.1 Classification des données anormales
Dans une analyse de régression linéaire, les données anormales peuvent être classifiées en trois
catégories :
✓ Donnée aberrante ;
✓ Donnée à effet de levier
✓ Donnée influente.
©Igor-Mathieu Gondje-Dacka, PhD 3 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
4.3.2 Détection des données anormales
Il existe un certain nombre d’outils statistiques dans la littérature pour détecter une donnée anormale
dans une régression linéaire. Les principaux sont présentés ci-dessous.
A. Détection univariée
L’outil statistique le plus simple pour se faire une première idée de la présence de données anormales
est l’analyse descriptive.
B. Détection multivariée
Détection des points leviers : le modèle de régression linéaire s’écrit sous forme matricielle avec
l’équation suivante : 𝑌 = 𝑋𝛽 et 𝑌̂ = 𝑋𝛽̂ = 𝑋(𝑋′𝑋)−1 𝑋′𝑌 = 𝐻𝑌 où 𝐻 est la matrice chapeau qui joue
un rôle essentiel dans la détection de l’effet de levier. Les éléments de la première diagonale de la
matrice chapeau H sont appelés les leviers. Ils déterminent l’influence de l’observation i sur les
estimations obtenues par la régression. Le levier est situé sur la première diagonale de la matrice H. Les
leviers possèdent 02 propriétés :
- 0 ≤ ℎ𝑖 ≤ 1 (les leviers sont compris entre 0 et 1)
- ∑𝑛𝑖=1 ℎ𝑖 = 𝑘 + 1
Règles de détection d’une observation influente à l’aide de la matrice chapeau H
Une observation 𝑖 est particulièrement influente si son levier est supérieur au double du levier
2(𝑘+1)
commun : ℎ𝑖 > .
𝑛
L’observation est alors considérée comme un point levier ou un point d’influence.
C. Détection avec des statistiques d’influence
• Détection avec la distance de Cook
L’idée de Cook est de comparer ces deux quantités en définissant la distance qui porte son nom pour la
𝑖-ième observation, notée 𝐷𝑖 :
′
(𝛽̂(𝑖) − 𝛽̂ ) 𝑋 ′ 𝑋(𝛽̂(𝑖) − 𝛽̂ )
𝐷𝑖 =
(1 + 𝑘)𝜎̂ 2
Règle de détection d’une observation influente sur l’estimation des paramètres
Une observation 𝑖 est particulièrement influente sur l’estimation des paramètres de régression si sa
distance de Cook (𝐷𝑖 ) est plus grande que 1 : 𝐷𝑖 > 1.
• Autres statistiques d’influence
Règle de détection d’une observation qui a eu un impact sur la valeur prédite
Une observation 𝑖 est suspectée d’être influente sur la valeur prédite si elle vérifie la condition suivante :
𝑘+1
|𝐷𝐹𝐹𝐼𝑇𝑆𝑖 | > 2√
𝑛
©Igor-Mathieu Gondje-Dacka, PhD 4 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
Règle de détection d’une observation influente sur l’estimation d’un paramètre de régression
Une observation 𝑖 est particulièrement influente sur l’estimation du paramètre 𝛽𝑗 si elle vérifie la
condition suivante :
|𝐷𝐹𝐵𝐸𝑇𝐴𝑆𝑖𝑗 | > 2√𝑛
Règle de détection d’une observation influente sur l’estimé de la variance (statistique COVRATIO)
Une observation 𝑖 est particulièrement influente sur l’estimation de la variance des erreurs si elle vérifie
la condition suivante : 𝐶𝑂𝑉𝑅𝐴𝑇𝐼𝑂𝑖 > 1 + 3(𝑘 + 1)/𝑛 ou 𝐶𝑂𝑉𝑅𝐴𝑇𝐼𝑂𝑖 < 1 − 3(𝑘 + 1)/𝑛
Ce qui revient à écrire : |𝐶𝑂𝑉𝑅𝐴𝑇𝐼𝑂𝑖 | > 3(𝑘 + 1)/𝑛
4.4 Correction des anomalies dues aux hypothèses non validées et à la présence de données
anormales
4.4.1 Remèdes des infractions des hypothèses standards
A. Solutions en cas de violation de l’hypothèse de linéarité du modèle
Cause : la relation entre la variable dépendante et les variables explicatives est de degré supérieur ou est
de forme non linéaire ou encore qu’il y a présence d’interaction entre les variables explicatives
Remède : ajouter des termes de degrés supérieurs, des interactions ou transformer la variable
dépendante ou encore de linéariser et travailler avec un autre modèle
B. Solutions en cas de violation de l’hypothèse de nullité des erreurs
Cause : Mauvaise spécification du modèle de régression ou absence d’une variable explicative
importante.
Remède : retravailler la spécification du modèle de régression.
C. Solutions en cas de violation de l’hypothèse d’indépendance des erreurs
Cause : deux situations se présentent :
• données issues d’un plan d’expérience : la randomisation n’a pas été bien effectuée ;
• données collectées dans le temps : fréquence d’échantillonnage élevée ou présence d’une
persistance dans les données
Solution : dans le cas des données issues d’un plan d’expérience, la randomisation doit être revue, par
contre pour des données collectées dans le temps, il est conseillé de travailler sur les différences
premières de la variable dépendante 𝑌, c’est-à-dire (𝑌𝑖 − 𝑌𝑖−1 ) et le modèle de régression prend la
forme suivante : (𝑌𝑖 − 𝑌𝑖−1 ) = 𝑍𝛽 + 𝜀.
©Igor-Mathieu Gondje-Dacka, PhD 5 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
D. Solution en cas de violation de l’hypothèse de normalité des erreurs
Cause : données qui manquent de variabilité, distribution asymétrique, présence d’hétéroscédasticité ou
encore de concentrations logarithmiques.
Solution : procéder à une transformation de type Box-Cox de la variable dépendante 𝑌. Les
transformations recommandées sont :
• racine carrée : √𝑌 = 𝑋𝛽 + 𝜀
1
• inverse : 𝑌 = 𝑋𝛽 + 𝜀
• logarithmique : 𝑙𝑛(𝑌) = 𝑋𝛽 + 𝜀
• inverse du sinus (aussi appelé arcsinus) : 𝑎𝑟𝑐𝑠𝑖𝑛(𝑌) = 𝑋𝛽 + 𝜀
éliminer des données anormales lorsque les queues de la loi sont épaisses.
4.4.2 Remèdes des infractions de l’hypothèse de multicolinéarité
En cas de violation de l’hypothèse d’absence de multicolinéarité, il est important d’éliminer les variables
redondantes. C’est pourquoi il est nécessaire d’avoir des critères de choix de modèles parcimonieux.
A. Critère du test de significativité
Choisir parmi tous les sous-modèles, celui pour lequel la p-valeur est la plus petite.
B. Critère du 𝑹𝟐 maximal (MaxR)
Choisir, parmi tous les sous-modèles, celui pour lequel 𝑅 2 (comparable à 𝑅̅ 2 ) est maximum.
C. Critères standards et critères d’information
Les critères standards les plus utilisés sont :
• Erreur absolue moyenne (en Anglais « Mean Absolute Error »), en abrégée MAE :
𝑛
1
𝑀𝐴𝐸(𝑀𝑝 ) = ∑|𝜀̂𝑖2 |
𝑛
𝑖=1
où 𝜀̂𝑖 est le résidu du modèle étudié et 𝑛 le nombre d’observations de l’échantillon.
• Racine de l’erreur quadratique moyenne (en Anglais : « Root Mean Squared Error »), en abrégée
RMSE :
𝑛
1
𝑅𝑀𝑆𝐸(𝑀𝑝 ) = √ ∑|𝜀̂𝑖2 |
𝑛
𝑖=1
Les critères d’information usuels sont :
• Le critère d’Akaike (1969), en abrégé AIC :
2
2(𝑝 + 1)
𝐴𝐼𝐶(𝑀𝑝 ) = 𝑙𝑛 (𝜎̂𝑀 )+
𝑝
𝑛
• Le critère de Schwartz (1978), en abrégé SIC :
©Igor-Mathieu Gondje-Dacka, PhD 6 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
2
(𝑝 + 1)
𝑆𝐼𝐶(𝑀𝑝 ) = 𝑙𝑛 (𝜎̂𝑀 )+ 𝑙𝑛(𝑛)
𝑝
𝑛
D’une manière générale, plus la valeur du critère utilisé est faible et plus le modèle est proche des
observations. La règle est alors la suivante : Retenir le modèle dont le critère standard et/ou critère
d’information est le plus faible.
D. Critères de la régression avec entrée progressive
La régression avec entrée progressive est encore bien connue sous le vocable de régression d’inclusion
et d’exclusions « pas à pas ». La sélection des variables explicatives à inclure au modèle dépendra de leur
contribution à son amélioration. Il existe trois méthodes de régression progressives : méthode
descendante ou de l’élimination en arrière (en Anglais : Backward elimination procedure) ; méthode
ascendante ou de la sélection en avant (en Anglais : Forward selection procedure) et méthode dite
stepwise.
4.4.3 Remèdes de la présence de données anormales
En présence de données suspectes, les vois à suivre sont les suivantes :
1. Vérifier si ces données sont arrivées dans l’échantillon à la suite d’une erreur systématique
(erreurs de saisie ou des erreurs de transcription). La solution est dans ce cas de corriger ces
données et de procéder à nouveau à l’analyse de régression.
2. Si après vérification il est établi que les données incriminées ne proviennent pas de la
population étudiée, la solution est dans ce cas, et seulement dans ce cas, la suppression pure et
simple de ces données dans l’échantillon.
3. S’il est établi que les données suspectées proviennent de la population étudiée (par exemple,
sont collectées durant une période économique particulière comme lors de grèves, guerres, …),
la solution est d’introduire une variable indicatrice dans le modèle de régression afin d’annihiler
leur effet dans le modèle.
4.5 Utilisation de variables explicatives muettes
Le recours à des variables qualitatives explicatives muettes est très fréquent dans la construction d’un
modèle de régression. Ces variables permettent d’une part d’annuler l’effet des observations
anormales et d’autres part de prendre en compte dans le modèle les phénomènes qualitatifs.
4.5.1 Utilisation des variables explicatives muettes pour capter un changement d’ordonnée à
l’origine
Une variable qualitative peut être introduite dans un modèle pour capter un changement à l’origine,
l’interprétation des paramètres associés à la variable qualitative revient à détailler le modèle pour chaque
modalité. C’est-à-dire de l’écrire autant d’équations que de modalités.
Une variable qualitative binaire
On suppose que l’on veut expliquer le prix d’une maison en fonction de la superficie par le biais de
l’équation : 𝑃𝑖 = 𝛽0 + 𝛽1 𝑆𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛. Pour enrichir les résultats de cette régression, il peut être
©Igor-Mathieu Gondje-Dacka, PhD 7 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
intéressant de connaître les différences de prix entre les maisons situées dans un voisinage désirable et
celle situées dans un voisinage non désirable.
Soit 𝐷𝑖 la variable qualitative définie par 𝐷𝑖 = 1 si la maison 𝑖 est dans un bon voisinage et 0 sinon.
Alors l’équation de régression linéaire du modèle sera écrite 𝑃𝑖 = 𝛽0 + 𝛽1 𝑆𝑖 + 𝛽2 𝐷𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛.
L’interprétation du paramètre 𝛽2 revient à détailler le modèle pour chaque modalité.
Pour un voisinage désirable, nous avons : 𝑃𝑖 = 𝛽0 + 𝛽2 + 𝛽1 𝑆𝑖 + 𝜀𝑖
Pour un voisinage non désirable : 𝑃𝑖 = 𝛽0 + 𝛽1 𝑆𝑖 + 𝜀𝑖
Une variable qualitative avec 03 modalités
Une agence immobilière souhaite expliquer son profit trimestriel en fonction des ventes par le biais du
modèle : 𝑃𝑖 = 𝛽0 + 𝛽1 𝑉𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛. Nous allons savoir si la concurrence a un effet significatif
sur ses profits. Le phénomène qualitatif a 3 modalités : faible, moyenne, forte. Nous créons par la suite
3 variables dichotomiques : 𝑓𝑖 , 𝑀𝑖 , 𝐹𝑖 qui prennent la valeur 1 si la récurrence est respectivement fable,
forte, moyenne.
Notre modèle peut s’écrire : 𝑃𝑖 = 𝛽0 + 𝛽1 𝑉𝑖 + 𝛽2 𝐹𝑖 + 𝛽3 𝑀𝑖 + 𝛽4 𝑓𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛.
En introduisant le phénomène qualitatif dans le modèle, on ne pourra pas estimer les 𝛽𝑖 car on ne peut
pas exprimer la matrice 𝑋′𝑋. Pour surmonter cette difficulté, il existe dans la littérature des solutions.
On choisit de supprimer l’une des 3 variables dichotomiques et le modèle s’écrit :
𝑃𝑖 = 𝛽0 + 𝛽1 𝑉𝑖 + 𝛽2 𝐹𝑖 + 𝛽3 𝑀𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛
• Si la concurrence est forte :
𝑃𝑖 = 𝛽0 + 𝛽2 + 𝛽1 𝑉𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛
• Si la concurrence est moyenne :
𝑃𝑖 = 𝛽0 + 𝛽3 + 𝛽1 𝑉𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛
• Si la concurrence est faible :
𝑃𝑖 = 𝛽0 + 𝛽1 𝑉𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛
Le raisonnement se fait par rapport à la modalité supprimée (concurrence faible). Par exemple dans le
cas où 𝛽2 est négatif, nous dirons que quand la concurrence est forte le profit est inférieur de 𝛽2 unité
par rapport à une situation de concurrence faible.
Remarque : Dans la situation où aucune variable dichotomique n’est significative, on ne peut pas dire
que la concurrence n’a aucun effet sur le profit. Toutefois, il peut y avoir une différence significative
entre le profit dans une situation de concurrence.
4.5.2 Utilisation de variables qualitatives pour capter un changement de pente
Soit le modèle : 𝑃𝑖 = 𝛽0 + 𝛽1 𝑆𝑖 + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛. On s’intéresse à la variable qualitative D à 2
modalités. Nous allons introduire dans ce modèle pour capter un changement de pente. Alors, nous
avons : 𝑃𝑖 = 𝛽0 + 𝛽1 (𝑆𝑖 𝐷𝑖 ) + 𝜀𝑖 , 𝑖 = 1, . . . , 𝑛. 𝑆𝑖 𝐷𝑖 est une variable d’interaction où 𝐷𝑖 = 1 𝑜𝑢 0.
𝛽̂2 représente la valeur d’un mètre carré additionnel sur la superficie dans un voisinage désirable.
©Igor-Mathieu Gondje-Dacka, PhD 8 Année Académique 2024-2025
Econométrie du Modèle Linéaire – ISE2 Chapitre 4 : Pratique de la régression linéaire multiple
4.6 Analyse de la stabilité des paramètres de modèle
L’analyse d’un modèle de régression demande parfois de vérifier sur des sous périodes qui a servi à
estimer le modèle, les paramètres de régression estimés restent les mêmes. Pour étudier la stabilité des
modèles de régression au cours du temps, deux tests graphiques existent :
• Le test CUSUM (en Anglais Cumulate Sum Test)
• Le test CUSUM SQ (en Anglais Squared Cumulate Sum Test)
Ils sont construits avec la somme cumulée des carrés des résidus récursifs. Ces tests permettent de
rendre compte d’une instabilité structurelle dans l’occurrence des données de la chronique. A la
différence du test de Chow dont la date de rupture est supposée inconnue.
Une régression récursive est une procédure qui consiste à estimer une succession de régression en
augmentant progressivement le nombre d’observations.
Le test de CUSUM est élaboré de la manière suivante : On construit dans un premier temps une
succession de régression en augmentant à chaque étape, le nombre d’observations n ; par la suite, il faut
vérifier que les résidus issus de ces régressions sont stables sur la totalité de la période d’estimation. Un
simple examen graphique de l’évolution des coefficients du modèle accompagné de leurs intervalles de
confiance permet éventuellement de déterminer des changements structurels.
Graphique 1 : Absence de changement Graphique 2 : Présence d’un changement
structurel structurel entre 1992 et 1994
20
15
10
5
0
-5
-10
-15
-20
1985 1990 1995 2000 2005 2010 2015 2020
CUSUM 5% Significance
©Igor-Mathieu Gondje-Dacka, PhD 9 Année Académique 2024-2025