Tableau 1 : Statistiques descriptives
1er 3e
Variable Min. Médiane Moyenne Max.
Quartile Quartile
lvap 1.335 1.687 1.994 2.000 2.358 2.630
lvas 1.246 1.725 1.926 1.968 2.174 2.554
lvat 3.115 3.414 3.654 3.623 3.819 4.029
lElec 4.238 4.832 5.113 5.168 5.307 6.282
lfbcf 2.675 3.092 3.268 3.384 3.622 4.357
tpop 2.138 2.420 2.827 2.895 3.106 4.142
11.58
lpimaire 13.110 13.150 13.200 13.440 13.770
0
lopen 3.352 3.832 4.072 3.978 4.182 4.362
Corruptio
1.000 1.000 1.000 1.487 2.000 2.500
n
Source : Auteur à partir de Rstudio
Les statistiques descriptives fournissent un aperçu essentiel des variables
économiques et institutionnelles analysées. La variable lvap (logarithme
de la valeur ajoutée agricole) a une moyenne de 2.000, proche de sa
médiane (1.994), ce qui indique une distribution relativement symétrique
autour de cette valeur centrale. Sa variation s’étend de 1.335 à 2.630.
Pour la variable lvas (logarithme de la valeur ajoutée secondaire), la
moyenne est légèrement inférieure à 2 (1.968) avec une amplitude plus
réduite (min 1.246 à max 2.554), suggérant une certaine stabilité dans le
secteur secondaire. La variable lvat (logarithme de la valeur ajoutée
tertiaire) présente une moyenne de 3.623, plus élevée que celles de lvap
et lvas, confirmant la plus grande ampleur relative de ce secteur dans
l’économie analysée.
lElec (logarithme de la production électrique) et lfbcf (logarithme de la
formation brute de capital fixe) affichent des moyennes respectives de
5.168 et 3.384, avec des écarts types indiquant une variabilité modérée,
ce qui traduit une dynamique importante dans ces variables
d’infrastructure et d’investissement.
La population totale (tpop) a une moyenne de 2.895, reflétant la
croissance démographique sur la période étudiée. Le logarithme du taux
primaire budgétaire (lpimaire) se situe autour de 13.2 en moyenne, avec
une faible dispersion, ce qui illustre une certaine constance des conditions
budgétaires primaires. L’ouverture économique (lopen) évolue autour
d’une moyenne de 3.978, indiquant un niveau moyen d’intégration
commerciale ou financière. Enfin, l’indice de Corruption révèle une
moyenne de 1.487, avec une distribution allant de 1 à 2.5, ce qui met en
lumière une hétérogénéité institutionnelle significative dans l’échantillon.
Ces résultats constituent une base solide pour l’analyse économétrique
ultérieure, en fournissant une compréhension claire des caractéristiques et
variations principales des variables clés.
Test d’hétéroscédasticité de Breusch-Pagan
Afin de vérifier la validité des hypothèses classiques du modèle de
régression linéaire, notamment celle concernant l’homoscédasticité des
erreurs, nous avons procédé au test de Breusch-Pagan sur les trois
équations représentant respectivement la valeur ajoutée dans les secteurs
primaire, secondaire et tertiaire. Ce test permet de détecter la présence
éventuelle d’hétéroscédasticité, c’est-à-dire une variance non constante
des résidus le long des observations, ce qui pourrait affecter la robustesse
des estimateurs.
Le test est basé sur les hypothèses suivantes :
H₀ : les erreurs sont homoscédastiques (variance constante).
H₁ : les erreurs sont hétéroscédastiques (variance non constante).
Résultats obtenus :
Secteur primaire (modèle avec lvap comme variable dépendante) :
La statistique de test de Breusch-Pagan est de BP = 9.9337, avec
une p-value=0,1275 supérieure au seuil conventionnel de 5 %, nous
ne rejetons pas l’hypothèse nulle d’homoscédasticité. Ainsi, les
résidus du modèle primaire ne présentent pas de variance
hétérogène significative.
Secteur secondaire (lvas) : Le test retourne une statistique BP de
3.91 avec une p-value de 0,69, ce qui confirme de manière encore
plus marquée l’absence d’hétéroscédasticité, renforçant la fiabilité
des estimateurs pour le secteur secondaire.
Secteur tertiaire (lvat) : La statistique de test est de BP = 4.878 avec
une p-value de 0,56, ce qui révèle une absence totale
d’hétéroscédasticité.
Les trois modèles économétriques passent avec succès le test de Breusch-
Pagan. L’absence d’hétéroscédasticité dans les résidus garantit la fiabilité
des inférences statistiques faites à partir de ces modèles, et confirme que
l’hypothèse classique de variance constante des erreurs est globalement
respectée dans l’analyse des trois sous-secteurs.
Test d’autocorrélation des erreurs
Afin de vérifier la validité des hypothèses classiques du modèle de
régression linéaire, nous avons procédé au test de Durbin-Watson (DW)
pour détecter une éventuelle autocorrélation des erreurs. Ce test est
indispensable, notamment dans les modèles économétriques appliqués
aux séries temporelles, où l’hypothèse d’indépendance des résidus est
souvent mise à mal.
Hypothèses du test :
H₀ : Absence d’autocorrélation des erreurs (les résidus sont
indépendants).
H₁ : Présence d’autocorrélation des erreurs (autocorrélation de
premier ordre).
Tableau 2 : Résultats des tests d’autocorréllation
Statistique
Modèle estimé Valeur p Conclusion à 5 %
DW
Modèle primaire Pas de preuve suffisante
1.7279 0.0512
(lvap) d’autocorrélation
Modèle secondaire Autocorrélation positive
1.4921 0.0082
(lvas) significative
Autocorrélation positive
Modèle tertiaire (lvat) 1.5368 0.0122
significative
Source : Auteur à partir de Rstudio
La statistique de Durbin-Watson est généralement comparée à la valeur
théorique de 2. Une statistique proche de 2 suggère une absence
d’autocorrélation. Une valeur inférieure à 2 indique une autocorrélation
positive, tandis qu’une valeur supérieure à 2 reflète une autocorrélation
négative.
Dans le modèle primaire, la statistique DW de 1.7279, combinée à une
valeur p de 0.0512, indique qu’on ne rejette pas l’hypothèse nulle au seuil
de 5 %. On peut donc conclure à l’absence d’autocorrélation au seuil de
5% et à la présence d’autocorrélation au seuil de 10%.
En revanche, pour les modèles secondaire et tertiaire, les statistiques DW
sont de 1.4921 et 1.5368 respectivement, avec des valeurs p inférieures à
0.05, ce qui signifie que l’hypothèse nulle est rejetée. Cela traduit la
présence d’une autocorrélation positive des erreurs, susceptible de biaiser
les tests statistiques classiques (t, F).
Une correction est donc recommandée, soit par l’usage de méthodes
robustes (HAC/Newey-West), soit par la spécification d’un modèle
autorégressif.
Test de multicolinéarité : VIF (Variance Inflation Factor)
la multicolinéarité désigne une forte corrélation entre deux ou plusieurs
variables explicatives. Pour détecter ce phénomène, on utilise le Variance
Inflation Factor (VIF). Cet indicateur mesure combien la variance
estimée d’un coefficient est augmentée à cause de la colinéarité avec les
autres variables.
Les hypothèses du test sont les suivantes :
H₀ : Absence de multicolinéarité sérieuse entre les variables
explicatives.
H₁ : Présence de multicolinéarité (l’une ou plusieurs des variables
sont fortement corrélées).
En pratique, un :
VIF > 10 : multicolinéarité sérieuse.
VIF entre 5 et 10 : modérer.
VIF < 5 : pas de problème.
Tableau 3 : Résultats de la multicolinéarité
VIF VIF
Variables VIF (Modèle Interprétatio
(Modèle (Modèle
explicatives secondaire) n
primaire) tertiaire)
lElec 3.322 3.322 3.322 Acceptable
lfbcf 1.849 1.849 1.849 Faible
tpop 1.599 1.599 1.599 Faible
lpimaire 1.391 1.391 1.391 Faible
lopen 3.137 3.137 3.137 Acceptable
Corruption 2.354 2.354 2.354 Faible
Source : Auteur à partir des Rstudio
L’analyse de la multicolinéarité à travers le calcul des facteurs d’inflation
de la variance (VIF) pour les trois modèles (primaire, secondaire et
tertiaire) révèle des valeurs toutes inférieures à 5 : les VIF varient entre
1,39 (pour lpimaire) et 3,32 (pour lElec), ce qui indique une colinéarité
modérée entre les variables explicatives. Ces résultats respectent
largement le seuil critique de 10 souvent retenu dans la littérature
(Gujarati, 2004 ; Wooldridge, 2012), au-delà duquel la multicolinéarité
devient préoccupante. En d’autres termes, aucune variable n’est
excessivement corrélée aux autres au point de compromettre la stabilité
ou la précision des coefficients estimés. Par conséquent, les modèles de
régression considérés ne souffrent pas de multicolinéarité sérieuse,
garantissant ainsi la validité des estimations et la fiabilité des
interprétations économiques qui en découlent.
Test d’endogeneité
L’un des principaux défis de l’économétrie appliquée concerne
l’endogénéité potentielle des variables explicatives. Une variable est dite
endogène lorsqu’elle est corrélée avec le terme d’erreur du modèle,
entraînant ainsi des estimations biaisées et non convergentes dans les
modèles de moindres carrés ordinaires (MCO).
Dans le cadre de la présente étude, le test de Durbin-Wu-Hausman est
mobilisé afin d’évaluer l’éventuelle endogénéité de certaines variables
explicatives, notamment dans un modèle où la variable dépendante est le
bien-être des ménages, mesuré par la consommation. Ce test permet de
déterminer si une variable explicative est corrélée avec le terme d’erreur
du modèle, ce qui impliquerait que l’estimateur des moindres carrés
ordinaires (MCO) est biaisé et non convergent.
Formulation des hypothèses
Soit le modèle suivant :
Y = β₀ + β₁X + β₂Z + ε
où :
- Y est la variable dépendante (ex. : consommation des ménages)
- X est une variable explicative potentiellement endogène (ex. : taux
d’ouverture commerciale)
- Z est une ou plusieurs variables instrumentales valides
- ε est le terme d’erreur
Les hypothèses du test d’endogénéité sont :
• H₀ (Hypothèse nulle) : La variable explicative X est exogène, c’est-à-dire
non corrélée au terme d’erreur.
→ Cov(X, ε) = 0
• H₁ (Hypothèse alternative) : La variable explicative X est endogène, donc
corrélée au terme d’erreur.
→ Cov(X, ε) ≠ 0
Tableau
Test Statistiqu p-value
e
Durbin (score
test) 4,446 0,035
Wu-Hausman (F
test) 3,989 0,0547
Source : Auteur à partir de Rstudio
Les deux tests convergent vers un rejet (ou rejet faible) de l’hypothèse
nulle d’exogénéité, suggérant que la variable lopen est endogène. Par
conséquent, le recours à une estimation par moindres carrés en deux
étapes (2SLS) est justifié pour obtenir des coefficients sans biais. Mais
avant tout, vérifions la stationnarité et la cointégration.
Tets de stationnarité
Dans le cadre de l’analyse économétrique des séries temporelles, la
stationnarité des variables est une condition préalable essentielle pour
garantir la validité des estimations et des inférences. En effet, l’utilisation
de variables non stationnaires dans des régressions classiques peut
conduire à des résultats biaisés, non fiables ou spécieux (spurious
regressions).
Si le test de Dickey-Fuller augmenté (ADF) est largement utilisé pour
détecter la présence d’une racine unitaire, il repose sur l’hypothèse
nulle de non stationnarité, ce qui peut entraîner des erreurs de type
II : ne pas détecter une non stationnarité lorsque celle-ci est bien
présente.
Pour renforcer la robustesse des conclusions, nous avons également
recours au test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS), qui
adopte une approche inverse. Contrairement au test ADF, le test KPSS
considère comme hypothèse nulle que la série est stationnaire autour
d’une moyenne ou d’une tendance déterministe. L’avantage de
cette approche est qu’elle permet de compléter les résultats du test ADF
et d’obtenir une analyse croisée plus fiable.
Ainsi, le recours au test KPSS dans cette étude permet :
de confirmer ou invalider les résultats du test ADF,
de réduire les erreurs de décision sur la nature stationnaire des
variables,
et de garantir une modélisation économétrique rigoureuse en
vérifiant si une transformation (comme la différenciation) est
nécessaire.
Test de stationnarité de KPSS
Afin de garantir la robustesse des résultats économétriques, il est
indispensable de vérifier la stationnarité des variables avant toute
estimation. Dans cette optique, en complément du test de Dickey-Fuller
augmenté (ADF), nous faisons appel au test de Kwiatkowski-Phillips-
Schmidt-Shin (KPSS), développé en 1992, qui constitue une alternative
méthodologique précieuse.
Contrairement au test ADF qui considère la présence d'une racine
unitaire comme hypothèse nulle (H₀), le test KPSS pose l'absence de
racine unitaire, c’est-à-dire la stationnarité, comme hypothèse nulle. Il
permet ainsi de tester si une série est stationnaire autour d'une
moyenne constante (stationnarité au niveau) ou autour d'une tendance
déterministe (stationnarité en tendance).
Le test KPSS repose sur l’analyse de la variance d’une composante
aléatoire dans un modèle semi-paramétrique, et fournit une statistique
test à comparer à des valeurs critiques. Si la statistique observée est
supérieure à la valeur critique au seuil retenu, l’hypothèse nulle de
stationnarité est rejetée.
L'intérêt de mobiliser ce test dans notre étude est double :
il permet de valider ou de nuancer les conclusions du test
ADF, en offrant une approche complémentaire et symétrique ;
il contribue à renforcer la fiabilité du diagnostic de
stationnarité, en réduisant le risque d'erreurs d'interprétation liées
à un seul test.
L'utilisation conjointe des tests ADF et KPSS permet donc d'obtenir une
évaluation rigoureuse de la stationnarité des variables économiques
étudiées, condition indispensable pour éviter les régressions fallacieuses
et s’assurer de la validité des résultats économétriques.
Le tableau ci-dessous présente les résultats du test KPSS
Tableau 6 : Résultats des tests de stationnarité de kpss
Variables Test statistiques Décision
Lvap 0,133 I(1)
Lvas 0,05 I(1)
Lvat 0,05 I(1)
lElec 0,04 I(1)
Lfbcf 0,05 I(1)
Tpop 0,03 I(1)
Lpimaire 0,02 I(1)
Lopen 0,06 I(1)
Source : Auteur à partir de stata 18
Les résultats du test KPSS indiquent que l'ensemble des variables utilisées
dans l'analyse deviennent stationnaires après une différenciation de
premier ordre. Il est donc approprié de travailler avec les variables en
différences premières ([Link]) dans les régressions économétriques,
afin de satisfaire l’hypothèse de stationnarité exigée pour les modèles
linéaires standards.
Détermination du retard optimal
Dans l’estimation des modèles VAR/VECM, la détermination du nombre
optimal de retards est une étape cruciale. Un choix inadéquat peut
conduire à des estimations biaisées ou inefficaces, compromettant la
validité des tests de cointégration ou la qualité des prévisions. Pour cela,
plusieurs critères d’information sont mobilisés, notamment :
AIC (Akaike Information Criterion) : privilégie les modèles ayant une
meilleure qualité d’ajustement, quitte à introduire davantage de
paramètres.
HQIC (Hannan-Quinn Information Criterion) : intermédiaire entre
l’AIC et le SBIC en termes de pénalisation de la complexité.
SBIC (Schwarz Bayesian Information Criterion) : très strict, il favorise
la parcimonie du modèle.
FPE (Final Prediction Error) : mesure directe de l'erreur de prédiction.
Le test de log-likelihood ratio (LR) est également utilisé pour tester
l'amélioration du modèle avec un retard supplémentaire.
L’objectif est donc de choisir le nombre de retards minimisant ces critères,
tout en maintenant la validité statistique des modèles estimés.
Nombre
de Log- p-
FPE AIC HQIC SBIC
retards Likelihood value
(lag)
0 -69.957 — 1.9e-07 4.3975 4.5049 4.7086
1 108.210 0.000 1.3e-10 -2.9834 -2.1244 -0.4949
2 159.855 0.000 1.6e-10 -3.1346 -1.5238 1.5315
3 231.442 0.000 1.3e-10 -4.4253 -2.0629 2.4183
- - -
3.5e-
4 968.089 0.000 43.719 40.605 34.698
26
4 3 3
Auteur à partir de Rstudio
Les trois principaux critères d’information (AIC, HQIC, SBIC) atteignent
tous leur minimum pour un modèle à quatre retards (lag = 4). Le critère
SBIC, qui est généralement le plus conservateur et favorable à la
parcimonie, confirme également ce choix. Cela renforce la robustesse de
la sélection.
Le test du log-likelihood ratio montre par ailleurs une amélioration
significative du modèle à chaque ajout de retard, avec une valeur
particulièrement élevée à lag 4 (LR = 1473.3 ; p-value = 0.000).
Test de cointégration
Avant d’estimer un modèle à long terme entre les variables économiques,
il est essentiel de s’assurer qu’une relation de cointégration existe entre
elles. En effet, même si les variables prises individuellement sont non
stationnaires en niveau mais stationnaires en différence première (soit
intégrées d’ordre 1, I(1)), il est possible qu’une combinaison linéaire de
ces variables soit stationnaire. Ce phénomène traduit une relation
d’équilibre de long terme entre les variables.
Dans ce contexte, la procédure de Johansen (1988) est utilisée pour tester
la présence d’au moins une relation de cointégration dans le système
multivarié. Ce test repose sur une approche fondée sur les valeurs propres
(maximum de vraisemblance) à partir d’un modèle de vecteur
autorégressif (VAR) transformé en modèle à correction d’erreur vectoriel
(VECM).
Les hypothèses sont les suivantes :
Hypothèse nulle (𝐻₀) : Il existe au plus r relations de cointégration entre
les variables.
Hypothèse alternative (𝐻₁) : Il existe plus de r relations de cointégration
entre les variables.
Deux statistiques sont principalement considérées :
La statistique du trace (trace test), qui teste l’hypothèse nulle selon
laquelle le rang de cointégration est inférieur ou égal à r contre
l’alternative r>r ;
La statistique du maximum de valeur propre (max-eigenvalue test),
qui teste l’hypothèse nulle r contre l’hypothèse alternative r+1.
Hypothèse nulle Statistique de Valeur
H₀ : rang ≤ r trace critique 5%
r=0 177.01 131.70
r≤1 114.32 102.14
r≤2 81.31 76.07
r≤3 51.96 53.12
r≤4 31.53 34.91
r≤5 14.51 19.96
r≤6 3.76 9.24
Source : Auteur à partir de Rstudio
Les résultats du test de cointégration de Johansen confirment l’existence
de trois relations de cointégration entre les variables étudiées, indiquant
une relation d’équilibre à long terme entre elles. Dans ce contexte, il est
pertinent d’estimer un modèle capable de capturer cette dynamique à
long terme tout en prenant en compte les propriétés spécifiques des
données.
Cependant, bien que le modèle Vectoriel à Correction d’Erreur (VECM) soit
souvent utilisé pour modéliser des séries cointégrées et permette de
traiter l’endogénéité partielle grâce à son cadre multivarié, il ne résout pas
entièrement les problèmes d’endogénéité structurelle pouvant biaiser les
estimations. En effet, les variables explicatives peuvent rester corrélées
avec les termes d’erreur, ce qui compromet la consistance des
estimateurs.
Par ailleurs, la présence d’autocorrélation dans les résidus, observée dans
nos données, peut également invalider les inférences statistiques
classiques du modèle VECM. Cette autocorrélation doit être
rigoureusement corrigée, notamment par une spécification appropriée du
nombre de retards ou par le recours à des méthodes robustes.
En conséquence, il est recommandé de recourir à des techniques
d’estimation semi-paramétriques ou paramétriques robustes, telles que
les estimateurs FMOLS (Fully Modified Ordinary Least Squares) ou DOLS
(Dynamic Ordinary Least Squares), qui corrigent explicitement
l’endogénéité et l’autocorrélation, tout en tenant compte des relations de
cointégration identifiées. Ces méthodes assurent ainsi des estimateurs
asymptotiquement non biaisés et efficaces, adaptés à l’analyse de la
dynamique à long terme des variables économiques.
Primaire Secondai
Primaire
IV Secondair re IV Tertiaire Tertiaire IV
Variabl FMOLS
(2SLS) e FMOLS (2SLS) FMOLS (p- (2SLS) (p-
e (p-
(p- (p-valeur) (p- valeur) valeur)
valeur)
valeur) valeur)
0.351
lopen 0.035 (ns) -0.074 (ns) -0.219 (ns) 0.138 (*) -0.278 (ns)
(***)
0.405 0.418
lElec 0.539 (***) 0.573 (***) 0.385 (***) 0.368 (***)
(***) (***)
-0.197 -0.128
lfbcf 0.082 (ns) 0.109 (ns) 0.059 (ns) 0.153 (*)
(***) (ns)
-0.092 -0.338
lpop -0.004 (ns) -0.304 (ns) 0.015 (ns) -0.529 (*)
(**) (ns)
lpimair -0.104 -0.151
-0.074 (ns) -0.078 (ns) 0.021 (ns) -0.056 (ns)
e (**) (ns)
Corrupt 0.564
0.345 (ns) 0.139 (**) -0.031 (ns) 0.393 (***) 0.054 (ns)
ion (***)