M2 2025 Panelmodels
M2 2025 Panelmodels
perspectives théoriques et
applications
Pr. MEZUI-MBENG
UOB- FDSE
CIREGED
1
Partie 1: Panels statiques
4
1. Introduction
• Que nous enseignent des ensembles de
données avec de nombreux individus mais
peu de périodes?
• Peut-on construire des modèles de
régression basés sur des ensembles de
données de panel?
• Quels sont les avantages des estimateurs
en panel par rapport aux estimations
basées uniquement sur des données en
coupes transversales? 5
Objectifs:
• Décrire ce que sont les données de panel et les raisons de
leur utilisation sous ce format
• Évaluer l’importance des effets fixes et aléatoires
• Maîtriser les techniques d'estimation pour les modèles à
effets fixes et aléatoires.
• Savoir réaliser des tests de spécification (Test de
Hausman) et choisir le modèle approprié.
• Interpréter les résultats et tirer des conclusions
pertinentes.
• Mettre en œuvre les méthodes avec le logiciel Stata.
6
1. INTRODUCTION
• Définition : Les données de panel sont un type de
données qui combinent des observations
transversales (individus, entreprises, pays) et des
séries temporelles (plusieurs périodes).
Coupe transversale
y 11 y 21 y i 1 y N 1
y y 22 y i 2 y N 2
12
Séries
temp. y y 2t y it
y Nt
1t
y 1T y 2T y iT y NT
10
1.1 Avantages des DP
3. Les données de panel sont mieux adaptées
que les données transversales pour étudier la
dynamique du changement. i.e possibilité
d'analyser l'évolution des phénomènes au fil
du temps.
4. Les données de panel sont plus
efficaces pour détecter et mesurer les
effets qui ne peuvent être observés ni
dans les données transversales ni dans
les séries chronologiques.
11
5. Plusieurs caractéristiques individuelles sont non
mesurables ou non observables, comme par exemple:
enthousiasme, goût pour le risques, l’habitude,…
De même, certains effets temporels spécifiques
sont saisonniers comme les saisons, les
festivals,…
Ces caractéristiques variables en fonction des
individus sont appelées des hétérogénéités non
observées.
Lorsqu’elles impactent des variables d’intérêt, et
qu’elles sont corrélées aux variables observées,
on obtient des effets estimées biaisés de ces
variables. 12
1.1 Avantages des DP
6. Les données de panel permettent d’étudier
des modèles comportementaux plus
complexes – par exemple les effets du
changement technologique ou des cycles
économiques.
13
1.2 Inconvénients des DP
•Complexité : Les modèles économétriques sont
plus complexes que pour les données transversales
ou séries temporelles.
16
1.4 Modèles à effets fixes
Supposons que y représente l’investissement et x le profit
des entreprises i = 1…n observés sur les périodes de
temps t = 1…T.
Hypothèse: l’effet individuel est fixe et sépécifique à
chaque unite statistique
yit = αi + βxit + uit
• yit : Variable dépendante pour l'individu i au temps t
• αi : Effet fixe spécifique à l'individu i
• xit : Variable explicative
• β : Coefficient à estimer
• uit: Erreur idiosyncratique (i.e propre à un individu, un moment, ou une situation)
17
1.4.1 Estimation des modèles à effets fixes
19
1.4.2 Application - Estimation des modèles à effets
fixes sous stata
Commandes:
xtset id time
xtreg y x, fe
20
1.5 Modèles à effets aléatoires
Hypothèse: l’effet individuel est aléatoire et tiré d’une
distribution
Equation: Yit=µ+βXit+νi+uit
• µ : Intercept global
• νi : Effet aléatoire spécifique à l'individu i
• Les autres termes sont définis comme précédemment.
21
1.5.2 La structure de la variance dans un modèle à
effets aléatoires:
Dans un modèle à effets aléatoires, on suppose que les i sont une partie du
terme d’erreur composée uit.
Pour construire un estimateur efficace, on évalue la structure du terme d’erreur
et on applique la technique des MCG (ou GLS en anglais) pour trouver un
estimateur efficace.
23
1.5.3 L’Estimateur MCG (Effets aléatoires)
-1 N
N
RE = (X i X i )
ˆ ' −1
i yi
X ' −1
i =1 i =1
1 u
I T − ee' where = 1 -
−1 / 2
=
u T T 2 + u2
Interprétation : Le coefficient beta mesure l'effet de la variable explicative sur la
variable dépendante, en contrôlant les effets individuels aléatoires. 24
Remarque 3: l’estimateur du modèle à effets fixes peut également être
obtenu par la MCG, via à la mise en évidence de la relation avec
l’estimateur à effets aléatoires, de sorte que:
-1 T
T
1
ˆ FE = ( X i MX i )
'
X My i where M = I T − ee'
i
'
i =1 i =1 T
25
Remarque 4: Relation entre estimateurs à Effets aléatoires et Effets
Fixes
27
1.6 Modèles à effets aléatoires ou Effets
Fixes?
1. Avec T grand et N petit, il y aura probablement peu de différence, donc
FE sera préféré car il est plus facile à calculer
2. Avec un N grand et T petit, les estimations pourront différer
considérablement. Si les groupes transversaux constituent un échantillon
aléatoire de la population, le RE sera préférable. Sinon, le FE sera
préférable.
3. Si la composante d'erreur, vi , est corrélée à x alors RE est biaisé, mais
FE ne l'est pas.
4. Pour un grand N et un petit T et si les hypothèses derrière RE sont
valables, RE est plus efficace que FE.
28
Effets aléatoires ou Effets Fixes? (Diagramme de décision)
Les observations peuvent-elles être décrites comme étant
un échantillon aléatoire d’une population donnée ?
Oui Non
30
a) Test de poolabilité des données
31
b) Test des effets individuels
• Test de Breusch-Pagan
H o : = = 0
2
2
32
c) Test de Hausman
Permet de tester lequel des modèles à effets fixes ou Effets
aléatoires est approprié.
Commandes:
xtset id time
xtreg y x, fe
estimates store fe
xtreg y x, re
estimates store re
hausman fe re
35
d) Test d’autocorrélation
• Bien que différente de l'autocorrélation utilisant les
modèles OLS habituels, une version du test de Durbin-
Watson peut être utilisée de la manière habituelle. (E-
views).
• Pour remédier à l’autocorrélation on peut utiliser les
méthodes habituelles, comme le modèle de correction
d’erreur.
• Des « modèles dynamiques » sont également souvent
utilisés, ce qui implique essentiellement l'ajout d'une
variable dépendante décalée.
36
e) Hétéroscédasticité
• Étant donné qu’il existe une composante transversale dans
les données de panel, il existera toujours un potentiel
d’hétéroscédasticité.
Commandes:
• Importer les données : import delimited [Link]
• Définir la structure du panel : xtset id time
• Estimer les modèles : xtreg y x, fe ou xtreg y x, re
• Réaliser les tests : hausman fe re, xtserial, xttest2
• Interpréter les résultats : Examiner les coefficients, les p-valeurs, etc.
38
1.8 Résumé des étapes d’estimations sous stata
a) Importation et préparation des données
• Importation: Importer les données dans Stata.
• Structure du panel: Déclarer la structure du panel avec xtset.
• Variables: Créer les variables nécessaires.
• Exploration: Examiner les statistiques descriptives des variables.
b) Test d'hétérogénéité individuelle (ou test de poolabilité)
• Objectif: Déterminer si les effets individuels sont significatifs.
• Test F: Comparer le modèle avec et sans effets individuels (xtreg,
testparm).
39
1.8 Résumé des étapes d’estimations sous stata
43
1.8 Résumé des étapes d’estimations sous stata
44
1.9 Exemples traités sous Stata
1. 9.1 Saisi manuel des données
Ouvrir l'éditeur de données :
Dans la barre de menu de Stata, cliquez sur "Data" puis sélectionnez "Data Editor" puis "Data Editor (Edit)".
Vous pouvez aussi utiliser la commande edit dans la fenêtre de commande de Stata.
Une feuille de calcul s'ouvre, similaire à Excel.
Entrer les données :
Vous pouvez maintenant saisir vos données directement dans les cellules de l'éditeur.
Dans notre exemple :
La première colonne sera "Entreprise", la deuxième "Annee", la troisième "Revenu" et la quatrième
"Profit".
Remplissez chaque ligne avec les valeurs correspondantes (voir le tableau précédent).
Saisissez les données une ligne à la fois.
Nommer les variables :
Par défaut, les colonnes sont nommées "var1", "var2", etc.
Pour les renommer, double-cliquez sur l'en-tête de la colonne et entrez le nom souhaité ("Entreprise",
"Annee", "Revenu", "Profit").
Définir les types de variables :
que les types de variables sont corrects (numérique pour les valeurs numériques, chaîne de caractères
poAssurez-vousur les noms d'entreprises, par exemple).
Stata, tente de deviner les type de variable, mais il est toujours mieux de vérifier.
Sauvegarder les données :
Cliquez sur "File" puis "Save" et choisissez un nom de fichier et un emplacement.
Les fichiers Stata ont l'extension ".dta".
45
1.9 Exemples traités sous Stata
1. 9.2 Importation des fichiers externes
a) Fichiers Excel :
Si vos données sont dans un fichier Excel, utilisez la commande import excel.
Exemple : import excel "C:\Chemin\Vers\Votre\[Link]", sheet("NomDeLaFeuille")
firstrow
"C:\Chemin\Vers\Votre\[Link]" est le chemin d'accès à votre fichier.
"sheet()" spécifie la feuille de calcul à importer.
"firstrow" indique que la première ligne contient les noms de variables.
B) Fichiers CSV :
Pour les fichiers CSV (Comma Separated Values), utilisez la commande import delimited.
Exemple : import delimited "C:\Chemin\Vers\Votre\[Link]", delimiter(",") firstrow
"delimiter(,)" indique que les valeurs sont séparées par des virgules.
46
1.9.3 Exemple 1 (exo 1 à faire)
Importez sous stata les données du tableau ci-après :
• Entreprise : L'identifiant de chaque entreprise.
• Année : L'année de l'observation.
• Revenu (en millions) : Le revenu de l'entreprise pour cette année-là.
• Profit (en millions) : Le profit de l'entreprise pour cette année-là. On considère
trois entreprises (Entreprise A, Entreprise B et Entreprise C)
47
• Interprétation :
• Le revenu a un effet positif et statistiquement significatif sur le profit (coefficient = 0.189, p < 0.001).
Le R-squared élevé (0.9657) indique que le modèle explique une grande partie de la variance du profit.
Le coefficient de 0.189 signifie que lorsque le revenu augmente de 1 million, le profit augmente de
0.189 million. Le constante n'est pas statistique significative ici.
F(1,5) = 348.00
corr(u_i, Xb) = -0.1983 Prob > F =
0.0000
-----------------------------------------------------------------------------
-
Profit | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------
-
Revenu | .1888889 .0101426 18.65 0.000 .1627918 .2149861
_cons | .1666667 (dropped)
-------------+---------------------------------------------------------------
-
sigma_u | .06804138
sigma_e | .02108185
rho | .91316523 (fraction of variance due to u_i)
-----------------------------------------------------------------------------
- 48
F test that all u_i=0: F(2, 5) = 111.00 Prob > F =
0.0000
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
On considère un panel de données sur les entreprises, où :
o y = profit de l'entreprise
o x1 = dépenses en R&D
o x2 = taille de l'entreprise
o id = identifiant de l'entreprise
o time = année
a) Regression effets fixes : xtreg y x1 x2, fe
50
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
c) Test de hausman: hausman
Hausman test
(b-B)'[(V_b-V_B)^(-1)](b-B) = 15.67
Prob > chi2(2) = 0.0004
• Interprétation :
o Le test de Hausman est significatif (Prob > chi2 = 0.0004). Cela signifie que les effets
fixes sont préférables.
• Choix : Nous choisirions le modèle à effets fixes.
51
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
d) Tests de diagnostic et corrections
Autocorrélation :
xtserial y x1 x2
Wooldridge test for autocorrelation in panel data
Hétéroscédasticité :
o xttest3
Modified Wald test for groupwise heteroskedasticity
in fixed effects regression model
chi2(100) = 250.34
Prob > chi2 = 0.0000
53
Interprétation des résultats finaux :
Interprétation: Chaque point de dépenses en R&D supplémentaires (x1) augmente le profit (y) de 0.7894 unités.
La taille de l'entreprise (x2) à aussi un effet positif sur le profit. Ces résultat sont robustes à l'hétéroscedasticité
et l'autocorrelation. 54
1.9.5 Exemple 3 (exo 3 à faire)
On considère le tableau de données de panel ci-contre, à
partir duquel on voudrait estimer l’équation:
Prodit=ai+bCapit+dTravit+uit
Entreprise Annee Production Capital Travail
A 2019 100 50 20
A 2020 110 55 22
A 2021 120 60 24
A 2022 130 65 26
B 2019 80 40 18
B 2020 85 42 19
B 2021 90 45 20
B 2022 95 48 21
C 2019 150 70 30
C 2020 160 75 32
C 2021 170 80 34
C 2022 180 85 36
D 2019 120 60 25
D 2020 125 62 26
D 2021 130 65 27
D 2022 135 68 28
E 2019 90 45 19
E 2020 95 47 20
E 2021 100 50 21
E 2022 105 53 22
55
Partie 2: Panels dynamiques,
Tests de R.U, Cointégration
Partie 2:
Panels Dynamiques
&
Racines Unitaires
2.1 Introduction
• Les modèles dynamiques sont utilisés lorsque la
variable dépendante à la date t est influencée par
ses valeurs passées.
62
2. Traitement de l’autocorrélation :
63
3. Intégration des tests de racine unitaire :
Les tests de racine unitaire sont essentiels pour vérifier la stationnarité
des variables dans un modèle dynamique.
64
• Tests de racine unitaire pour données de panel :
o Tests de première génération :
▪ Levin-Lin-Chu (LLC) : Suppose une corrélation commune des erreurs entre les
individus.
▪ Exemple d'application : Tester si le taux de chômage est stationnaire dans un
panel de régions.
▪ Im-Pesaran-Shin (IPS) : Permet une corrélation différente des erreurs entre les
individus.
▪ Exemple d'application : Tester si le taux de croissance du PIB est
stationnaire dans un panel de pays.
o Tests de deuxième génération :
▪ Maddala-Wu (MW) : Combine les p-valeurs des tests de racine unitaire
individuels.
▪ Exemple d'application : Tester si le niveau de l'inflation est stationnaire dans
un panel de pays, en tenant compte de la possible non-stationnarité pour
certains pays.
65
• •Interprétation des résultats :
68
4. Choix de la méthode d'estimation
Le choix dépend des problèmes identifiés (endogénéité ou
Autocorrélation des erreurs)
• Si endogénéité SEULEMENT :
o Variables instrumentales (VI) :
Trouver des instruments corrélés avec y_{i,t-1} mais non corrélés avec u_{it}.
Exemple : Valeurs retardées des variables explicatives ou de la variable dépendante.
o Différences premières et VI : Combiner la transformation en différences premières et les
VI.
• Si endogénéité ET autocorrélation :
o Estimateur d'Arellano et Bond (GMM) :
Méthode spécifique pour les modèles dynamiques avec données de panel.
Utilise les valeurs retardées des variables comme instruments dans l'équation en
différences premières.
• Si autocorrélation SEULEMENT :
o Modèles à erreurs AR(1) :
69
Spécifier un modèle avec erreurs autorégressives : uit = ρuit-1+ϵit.
5. Estimation d'Arellano et Bond (GMM)
L'estimateur d'Arellano et Bond est une méthode de GMM
spécifiquement conçue pour les modèles dynamiques avec données de
panel. Il est particulièrement utile dans les situations suivantes :
▪ Présence d'endogénéité : La variable dépendante retardée est
corrélée avec l'erreur.
▪ Autocorrélation des erreurs : Les erreurs sont
autocorrélationnelles.
▪ Données de panel courtes : Le nombre de périodes est petit par
rapport au nombre d'individus.
Conclusion
L'intégration des tests de racine unitaire dans l'analyse des modèles dynamiques avec
données de panel est cruciale pour garantir la validité des résultats. Ces tests permettent de
déterminer la stationnarité des variables et de prendre les mesures nécessaires
71
(transformation) si elles ne le sont pas.
RESUME DES ETAPES D’ESTIMATION D’UN PANEL
DYNAMIQUE :
a) Préparation des données
• Importation: Importer les données dans Stata (import delimited,
import excel, etc.).
72
b) Tests de racine unitaire
• Objectif: Vérifier la stationnarité des variables. Les variables non
stationnaires peuvent conduire à des régressions fallacieuses.
• Tests: Levin-Lin-Chu (LLC), Im-Pesaran-Shin (IPS), Fisher-type,
Hadri.
• Commande Stata: xtunitroot y, llc (ou ips, fisher, hadri)
• Interprétation: Si la p-valeur est inférieure au seuil (ex: 0,05),
rejeter l'hypothèse nulle de racine unitaire (la variable est
stationnaire).
• Transformation: Si une variable est non stationnaire, la transformer
(différences premières: gen dy = D.y).
73
c) Spécification du modèle
• Modèle de base:
• y_{it} = \alpha_i + \gamma y_{i,t-1} + \beta
x_{it} + u_{it}
où :
o y_{it} est la variable dépendante pour l'individu i au temps t.
o \alpha_i est l'effet individuel (fixe ou aléatoire).
o y_{i,t-1} est la variable dépendante retardée.
o x_{it} est le vecteur des variables explicatives.
o \gamma et \beta sont les coefficients à estimer.
o u_{it} est le terme d'erreur.
74
d)Choix de la méthode d'estimation
• Endogénéité: La variable dépendante retardée (y_{i,t-1}) est
corrélée avec le terme d'erreur (u_{it}).
• Autocorrélation: Les erreurs (u_{it}) peuvent être autocorrélées.
• Méthodes:
o Différences premières et variables instrumentales (VI):
xtivreg y x (L.y = L2.y), fe (utiliser des retards plus profonds
comme instruments)
o GMM en système (Arellano-Bover/Blundell-Bond): xtdpdsys y
x, lags(1) (plus efficace que le GMM en différences)
75
e) Estimation du modèle
• Commande Stata: Utiliser la commande correspondant à la
méthode choisie (voir étape 4).
• Options: Spécifier le nombre de retards (lags()), le type d'effets
individuels (fe ou re), et les options pour les erreurs standard
robustes (vce(robust)) si nécessaire.
f) Tests de spécification
• Autocorrélation: Tester l'autocorrélation des erreurs après
l'estimation par GMM (estat abond). On souhaite voir une
autocorrélation d'ordre 1, mais pas d'ordre 2 ou supérieur.
• Validité des instruments: Tester la validité des instruments avec le
test de Sargan ou de Hansen (estat overid). Une p-valeur non
significative indique que les instruments sont valides.
• Test de Hausman (si applicable): Choisir entre effets fixes et
76
aléatoires (hausman).
g) Interprétation des résultats
• Coefficients: Analyser le signe, la magnitude, et la significativité
des coefficients.
• Effets marginaux: Calculer l'effet d'une variation d'une variable
explicative sur la variable dépendante.
• Implications: Discuter des implications économiques des résultats.
h) Conclusion
• Résumé des résultats: Présenter les principaux résultats de
l'analyse.
• Limites: Reconnaître les limites du modèle (hypothèses, données,
etc.).
• Pistes de recherche: Proposer des pistes pour de futures recherches.
77
6. Exemple : Impact des dépenses de R&D sur la productivité
Nous voulons étudier l'impact des dépenses de R&D sur la productivité des entreprises,
en tenant compte de l'inertie de la productivité. (exo 4 à faire)
Prodit=α+β1Prodit-1+β2R&Dit+β3Capit+uit 78
7. COINTEGRATION EN DONNEES DE PANEL
80
• Tests courants:
o Test de Pedroni
o Test de Kao
o Test de Westerlund
• Stata :
o Les commandes varient en fonction du test choisi. Il existe des packages Stata (comme
xtcointtest) qui facilitent ces tests.
o Exemple de commande pour un test de Kao (nécessite l'installation de package) :
▪ xtkaotest productivite R&D capital, lags(#)
• Interprétation:
o Si le test indique une cointégration (rejet de l'hypothèse nulle d'absence de cointégration),
cela signifie qu'il existe une relation de long terme entre les variables.
81
c) Estimation du modèle de correction d'erreur (ECM)
Objectif: Estimer la vitesse à laquelle les variables convergent vers
l'équilibre de long terme.
• Stata :
o Calculer les résidus de la relation de cointégration.
o Inclure les résidus retardés dans un modèle de panel dynamique.
o exemple de commande :
▪ regress residu_retarde [Link]
L.R&D [Link]
• Interprétation:
o Le coefficient des résidus retardés indique la vitesse de correction
d'erreur. Un coefficient négatif et significatif confirme la
convergence vers l'équilibre.
82
7.3 Comparaison avec l’estimation de panel dynamique
• Estimation dynamique:
o Modélise les ajustements à court terme et les effets d'inertie.
o N'exige pas nécessairement que les variables soient non
stationnaires.
o Utilise souvent les méthodes GMM (diff-GMM, sys-GMM) pour
traiter l'endogénéité.
• Cointégration en panel:
o Modélise les relations de long terme entre variables non
stationnaires.
o Nécessite des tests de racines unitaires et de cointégration.
o L'ECM capture la vitesse de convergence vers l'équilibre.
83
8. Exemple : Impact des dépenses de R&D sur la productivité
Reprenons l'exemple précédent pour les tests de racines unitaires, de cointégration et
l'estimation de l'ECM. (exo 4 suite à faire)
Prodit=α+β1Prodit-1+β2R&Dit+β3Capit+uit 84