100% ont trouvé ce document utile (1 vote)
169 vues84 pages

M2 2025 Panelmodels

Le document traite de l'économétrie des données de panel, en abordant les modèles à effets fixes et aléatoires, ainsi que les tests de spécification. Il met en avant les avantages des données de panel, tels que le contrôle de l'hétérogénéité individuelle et la capacité d'analyser la dynamique du changement, tout en mentionnant les inconvénients comme la complexité et le biais d'endogénéité. Des applications pratiques et des méthodes d'estimation avec le logiciel Stata sont également présentées.

Transféré par

Landry MBADOUMOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
169 vues84 pages

M2 2025 Panelmodels

Le document traite de l'économétrie des données de panel, en abordant les modèles à effets fixes et aléatoires, ainsi que les tests de spécification. Il met en avant les avantages des données de panel, tels que le contrôle de l'hétérogénéité individuelle et la capacité d'analyser la dynamique du changement, tout en mentionnant les inconvénients comme la complexité et le biais d'endogénéité. Des applications pratiques et des méthodes d'estimation avec le logiciel Stata sont également présentées.

Transféré par

Landry MBADOUMOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Econométrie des données de Panel:

perspectives théoriques et
applications

Pr. MEZUI-MBENG
UOB- FDSE
CIREGED

1
Partie 1: Panels statiques

Partie 2: Panels dynamiques et


R.U. et Cointégration
Partie 1: Panels statiques
Plan
1. Introduction aux données de panel
2. Modèles à effets fixes
3. Modèles à effets aléatoires
4. Tests de spécification
5. Applications avec Stata

4
1. Introduction
• Que nous enseignent des ensembles de
données avec de nombreux individus mais
peu de périodes?
• Peut-on construire des modèles de
régression basés sur des ensembles de
données de panel?
• Quels sont les avantages des estimateurs
en panel par rapport aux estimations
basées uniquement sur des données en
coupes transversales? 5
Objectifs:
• Décrire ce que sont les données de panel et les raisons de
leur utilisation sous ce format
• Évaluer l’importance des effets fixes et aléatoires
• Maîtriser les techniques d'estimation pour les modèles à
effets fixes et aléatoires.
• Savoir réaliser des tests de spécification (Test de
Hausman) et choisir le modèle approprié.
• Interpréter les résultats et tirer des conclusions
pertinentes.
• Mettre en œuvre les méthodes avec le logiciel Stata.

6
1. INTRODUCTION
• Définition : Les données de panel sont un type de
données qui combinent des observations
transversales (individus, entreprises, pays) et des
séries temporelles (plusieurs périodes).

• Structure : Chaque unité statistique est observée


à plusieurs moments dans le temps.

• Représentation : Tableau avec les unités


statistiques en lignes et les périodes en colonnes. 7
Structure des DP
 x111 x211 .. xK 11  temps 1
 
 x112 x212 .. xK 12 
Individu 1  .. 
.. .. ..
 
 x11T x21T .. xK 1T  temps T
 x121 x221 .. xK 21 
  temps 1
 x122 x222 .. xK 22 
Individu 2  .. 
.. .. ..
 
 x12T x22T .. x K 2T tempsT
 
x x2 N 1 .. xKN 1 
 1N 1  temps 1
 x1N 2 x2 N 2 .. xKN 2 
Individu N  
 .. .. .. .. 
x xKNT 
 1NT x2 NT .. temps T 8
Structure des DP
Lorsque toutes les unités transversales ont le même nombre
d’observations que celle des séries chronologiques, le panel
est dit calibré, sinon il est non calibré (unbalanced).

Coupe transversale
 y 11 y 21  y i 1  y N 1 
y y 22  y i 2  y N 2 
 12
Séries       
temp.  y y 2t  y it

 y Nt 
 1t
      
 
y 1T y 2T  y iT  y NT 

Ci-dessus les observations d’une matrice de données de


panel calibrées sur la variable y, N observations
transversales, T observations de séries chronologiques. 9
1.1 Avantages des DP

1. Les DP permettent le contrôle de


l'hétérogénéité individuelle : i.e permettent
de prendre en compte les différences non
observées entre les unités statistiques)
2. En combinant des données en deux
dimensions, ils:! de panel donnent plus de
variation des données, moins de colinéarité
et plus de degrés de liberté.

10
1.1 Avantages des DP
3. Les données de panel sont mieux adaptées
que les données transversales pour étudier la
dynamique du changement. i.e possibilité
d'analyser l'évolution des phénomènes au fil
du temps.
4. Les données de panel sont plus
efficaces pour détecter et mesurer les
effets qui ne peuvent être observés ni
dans les données transversales ni dans
les séries chronologiques.
11
5. Plusieurs caractéristiques individuelles sont non
mesurables ou non observables, comme par exemple:
enthousiasme, goût pour le risques, l’habitude,…
De même, certains effets temporels spécifiques
sont saisonniers comme les saisons, les
festivals,…
Ces caractéristiques variables en fonction des
individus sont appelées des hétérogénéités non
observées.
Lorsqu’elles impactent des variables d’intérêt, et
qu’elles sont corrélées aux variables observées,
on obtient des effets estimées biaisés de ces
variables. 12
1.1 Avantages des DP
6. Les données de panel permettent d’étudier
des modèles comportementaux plus
complexes – par exemple les effets du
changement technologique ou des cycles
économiques.

7. Plus d'informations : Augmente la


puissance statistique des tests.

13
1.2 Inconvénients des DP
•Complexité : Les modèles économétriques sont
plus complexes que pour les données transversales
ou séries temporelles.

Problèmes de données : Peut être difficile à


collecter et peut contenir des valeurs manquantes
ou des erreurs de mesure.

Biais d'endogénéité : Les variables explicatives


peuvent être corrélées avec les erreurs, ce qui
14
biaise les estimations.
1.3 Applications des DP
• Rendements de l’Education
• Discrimination
• Soins informels
• Invalidité
• Enquêtes auprès des ménages : Revenus, dépenses,
consommation, etc.
• Données d'entreprises : Chiffre d'affaires, profits,
investissements, etc.
• Données macroéconomiques : PIB, inflation, taux de
chômage, etc.
15
Rendements de l’éducation
• Estimations transversales des rendements
de l’education

• Question: le rendement de l’éducation est-


il biasé par le fait de ne pas tenir compte
des differences de capacités?

16
1.4 Modèles à effets fixes
Supposons que y représente l’investissement et x le profit
des entreprises i = 1…n observés sur les périodes de
temps t = 1…T.
Hypothèse: l’effet individuel est fixe et sépécifique à
chaque unite statistique
yit = αi + βxit + uit
• yit : Variable dépendante pour l'individu i au temps t
• αi : Effet fixe spécifique à l'individu i
• xit : Variable explicative
• β : Coefficient à estimer
• uit: Erreur idiosyncratique (i.e propre à un individu, un moment, ou une situation)
17
1.4.1 Estimation des modèles à effets fixes

• Méthode : Moindres Carrés Ordinaires (MCO) en incluant des variables


indicatrices pour chaque unité statistique.
• Construction algébrique de l'estimateur :
o On transforme le modèle en incluant des variables indicatrices Di
pour chaque individu (méthode LSDV) :
N
y it =  D it a 0i + a1 x it + u it (3)
i =1
NB: ici alpha= ao et beta=a1, Di n’a pas d’indice t
o L'estimateur des MCO est alors :
Bchapo=(X’MX)-1X’MY

où X est la matrice des variables explicatives,


M=I-D(D’D)-1D’
est la matrice de projection qui élimine les effets fixes, et Y est le vecteur
de la variable dépendante. 18
Remarque 1: l’estimateur LSDV du modèle à effets fixes s’appelle
estimateur “within” car il repose sur des variations intra
individuelles plutôt qu’inter individuelles

Remarque 2: il existe également un autre estimateur qui utilise des


informations liées aux variations interindividuelles: l’estimateur
“between”.

19
1.4.2 Application - Estimation des modèles à effets
fixes sous stata
Commandes:
xtset id time
xtreg y x, fe

20
1.5 Modèles à effets aléatoires
Hypothèse: l’effet individuel est aléatoire et tiré d’une
distribution
Equation: Yit=µ+βXit+νi+uit

• µ : Intercept global
• νi : Effet aléatoire spécifique à l'individu i
• Les autres termes sont définis comme précédemment.

1.5.1 Estimation des modèles à effets aléatoires:

• Méthode des Moindres Carrés Généralisés (MCG)

21
1.5.2 La structure de la variance dans un modèle à
effets aléatoires:

Dans un modèle à effets aléatoires, on suppose que les i sont une partie du
terme d’erreur composée uit.
Pour construire un estimateur efficace, on évalue la structure du terme d’erreur
et on applique la technique des MCG (ou GLS en anglais) pour trouver un
estimateur efficace.

Les hypothèses suivantes doivent être vérifiées:


E (uit ) = E (i ) = 0; E (uit2 ) =  u2 ;
E (i2 ) =  2 ; E (uit i ) = 0 for all i, t
E ( it2 ) =  u2 +  2 t = s; E ( it is ) =  2 , t  s;
and
E ( xkit i ) = 0 for all k , t , i
L’estimation du modèle à effets aléatoires ne peut être effectuée par MCO. La
technique MCG est nécessaire pour la cohérence de ce modèle, mais pas dans
22 le cas
du modèle à effets fixes.
1.5.2 La structure de la variance dans un modèle à
effets aléatoires:

La structure de la variance de uit pour chaque individu i se calcule en considérant


que le terme aléatoire i est présent pour chaque t et qu’il existe une corrélation
entre chaque couple de période pour cet individu. (matrice des var-cov)

 i' = ( i1 ,  i 2 ,... iT ); then E ( i i' ) =


 u2 +  2  2  2  2 
 
  2
 2
+  2
 
2
 u 
=  u2 I +  2 ee' = 
  i2 .. .. 
 2
  2
  
2
..  u +   
2

where e' = (111.....1) is a unit vector of size T

23
1.5.3 L’Estimateur MCG (Effets aléatoires)

L’estimateur MCG calculé pour tous les individus, s’écrit :

-1 N
N

 RE =   (X i  X i ) 
ˆ ' −1
 i  yi
X ' −1

 i =1  i =1

où,  est donnée dans la slide précédente.


On peut montrer que:

1    u
 I T − ee'  where  = 1 -
−1 / 2
 =
u  T  T  2 +  u2
Interprétation : Le coefficient beta mesure l'effet de la variable explicative sur la
variable dépendante, en contrôlant les effets individuels aléatoires. 24
Remarque 3: l’estimateur du modèle à effets fixes peut également être
obtenu par la MCG, via à la mise en évidence de la relation avec
l’estimateur à effets aléatoires, de sorte que:

-1 T
 T
 1
ˆ FE =  ( X i MX i ) 
'
 X My i where M = I T − ee'
i
'

 i =1  i =1 T

En prémultipliant de la matrice de donnée X par M, on abouti à la construction d’une


nouvelle matrice, X* composée d’écart aux moyennes individeulles.

L’estimateur FE utilise M comme matrice de ponderation plutôt .

25
Remarque 4: Relation entre estimateurs à Effets aléatoires et Effets
Fixes

L’estimateur des effets aléatoires est une combinaison pondérée des


estimateurs “within” et “between”. Ainsi, L’estimateur “between” est
tiré de la relation:

ˆ RE = ˆ Between + ( I K −  ) ˆW ithin


 depends on  in such a way that if  → 1 then the
RE and FE estimators coincide. This occurs when the variabili ty of
the individual effects is large relative to the random errors.
 → 0 correspond s to OLS (because the individual effects are small
relative to the random error).
26
1.5.4 Application - Estimation des modèles à effets
aléatoires sous stata
Commandes:
xtset id time
xtreg y x, re

27
1.6 Modèles à effets aléatoires ou Effets
Fixes?
1. Avec T grand et N petit, il y aura probablement peu de différence, donc
FE sera préféré car il est plus facile à calculer
2. Avec un N grand et T petit, les estimations pourront différer
considérablement. Si les groupes transversaux constituent un échantillon
aléatoire de la population, le RE sera préférable. Sinon, le FE sera
préférable.
3. Si la composante d'erreur, vi , est corrélée à x alors RE est biaisé, mais
FE ne l'est pas.
4. Pour un grand N et un petit T et si les hypothèses derrière RE sont
valables, RE est plus efficace que FE.

28
Effets aléatoires ou Effets Fixes? (Diagramme de décision)
Les observations peuvent-elles être décrites comme étant
un échantillon aléatoire d’une population donnée ?

Oui Non

Effectuez des régressions Utilisez les effets


à effets fixes et à effets fixes
aléatoires.

Un test DWH indique-t-il des Non Choisissez provisoirement des effets


différences significatives aléatoires. Un test indique-t-il la
dans les coefficients ? présence d’effets aléatoires ?

Yes Oui Non


Utiliser les effets Utiliser les Utiliser une
effets aléatoires regression
fixes
pooled MCO

Le diagramme résume la procédure de prise de décision (DWH: Durbin WU Haussman). 31


1.6.1. Tests de spécification en DP

• “Poolabilité” des données (Chow Test)


• Effets fixes et individuels (Breusch-Pagan)
• Test de Hausman : Choisir entre effets fixes et
aléatoires.
• Test de Wooldridge : Tester l'autocorrélation
sérielle.
• Test de Pesaran : Tester la dépendance spatiale.

30
a) Test de poolabilité des données

• H0: (absence de contrainte) – regressions distinctes pour


chaque individu
• H1: (contrainte) – les individus ont les mêmes coefficients,
absence des composantes dans le terme d’erreur (erreur
simple)
• Test approprié: test Fisher (Chow Test)

31
b) Test des effets individuels
• Test de Breusch-Pagan

H o : =  = 0
2

2

• Facile à appliquer – la stat. de decision suit une loi 22

• Les tests des effets individuels et temporels peuvent être


appliqués, chacun recourt à une stat. qui suit une loi 12

32
c) Test de Hausman
Permet de tester lequel des modèles à effets fixes ou Effets
aléatoires est approprié.

H0: E(i|xit) = 0 pour dans le modèle à erreur composée simple (i.e


les estimations RE sont efficaces et appropriées; alors que les
estimations FE sont inefficaces)
S’il n’y a aucune correlation entre les régresseurs et les effets, alors
EF et RE sont tous deux pertinentes, mais FE est inefficient. On
calculi donc la difference:
C alculate ˆ RE − ˆ F E and its covariance
S’il existe une corrélation, FE est pertinent et RE n’est pas pertinent.

Sous l’hypothèse nulle d’absence de corrélation, il pourrait ne pas y avoir de


differences entre les estimateurs. 33
c) Test de Hausman
Il test l’indépendence entre i et les xkit.
La covariance d’un estimateur efficace par rapport à celle d’un
estimateur non efficace devrait être égale à zéro.

Ainsi, sous l’hypothèse nulle. Le teste prend la forme du teste de


Wald, base sur une statistique du Chi-2 à k d.d.l (nombre de
regrésseurs):
ˆ − 1 (  RE −  F E ) ~  2 ( k )
W = (  RE −  F E )' 

Si W est significatif, on ne retient pas l’estimateur du modèle à effet


aléatoire.
Ainsi, Si W < valeur critique, alors les effets aléatoires seront retenus
Décision équivalente : Si la p-valeur du test est inférieure à un seuil
(par exemple 0,05), on rejette l'hypothèse nulle et on choisit le modèle
à effets fixes. 34
1.6.2 Application – Test de Haussman sous stata

Commandes:
xtset id time
xtreg y x, fe
estimates store fe
xtreg y x, re
estimates store re
hausman fe re

35
d) Test d’autocorrélation
• Bien que différente de l'autocorrélation utilisant les
modèles OLS habituels, une version du test de Durbin-
Watson peut être utilisée de la manière habituelle. (E-
views).
• Pour remédier à l’autocorrélation on peut utiliser les
méthodes habituelles, comme le modèle de correction
d’erreur.
• Des « modèles dynamiques » sont également souvent
utilisés, ce qui implique essentiellement l'ajout d'une
variable dépendante décalée.

36
e) Hétéroscédasticité
• Étant donné qu’il existe une composante transversale dans
les données de panel, il existera toujours un potentiel
d’hétéroscédasticité.

• Bien qu'il existe différents tests d'hétéroscédastcité,


comme pour l'autocorrélation, il existe une tendance à
utiliser automatiquement des erreurs standard ajustées, ce
qui corrige le problème.

• Avec l’hétéroscédasticité, ce sont généralement les erreurs-


types ajustées de White qui sont utilisées.
37
1.7 Applications – sous stata

Commandes:
• Importer les données : import delimited [Link]
• Définir la structure du panel : xtset id time
• Estimer les modèles : xtreg y x, fe ou xtreg y x, re
• Réaliser les tests : hausman fe re, xtserial, xttest2
• Interpréter les résultats : Examiner les coefficients, les p-valeurs, etc.

38
1.8 Résumé des étapes d’estimations sous stata
a) Importation et préparation des données
• Importation: Importer les données dans Stata.
• Structure du panel: Déclarer la structure du panel avec xtset.
• Variables: Créer les variables nécessaires.
• Exploration: Examiner les statistiques descriptives des variables.
b) Test d'hétérogénéité individuelle (ou test de poolabilité)
• Objectif: Déterminer si les effets individuels sont significatifs.
• Test F: Comparer le modèle avec et sans effets individuels (xtreg,
testparm).

• Interprétation: Si le test est significatif, il y a hétérogénéité individuelle, donc


on doit choisir un modèle de données de panel (effets fixes ou aléatoires).

39
1.8 Résumé des étapes d’estimations sous stata

c) Choix entre effets fixes et effets aléatoires


• Critère principal: Corrélation entre les effets individuels et les variables explicatives
o Effets fixes: Si corrélation suspectée ou confirmée.
o Effets aléatoires: Si absence de corrélation.
• Test de Hausman: Comparer les estimateurs des effets fixes et aléatoires (hausman).
o Si significatif: Préférer les effets fixes.
o Si non significatif: Effets aléatoires peuvent être plus efficients.
• Autres critères:
o Nature des données: Si les individus du panel sont exhaustifs (ex: tous les pays d'une
région), les effets fixes peuvent être plus appropriés. Si l'échantillon est aléatoire (ex: un
échantillon d'entreprises), les effets aléatoires peuvent être plus adaptés.
o Question de recherche: Si l'intérêt porte sur l'hétérogénéité individuelle, les effets fixes
sont préférables. Si l'intérêt porte sur les effets moyens des variables explicatives, les
effets aléatoires peuvent être plus adaptés.
40
1.8 Résumé des étapes d’estimations sous stata
d) Estimation du modèle
• xtreg y x1 x2, fe (modèle à effets fixes)
• xtreg y x1 x2, re (modèle à effets aléatoires)
• xttest0 (test de Breusch-Pagan pour l'hétéroscédasticité des effets individuels)
• hausman (test de Hausman pour comparer les effets fixes et aléatoires)
• Interprétation des coefficients: Analyser le signe, la magnitude et la significativité.
e) Tests de spécification et choix final du modèle
• Test de Breusch-Pagan (xttest0) évalue si la variance des effets individuels est
significativement différente de zéro.
o Si le test est significatif: Cela suggère la présence d'effets individuels et justifie
l'utilisation d'un modèle à effets aléatoires ou fixes.
• Test de Hausman compare les estimations des effets fixes et aléatoires.
✓ Si le test de Hausman est significatif, choisissez le modèle à effets fixes.
✓ Si le test de Hausman n'est pas significatif et le test de Breusch-Pagan est significatif, choisissez le modèle à effets
aléatoires.
✓ Si le test de Breusch-Pagan n'est pas significatif, une régression par pool (données combinées) serait plus appropriée
41
1.8 Résumé des étapes d’estimations sous stata
d) Tests de diagnostic et corrections
• Test d’Autocorrélation :
o Commande Stata : xtserial y x1 x2 (test de Wooldridge)
o Interprétation : Un résultat significatif indique une autocorrélation des erreurs.
o Correction :
▪ Erreurs standard robustes : xtreg y x1 x2, fe vce(robust) ou xtreg
y x1 x2, re vce(robust)
▪ modèle AR(1) : xtregar y x1 x2, fe ou xtregar y x1 x2, re
• Test d’Hétéroscédasticité :
o xttest0 (test de Breusch-Pagan pour l'hétéroscédasticité des effets individuels)
o Commande Stata: xttest3 (test de Wald modifié pour l'hétéroscédasticité intra-
groupe)
o Interprétation : Un résultat significatif indique une hétéroscédasticité.
o Correction :
▪ Erreurs standard robustes (comme ci-dessus).
▪ Modèles FGLS : xtgls y x1 x2 (modèle de moindres carrés généralisés réalisables).
42
Test de normalité :
o Commande Stata : predict residuals, residuals puis swilk
residuals
o Interprétation : Un résultat non significatif indique que les résidus sont normalement
distribués.
o Importance : La non-normalité peut affecter la validité des tests d'hypothèses, en
particulier pour de petits échantillons. Cependant, avec des échantillons de
grande taille, le théorème central limite tend à atténuer ce problème.
• Comparaison de modèles :
o Commande Stata : estat ic (critères d'information AIC et BIC)
o Interprétation : Des valeurs plus faibles de l'AIC et du BIC indiquent un meilleur
ajustement du modèle.
o Commande Stata: pour tester des effets fixe versus pool: anova y x1 x2,
group(id) avec "id" étant l'identifiant de cross section. Un test de Fisher
significatif, démontre la pertinence d'utiliser un modèle à effet fixes, plutôt que pool.
o Choix du modèle : Sélectionnez le modèle avec les valeurs d'AIC et de BIC les plus
faibles, tout en tenant compte des résultats des tests de spécification.

43
1.8 Résumé des étapes d’estimations sous stata

e) Interprétation économique et conclusion


• Effets marginaux: Calculer l'effet d'une variation d'une variable explicative.
• Élasticités: Mesurer la sensibilité de la variable dépendante.
• Implications: Discuter des implications économiques.
• Limites: Reconnaître les limites du modèle.

44
1.9 Exemples traités sous Stata
1. 9.1 Saisi manuel des données
Ouvrir l'éditeur de données :
Dans la barre de menu de Stata, cliquez sur "Data" puis sélectionnez "Data Editor" puis "Data Editor (Edit)".
Vous pouvez aussi utiliser la commande edit dans la fenêtre de commande de Stata.
Une feuille de calcul s'ouvre, similaire à Excel.
Entrer les données :
Vous pouvez maintenant saisir vos données directement dans les cellules de l'éditeur.
Dans notre exemple :
La première colonne sera "Entreprise", la deuxième "Annee", la troisième "Revenu" et la quatrième
"Profit".
Remplissez chaque ligne avec les valeurs correspondantes (voir le tableau précédent).
Saisissez les données une ligne à la fois.
Nommer les variables :
Par défaut, les colonnes sont nommées "var1", "var2", etc.
Pour les renommer, double-cliquez sur l'en-tête de la colonne et entrez le nom souhaité ("Entreprise",
"Annee", "Revenu", "Profit").
Définir les types de variables :
que les types de variables sont corrects (numérique pour les valeurs numériques, chaîne de caractères
poAssurez-vousur les noms d'entreprises, par exemple).
Stata, tente de deviner les type de variable, mais il est toujours mieux de vérifier.
Sauvegarder les données :
Cliquez sur "File" puis "Save" et choisissez un nom de fichier et un emplacement.
Les fichiers Stata ont l'extension ".dta".
45
1.9 Exemples traités sous Stata
1. 9.2 Importation des fichiers externes
a) Fichiers Excel :
Si vos données sont dans un fichier Excel, utilisez la commande import excel.
Exemple : import excel "C:\Chemin\Vers\Votre\[Link]", sheet("NomDeLaFeuille")
firstrow
"C:\Chemin\Vers\Votre\[Link]" est le chemin d'accès à votre fichier.
"sheet()" spécifie la feuille de calcul à importer.
"firstrow" indique que la première ligne contient les noms de variables.

B) Fichiers CSV :
Pour les fichiers CSV (Comma Separated Values), utilisez la commande import delimited.
Exemple : import delimited "C:\Chemin\Vers\Votre\[Link]", delimiter(",") firstrow
"delimiter(,)" indique que les valeurs sont séparées par des virgules.

46
1.9.3 Exemple 1 (exo 1 à faire)
Importez sous stata les données du tableau ci-après :
• Entreprise : L'identifiant de chaque entreprise.
• Année : L'année de l'observation.
• Revenu (en millions) : Le revenu de l'entreprise pour cette année-là.
• Profit (en millions) : Le profit de l'entreprise pour cette année-là. On considère
trois entreprises (Entreprise A, Entreprise B et Entreprise C)

Données simulées (Rappel)


Entreprise Annee Revenu Profit
1 2021 10 2
1 2022 12 2.5
1 2023 15 3
2 2021 8 1.5
2 2022 9 1.8
2 2023 11 2.2
3 2021 6 1
3 2022 7 1.2
3 2023 8 1.4

47
• Interprétation :
• Le revenu a un effet positif et statistiquement significatif sur le profit (coefficient = 0.189, p < 0.001).
Le R-squared élevé (0.9657) indique que le modèle explique une grande partie de la variance du profit.
Le coefficient de 0.189 signifie que lorsque le revenu augmente de 1 million, le profit augmente de
0.189 million. Le constante n'est pas statistique significative ici.

b) Régression à Effets Fixes (Fixed Effects)


Stata
xtreg Profit Revenu, fe

Fixed-effects (within) regression Number of obs = 9


Group variable: Entreprise Number of groups =
3

R-sq: Obs per group:


within = 0.9859 min = 3
between = 0.9583 avg = 3.0
overall = 0.9657 max = 3

F(1,5) = 348.00
corr(u_i, Xb) = -0.1983 Prob > F =
0.0000

-----------------------------------------------------------------------------
-
Profit | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------------
-
Revenu | .1888889 .0101426 18.65 0.000 .1627918 .2149861
_cons | .1666667 (dropped)
-------------+---------------------------------------------------------------
-
sigma_u | .06804138
sigma_e | .02108185
rho | .91316523 (fraction of variance due to u_i)
-----------------------------------------------------------------------------
- 48
F test that all u_i=0: F(2, 5) = 111.00 Prob > F =
0.0000
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
On considère un panel de données sur les entreprises, où :
o y = profit de l'entreprise
o x1 = dépenses en R&D
o x2 = taille de l'entreprise
o id = identifiant de l'entreprise
o time = année
a) Regression effets fixes : xtreg y x1 x2, fe

Fixed-effects (within) regression Number of obs =


500
Group variable: id Number of groups =
100
R-sq: within = 0.6543 Obs per group:
between = 0.3210 min =
5
overall = 0.5123 avg =
5.0
max =
5
F(2, 398) = 375.23
Prob > F = 0.0000

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]


-------------+---------------------------------------------------------------
-
x1 | 0.7894 0.0543 14.53 0.000 0.6827 0.8962
x2 | 0.4567 0.0321 14.23 0.000 0.3936 0.5198
_cons | 1.2345 0.1234 10.00 0.000 0.9876 1.4814
-------------+---------------------------------------------------------------
-
sigma_u | 0.4567
49
sigma_e | 0.2345
rho | 0.7456 (fraction of variance due to u_i)
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
b) Regression effets aléatoires : xtreg y x1 x2, re
Random-effects GLS regression Number of obs =
500
Group variable: id Number of groups =
100
R-sq: within = 0.6012 Obs per group:
between = 0.4023 min =
5
overall = 0.5512 avg =
5.0
max =
5
Wald chi2(2) = 600.56
Prob > chi2 = 0.0000

y | Coef. Std. Err. z P>|z| [95% Conf. Interval]


-------------+---------------------------------------------------------------
-
x1 | 0.8012 0.0456 17.57 0.000 0.7118 0.8906
x2 | 0.4789 0.0256 18.71 0.000 0.4287 0.5291
_cons | 1.3012 0.1001 13.00 0.000 1.1049 1.4975
-------------+---------------------------------------------------------------
-
sigma_u | 0.5012
sigma_e | 0.2567
rho | 0.7956

50
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
c) Test de hausman: hausman
Hausman test

(b) consistent under Ho, inconsistent otherwise


(B) inconsistent under Ha, efficient otherwise

(b-B)'[(V_b-V_B)^(-1)](b-B) = 15.67
Prob > chi2(2) = 0.0004

• Interprétation :
o Le test de Hausman est significatif (Prob > chi2 = 0.0004). Cela signifie que les effets
fixes sont préférables.
• Choix : Nous choisirions le modèle à effets fixes.

51
1.9.4 Exemple 2 (Effets fixes vs. Effets aléatoires)
d) Tests de diagnostic et corrections
Autocorrélation :
xtserial y x1 x2
Wooldridge test for autocorrelation in panel data

H0: no first-order autocorrelation


F(1, 99) = 10.543
Prob > F = 0.0016
* Interprétation : Le test est significatif (Prob > F = 0.0016), indiquant une autocorrélation.
* Correction : `xtreg y x1 x2, fe vce(robust)` ou `xtregar y x1 x2, fe`

Hétéroscédasticité :
o xttest3
Modified Wald test for groupwise heteroskedasticity
in fixed effects regression model

chi2(100) = 250.34
Prob > chi2 = 0.0000

* Interprétation : Le test est significatif (Prob > chi2 = 0.0000),


indiquant une hétéroscédasticité.
* Correction : `xtreg y x1 x2, fe vce(robust)`
52
Normalité :
o predict residuals, residuals
o swilk residuals
y x1 x2, fe vce(robust)` ou `xtregar y x1 x2, fe`

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


---------+----------------------
residuals | 500 0.985 3.50 0.0002
Interprétation : Le test est significatif (Prob > z = 0.0002), indiquant que les
résidus ne sont pas normalement distribués.

Choix du modèle final :


o Compte tenu des tests, nous choisirions le modèle à effets fixes avec des erreurs standard robustes :
xtreg y x1 x2, fe vce(robust)

53
Interprétation des résultats finaux :

Fixed-effects (within) regression Number of obs =


500
Group variable: id Number of groups =
100
R-sq: within = 0.6543 Obs per group:
between = 0.3210 min =
5
overall = 0.5123 avg =
5.0
max =
5
F(2, 398) = 375.23
Prob > F = 0.0000

y | Coef. Robust Std. Err. t P>|t| [95% Conf. Interval]


-------------+---------------------------------------------------------------
-
x1 | 0.7894 0.0654 12.07 0.000 0.6608 0.9180
x2 | 0.4567 0.0432 10.57 0.000 0.3718 0.5416
_cons | 1.2345 0.1500 8.23 0.000 0.9398 1.5292
-------------+---------------------------------------------------------------
-
sigma_u | 0.4567
sigma_e | 0.2345
rho | 0.7456

Interprétation: Chaque point de dépenses en R&D supplémentaires (x1) augmente le profit (y) de 0.7894 unités.
La taille de l'entreprise (x2) à aussi un effet positif sur le profit. Ces résultat sont robustes à l'hétéroscedasticité
et l'autocorrelation. 54
1.9.5 Exemple 3 (exo 3 à faire)
On considère le tableau de données de panel ci-contre, à
partir duquel on voudrait estimer l’équation:
Prodit=ai+bCapit+dTravit+uit
Entreprise Annee Production Capital Travail
A 2019 100 50 20
A 2020 110 55 22
A 2021 120 60 24
A 2022 130 65 26
B 2019 80 40 18
B 2020 85 42 19
B 2021 90 45 20
B 2022 95 48 21
C 2019 150 70 30
C 2020 160 75 32
C 2021 170 80 34
C 2022 180 85 36
D 2019 120 60 25
D 2020 125 62 26
D 2021 130 65 27
D 2022 135 68 28
E 2019 90 45 19
E 2020 95 47 20
E 2021 100 50 21
E 2022 105 53 22

55
Partie 2: Panels dynamiques,
Tests de R.U, Cointégration
Partie 2:
Panels Dynamiques
&
Racines Unitaires
2.1 Introduction
• Les modèles dynamiques sont utilisés lorsque la
variable dépendante à la date t est influencée par
ses valeurs passées.

• Dans le contexte des données de panel, cela


signifie que la valeur de la variable dépendante
pour un individu i au temps t dépend de sa valeur
au temps t-1, voire à des périodes antérieures.
2.1Introduction
• Décrire la modélisation en panels dynamiques
et motiver leur utilisation (proposer un guide
pratique de son utilisation).
• Introduire les problèmes de racines unitaires
en données de panel.
• Expliquer l’approche d’Arellano-Bond
• Introduire le concept de cointégration en
données de panel.
2.3 Sépécification du modèle

yit =  0 + 1 x1it +  yit −1 + i + u it

• yit est la variable dépendante pour l'individu i au temps t.


• β0i est l'effet individuel (fixe ou aléatoire).
• yit-1 est la variable dépendante retardée d'une période.
• γ est le coefficient de la variable dépendante retardée.
• xit est la variable explicative.
• β1 est le coefficient de la variable explicative.
• uit est l'erreur idiosyncratique.
60
yit =  0 + 1 x1it +  yit −1 + i + u it

2 Problèmes majeurs se posent généralement lors de


l’estimation des modèles dynamiques:

1. Endogénéité : La variable dépendante retardée yit-1 est corrélée


avec l'erreur uit, ce qui biaise l'estimateur des MCO.

2. Autocorrélation : Les erreurs uit peuvent être


autocorrélationnelles, ce qui invalide les tests statistiques.
61
Les solutions envisagées pour chaque pb:
1. Traitement de l’endogénéité :

a) Méthode des variables instrumentales (VI) :


▪ Trouver des variables instrumentales corrélées avec yit-1 mais non corrélées avec uit.
▪ Exemple : Si on étudie l'impact de l'investissement (yit) sur la croissance économique, on
pourrait utiliser les valeurs retardées des taux d'intérêt ou des prix des matières premières
comme instruments pour l'investissement retardé (yit-1).
b) Différences premières et variables instrumentales :
▪ Combiner la transformation en différences premières et l'utilisation de variables
instrumentales.
▪ Exemple : Utiliser les valeurs retardées des variables explicatives ou de la variable
dépendante en différences premières comme instruments.
c) Estimateur de Hansen (GMM) :
▪ Utiliser la méthode des moments généralisés (GMM) pour traiter l'endogénéité.
▪ Exemple : L'estimateur de Hansen est une application spécifique de GMM pour les modèles
dynamiques.

62
2. Traitement de l’autocorrélation :

a) Modèles à erreurs AR(1) :


▪ Spécifier un modèle avec des erreurs autorégressives AR(1) : uit = ρuit-1+ϵit.
▪ Exemple : Si on constate une autocorrélation positive des erreurs, on peut utiliser
un modèle AR(1) pour tenir compte de cette dépendance temporelle.

b) Tests de Wooldridge pour l'autocorrélation :


▪ Vérifier la présence d'autocorrélation dans les erreurs.

▪ Exemple : Si le test de Wooldridge révèle une autocorrélation significative, on doit


corriger le modèle (par exemple, avec un modèle AR(1)).

63
3. Intégration des tests de racine unitaire :
Les tests de racine unitaire sont essentiels pour vérifier la stationnarité
des variables dans un modèle dynamique.

• Rappelons la définition de la stationnarité : Une variable est


stationnaire si sa moyenne et sa variance sont constantes dans le
temps. En d'autres termes, elle ne présente pas de tendance ou de
saisonnalité.

• Importance de la stationnarité : Les régressions avec des variables


non stationnaires peuvent donner des résultats non valides
(régression fallacieuse).

64
• Tests de racine unitaire pour données de panel :
o Tests de première génération :
▪ Levin-Lin-Chu (LLC) : Suppose une corrélation commune des erreurs entre les
individus.
▪ Exemple d'application : Tester si le taux de chômage est stationnaire dans un
panel de régions.
▪ Im-Pesaran-Shin (IPS) : Permet une corrélation différente des erreurs entre les
individus.
▪ Exemple d'application : Tester si le taux de croissance du PIB est
stationnaire dans un panel de pays.
o Tests de deuxième génération :
▪ Maddala-Wu (MW) : Combine les p-valeurs des tests de racine unitaire
individuels.
▪ Exemple d'application : Tester si le niveau de l'inflation est stationnaire dans
un panel de pays, en tenant compte de la possible non-stationnarité pour
certains pays.

65
• •Interprétation des résultats :

o Hypothèse nulle (H0) : La variable a une racine unitaire (elle est


non stationnaire).
o Hypothèse alternative (H1) : La variable n'a pas de racine unitaire
(elle est stationnaire).
o Si la p-valeur du test est inférieure à un seuil (par exemple,
0,05) : On rejette l'hypothèse nulle. Cela signifie que la variable est
stationnaire.
o Si la p-valeur du test est supérieure à un seuil : On ne rejette pas
l'hypothèse nulle. Cela signifie que la variable est probablement
non stationnaire.

o Action: Si une variable est non stationnaire, on la transformera


(par exemple, en différences premières) pour la rendre stationnaire.
66
•Procédure :
1) Tester la stationnarité des variables : Utiliser les tests de racine
unitaire (LLC, IPS, MW, Hadri) pour vérifier si les variables sont
stationnaires.
2) Commandes stata :
❖ xtunitroot llc variable, lags(#)
❖ xtunitroot ips variable, lags(#)
❖ xtunitroot hadri variable
3) Interpréter les résultats :
▪ Les tests de racines unitaires fournissent une statistique de test et une valeur P.
▪ Si la valeur P est inférieure à un seuil donné (par exemple, 0,05), on rejette l'hypothèse nulle
de présence de racine unitaire, ce qui signifie que la variable est stationnaire.
▪ la variable est stationnaire, elle peut être utilisée dans le modèle dynamique sans
transformation.
▪ Si la variable est non stationnaire, elle doit être transformée (par exemple, en différences
premières) pour la rendre stationnaire avant d'être incluse dans le modèle. 67
Exemple STATA :
Stata
* Définir la structure du panel
xtset id time
* Tests de racine unitaire (exemple : IPS)
xtunitroot y, ips
* Si y est non stationnaire, la transformer en différences premières
gen dy = y - l.y
* Tester la stationnarité de la variable transformée
xtunitroot dy, ips

68
4. Choix de la méthode d'estimation
Le choix dépend des problèmes identifiés (endogénéité ou
Autocorrélation des erreurs)
• Si endogénéité SEULEMENT :
o Variables instrumentales (VI) :
Trouver des instruments corrélés avec y_{i,t-1} mais non corrélés avec u_{it}.
Exemple : Valeurs retardées des variables explicatives ou de la variable dépendante.
o Différences premières et VI : Combiner la transformation en différences premières et les
VI.
• Si endogénéité ET autocorrélation :
o Estimateur d'Arellano et Bond (GMM) :
Méthode spécifique pour les modèles dynamiques avec données de panel.
Utilise les valeurs retardées des variables comme instruments dans l'équation en
différences premières.
• Si autocorrélation SEULEMENT :
o Modèles à erreurs AR(1) :
69
Spécifier un modèle avec erreurs autorégressives : uit = ρuit-1+ϵit.
5. Estimation d'Arellano et Bond (GMM)
L'estimateur d'Arellano et Bond est une méthode de GMM
spécifiquement conçue pour les modèles dynamiques avec données de
panel. Il est particulièrement utile dans les situations suivantes :
▪ Présence d'endogénéité : La variable dépendante retardée est
corrélée avec l'erreur.
▪ Autocorrélation des erreurs : Les erreurs sont
autocorrélationnelles.
▪ Données de panel courtes : Le nombre de périodes est petit par
rapport au nombre d'individus.

L'idée clé de l'estimateur d'Arellano et Bond: utiliser les valeurs


retardées des variables (à la fois la variable dépendante et les variables
explicatives) comme instruments pour la variable dépendante retardée
70
dans l'équation en différences premières.
Exemple STATA :
Stata

o xtset id time : Définir la structure du panel.


o xtabond y x, lags(1) : Estimer avec Arellano et Bond (GMM).
o xtreg y l.y x, fe ou xtreg y l.y x, re : Estimer avec
effets fixes ou aléatoires (si pas d'endogénéité).
o xtreg y l.y x, fe e(rho) : Estimer un modèle AR(1).

Conclusion
L'intégration des tests de racine unitaire dans l'analyse des modèles dynamiques avec
données de panel est cruciale pour garantir la validité des résultats. Ces tests permettent de
déterminer la stationnarité des variables et de prendre les mesures nécessaires
71
(transformation) si elles ne le sont pas.
RESUME DES ETAPES D’ESTIMATION D’UN PANEL
DYNAMIQUE :
a) Préparation des données
• Importation: Importer les données dans Stata (import delimited,
import excel, etc.).

• Structure du panel: Déclarer la structure du panel avec la


commande xtset.
• Variables: Créer les variables nécessaires, y compris la variable
dépendante retardée (gen y_lag = L.y).
• Exploration: Examiner les statistiques descriptives des variables
(summarize, histogram, etc.).

72
b) Tests de racine unitaire
• Objectif: Vérifier la stationnarité des variables. Les variables non
stationnaires peuvent conduire à des régressions fallacieuses.
• Tests: Levin-Lin-Chu (LLC), Im-Pesaran-Shin (IPS), Fisher-type,
Hadri.
• Commande Stata: xtunitroot y, llc (ou ips, fisher, hadri)
• Interprétation: Si la p-valeur est inférieure au seuil (ex: 0,05),
rejeter l'hypothèse nulle de racine unitaire (la variable est
stationnaire).
• Transformation: Si une variable est non stationnaire, la transformer
(différences premières: gen dy = D.y).

73
c) Spécification du modèle
• Modèle de base:
• y_{it} = \alpha_i + \gamma y_{i,t-1} + \beta
x_{it} + u_{it}
où :
o y_{it} est la variable dépendante pour l'individu i au temps t.
o \alpha_i est l'effet individuel (fixe ou aléatoire).
o y_{i,t-1} est la variable dépendante retardée.
o x_{it} est le vecteur des variables explicatives.
o \gamma et \beta sont les coefficients à estimer.
o u_{it} est le terme d'erreur.

74
d)Choix de la méthode d'estimation
• Endogénéité: La variable dépendante retardée (y_{i,t-1}) est
corrélée avec le terme d'erreur (u_{it}).
• Autocorrélation: Les erreurs (u_{it}) peuvent être autocorrélées.
• Méthodes:
o Différences premières et variables instrumentales (VI):
xtivreg y x (L.y = L2.y), fe (utiliser des retards plus profonds
comme instruments)
o GMM en système (Arellano-Bover/Blundell-Bond): xtdpdsys y
x, lags(1) (plus efficace que le GMM en différences)

o GMM en différences (Arellano-Bond): xtabond y x, lags(1)


(moins efficace, mais peut être utile si le GMM en système ne
converge pas)

75
e) Estimation du modèle
• Commande Stata: Utiliser la commande correspondant à la
méthode choisie (voir étape 4).
• Options: Spécifier le nombre de retards (lags()), le type d'effets
individuels (fe ou re), et les options pour les erreurs standard
robustes (vce(robust)) si nécessaire.
f) Tests de spécification
• Autocorrélation: Tester l'autocorrélation des erreurs après
l'estimation par GMM (estat abond). On souhaite voir une
autocorrélation d'ordre 1, mais pas d'ordre 2 ou supérieur.
• Validité des instruments: Tester la validité des instruments avec le
test de Sargan ou de Hansen (estat overid). Une p-valeur non
significative indique que les instruments sont valides.
• Test de Hausman (si applicable): Choisir entre effets fixes et
76
aléatoires (hausman).
g) Interprétation des résultats
• Coefficients: Analyser le signe, la magnitude, et la significativité
des coefficients.
• Effets marginaux: Calculer l'effet d'une variation d'une variable
explicative sur la variable dépendante.
• Implications: Discuter des implications économiques des résultats.
h) Conclusion
• Résumé des résultats: Présenter les principaux résultats de
l'analyse.
• Limites: Reconnaître les limites du modèle (hypothèses, données,
etc.).
• Pistes de recherche: Proposer des pistes pour de futures recherches.

77
6. Exemple : Impact des dépenses de R&D sur la productivité
Nous voulons étudier l'impact des dépenses de R&D sur la productivité des entreprises,
en tenant compte de l'inertie de la productivité. (exo 4 à faire)

entreprise année productivité R&D capital


A 2010 100 10 50
A 2011 105 12 52
A 2012 110 15 55
B 2010 95 8 48
B 2011 98 9 50
B 2012 102 11 53
C 2010 110 13 55
C 2011 115 16 58
C 2012 120 18 62
D 2010 85 7 45
D 2011 90 8 47
D 2012 95 10 50
E 2010 120 16 60
E 2011 125 19 63
E 2012 130 22 67
F 2010 90 9 46
F 2011 93 10 48
F 2012 98 12 51

Prodit=α+β1Prodit-1+β2R&Dit+β3Capit+uit 78
7. COINTEGRATION EN DONNEES DE PANEL

7.1 Concepts de base


• Estimation en données de panel dynamique:
o Elle se concentre sur les relations à court terme et les effets d'inertie.
o Utilise souvent des variables retardées comme régresseurs (modèles AR).
o Les tests de stationnarité (racines unitaires) sont importants pour valider
les instruments.
• Cointégration en données de panel:
o Elle vise à identifier les relations de long terme entre des variables non
stationnaires.
o Si des variables non stationnaires sont cointégrées, cela signifie qu'elles
évoluent ensemble dans le temps et qu'il existe une relation d'équilibre de
long terme.
o Les tests de cointégration évaluent si une combinaison linéaire des
variables est stationnaire.
79
7.2 Etapes de la démarche
a) Tests de racines unitaires
• Objectif: Vérifier si les variables sont non stationnaires.
• Stata :
o xtunitroot llc variable, lags(#)
o xtunitroot ips variable, lags(#)
o xtunitroot hadri variable
• Interprétation: Si les variables sont non stationnaires (présence de
racines unitaires), on peut passer à l'étape de cointégration.
b) Tests de cointégration
• Objectif: Déterminer s'il existe une relation de cointégration entre les
variables.

80
• Tests courants:
o Test de Pedroni
o Test de Kao
o Test de Westerlund
• Stata :
o Les commandes varient en fonction du test choisi. Il existe des packages Stata (comme
xtcointtest) qui facilitent ces tests.
o Exemple de commande pour un test de Kao (nécessite l'installation de package) :
▪ xtkaotest productivite R&D capital, lags(#)
• Interprétation:
o Si le test indique une cointégration (rejet de l'hypothèse nulle d'absence de cointégration),
cela signifie qu'il existe une relation de long terme entre les variables.

81
c) Estimation du modèle de correction d'erreur (ECM)
Objectif: Estimer la vitesse à laquelle les variables convergent vers
l'équilibre de long terme.
• Stata :
o Calculer les résidus de la relation de cointégration.
o Inclure les résidus retardés dans un modèle de panel dynamique.
o exemple de commande :
▪ regress residu_retarde [Link]
L.R&D [Link]
• Interprétation:
o Le coefficient des résidus retardés indique la vitesse de correction
d'erreur. Un coefficient négatif et significatif confirme la
convergence vers l'équilibre.
82
7.3 Comparaison avec l’estimation de panel dynamique

• Estimation dynamique:
o Modélise les ajustements à court terme et les effets d'inertie.
o N'exige pas nécessairement que les variables soient non
stationnaires.
o Utilise souvent les méthodes GMM (diff-GMM, sys-GMM) pour
traiter l'endogénéité.
• Cointégration en panel:
o Modélise les relations de long terme entre variables non
stationnaires.
o Nécessite des tests de racines unitaires et de cointégration.
o L'ECM capture la vitesse de convergence vers l'équilibre.
83
8. Exemple : Impact des dépenses de R&D sur la productivité
Reprenons l'exemple précédent pour les tests de racines unitaires, de cointégration et
l'estimation de l'ECM. (exo 4 suite à faire)

entreprise année productivité R&D capital


A 2010 100 10 50
A 2011 105 12 52
A 2012 110 15 55
B 2010 95 8 48
B 2011 98 9 50
B 2012 102 11 53
C 2010 110 13 55
C 2011 115 16 58
C 2012 120 18 62
D 2010 85 7 45
D 2011 90 8 47
D 2012 95 10 50
E 2010 120 16 60
E 2011 125 19 63
E 2012 130 22 67
F 2010 90 9 46
F 2011 93 10 48
F 2012 98 12 51

Prodit=α+β1Prodit-1+β2R&Dit+β3Capit+uit 84

Vous aimerez peut-être aussi