Formation permanente à
l’économétrie des données
de panel
Ecole Doctorale en Sciences
Economiques, Gestion et Démographie
Université Montesquieu-Bordeaux IV
Plan général
Nature et spécificités des données de panel
Typologie des modèles de données de panel
Modèles SUR
Modèles à effets fixes
Modèles à effets aléatoires
Modèles à coefficients aléatoires
Extension(s)
Nature et spécificités des
données de panel
• Définition et exemple
• Avantages et inconvénients
Définition (1)
Un panel : des observations sur un
ensemble d’individus à plusieurs moments du
temps
Individus = unité statistique observée
(consommateur, firme, région, etc.)
Exemples :
Enquêtes revenus sur les ménages : un
échantillon de ménages est observé sur plusieurs
années
Séries de PIB par tête pour les pays de l’OCDE
observés sur plusieurs années
Définitions (2) : exemple
France Allemagne … Italie
(i=1) (i=2) (i=30)
1975 X1,1 X1,2 … X1,30
(t=1)
1976 X2,1 X2,2 … X2,30
(t=2)
. . . .
. . . .
. . . .
2002 X28,1 X28,2 … X28,30
(t=28)
Pourquoi les données de
panel ?
Publications de données de panel
Double dimension
Une richesse d’information qui doit être
exploitée
Progrès informatiques
Progrès dans la théorie économétrique
qui ont permis le développement de
méthodes statistiques adaptées
Avantages des données de
panel
Plus d’observations
Prise en compte de l’hétérogénéité
On peut tenir compte de l’influence des
caractéristiques non observables
Risque de multicolinéarité réduit
On capte des effets de court et de long terme
Tests de modèles plus complets
Réduction du biais d’estimation des
coefficients
Inconvénients des
données de panel
Présence d’observations aberrantes
Perturbation de la qualité des estimations
Observations non renseignées
Panels cylindrés
Panels non cylindrés :
Il manque des observations soit sur les
individus, soit sur les périodes, soit les deux
Non traités par tous les logiciels
économétriques
Représentation des
données de panel
Double dimension :
yit
i = individu, i = 1,…N
t = temps, t = 1,…T
Plusieurs schémas pour l’analyse asymptotique :
N fixe et T ∞
N ∞ et T fixe
N ∞ et T ∞
Typologie des modèles de
panel
• Un modèle général
• Différents schémas de variation des
paramètres
• Rappels:
• Le produit Kronecker
• MCO, MCG purs et MCG réalisables
Un modèle général (1)
Modèle général, où les coefficients
varient dans le temps et/ou par individu
yit it x1,it 1,it ... xK ,it K ,it it
K
yit it xk ,it k ,it it
k 1
1 4 2
3
Un modèle général (2)
Deux problèmes :
Aucun pouvoir explicatif
Cette expression n’est pas estimable (NT
observations et NT(K+1) paramètres à estimer)
On doit munir cette expression d’une
structure :
1 : Nature des variables explicatives
2 : Distribution des erreurs
3 : La relation entre les deux
4 : le degré de variabilité des coefficients de
régression
Un modèle général (3)
Hypothèses :
1 : les variables explicatives sont non-
stochastiques et les matrices correspondantes
sont de rang complet
3 : les variables explicatives sont indépendantes
des erreurs
Les différentes hypothèses sur la
distribution des erreurs (2) et le degré
de variabilité des coefficients (4)
conduisent aux principaux modèles de
panel.
Modèle I : Régression
ordinaire (1)
Hypothèses :
it
H 4 (I) :
k ,it k k 1,...K
H
2 (I) : it iid (0, 2
)
Le modèle :
K
yit xk ,it k it
k 1
Modèle I : Régression
ordinaire (2)
Les hypothèses de la régression
classique sont vérifiées
On peut estimer le modèle par les MCO
Avantages :
Simplicité des calculs
Modèle parcimonieux
Inconvénient :
Admettre l’uniformité des comportements et
l’homogénéité des observations, c’est nier toutes
sortes d’hétérogénéités
Modèle II : Régressions
individuelles (1)
Hypothèses :
it i
H 4 (II) :
k ,it k ,i k 1,...K
H
2 (II) : it iid (0, 2
)
Le modèle :
K
yit i xk ,it k ,i it
k 1
Modèle II : Régressions
individuelles (2)
Les hypothèses de la régression classique sont
vérifiées équation par équation
On peut estimer chaque équation individuelle par les MCO
Avantages :
Modélisation parfaite de l’hétérogénéité individuelle
Simplicité des calculs
On peut tester l’uniformité des comportements
Inconvénients :
Un grand nombre de paramètres à estimer
L’estimation individuelle n’est possible que si T > K + 1
Néglige toutes sortes d’interdépendances des
comportements individuels
Modèle III : Modèle SUR
de Zellner (1)
Hypothèses :
H 4 (III) H 4 (II)
E ( it ) 0
V ( it ) i i 1,... N
2
H 2 (III) : Cov( , ) i, j 1,...N
it jt ij
Cov( , ) 0 t s, i, j
it js
On appelle ij la covariance contemporaine.
Les individus sont interdépendants.
Modèle III : Modèle SUR
de Zellner (2)
Structure de la matrice de variances-
covariances :
E ( ') IT avec ij
Avantages :
Comme pour le modèle II
En plus : la prise en compte de l’interdépendance
individuelle
Inconvénient :
Ce n’est pas un modèle parcimonieux, surtout quand N est
grand et T est petit :
N(K+1) coefficients
N(N+1)/2 éléments de
Conclusion provisoire
La régression classique est
parcimonieuse mais néglige toutes sortes
d’hétérogénéités.
Le modèle SUR représente l’autre
extrême : prise en compte de
l’hétérogénéité individuelle mais il n’est
pas parcimonieux.
On veut un compromis : comment
modéliser l’hétérogénéité de manière
parcimonieuse?
Modèle IV : Modèle de la covariance
ou modèle à effets fixes (1)
Hypothèses :
it i
H 4 (II) :
k ,it k k 1,...K
H
2 (II) : it iid (0, 2
)
L’hétérogénéité des comportements est
modélisée par un effet individuel générique.
Il s’agit donc d’un modèle avec variables
muettes individuelles.
Modèle IV : Modèle de la covariance
ou modèle à effets fixes (2)
Avantages :
Parcimonieux, facile à calculer
Prend en compte de manière simple
l’hétérogénéité et permet de tester l’uniformité
des comportements
Inconvénient :
Lorsque N est grand, le nombre de paramètres à
estimer est prohibitif :
K paramètres pour
N paramètres pour les effets fixes
Modèle V : Modèle à erreurs composées ou
modèle à effets aléatoires (1)
Hypothèses :
H 4 (V) H 4 (I)
it ui wit
wit iid (0, w )
2
H 2 (V) :
u
i iid (0, 2
u)
w , u indépendants
it i
L’effet individuel n’est plus un paramètre fixe
à estimer mais une variable aléatoire non
observable
Effets fixes ou effets aléatoires?
Le choix entre effets fixes et effets
aléatoires dépend des
considérations suivantes :
La nature de l’effet individuel
Le nombre d’unités statistiques
La nature de l’échantillon
Le type d’induction qu’on veut faire
Modèle VI: Modèle à coefficients
aléatoires
Hypothèses :
i ui
H 4 (II) :
k ,i k u k ,i
H
2 (II) : it iid (0, 2
i )
Extension du modèle à effets aléatoires : le caractère
aléatoire est étendu à tous les coefficients.
On pose également un hétéroscédasticité
individuelle.
To pool or not to pool?
Stratégie de test de Hsiao (1986) pour le modèle II:
yit i xit' i it
H 0 : i et i
H0 rejetée H0 vraie
H 0 : i yit xit' it
Panel homogène
H0 rejetée H0 vraie
yit i xit' i it H 0 : i
Panel hétérogène
H0 vraie H0 rejetée
yit xit' it yit i xit' it
Panel homogène Effets fixes
Rappels (1) : Le produit
Kronecker - définition
Définition :
On appelle produit Kronecker entre deux matrices
A (m,n) et B (p,q) la matrice :
a11 B a12 B a1n B
a B a B a2 n B
A B aij B 21 22
am1 B am 2 B amn B
En général, le produit Kronecker n’est pas
commutatif : A B B A
Rappels (1) : Le produit
Kronecker - exemple
Exemples :
B 0 0
0 B 0
IN B
0 0 B
a11 I N a1n I N
A I N aij I N
am1 I N amn I N
I N IT I NT
Rappels (1) : Le produit
Kronecker – quelques propriétés
Quelques propriétés :
1:( A B) C A C B C
2 : ( A B) ' A ' B '
3 : ( A B)(C D) AC BD
1 1 1
4 : ( A B) A B
Rappels (2) : MCO et MCG –
Hypothèses des MCO
Soit le modèle de régression :
Y( N ,1) X ( N , K ) ( K ,1) ( N ,1)
3 corps d’hypothèses :
Sur les variables explicatives : non-
stochastiques et de rang complet
Sur les erreurs : E ( ) 0 et E ( ') 2 I N
Indépendance entre les erreurs et les
variables explicatives
Rappels (2) : MCO et MCG –
Estimation par les MCO
On minimise la somme des carrés des
résidus : SS ' ( y X )( y X ) '
Le résultat : ˆ ( X ' X ) 1 X 'Y
Propriétés :
Estimateur centré : E ( ˆ )
Estimateur BLUE
Estimateur convergent
Rappels (2) : MCO et MCG –
Hypothèses des MCG purs
Soit le modèle de régression :
Y( N ,1) X ( N , K ) ( K ,1) ( N ,1)
Mêmes hypothèses que la régression
classique sauf :
Sur les erreurs :
V ( ) ( ') 2V
On suppose V connue et définie-positive
Rappels (2) : MCO et MCG –
Estimation par les MCG purs
Si on applique les MCO, l’estimateur des MCO reste
centré mais n’est plus efficient.
L’estimateur des MCG :
ˆMCG ( X 'V 1 X )1 X 'V 1Y
Cet estimateur est équivalent à l’estimateur des MCO
sur le modèle transformé :
PY PX P
où P est une matrice non-singulière telle que :
PVP ' I V 1 P ' P
Rappels (2) : MCO et MCG –
les MCG réalisables
En pratique, V n’est pas connue. Supposons
qu’elle dépende d’un vecteur de m
paramètres inconnus.
Les MCG réalisables – 2 étapes :
1ère étape : on estime de façon convergente le
vecteur de paramètres inconnus dont dépend V.
2ème étape : on applique les MCG avec ˆ qui
remplace
On démontre que sous des conditions
générales, les MCGR sont asymptotiquement
équivalents aux MCG purs
Modèles SUR de Zellner
• Spécification et hypothèses
• Estimation
• Tests
• Exemple sur E-Views 4
Motivations
SUR = Seemingly Unrelated Regressions
Grünfeld (1958) : étude de fonctions
d’investissement (5 firmes, période = 1935-
1954)
Les comportements d’investissement des
entreprises :
ne sont nécessairement les mêmes : paramètres
différents selon les entreprises
sont interdépendants : interdépendance captée
par le biais des erreurs
Spécification (1)
Structure matricielle du modèle :
Pour chaque individu i et chaque période t :
yit xit' i i
Pour chaque individu i :
yi X i i i
En regroupant tous les individus :
Y X X1
0
0 0
X2 0
X
où X est une matrice bloc-diagonale :
0 0
X N
Spécification (2)
Hypothèses :
H1 : Sur les variables explicatives
H1a : les X i sont non-stochastiques
H1b : rg(X i)=K i < T
H2 : Sur les erreurs E ( i ) 0
Pour chaque régression : E ( i i ) ii I T
'
E ( it js ) 0 t s
D’une régression à l’autre :
E ( it jt ) ij t
Au total : V IT
H3 : Indépendance entre les variables explicatives et les
erreurs
Spécification (3)
Exemple : structure de la matrice de variances-
covariances pour 2 périodes et 3 individus :
11 I 2 12 I 2 13 I 2
V 21 I 2 22 I 2 23 I 2
31 I 2 32 I 2 33 I 2
11 0 12 0 13 0
0 0 0
11 12 13
21 0 22 0 23 0
V
0 21 0 22 0 23
31 0 32 0 33 0
0 31 0 32 0 33
Estimation (1)
Cas simple : V 2 I NT
Dans ce cas, on peut faire les MCO individuels
équation par équation :
ˆ ( X ' X ) 1 X ' Y
Cas général (1) : V connu
Dans ce cas, on applique les MCG purs :
ˆ ( X 'V 1 X ) 1 X 'V 1Y
Estimation (2)
Conséquences de l’application des MCO
dans le cas général :
Estimateur centré
Estimateur non efficient
Cas d’égalité entre MCO et MCG :
Covariances contemporaines nulles
Variables explicatives identiques dans chaque
équation
Les régresseurs dans un bloc d’équations sont un
sous-ensemble de ceux d’un autre bloc d’équation
Estimation (3)
Cas général (2) : V inconnu
Dans ce cas, on peut estimer le modèle par les MCG
réalisables ou par la méthode du maximum de
vraisemblance :
MCGR :
1ère étape : On cherche un estimateur convergent de
ˆ ij 1 T ˆi'ˆ 'j
2ème étape : On applique les MCG
Maximum de vraisemblance : on montre que la
solution numérique peut être obtenue en itérant la
procédure des MCG en deux étapes.
Tests (1) : test d’uniformité ou de
stabilité des comportements
Soit le modèle pour un individu :
yi X i i i
On veut savoir si les coefficients sont
différents d’une équation à l’autre :
H 0 : 1 2 ... N
H A : Au moins 2 coefficients sont différents
Procédure de test :
Procédure de Chow
Comparaison modèle contraint/modèle non-
contraint
Tests (2) : test de diagonalité de la
matrice des variances-covariances
Test de diagonalité
Le test :
H 0 : ij 0 i j
H A : Au moins un des éléments de est non-nul
Sous l’hypothèse nulle : modèle avec hétéroscédasticité en groupes
Test à l’aide du principe du multiplicateur de Lagrange ou du ratio de
vraisemblance
Test joint de diagonalité et d’homoscédasticité
Le test :
ij 0 i j
H0 :
ii i
2
Sous l’hypothèse nulle : régressions individuelles (modèle II)
Test à l’aide du principe du multiplicateur de Lagrange ou du ratio de
vraisemblance
Exemple sur E-Views 4.0
Données d’investissement de Grünfeld :
Période 1935-1954
5 firmes : General Motors, Chrysler, General
Electric, Westinghouse, US Steel
Variable expliquée : investissement brut (I)
Variables explicatives :
Valeur en bourse de l’entreprise à la fin de l’année
écoulée (F)
Valeur du stock de capital à la fin de l’année
écoulée (C)