Introduction à l’économétrie
Plan du cours
BELKHAIR Oualid
+212691964840
[email protected]
Plan du cours
INTRODUCTION GENERALE
CHAPITRE 1 : MODELE LINEAIRE SIMPLE
• Spécification du modèle
• Les hypothèses du modèle linaire simple
• Les méthodes d’estimation
• Qualité de la régression
• L’inférence statistique dans le MLS
• Formes fonctionnelles et modèles non linéaires
CHAPITRE 2 : MODELE LINEAIRE MULTIPLE
• Présentation du modèle
• Coefficients de la régression multiple
• Interprétation des coefficients
• Inférence statistique dans la RLM
• La qualité totale de la régression
• La significativité globale de la régression
• La question des proxy
• Modèle avec variables décalées
• Modèle avec variables qualitatives
CHAPITRE 3 : VARIATIONS AUTOUR DU MLM
• La nullité de la moyenne des erreurs
• Le problème de l’hétéroscédasticité
• Le problème de l’autocorrélation
• La normalité des erreurs
INTRODUCTION
GENERALE
Qu’est ce que l’économétrie ?
L’économétrie peut être définie comme étant « la mesure en économie »
Économie Métrique Informatique
Analyse
Econométrie
économétrique
Qu’est ce que l’économétrie ?
L’économétrie est l’application des méthodes statistiques et mathématiques à
l’analyse des données économiques, dans le but de donner un contenu empirique aux
théories économiques et de les vérifier ou de les réfuter.
Les objectifs de l’économétrie :
• Confirmer ou infirmer les théories économiques (L’économétrie comme validation de la théorie);
• Découvrir les relations entre des variables économiques (L’économétrie comme outil d’investigation);
• Evaluer quantitativement les effets des politiques économiques;
• Réaliser des prévisions (Les modèles économétriques).
Modèle économique vs Modèle économétrique
La notion de modèle :
Dans le cadre de l’économétrie, nous pouvons considérer qu’un modèle consiste en une présentation formalisée d’un
phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
Modélisation
Problématique Equations
L’économétrie fonctionne avec des modèles économétriques qui représentent la contrepartie numérique des modèles
économiques.
Le modèle économique est un ensemble d’hypothèses décrivant approximativement (réalité complexe) le comportement
d’une économie (ou d’un secteur d’une économie).
Le modèle économétrique comprend les éléments suivants :
• Un ensemble d’équations comportementales dérivées du modèle économique;
• Une déclaration remplaçant la complexité de la réalité (l’aléa ou l’erreur) parce que la relation n’est pas déterministe.
Les variables L’erreur
y = Ax + B + 𝜺
Les coefficients
La démarche économétrique
La théorie (économique)
Modèle économétrique Données
Estimation
Tests de spécification et
vérification
Le modèle est-il adéquat ?
Non Oui
Tests de toutes hypothèses
Utilisation du modèle pour les
prévisions et la politique
Structure des données économiques
Certaines méthodes économétriques peuvent être appliquées avec peu ou pas de modification à de nombreux types de
données, mais les caractéristiques spéciales de certains types de données doivent être prises en compte ou exploitées.
Il existe différents types de données économiques :
Données en séries Données en Coupes Données de Panel ou
chronologiques Transversales Longitudinales
Une série chronologique, aussi Un ensemble de données Un type de données qui
appelée série temporelle, est collectées auprès d'une combine les caractéristiques
une suite de valeurs population à un moment des données transversales
numériques représentant précis. Elles constituent une (observations simultanées sur
l'évolution d'une variable photographie instantanée de la des individus à un moment
spécifique au cours du temps. population étudiée à un instant donné) et des séries
Elle permet de suivre donné. chronologiques (observations
l'évolution d'un phénomène (Exemple : Recensement de la sur les mêmes individus à
sur une période donnée. population) intervalles réguliers)
(Exemple : PIB, cours ( Exemple : Étude de l'impact
d’actions, etc. ) d'une politique publique )
Application
ECONOMETRIE
Chapitre 1
Le modèle linéaire
« simple »
Y= aX + b
Chapitre 1 : le modèle linéaire simple
L’estimation économétrique dans le modèle linéaire simple permet de décrire et d’évaluer quantitativement la relation
entre deux variables.
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖
Variable endogène Variable exogène
Variable dépendante Variable indépendante
Variable expliquée Variable explicative
Exemple : Fonction de consommation keynésienne
C = C0 + cYd
Consommation Revenu disponible
(Variable expliquée) (Variable explicative)
Coefficients
Chapitre 1 : le modèle linéaire simple
I. Spécification du modèle
La relation entre la variable expliquée Y et la variable explicative X prend la forme mathématique suivante : Y = f(x).
1. La théorie de la corrélation (rappel)
L’analyse de corrélation permet de nous informer sur l’intensité de la relation linéaire entre deux ou plusieurs variables.
Limite : ne permet pas de distinguer entre variable endogène et variable exogène.
Chapitre 1 : le modèle linéaire simple
r = -1 r=0 r=1
Chapitre 1 : le modèle linéaire simple
2. Types de relations
Il existe deux types de relations, nous distinguons une relation fonctionnelle (Déterministe ou mathématique) et une
relation statistique (stochastique)
Relation fonctionnelle Relation statistique
Pour chaque valeur de X, il existe une seule valeur de Y. Pour chaque valeur de X il existe plusieurs valeurs de Y.
C’est une relation toujours vraie que nous trouvons C’est une relation vraie en moyenne que nous trouvons
dans les sciences exactes (Maths, physiques, etc.). dans les sciences sociales.
En économétrie, on s’intéresse aux relations
stochastiques : y = Ax + B + 𝜺
Chapitre 1 : le modèle linéaire simple
3. Le rôle de la composante stochastique (𝜺)
Le terme aléatoire (l’erreur 𝜺) permet de résumer toute l’information qui n’est pas prise en compte dans le modèle.
En d'autres termes, si nous avons y = ax + b, nous disons que y dépend exactement de x. Cependant, la réalité est
beaucoup plus complexe. C'est pourquoi nous ajoutons 𝜺, qui représente l'ensemble des possibilités d'erreur existant
dans la détermination de la relation entre les deux variables (y et x).
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜺 𝑖 = 1, ..., n
La partie déterministe La partie stochastique
Le modèle économétrique
La présence de la composante stochastique 𝜺 est due à plusieurs causes :
• L'omission d'autres variables explicatives (en réalité, une variable (Y) peut être influencée par plusieurs variables qui
ne sont pas introduites dans la relation);
• La mauvaise spécification du modèle;
• La mauvaise spécification des formes fonctionnelles, représentant la relation non linéaire entre les variables;
• L'erreur de mesure, où la mesure des agrégats est approximative.
Chapitre 1 : le modèle linéaire simple
4. L’estimation du modèle
Dans la vie réelle, 𝛽0 et 𝛽1 ne sont pas connus et doivent être estimés à partir des données observées (Xi, Yi)
pour i = 1, ..., n. Cela signifie également que la vraie ligne (𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 ) ainsi que les erreurs réelles (les 𝜺i )
ne sont pas observables.
Population Echantillon
Données théoriques Données empiriques
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜺
Erreur Résidu
Estimateurs
- Non Biaisés ( )
- Efficaces (une faible variance par
rapport à d'autres estimateurs
indique une précision élevée de
l'estimateur)
Propriétés d’un estimateur
Chapitre 1 : le modèle linéaire simple
Chapitre 1 : le modèle linéaire simple
II. Les hypothèses du modèle linéaire simple
Le modèle gaussien (Gauss markov), standard, ou classique de la régression linéaire qui constitue la pierre angulaire de
l’essentiel de la théorie économétrique. Il est fondé sur un ensemble d’hypothèses :
• La forme fonctionnelle = la relation entre les variables (X,Y) doit être linéaire : 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜺 ;
• l’espérance mathématique de l’erreur est nulle E(𝜺) = 0 : en moyenne le modèle est bien spécifié et donc l’erreur
moyenne est nulle;
• la variance de l’erreur est constante (hypothèse d’homoscédasticité) : le risque de l’amplitude de l’erreur est le même
quelle que soit la période ( );
• Absence d’autocorrélation des erreurs (les erreurs doivent être indépendants );
• Absence d’autocorrélation entre l’erreur et la variable explicative X ( ).
En plus de ces hypothèses, nous supposons que :
• Les erreurs sont normalement distribuées ( ) Hypothèse supplémentaire pour les inférences.
En vérifiant ces hypothèses, la méthode des moindres carrés
ordinaires sera la meilleure méthode d'estimation.
Chapitre 1 : le modèle linéaire simple
III. Les méthodes d’estimation
Trois méthodes d’estimation
La méthode La méthode des moindres La méthode de maximum
des moments carrés ordinaires de vraisemblance
Une technique d'estimation Le critère des moindres carrés Elle repose sur le principe de
des paramètres d'un modèle consiste à minimiser la choisir les valeurs des
statistique en égalant les somme des carrés des écarts paramètres qui maximisent la
moments théoriques du (des erreurs) entre les vraies probabilité (ou la
modèle aux moments valeurs de Y et les valeurs vraisemblance) d'observer les
observés des données. prédites avec le modèle de données observées.
prédiction.
(minimiser la somme des
carrés des erreurs = faire en
sorte que la droite (le
modèle) soit la plus proche
de toutes les observations (la
réalité))
Chapitre 1 : le modèle linéaire simple
Même résultats
- Les trois méthodes d’estimation donnent les mêmes estimateurs (Ce constat n’est valable que dans le cas du modèle linéaire simple).
- La MCO donne des estimateurs BLUE (Best Linear Unbiased Estimator) lorsque les conditions de Gauss Markov sont vérifiées.
Chapitre 1 : le modèle linéaire simple
Application (La fonction de consommation keynésienne C= f(Yd) ) :
Nous cherchons à expliquer la consommation des ménages par le revenu disponible
Modèle économique
Modèle économétrique théorique (Population)
Variable à
expliquer Ordonné à La pente de Le résidu
Variable
l’origine B0 la droite de explicative
régression B1
n Yd (X) C (Y) X-X Y-Y (X-X)*(Y-Y) (X-X)
1 6 3 0,25 1 0,25 0,0625
2 4 2 -1,75 0 0 3,0625
3 5 1 -0,75 -1 0,75 0,5625
4 8 2 2,25 0 0 5,0625
Total 23 8 1 8,75 C = 1,34 + 0,11 Yd
Moyenne 5,75 2
Interprétation
- Il existe une relation positive entre la consommation et le revenu disponible
- L’augmentation du revenu disponible par 1 dh supplémentaire a fait augmenté (B1 > 0) la consommation de 0,11.
- La cte B0 n’a pas toujours d’interprétation, son rôle est d’assurer la nullité de la moyenne des erreurs ( En absence de revenu la consommation des ménages est de 1,34 ).
Chapitre 1 : le modèle linéaire simple
SPSS
Eviews R
Chapitre 1 : le modèle linéaire simple
IV. Qualité de la régression (Coefficient de détermination R-carré)
Après avoir estimé les paramètres de l'équation, il est temps de vérifier la qualité de notre régression. Nous cherchons
à savoir dans quelle mesure les variations de la variable à expliquer (Y) sont expliquées par les variations de la
variable explicative (X). En d'autres termes, à quel point les variations de X expliquent celles de Y.
Les variations de la variable indépendante sont mesurées en termes d’écarts par rapport à sa moyenne . La somme de
leurs carrées est appelée somme total des carrés (SCT), avec :
Démonstration :
Y= X+ 𝜺 SCT = SCE + SCR
• La somme des carrés des résidus (SCR) est donné par :
SCT SCE
Chapitre 1 : le modèle linéaire simple
SCT = SCE + SCR
En divisant par SCT : 1 = SCE + SCR
SCT SCT
Donc :
• R2 est un indicateur de la qualité de l’ajustement de la droite aux données. Autrement dit, il mesure l’adéquation entre
le modèle et les données observées. Il nous indique le pourcentage de l’information restituée par le modèle par
rapport à la qualité d’information initiale;
• R2 est rapport entre variance expliquée et variance totale;
• Quand R2 proche de 0 => modèle de mauvaise qualité;
• Quand R2 proche de 1 => modèle de bonne qualité.
Chapitre 1 : le modèle linéaire simple
Application (Suite) (La fonction de consommation keynésienne C= f(Yd) ) :
Nous cherchons à expliquer la consommation des ménages par le revenu disponible
n Yd (X) C (Y) X-X Y-Y (X-X)*(Y-Y) (X-X) (Y-Y)
1 6 3 0,25 1 0,25 0,0625 1
2 4 2 -1,75 0 0 3,0625 0
3 5 1 -0,75 -1 0,75 0,5625 1
4 8 2 2,25 0 0 5,0625 0
Total 23 8 1 8,75 2
Moyenne 5,75 2
SCE = = 4 x (1/8,75) x 1 = 0,46
SCT = = 4x2=8
R2 = 0,46/8 = 0,057 = 5,7%
Interprétation
- 5,7% des variations de la consommation sont expliquées par les variations du revenu disponible. En d'autres termes, les variations de X expliquent les
variations de Y à hauteur de 5,7%. (Le modèle est de mauvaise qualité)
Chapitre 1 : le modèle linéaire simple
SPSS
Eviews R
Chapitre 1 : le modèle linéaire simple
V. L’inférence statistique dans le MLS
Jusqu'à présent, tous les résultats obtenus sont des estimations ponctuelles dont la qualité dépend de l'échantillon étudié.
Pour surmonter ce problème, nous avons recours à l'inférence statistique (IC ou tests d’hypothèses).
L'inférence statistique est une branche de la statistique qui consiste à tirer des conclusions sur une population à partir
d'un échantillon représentatif de cette population.
L'utilisation de l'inférence statistique suppose que les conditions de Gauss-Markov sont vérifiées et que les erreurs sont
normalement distribuées .
1. Les intervalles de confiance des coefficients
L’intervalle de confiance de 𝛽i est donné par :
Seuil d’erreur
Nombre La table Degré de
d’observations de student liberté
L’écart type de 𝛽i ( S.E ( 𝛽i ) )
• La variance de la régression
SCT - SCE
• La variance de 𝛽i
NB : L’inférence statistique pour la constante (𝛽0) n’est pas nécessaire
• S.E (𝛽1)
Chapitre 1 : le modèle linéaire simple
2. Les tests d’hypothèses
À travers les tests d'hypothèses (test du Student), nous cherchons à étudier la significativité des paramètres estimés. Autrement dit, nous
évaluons si les paramètres diffèrent significativement de 0.
Pour ce faire, nous avons besoin de deux hypothèses : L’hypothèse nulle (H0) et L’hypothèse alternative (H1)
Nous devons calculer en premier lieu les ratios de Student (tobs ) :
Puis nous cherchons la zone d’acceptation de H0 dans la table de Student pour un seuil 𝛼 et n-2 ddl
Interprétation
• Si tobs est incluse dans la zone d’acceptation (tobs <<< t ):
𝛼
On accepte H0 et On rejette H1 = Le coefficient est
Zone d’acceptation de H0
significativement égale à 0
(-t𝛼 ; +t𝛼)
• Si tobs est en dehors dans la zone d’acceptation (tobs >>> t ): 𝛼
On rejette H0 et On accepte H1 = Le coefficient est
significativement différent de 0
- La significativité de B0 n’est pas importante
- Généralement nous utilisons la p-value ( donnée par les logiciels ) pour juger la significativité des paramètres.
Chapitre 1 : le modèle linéaire simple
Application (Suite) (La fonction de consommation keynésienne C= f(Yd) ) :
Nous cherchons à tester la significativité de 𝛽1 à travers le test de Student
Nous devons calculer en premier lieu les ratios de Student (tobs ) :
S.E (B1) = 0,328 ( Voir les captures des logiciels )
Donc tobs = 0,11/0,328 = 0,34
Nous cherchons la zone d’acceptation de H0 dans la table de Student pour un seuil 𝛼 et n-2 ddl
Zone d’acceptation : (-4,303 ; 4,303)
On a tobs (B1) appartient à la zone d’acceptation de H0 ( tobs <<< t𝛼 ) donc B1 est significativement égale à 0.
La lecture de la p-value à partir des résultats donnés par un logiciel est plus pratique que l’interprétation des valeurs de tobs :
• Si p-value > 𝛼, on accepte H0 = le coefficient est significativement égale à 0
• Si p-value < 𝛼, on rejette H0 (On accepte H1) = le coefficient est significativement différent de 0
Chapitre 1 : le modèle linéaire simple
SPSS
tobs P-value
Eviews R
tobs P-value
tobs P-value
Chapitre 1 : le modèle linéaire simple
2. L’analyse de la variance (ANOVA)
Principe : L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations de la variable dépendante Y par
un seul facteur explicatif (variable indépendante qualitative). Les données proviennent d'échantillons prélevés
aléatoirement dans des populations normales dans lesquelles les variances sont supposées égales.
L’analyse de la variance permet de tester les hypothèses suivantes :
H0: m1 = m2 = ... = mJ contre H1: au moins une des moyennes est différente des autres
Dans le cadre de la régression linéaire l’analyse de la variance permet d’étudier la significativité globale du modèle à
travers un test de Fisher.
Les données sont regroupées dans un tableau appelé matrice de données :
Source de variation Somme des carrés Degré de liberté Carrés moyens La statistique F
X (Var explicative) SCE ( k nombre de X ) (MLS = 1) SCE/1 SCE/1
Résidus SCR n-2 SCR/(n-2)
SCR/(n-2)
Total SCT n-1 -
- Théoriquement, la statistique F suit la loi de Fisher avec 1 et n-2 ddl (même traitement que le test de Student
présenté précédemment)
- Pratiquement en utilisant les logiciels, la significativité globale du modèle est jugé à travers la p-value de F
Chapitre 1 : le modèle linéaire simple
SPSS
P-value > 0,05 donc le modèle est globalement non significatif
Eviews R
Chapitre 1 : le modèle linéaire simple
VI. Les formes fonctionnelles et modèles non linéaires
L’utilisation des logarithmes dans la régression a
plusieurs avantages :
• Garantir la linéarité de la régression;
• Rendre les erreurs normalement distribués;
• Les coefficients s’interprètent comme des élasticités
(neutres sans unités);
• Parfois log suffit pour assurer l’homoscédasticité.
Chapitre 2
Le modèle linéaire
« Multiple »
Y= a1X1+a2X2+a3X3 + …. +anXn + b
Chapitre 2 : le modèle linéaire multiple
I. Présentation du modèle
Lors du chapitre précédent, nous avons considéré qu’une variable endogène est expliquée à l’aide d’une seule variable
exogène. Cependant, il est extrêmement rare qu’un phénomène économique ou social puisse être appréhendé par une
seule variable. Le modèle linéaire général (Multiple) est une généralisation du modèle de régression simple dans lequel
figurent plusieurs variables explicatives :
II. Coefficients de la régression multiple
Comme dans le cas du MLS, si les hypothèses de Gauss-Markov sont vérifiées et que les erreurs sont normalement
distribuées, l'estimation par la méthode des MCO, qui vise à minimiser la somme des carrés des erreurs, donne des
estimateurs BLUE.
NB : Dans le cas de la régression multiple s’ajoute un hypothèse du la non colinéarité entre les variables explicatives (Xi)
(Cette hypothèse sera expliquée en détails par la suite)
La système complet La forme matricielle La matrice des estimateurs
Chapitre 2 : le modèle linéaire multiple
III. L’interprétation des coefficients
Dans un modèle linéaire simple, la valeur de 𝛽1 peut capturer les effets des variables non prises en considération
par le modèle, ce qui peut entraîner une surestimation par rapport à la réalité. En d'autres termes, le coefficient 𝛽1
peut être biaisé en raison de la présence de variables non incluses dans le modèle. Cela souligne l'importance de
prendre en compte toutes les variables pertinentes pour minimiser les biais et obtenir des estimations plus précises
des coefficients dans le modèle linéaire. Donc l'omission de variables explicatives significatives peut entraîner un biais
dans le modèle.
Pour éviter ce problème il est recommandé de :
o Introduire le maximum de variables dans le modèle (peut être difficile, car certaines d'entre elles sont inconnues
ou non mesurables. Cela peut entraîner une faible précision des estimateurs et accroître le risque de
multicollinéarité).
o Se baser sur un modèle théorique où les variables sont définies par quelqu'un possédant une grande
connaissance et expérience dans le domaine
Chapitre 2 : le modèle linéaire multiple
IV. L’inférence statistique dans le MLM
Les tests d’hypothèses présentés dans le cas simple restent valables.
On commence par tester les hypothèses :
Comme dans le cas simple, la décision est prise en comparant l’écart observé ( ) à l’écart théorique lu sur
la table de Student avec n – k – 1 ddl.
Lorsqu’une variable explicative n’est pas significative (c.a.d . pour laquelle H0 est acceptée) on régresse le modèle à
nouveau sans la prendre en considération. Par contre, on garde la constante même si elle n’est pas significative.
• Si tobs est incluse dans la zone d’acceptation (tobs <<< t ):
𝛼
On accepte H0 et On rejette H1 = Le coefficient est significativement égale à 0
• Si tobs est en dehors dans la zone d’acceptation (tobs >>> t ):
𝛼
On rejette H0 et On accepte H1 = Le coefficient est significativement différent de 0
Chapitre 2 : le modèle linéaire multiple
EX 1 : Eviews
Chapitre 2 : le modèle linéaire multiple
EX 2 : SPSS
Nous voulons savoir quelles variables influencent la vente (VENTES) semestrielle des produits. La théorie nous
indique que le prix a une importante influence sur les ventes (PRIX). Nous désirons savoir si le classement des clients
en segments (CLASSEMENT), la promotion (PROMO), ainsi que le point de vente (PV) exercent également une
influence sur la vente semestrielle des produits.
Chapitre 2 : le modèle linéaire multiple
V. La qualité totale (globale) de la régression
• Dans le modèle simple :
• Dans le modèle multiple : la qualité de la régression ne peut pas être évaluer à l’aide de R .
Quand nombre de X augmente, R augmente. Ainsi, il est impossible de comparer les qualités de plusieurs modèles qui
n’ont pas le même nombre de variables. On ajuste le R par rapport aux nombre de variables explicatives (nb ddl).
On définit le R ajusté (par le nombre de ddl) noté ( R )
Chapitre 2 : le modèle linéaire multiple
EX 1 (suite) : Eviews EX 2 (suite) : SPSS
Le modèle explique 43,28 % de la réalité. En d’autre terme Le modèle explique 45,20 % de la réalité. En d’autre terme
43,28% des variations de Y sont expliquées par les 45,20% des variations des ventes sont expliquées par les
variations de X1, X2 et X3. points de ventes.
Chapitre 2 : le modèle linéaire multiple
VI. La significativité globale de la régression ( Test de Fisher )
À l'instar du modèle linéaire simple, la statistique de Fisher permet de tester la significativité globale de la régression à
travers l'évaluation des hypothèses suivantes :
La statistique de Fisher dans le cas multiple est donnée par :
- Dans le MLM, la statistique F suit la loi de Fisher avec k et n – k – 1 ddl (même traitement que le test de Student
présenté précédemment)
- La régression est jugée significative si la variabilité expliquée est significativement différente de 0 (Acceptation H1)
- Dans le MLM, nous ne pouvons pas compter sur la statistique de Fisher pour juger la significativité du modèle, il
faut passer par le test individuel des coefficients (test de Student).
- Pratiquement en utilisant les logiciels, la significativité globale du modèle est jugé à travers la p-value de F
Chapitre 2 : le modèle linéaire multiple
Tableau ANOVA dans la régression linéaire multiple
EX 2 (suite) : SPSS
Chapitre 2 : le modèle linéaire multiple
VII. La question de proxy
Il arrive fréquemment que :
• Il soit impossible d'obtenir des données relatives que l'on souhaite inclure ;
• Certaines variables socioéconomiques sont difficiles à mesurer ;
• On utilise des données d'enquêtes, mais une variable importante n'est pas prise en compte.
On ne prend pas en considération Remplacer la variable par une autre qui lui est corrélée (Proxy)
la variable en question
On prend une autre variable mesurable, dont les données existent et qu’elle soit corrélée
à la variable qu’on a voulu prendre au départ (Souvent on utilise le temps comme proxy).
Des estimateurs biaisés
Exemples :
• Le revenu = Statut socioéconomique
• La qualité d’éducation = dépense/élève
VIII. Les modèles avec variables décalées
Il est envisageable d'examiner l'existence d'un décalage entre les variables explicatives et leurs effets sur la variable
expliquée. Par exemple, lors de l'étude de l'effet ou de la relation entre le PIB et l'investissement, il est important de
prendre en considération le temps, car le PIB d'une année N peut résulter des investissements réalisés dans les années
précédentes. Une approche possible serait d'introduire un délai d'ajustement dans le modèle :
Chapitre 2 : le modèle linéaire multiple
IX. La régression avec variable qualitative
Il arrive que les variables explicatives soient qualitatives et non mesurables :
• Si on régresse le salaire sur le nombre d’années d’études et que dans notre échantillon il y a des hommes et des
femmes ( On pourrait savoir si le sexe influence cette relation entre le salaire et les années d’études);
• Si on examine les effets de l’investissement étranger sur le PIB et que dans l’échantillon nous avons des pays
développés et des pays en développement (On souhaite connaitre l’impact de l’investissement sur la croissance selon
le niveau de développement).
Il existe deux solutions pour ce problème :
➢ Réaliser deux régressions en scindant l’échantillon et comparer les coefficients obtenus (Echantillon homme ,
Echantillon femme ) : Cette solution n’est pas recommandée .
➢ Réaliser une régression avec un seul échantillon et d’évaluer l’effet des variables qualitatives par le concept de variable
muettes : La meilleur méthode parce qu’elle permet de garder l’échantillon global, en donnant des valeurs aux
modalités de la variables qualitative (0: Femme / 1: Homme).
Chapitre 2 : le modèle linéaire multiple
Application
Intéressons nous à reproduire les résultats d'une étude américaine relative aux déterminants des poids des nouveaux nés.
L'étude à porté sur plus de 900 naissances. Ici, nous avons retenu 20 observations .
Nous allons commencer par la relation suivante :
Dans cette relation y représente le poids des bébés en grammes et x le nombre de cigarettes fumées par jour par les
mamans pendant la grossesse. Avec un échantillon de 20 naissances nous avons obtenu le résultat suivant :
Ainsi, un bébé né d’une femme non fumeuse pèse 3,472kg et que chaque cigarette fumée fait perdre au bébé 9,6
grammes.
On souhaite maintenant savoir l'effet, sur le poids des bébé, d'être le premier né ou avoir déjà des frères et sœurs. La
variable est qualitative
On peut modéliser cette situation comme suit :
Méthode 1
Chapitre 2 : le modèle linéaire multiple
Pour estimer cette équation nous allons introduire une variable muette. On doit réécrire le modèle comme suit :
Dans cette équation D est une variable muette (Dummy) qui prend la valeur 0 lorsque l'enfant est un premier né et 1
lorsqu'il fait partie d'une fratrie.
Les résultats de la régression est donné par :
Ainsi la variation du poids du fait de ne pas être le premier né est de 103,4 grammes.
Ainsi l'équation précédente pourrait s'écrire :
Chapitre 3
VARIATIONS
AUTOUR DU MLM
Chapitre 3 : Variations autour du MLM
Jusqu’à présent nous avons supposé que l’erreur satisfait toutes les conditions de Gauss-Markov et donc la méthode
des MCO est la meilleur méthode d’estimation qui donne des estimateurs BLEU et efficaces.
Si l’une des conditions de Gauss-Markov n’est pas satisfaite ?
Pour éviter ce problème, deux solutions sont envisageables :
o Changer la méthode d’estimation (puisque celle des MCO va donner des estimateurs biaisés et non efficaces);
o Tout faire en avant pour garantir que le modèle satisfait les conditions (Vérification des conditions avant
l’estimation).
Chapitre 3 : Variations autour du MLM
I. La nullité des erreurs
Cette condition est toujours vérifiée grâce à l’existence de la constante , même si elle n’est pas significative.
II. La variance est finie et constante
Si cette condition est satisfaite on dit que le modèle est Homoscédastique. Si non le modèle est hétéroscédastique .
Le terme hétéroscédasticité est utilisé pour décrire une situation où la variabilité des erreurs d'un modèle de
régression n'est pas constante sur l'ensemble de l'échantillon. Dans ce cas les estimateurs sont toujours non biaisé
mais ne sont plus efficaces.
L’hétéroscédasticité peut être rencontrée lorsque les variables présentent des tendances importantes ou lorsque les
données sont hétérogènes. Pour dépasser ce problème plusieurs solutions sont envisageables :
o Considérer des données stationnaires ( Ex : prendre le taux de croissance au lieu de PIB );
o Considérer les variables en Log;
o Retenir les variables par tète, par habitant, etc.
Chapitre 3 : Variations autour du MLM
Comment détecter l’hétéroscédasticité?
La méthode graphique Le test de White
Il consiste à utiliser une régression auxiliaire qui régresse
les résidus du modèle les variables explicatives (X), les
carrés des X et les produits croisés des X.
Avec : est le coefficient de détermination de cette
régression
On test les hypothèses suivantes :
Homoscédasticité
Pour ce faire nous calculons ( ):
suit approximativement un Chi-deux avec q ddl (q est le
nombre de X dans le modèle auxiliaire).
Conclusion :
Si , on accepte H0: Le modèle est homoscédastique
Si non il faut corriger le modèle
Correction :
o Considérer des données stationnaires;
o Considérer les variables en Log;
o Retenir les variables par tète, par habitant, etc.
Hétéroscédasticité
Chapitre 3 : Variations autour du MLM
III. Le problème de l’autocorrélation
Les erreurs ne doivent pas être corrélées entre elles c’est-à-dire :
Conséquences de l’autocorrélation
Comme pour l’hétéroscédasticité, les coefficients restent non biaisés mais sont inefficients. Il n’est pas possible de faire
de l’inférence statistique.
Chapitre 3 : Variations autour du MLM
Comment détecter l’autocorrélation?
La méthode graphique Le test de Durbin Watson
Il permet de détecter une autocorrélation des erreurs d’ordre 1
selon la forme : Bruit blanc Gaussien
Le modèle autorégressif d’ordre 1 : AR(1)
Autocorrélation positive On test les hypothèses suivantes :
H0 : contre H1 :
La statistique de DW est donnée par :
On compare la statistique de Durbin Watson à un intervalle (d 1;d2) :
0 d
1 d2
2 4-d
2 4-d 1
4
Autocorrélation + Absence d’autocorrélation Autocorrélation -
On rejette H0 On accepte H0 On rejette H0
Autocorrélation négative
Correction
(1) (2)
(1) – (2)
Chapitre 3 : Variations autour du MLM
IV. La normalité des erreurs
Afin de réaliser l’inférence statistiques nous avons supposé que les erreurs sont normales. Nous devons tester cette
hypothèse en testant la normalité des erreurs.
Il existe plusieurs tests pour vérifier si les erreurs sont un bruit blanc gaussien. Le plus connu et le plus utilisé est le test
de Jarque-Berra. Il est basé sur les moments d’ordre 3 (asymétrie ou Skewness) et 4 (aplatissement ou Kurtosis).
Dans le cas de la loi normal Skewness = 0 et Kurtosis = 3
On test les hypothèses suivantes :
H0 : Les erreurs sont normalement distribuées contre H1: Les erreurs ne sont par normalement distribuées
La statistique de Jarque-Berra est donnée par :
Nb d’observations
suit une loi de Khi-deux avec 2 d.d.l
Skewness Kurtosis
• Si JB < , on accepte H0 et les erreurs suivent une loi normale.