Introduction à l'économétrie
Introduction à l'économétrie
CHAPITRE 1: INTRODUCTION
I.1. Introduction
II.1. Introduction
III.1. Introduction
III.2. Linéarité
V.1. Introduction
V.2. Le modèle de régression linéaire à deux variables explicatives
VI.1. Spécification
VI.2. Estimation
VI.2. Exercices d’application
CHAPITRE 7 : PROPRIETES DES ESTIMATEURS …………………
VII.1. Linéarité ……………………………………………………….
VII.2. Absence de biais ………………………………………………….
VII.3. Efficience ……………………………………………………
VII.4. Propriétés ……………………………………………………
I-1- Introduction
Le rôle principal de l’économétrie est de tester les propositions théoriques qui fondent ces relations entre variables,
d’obtenir des estimations numériques des coefficients de ces relations, de faire des prévisions par rapport à leurs
valeurs futures et de faire des recommandations pertinentes à même d’aider à la prise de décision
I-2- La théorie économique et l’économétrie
L’économétrie consiste en une application des statistiques mathématiques aux données économiques afin
d’obtenir un support empirique des modèles développés par les mathématiciens économistes en vue de
l’obtention de résultats numériques (Gerhard Tintner, Methodology of Mathematical Economics and
Econometrics, The University of Chicago Press, 1968)
L’économétrie peut se définir comme une science sociale dans laquelle les outils de la théorie
économique, les mathématiques, et l’inférence statistique sont utilisés à l’analyse des phénomènes
économiques (Arthur Golberger, Econometric Theory, John Wiley & Sons, New York, 1964)
L’art de l’économètre consiste en la détermination d’un ensemble d’hypothèses qui soient à la fois
suffisamment spécifique et suffisamment réaliste qui puissent lui permettre de tirer le maximum
d’informations des données qui lui sont disponibles (Malinvaud, Statistical Methods of Econometrics,
Rand McNally & Co Chicago, 1966 P. 514)
L’économétrie peut être considérée comme l’intégration de l’économie, des mathématiques et de la statistique dans
l’optique de fournir des valeurs numériques aux paramètres des relations économiques (élasticités, propensions,
valeurs marginales) et de vérifier les théories économiques (Koutsoyiannis, Theory of Econometrics. 2nd Ed.
MacMillan, Hong Kong 1993).
Il appert de ce qui précède que l’économétrie est une branche des sciences sociales qui à l’aide de la théorie
économique, de l’économie mathématique et de la théorie statistique, analyse les relations entre variables
(économiques) afin d’aider à la prise de décision
Objectifs de l’économétrie Trois objectifs essentiels
l’aide à la prise de décision, c’est à dire fournir des estimations numériques des coefficients des
relations économiques qui seront ensuite utilisées dans le processus de prise de décision
la prévision, ici, les estimations numériques des coefficients sont utilisées dans l’optique de donner
une prévision des valeurs futures des évolutions économiques
Si l’objectif de l’opérateur économique est de prendre la meilleure décision parmi un ensemble de choix
possibles, alors la connaissance des relations entre variables économiques seule n’est pas suffisante. La
connaissance de la direction de la relation et, dans plusieurs cas, celle de l’intensité de la relation est
nécessaire pour ne pas dire indispensable. Ainsi, en fournissant à l’opérateur économique un support pour
tester, modifier ou réfuter si possible les conclusions contenues dans la théorie économique, et affecter des
signes, et des interprétations fiables aux coefficients des variables économiques, l’économétrie se positionne
comme un outil indispensable à la prise de décision
I-4- Méthodologie de la recherche économétrique
Dans la section précédente, nous avons relevé que l’économétrie a trois objectifs essentiels à savoir: l’analyse, l’aide à la prise
de décision et la prévision. Afin d’atteindre ces objectifs, l’économètre doit de façon systématique conduire sa recherche en
adoptant une approche logique. Cette approche logique comprend cinq phases qui sont:
Phase 1:La spécification du modèle qui servira à expliquer le phénomène que l’on veut analyser.
Les phases 1 et 4 sont les plus importantes pour toute recherche économétrique. En effet, elles exigent les
compétences d’un économiste qui a l’expérience du fonctionnement du système économique. Les phases 2, 3 et
5 sont techniques et nécessitent une connaissance de la théorie économétrique et statistique.
a). Phase 1. Spécification du modèle.
La première phase et de loin la plus importante dans toute recherche économétrique est la spécification d’un modèle qui n’est autre que la
représentation mathématique d’une relation entre variables économiques. On parlera de modélisation de l’hypothèse soutenue (maintained
hypothesis). Cette modélisation implique la détermination de 1) la variable expliquée et des variables explicatives du modèle; 2) les signes et
l’ampleur théoriques des paramètres escomptés à priori. Ce sont ces éléments théoriques qui serviront de base à l’évaluation du modèle estimé; 3)
la forme mathématique du modèle (nombre d’équations, forme linéaire ou non linéaire de ces équations etc.).
La spécification du modèle se fait sur la base de la théorie économique et de toute autre information relative au phénomène que l’on veut analyser.
Ainsi, la spécification d’un modèle suppose la connaissance de la théorie économique et celle du phénomène que l’on veut étudier. En outre,
l’économètre doit rassembler toutes les informations relatives à ce phénomène y compris les études et recherches publiées par d’autres chercheurs
sur ce même phénomène.
De façon concrète, supposons que l’économètre veuille analyser la demande de riz en Côte d’Ivoire. La première source d’information dont il a
besoin, est la théorie économique (théorie de la demande) qui stipule que la demande d’un bien est fonction du niveau de revenu, du prix du riz et
du prix des autres biens. Sur la base de ces informations, nous pouvons spécifier la fonction de demande sous sa forme générale comme suit:
Où, Qt est la quantité de riz demandée, Yt est le niveau de revenu, P1t est le prix du riz, P2t est le prix des autres biens.
Toujours en nous fondant sur la théorie économique, nous pouvons émettre des hypothèses sur les signes et grandeurs des paramètres du modèle
de demande de riz. Ainsi, notre modèle de demande de riz s’écrira comme suit (sous l’hypothèse que la quantité demandée de riz est une
fonction linéaire du niveau de revenu, du prix du riz et du prix des autres biens):
D’après la théorie économique, et surtout en raison de la loi de la demande qui stipule de l’existence d’une relation inverse entre la quantité
demandée d’un bien et son prix, nous nous attendons à ce que 1 soit négatif (positif pour les biens Giffens). De même, comme la théorie
économique stipule que la quantité demandée d’un bien est positivement liée au niveau de revenu (sauf pour les biens inférieurs), nous nous
attendons à ce que 3 soit positif. En ce qui concerne 2, nous nous attendons à ce qu’il soit positif si l’autre bien en question est un substitut du
riz, et négatif si les deux biens sont complémentaires.
b). Phase 2: La collecte des données
Les données nécessaires à l’estimation du modèle spécifié doivent être collectées. Ces données sont en générales de trois
types à savoir : des séries temporelles, des coupes transversales, des données de panel etc.
Elles donnent des informations sur les variables, sur une période de temps. Elles peuvent être
quantitatives (prix, taux d’intérêt, …) comme qualitatives (jour de la semaine). Les séries temporelles ont
Les séries temporelles. une fréquence d’observation. Cette fréquence peut être journalière, hebdomadaire, mensuelle, annuelle
etc. (il y a le cas des valeurs boursières où les données sont collectées au fur et à mesure des transactions).
Elles donnent des informations sur des variables à une période donnée (par exemple les informations sur
les activités économiques des entreprises industrielles Ivoirienne en 1994). La relation entre la taille des
Les coupes transversales. entreprises et le taux de rentabilité des investissements. La relation entre le niveau de la masse salariale
d’un pays et la probabilité que ce pays ne puisse pas honorer ses engagements envers l’étranger.
Elles donnent des informations à travers le temps sur des coupes transversales données (par exemple les
Les données de panel informations sur les activités économiques des entreprises industrielles Ivoiriennes de 1975 à 1995).
Une fois que le modèle est spécifié et que les données sont collectées, l’étape suivante est celle de l’estimation des coefficients du
modèle. En d’autres termes, il s’agit d’obtenir les valeurs numériques des coefficients des variables du modèle spécifié. Cette phase est
purement technique et nécessite la connaissance des différentes méthodes économétriques, des hypothèses sous-jacentes à leur utilisation
et les interprétations des paramètres estimés. Des logiciels existent de nos jours pour conduire cette phase. On peut citer entre autres :
Eviews, Gauss, Limdep, Rats, SAS, SHAZAM, STATA, Microfit, etc.
d). Phase 4 : Evaluation du modèle estimé
Lorsque le modèle spécifié est estimé, avant de pouvoir l’utiliser pour la prise de décision, il est nécessaire de
s’assurer de sa fiabilité. Il s’agit de déterminer si les paramètres estimés donnent satisfaction aussi bien
théoriquement que statistiquement. Pour cela, plusieurs critères (tests) existent. Ces critères peuvent être classés en
trois (3) groupes :
Ces tests consistent en la confrontation entre les résultats de l’estimation du modèle, c’est à dire, le signe des
coefficients estimés et leur grandeur et les principes de la théorie économique. Ainsi, c’est lorsque le modèle estimé
passe ce premier test, qu’il a une signification économique. Si les signes et grandeurs des paramètres estimés ne sont
pas en conformité avec la théorie économique, alors ces paramètres doivent être rejetés à moins d’une raison
suffisante qui démontre que dans le cas spécifié la théorie économique n’est pas applicable. Cette raison suffisante
doit être présentée de façon précise et concise.
Tests statistiques :
Ces tests sont basés sur la théorie statistique et ont pour objectif l’évaluation de la fiabilité statistique des
paramètres estimés. Les tests statistiques les plus utilisés sont le coefficient de corrélation et l’écart type des
paramètres estimés. Le carré du coefficient de corrélation est appelé le coefficient de détermination et donne la
proportion des variations de la variable expliquée imputable aux variations des variables explicatives. En ce qui
concerne l’écart type, c’est une mesure de la dispersion des estimations autour du vrai paramètre. Ainsi, plus l’écart
type du paramètre estimé est élevé, moins fiable est l’estimation et vice-versa. Il faut souligner que les tests
statistiques viennent seulement après les tests économiques à priori.
Tests économétriques :
Les tests économétriques sont issus de la théorie économétrique et ont pour objectif de vérifier si les hypothèses,
sous-jacentes à la méthode économétrique, utilisée sont satisfaites ou non. Ces tests vérifient donc la fiabilité des
tests statistiques et nous permettent d’établir si oui ou non les paramètres estimés ont les propriétés désirées (sans
biais, convergent etc.). Si les hypothèses de la méthode économétrique utilisée pour estimer le modèle spécifié ne
sont pas vérifiées, alors, soit les paramètres estimés n’ont pas les propriétés désirées, ou que les tests statistiques
perdent leur validité et ne sont plus fiables pour juger de la qualité des paramètres estimés.
e). Phase 5 : L’utilisation du modèle estimé
La prévision et l’aide à la prise de décision sont les principaux objectifs de la recherche économétrique. Une
fois les phases 1 à 4 terminées, on peut utiliser le modèle pour la prévision et l’aide à la prise de décision.
Un modèle est une représentation formelle des relations définies par le monde réel. Le monde réel étant très complexe, il est
nécessaire de le simplifier afin de faciliter sa compréhension. Cette simplification se fait donc à partir de modèle qui regroupe
les variables que nous jugeons importantes pour la compréhension de tel ou tel phénomène. Le modèle peut être déterministe
ou stochastique (aléatoire).
•Le modèle déterministe, économique ou mathématique
Un modèle est dit déterministe s’il correspond à une relation déterministe (exacte). Par exemple, la fonction de consommation
représentée par le modèle suivant :
Où Ct est la consommation, Yt est le revenu, α0 et α1 sont les paramètres du modèle. α0 est le terme constant (dans le cas présent
c’est la consommation autonome) et α1 est la pente de la droite représentée par l’équation ci-dessus.
En d’autres termes, la fonction de consommation peut être obtenue de façon exacte si nous connaissons Y, α0 et α1.
La fonction de consommation ci-dessus ne peut être obtenue de façon exacte dans la mesure où le terme 𝜀𝑡 (appelé terme
d’erreur, variable aléatoire ou perturbation stochastique) est incorporé dans le modèle pour tenir compte des variables omises, des
erreurs de mesure des variables et des erreurs de spécification. Ce terme est donc aléatoire et inobservable.
Les modèles déterministes correspondent aux modèles économiques alors que les modèles stochastiques correspondent aux
modèles économétriques. Pour passer du modèle économique au modèle économétrique il suffit tout simplement de lui ajouter
une perturbation stochastique (ou terme d’erreur) “
I-6- Quelques concepts de base
Les variables économiques sont de natures aléatoires, c’est à dire que leurs valeurs ne sont connues
qu’après qu’elles aient été observées. Elles obéissent à des lois de probabilités. La probabilité est une
voie pour exprimer l’incertitude sur les événements économiques. Par conséquent, il est important de
rappeler brièvement les concepts de base de la probabilité qui seront utilisés dans ce cours.
a) Variable aléatoire
Une variable aléatoire est une variable dont la valeur est inconnue jusqu’à ce qu’elle fasse l’objet d’une observation. La valeur
d’une variable aléatoire (V.A) résulte d’une expérimentation.
Par exemple, l’expérimentation peut être caractérisée par une ou plusieurs mesures de rendement. Soit Xt = Kg/ha,
Yt = nombre de voitures volées par mois. Ou par exemple, Zt = le nombre d’accident d’automobiles enregistrés sur
l’autoroute du nord entre 1995 et 2021.
b) Variables aléatoires discrètes et continues
Définition 1.
Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre fini de valeur que l’on peut
compter en utilisant des nombres entiers. Plus formellement, une V.A X est dite discrète si l’ensemble des
valeurs possibles de cette variable est un sous ensemble de Z avec Z = 0 ; 1 ; 2 ;…
Les variables aléatoires discrètes sont utilisées en économie d’une façon générale pour prendre en compte le
caractère qualitatif de certaines variables. On les appellera les variables muettes.
Par exemple une étude qui veut prendre en compte le Genre devra désagréger les données en homme et
femme. Ainsi, on pourra définir une variable muette D telle que, D, prend la valeur 1 si les données concerne
une femme et 0 dans le cas contraire.
1𝑠𝑖 𝑓𝑒𝑚𝑚𝑒
𝐷=ቊ
0𝑠𝑖 ℎ𝑜𝑚𝑚𝑒
Définition 2.
Une variable aléatoire est dite continue si elle peut prendre toute valeur appartenant à l’ensemble des nombres
réels. Par exemple la variable PIB peut prendre toutes les valeurs de zéro à l’infini. De façon formelle, une
variable aléatoire est dite continue si sa fonction de distribution F(x) est continue pour tout x ℝ et qu’il existe
une fonction non négative f(.) sur la droite des réelles telle que
Ɐ x ℝ
Soit X une variable aléatoire. Si X prend n valeurs notées x1, x2, …, xn, alors leur somme est donnée par :
Exemple : xi = 2, 5, 3, 7, 9, 6, 4 ➔
•La moyenne géométrique de n valeurs de x est la racine nième du produit des n observations. Sa formule est donnée ci-dessous :
La moyenne quadratique (également appelée racine carrée moyenne) est un type de moyenne. Elle mesure la magnitude absolue
d'un ensemble de nombres et est calculée en :
1) Élevant au carré chaque nombre, 2) En trouvant la moyenne de ces carrés, 3) En prenant la racine carrée de cette moyenne. Elle
donne un poids plus important aux éléments les plus grands d'un ensemble et est toujours égal ou supérieur à la moyenne
arithmétique.
•La moyenne harmonique de n valeurs de x:
La moyenne harmonique donne moins de poids aux grandes valeurs et un
grand poids aux petites valeurs pour équilibrer correctement les valeurs.
La moyenne harmonique (HM) est définie comme
En général, la moyenne harmonique est utilisée lorsqu'il est nécessaire de
l'inverse de la moyenne des inverses des valeurs de
donner plus de poids aux éléments les plus petits. Elle s'applique en cas
données. Elle est basée sur toutes les observations et
d'horaires et de tarifs moyens.
est définie de manière rigide.
Si a, b, c, d, … sont des données, les étapes pour trouver la moyenne harmonique sont les suivantes :
Étape 1 : Calculez l'inverse de chaque valeur (1/a, 1/b, 1/c, 1/d, …) ;
Si G est la moyenne géométrique, A est la moyenne arithmétique et H est la moyenne harmonique alors : G= 𝐴𝐻 ➔ 𝐺 2 =AH
•Plusieurs sommations peuvent être utilisées dans une même expression. Supposons que la variable Y prenne n valeurs et que la variable
X prenne m valeurs et que nous ayons la fonction f(x,y) = x + y. La double sommation de cette fonction est la suivante :
Pour évaluer une telle expression, on commence par la sommation interne. Toutefois, il faut noter qu’en général,
l’ordre de sommation n’est pas important.
• Moyenne d’une variable aléatoire
La moyenne ou espérance mathématique d’une variable aléatoire X est la moyenne arithmétique de cette variable
aléatoire. Elle est notée E(X) et est lue espérance mathématique de X. Si X est une variable aléatoire discrète qui prend
les valeurs x1, x2, …, xn avec des densités de probabilité dont les valeurs sont f(x1), f(x2), …, f(xn), l’espérance
mathématique de X est donnée par :
Si X est une variable aléatoire continue qui prend des valeurs allant de - à + avec des densités de probabilité dont les
valeurs sont f(x1), f(x2), …, f(xn), l’espérance mathématique est donnée par :
.
c) Espérance mathématique d’une fonction de variable aléatoire
• Si X est une variable aléatoire discrète et g(X) une fonction de cette variable aléatoire, alors E(g(X)) =
g(x)f(x). Toutefois, E[g(X)] g[E(X)]
• Si X est une variable aléatoire discrète et g(X) = g1(x) + g2(x) où g1(x) et g2(x) sont des fonctions de X alors,
E[g(X)] = [g1(x) + g2(x)]f(x) = g1(x)f(x)+g2(x)f(x) = E[g1(x)] + E[g2(x)].
L’espérance mathématique d’une somme de fonction de variables aléatoires, est la somme des espérances
mathématiques.
Dans le cas d’une variable aléatoire discrète, Var(X) est donnée par :
Dans le cas d’une variable aléatoire continue, on a :
Propriétés de la variance
•Si a et c sont des constantes et si Z = a + cX alors Z est une variable aléatoire et sa variance est :
var(Z) = E[(a + cX)2 – 2(a + cX)E(a + cX) + [E(a + cX)]2] var(Z) = var(a + cX) = E[(a + cX) – E(a + cX)]2
var(Z) = E[(a2 + 2acX + c2X2 ) - 2(a + cX)(a + cE(X)) + [a + cE(X)]2]
var(Z) = E[a2 + 2acX + c2X2 – 2a2 - 2acE(X )- 2acX - 2c2XE(X) + a2 + 2acE(X) + c2[E(X)]2]
En effet,
Var(X + Y) = E[(X+Y)-E(X+Y)]2
Var(X + Y) = E[(X+Y)-E(X) – E(Y)]2
Deux variables aléatoires sont indépendantes si la connaissance de la valeur d’une des variables ne donne aucune
information sur les valeurs de l’autre variable.
Si g(X,Y) est une fonction de deux variables aléatoires telle que g(X,Y) = c1X + c2Y où c1 et c2 sont des
constantes, g(X,Y) est appelée somme pondérée de variables aléatoires et E[g(X,Y)] = E[c1X + c2Y] = c1E(X) +
c2E(Y)
D’une façon générale, si X1, X2, …, X3 sont des variables aléatoires et c1, c2, …, cn sont des constantes alors,
E(c1X1 + c2X2 + … + cnXn) = c1E(X1) + c2E(X2) + … + cnE(Xn)
j) La distribution normale
Si X est une variable aléatoire normale (suit une loi normale), de moyenne 𝛽 et de variance 𝜎 2 notée symboliquement 𝑋 → 𝑁 𝛽, 𝜎 2
alors sa fonction de densité de probabilité est donnée par l’expression mathématique suivante :
La loi normale a trois caractéristiques à savoir : 1) sa moyenne est égale à sa médiane ; 2) elle est symétrique par rapport à sa moyenne et 3) ses
queues sont asymptotiques c’est-à-dire qu’elles se rapprochent de l’axe des abscisses (ligne horizontale) sans la toucher. Elle a donc une forme de
cloche.
La loi normale est dite centrée réduite lorsque sa moyenne est zéro (0) et sa variance est un (1). En raison de sa simplicité dans les calculs, cette
dernière est la plus utilisée.
Si alors
La loi normale centrée réduite est importante aussi bien pour des raisons théoriques que pratiques. Théoriquement, elle est liée à d’autres types de
loi de probabilité qui sont au centre de l’analyse économétrique. Dans la pratique, elle est importante dans la mesure où pour toute variable
aléatoire normale X, on peut définir la variable aléatoire Z et les valeurs de Z sont tabulées. Pour calculer les probabilités avec les variables
aléatoires normales, on utilise les règles suivantes :
La loi de Chi-2
. Cette loi résulte lorsque la variable aléatoire normale centrée réduite est élevée au carré. Ainsi, si Z1, Z2, …, Zm sont des
variables aléatoires normales centrées réduites alors
et est lue V suit une loi de Chi-2 à m degré de liberté. Le paramètre de degré de liberté m indique le nombre de variables
aléatoires normales centrées réduites indépendantes utilisé pour former V. De façon formelle on a :
Si Zi →N(0,1) , i = 1, 2, …, m sont des variables aléatoires normales centrées réduites indépendantes alors, σ𝑚 2
𝑖=1 𝑍𝑖 =𝑉
→ χ2𝑚
par la racine carrée d’une variable aléatoire indépendante qui suit une loi de Chi-2 i.e. 𝑉 → χ2𝑚 , elle-même divisée par son
degré de liberté. En d’autres termes, si 𝑍 → 𝑁 0,1 , 𝑉 → χ2𝑚 et si Z et V sont des variables aléatoires indépendantes alors,
La forme de la fonction de densité de probabilité de la loi t est plus large et moins pointue que celle de la loi
normale centrée réduite.
La loi de Fischer (F)
Une variable aléatoire qui suit une loi F est constituée du rapport de deux variables aléatoires de Chi-2 indépendantes
divisée par leur degré de liberté. En d’autres termes, si 𝑉1 → χ2𝑚1 et si 𝑉2 → χ2𝑚2 avec V1 et V2 sont indépendantes,
alors:
et b) une composante aléatoire rendue par l’écart entre la ligne droite et les points qui ne sont pas sur cette ligne.
Y
E(Yt)=0 +1 X t
Y1
Y2
X
X1 X2
Comme la droite E(Yt) passe par les points moyens, il va se trouver que des points seront au-dessus et en dessous de cette
dernière. Ainsi les observations qui sont au-dessus de la ligne donnent des valeurs positives de et les observations en
dessous donneront des valeurs négatives de .
Comme la ligne représentée par E(Yt) passe par les points moyens, les valeurs négatives et positives de s’annuleront
mutuellement de sorte que la sommation des erreurs sera nulle i.e. σ 𝜀𝑡 = 0
II-3 Les hypothèses du modèle de régression linéaire simple
Estimer le modèle présenté dans l’équation (2.1) implique la détermination des valeurs numériques des paramètres 𝛽0 𝑒𝑡𝛽1
Les deux premières variables sont observables et ne posent pas de problème dans la mesure où des données primaires ou
secondaires les concernant peuvent être collectées. Là où il y a problème, c’est avec εt
Contrairement aux deux premières variables, elle n’est pas observable. Toutefois, elle résulte de plusieurs facteurs :
➢ Variables omises dans le modèle considéré (par ignorance, pour problème de mesure ou imprévisibilité)
➢ Caractère aléatoire du comportement humain
➢ Spécification incorrecte du modèle mathématique
➢ Erreurs d’agrégations
Ainsi, le mieux que nous pouvons faire afin d’être en mesure de déterminer les valeurs numériques de 𝛽0 𝑒𝑡 𝛽1 est d’émettre
des hypothèses sur 𝜀𝑡 .
Ces hypothèses devraient donner une description adéquate (acceptable) des caractéristiques statistiques de 𝜀𝑡 Ces hypothèses
sont les suivantes :
Hypothèse 1 (H1) : Linéarité
Quoique t puisse prendre des valeurs aussi bien positives, négatives que nulles, ces
valeurs s’annulent mutuellement. En d’autres termes, la moyenne des erreurs est nulle.
E(t)=0 (2.2)
Limite supérieure
a2
b2
a1
b1 Limite inférieure
X1 X2 X
a1 = a2 et b1 = b2
Nous faisons l’hypothèse que 𝜀𝑡 suit une loi normale avec comme moyenne zéro (0) et variance 𝜎𝜀2
L’implication de la normalité est que la plupart des observations sont concentrées dans le voisinage immédiat de la
ligne de régression.
Hypothèse 6 (H6) : Nullité de la covariance entre t et Xt (condition d’exogénéité de Xt)
Il n’y a pas d’association linéaire entre t et Xt par conséquent
Cov( t ,Xt) = 0 (2.5)
Preuve
Cov( t ,Xt) = E[( t - E( t ))(Xt – E(Xt))]
= E[ t (Xt – E(Xt))] car E(t)=0
Il existe plusieurs méthodes économétriques que l’on peut utiliser pour déterminer les valeurs numériques des paramètres de
l’équation 2.1. Parmi les différentes méthodes utilisées, nous pouvons nous attarder sur trois qui nous paraissent essentielles.
Il s’agit de la méthode des Moindres Carrés Ordinaires (MCO), la méthode du Maximum de Vraisemblance (MV) et la
Méthode des Moments (MM).
❖ Elle est très utilisée et demeure de loin la plus utilisée dans l’estimation des modèles économétriques et ce, malgré
l’existence de logiciel informatique amélioré facilitant l’utilisation de méthodes plus complexes.
❖ Les principes qui sous-tendent la méthode des MCO sont simples à comprendre.
La méthode des MCO utilise le critère des moindres carrés qui peut se décomposer en
deux parties. La première partie exige que la ligne de régression passe par les points moyens
du nuage de points de sorte que les déviations positives et négatives s’annulent mutuellement
T
i.e. =0 . La deuxième partie du critère exige que la somme des carrés des erreurs soit
t =1
t
Où t représente les déviations résiduelles (résidus). Elevons les résidus au carré et prenons la
( )
T T
sommation. On a : ˆt2 = Yt − ˆ0 − ˆ1 X t
2
(2.9)
t =1 t =1
T T
Nous devons ensuite minimiser ˆt2 i.e. déterminer ̂ 0 et ̂1 tel que
t =1
ˆ
t =1
t
2 est minimale. Pour
T
cela, nous allons déterminer la dérivée de ˆ
t =1
t
2
par rapport à ̂ 0 et ̂1 . La condition nécessaire
pour un minimum exige que les dérivées premières soient égales à zéro. Ceci nous permet de
déterminer ̂ 0 et ̂1 .
T
ˆt2 T
t =1
=−2(Yt − ˆ0 − ˆ1 X t ) =0
ˆ0 t =1
T T
➔ Yt =Tˆ0 +ˆ1 X t
t =1 t =1
(2.10)
T
ˆt2 T
t =1
=−2(Yt − ˆ0 − ˆ1 X t )X t =0
ˆ1 t =1
T T T
➔
t =1
X tYt =ˆ0
t =1
X
X t + ˆ1
t =1
t
2 (2.11)
Les équations 2.10 et 2.11 sont appelées équations normales. Nous avons deux équations avec deux inconnues. Il est possible
de déterminer ces deux inconnues. Réécrivons ces équations l’une en dessous de l’autre et appliquons la règle de Cramer.
Yt =Tˆ0 + ˆ1 X t
X tYt = ˆ0 X t + ˆ1 X t2
T Y t
➔ ̂1 =
Xt X Y =T X Y − X Y
t t t t t t
T X T X − X X
t t
2 t t
Xt X t
2
ˆ1=
X tYt −TXY
➔ (2.12)
X t2 −TX 2
Pour ce qui est de ̂ 0 , on peut obtenir son expression à partir de l’équation (2.10).
Y =Tˆ +ˆ X
t 0 1 t
La condition suffisante pour un minimum exige que la matrice des dérivées secondes soit définie positive. Calculons donc
les dérivées secondes et formons cette matrice.
T T T T
2
ˆ t
2
2
ˆ t
2
2
ˆ t
2
2
ˆ t
2
t =1
=2 t =1
= 2X t t =1
= 2 X t2 ; t =1
= 2X t (2.14)
ˆ 2
0 ˆ0 ˆ1 ˆ 1
2
ˆ1 ˆ 0
2 2X t 1 Xt
➔ = 2 Or nous savons que si nous avons une matrice A telle que :
2X t 2 X t2 Xt X t2
d11 d12 d13
d d12
A = d 21 d 22 d 23 et si nous posons D1 = d11 ; D2 = 11 et D3 = A, alors : A est définie positive si D1 0; D2 0 et D3 0 .
d 21 d 22
d 31 d 23 d 33
Il s’en suit que D1 = 2 > 0 et D2 = 0. A est donc semi-définie positive. On a donc un minimum.
ˆ1=
X tYt −TXY
et ˆ0 =Y − ˆ1 X .
X t −TX
2 2
T T T T
On nous donne Yt = 27236.61 , X t = 403.25 , X Y
t =1
t t = 400776.17 , X t
2
= 6088.29 et
t =1 t =1 t =1
T = 28.
1 T 27236.61
Y = Yt = = 972.736
T t =1 28
1 T 403.25
X = Xt = = 14.402
T t =1 28
400776.17 − (28 972.736 14.402) 400776.17 − 392261.628
ˆ1 = =
6088.29 − (28 14.402 14.402) 6088.29 − 5807.693
400776.17 − 392261.628 8514.542
ˆ1 = = = 30.344
6088.29 − 5807.693 280.597
Si une variable aléatoire y a une densité de probabilité f(y) caractérisée par les paramètres 1, 2, …, k et si nous pouvons
observer un échantillon y1, y2, …, yT, alors l’estimateur du Maximum de vraisemblance de 1, …, k, est l’estimation des
paramètres ci-dessus qui dans la majorité des cas nous permet de générer l’échantillon observé. En d’autres termes, après
avoir collecté des données d’un échantillon, il faut choisir les valeurs des paramètres inconnus qui pourraient dans une
spécification donnée, maximiser la probabilité d’obtenir l’échantillon actuellement observé. Ainsi, pour pouvoir utiliser la
méthode du Maximum de Vraisemblance, il faut nécessairement se donner une loi pour le terme d’erreur. Si nous supposons
que ce dernier suit une loi normale de moyenne zéro et de variance 2, (𝜀𝑡 → 𝑖𝑖𝑑𝑁 0, 𝜎𝜀2 ), alors la fonction de densité de la
variable aléatoire y peut s’écrire :
( ~ ~
Y − − X
− t 0 2 1 t
)2
avec = ; 2
1 2
f ( y / x; ) = e
(2.15)
2~2
Cette fonction étant très complexe, nous allons la linéariser en prenant le logarithme népérien.
(y )
T T 1 ~ ~
L = ln( l ) = − ln( 2 ) − ln( ~2 ) − ~ 2
2
t − 0 − 1 xt (2.17)
2 2 2
Ici, comme il s’agit de trouver les valeurs de qui maximisent la probabilité d’obtenir l’échantillon actuellement observé, notre
problème se résume en un problème de maximisation. Il nous faut donc maximiser L par rapport à qui comprend les
paramètres et 2 .Ceci revient à calculer les dérivées premières de L par rapport à et 2 et à les égaler à zéro. On a donc :
(y )
L 1 ~ ~
~ = ~2 t − 0 − 1 xt = 0 (2.18)
0
(y )
L 1 ~ ~
~ = ~2 t − 0 − 1 xt xt = 0 (2.19)
1
L T
= − ~2 +
~ ~
(
y t − 0 − 1 xt ) 2
=0 (2.20)
~
2
2 2~4
La résolution des équations 2.18 et 2.19 (les équations normales) nous permet d’obtenir les
~ ~
expressions de 0 et 1 qui sont identiques aux paramètres obtenus par la MCO. La
résolution de l’équation 2.20 nous donne :
(y )
~ ~ 2
− 0 − 1 xt
~2 =
t
(2.21)
T
II-4-3 La méthode des moments (MM)
Commençons par définir ce qu’est le moment d’une population notée γ.
Ainsi, si nous considérons une population avec une densité de probabilité (pdf) 𝑓 𝑥; 𝜃1 , ⋯ , 𝜃𝑘 qui dépend donc des
paramètres θ1, …,θk, les moments non centrés de la population ou moment d’origine de la population, μj sont définis comme
suit : 𝜇𝑗′ 𝜃1 , ⋯ , 𝜃𝑘 = 𝐸 𝑥 𝑗 avec 𝑗 = 1,2, … , 𝑘
Comme d’une façon générale, nous travaillons sur des échantillons plutôt que sur la population, définissons les moments par
rapport à l’échantillon. Ainsi donc, si 𝑥1 , ⋯ , 𝑥𝑇 est un échantillon aléatoire de 𝑓 𝑥; 𝜃1 , ⋯ , 𝜃𝑘 , les k premiers moments de
l’échantillon sont donnés par :
𝑗
σ𝑇
𝑖=1 𝑥𝑖
𝑀𝑗′= avec 𝑗 = 1,2, … , 𝑘 (2.23)
𝑇
On note ici que le premier moment de l’échantillon n’est rien d’autre que la moyenne de l’échantillon c'est-à-dire :
σ𝑇
𝑖=1 𝑥𝑖
𝑀1′= = 𝐸 𝑥 = 𝑋ത
𝑇
On voit que le moment de l’échantillon est proche du moment de la population.
1 , ⋯ , 𝜃
Le principe de la MM consiste donc à choisir comme estimateur des paramètres θ1, …,θk, des valeurs de 𝜃 𝑘 qui égalisent
le moment de l’échantillon à celui de la population.
Illustrons : Si nous considérons le modèle de régression simple suivant :
Yt =0 +1 X t +t , et deux des hypothèses fondamentales à savoir
E(t )=0 ➔, la moyenne des erreurs de la population est nulle ;
1
σ 𝑋𝑡 𝜀𝑡 =0 (2.25)
𝑇
Si nous remplaçons 𝜀𝑡 par son expression dans les équations ci-dessus, nous avons pour la première hypothèse :
1 ේ0 − 𝛽
ේ1 𝑋𝑡 = 0 ➔σ 𝑌𝑡 − 𝑇𝛽 ේ0 − 𝛽ේ1 σ 𝑋𝑡 = 0 . La seconde hypothèse donne :
σ 𝑌𝑡 − 𝛽
𝑇
1 ේ0 − 𝛽
ේ1 𝑋𝑡 = 0 ➔σ 𝑋𝑡 𝑌𝑡 − 𝛽 ේ0 σ 𝑋𝑡 − 𝛽ේ1 σ 𝑋𝑡2 = 0 en mettant les deux équations ci-dessus ensemble, on se retrouve
σ 𝑋𝑡 𝑌𝑡 − 𝛽
𝑇
avec un système d’équations à deux inconnus.
σ 𝑌𝑡 − 𝑇𝛽ේ0 − 𝛽ේ1 σ 𝑋𝑡 = 0 σ 𝑌𝑡 = 𝑇𝛽ේ0 + 𝛽ේ1 σ 𝑋𝑡
൝ ➔ ൝
ේ0 σ 𝑋𝑡 − 𝛽
σ 𝑋𝑡 𝑌𝑡 − 𝛽 ේ1 σ 𝑋𝑡2 = 0 ේ0 σ 𝑋𝑡 + 𝛽
σ 𝑋𝑡 𝑌𝑡 = 𝛽 ේ1 σ 𝑋𝑡2
Les deux équations ci-dessus sont appelées équations normales. La résolution de ce système d’équations nous donne les
ේ0 = 𝑌ത − 𝛽
estimateurs 𝛽 ේ1 = σ 𝑋𝑡𝑌2𝑡−𝑇𝑋ത 𝑌ത qui sont identiques aux estimateurs des MCO et du MV. Il faut relever que ceci
ේ1 𝑋ത et 𝛽
σ ത2
𝑋𝑡 −𝑇𝑋
n’est toujours pas le cas. En outre, dans des situations très complexes, la MM fournit un moyen simple et à convenance pour
obtenir un estimateur convergent.
D’une façon générale, on doit retenir que les estimateurs sont des formules et représentent des variables aléatoires tandis que les
estimations sont des valeurs des variables aléatoires. Cette distinction est fondamentale.
Une fois les estimations des MCO obtenues, ces dernières peuvent être interprétées dans le cadre du modèle économique
considéré. Par exemple, si nous avons après estimation obtenu le modèle suivant :
yˆ t = 40.7676 + 0.1283xt , la valeur ˆ1 = 0.1283 est une estimation de 1
C’est la valeur par laquelle yt augmentera à la suite de l’augmentation de xt d’une unité. Ainsi,
si xt augmente de 100 unités, alors yt augmentera de 12.83 unités. Pour ce qui concerne le terme
constant, ˆ0 = 40.7676 , c’est la valeur de yt lorsque xt est nulle. Dans la plupart des modèles
économiques, nous devrons être prudent dans l’interprétation de ̂ 0 dans la mesure où en
général il n’y a pas de point de données où x est nulle. Quoique le modèle suggère que yt =
40.7676 lorsque xt=0, il serait très risqué de prendre cette assertion de façon littérale.
II-6 Calcul des élasticités à partir d’un modèle de régression.
Soit le modèle de demande suivant : Qt =0 +1Pt +t . On sait à partir des principes de
microéconomie que l’élasticité de toute variable Qt par rapport à une variable Pt est donnée
par l’expression suivante :
Q Q Qt P
P = Qui dans le cas d’une estimation peut se réécrire comme suit : P =
P P Pt Q
.
Partant du modèle ci-dessus, prenons sa dérivée par rapport à Pt. On a : Qt = 1 .
Pt
P
Ainsi, P = 1 P . Lorsque le modèle est estimé on a : P = ̂1
Q Q
Rappelons que notre première hypothèse était celle de la linéarité. C’est sous cette hypothèse que nous avons estimé les
paramètres du modèle classique. A quoi devrions-nous faire face si cette hypothèse n’était plus vérifiée ? Comme la linéarité
dont il est question est la linéarité dans les paramètres et non dans les variables, il est possible que si nous sommes confrontés
à un modèle non linéaire, nous puissions le transformer en modèle linéaire et se faisant appliquer les techniques d’estimation
ci-dessus. Toutefois, lorsque le modèle ne peut être transformé en modèle linéaire, nous devons avoir recours à d’autres
techniques d’estimation.
Quelques formes fonctionnelles usuelles
Type Modèle statistique Pente Elasticité
X
1- Linéaire Yt = 0 + 1 X t + t 1 1 t
Yt
1 1 1
2- Inverse Yt = 0 + 1 + t − 1 − 1
Xt X t2 X t Yt
Yt
3- Double log ln Yt = 0 + 1 ln X t + t 1 1
Xt
4- Log-linéaire (exponentielle) ln Yt = 0 + 1 X t + t 1Yt 1 X t
1 1
5- Semi-log (lin-log) Yt = 0 + 1 ln X t + t 1 1
Xt Yt
1 Y 1
6- Log-inverse ln Yt = 0 − 1 + t 1 t2 1
Xt Xt Xt
II-8 Exercices d’application
On vous donne les informations suivantes : T=20 ; X =7 ; Y =70 ; X =38 ; X tYt =196 .
t
2
Estimer les paramètres du modèle en utilisant l’une ou l’autre des approches et donner une
première interprétation de ces derniers.
CHAPITRE III : PROPRIETES DES ESTIMATEURS
III.1 Introduction
Dans le chapitre précédent, nous avons présenté et estimé le modèle de régression linéaire simple, sans
toutefois nous poser de questions sur la fiabilité ou la qualité des estimateurs obtenus. Etant donné l’objectif de
l’économétrie qui est d’aider à la prise de décision, il est essentiel que l’on s’assure que les estimateurs obtenus
ont des propriétés désirables et donc fiables. Le présent chapitre va donc nous permettre de mieux apprécier les
estimateurs obtenus dans le chapitre précédent.
Les propriétés que nous allons considérer et qui sont appelées propriétés désirables sont : être linéaire, être sans
biais et avoir la plus petite variance.
Si les estimateurs ont ces propriétés, on dira qu’ils sont les meilleurs estimateurs linéaires sans biais (BLUE ➔
Best Linear Unbaised Estimator).
III.2 La linéarité
ˆ =
(X − X )(Y −Y )= (X − X )Y
t t t t
(à démontrer).
(X − X ) (X − X )
1 2 2
t t
Si nous posons x t = X t − X et y t = Yt − Y , on a :
ˆ1 =
xt y t
=
x Y t t
. (3.1)
x 2
t x 2
t
xt
Posons encore que wt = , (3.2)
xt2
ˆ1 = wt ( 0 + 1 X t + t ) = 0 wt + 1 wt X t + wt t
Notons que w t = 0 et w X t t = 1.
Preuve :
x
wt = 0 wt = x = X X
t
, or, x t = X t − X . Ainsi donc, − TX . Or = TX .
x 2
t
t t t
w X =1 x X or x = X − X ➔ x X = (X − X )X
wt X t =
t t
t t
x 2 t t t t t t
t
(X − X )X = (X − X )X = 1 ➔ w X = 1.
w X
t t
= t t
(X − X ) (X − X )X
t t 2 t t
t t t
En considérant les résultats ci-dessus, on peut réécrire ˆ1 comme suit :
On a donc, ̂ 0 =
Y t
− X wt Yt . Prenons l’espérance mathématique de cette expression,
T
E ( wt Yt ) = E ( ˆ1 ) = 1
Var( wt Yt ) = Var(w1Y1 ) + var( w2Y2 ) + ... + var( wnYn ) puisque les différentes valeurs de Yt sont indépendantes les unes des autres
xt x t2
Var( wt Yt ) = w comme wt =
2 2
➔ w =
2
t
xt2
t
x
2 2
t
Var ( wt Yt ) =
x 2
2
w =
t
2 2 2
=
t
x
2 2
t x 2
t
2
Var ( ˆ1 ) =
x 2
t
• Déterminons la variance de ̂ 0
1
comme ht = − Xwt ,
T
2
1 1 2 Xwt
➔ h = − Xwt = 2 −
t
2
+ X 2 wt2 (3.17)
T T T
1 2 Xwt 2 2 N 2 X wt
t T 2 T
h 2
= − + X w
t = 2
−
T
+ X 2 wt2 (3.18)
T
1
Or, w = 0 et w 2
=
xt2
t t
T X2
➔ h = 2 + 2
(3.19)
xt2
t
T
• Variance minimale
Il nous faut montrer que les estimateurs des MCO ont la plus petite variance dans la classe des estimateurs linéaires sans biais.
Pour atteindre notre objectif, il nous faut prendre un estimateur de la classe des estimateurs linéaires sans biais et montrer que sa
variance est supérieure à celle des estimateurs des MCO
~
Soit 1 = ct Yt cet estimateur. Avec ct = wt + kt.
~
De par sa définition, 1 = ct Yt est une fonction linéaire de Yt.
~ ~
Montrons que 1 est sans biais i.e. E ( 1 ) = 1 .
~
1 = ct Yt (3.21)
On sait que Yt = 0 + 1 X t + t
~
➔ 1 = c t ( 0 + 1 X t + t ) = 0 c t + 1 c t X t + c t t (3.22)
~
E ( 1 ) = 0 ct + 1 ct X t + ct E ( t ) (3.23)
Comme ct = wt + kt ➔ c = w + k
t t t . Or nous savons que w
t =0.
Examinons ct X t .
c X = (w
t t t + k t )X t = wt X t + k t X t = 1 ? Nous savons que wt X t = 1 .
c = w
2
t
2
t + 2 wt k t + k t2 (3.33)
xt xt k t x k (X − X )k
wt k t
t t t t
Or wt = , ➔ w k = ➔ = = (3.34)
t
x 2 t t
tx 2
x 2
tx 2
t
Le numérateur se décompose comme suit :
➔ c = w + k
2
t
2
t t
2
(3.35)
➔ Var ( c Y ) = c = ( w + k ) = Var ( )
2 2 2 2~ 2
t t t t t 1 (3.36)
~
Var ( 1 ) = 2 wt2 + t2 k t2 (3.37)
ˆ1 à la plus petite variance dans la classe des estimateurs linéaires sans biais. Les estimateurs
obtenus à partir des MCO sont donc BLU.
• Déterminons la covariance entre ̂ 0 et ˆ1 i.e. Cov( ˆ 0 , ˆ1 )
Cov( ˆ 0 , ˆ1 ) = E ˆ 0 − E( ˆ 0 ) ˆ1 − E( ˆ1 ) (3.39)
Comme ̂ 0 et ˆ1 sont des estimateurs sans biais, nous pouvons écrire que :
Cov( ˆ 0 , ˆ1 ) = E ˆ 0 − 0 ˆ1 − 1 or on sait que : ̂ 1 = wt Yt et ˆ1 = 1 + wt t
( )
➔ ˆ1 − 1 = wt t
de même, ˆ 0 = Y − ˆ1 X et Y = 0 + 1 X
( )
➔ ˆ 0 = 0 + 1 X − ˆ1 X ➔ ˆ 0 − 0 = − X ˆ1 − 1 ( ) (3.40)
( )(
Cov( ˆ 0 , ˆ1 ) = E − X ˆ1 − 1 ˆ1 − 1 ) (3.41)
Cov( ˆ 0 , ˆ1 ) = − XE w12 12 + w22 22 + 2w1 w2 1 2 + ... + wn2 n2 (3.44)
Cov( ˆ 0 , ˆ1 ) = − X w12 E( 12 ) + w22 E( 22 ) + 2w1 w2 E( 1 2 ) + ... + wn2 E( n2 ) (3.45)
Nous savons que E ( t ) = et que par l’hypothèse d’absence d’autocorrélation,
2 2
E ( t s ) = 0
E ( t s ) = 0 . On a donc :
− X 2
➔ Cov( ˆ 0 , ˆ1 ) = (3.47)
x 2
t
On constate que toutes les variances sont fonction de , il nous faut par conséquent l’estimer.
2
Estimation de la variance résiduelle : ˆ
2
•
Si nous estimons ce modèle, nous obtenons ce qui suit : yˆt = ˆ1xt . (3.51)
Partant de ce résultat, nous pouvons obtenir les résidus en faisant la différence entre yt et ŷt i.e.
t
ˆ
e 2= ( t − )2
−2 ˆ
1 − (
1 ( t −)
)xt + ˆ
1 −(1 )
2
xt2 (3.54)
( ) (
E[eˆt2]=E[( t − ) ]−2E[ ˆ1−1 ( t − )xt ]+ E ˆ1−1 xt2
2 2
) (3.55)
2
( )
A = E ( t − ) = E t2 − 2 t + 2 = E t2 − 2 t + T 2 (3.56)
➔ A= E t
2
− 2T 2 + T 2 = E t2 − T 2 = E t2 − TE 2 ( ) (3.57)
( )2
Or on sait que =
T
t
, on a donc : A = E ( )t
2
− TE
t
(3.58)
T2
E ( t )
1 2
➔ A = T 2 − (3.59)
T
E t = E(1 + 2 +...+ n )(1 + 2 +...+ n )
2
(3.60)
➔ E t
2
= 2 + 2 + ... + 2 = T 2 (4.62)
On a donc :
1 (3.63)
A = T 2 − T 2 = 2 (T − 1)
T
(
Attaquons nous à la deuxième composante. B= E ˆ1− 1 ( t − )xt ) (3.64)
B= E 2 • xt t = 1 2 E xt t
xt t
2
(3.66)
xt xt
➔ 1 x2 E( 2)+ x2 E( 2)+2x1x2 E(1 2)+...+ xn2 E( n2) (3.69)
xt2
1 1 2 2
2
( )
Nous savons que E ˆ1 − 1 =Var(ˆ1)= 2
2
(3.72)
x t
on a donc C = 2 (3.74)
➔ E eˆ =
2
t
2
(T − 1) − 2 2 + 2 (3.76)
➔ E eˆ =
2
t
2
(T − 1) − 2 = 2 (T − 2) (3.77)
➔ 2 =
E eˆt2 (3.78)
T −2
Ainsi donc, une estimation de la variance résiduelle est donnée par :
ˆ
2
=
eˆ2
t (3.79)
T −2
Ce résultat peut être généralisé dans le cas du modèle à k variables explicatives, pour donner :
ˆ
2
=
eˆ 2
t
(3.80)
T −k
III-5- Exercices d’application
CHAPITRE 4 EVALUATION DU MODELE DE REGRESSION LINEAIRE SIMPLE
Les problèmes de prise de décision en économie nécessitent une base solide. Cette dernière peut-être, qu’un paramètre
donné à telle ou telle valeur, ou que ce dernier est nul. Ainsi, nous voulons tester par exemple que la valeur du paramètre
estimé est nulle, positive ou négative, ce faisant, nous parlons de test d’hypothèse. Chaque test d’hypothèse comprend
quatre composantes qui sont : i) une hypothèse nulle, ii) une hypothèse alternative, iii) une statistique et iv) une région
critique ou zone de rejet.
Celle-ci est une hypothèse logique, notée H1 que nous acceptons si l’hypothèse nulle H0 est rejetée. L’hypothèse alternative est
flexible et dépend dans une certaine mesure de la théorie économique.
❖ H1:2 0 . Ici, rejeter l’hypothèse nulle conduit à la conclusion que le paramètre 2 est
positif (on parle de test unilatéral).
❖ H1:2 0 . Ici, rejeter l’hypothèse nulle conduit à la conclusion que le paramètre 2 est
négatif (on parle de test unilatéral).
IV-1-3- La statistique
L’information relative à l’hypothèse nulle est contenue dans la valeur calculée (estimée) d’une statistique. Sur la base de cette
statistique qui est elle-même une variable aléatoire, on décide de rejeter l’hypothèse nulle ou de ne pas la rejeter. La statistique
d’un test a des caractéristiques spéciales par exemple, sa distribution de probabilité (loi de probabilité) doit être connue lorsque H0
est vraie et elle doit avoir une autre loi de probabilité lorsque H0 n’est pas vraie.
Notons que les propriétés des estimateurs des MCO que nous avons développés ne dépendent pas de l’hypothèse de
normalité. Toutefois, sur la base de l’hypothèse selon laquelle
nous pouvons dire que les estimateurs des MCO suivent eux aussi une loi normale et cela pour deux raisons :
Puisque t suit une loi normale, il en va de même de Yt, puisque Yt =0 +1 X t +t
1 X 2 2
ˆ
0 → N 0, + , (4.1)
T xt2
2
ˆ1→ N 1, 2 (4. 2)
x
t
2
Considérons le cas de ̂1 i.e. ˆ1→ N 1, 2 .
xt
Nous pouvons normaliser cette variable aléatoire normale en lui soustrayant sa moyenne
ˆ1 − E(ˆ1)
et en divisant le résultat par son écart-type i.e. Z = → N(0,1) (4.3)
Var(1)ˆ
Ainsi, toute variable aléatoire normale peut-être normalisée pour obtenir une variable aléatoire normale centrée réduite.
Zt = t →N(0,1) (4.5)
et nous savons car nous l’avons vu, que la somme des carrés d’une variable aléatoire normale centrée réduite suit un Chi
deux avec T degré de liberté i.e.
2 2
eˆ eˆt (T − 2)ˆ 2
V = t = = → (2T − 2) (4.7)
2 2
Souvenons-nous de ce que le ratio d’une variable aléatoire normale centrée réduite par
la racine carrée d’une variable aléatoire de 2 qui a été divisé par son degré de liberté
suit une loi de Student (t) i.e.
t = Z →t(m) (4.8)
V
m
(ˆ 1 − 1 ) (ˆ
1 − 1 )
2 2
t=
x 2
t
=
x 2
t
, (4.9)
(T − 2)ˆ 2
(T − 2)ˆ 2
2 2 (T − 2)
(T − 2)
ˆ1 − 1 2
➔t= , (4.10)
2
ˆ
2
x 2
t
ˆ1 − 1
➔t = → t (T − 2 ) (4.11)
Var ( ˆ1 )
La région critique est l’ensemble des valeurs de la statistique qui conduisent au rejet de l’hypothèse nulle. On
ne peut construire une région critique que si la loi de probabilité de la statistique est connue lorsque H0 est
vraie. Dans la pratique, la région critique est un ensemble de valeurs de la statistique telle que quand H0 est
vraie, ces valeurs ont une faible probabilité de se produire. Graphiquement, on partitionne l’espace de
l’échantillon en deux régions (région de rejet et région de non rejet) de sorte que si la statistique tombe dans la
zone de rejet, l’hypothèse nulle est rejetée. Si par contre elle tombe dans la région de non rejet, l’hypothèse
nulle n’est pas rejetée.
Rejeter Rejeter
H0 H0
Ne pas rejeter
H0
❖ L’hypothèse nulle est vraie et que nous décidons de la rejeter (nous commettons une erreur de type I),
❖ L’hypothèse nulle est fausse et que nous décidons de ne pas la rejeter (nous commettons une erreur de type II).
Quand nous rejetons l’hypothèse nulle, nous risquons une erreur de type I. La probabilité associée à cette erreur est et représente
le seuil de significativité du test d’hypothèse. est sous notre contrôle, c’est à dire que nous décidons de la probabilité que nous
voulons associer à l’erreur de type I. Si nous savons que ce type d’erreur peut nous coûter très cher, alors nous pouvons choisir un
seuil de significativité qui soit petit, peut-être = 0.01, = 0.05 ou = 0.10.
Nous risquons une erreur de type II lorsque nous ne rejetons pas l’hypothèse nulle alors qu’elle est fausse. La probabilité
de commettre une erreur de type II n’est pas nulle. Qui plus est, cette dernière ne dépend pas de nous et nous ne pouvons
pas non plus la calculer dans la mesure où elle dépend de la vraie valeur (inconnue) du paramètre en question. Toutefois,
nous savons ceci par rapport à l’erreur de type II.
❖ La probabilité de commettre une erreur de type II varie en sens inverse du seuil de significativité du test () . Si on choisit de
rendre petit, la probabilité de commettre une erreur de type II croît.
❖ Plus la vraie valeur du paramètre est proche de la valeur hypothétique du paramètre, plus élevée sera la probabilité de
commettre une erreur de type II. Ceci, dans la mesure où le test perd son pouvoir de discerner entre la vraie valeur et une
valeur incorrecte.
❖ Plus la taille de l’échantillon est grande, plus petite sera la probabilité de commettre une erreur de type II.
Dans la présentation des résultats de test statistique, il est devenu courant de présenter la valeur P du test. Cette dernière est
calculée par la détermination de la probabilité que la loi donnée peut prendre une valeur supérieure ou égale à la valeur absolue
de la statistique calculée. En utilisant la valeur P, on peut déterminer s’il faut rejeter ou non l’hypothèse nulle en la comparant
au seuil de significativité.
Récapitulatif
0 test unilatéral
❖ Tester H0: =0 contre H1:
0
0 test bilatéral
ˆ −0
❖ La statistique est donnée par ce qui suit : Zc = →N(0,1)
❖ Choisir
Zc Z test unilatéral
❖ Déterminer la région critique : rejeter H0 si : Zc −Z
Zc Z / 2 test bilatéral
Dans le cas ci-dessus, on fait l’hypothèse que la variance du paramètre est connue
avec certitude ( ̂2 est connue). Or en général, ̂2 n’est pas connue et doit être estimée à
partir de l’échantillon. On obtient ainsi, ˆ 2ˆ .
Lorsque nous remplaçons ̂2 par ˆ 2ˆ , la statistique développée ci-dessus ne suit plus une
loi normale centrée réduite mais plutôt une loi de Student (t). Une fois que ̂2 est
remplacée par ˆ 2ˆ , on a :
0 test unilatéral
❖ Tester H0: =0 contre H1:
0
0 test bilatéral
ˆ − 0
❖ La statistique est donnée par ce qui suit : t c = → t (T − K )
ˆ ˆ
❖ Choisir
tc t test unilatéral
❖ Déterminer la région critique : rejeter H0 si : tc −t
tc t / 2 test bilatéral
IV-2- Le coefficient de détermination
L’une des raisons fondamentales d’analyse du modèle Yt =0 + 1 X t +t est d’expliquer
comment la variable dépendante change lorsque la variable indépendante change. Ainsi
donc, en utilisant une variable indépendante, nous nourrissons l’espoir que les
changements ou variations de cette dernière expliquerons celles de la variable
dépendante. Afin de développer une mesure de la variation de Yt qui est expliquée par le
modèle, décomposons Yt en composante systématique et composante aléatoire. La
composante systématique est donnée par l’expression suivante :
E(Yt)=0 +1 X t alors que la composante aléatoire est donnée par t.
Soustrayons Y de part et d’autre de l’égalité ci-dessus, élevons chaque partie au carré et enfin
faisons la somme de part et d’autre, on a :
Y = ˆ0 + ˆ1 X . Ainsi, Yˆt −Y = ˆ0 + ˆ1 X t − ˆ0 − ˆ1 X = ˆ1(X t − X) (4.15)
ˆ1
ˆ
➔ Yt − Y = (TX i − X i ) (4.16)
T
ˆ1 ˆt
➔ (Yˆ − Y )ˆ
t t = ((TX − X )ˆ
t t t = (TX ˆ − X ˆ ) (4.17)
t t t t
T T
(Y −Y )
2
t est la somme totale des carrés (STC),
(Yˆ −Y )
2
t est la somme des carrés expliqués (SCE),
ˆ t
2 est la somme des carrés des résidus (SCR)
1= SCE + SCR
STC STC
SCE =1− SCR =R 2
STC STC
(4.25)
2
➔ R =1− ˆt2
(Y −Y )
2
t
➢ Le coefficient de détermination est une mesure descriptive et sa valeur est comprise entre 0 et 1. Ainsi, si R2 = 1 alors on dira
que les variations de la variable dépendante sont parfaitement expliquées par la ou les variable (s) indépendante (s).
➢ Si R2 = 0, alors on dira que les variations de la variable dépendante ne sont pas expliquées par la ou les variable (s) indépendante
(s).
➢ Lorsque 0 < R2 < 1, cela explique le pourcentage de variation de la variable dépendante expliqué par la ou les variable (s)
indépendante (s).
IV-3- Analyse du coefficient de corrélation
La covariance tout comme la moyenne et la variance, est une espérance mathématique. En effet, si X et Y sont des variables
aléatoires alors leur covariance qui mesure l’association linéaire entre ces deux variables est :
Si la covariance est positive, on dira qu’il y a une association positive entre les deux variables, par contre si la covariance est
négative, on dira qu’il y a une association négative entre les deux variables.
Si la covariance est nulle alors, il n’y a pas d’association entre les deux variables. Lorsque la covariance entre X et Y est
divisée par leur écart type respectif, on obtient le coefficient de corrélation noté ρ. Le coefficient de corrélation mesure le
degré d’association linéaire entre X et Y et est donnée par :
Si X et Y sont des variables aléatoires indépendantes alors leur covariance et coefficient de corrélation sont nuls. Toutefois,
l’inverse n’est pas vérifié.
IV.4. Analyse de la variance
IV-4-1 Introduction
L'analyse de la variance (ANOVA) est une méthode statistique utilisée dans la décomposition de la variation totale d'une variable
en composantes additives attribuables à des facteurs distincts. Ces facteurs constituent les sources de variations de la variable en
question. Ainsi, dans le cas d'une régression, on s'intéresse à la variable expliquée, et l'analyse de la variance permet de tester la
significativité globale du modèle en question.
Comme indiqué en introduction, l'ANOVA consiste à décomposer la variation totale d'une variable en composantes additives telle
que :
ˆ ˆ
2 2 2
(Yt −Y ) = (Yt −Y t ) + (Y t −Y ) (4.27)
2
T - K pour σ 𝑌𝑡 − 𝑌𝑡 puisque pour chaque coefficient estimé, nous perdons une information (observation) et comme
nous estimons K paramètres, nous perdons K observations sur l'ensemble des données.
T-1 pour σ 𝑌𝑡 − 𝑌ത 2
nous avons T observations et en estimant la moyenne de Yt, nous perdons une observation.
Les éléments ci-dessus peuvent être rangés dans un tableau que nous appellerons le tableau de l'analyse de la variance. Cette
dernière se présente comme suit :
Degré de
Source des Variations Somme des carrés Carrés Moyens Stat. de Fisher (F)
Liberté (DL)
Régression (SCE) 2
𝑌𝑡 − 𝑌ത K-1 σ 𝑌𝑡 − 𝑌ത
2
/(K-1)
(X1, X2, …., Xk) 2
σ 𝑌𝑡 − 𝑌ത ൗ 𝐾 − 1
𝐹𝑐 =
Résidus ou erreurs 2 σ 𝑒Ƹ𝑡2 Τ 𝑇 − 𝐾
𝑌𝑡 − 𝑌𝑡 = 𝑒Ƹ𝑡2 T-K σ 𝑒Ƹ𝑡2 /(T-K)
(SCR)
On sait que Yˆt = ˆ0 + ˆ1 X t (dans le cas du modèle de régression linéaire simple) et
Y = ˆ0 + ˆ0 X (4.29)
Yˆt −Y = ˆ0 + ˆ1 X t − ˆ0 − ˆ1 X (4.30)
Yˆt −Y = ˆ1(X t − X) (4.31)
Degré de
Source des Variations Somme des carrés Carrés Moyens Stat. de Fisher (F)
Liberté (DL)
Régression (SCE) 2 2
𝑌𝑡 − 𝑌ത K-1 = 1 𝑌𝑡 − 𝑌ത
𝛽12 σ 𝑋𝑡 − 𝑋ത 2
𝐹𝑐 =
Résidus ou erreurs 2 σ 𝑒Ƹ𝑡2 Τ 𝑇 − 2
𝑌𝑡 − 𝑌𝑡 = 𝑒Ƹ𝑡2 T-K = T-2 σ 𝑒Ƹ𝑡2 /(T-2)
(SCR)
A partir de l'analyse de régression et de l'ANOVA que nous venons de voir, nous pouvons tirer les éléments de
comparaison suivants :
1) Toutes les deux analyses visent la détermination des différents facteurs qui expliquent la variable dépendante.
2) Toutes les deux analyses fournissent des informations sur les composantes additives de la variation totale. En effet, dans le
cas de l'analyse de la régression, il a été fait cas de la composante systématique (représentée par la droite de régression) et
de la composante stochastique (attribué au terme d'erreur).
3) Seule l'analyse de régression permet d'obtenir des valeurs numériques de l'impact de chaque facteur explicatif sur la
variable expliquée et cela, à travers l'estimation des paramètres du modèle.
Considérons un échantillon de données sur deux variables aléatoires X et Y de taille T. Le coefficient de corrélation obtenu à
partir de cet échantillon est donné par l’expression suivante :
T T T
Coˆv( X , Y ) (xt − x )( yt − y ) ( xt − x ) (
t )
2 2
r= y − y
vâr( X ) vâr(Y ) côv( X , Y ) = t =1
, vâr ( X ) = t =1
et vâr (Y ) = t =1
T −1 T −1 T −1
Le coefficient de corrélation peut donc s’écrire comme suit :
T
(x t − x )( y t − y )
r= t =1
. (4.32)
T T
(
tx − x ) 2
(
ty − y ) 2
t =1 t =1
Il y a deux relations importantes entre le coefficient de corrélation et le coefficient de détermination. Ces relations sont :
Ainsi, la valeur de r2 est comprise entre 0 et 1 et mesure le degré d’association linéaire entre X et Y. Cette interprétation
n’est pas loin de celle du coefficient de détermination qui est la proportion des variations de Y autour de sa moyenne
expliquée par X dans un modèle de régression linéaire.
ii) Comme le carré du coefficient de corrélation est égal au coefficient de détermination alors il mesure la qualité
d’association entre les données d’un échantillon et leurs valeurs prédites.
IV-6- Prévision
Rappelons que l'un des principaux objectifs de la recherche économétrique est la prévision. Ainsi, toute recherche économétrique
devrait aboutir à des prévisions. Le terme prévision ici a un sens différent de celui qu’il reçoit dans le langage courant. Il ne s’agit
pas ici de prévision du futur mais plutôt de caractériser les simulations de politiques économiques que les estimations
économétriques rendent possibles. Ainsi, une prévision en elle-même n'a d'utilité que si nous connaissons sa précision. Il faut donc
en plus de la valeur prévisionnelle, fournir une estimation de l'erreur de prévision et la dispersion de cette erreur.
Soit le modèle suivant :
Yt =0 +1 X t +t , le modèle estimé se présente comme suit :
La vraie valeur prise par Y lors de la période sur laquelle porte la prévision sera donnée par :
Y0 =0 +1 X 0 +0 (4.36)
Où 0 désigne la perturbation aléatoire de la période en question. L'erreur de prévision peut-être
définie par :
= E 0 −(ˆ0 − 0)−(ˆ1 − 1)X 0
2
(4.42)
Var(ˆ0)=E 0 −20(ˆ 0−0)+(ˆ0 −0)2 +(ˆ1−1)2 X 0 −20(ˆ1−1)X 0 +2(ˆ0 −0)(ˆ1−1)X 0
2 2
2
( )
= E( 02 ) + E( ˆ0 − 0 ) 2 + E ˆ1 − 1 X 02 + 2 X 0 E( ˆ0 − 0 )( ˆ1 − 1 ) (4.45)
(
car E 0 ( ˆ0 − 0 ) = 0 ) de même
E 0 ( ˆ1 − 1 ) = 0
1 X2 X 02 2X 0 X
= ˆ 1 + +
2
+ − (4.49)
T xt xt xt2
2 2
(4.50)
1 (X 0 − X ) 2
Var ( 0 ) = 1 + +
ˆ ˆ ˆ 2
(Prévision ponctuelle)
T xt2
IC = Yˆ0 t / 2 * vâr(ˆ0 )
(4.54)
IV-7- Exercices d’application
CHAPITRE 5. LE MODELE DE REGRESSION LINEAIRE MULTIPLE : SPECIFICATION ET
ESTIMATION
V-1- Introduction
Pour des raisons de simplicité d’exposition, nous avons présenté dans le chapitre précédent le modèle de régression linéaire à
deux variables (une variable expliquée et une variable explicative). Dans le présent chapitre, nous allons étendre ce modèle en
considérant trois variables (une variable expliquée et deux variables explicatives).
C’est un modèle linéaire stochastique qui lie trois variables entre elles.
En plus des hypothèses précédentes, il faut ajouter celle d’absence de multicolinéarité entre les variables explicatives
(H9). Les variables explicatives d’un même modèle ne doivent pas avoir une très forte corrélation entre elles.
V.4 Estimation des paramètres du modèle de régression linéaire à deux variables explicatives par la MCO
(
ˆt2 = Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t )2
Il nous faut minimiser S. Dans le cas présent, nous ne nous attarderons pas sur les conditions de second ordre, puisqu’il est
démontré qu’elles sont vérifiées. Nous ne considèrerons que les conditions de premier ordre afin de déterminer les
estimateurs des différents paramètres. Nous devons donc chercher les dérivés de S par rapport aux différents paramètres.
On a donc :
ˆ0
( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t =0 (5.3)
ˆ1
( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t X1t =0 (5.4)
ˆ ( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t X 2t =0 (5.5)
➔ Y −Tˆ −ˆ X
t 0 1 1t −ˆ2 X 2t =0
A partir des équations normales ci-dessus, il nous faut déterminer les paramètres ̂ 0 , ̂1 et ̂ 2
. Réécrivons ces équations sous forme d’un système de trois équations à trois inconnues. On a :
Le système (5.6) peut se résoudre par la méthode de Cramer. Cherchons le déterminant du système .
ˆ0 =Y − ˆ1 X1 − ˆ2 X 2 (5.7)
Au-delà de trois variables, les manipulations deviennent fastidieuses d’où la nécessité de recourir à l’approche matricielle.
Il faut donc avoir à l’esprit que l’utilisation de l’approche matricielle permet de généraliser le modèle de régression simple.
V-5- Exercice d’application
CHAPITRE 6 : LE MODELE LINEAIRE GENERAL : SPECIFICATION ET ESTIMATION
VI-1- Spécification
où Yt est la variable dépendante ou expliquée, x1, x2, …, xk sont les variables indépendantes ou
explicatives et 1, …,k sont les paramètres à estimer. L’indice t identifie les différentes
observations. Lorsque xt1 = 1, on a notre modèle sous sa forme originale avec 1 comme terme
constant. Réécrivons le modèle ci-dessus en faisant ressortir chaque observation. On a :
Y = X + e (6.3)
Où Y a pour dimension (T x 1), X a pour dimension (T x k), B est un vecteur de dimension (k x
1) et e est un vecteur de dimension (T x 1). Ici, il nous faut déterminer le vecteur des paramètres
B. L’estimation peut se faire soit par la méthode des moindres carrés ordinaires soit par la
méthode du maximum de vraisemblance.
VI-2- Estimation
VI-2-1 : La méthode des moindres carrés ordinaires
Il nous faut minimiser la somme des carrés des erreurs. Ici, les erreurs sont représentées par :
ˆ
eˆ=Y − X (6.4)
( )(
ˆ Y − X
eˆ'eˆ= Y − X ˆ ) (6.5)
Imaginer que l’on ait par exemple (y− xb)2 on sait que le développement de cette expression
donne : y 2 −2yxb+(xb) . Donc dans le cas de la résolution matricielle, on a :
2
ˆ −
➔ eˆ'eˆ=Y'Y −Y' X ˆ ' X'Y +
ˆ ' X' X
ˆ (6.6)
Or Y'X̂ a pour dimension (1 x 1). C’est donc un scalaire. Il en est de même de ̂' X'Y . Il s’agit
donc d’une expression avec sa transposée. On peut donc les additionner et on aura : 2 ˆ ' X'Y .
ˆ ' X'Y +
➔ eˆ'eˆ=Y'Y −2 ˆ ' X' X
ˆ (6.7)
et les
Pour minimiser cette expression, la condition nécessaire exige que nous calculions les dérivées partielles par rapport à 𝐵′
égaler à zéro.
S =−2X'Y +2X' X
ˆ =0 (Condition de premier ordre)
ˆ
'
ˆ )=0
➔ −2(X'Y − X' X (6.8)
car (X’X)-1(X’X)=I
S.
CHAPITRE 7 : PROPRIETES DES ESTIMATEURS (DANS UN ECHANTILLON DE PETITE TAILLE)
VII-1- La linéarité :
ˆ =(X' X)−1 X'Y
On sait que
posons D =(X' X)−1 X' (7.1)
on a ̂= DY (7.2)
DX =( X' X ) X' X =I
−1
(7.4)
est sans biais
L’estimateur 𝑩
➔ ̂=+De (7.5)
()
➔ E ̂ =+ DE(e)
➔ E(̂)= (7.6)
VII-3- Efficience:
Calculons d’abord la variance de 𝑩
( ) ( ) ( )
ˆ =E
Var ˆ −E ˆ
ˆ −E ˆ (7.7)
()
ˆ =E
Var ˆ −
ˆ − (7.8)
Comme ̂−=De
()
On a Var ˆ = EDe De = EDee'D'= DE(ee')D'
Or E(ee')= 2 I
()
Var ˆ = 2(X' X ) X' X (X' X ) = 2(X' X )
−1 −1 −1
(7.9)
෩ = HY avec H = 𝑋 ′ 𝑋
𝑩 −1
𝑋′𝐶
෩ est linéaire et sans biais. Comme Y = XB + e, on peut réécrire 𝑩
De par sa définition, 𝑩 ෩ comme suit:
෩ = H(XB+e) = HXB + He
𝑩
Car E(e) = 0.
HX = 𝑋 ′ 𝑋 −1
𝑋 ′ 𝑋 + 𝐶𝑋 = 𝐼 + 𝐶𝑋
si CX = 0
Var () = E − E () − E ()
(7.18)
alors HX = I
Var () = E − −
(7.19)
E(𝑩෩ )=B
or = + He
෩
Cherchons la variance de 𝑩 ➔ − = He
( )
➔ Var = 2 HH ' (7.20)
Remplaçons H par son expression, on a :
car CC’ est une matrice semi définie positive. L’estimateur ̂ est un estimateur efficace par
rapport à tout autre estimateur de la classe des estimateurs linéaires sans biais. L’estimateur ̂
Var () = 2 ( X ' X ) X '+C ( X ' X ) X '+C
−1 −1
(7.21)
est donc BLU.
Var () = ( X ' X )
X ' X ( X ' X ) + ( X ' X ) X ' C '+CX ( X ' X ) + CC'
2 −1 −1 −1 −1
(7.22)
()
➔ Var = 2 ( X ' X ) + 2 CC'
−1
(7.23) Cette propriété est aussi valable pour l’estimateur du
➔ Var ( ) Var (ˆ )
maximum de vraisemblance.
(7.24)
−1
eˆ = Y − X ( X X ) X Y = I − X ( X X ) X Y
−1
(7.26)
Posons M = I − X ( X X )
−1
X (7.27)
on a ainsi :
eˆ = MY (7.28)
Remplaçons Y par son expression. On obtient :
eˆ = M ( X + e) = MX + Me (7.29)
comme M = I − X ( X X )
−1
X,
alors on a : MX = I − X ( X X )
−1
X X (7.30)
➔ MX = X − X ( X X )
−1
X X
➔ MX = X − X = 0 (7.31)
ˆ = Me
➔ e (7.32)
La matrice M est une matrice symétrique et idempotente c'est-à-dire que M / M = M = M 2
Avant de poursuivre, rappelons quelques éléments sur la trace d’une matrice. La trace d’une
matrice A(k x k) carré est la somme de ses éléments diagonaux. C'est-à-dire :
K
tr ( A) = aii
i =1
eˆ = Me cherchons eˆeˆ . On a :
eˆˆe = eM Me (7.33)
eˆˆe = eMe (7.34)
Eeˆˆe = EeMe (7.35)
Or M = I − X ( X X )
−1
X
(
➔ tr (M ) = tr I − X ( X X )
−1
X ) (7.40)
(
➔ tr (I (TxT ) ) − tr X ( X X )
−1
X ) (7.41)
➔ T − tr ( X X )( X X )
−1
(7.41)
➔T − K (7.42)
Donc, tr(M ) = T − K (7.43)
Par propriétés asymptotiques, nous voulons savoir les propriétés de convergence des estimateurs lorsque T croît
indéfiniment. Pour cela, posons d’abord que
X X
lim =Q (7.46)
T →
T
où Q est une matrice finie non singulière. Cette hypothèse signifie que lorsque T croît, les éléments de X’X ne
croissent pas à un taux plus élevé que T et que les variables explicatives ne sont pas linéairement indépendantes.
~
a) Convergence de l’estimateur ˆ = = ( X X )−1 X Y .
On sait que Y = X + e avec E(e) = 0 et E (ee) = 2 I . Si l’échantillon est très grand, on
s’attend à ce que l’estimateur ˆ soit très proche de avec une probabilité très élevée, c'est-à-
( )
dire lim P ˆ − = 1
T →
(7.47)
Où est un nombre arbitraire positif très petit. Ce qui veut dire que la probabilité que ˆ
tombe dans l’intervalle − ; + est approximée à 1 étant donné la taille assez grande de
l’échantillon.
Si ce qui précède est correct, et que ˆ est un estimateur sans biais de , alors on dit que ˆ
P lim ˆ = (7.48)
( )
P lim X 2 = (P lim X )
2
(7.49)
P lim (X ) = (P lim X )
−1 −1
(7.50)
P lim A • B = P lim A • P lim B (7.51)
A
P lim = P lim A / P lim B (7.51)
B
P lim (cons tan te) = cons tan te (7.52)
X e
P lim ˆ = + Q −1 • P lim (7.58)
T
X e 1 1 T
Regardons de près l’expression P lim = on a : X e = xi ei si on pose xi ei = wi
T T T i =1
alors
1 1 T
on a X e = wi = w (7.59)
T T i =1
Théorème (convergence en moyenne quadratique)
Un estimateur ˆ converge en moyenne quadratique vers le paramètre s’il est
asymptotiquement sans biais et si sa variance est asymptotiquement nulle.
1
Le corollaire de ce théorème est que P lim g (xi ) = E g (xi ) (7.60)
T
il s’en suit que
X e
P lim
T
1
T
1
T
= P lim xi ei = E xi ei (7.61)
de .
T T
2 X X
• (7.65)
T T
converge
X X
or Tlim =Q
→
T
2
var (w ) = Q
r
(7.66)
stimateu
T
2
P lim (var (w )) = P lim Q = 0 (7.67)
T → T →
T
onc un e
Il s’en suit que :
−1
X X X e
P lim ˆ = + P lim • P lim
T T
ˆ est d
➔ P lim ˆ = + Q • 0
➔ P lim ˆ = (7.68)
b) Convergence de l’estimateur ˆ 2
P lim Z t = (7.69)
➔ loi faible des grands nombres.
En d’autres termes, on dira que : la moyenne d’une variable aléatoire calculée à partir d’un
échantillon aléatoire qui est identiquement et indépendamment distribué, est un estimateur
convergent de la moyenne de la population.
Ainsi, si nous considérons le carré des résidus comme un échantillon aléatoire identiquement
et indépendamment distribué avec comme moyenne de la population E (ee) = 2 , la moyenne
1 1 T 2
de l’échantillon est donnée par l’expression suivante : ee = et (7.70)
T T t =1
ee
D’après le théorème de Khintchine, on a : P lim =2 (7.71)
T
Nous sommes maintenant en mesure de démonter la convergence de ˆ 2 . On sait que :
eˆeˆ
ˆ 2 = rappelons que eˆ = Me
T −K
e = eMM e = eMe avec M = I − X ( X X )−1 X
➔ eˆˆ
1
➔ ˆ 2 = eMe (7.12)
T −K
➔ ˆ 2 =
1
T −K
(
e I − X ( X X ) X e
−1
) (7.13)
➔ ˆ =
2 ee
−
eX ( X X ) X e
−1
(7.14)
T −K T −K
T ee eX X X −1 X e
➔ ̂ =
2
− • • (7.15)
T −K T T T T
T ee eX X X
−1
X e
➔ P lim ˆ 2 = P lim P lim − P lim • P lim • P lim
T −K T T T T
➔ P lim ˆ 2 = 2 (7.16)
Dans le chapitre 4, nous avons testé la significativité des paramètres estimés. Dans cette optique, nous avons conduit
des tests individuels sur les paramètres. Dans le présent chapitre, nous nous penchons sur le modèle dans sa globalité
et pour se faire, nous utilisons le test de Fisher (F), et nous considérons le modèle de régression multiple suivant :
Yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + t (8.1)
Fc =
(STC − SCR) / (k − 1) → F (8.2)
SCR / (T − k )
( k −1;T − k )
où R est une matrice donnée de format JxK avec J ≤ K et r un vecteur donné de J éléments.
Supposons aussi que R est de rang J, c’est-à-dire que les contraintes sont linéairement indépendantes.
L’équation ci-dessus permet de tester une gamme très large d’hypothèses se présentant sous la formulation suivante :
H 0 : R = r contre H1 : R r
Dans le cas présent R est constitué d’une seule ligne (J=1) avec 1 à la ième place et des zéros partout ailleurs, tandis
que r est le nombre zéro.
➔ R = 0 0 1 0 0 et r = 0 (8.3)
1. H 0 : 2 − 3 = 0 contre H1 : 2 − 3 0
➔ R = 0 1 − 1 0 et r = 0 (8.4)
1. H 0 : 3 + 4 = 1 contre H 1 : 3 + 4 1
➔ R = 0 0 1 1 0 et r = 1 (8.5)
2 0 2 0
0 0
1. H 0 : = 3 = contre H 1 : = 3
k 0 k 0
0 1 0 0 0
0 0 1 0 0
➔R = et r = (8.6)
0
0 0 0 1 0
Cette hypothèse signifie que les variables explicatives n’exercent aucune influence sur la variable expliquée. Le
nombre de contraintes à tester détermine le nombre de ligne de la matrice R et le nombre de coefficients estimés
détermine le nombre de colonne de R.
Pour tester cette hypothèse (qui est le test général), il nous faut connaître la loi de R .
( )
( ( ))(
❖ var Rˆ = E Rˆ − E Rˆ Rˆ − E Rˆ ( )) (8.8)
( )
(
➔ var Rˆ = E Rˆ − R Rˆ − R )( ) (8.9)
( )
(
)(
➔ var Rˆ = E R ˆ − ˆ − R ) (8.10)
( )
−1
➔ var Rˆ = E R ( X X ) X eeX ( X X ) R
−1
(8.11)
( )
➔ var Rˆ = R( X X )−1 X E (ee)X ( X X )−1 R or E (ee) = 2 I
➔ var (Rˆ ) = R( X X )
2 −1
X X ( X X ) R
−1
➔ var (Rˆ ) = R( X X )
2 −1
R = R 2 ( X X ) R
−1
(8.12)
()
Le problème avec cette expression est que cov ˆ = 2 ( X X )−1 or 2 est inconnue.
eˆeˆ
Toutefois, on sait que → (2T − K ) (8.16)
2
eˆeˆ
or ˆ 2 = ➔ ˆ 2 (T − K ) = eˆeˆ .
T −K
Si on divise les termes qui sont de part et autre de l’égalité par
2
ˆ 2 (T − K )
on a : → 2
(T − K ) (8.17)
2
(8.18) Rˆ − R
2
R( X X ) R Rˆ − R J
−1 −1
ˆ (T − K )
➔F = (8.19)
ˆ 2 (T − K )
2
(T − K ) (T − K )
2
2
➔F =
Rˆ − R R( X X ) R Rˆ − R J
−1 −1
(8.20) ➔F =
Rˆ − R R( X X ) R Rˆ − R J
−1 −1
(8.21)
2 ˆ 2 (T − K ) ˆ 2
(T − K )
2
2
➔ F = R − R ˆ R( X X ) R Rˆ − R J
ˆ −1 −1
(8.22)
1 ˆ
J
−1
()
➔ F = R − R R côv R Rˆ − R → F( J ;T − K )
ˆ (8.23)
VIII-2- Relation entre F, R2 et t2
/ (k − 1)
2
2 R
Nous voulons montrer que t =F=
(1 − R )/(T − k )
2
(8.24)
Montrons d’abord que t2 =F, partons du modèle simple Yt =0 +1 X t +t . Nous savons que
Y =0 + 1 X , tel que Yt −Y =1(X t − X )+t posons yt =Yt −Y et xt = X t − X
➔ yt =1xt +t ce modèle une fois estimé nous donne : yˆt = ˆ1xt si nous revenons à
l’expression de départ, nous avons : Yˆt −Y = ˆ1(X t − X ) . Élevons cette expression au carré et
faisons la sommation.
(STC − SCR) / (k − 1)
(Yˆ −Y ) =ˆ (X − X )
2 2
On obtient : 2 or nous avons Fc =
SCR / (T − k )
t 1 t
(SCE ) / (k − 1) ˆ1 (X t − X ) / (k − 1)
2 2
➔ Fc = = (8.25)
SCR / (T − k ) eˆt2 /(T − k )
ˆ1 − 1
Nous savons aussi que t = → t (T −k ) sous l’hypothèse que 1=0 , on a :
Vaˆr ( ˆ1 )
ˆ1 2 ˆ12
t= → t (T − k ) élevons t au carré. On a : t = (8.26)
ˆ ˆ
1
Vaˆr ( ˆ1 )
(X − X) T −k
2
t
ˆ12 (X t − X )
2
ˆ12
➔ t2 = = (8.27)
ˆ
2
ˆ 2
(X − X)
2
t
or, ˆ 2 =
eˆ 2
t
,
T −k
(STC − SCR)
(X
ˆ 2 − X) (k − 1) =
2
1 t SCE /( k − 1)
➔ t2 = = (8.28)
eˆ 2
t
SCR
(T − k )
SCR /(T − k )
(T − k )
(SCE / STC )
(k − 1) R 2 /( k − 1)
: t = Fc =
2
= (8.29)
(SCR / STC ) (1 − R 2 ) /(T − k )
(T − k )
VIII-3- Critère d'inclusion de variables additionnelles
Partant du coefficient de détermination R2 que nous avons calculé précédemment. Nous avons dit que R2 mesurait la proportion
des variations de la variable dépendante expliquée par le modèle de régression. Ainsi, le R2 peut-être utilisé pour comparer
différentes spécifications de variables indépendantes d’un même modèle.
ii. le R2 est sensible au nombre de variables explicatives utilisées dans le modèle de régression. Ainsi, plus le
nombre de variables explicatives augmente, plus le R2 est élevé, de sorte que le chercheur peut maximiser R2 en
ajoutant plus de variables explicatives au modèle.
iii. l'interprétation et l'utilisation de R2 deviennent difficiles lorsque le modèle estimé n'a pas de terme constant.
On ne peut donc pas en règle générale se baser sur le R2 pour inclure une variable additionnelle dans un modèle de
régression.
VIII.3.1. : Le R2 ajusté : R 2
La principale critique à l'endroit du R2 est qu'il ne tient pas compte du degré de liberté. Cette faiblesse est corrigée par l'utilisation
du 𝑅ത 2 en lieu et place de R2
Afin de résoudre le problème de la non prise en compte des degrés de liberté,
Rappelons que : R 2 = ( Y )
ˆt −Y 2
ˆt
2 définissons 𝑅ത 2 en termes de variance puisque la variance se définit comme le
2 =1−
(Y t −Y ) (Yt −Y)2 ratio des variations par rapport au degré de liberté. Ce faisant, nous éliminons
la dépendance de R2 par rapport au nombre de variables explicatives.
R = 1−
2 Vaˆr (ˆt )
où Vaˆr (ˆ ) =
ˆ
t
2
(8.30)
t
Vaˆr (Yt ) T −K
Il est clair que pour chaque variable additionnelle, aussi bien le numérateur que le dénominateur changera puisque :
R = 1−
2 ˆ t
2
*
T −1
(8.31)
(Yt − Y ) 2 T −K
SCR T − 1
R 2 = 1− * (8.32)
STC T − K
or
SCR STC SCE
STC = SCE + SCR = − (8.33)
STC STC STC
Si K 1 alors R2 R 2
iv) il est possible que R 2 0 ; dans un tel cas on considère qu'il est nul.
VIII.3.2. : Comparaison de modèles sur la base de R 2 ou R2
Très souvent, les chercheurs veulent comparer deux modèles estimés afin de déterminer lequel est meilleur. Une telle
comparaison ne peut se faire, en utilisant le R2 ou 𝑅ത 2 que si les modèles en question ont la même variable dépendante.
Le critère qui est souvent utilisé pour décider de l'ajout ou non d'une variable additionnelle est basé sur 𝑅ത 2 . Si en ajoutant la
variable en question au modèle, on observe une augmentation de 𝑅ത 2 , alors on retient cette dernière, même si elle n'est pas
.
statistiquement significative.
CHAPITRE 9 : TEST DE STABILITE DES COEFFICIENTS (CHANGEMENT STRUCTUREL)
Ce test fait l’hypothèse que la variance des perturbations aléatoires est la même sur les deux sous périodes. Ainsi, avant de
conduire le test de Chow, il est nécessaire de tester l’égalité des variances sur les périodes considérées. Soient les modèles
suivants :
Y = X1 + e1 t T1 (9.4)
Y = X 2 + e2 t T2 (9.5)
avec T = T1 + T2
Le test de Chow teste l’hypothèse suivante :
H 0 : 1 = 2 et 12 = 22 contre H1 : 1 2 ou 12 22
H 0 : 12 = 22 contre H 1 : 12 22
La statistique est donnée par l’expression suivante :
SCR2 T1 − K
Cv = → F( :T2 − K ;T1 − K ) (9.6)
SCR1 T2 − K
➔ rejeter H 0 si Cv F
Si 𝑯′𝟎 est rejetée, il n’y a plus de raison de poursuivre le test. Il faut chercher un autre test.
Par contre si 𝑯′𝟎 n’est pas rejetée, alors on continue pour tester l’hypothèse selon laquelle 1 = 2
Ici, deux cas de figure se présentent
➢ et le cas où il n’ y a pas assez d’observations après le choc pour effectuer une régression.
a- Cas ou il y a assez d'observations après le choc pour constituer un échantillon séparé
SCRT =ˆT2
5) Additionner SCR et SCR2 de même que les dl correspondants
ˆ 2
1 + ˆ22
dl T1 − K + T2 − K = T1 + T2 − 2K
dl➔ T1 + T2 – K – T1 – T2 + 2K = K
FC =
ˆ 2
T − ( ˆ12 + ˆ 22 ) / K ~ F ; (K ; T1 + T2 − 2K ) (9.8)
( ˆ 2
1 + ˆ 2
2 )/ (T
1 + T2 − 2 K )
Lorsque la série n’est pas suffisamment longue pour faire une régression sur l’une ou l’autre des périodes, on peut
toujours utiliser le test de Chow pour tester la stabilité des paramètres. Pour se faire, on incorpore les ajustements apportés
par Fisher en 1970. Ces ajustements sont décrits ci-dessous
Yt = 1 X 1 + 2 X 2 + ... + K X t + t (9.10)
1) Définir les hypothèses nulles et alternatives (H 0 et H1 )
H0:i =i
H1 : i i
Où i sont les paramètres du modèle initial basé sur un échantillon de taille T1 , et i sont les
paramètres du même modèle basé sur un échantillon augmenté de taille T1 + T2 , T2 étant les
observations après le choc.
ˆ =SCR
2
1 1 et dl (degré de liberté) = T1 − K
ˆ =SCR
2
2 2 et dl = T1 + T2 − K
4) calculer la différence entre les sommes des carrés des erreurs
SCR2 −SCR1=ˆ22 −ˆ12
dl = (T1 + T2 − K ) − (T1 − K ) = T1 + T2 − R − T1 + K = T2
5) Calculer la statistique F
( ˆ22 − ˆ12 ) / T2
Fc = ~ F (T2 ; T1 − K ) (9.11)
ˆ 2 /(T1 − K )
1
Dans ce test, à la différence du test de Chow, nous ne faisons plus l’hypothèse de l’égalité des variances. On estime les paramètres
avant et après le choc considéré, de même que les variances de ces derniers. On calcule ensuite la statistique suivante :
(
) ( )
W = ˆ2 − ˆ1 (V1 + V2 ) ˆ2 − ˆ1 → (2K )
−1
(9.12)
où V1 et V2 sont les matrices des variances covariances des paramètres estimés des deux
modèles.
➔ Rejeter H 0 si W 2:K
CHAPITRE 10- LES MODELES DE REGRESSIONS AVEC VARIABLES EXPLICATIVES BINAIRES
(DUMMY VARIABLE MODEL)
X-1 Introduction
Dans la plupart des modèles considérés jusque là, on utilise des variables explicatives qui prennent des valeurs
continues. Toutefois, il peut arriver que la ou les variables explicatives soient muettes (dichotomiques). On est dans le
cas de ce que l’on appelle modèle de régression avec variables muettes ou « dummy variable model » en Anglais.
X-2- Régression avec uniquement des variables muettes
Supposons qu’une entreprise agricole utilise deux systèmes de production différents (A et B) pour produire un bien
donné. Sous l’hypothèse que les biens obtenus de ces deux systèmes sont normalement distribués avec des moyennes
différentes mais des variances identiques, on peut représenter ce système de production comme suit :
Yt = 0 + 1 X t + t
où Yt est le bien produit à partir du ième système de production et Xt est une variable muette qui est telle que :
Dans cet exemple simple, 0 est le produit moyen obtenu à partir du système de production B
tandis que 1 mesure la variation dans la quantité de biens produit due au passage du système
de production B au système de production A.
Ceci peut être mieux perçu si nous prenons l’espérance mathématique de chaque coté du modèle ci-dessus pour chaque valeur de Xt.
𝛽 𝑝𝑜𝑢𝑟 𝑋𝑡 = 0
𝐸 𝑌𝑡 = ቊ 0
𝛽0 + 𝛽1 𝑝𝑜𝑢𝑟 𝑋𝑡 = 1
Le test d’hypothèse selon laquelle 1 =0 teste en fait l’hypothèse qu’il n’y a pas de différence
dans le produit qui soit imputable au système de production. Ainsi, les estimations des
moindres carrés ordinaires ̂ 0 et ˆ1 des paramètres de la régression sont la valeur moyenne
de produit associée au système B et la différence entre la quantité moyenne de produit
obtenue du système A et celle obtenue du système B.
Cette procédure peut être facilement modifiée lorsqu’il y a plus de deux variables à considérer. Par exemple, deux variables
muettes sont utilisées pour prendre en compte la production obtenue à partir de trois systèmes de production non identiques
(A, B et C). Considérons le modèle suivant :
où
Ici, tester l’hypothèse 1 = 0 revient à tester l’hypothèse selon laquelle il n’y a pas de
différence entre les systèmes de production C et A
De même, tester l’hypothèse 2 = 0 revient à tester l’hypothèse selon laquelle il n’y a pas de
différence entre les systèmes de production C et B.
On pourrait aussi tester l’hypothèse selon laquelle il n’y a pas de différence entre les systèmes
de production A et B en testant H 0 : 1 = 2 .
NB : Il ne faut pas commettre l’erreur d’intégrer dans le modèle autant de variables muettes que
de systèmes de production. Dans ce qui précède, on a vu que pour deux système de production
on a une seule variable muette et pour trois système de production on a pris deux variables
muettes. En règle générale, pour N systèmes de production, on prend N-1 variables muettes et
cela pour éviter qu’il y ait une colinéarité parfaite dans le modèle.
X-3- Régression avec un mélange de variables quantitatives et de variables muettes
L’exemple le plus usuel utilisé pour illustrer ce cas de figure est la fonction de consommation estimée avec des données
chronologiques couvrant des périodes de conflit et de paix. Dans la spécification d’un tel modèle, on fait l’hypothèse que la
consommation dépend du revenu quelque soit la période considérée. Trois cas peuvent se présenter :
1er cas : La crise affecte la consommation autonome
Si nous représentons les deux fonctions sur un graphique, on constate que la droite de consommation s’est déplacée vers le bas
cela en raison du rationnement probable en nourriture.
Ce déplacement vers le bas équivaut à un changement du terme constant qui passe de 0 + 2
à 0 . Un tel changement peut être testé en analysant les hypothèses suivantes :
H 0 : 2 = 0 contre H 0 : 2 0
Ct
Période de paix
Période de conflit
0 + 2
0
Yt
Ct = 0 + 1Yt + 2Yt Dt + t
(10.10)
Où Ct est la consommation, Yt est le revenu et Dt=1 en période de conflit et 0 en période de paix. On aura les fonctions
suivantes :
Ct = 0 + (1 + 2 )Yt + t en période de conflit et (10.11)
Période de conflit
Ct
Période de paix
Yt
Pour tester l’hypothèse selon laquelle la propension marginale à consommer est différente sur les deux périodes, on teste :
H 0 : 2 = 0 contre H 0 : 2 0
3ème cas : La crise affecte aussi bien la consommation autonome que la propension marginale à
consommer.
Ct = 0 + 1Yt + 2 Dt + 3Yt Dt + t
(10.13)
Où Ct est la consommation, Yt est le revenu et Dt=1 en période de conflit et 0 en période de paix. On aura les fonctions
suivantes :
Ct Période de conflit
Période de paix
Yt
X-4- Effets des interactions entre variables muettes
Yt = 0 + 1 D1t + 2 D2t + 3 X t + t
(10.16)
où Yt est le salaire, Xt est le niveau d’éducation D1 = 1 si l’individu est une femme et 0 sinon, D2 = 1 si l’individu est un noir
et 0 sinon.
Dans le modèle ci-dessus, le genre et la race sont des variables muettes (qualitatives) et l’éducation est la seule variable
quantitative. Ce modèle nous dit de façon implicite que l’impact du genre sur le salaire est constant quelque soit la race et de
même, l’impact de la race sur le salaire est constant quelque soit le genre.
En d’autre terme, si le salaire moyen des hommes est supérieur au salaire moyen des femmes, cela est vrai quelque soit la
race de l’individu.
Dans la pratique cette hypothèse n’est pas toujours vérifiée. Il peut exister des interactions entres les variables muettes. On
aura ainsi le modèle suivant :
Yt = 0 + 1 D1t + 2 D2t + 3 D1t D2t + 4 X t + t (10.17)
avec par exemple