0% ont trouvé ce document utile (0 vote)
187 vues142 pages

Introduction à l'économétrie

Transféré par

claudiadio0319
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
187 vues142 pages

Introduction à l'économétrie

Transféré par

claudiadio0319
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TABLE DES MATIERES

CHAPITRE 1: INTRODUCTION
I.1. Introduction

I.2. La théorie économique et l’économétrie

I.3. Définition et objectif de l’Économétrie

I.4. Méthodologie de la recherche économétrique

I.5. Modèles économétriques

I.6. Quelques concepts de base

I.7. Exercices d’application


1ere PARTIE : MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE

CHAPITRE 2: MODELE DE REGRESSION LINEAIRE SIMPLE : SPECIFICATION ET ESTIMATION

II.1. Introduction

II.2. Le modèle de régression linéaire à une variable explicative

II.3. Les hypothèses du modèle de régression linéaire simple

II.4. Estimation des paramètres du modèle de régression linéaire simple

II.5. Interprétation des estimations

II.6. Calcul des élasticités à partir d’un modèle de régression

II.7. Choix d’une forme fonctionnelle

II.8. Exercices d’application


CHAPITRE 3: PROPRIETES DES ESTIMATEURS

III.1. Introduction
III.2. Linéarité

III.3. Absence de biais


III.4. Efficience
III.5. Exercices d’application

CHAPITRE 4 : EVALUATION DU MODELE DE REGRESSION LINEAIRE SIMPLE (INFERENCE)

IV.1. Significativité des paramètres estimés


IV.2. Le Coefficient de Détermination
IV.3. Analyse du coefficient de corrélation
IV.4. Analyse de la Variance
IV.5. Relation entre analyse de corrélation et R2
IV.6. Prévision
IV.7. Exercices d’application
2eme PARTIE : LE MODELE DE REGRESSION LINEAIRE GENERAL

CHAPITRE 5 LE MODELE DE REGRESSION LINEAIRE MULTIPLE : SPECIFICATION ET ESTIMATION

V.1. Introduction
V.2. Le modèle de régression linéaire à deux variables explicatives

V.3. Les hypothèses du modèle de régression linéaire multiple


V.4. Estimation des paramètres du modèle de régression linéaire multiple : La méthode des MCO

V.5. Exercices d’application

CHAPITRE 6 : LE MODELE LINEAIRE GENERAL : SPECIFICATION ET ESTIMATION

VI.1. Spécification

VI.2. Estimation
VI.2. Exercices d’application
CHAPITRE 7 : PROPRIETES DES ESTIMATEURS …………………
VII.1. Linéarité ……………………………………………………….
VII.2. Absence de biais ………………………………………………….
VII.3. Efficience ……………………………………………………
VII.4. Propriétés ……………………………………………………

VII.5. Exercices d’application …………………..……………………

CHAPITRE 8 : INFERENCE DANS LE MODELE LINEAIRE GENERAL ……………….

VIII.1. Significativité globale du modèle ……………………………...


VIII.2. Relation entre F, R2 et t2 ……………………………….…………

VIII.3. Critère d’inclusion de variables additionnelles .………….

VIII.4. Exercices d’application ………………….………………..


CHAPITRE 9 : TEST DE STABILITE DES COEFFICIENTS …….……
IX.1. Nécessité du test de stabilité …………………………..
IX.2. Test de la variable muette …………………………………..
IX.3. Test de Chow ........................................................................
IX.4. Test de Wald ..........................................................................

CHAPITRE 10 : LES MODELES DE REGRESSIONS AVEC VARIABLES


EXPLICATIVES QUALITATIVES ………………………..

X.1. Introduction …………………………………………………………


X.2. Régression avec uniquement des variables muettes ……………...
X.3. Régression avec un mélange de variables quantitatives et de variables muettes ………

X.4. Effets des interactions entre variables muettes …………………….

X.5. Exercices d’application …………………………………………...


CHAPITRE I: INTRODUCTION

I-1- Introduction

L’économie se caractérise par des relations entre différentes variables

La théorie économique a défini des théories pour modéliser les relations


entres les variables dans leurs interrelations
Y = f(L,K)

Q = f(Y, P0, Px)

Le rôle principal de l’économétrie est de tester les propositions théoriques qui fondent ces relations entre variables,
d’obtenir des estimations numériques des coefficients de ces relations, de faire des prévisions par rapport à leurs
valeurs futures et de faire des recommandations pertinentes à même d’aider à la prise de décision
I-2- La théorie économique et l’économétrie

L’économie est une science sociale

L’économétrie essaie à partir de l’analyse statistique de données limitées, de tirer des


conclusions relatives au monde réel

I-3- Définition, objectif et nécessité de l’économétrie

L’économétrie consiste en une application des statistiques mathématiques aux données économiques afin
d’obtenir un support empirique des modèles développés par les mathématiciens économistes en vue de
l’obtention de résultats numériques (Gerhard Tintner, Methodology of Mathematical Economics and
Econometrics, The University of Chicago Press, 1968)

L’économétrie peut se définir comme une science sociale dans laquelle les outils de la théorie
économique, les mathématiques, et l’inférence statistique sont utilisés à l’analyse des phénomènes
économiques (Arthur Golberger, Econometric Theory, John Wiley & Sons, New York, 1964)

L’art de l’économètre consiste en la détermination d’un ensemble d’hypothèses qui soient à la fois
suffisamment spécifique et suffisamment réaliste qui puissent lui permettre de tirer le maximum
d’informations des données qui lui sont disponibles (Malinvaud, Statistical Methods of Econometrics,
Rand McNally & Co Chicago, 1966 P. 514)
L’économétrie peut être considérée comme l’intégration de l’économie, des mathématiques et de la statistique dans
l’optique de fournir des valeurs numériques aux paramètres des relations économiques (élasticités, propensions,
valeurs marginales) et de vérifier les théories économiques (Koutsoyiannis, Theory of Econometrics. 2nd Ed.
MacMillan, Hong Kong 1993).

Il appert de ce qui précède que l’économétrie est une branche des sciences sociales qui à l’aide de la théorie
économique, de l’économie mathématique et de la théorie statistique, analyse les relations entre variables
(économiques) afin d’aider à la prise de décision
Objectifs de l’économétrie Trois objectifs essentiels

l’analyse, c’est à dire le test de la théorie économique

l’aide à la prise de décision, c’est à dire fournir des estimations numériques des coefficients des
relations économiques qui seront ensuite utilisées dans le processus de prise de décision
la prévision, ici, les estimations numériques des coefficients sont utilisées dans l’optique de donner
une prévision des valeurs futures des évolutions économiques

La nécessité de l’analyse économétrique

Si l’objectif de l’opérateur économique est de prendre la meilleure décision parmi un ensemble de choix
possibles, alors la connaissance des relations entre variables économiques seule n’est pas suffisante. La
connaissance de la direction de la relation et, dans plusieurs cas, celle de l’intensité de la relation est
nécessaire pour ne pas dire indispensable. Ainsi, en fournissant à l’opérateur économique un support pour
tester, modifier ou réfuter si possible les conclusions contenues dans la théorie économique, et affecter des
signes, et des interprétations fiables aux coefficients des variables économiques, l’économétrie se positionne
comme un outil indispensable à la prise de décision
I-4- Méthodologie de la recherche économétrique

Dans la section précédente, nous avons relevé que l’économétrie a trois objectifs essentiels à savoir: l’analyse, l’aide à la prise
de décision et la prévision. Afin d’atteindre ces objectifs, l’économètre doit de façon systématique conduire sa recherche en
adoptant une approche logique. Cette approche logique comprend cinq phases qui sont:

Phase 1:La spécification du modèle qui servira à expliquer le phénomène que l’on veut analyser.

Phase 2: La collecte de données relatives aux variables du modèle spécifié

Phase 3: L’estimation du modèle spécifié

Phase 4: L’évaluation des résultats de l’estimation du modèle spécifié

Phase 5: L’utilisation du modèle estimé pour la prévision / prise de décision.

Les phases 1 et 4 sont les plus importantes pour toute recherche économétrique. En effet, elles exigent les
compétences d’un économiste qui a l’expérience du fonctionnement du système économique. Les phases 2, 3 et
5 sont techniques et nécessitent une connaissance de la théorie économétrique et statistique.
a). Phase 1. Spécification du modèle.

La première phase et de loin la plus importante dans toute recherche économétrique est la spécification d’un modèle qui n’est autre que la
représentation mathématique d’une relation entre variables économiques. On parlera de modélisation de l’hypothèse soutenue (maintained
hypothesis). Cette modélisation implique la détermination de 1) la variable expliquée et des variables explicatives du modèle; 2) les signes et
l’ampleur théoriques des paramètres escomptés à priori. Ce sont ces éléments théoriques qui serviront de base à l’évaluation du modèle estimé; 3)
la forme mathématique du modèle (nombre d’équations, forme linéaire ou non linéaire de ces équations etc.).

La spécification du modèle se fait sur la base de la théorie économique et de toute autre information relative au phénomène que l’on veut analyser.
Ainsi, la spécification d’un modèle suppose la connaissance de la théorie économique et celle du phénomène que l’on veut étudier. En outre,
l’économètre doit rassembler toutes les informations relatives à ce phénomène y compris les études et recherches publiées par d’autres chercheurs
sur ce même phénomène.

De façon concrète, supposons que l’économètre veuille analyser la demande de riz en Côte d’Ivoire. La première source d’information dont il a
besoin, est la théorie économique (théorie de la demande) qui stipule que la demande d’un bien est fonction du niveau de revenu, du prix du riz et
du prix des autres biens. Sur la base de ces informations, nous pouvons spécifier la fonction de demande sous sa forme générale comme suit:

Où, Qt est la quantité de riz demandée, Yt est le niveau de revenu, P1t est le prix du riz, P2t est le prix des autres biens.

Toujours en nous fondant sur la théorie économique, nous pouvons émettre des hypothèses sur les signes et grandeurs des paramètres du modèle
de demande de riz. Ainsi, notre modèle de demande de riz s’écrira comme suit (sous l’hypothèse que la quantité demandée de riz est une
fonction linéaire du niveau de revenu, du prix du riz et du prix des autres biens):

D’après la théorie économique, et surtout en raison de la loi de la demande qui stipule de l’existence d’une relation inverse entre la quantité
demandée d’un bien et son prix, nous nous attendons à ce que 1 soit négatif (positif pour les biens Giffens). De même, comme la théorie
économique stipule que la quantité demandée d’un bien est positivement liée au niveau de revenu (sauf pour les biens inférieurs), nous nous
attendons à ce que 3 soit positif. En ce qui concerne 2, nous nous attendons à ce qu’il soit positif si l’autre bien en question est un substitut du
riz, et négatif si les deux biens sont complémentaires.
b). Phase 2: La collecte des données
Les données nécessaires à l’estimation du modèle spécifié doivent être collectées. Ces données sont en générales de trois
types à savoir : des séries temporelles, des coupes transversales, des données de panel etc.

Elles donnent des informations sur les variables, sur une période de temps. Elles peuvent être
quantitatives (prix, taux d’intérêt, …) comme qualitatives (jour de la semaine). Les séries temporelles ont
Les séries temporelles. une fréquence d’observation. Cette fréquence peut être journalière, hebdomadaire, mensuelle, annuelle
etc. (il y a le cas des valeurs boursières où les données sont collectées au fur et à mesure des transactions).

Elles donnent des informations sur des variables à une période donnée (par exemple les informations sur
les activités économiques des entreprises industrielles Ivoirienne en 1994). La relation entre la taille des
Les coupes transversales. entreprises et le taux de rentabilité des investissements. La relation entre le niveau de la masse salariale
d’un pays et la probabilité que ce pays ne puisse pas honorer ses engagements envers l’étranger.

Elles donnent des informations à travers le temps sur des coupes transversales données (par exemple les
Les données de panel informations sur les activités économiques des entreprises industrielles Ivoiriennes de 1975 à 1995).

c). Phase 3 : Estimation du modèle spécifié

Une fois que le modèle est spécifié et que les données sont collectées, l’étape suivante est celle de l’estimation des coefficients du
modèle. En d’autres termes, il s’agit d’obtenir les valeurs numériques des coefficients des variables du modèle spécifié. Cette phase est
purement technique et nécessite la connaissance des différentes méthodes économétriques, des hypothèses sous-jacentes à leur utilisation
et les interprétations des paramètres estimés. Des logiciels existent de nos jours pour conduire cette phase. On peut citer entre autres :
Eviews, Gauss, Limdep, Rats, SAS, SHAZAM, STATA, Microfit, etc.
d). Phase 4 : Evaluation du modèle estimé

Lorsque le modèle spécifié est estimé, avant de pouvoir l’utiliser pour la prise de décision, il est nécessaire de
s’assurer de sa fiabilité. Il s’agit de déterminer si les paramètres estimés donnent satisfaction aussi bien
théoriquement que statistiquement. Pour cela, plusieurs critères (tests) existent. Ces critères peuvent être classés en
trois (3) groupes :

1) les critères économiques à priori basés sur la théorie économique ;

2) les critères statistiques basés sur la théorie statistique ;

et 3) les critères économétriques basés sur la théorie économétrique.

Tests économiques à priori :

Ces tests consistent en la confrontation entre les résultats de l’estimation du modèle, c’est à dire, le signe des
coefficients estimés et leur grandeur et les principes de la théorie économique. Ainsi, c’est lorsque le modèle estimé
passe ce premier test, qu’il a une signification économique. Si les signes et grandeurs des paramètres estimés ne sont
pas en conformité avec la théorie économique, alors ces paramètres doivent être rejetés à moins d’une raison
suffisante qui démontre que dans le cas spécifié la théorie économique n’est pas applicable. Cette raison suffisante
doit être présentée de façon précise et concise.
Tests statistiques :

Ces tests sont basés sur la théorie statistique et ont pour objectif l’évaluation de la fiabilité statistique des
paramètres estimés. Les tests statistiques les plus utilisés sont le coefficient de corrélation et l’écart type des
paramètres estimés. Le carré du coefficient de corrélation est appelé le coefficient de détermination et donne la
proportion des variations de la variable expliquée imputable aux variations des variables explicatives. En ce qui
concerne l’écart type, c’est une mesure de la dispersion des estimations autour du vrai paramètre. Ainsi, plus l’écart
type du paramètre estimé est élevé, moins fiable est l’estimation et vice-versa. Il faut souligner que les tests
statistiques viennent seulement après les tests économiques à priori.

Tests économétriques :

Les tests économétriques sont issus de la théorie économétrique et ont pour objectif de vérifier si les hypothèses,
sous-jacentes à la méthode économétrique, utilisée sont satisfaites ou non. Ces tests vérifient donc la fiabilité des
tests statistiques et nous permettent d’établir si oui ou non les paramètres estimés ont les propriétés désirées (sans
biais, convergent etc.). Si les hypothèses de la méthode économétrique utilisée pour estimer le modèle spécifié ne
sont pas vérifiées, alors, soit les paramètres estimés n’ont pas les propriétés désirées, ou que les tests statistiques
perdent leur validité et ne sont plus fiables pour juger de la qualité des paramètres estimés.
e). Phase 5 : L’utilisation du modèle estimé

La prévision et l’aide à la prise de décision sont les principaux objectifs de la recherche économétrique. Une
fois les phases 1 à 4 terminées, on peut utiliser le modèle pour la prévision et l’aide à la prise de décision.

I-5- Modèles économétriques

Un modèle est une représentation formelle des relations définies par le monde réel. Le monde réel étant très complexe, il est
nécessaire de le simplifier afin de faciliter sa compréhension. Cette simplification se fait donc à partir de modèle qui regroupe
les variables que nous jugeons importantes pour la compréhension de tel ou tel phénomène. Le modèle peut être déterministe
ou stochastique (aléatoire).
•Le modèle déterministe, économique ou mathématique

Un modèle est dit déterministe s’il correspond à une relation déterministe (exacte). Par exemple, la fonction de consommation
représentée par le modèle suivant :

Avec 0<α1<1 . est déterministe

Où Ct est la consommation, Yt est le revenu, α0 et α1 sont les paramètres du modèle. α0 est le terme constant (dans le cas présent
c’est la consommation autonome) et α1 est la pente de la droite représentée par l’équation ci-dessus.
En d’autres termes, la fonction de consommation peut être obtenue de façon exacte si nous connaissons Y, α0 et α1.

•Le modèle stochastique, économétrique ou aléatoire


Un modèle est par contre dit stochastique s’il correspond à une relation stochastique (aléatoire). Ainsi, la fonction de
consommation représentée par le modèle suivant :

avec 0<α1<1 est stochastique.

La fonction de consommation ci-dessus ne peut être obtenue de façon exacte dans la mesure où le terme 𝜀𝑡 (appelé terme
d’erreur, variable aléatoire ou perturbation stochastique) est incorporé dans le modèle pour tenir compte des variables omises, des
erreurs de mesure des variables et des erreurs de spécification. Ce terme est donc aléatoire et inobservable.
Les modèles déterministes correspondent aux modèles économiques alors que les modèles stochastiques correspondent aux
modèles économétriques. Pour passer du modèle économique au modèle économétrique il suffit tout simplement de lui ajouter
une perturbation stochastique (ou terme d’erreur) “
I-6- Quelques concepts de base

Les variables économiques sont de natures aléatoires, c’est à dire que leurs valeurs ne sont connues
qu’après qu’elles aient été observées. Elles obéissent à des lois de probabilités. La probabilité est une
voie pour exprimer l’incertitude sur les événements économiques. Par conséquent, il est important de
rappeler brièvement les concepts de base de la probabilité qui seront utilisés dans ce cours.

a) Variable aléatoire

Une variable aléatoire est une variable dont la valeur est inconnue jusqu’à ce qu’elle fasse l’objet d’une observation. La valeur
d’une variable aléatoire (V.A) résulte d’une expérimentation.

Par exemple, l’expérimentation peut être caractérisée par une ou plusieurs mesures de rendement. Soit Xt = Kg/ha,
Yt = nombre de voitures volées par mois. Ou par exemple, Zt = le nombre d’accident d’automobiles enregistrés sur
l’autoroute du nord entre 1995 et 2021.
b) Variables aléatoires discrètes et continues

Définition 1.

Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre fini de valeur que l’on peut
compter en utilisant des nombres entiers. Plus formellement, une V.A X est dite discrète si l’ensemble des
valeurs possibles de cette variable est un sous ensemble de Z avec Z = 0 ;  1 ;  2 ;…

Exemple : Le nombre de fille dans un ménage : 0, 1, 2, 3 …


Le nombre de cours qu’un enseignant peut dispenser par semaine : 0, 1,1 2, …

Les variables aléatoires discrètes sont utilisées en économie d’une façon générale pour prendre en compte le
caractère qualitatif de certaines variables. On les appellera les variables muettes.

Par exemple une étude qui veut prendre en compte le Genre devra désagréger les données en homme et
femme. Ainsi, on pourra définir une variable muette D telle que, D, prend la valeur 1 si les données concerne
une femme et 0 dans le cas contraire.

1𝑠𝑖 𝑓𝑒𝑚𝑚𝑒
𝐷=ቊ
0𝑠𝑖 ℎ𝑜𝑚𝑚𝑒
Définition 2.

Une variable aléatoire est dite continue si elle peut prendre toute valeur appartenant à l’ensemble des nombres
réels. Par exemple la variable PIB peut prendre toutes les valeurs de zéro à l’infini. De façon formelle, une
variable aléatoire est dite continue si sa fonction de distribution F(x) est continue pour tout x ℝ et qu’il existe
une fonction non négative f(.) sur la droite des réelles telle que

Ɐ x ℝ

•Les règles de la sommation

Soit X une variable aléatoire. Si X prend n valeurs notées x1, x2, …, xn, alors leur somme est donnée par :

Le symbole grec  se lit sommation.

Exemple : xi = 2, 5, 3, 7, 9, 6, 4 ➔

•Si a est une constante alors,

•Si X et Y sont deux variables aléatoires, alors :

•Si X et Y sont deux variables aléatoires et a, b sont deux constantes, alors :


•La moyenne arithmétique de n valeurs de x est :

Notons aussi que : en effet, or

On peut donc écrire que : Ainsi, on a

•La moyenne géométrique de n valeurs de x est la racine nième du produit des n observations. Sa formule est donnée ci-dessous :

Par exemple si de 1997 à 1999 les prix augmentent de 5%,


10% et 18% respectivement, le taux de croissance annuel
moyen n’est pas 11% tel qu’obtenu à partir de la moyenne
Elle est souvent utilisée pour déterminer le taux de arithmétique mais plutôt 10.9% obtenu à partir de la
croissance moyen en pourcentage des ventes, de la moyenne géométrique.
production ou de toutes autres données économiques.
Elle est aussi utile pour le calcul du taux de croissance de
la population car ce dernier croît à un taux géométrique.

La moyenne quadratique de n valeurs de x est :

La moyenne quadratique (également appelée racine carrée moyenne) est un type de moyenne. Elle mesure la magnitude absolue
d'un ensemble de nombres et est calculée en :
1) Élevant au carré chaque nombre, 2) En trouvant la moyenne de ces carrés, 3) En prenant la racine carrée de cette moyenne. Elle
donne un poids plus important aux éléments les plus grands d'un ensemble et est toujours égal ou supérieur à la moyenne
arithmétique.
•La moyenne harmonique de n valeurs de x:
La moyenne harmonique donne moins de poids aux grandes valeurs et un
grand poids aux petites valeurs pour équilibrer correctement les valeurs.
La moyenne harmonique (HM) est définie comme
En général, la moyenne harmonique est utilisée lorsqu'il est nécessaire de
l'inverse de la moyenne des inverses des valeurs de
donner plus de poids aux éléments les plus petits. Elle s'applique en cas
données. Elle est basée sur toutes les observations et
d'horaires et de tarifs moyens.
est définie de manière rigide.
Si a, b, c, d, … sont des données, les étapes pour trouver la moyenne harmonique sont les suivantes :
Étape 1 : Calculez l'inverse de chaque valeur (1/a, 1/b, 1/c, 1/d, …) ;

Étape 2 : Trouvez la moyenne des inverses obtenus à l'étape 1.

Etape 3 : Enfin, prendre l'inverse de la moyenne obtenue à l'étape 2.

Si G est la moyenne géométrique, A est la moyenne arithmétique et H est la moyenne harmonique alors : G= 𝐴𝐻 ➔ 𝐺 2 =AH

•Si f(x) est une fonction des valeurs de x, alors :

•Plusieurs sommations peuvent être utilisées dans une même expression. Supposons que la variable Y prenne n valeurs et que la variable
X prenne m valeurs et que nous ayons la fonction f(x,y) = x + y. La double sommation de cette fonction est la suivante :

Pour évaluer une telle expression, on commence par la sommation interne. Toutefois, il faut noter qu’en général,
l’ordre de sommation n’est pas important.
• Moyenne d’une variable aléatoire
La moyenne ou espérance mathématique d’une variable aléatoire X est la moyenne arithmétique de cette variable
aléatoire. Elle est notée E(X) et est lue espérance mathématique de X. Si X est une variable aléatoire discrète qui prend
les valeurs x1, x2, …, xn avec des densités de probabilité dont les valeurs sont f(x1), f(x2), …, f(xn), l’espérance
mathématique de X est donnée par :

Si X est une variable aléatoire continue qui prend des valeurs allant de - à + avec des densités de probabilité dont les
valeurs sont f(x1), f(x2), …, f(xn), l’espérance mathématique est donnée par :
.
c) Espérance mathématique d’une fonction de variable aléatoire

• Si X est une variable aléatoire discrète et g(X) une fonction de cette variable aléatoire, alors E(g(X)) =
g(x)f(x). Toutefois, E[g(X)]  g[E(X)]

• Si X est une variable aléatoire discrète et g(X) = g1(x) + g2(x) où g1(x) et g2(x) sont des fonctions de X alors,
E[g(X)] = [g1(x) + g2(x)]f(x) = g1(x)f(x)+g2(x)f(x) = E[g1(x)] + E[g2(x)].

L’espérance mathématique d’une somme de fonction de variables aléatoires, est la somme des espérances
mathématiques.

Quelques propriétés de l’espérance mathématique


• Si c est une constante, alors : E(c) = c
• Si c est une constante et X une variable aléatoire alors, E(cX) = cE(X)
• Si a et c sont deux constantes et X est une variable aléatoire alors, E(a + cX) = a + E(cX) = a + cE(X)
• Si X et Y sont deux variables aléatoires alors,

E(X + Y) = E(X) + E(Y) E(X - Y) = E(X) - E(Y)

E(XY) = E(X) . E(Y) si X et Y sont indépendantes


f) La variance d’une variable aléatoire (dispersion autour de la moyenne
Si X est une variable aléatoire, la variance de X notée var(X) = 𝜎𝑋2 est:

var(X) = E[X – E(X)]2 = E[X2 – 2XE(X) + [E(X)]2]

var(X) = E(X2) – 2 E(X)E(X) + [E(X)]2 var(X) = E(X2) – [E(X)]2 =𝝈𝟐𝑿

var(X) = E(X2) – 2[E(X)]2 + [E(X)]2

Dans le cas d’une variable aléatoire discrète, Var(X) est donnée par :
Dans le cas d’une variable aléatoire continue, on a :

NB : La racine carrée de la variance est appelée écart-type.

Propriétés de la variance
•Si a et c sont des constantes et si Z = a + cX alors Z est une variable aléatoire et sa variance est :
var(Z) = E[(a + cX)2 – 2(a + cX)E(a + cX) + [E(a + cX)]2] var(Z) = var(a + cX) = E[(a + cX) – E(a + cX)]2
var(Z) = E[(a2 + 2acX + c2X2 ) - 2(a + cX)(a + cE(X)) + [a + cE(X)]2]
var(Z) = E[a2 + 2acX + c2X2 – 2a2 - 2acE(X )- 2acX - 2c2XE(X) + a2 + 2acE(X) + c2[E(X)]2]

var(Z) = E[c2X2-2c2XE(X)+c2[E(X)]2] var(Z) =c2E(X2)-2c2[E(X)]2+c2[E(X)]2

var(Z) =c2[E(X2) – [E(X)]2] = c2var(X) var(Z) = c22


pour toute constante a.

Si X et Y sont deux variables aléatoires alors,

Var(X + Y) = Var(X) + Var(Y) + 2Cov(XY)

En effet,

Var(X + Y) = E[(X+Y)-E(X+Y)]2
Var(X + Y) = E[(X+Y)-E(X) – E(Y)]2

Var(X + Y) = E[(X – E(X)) + (Y-E(Y))]2

Var(X + Y) = E[(X – E(X))2 + 2(X-E(X))(Y-E(Y)) + (Y-E(Y))2]


Var(X + Y) = E(X – E(X))2 + 2E(X-E(X))(Y-E(Y)) + E(Y-E(Y))2

Var(X + Y) = Var(X) + 2Cov(X,Y) + Var(Y)

Var(X - Y) = Var(X) - 2Cov(X,Y) + Var(Y)

Ainsi, si Cov(X,Y) = 0 alors, Var(X+Y) = Var(X-Y)


g) Variables aléatoires indépendantes

Deux variables aléatoires sont indépendantes si la connaissance de la valeur d’une des variables ne donne aucune
information sur les valeurs de l’autre variable.

Ainsi, si X et Y sont deux variables aléatoires indépendantes alors,

f(X,Y) = f(X).f(Y) et l’inverse est aussi vraie.

h) Moyenne de la somme pondérée de variables aléatoires

Si g(X,Y) est une fonction de deux variables aléatoires telle que g(X,Y) = c1X + c2Y où c1 et c2 sont des
constantes, g(X,Y) est appelée somme pondérée de variables aléatoires et E[g(X,Y)] = E[c1X + c2Y] = c1E(X) +
c2E(Y)

D’une façon générale, si X1, X2, …, X3 sont des variables aléatoires et c1, c2, …, cn sont des constantes alors,
E(c1X1 + c2X2 + … + cnXn) = c1E(X1) + c2E(X2) + … + cnE(Xn)
j) La distribution normale
Si X est une variable aléatoire normale (suit une loi normale), de moyenne 𝛽 et de variance 𝜎 2 notée symboliquement 𝑋 → 𝑁 𝛽, 𝜎 2
alors sa fonction de densité de probabilité est donnée par l’expression mathématique suivante :

La loi normale a trois caractéristiques à savoir : 1) sa moyenne est égale à sa médiane ; 2) elle est symétrique par rapport à sa moyenne et 3) ses
queues sont asymptotiques c’est-à-dire qu’elles se rapprochent de l’axe des abscisses (ligne horizontale) sans la toucher. Elle a donc une forme de
cloche.

La loi normale est dite centrée réduite lorsque sa moyenne est zéro (0) et sa variance est un (1). En raison de sa simplicité dans les calculs, cette
dernière est la plus utilisée.

Si alors

La loi normale centrée réduite est importante aussi bien pour des raisons théoriques que pratiques. Théoriquement, elle est liée à d’autres types de
loi de probabilité qui sont au centre de l’analyse économétrique. Dans la pratique, elle est importante dans la mesure où pour toute variable
aléatoire normale X, on peut définir la variable aléatoire Z et les valeurs de Z sont tabulées. Pour calculer les probabilités avec les variables
aléatoires normales, on utilise les règles suivantes :

Si et a est une constante, alors

et si et a, b sont des constantes, alors


k) Les distributions liées à la loi normale

La loi de Chi-2
. Cette loi résulte lorsque la variable aléatoire normale centrée réduite est élevée au carré. Ainsi, si Z1, Z2, …, Zm sont des
variables aléatoires normales centrées réduites alors

et est lue V suit une loi de Chi-2 à m degré de liberté. Le paramètre de degré de liberté m indique le nombre de variables
aléatoires normales centrées réduites indépendantes utilisé pour former V. De façon formelle on a :

Si Zi →N(0,1) , i = 1, 2, …, m sont des variables aléatoires normales centrées réduites indépendantes alors, σ𝑚 2
𝑖=1 𝑍𝑖 =𝑉
→ χ2𝑚

La loi de student ou le t de student.


Cette loi est obtenue en divisant la variable aléatoire normale centrée réduite 𝑍 → 𝑁 0,1

par la racine carrée d’une variable aléatoire indépendante qui suit une loi de Chi-2 i.e. 𝑉 → χ2𝑚 , elle-même divisée par son
degré de liberté. En d’autres termes, si 𝑍 → 𝑁 0,1 , 𝑉 → χ2𝑚 et si Z et V sont des variables aléatoires indépendantes alors,
La forme de la fonction de densité de probabilité de la loi t est plus large et moins pointue que celle de la loi
normale centrée réduite.
La loi de Fischer (F)
Une variable aléatoire qui suit une loi F est constituée du rapport de deux variables aléatoires de Chi-2 indépendantes
divisée par leur degré de liberté. En d’autres termes, si 𝑉1 → χ2𝑚1 et si 𝑉2 → χ2𝑚2 avec V1 et V2 sont indépendantes,
alors:

I-7- Exercices d’application


CHAPITRE 2 : LE MODELE DE REGRESSION LINEAIRE SIMPLE (MRLS) : SPECIFICATION ET
ESTIMATION
II-1 Introduction
Dans le chapitre précédent, nous avons essayé de situer l’économétrie par rapport à la théorie économique, de définir ce qu’est
l’économétrie et définir son objectif. Nous avons ensuite présenté la méthodologie de recherche économétrique et fait la
différence entre modèle économique et modèle économétrique. La révision de quelques concepts statistiques, suivi d’exercices
d’application a clos ce chapitre. Dans le présent chapitre, nous nous attèlerons à présenter le modèle de régression linéaire
simple, les hypothèses qui sous-tendent ce modèle, l’estimation de ses paramètres suivi de quelques exercices d’application.

II-2 Le modèle de régression linéaire à une variable explicative


Le modèle de régression linéaire à deux variables est un modèle qui lie deux variables entre elles à savoir :
Yt =0 +1 X t +t (2.1)
Où Yt est la variable expliquée ou dépendante, Xt est la variable explicative ou indépendante, 𝛽0 𝑒𝑡𝛽1 sont des paramètres
constants à déterminer et 𝜀𝑡 est le terme d’erreur ou perturbation aléatoire.
En terme graphique, l’équation (2.1) a deux composantes : a) une composante systématique rendue par la ligne droite qui
traverse le nuage de points formé par les différentes observations i.e.

et b) une composante aléatoire rendue par l’écart entre la ligne droite et les points qui ne sont pas sur cette ligne.
Y

E(Yt)=0 +1 X t

Y1
Y2

X
X1 X2

Comme la droite E(Yt) passe par les points moyens, il va se trouver que des points seront au-dessus et en dessous de cette
dernière. Ainsi les observations qui sont au-dessus de la ligne donnent des valeurs positives de et les observations en
dessous donneront des valeurs négatives de .

Comme la ligne représentée par E(Yt) passe par les points moyens, les valeurs négatives et positives de s’annuleront
mutuellement de sorte que la sommation des erreurs sera nulle i.e. σ 𝜀𝑡 = 0
II-3 Les hypothèses du modèle de régression linéaire simple
Estimer le modèle présenté dans l’équation (2.1) implique la détermination des valeurs numériques des paramètres 𝛽0 𝑒𝑡𝛽1

Pour cela, il est nécessaire de connaître Xt, Yt et 𝜀𝑡

Les deux premières variables sont observables et ne posent pas de problème dans la mesure où des données primaires ou
secondaires les concernant peuvent être collectées. Là où il y a problème, c’est avec εt

Contrairement aux deux premières variables, elle n’est pas observable. Toutefois, elle résulte de plusieurs facteurs :
➢ Variables omises dans le modèle considéré (par ignorance, pour problème de mesure ou imprévisibilité)
➢ Caractère aléatoire du comportement humain
➢ Spécification incorrecte du modèle mathématique
➢ Erreurs d’agrégations

Ainsi, le mieux que nous pouvons faire afin d’être en mesure de déterminer les valeurs numériques de 𝛽0 𝑒𝑡 𝛽1 est d’émettre
des hypothèses sur 𝜀𝑡 .
Ces hypothèses devraient donner une description adéquate (acceptable) des caractéristiques statistiques de 𝜀𝑡 Ces hypothèses
sont les suivantes :
Hypothèse 1 (H1) : Linéarité

Yt est une fonction linéaire de Xt et de  t i.e. Yt =0 +1 X t +t (2.1)

Hypothèse 2 (H2) : Stochasticité de  t


Les valeurs possibles de  t ne sont pas connues d’avance, elles peuvent être positives,
négatives ou nulles. Toutefois, quelle que soit la valeur de  t , cette dernière a une certaine
probabilité de réalisation.

Hypothèse 3 (H3) : Nullité de la moyenne des erreurs

Quoique  t puisse prendre des valeurs aussi bien positives, négatives que nulles, ces
valeurs s’annulent mutuellement. En d’autres termes, la moyenne des erreurs est nulle.
E(t)=0 (2.2)

Hypothèse 4 (H4) : Homoscédasticité


L’homoscédasticité traduit la constance de la variance du terme d’erreur i.e. que la
dispersion de  t autour de sa moyenne est constante pour toutes les valeurs de Xt. Ce qui signifie
aussi que les limites supérieures et inférieures du nuage de points sont à égale distance de la
ligne de régression :
Var( t )= E t − E( t ) = E( t2)= 2
2
(2.3)
Y

Limite supérieure

 a2
 b2
 a1
 b1 Limite inférieure

X1 X2 X

a1 = a2 et b1 = b2

Hypothèse 5 (H5) : Normalité

Nous faisons l’hypothèse que 𝜀𝑡 suit une loi normale avec comme moyenne zéro (0) et variance 𝜎𝜀2

t →N(0, 2) (2.4)

L’implication de la normalité est que la plupart des observations sont concentrées dans le voisinage immédiat de la
ligne de régression.
Hypothèse 6 (H6) : Nullité de la covariance entre  t et Xt (condition d’exogénéité de Xt)
Il n’y a pas d’association linéaire entre  t et Xt par conséquent
Cov(  t ,Xt) = 0 (2.5)
Preuve
Cov(  t ,Xt) = E[(  t - E(  t ))(Xt – E(Xt))]
= E[  t (Xt – E(Xt))] car E(t)=0

= E[  t Xt-  t E(Xt)] or Xt est non stochastique ➔E(Xt) = Xt


Cov(  t ,Xt) = XtE(  t ) – XtE(  t ) = 0
Cov(  t ,Xt) = 0
Hypothèse 7 (H7) : Absence d’autocorrélation entre  i et  j avec i  j

Les perturbations aléatoires sont indépendantes d’une période à une autre.


Cov( i ,  j ) = 0 i  j (2.6)

Hypothèse 8 (H8) : rang plein


Il faut qu’il y ait au moins autant d’observations que de paramètres à estimer i.e. T  k
, où k est le nombre de paramètres à estimer et T le nombre d’observations.
II.4 Estimation des paramètres du modèle de régression linéaire simple :

Il existe plusieurs méthodes économétriques que l’on peut utiliser pour déterminer les valeurs numériques des paramètres de
l’équation 2.1. Parmi les différentes méthodes utilisées, nous pouvons nous attarder sur trois qui nous paraissent essentielles.
Il s’agit de la méthode des Moindres Carrés Ordinaires (MCO), la méthode du Maximum de Vraisemblance (MV) et la
Méthode des Moments (MM).

II.4.1 la méthode des Moindres Carrés Ordinaires (MCO)


La MCO est de loin la méthode la plus utilisée en économétrie et cela pour des raisons évidentes :
❖ Elle est simple comparée aux autres méthodes,
❖ Les paramètres obtenus à partir de cette méthode ont des propriétés optimales (elles seront expliquées plus loin),

❖ Elle est très utilisée et demeure de loin la plus utilisée dans l’estimation des modèles économétriques et ce, malgré
l’existence de logiciel informatique amélioré facilitant l’utilisation de méthodes plus complexes.

❖ Les principes qui sous-tendent la méthode des MCO sont simples à comprendre.

La méthode des MCO utilise le critère des moindres carrés qui peut se décomposer en
deux parties. La première partie exige que la ligne de régression passe par les points moyens
du nuage de points de sorte que les déviations positives et négatives s’annulent mutuellement
T
i.e.  =0 . La deuxième partie du critère exige que la somme des carrés des erreurs soit
t =1
t

minimale. Ainsi, si on réécrit l’équation 2.1 on a :


Yt =0 +1 X t +t

Notons ̂ 0 , ̂1 les paramètres estimés de 0 et 1 de sorte qu’on ait :

Yˆt = ˆ0 + ˆ1 X t (2.7)

Posons : ˆt =Yt −Yˆt =Yt − ˆ0 − ˆ1 X t (2.8)

Où  t représente les déviations résiduelles (résidus). Elevons les résidus au carré et prenons la

( )
T T
sommation. On a : ˆt2 = Yt − ˆ0 − ˆ1 X t
2
(2.9)
t =1 t =1

T T
Nous devons ensuite minimiser ˆt2 i.e. déterminer ̂ 0 et ̂1 tel que
t =1
ˆ
t =1
t
2 est minimale. Pour
T
cela, nous allons déterminer la dérivée de ˆ
t =1
t
2
par rapport à ̂ 0 et ̂1 . La condition nécessaire

pour un minimum exige que les dérivées premières soient égales à zéro. Ceci nous permet de
déterminer ̂ 0 et ̂1 .

T
ˆt2 T
t =1
=−2(Yt − ˆ0 − ˆ1 X t ) =0
ˆ0 t =1
T T
➔ Yt =Tˆ0 +ˆ1 X t
t =1 t =1
(2.10)

T
ˆt2 T
t =1
=−2(Yt − ˆ0 − ˆ1 X t )X t =0
ˆ1 t =1

T T T
➔ 
t =1

X tYt =ˆ0
t =1
X
X t + ˆ1
t =1
t
2 (2.11)

Les équations 2.10 et 2.11 sont appelées équations normales. Nous avons deux équations avec deux inconnues. Il est possible
de déterminer ces deux inconnues. Réécrivons ces équations l’une en dessous de l’autre et appliquons la règle de Cramer.


 Yt =Tˆ0 + ˆ1 X t

 X tYt = ˆ0 X t + ˆ1 X t2

T Y t

➔ ̂1 =
Xt  X Y =T  X Y − X Y
t t t t t t

T  X T  X − X  X
t t
2 t t

Xt X t
2

On sait que X = 1  X t et Y = 1 Yt ➔


T T X =TX
t et Y =TY
t
T  X tYt −TXTY T( X tYt −TXY)
➔ ˆ1= =
T  X t2 −TXTX T( X t2 −TX 2)

ˆ1= 
X tYt −TXY
➔ (2.12)
 X t2 −TX 2
Pour ce qui est de ̂ 0 , on peut obtenir son expression à partir de l’équation (2.10).

Y =Tˆ +ˆ  X
t 0 1 t

➔ Tˆ0 =Yt −ˆ1 X t


➔ Tˆ0 =TY − ˆ1TX
➔ ˆ0 =Y − ˆ1 X (2.13)

La condition suffisante pour un minimum exige que la matrice des dérivées secondes soit définie positive. Calculons donc
les dérivées secondes et formons cette matrice.
T T T T
 2
 ˆ t
2
 2
 ˆ t
2
 2
 ˆ t
2
 2
 ˆ t
2

t =1
=2 t =1
= 2X t t =1
= 2 X t2 ; t =1
= 2X t (2.14)
ˆ 2
0 ˆ0 ˆ1  ˆ 1
2
ˆ1 ˆ 0

2 2X t 1 Xt
➔ = 2 Or nous savons que si nous avons une matrice A telle que :
2X t 2 X t2 Xt X t2
 d11 d12 d13 
d d12
A = d 21 d 22 d 23  et si nous posons D1 = d11 ; D2 = 11 et D3 = A, alors : A est définie positive si D1 0; D2 0 et D3 0 .
d 21 d 22
d 31 d 23 d 33 

De même, A est définie négative si D1 0; D2 0 et D3 0

Il s’en suit que D1 = 2 > 0 et D2 = 0. A est donc semi-définie positive. On a donc un minimum.

II-4-1-1 Estimation de l’impact des dépenses gouvernementales sur le PIB/hab.

Soit le modèle suivant :


Yt =0 +1 X t +t Avec Yt = PIB/hab. et Xt = dépenses de consommation gouvernementale en
pourcentage du PIB. Le modèle estimé s’écrit comme suit :
Yˆt = ˆ0 + ˆ1 X t . On sait que par l’application de la méthode des MCO on a :

ˆ1= 
X tYt −TXY
et ˆ0 =Y − ˆ1 X .
 X t −TX
2 2

T T T T
On nous donne  Yt = 27236.61 , X t = 403.25 , X Y
t =1
t t = 400776.17 , X t
2
= 6088.29 et
t =1 t =1 t =1

T = 28.
1 T 27236.61
Y =  Yt = = 972.736
T t =1 28
1 T 403.25
X =  Xt = = 14.402
T t =1 28
400776.17 − (28  972.736  14.402) 400776.17 − 392261.628
ˆ1 = =
6088.29 − (28  14.402  14.402) 6088.29 − 5807.693
400776.17 − 392261.628 8514.542
ˆ1 = = = 30.344
6088.29 − 5807.693 280.597

Comme ˆ0 =Y − ˆ1 X , on aura : ˆ0 = 972.736 − 30.344 14.402

ˆ0 = 972.736 − 437.014 = 535.722

Le modèle estimé est donc : Yˆt = 535.722 + 30.344 X t


II-4-1-2 Interprétation des résultats
ˆ1 = 30.344 est une estimation de ˆ1 . C’est le niveau de variation du PIB/hab. consécutif à une
variation d’une unité des dépenses gouvernementales (en pourcentage du PIB). Ainsi, si les
dépenses gouvernementales augmentent (en % du PIB) d’une unité, toute chose étant égale par
ailleurs, on s’attend à ce que le PIB/hab. augmente de 30.344 unités.
➔ Il faut donc encourager les dépenses de consommation gouvernementale dans la mesure où
son impact redistributif est positif. Au niveau de ̂ 0 on pourrait dire que c’est le PIB/hab.
lorsque les dépenses gouvernementales sont nulles. Toutefois, il importe de faire très attention
quant à l’interprétation de ce paramètre. En effet, dans la plupart des modèles économiques, il
n’y a pas de valeurs de Xt proche de zéro à l’exception des modèles industriels ou l’absence
d’intrant résulte en l’absence de production.
II-4-2 La méthode du Maximum de Vraisemblance (MV)

Si une variable aléatoire y a une densité de probabilité f(y) caractérisée par les paramètres 1, 2, …, k et si nous pouvons
observer un échantillon y1, y2, …, yT, alors l’estimateur du Maximum de vraisemblance de 1, …, k, est l’estimation des
paramètres ci-dessus qui dans la majorité des cas nous permet de générer l’échantillon observé. En d’autres termes, après
avoir collecté des données d’un échantillon, il faut choisir les valeurs des paramètres inconnus  qui pourraient dans une
spécification donnée, maximiser la probabilité d’obtenir l’échantillon actuellement observé. Ainsi, pour pouvoir utiliser la
méthode du Maximum de Vraisemblance, il faut nécessairement se donner une loi pour le terme d’erreur. Si nous supposons
que ce dernier suit une loi normale de moyenne zéro et de variance 2, (𝜀𝑡 → 𝑖𝑖𝑑𝑁 0, 𝜎𝜀2 ), alors la fonction de densité de la
variable aléatoire y peut s’écrire :
( ~ ~
 Y − − X
− t 0 2 1 t
)2 
avec  =  ;  2 
1  2  
f ( y / x; ) = e  
(2.15)
2~2

La fonction de vraisemblance est donnée par l’expression suivante :


~ ~ 2
T T −
1 
 ( y t −  0 −  1 xt ) 

l ( ; y / x) =  f ( y / x; ) =  (2~2 ) 2
exp − ~2  (2.16)
t =1 t =1 
 2   

Cette fonction étant très complexe, nous allons la linéariser en prenant le logarithme népérien.
 (y )
T T 1 ~ ~
L = ln( l ) = − ln( 2 ) − ln( ~2 ) − ~ 2
2
t −  0 −  1 xt (2.17)
2 2 2 

Ici, comme il s’agit de trouver les valeurs de  qui maximisent la probabilité d’obtenir l’échantillon actuellement observé, notre
problème se résume en un problème de maximisation. Il nous faut donc maximiser L par rapport à  qui comprend les
paramètres  et 2 .Ceci revient à calculer les dérivées premières de L par rapport à  et 2 et à les égaler à zéro. On a donc :

 (y )
L 1 ~ ~
~ = ~2 t −  0 −  1 xt = 0 (2.18)
 0  

 (y )
L 1 ~ ~
~ = ~2 t −  0 −  1 xt xt = 0 (2.19)
1  

L T
= − ~2 +

~ ~
(
y t −  0 −  1 xt ) 2

=0 (2.20)
~
 2
2  2~4

La résolution des équations 2.18 et 2.19 (les équations normales) nous permet d’obtenir les
~ ~
expressions de  0 et  1 qui sont identiques aux paramètres obtenus par la MCO. La
résolution de l’équation 2.20 nous donne :

 (y )
~ ~ 2
−  0 −  1 xt
~2 =
t
(2.21)
T
II-4-3 La méthode des moments (MM)
Commençons par définir ce qu’est le moment d’une population notée γ.

C’est simplement l’espérance mathématique de la fonction continue d’une variable aléatoire x. γ = E g x


Le moment qui est le plus souvent usité est la moyenne μ ou g(.) est pratiquement une identité. 𝜇1′ = 𝐸 𝑥 = 𝜇 (2.22)
De façon traditionnelle, la MM considère la variable x élevée a des puissances. Ainsi, la moyenne est souvent appelée le
premier moment et 𝜇2′ = 𝐸 𝑥 2 est souvent appelé le second moment non centré.

Ainsi, si nous considérons une population avec une densité de probabilité (pdf) 𝑓 𝑥; 𝜃1 , ⋯ , 𝜃𝑘 qui dépend donc des
paramètres θ1, …,θk, les moments non centrés de la population ou moment d’origine de la population, μj sont définis comme
suit : 𝜇𝑗′ 𝜃1 , ⋯ , 𝜃𝑘 = 𝐸 𝑥 𝑗 avec 𝑗 = 1,2, … , 𝑘

Comme d’une façon générale, nous travaillons sur des échantillons plutôt que sur la population, définissons les moments par
rapport à l’échantillon. Ainsi donc, si 𝑥1 , ⋯ , 𝑥𝑇 est un échantillon aléatoire de 𝑓 𝑥; 𝜃1 , ⋯ , 𝜃𝑘 , les k premiers moments de
l’échantillon sont donnés par :

𝑗
σ𝑇
𝑖=1 𝑥𝑖
𝑀𝑗′= avec 𝑗 = 1,2, … , 𝑘 (2.23)
𝑇
On note ici que le premier moment de l’échantillon n’est rien d’autre que la moyenne de l’échantillon c'est-à-dire :
σ𝑇
𝑖=1 𝑥𝑖
𝑀1′= = 𝐸 𝑥 = 𝑋ത
𝑇
On voit que le moment de l’échantillon est proche du moment de la population.
෢1 , ⋯ , 𝜃
Le principe de la MM consiste donc à choisir comme estimateur des paramètres θ1, …,θk, des valeurs de 𝜃 ෢𝑘 qui égalisent
le moment de l’échantillon à celui de la population.
Illustrons : Si nous considérons le modèle de régression simple suivant :
Yt =0 +1 X t +t , et deux des hypothèses fondamentales à savoir
E(t )=0 ➔, la moyenne des erreurs de la population est nulle ;

𝑐𝑜𝑣 𝑋𝑡 𝜀𝑡 = 0 , la covariance de la population entre les erreurs et la variable explicative est


ේ0 et 𝛽
nulle. Soit 𝛽 ේ1 les estimateurs de la MM de 𝛽0 et 𝛽1 et 𝜀෕𝑡 = 𝑌𝑡 − 𝛽
ේ0 − 𝛽
ේ1 𝑋𝑡 l’équivalent
dans l’échantillon de la perturbation aléatoire non observée de la population. Les équivalences
dans l’échantillon des deux hypothèses ci-dessus sont :
1
σ 𝜀෕𝑡 =0 (2.24)
𝑇

1
σ 𝑋𝑡 𝜀෕𝑡 =0 (2.25)
𝑇

Si nous remplaçons 𝜀෕𝑡 par son expression dans les équations ci-dessus, nous avons pour la première hypothèse :
1 ේ0 − 𝛽
ේ1 𝑋𝑡 = 0 ➔σ 𝑌𝑡 − 𝑇𝛽 ේ0 − 𝛽ේ1 σ 𝑋𝑡 = 0 . La seconde hypothèse donne :
σ 𝑌𝑡 − 𝛽
𝑇
1 ේ0 − 𝛽
ේ1 𝑋𝑡 = 0 ➔σ 𝑋𝑡 𝑌𝑡 − 𝛽 ේ0 σ 𝑋𝑡 − 𝛽ේ1 σ 𝑋𝑡2 = 0 en mettant les deux équations ci-dessus ensemble, on se retrouve
σ 𝑋𝑡 𝑌𝑡 − 𝛽
𝑇
avec un système d’équations à deux inconnus.
σ 𝑌𝑡 − 𝑇𝛽ේ0 − 𝛽ේ1 σ 𝑋𝑡 = 0 σ 𝑌𝑡 = 𝑇𝛽ේ0 + 𝛽ේ1 σ 𝑋𝑡
൝ ➔ ൝
ේ0 σ 𝑋𝑡 − 𝛽
σ 𝑋𝑡 𝑌𝑡 − 𝛽 ේ1 σ 𝑋𝑡2 = 0 ේ0 σ 𝑋𝑡 + 𝛽
σ 𝑋𝑡 𝑌𝑡 = 𝛽 ේ1 σ 𝑋𝑡2
Les deux équations ci-dessus sont appelées équations normales. La résolution de ce système d’équations nous donne les

ේ0 = 𝑌ത − 𝛽
estimateurs 𝛽 ේ1 = σ 𝑋𝑡𝑌2𝑡−𝑇𝑋ത 𝑌ത qui sont identiques aux estimateurs des MCO et du MV. Il faut relever que ceci
ේ1 𝑋ത et 𝛽
σ ത2
𝑋𝑡 −𝑇𝑋

n’est toujours pas le cas. En outre, dans des situations très complexes, la MM fournit un moyen simple et à convenance pour
obtenir un estimateur convergent.
D’une façon générale, on doit retenir que les estimateurs sont des formules et représentent des variables aléatoires tandis que les
estimations sont des valeurs des variables aléatoires. Cette distinction est fondamentale.

II-5 Interprétation des estimations

Une fois les estimations des MCO obtenues, ces dernières peuvent être interprétées dans le cadre du modèle économique
considéré. Par exemple, si nous avons après estimation obtenu le modèle suivant :
yˆ t = 40.7676 + 0.1283xt , la valeur ˆ1 = 0.1283 est une estimation de  1

C’est la valeur par laquelle yt augmentera à la suite de l’augmentation de xt d’une unité. Ainsi,
si xt augmente de 100 unités, alors yt augmentera de 12.83 unités. Pour ce qui concerne le terme
constant, ˆ0 = 40.7676 , c’est la valeur de yt lorsque xt est nulle. Dans la plupart des modèles
économiques, nous devrons être prudent dans l’interprétation de ̂ 0 dans la mesure où en
général il n’y a pas de point de données où x est nulle. Quoique le modèle suggère que yt =
40.7676 lorsque xt=0, il serait très risqué de prendre cette assertion de façon littérale.
II-6 Calcul des élasticités à partir d’un modèle de régression.

Soit le modèle de demande suivant : Qt =0 +1Pt +t . On sait à partir des principes de
microéconomie que l’élasticité de toute variable Qt par rapport à une variable Pt est donnée
par l’expression suivante :
Q Q Qt P
P = Qui dans le cas d’une estimation peut se réécrire comme suit : P = 
P P Pt Q
.
Partant du modèle ci-dessus, prenons sa dérivée par rapport à Pt. On a : Qt = 1 .
Pt
P
Ainsi, P = 1 P . Lorsque le modèle est estimé on a :  P = ̂1
Q Q

II-7- Choix d’une forme fonctionnelle

Rappelons que notre première hypothèse était celle de la linéarité. C’est sous cette hypothèse que nous avons estimé les
paramètres du modèle classique. A quoi devrions-nous faire face si cette hypothèse n’était plus vérifiée ? Comme la linéarité
dont il est question est la linéarité dans les paramètres et non dans les variables, il est possible que si nous sommes confrontés
à un modèle non linéaire, nous puissions le transformer en modèle linéaire et se faisant appliquer les techniques d’estimation
ci-dessus. Toutefois, lorsque le modèle ne peut être transformé en modèle linéaire, nous devons avoir recours à d’autres
techniques d’estimation.
Quelques formes fonctionnelles usuelles
Type Modèle statistique Pente Elasticité
X
1- Linéaire Yt =  0 + 1 X t +  t 1 1 t
Yt
1 1 1
2- Inverse Yt =  0 + 1 + t − 1 − 1
Xt X t2 X t Yt
Yt
3- Double log ln Yt =  0 + 1 ln X t +  t 1 1
Xt
4- Log-linéaire (exponentielle) ln Yt =  0 + 1 X t +  t  1Yt 1 X t
1 1
5- Semi-log (lin-log) Yt =  0 + 1 ln X t +  t 1 1
Xt Yt
1 Y 1
6- Log-inverse ln Yt =  0 − 1 + t 1 t2 1
Xt Xt Xt
II-8 Exercices d’application

Soit le modèle suivant : Yt =0 +1 X t +t

En utilisant la méthode des MCO, déterminer les estimateurs ̂ 0 et ˆ1 de  0 et  1 .

On vous donne les informations suivantes : T=20 ; X =7 ; Y =70 ; X =38 ;  X tYt =196 .
t
2

Estimer les paramètres du modèle en utilisant l’une ou l’autre des approches et donner une
première interprétation de ces derniers.
CHAPITRE III : PROPRIETES DES ESTIMATEURS

III.1 Introduction

Dans le chapitre précédent, nous avons présenté et estimé le modèle de régression linéaire simple, sans
toutefois nous poser de questions sur la fiabilité ou la qualité des estimateurs obtenus. Etant donné l’objectif de
l’économétrie qui est d’aider à la prise de décision, il est essentiel que l’on s’assure que les estimateurs obtenus
ont des propriétés désirables et donc fiables. Le présent chapitre va donc nous permettre de mieux apprécier les
estimateurs obtenus dans le chapitre précédent.

Les propriétés que nous allons considérer et qui sont appelées propriétés désirables sont : être linéaire, être sans
biais et avoir la plus petite variance.

Si les estimateurs ont ces propriétés, on dira qu’ils sont les meilleurs estimateurs linéaires sans biais (BLUE ➔
Best Linear Unbaised Estimator).
III.2 La linéarité

On sait que ˆ1 =


 X tYt −TXY on peut réécrire ̂1 de la manière suivante :
 X −TX
2
t
2

ˆ = 
(X − X )(Y −Y )= (X − X )Y
t t t t
(à démontrer).
(X − X ) (X − X )
1 2 2
t t

Si nous posons x t = X t − X et y t = Yt − Y , on a :

ˆ1 =
 xt y t
=
x Y t t
. (3.1)
x 2
t x 2
t

xt
Posons encore que wt = , (3.2)
 xt2

➔ ˆ1 =  wt Yt = w1Y1 + w2Y2 + ... + wk Yk (3.3)

On voit bien que ̂1 est une fonction linéaire de Yt.


III.3 L’absence de biais
Un estimateur ̂1 est dit sans biais si et seulement si, E( ̂1 ) =  1 . En d’autres termes,
̂1 est sans biais si sa moyenne est égale à sa vraie valeur.
Montrons que ˆ1 est sans biais.
x y x Y
ˆ1 = w Y . Or Yt =  0 +  1 X t +  t
t t t t
= =
x x
2 2 t t
t t

ˆ1 =  wt ( 0 +  1 X t +  t ) =  0  wt + 1  wt X t +  wt  t

Notons que w t = 0 et w X t t = 1.

Preuve :
x
 wt = 0  wt = x = X X
t
, or, x t = X t − X . Ainsi donc, − TX . Or = TX .
x 2
t
t t t

On a par conséquent : TX − TX = 0 . Donc, x t =0

w X =1  x X or x = X − X ➔ x X = (X − X )X
 wt X t =  
t t
t t
x 2 t t t t t t
t

 (X − X )X =  (X − X )X = 1 ➔  w X = 1.
w X
t t
= t t

 (X − X )  (X − X )X
t t 2 t t
t t t
En considérant les résultats ci-dessus, on peut réécrire ˆ1 comme suit :

En prenant l’espérance mathématique, on obtient :

E ( ˆ1 ) =  1 +  wt E ( t ) Comme E(t) = 0,

on a : E ( ˆ1 ) =  1 ➔ ˆ1 est donc un estimateur sans biais de  1 .

Montrons que ̂ 0 est un estimateur sans biais i.e. E( ˆ 0 ) =  0 .

On sait que ˆ 0 = Y − ˆ1 X , Y =


Y t
, et que ̂ 1 =  wt Yt .
T

On a donc, ̂ 0 =
Y t
− X  wt Yt . Prenons l’espérance mathématique de cette expression,
T

 E (Y ) − XE ( w Y ) , nous savons que E(Y ) =  +  X et que


E ( ˆ0 ) = 
t
t t t 0 1 t
T

E ( wt Yt ) = E ( ˆ1 ) =  1

En remplaçant E(Yt) et E( ˆ1 ) par leurs expressions respectives, on a :

E( ˆ 0 ) =  0 + 1 X − 1 X ➔ E( ˆ 0 ) =  0 . ̂ 0 est donc un estimateur sans biais de  0


III.4 L’efficience
• Déterminons la variance de ˆ1

Var ( ˆ1 ) = Var ( wt Yt ) car ̂ 1 =  wt Yt (3.5)

Var( wt Yt ) = Var[w1Y1 + w2Y2 + ... + wnYn ] (3.6)

Var( wt Yt ) = Var(w1Y1 ) + var( w2Y2 ) + ... + var( wnYn ) puisque les différentes valeurs de Yt sont indépendantes les unes des autres

Var( wt Yt ) = w12Var(Y1 ) + w22Var(Y2 ) + ... + wn2Var(Yn ) (3.7)

Var( wt Yt ) = w12 2 + w22 2 + ... + wn2 2 (3.8)

xt x t2
Var( wt Yt ) =    w comme wt =
2 2
➔ w =
2
t
 xt2
t
 x 
2 2
t

Var ( wt Yt ) =  
x 2
 2
w =
t
2 2 2
=
t
 x 
2 2
t x 2
t

 2
Var ( ˆ1 ) =
x 2
t
• Déterminons la variance de ̂ 0

Nous savons que ˆ0 = Y − ˆ1 X =


Y t
− X  wt Yt
T
1  1
ˆ0 =   − Xwt Yt . Si on pose ht = − Xwt , on a : ̂ 0 =  ht Yt (3.10)
T  T
Var ( ˆ 0 ) = Var ( ht Yt ) (3.11)

Var( ht Yt ) = Var[h1Y1 + h2Y2 + ... + hnYn ] (3.12)

Var( ht Yt ) = Var(h1Y1 ) + var( h2Y2 ) + ... + var( hnYn ) (3.13)

Var( ht Yt ) = h12Var(Y1 ) + h22Var(Y2 ) + ... + hn2Var(Yn ) (3.14)

Var( ht Yt ) = h12 2 + h22 2 + ... + hn2 2 (3.15)

Var( ht Yt ) =  2  ht2 (3.16)

1
comme ht = − Xwt ,
T
2
1  1 2 Xwt
➔ h =  − Xwt  = 2 −
t
2
+ X 2 wt2 (3.17)
T  T T

 1 2 Xwt 2 2 N 2 X  wt
 t  T 2 T
h 2
=  − + X w 
t  = 2

T
+ X 2  wt2 (3.18)
  T
1
Or, w = 0 et w 2
=
 xt2
t t

T X2
➔ h = 2 + 2
(3.19)
 xt2
t
T

• Variance minimale
Il nous faut montrer que les estimateurs des MCO ont la plus petite variance dans la classe des estimateurs linéaires sans biais.
Pour atteindre notre objectif, il nous faut prendre un estimateur de la classe des estimateurs linéaires sans biais et montrer que sa
variance est supérieure à celle des estimateurs des MCO
~
Soit  1 =  ct Yt cet estimateur. Avec ct = wt + kt.
~
De par sa définition,  1 =  ct Yt est une fonction linéaire de Yt.
~ ~
Montrons que  1 est sans biais i.e. E (  1 ) =  1 .
~
 1 =  ct Yt (3.21)

On sait que Yt =  0 +  1 X t +  t
~
➔  1 =  c t ( 0 +  1 X t +  t ) =  0  c t +  1  c t X t +  c t  t (3.22)
~
E (  1 ) =  0  ct +  1  ct X t +  ct E ( t ) (3.23)

Comme par hypothèse E ( t ) = 0 , on a :


~
E (  1 ) =  0  ct +  1  ct X t (3.24)
~
E (  1 ) =  1 si et seulement si, c t = 0 et c X t t =1

Comme ct = wt + kt ➔ c =  w + k
t t t . Or nous savons que w
t =0.

Par conséquent, c t = 0 entraîne que k t = 0.

Examinons  ct X t .

 c X =  (w
t t t + k t )X t =  wt X t +  k t X t = 1 ? Nous savons que  wt X t = 1 .

Nous concluons donc que k X t t =0 et que c X t t =1 (3.25)


~
Calculons maintenant la variance de  1 .
~
Var (  1 ) = Var ( ct Yt ) (3.26)

Var( ct Yt ) = Var[c1Y1 + c2Y2 + ... + cnYn ] (3.27)

Var( ct Yt ) = Var(c1Y1 ) + var( c2Y2 ) + ... + var( cnYn ) (3.28)

Var( ct Yt ) = c12Var(Y1 ) + c22Var(Y2 ) + ... + cn2Var(Yn ) (3.29)

Var( ct Yt ) = c12 2 + c22 2 + ... + cn2 2 (3.30)

Var( ct Yt ) =  2  ct2 (3.31)

or ct = wt + kt ➔ ct2 = (wt + k t ) = wt2 + 2wt k t + k t2


2
(3.32)

c =  w
2
t
2
t + 2 wt k t +  k t2 (3.33)

xt xt k t  x k  (X − X )k
 wt k t
t t t t
Or wt = , ➔ w k = ➔ = = (3.34)
 t
x 2 t t
 tx 2
 x 2
tx 2
t
Le numérateur se décompose comme suit :

 X k − X  k or nous savons que  X k = 0 et que  k


t t t t t t =0,

➔ c =  w + k
2
t
2
t t
2
(3.35)

➔ Var ( c Y ) =   c =  ( w +  k ) = Var (  )
2 2 2 2~ 2
t t  t  t t 1 (3.36)
~
Var (  1 ) =  2  wt2 +  t2  k t2 (3.37)

ˆ1 à la plus petite variance dans la classe des estimateurs linéaires sans biais. Les estimateurs
obtenus à partir des MCO sont donc BLU.
• Déterminons la covariance entre ̂ 0 et ˆ1 i.e. Cov( ˆ 0 , ˆ1 )

 
Cov( ˆ 0 , ˆ1 ) = E ˆ 0 − E( ˆ 0 ) ˆ1 − E( ˆ1 )  (3.39)
Comme ̂ 0 et ˆ1 sont des estimateurs sans biais, nous pouvons écrire que :

  
Cov( ˆ 0 , ˆ1 ) = E ˆ 0 −  0 ˆ1 − 1 or on sait que : ̂ 1 =  wt Yt et ˆ1 =  1 +  wt  t

( )
➔ ˆ1 −  1 =  wt  t

de même, ˆ 0 = Y − ˆ1 X et Y =  0 +  1 X

( )
➔ ˆ 0 =  0 + 1 X − ˆ1 X ➔ ˆ 0 −  0 = − X ˆ1 − 1 ( ) (3.40)

En remplaçant les différentes expressions dans la covariance, on a :

 ( )(
Cov( ˆ 0 , ˆ1 ) = E − X ˆ1 − 1 ˆ1 − 1 ) (3.41)

Cov( ˆ 0 , ˆ1 ) = − XE ( wt  t •  wt  t ) (3.42)

Cov( ˆ 0 , ˆ1 ) = − XE(w1 1 + w2  2 + ... + wn  n )(w1 1 + w2  2 + ... + wn  n ) (3.43)


Cov( ˆ 0 , ˆ1 ) = − XE w12  12 + w22  22 + 2w1 w2  1 2 + ... + wn2  n2  (3.44)


Cov( ˆ 0 , ˆ1 ) = − X w12 E( 12 ) + w22 E( 22 ) + 2w1 w2 E( 1 2 ) + ... + wn2 E( n2 )  (3.45)
Nous savons que E ( t ) =   et que par l’hypothèse d’absence d’autocorrélation,
2 2

E ( t  s ) = 0
E ( t  s ) = 0 . On a donc :

Cov( ˆ 0 , ˆ1 ) = − X 2  wt2 (3.46)

− X 2
➔ Cov( ˆ 0 , ˆ1 ) = (3.47)
x 2
t

On constate que toutes les variances sont fonction de   , il nous faut par conséquent l’estimer.
2
Estimation de la variance résiduelle : ˆ 
2

On sait que Yt =0 +1 X t +t


Posons que Y =0 + 1 X + (3.48)

pour des raisons de convenance, nous n’utiliserons pas le résultat  =0 .

➔ Yt −Y =1(X t − X)+(t − ) (3.49)

en posant yt =Yt −Y et xt = X t − X on a : yt =1xt +(t − ) (3.50)

Si nous estimons ce modèle, nous obtenons ce qui suit : yˆt = ˆ1xt . (3.51)
Partant de ce résultat, nous pouvons obtenir les résidus en faisant la différence entre yt et ŷt i.e.

yt − yˆt =eˆt = 1xt + t − − ˆ1xt (3.52)

➔ eˆt =( t − )−(ˆ1 − 1)xt (3.53)


Elevons êt au carré et appliquons-lui la sommation. On a :

t 
ˆ
e 2= ( t − )2
−2 ˆ
1 − (
1 ( t −)
 )xt + ˆ
1 −(1 )
2
xt2 (3.54)

Prenons l’espérance mathématique de cette expression, on a :

( ) (
E[eˆt2]=E[( t − ) ]−2E[ ˆ1−1 ( t − )xt ]+ E ˆ1−1 xt2
2 2
) (3.55)

Séparons les différentes composantes de l’expression ci-dessus afin de faciliter ou simplifier


les développements.

Appelons A la première composante i.e. E ( t − )2 , B la deuxième composante i.e. 
( )
E ˆ1 − 1 ( t − )xt  et C la troisième composante i.e. E ˆ1− 1 ( ) x .
2
2
t Développons

composante après composante.

 2
  ( ) 
A = E  ( t −  ) = E   t2 − 2 t  +  2 = E  t2 − 2  t + T 2  (3.56)

➔ A= E  t
2
    
− 2T 2 + T 2 = E   t2 − T 2 = E   t2 − TE  2 ( ) (3.57)

  (  )2 
Or on sait que  =
T
t
, on a donc : A =  E ( )t
2
− TE 
t
 (3.58)
 T2 
 

E (  t )
1 2
➔ A = T 2 − (3.59)
T
 
E  t = E(1 + 2 +...+ n )(1 + 2 +...+ n )
2
(3.60)

➔ E t  = E12 + 22 +21 2 +...+ n2 = E(12 )+ E( 22 )+2E(1 2 )+...+ E( n2 )


2
(3.61)

➔ E   t
2
=  2 +  2 + ... +  2 = T 2 (4.62)

On a donc :
1 (3.63)
A = T 2 − T 2 =  2 (T − 1)
T
(
Attaquons nous à la deuxième composante. B= E ˆ1− 1 ( t − )xt )  (3.64)

On sait que ˆ1−1=wtt , où wt = xt 2 et xt = X t − X . On peut donc réécrire B comme suit :


xt

B= E  2 •( t − )(X t − X ) = E  2 •(X t − X ) t 


 xt t   xt t 
(3.65)
  xt    xt 

B= E  2 • xt t  = 1 2 E  xt t
 xt t 
 2
(3.66)
  xt   xt

➔ 1 E((x11+ x2 2 +...+ xn n )(x11+ x2 2 +...+ xn n )) (3.67)


xt2
➔ 1 E(x2 2 + x2 2 +2x1x21 2 +...+ xn2 n2 ) (3.68)
xt2
1 1 2 2

➔ 1 x2 E( 2)+ x2 E( 2)+2x1x2 E(1 2)+...+ xn2 E( n2) (3.69)
xt2
1 1 2 2

1 (x2 2 + x2 2 +...+ xn2 2 )=  xt


2 2
➔ (3.70)
xt2 xt2
1 2

on a donc B= 2 (3.71)


Attaquons la composante C i.e. E ˆ1− 1 ( ) x
2
2
t

2
( )
Nous savons que E ˆ1 − 1 =Var(ˆ1)=   2
2
(3.72)
x t

Par conséquent, nous avons :


C =   • xt2
x 
2
2
(3.73)
t

on a donc C = 2 (3.74)

Revenons à notre expression initiale.


( ) (
E[eˆt2]=E[( t − ) ]−2E[ ˆ1− 1 ( t − )xt ]+ E ˆ1−1 xt2
2 2
)
 
➔ E eˆt2 = A−2B+C (3.75)

➔ E eˆ  = 
2
t
2
 (T − 1) − 2 2 +  2 (3.76)

➔ E eˆ  = 
2
t
2
 (T − 1) −  2 =  2 (T − 2) (3.77)

➔  2 =

E  eˆt2  (3.78)
T −2
Ainsi donc, une estimation de la variance résiduelle est donnée par :

ˆ 
2
=
 eˆ2
t (3.79)
T −2

Ce résultat peut être généralisé dans le cas du modèle à k variables explicatives, pour donner :

ˆ 
2
=
 eˆ 2
t
(3.80)
T −k
III-5- Exercices d’application
CHAPITRE 4 EVALUATION DU MODELE DE REGRESSION LINEAIRE SIMPLE

IV-1- Significativité des paramètres estimés : Tests d’hypothèses

Les problèmes de prise de décision en économie nécessitent une base solide. Cette dernière peut-être, qu’un paramètre
donné à telle ou telle valeur, ou que ce dernier est nul. Ainsi, nous voulons tester par exemple que la valeur du paramètre
estimé est nulle, positive ou négative, ce faisant, nous parlons de test d’hypothèse. Chaque test d’hypothèse comprend
quatre composantes qui sont : i) une hypothèse nulle, ii) une hypothèse alternative, iii) une statistique et iv) une région
critique ou zone de rejet.

IV-1-1- L’hypothèse nulle


L’hypothèse nulle ou hypothèse de base notée H0, spécifie ou attribue une valeur à un paramètre. Dans l’exemple de la
fonction de demande suivante,
Qt =0 +1Pt +2Yt +t
une hypothèse nulle peut-être définie par : H0:2 =0 . Le terme zéro ici indique que si notre
hypothèse est correcte, alors, Yt a un effet nul sur Qt. Ainsi, l’hypothèse nulle est ce à quoi nous
croyons jusqu’à ce que l’on nous prouve le contraire. Si on arrivait à nous prouver le contraire
alors on rejetterait l’hypothèse nulle.
IV-1-2- L’hypothèse alternative

Celle-ci est une hypothèse logique, notée H1 que nous acceptons si l’hypothèse nulle H0 est rejetée. L’hypothèse alternative est
flexible et dépend dans une certaine mesure de la théorie économique.

Ainsi, pour l’hypothèse nulle H0:2 =0 , il y a trois hypothèses alternatives possibles :


❖ H1:2 0 . Ici, rejeter l’hypothèse nulle H0:2 =0 signifie que  2 prend d’autres valeurs
et que ces valeurs peuvent être positives ou négatives (on parle de test bilatéral).

❖ H1:2 0 . Ici, rejeter l’hypothèse nulle conduit à la conclusion que le paramètre  2 est
positif (on parle de test unilatéral).

❖ H1:2 0 . Ici, rejeter l’hypothèse nulle conduit à la conclusion que le paramètre  2 est
négatif (on parle de test unilatéral).

IV-1-3- La statistique

L’information relative à l’hypothèse nulle est contenue dans la valeur calculée (estimée) d’une statistique. Sur la base de cette
statistique qui est elle-même une variable aléatoire, on décide de rejeter l’hypothèse nulle ou de ne pas la rejeter. La statistique
d’un test a des caractéristiques spéciales par exemple, sa distribution de probabilité (loi de probabilité) doit être connue lorsque H0
est vraie et elle doit avoir une autre loi de probabilité lorsque H0 n’est pas vraie.
Notons que les propriétés des estimateurs des MCO que nous avons développés ne dépendent pas de l’hypothèse de
normalité. Toutefois, sur la base de l’hypothèse selon laquelle

nous pouvons dire que les estimateurs des MCO suivent eux aussi une loi normale et cela pour deux raisons :

Puisque  t suit une loi normale, il en va de même de Yt, puisque Yt =0 +1 X t +t

❖ Les paramètres sont linéaires et de la forme ̂1=wtYt , et nous savons que

la somme pondérée de variables aléatoires normales est elle-même


normale. Par conséquent, sur la base de l’hypothèse de normalité de  t
alors, les estimateurs des MCO suivent une loi normale telle que :

 1 X 2  2 
ˆ 
 0 → N  0,  +  , (4.1)
  T  xt2   
   

  2 
ˆ1→ N 1,   2   (4. 2)
 x
 
 t 
  2 
Considérons le cas de ̂1 i.e. ˆ1→ N 1,   2   .
   xt  
 

Nous pouvons normaliser cette variable aléatoire normale en lui soustrayant sa moyenne
ˆ1 − E(ˆ1)
et en divisant le résultat par son écart-type i.e. Z = → N(0,1) (4.3)
Var(1)ˆ

Ainsi, toute variable aléatoire normale peut-être normalisée pour obtenir une variable aléatoire normale centrée réduite.

Toujours partant de l’hypothèse de normalité de  t i.e.


t →N(0, 2) (4.4)
en normalisant cette variable aléatoire on a :

Zt = t →N(0,1) (4.5)

et nous savons car nous l’avons vu, que la somme des carrés d’une variable aléatoire normale centrée réduite suit un Chi
deux avec T degré de liberté i.e.

( ) =( ) +( ) +...+( ) →


2 2 2 2
t 1 2 T 2
(T) (4.6)
   
Comme  t n’est pas observable, remplaçons le par êt on a


2 2
 eˆ  eˆt (T − 2)ˆ 2
V =   t  = = →  (2T − 2) (4.7)
  
2 2

Souvenons-nous de ce que le ratio d’une variable aléatoire normale centrée réduite par
la racine carrée d’une variable aléatoire de  2 qui a été divisé par son degré de liberté
suit une loi de Student (t) i.e.

t = Z →t(m) (4.8)
V
m

Remplaçons chaque terme par son expression, on a :

(ˆ 1 − 1 ) (ˆ
1 − 1 )
 2  2

t=
x 2
t
=
x 2
t
, (4.9)
(T − 2)ˆ  2
(T − 2)ˆ  2

 2  2 (T − 2)
(T − 2)
ˆ1 − 1  2
➔t=  , (4.10)
2
ˆ 
2

x 2
t

ˆ1 − 1
➔t = → t (T − 2 ) (4.11)
Var ( ˆ1 )

dans le cas où le nombre de paramètres estimés est k, on a t(T-k).


IV-1-4- La région critique ou zone de rejet

La région critique est l’ensemble des valeurs de la statistique qui conduisent au rejet de l’hypothèse nulle. On
ne peut construire une région critique que si la loi de probabilité de la statistique est connue lorsque H0 est
vraie. Dans la pratique, la région critique est un ensemble de valeurs de la statistique telle que quand H0 est
vraie, ces valeurs ont une faible probabilité de se produire. Graphiquement, on partitionne l’espace de
l’échantillon en deux régions (région de rejet et région de non rejet) de sorte que si la statistique tombe dans la
zone de rejet, l’hypothèse nulle est rejetée. Si par contre elle tombe dans la région de non rejet, l’hypothèse
nulle n’est pas rejetée.

Rejeter Rejeter
H0 H0
Ne pas rejeter
H0

Format d’un test d’hypothèses

1. Déterminer l’hypothèse nulle (H0) et l’hypothèse alternative (H1).


2. Spécifier la statistique et sa loi de probabilité sous H0
3. Sélectionner le seuil de significativité () et déterminer la région critique
4. Calculer la valeur de la statistique à partir de votre échantillon
5. Tirer votre conclusion.
IV-1-5- Erreur de type I et II
Lorsque nous rejetons ou que nous ne rejetons pas l’hypothèse nulle, il y a des chances que nous commettions une erreur. Cela est
inévitable. Dans toute situation de test d’hypothèse, nous avons deux façons de prendre une décision correcte et deux façons de
prendre une décision incorrecte.
Nous prenons une décision correcte si :
❖ L’hypothèse nulle est vraie et que nous décidons de ne pas la rejeter.

❖ L’hypothèse nulle est fausse et que nous décidons de la rejeter.

Nous prenons une décision incorrecte si :

❖ L’hypothèse nulle est vraie et que nous décidons de la rejeter (nous commettons une erreur de type I),

❖ L’hypothèse nulle est fausse et que nous décidons de ne pas la rejeter (nous commettons une erreur de type II).

Quand nous rejetons l’hypothèse nulle, nous risquons une erreur de type I. La probabilité associée à cette erreur est  et représente
le seuil de significativité du test d’hypothèse.  est sous notre contrôle, c’est à dire que nous décidons de la probabilité que nous
voulons associer à l’erreur de type I. Si nous savons que ce type d’erreur peut nous coûter très cher, alors nous pouvons choisir un
seuil de significativité qui soit petit, peut-être  = 0.01,  = 0.05 ou  = 0.10.
Nous risquons une erreur de type II lorsque nous ne rejetons pas l’hypothèse nulle alors qu’elle est fausse. La probabilité
de commettre une erreur de type II n’est pas nulle. Qui plus est, cette dernière ne dépend pas de nous et nous ne pouvons
pas non plus la calculer dans la mesure où elle dépend de la vraie valeur (inconnue) du paramètre en question. Toutefois,
nous savons ceci par rapport à l’erreur de type II.

❖ La probabilité de commettre une erreur de type II varie en sens inverse du seuil de significativité du test () . Si on choisit de
rendre  petit, la probabilité de commettre une erreur de type II croît.

❖ Plus la vraie valeur du paramètre est proche de la valeur hypothétique du paramètre, plus élevée sera la probabilité de
commettre une erreur de type II. Ceci, dans la mesure où le test perd son pouvoir de discerner entre la vraie valeur et une
valeur incorrecte.

❖ Plus la taille de l’échantillon est grande, plus petite sera la probabilité de commettre une erreur de type II.

IV-1-6- La valeur P (P-value) d’un test de probabilité

Dans la présentation des résultats de test statistique, il est devenu courant de présenter la valeur P du test. Cette dernière est
calculée par la détermination de la probabilité que la loi donnée peut prendre une valeur supérieure ou égale à la valeur absolue
de la statistique calculée. En utilisant la valeur P, on peut déterminer s’il faut rejeter ou non l’hypothèse nulle en la comparant
au seuil de significativité.
Récapitulatif

Supposons que nous voulions tester une hypothèse concernant le paramètre .


Nous allons développer une procédure de test basée sur ̂ et nous supposerons que
ˆ →N(, 2 ) . Si 0 est une valeur spécifique de, on cherchera à tester si oui ou non la
vraie valeur de  est égale à 0 . Plusieurs cas se présentent et on aura ce qui suit :

  0  test unilatéral
❖ Tester H0: =0 contre H1: 
  0 
  0 test bilatéral
ˆ −0
❖ La statistique est donnée par ce qui suit : Zc = →N(0,1)

❖ Choisir 
 Zc Z  test unilatéral
❖ Déterminer la région critique : rejeter H0 si :  Zc −Z 
 Zc Z / 2  test bilatéral
Dans le cas ci-dessus, on fait l’hypothèse que la variance du paramètre  est connue
avec certitude (  ̂2 est connue). Or en général,  ̂2 n’est pas connue et doit être estimée à
partir de l’échantillon. On obtient ainsi, ˆ 2ˆ .
Lorsque nous remplaçons  ̂2 par ˆ 2ˆ , la statistique développée ci-dessus ne suit plus une
loi normale centrée réduite mais plutôt une loi de Student (t). Une fois que  ̂2 est
remplacée par ˆ 2ˆ , on a :
  0  test unilatéral
❖ Tester H0: =0 contre H1: 
  0 
  0 test bilatéral
ˆ −  0
❖ La statistique est donnée par ce qui suit : t c = → t (T − K )
ˆ ˆ
❖ Choisir 
 tc t  test unilatéral
❖ Déterminer la région critique : rejeter H0 si :  tc −t 
 tc t / 2  test bilatéral
IV-2- Le coefficient de détermination
L’une des raisons fondamentales d’analyse du modèle Yt =0 + 1 X t +t est d’expliquer
comment la variable dépendante change lorsque la variable indépendante change. Ainsi
donc, en utilisant une variable indépendante, nous nourrissons l’espoir que les
changements ou variations de cette dernière expliquerons celles de la variable
dépendante. Afin de développer une mesure de la variation de Yt qui est expliquée par le
modèle, décomposons Yt en composante systématique et composante aléatoire. La
composante systématique est donnée par l’expression suivante :

E(Yt)=0 +1 X t alors que la composante aléatoire est donnée par t.

Nous avons donc : Yt =E(Yt )+t .

L’estimation de ce modèle nous permet d’avoir :

Yˆt = ˆ0 + ˆ1 X t ➔ ˆt =Yt −Yˆt .


➔ Yt =Yˆt +ˆt (4.12)

Soustrayons Y de part et d’autre de l’égalité ci-dessus, élevons chaque partie au carré et enfin
faisons la somme de part et d’autre, on a :

(Y −Y ) =(Yˆ −Y )+ˆ  =(Yˆ −Y ) +ˆ +2(Yˆ −Y )ˆ


t
2
t t
2
t
2
t
2 t t (4.13)

(Y −Y ) =(Yˆ −Y ) +ˆ +2(Yˆ −Y )ˆ


2 2
➔ t t t
2 t t (4.14)
L’expression 2 Yˆt −Y  t =0 ( )
En effet, nous savons que Yˆt = ˆ0 + ˆ1 X t et que comme ˆ0 =Y − ˆ1 X , on peut tirer que

Y = ˆ0 + ˆ1 X . Ainsi, Yˆt −Y = ˆ0 + ˆ1 X t − ˆ0 − ˆ1 X = ˆ1(X t − X) (4.15)

ˆ1
ˆ
➔ Yt − Y = (TX i −  X i ) (4.16)
T

ˆ1 ˆt
➔ (Yˆ − Y )ˆ
t t = ((TX −  X )ˆ
t t t = (TX ˆ −  X ˆ ) (4.17)
t t t t
T T

comme Xt et t ne sont pas corrélées alors,  X ˆ =0 t t (4.18)

(Yˆ −Y )ˆ =ˆ  X ˆ =0


ˆ
( T
)
➔ Yˆt − Y ˆt = 1 TX t ˆt = 0 et t t 1 t t (4.19)

(Y −Y ) =(Yˆ −Y ) +ˆ


2 2
t t t
2 (4.20)
où,

(Y −Y )
2
t est la somme totale des carrés (STC),

(Yˆ −Y )
2
t est la somme des carrés expliqués (SCE),

ˆ t
2 est la somme des carrés des résidus (SCR)

➔ STC = SCE + SCR (4.21)


Ainsi, pour obtenir la proportion des variations de la variable dépendante expliquée par la ou les variable (s)
explicative (s), on divise chaque membre de l’égalité par la somme totale des carrés. Cela donne,

STC = SCE + SCR


STC STC STC

1= SCE + SCR
STC STC
SCE =1− SCR =R 2
STC STC
(4.25)
2
➔ R =1− ˆt2
(Y −Y )
2
t

➢ Le coefficient de détermination est une mesure descriptive et sa valeur est comprise entre 0 et 1. Ainsi, si R2 = 1 alors on dira
que les variations de la variable dépendante sont parfaitement expliquées par la ou les variable (s) indépendante (s).

➢ Si R2 = 0, alors on dira que les variations de la variable dépendante ne sont pas expliquées par la ou les variable (s) indépendante
(s).

➢ Lorsque 0 < R2 < 1, cela explique le pourcentage de variation de la variable dépendante expliqué par la ou les variable (s)
indépendante (s).
IV-3- Analyse du coefficient de corrélation

La covariance tout comme la moyenne et la variance, est une espérance mathématique. En effet, si X et Y sont des variables
aléatoires alors leur covariance qui mesure l’association linéaire entre ces deux variables est :

Cov(X,Y) = E[(X – E(X))(Y – E(Y))].

Si la covariance est positive, on dira qu’il y a une association positive entre les deux variables, par contre si la covariance est
négative, on dira qu’il y a une association négative entre les deux variables.

Si la covariance est nulle alors, il n’y a pas d’association entre les deux variables. Lorsque la covariance entre X et Y est
divisée par leur écart type respectif, on obtient le coefficient de corrélation noté ρ. Le coefficient de corrélation mesure le
degré d’association linéaire entre X et Y et est donnée par :

Cov( X , Y ) -1 < r < 1


r= (4.26)
var( X ) var(Y )

Si X et Y sont des variables aléatoires indépendantes alors leur covariance et coefficient de corrélation sont nuls. Toutefois,
l’inverse n’est pas vérifié.
IV.4. Analyse de la variance

IV-4-1 Introduction
L'analyse de la variance (ANOVA) est une méthode statistique utilisée dans la décomposition de la variation totale d'une variable
en composantes additives attribuables à des facteurs distincts. Ces facteurs constituent les sources de variations de la variable en
question. Ainsi, dans le cas d'une régression, on s'intéresse à la variable expliquée, et l'analyse de la variance permet de tester la
significativité globale du modèle en question.

IV-4-2- Méthode d'analyse de la variance

Comme indiqué en introduction, l'ANOVA consiste à décomposer la variation totale d'une variable en composantes additives telle
que :

  ˆ  ˆ
2 2 2
(Yt −Y ) = (Yt −Y t ) + (Y t −Y ) (4.27)

STC = SCR + SCE (4.28)

Où STC est la somme totale des carrés ;


SCR est la somme des carrés des résidus ;
SCE est la somme des carrés expliqués.
Une fois les valeurs de STC, SCE et SCR connues, il faut déterminer leur degré de liberté. On a donc :
2
K-1 pour σ 𝑌෠𝑡 − 𝑌ത dans la mesure où il s'agit des variations expliquées par le modèle de régression et qu'il y a K-1
coefficients associés aux variables explicatives.

2
T - K pour σ 𝑌𝑡 − 𝑌෠𝑡 puisque pour chaque coefficient estimé, nous perdons une information (observation) et comme
nous estimons K paramètres, nous perdons K observations sur l'ensemble des données.

T-1 pour σ 𝑌𝑡 − 𝑌ത 2
nous avons T observations et en estimant la moyenne de Yt, nous perdons une observation.

Les éléments ci-dessus peuvent être rangés dans un tableau que nous appellerons le tableau de l'analyse de la variance. Cette
dernière se présente comme suit :
Degré de
Source des Variations Somme des carrés Carrés Moyens Stat. de Fisher (F)
Liberté (DL)
Régression (SCE) 2
෍ 𝑌෠𝑡 − 𝑌ത K-1 σ 𝑌෠𝑡 − 𝑌ത
2
/(K-1)
(X1, X2, …., Xk) 2
σ 𝑌෠𝑡 − 𝑌ത ൗ 𝐾 − 1
𝐹𝑐 =
Résidus ou erreurs 2 σ 𝑒Ƹ𝑡2 Τ 𝑇 − 𝐾
෍ 𝑌𝑡 − 𝑌෠𝑡 = ෍ 𝑒Ƹ𝑡2 T-K σ 𝑒Ƹ𝑡2 /(T-K)
(SCR)

Variation totale (STC) ෍ 𝑌𝑡 − 𝑌ത 2


T-1 𝐹𝛼; 𝐾−1,𝑇−𝐾

On sait que Yˆt = ˆ0 + ˆ1 X t (dans le cas du modèle de régression linéaire simple) et
Y = ˆ0 + ˆ0 X (4.29)
Yˆt −Y = ˆ0 + ˆ1 X t − ˆ0 − ˆ1 X (4.30)
Yˆt −Y = ˆ1(X t − X) (4.31)

Degré de
Source des Variations Somme des carrés Carrés Moyens Stat. de Fisher (F)
Liberté (DL)
Régression (SCE) 2 2
෍ 𝑌෠𝑡 − 𝑌ത K-1 = 1 ෍ 𝑌෠𝑡 − 𝑌ത
𝛽෠12 σ 𝑋𝑡 − 𝑋ത 2
𝐹𝑐 =
Résidus ou erreurs 2 σ 𝑒Ƹ𝑡2 Τ 𝑇 − 2
෍ 𝑌𝑡 − 𝑌෠𝑡 = ෍ 𝑒Ƹ𝑡2 T-K = T-2 σ 𝑒Ƹ𝑡2 /(T-2)
(SCR)

Variation totale (STC) ෍ 𝑌𝑡 − 𝑌ത 2


T-1 𝐹𝛼; 1,𝑇−2
IV-4-3- Régression et ANOVA

A partir de l'analyse de régression et de l'ANOVA que nous venons de voir, nous pouvons tirer les éléments de
comparaison suivants :
1) Toutes les deux analyses visent la détermination des différents facteurs qui expliquent la variable dépendante.
2) Toutes les deux analyses fournissent des informations sur les composantes additives de la variation totale. En effet, dans le
cas de l'analyse de la régression, il a été fait cas de la composante systématique (représentée par la droite de régression) et
de la composante stochastique (attribué au terme d'erreur).
3) Seule l'analyse de régression permet d'obtenir des valeurs numériques de l'impact de chaque facteur explicatif sur la
variable expliquée et cela, à travers l'estimation des paramètres du modèle.

IV-5- Relation entre analyse de corrélation et R2

Considérons un échantillon de données sur deux variables aléatoires X et Y de taille T. Le coefficient de corrélation obtenu à
partir de cet échantillon est donné par l’expression suivante :
T T T
Coˆv( X , Y )  (xt − x )( yt − y )  ( xt − x ) (
 t )
2 2
r= y − y
vâr( X ) vâr(Y ) côv( X , Y ) = t =1
, vâr ( X ) = t =1
et vâr (Y ) = t =1

T −1 T −1 T −1
Le coefficient de corrélation peut donc s’écrire comme suit :
T

 (x t − x )( y t − y )
r= t =1
. (4.32)
T T
(
 tx − x ) 2
(
 ty − y ) 2

t =1 t =1
Il y a deux relations importantes entre le coefficient de corrélation et le coefficient de détermination. Ces relations sont :

i) r2 = R2 c'est-à-dire que le carré du coefficient de corrélation est égal au coefficient de détermination (à


démontrer).
෢𝟏 𝟐 σ 𝑿𝒕 −𝑿 𝟐
𝜷
𝟐
𝒓 = σ 𝒀𝒕 −𝒀 𝟐
= 𝑹𝟐 (4.33)

Ainsi, la valeur de r2 est comprise entre 0 et 1 et mesure le degré d’association linéaire entre X et Y. Cette interprétation
n’est pas loin de celle du coefficient de détermination qui est la proportion des variations de Y autour de sa moyenne
expliquée par X dans un modèle de régression linéaire.

ii) Comme le carré du coefficient de corrélation est égal au coefficient de détermination alors il mesure la qualité
d’association entre les données d’un échantillon et leurs valeurs prédites.
IV-6- Prévision
Rappelons que l'un des principaux objectifs de la recherche économétrique est la prévision. Ainsi, toute recherche économétrique
devrait aboutir à des prévisions. Le terme prévision ici a un sens différent de celui qu’il reçoit dans le langage courant. Il ne s’agit
pas ici de prévision du futur mais plutôt de caractériser les simulations de politiques économiques que les estimations
économétriques rendent possibles. Ainsi, une prévision en elle-même n'a d'utilité que si nous connaissons sa précision. Il faut donc
en plus de la valeur prévisionnelle, fournir une estimation de l'erreur de prévision et la dispersion de cette erreur.
Soit le modèle suivant :
Yt =0 +1 X t +t , le modèle estimé se présente comme suit :

Yˆt = ˆ0 + ˆ1 X t (4.34)


la valeur prédite de X 0 sera donnée par :

Yˆ0 =ˆ0 +ˆ1 X 0 (4.35)

La vraie valeur prise par Y lors de la période sur laquelle porte la prévision sera donnée par :
Y0 =0 +1 X 0 +0 (4.36)
Où 0 désigne la perturbation aléatoire de la période en question. L'erreur de prévision peut-être
définie par :

ˆ0 =Y0 −Yˆ0 (4.37)


= 0 + 1 X 0 + 0 − ˆ0 − ˆ1 X 0 (4.38)

ˆ0 = 0 −(ˆ0 − 0)−(ˆ1 − 1)X 0 (4.39)


Cherchons la moyenne de ˆ0 i.e E(ˆ0)

E(ˆ0)= E  0 −(ˆ0 −  0)−(ˆ1 − 1)X 0  (4.40)
(
= E( 0)− (E(ˆ0)− 0)−(E(ˆ1)− 1) X 0 comme )
E(0 )=0 alors, la moyenne de ˆ0 i.e. E(ˆ0) est nulle.
Cherchons la variance.
V(ˆ0)= E(ˆ0 − E(ˆ0)) = E(ˆ0 )
2 2
(4.41)

 
= E  0 −(ˆ0 − 0)−(ˆ1 − 1)X 0
2
(4.42)

= E( −(ˆ −  ))−(ˆ −  )X 


2
0 0 0 1 1 0 (4.43)

= ( −(ˆ −  )) +(ˆ −  ) X −2( −(ˆ −  ))(ˆ −  )X 


2
0 0 0 1 1 2 2 0 0 0 1 1 0 (4.44)
 0



Var(ˆ0)=E  0 −20(ˆ 0−0)+(ˆ0 −0)2 +(ˆ1−1)2 X 0 −20(ˆ1−1)X 0 +2(ˆ0 −0)(ˆ1−1)X 0
2 2

2
( )
= E( 02 ) + E( ˆ0 −  0 ) 2 + E ˆ1 − 1 X 02 + 2 X 0 E( ˆ0 −  0 )( ˆ1 − 1 ) (4.45)

(
car E  0 ( ˆ0 −  0 ) = 0 ) de même  
E  0 ( ˆ1 − 1 ) = 0

ceci parce que par hypothèse,  0 est indépendante de 1, 2... n

et ˆ1 −  1 =  wt  t ➔ la covariance de  0 avec ˆ 0 −  0 et ˆ1 −  1 est nulle. ( ) ( )


1 X2  2 ˆ 2 2 X 0 Xˆ 2
= ˆ  + ˆ   +
2 2
2 
+ X0 − (4.47)
 T  
x  x 2
 x2
1 X2  2 ˆ 2 2 X 0 Xˆ 2
= ˆ  + ˆ   +
2 2
2 
+ X0 − (4.48)
 T  t 
x  t  xt2
x 2

 1 X2 X 02 2X 0 X 
= ˆ  1 + +
2
+ −  (4.49)
 T  xt  xt  xt2 
2 2

(4.50)
 1 (X 0 − X ) 2

Var ( 0 ) =   1 + +
ˆ ˆ ˆ 2
 (Prévision ponctuelle)
 T  xt2 

Si notre intérêt est sur une prévision à la moyenne, on aura E(Y0)=0 + 1 X 0


(4.51)
et ˆ0 = E(Y0 )−Yˆ0 =−(ˆ0 −  0)−(ˆ1 − 1)X 0 (4.52)
on peut montrer que E(ˆ0)=0 et
 1 (X 0 − X )2 
Vaˆr (ˆ0 ) = ˆ   +
2
 (Prévision à la moyenne) (4.53)
 T  xt2 

A partir de ces estimations de la variance de l'erreur de prévision, on peut construire un


intervalle de confiance de prévision donné par:

IC = Yˆ0  t / 2 * vâr(ˆ0 )
(4.54)
IV-7- Exercices d’application
CHAPITRE 5. LE MODELE DE REGRESSION LINEAIRE MULTIPLE : SPECIFICATION ET
ESTIMATION
V-1- Introduction
Pour des raisons de simplicité d’exposition, nous avons présenté dans le chapitre précédent le modèle de régression linéaire à
deux variables (une variable expliquée et une variable explicative). Dans le présent chapitre, nous allons étendre ce modèle en
considérant trois variables (une variable expliquée et deux variables explicatives).

V-2- Le modèle de régression linéaire à deux variables explicatives

C’est un modèle linéaire stochastique qui lie trois variables entre elles.

Yt =0 +1 X1t +2 X 2t +t (5.1)


où Yt est la variable expliquée,
X1t et X2t sont les variables explicatives
t représente les perturbations aléatoires et,
i (i=0,1,2) représente les paramètres à estimer.
Tout comme dans le cas du modèle à deux variables, le modèle à trois variables et par
extension le modèle linéaire à k variables explicatives, a deux composantes : une composante
systématique donnée par E(Yt )=0 +1 X1t +2 X 2t et une composante aléatoire donnée par t.
V-3- Les hypothèses du modèle de régression linéaire multiple

En plus des hypothèses précédentes, il faut ajouter celle d’absence de multicolinéarité entre les variables explicatives
(H9). Les variables explicatives d’un même modèle ne doivent pas avoir une très forte corrélation entre elles.

V.4 Estimation des paramètres du modèle de régression linéaire à deux variables explicatives par la MCO

Soit le Yt =0 +1 X1t +2 X 2t +t

et ˆt =Yt −Yˆt =Yt − ˆ0 − ˆ1 X1t + ˆ2 X 2t

(
ˆt2 = Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t )2

Posons que S =ˆt2 . (5.2)

Il nous faut minimiser S. Dans le cas présent, nous ne nous attarderons pas sur les conditions de second ordre, puisqu’il est
démontré qu’elles sont vérifiées. Nous ne considèrerons que les conditions de premier ordre afin de déterminer les
estimateurs des différents paramètres. Nous devons donc chercher les dérivés de S par rapport aux différents paramètres.
On a donc :

ˆ0
 ( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t =0 (5.3)

ˆ1
 ( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t X1t =0 (5.4)

ˆ  ( )
S =−2 Yt − ˆ0 − ˆ1 X1t − ˆ2 X 2t X 2t =0 (5.5)
➔ Y −Tˆ −ˆ  X
t 0 1 1t −ˆ2 X 2t =0

X Y −ˆ0 X1t −ˆ1 X12t −ˆ2 X 2t X1t =0


1t t

X Y −ˆ0 X 2t −ˆ1 X1t X 2t −ˆ2 X 22t =0


2t t

A partir des équations normales ci-dessus, il nous faut déterminer les paramètres ̂ 0 , ̂1 et ̂ 2
. Réécrivons ces équations sous forme d’un système de trois équations à trois inconnues. On a :

Yt =Tˆ0 + ˆ1 X1t + ˆ2 X 2t



  X1tYt = ˆ0 X 1t + ˆ1 X 12t + ˆ2 X 2t X 1t (5.6)
  X 2tYt = ˆ0 X 2t + ˆ1 X 1t X 2t + ˆ2 X 22t

Le système (5.6) peut se résoudre par la méthode de Cramer. Cherchons le déterminant du système .
ˆ0 =Y − ˆ1 X1 − ˆ2 X 2 (5.7)

Au-delà de trois variables, les manipulations deviennent fastidieuses d’où la nécessité de recourir à l’approche matricielle.
Il faut donc avoir à l’esprit que l’utilisation de l’approche matricielle permet de généraliser le modèle de régression simple.
V-5- Exercice d’application
CHAPITRE 6 : LE MODELE LINEAIRE GENERAL : SPECIFICATION ET ESTIMATION

VI-1- Spécification

Yt = f (xt1,xt2,..., xtk )+t (6.1)


➔ Yt = xt1 1 + xt 2  2 + ... + xtk  k +  t (6.2)

où Yt est la variable dépendante ou expliquée, x1, x2, …, xk sont les variables indépendantes ou
explicatives et 1, …,k sont les paramètres à estimer. L’indice t identifie les différentes
observations. Lorsque xt1 = 1, on a notre modèle sous sa forme originale avec 1 comme terme
constant. Réécrivons le modèle ci-dessus en faisant ressortir chaque observation. On a :
Y = X + e (6.3)
Où Y a pour dimension (T x 1), X a pour dimension (T x k), B est un vecteur de dimension (k x
1) et e est un vecteur de dimension (T x 1). Ici, il nous faut déterminer le vecteur des paramètres
B. L’estimation peut se faire soit par la méthode des moindres carrés ordinaires soit par la
méthode du maximum de vraisemblance.

VI-2- Estimation
VI-2-1 : La méthode des moindres carrés ordinaires

Il nous faut minimiser la somme des carrés des erreurs. Ici, les erreurs sont représentées par :
ˆ
eˆ=Y − X (6.4)

et la somme des carrés des erreurs est donnée par l’expression :

( )(
ˆ  Y − X
eˆ'eˆ= Y − X ˆ ) (6.5)

Imaginer que l’on ait par exemple (y− xb)2 on sait que le développement de cette expression
donne : y 2 −2yxb+(xb) . Donc dans le cas de la résolution matricielle, on a :
2

ˆ −
➔ eˆ'eˆ=Y'Y −Y' X ˆ ' X'Y +
ˆ ' X' X
ˆ (6.6)
Or Y'X̂ a pour dimension (1 x 1). C’est donc un scalaire. Il en est de même de ̂' X'Y . Il s’agit
donc d’une expression avec sa transposée. On peut donc les additionner et on aura : 2 ˆ ' X'Y .

ˆ ' X'Y +
➔ eˆ'eˆ=Y'Y −2 ˆ ' X' X
ˆ (6.7)
෠ et les
Pour minimiser cette expression, la condition nécessaire exige que nous calculions les dérivées partielles par rapport à 𝐵′
égaler à zéro.

S =−2X'Y +2X' X
ˆ =0 (Condition de premier ordre)
ˆ
'

ˆ )=0
➔ −2(X'Y − X' X (6.8)

car (X’X)-1(X’X)=I

ˆ =(X' X)−1 X'Y



La condition suffisante ou condition de second ordre pour un minimum exige que la matrice des dérivées secondes soit définie
positive.
 2S
=2X' X (6.10)
ˆ
'ˆ
La matrice donnée par l’équation (5.17) est définie positive donc ̂ est bien un minimum. En
effet,, soit q = C ' X ' XC avec C un vecteur non nul choisit de façon arbitraire tel que
T
q = v' v = v
i =1
2
i avec v=XC ➔ q > 0. Si X est de rang plein (k > T) ̂ est unique et minimise

S.
CHAPITRE 7 : PROPRIETES DES ESTIMATEURS (DANS UN ECHANTILLON DE PETITE TAILLE)
VII-1- La linéarité :
ˆ =(X' X)−1 X'Y
On sait que 
posons D =(X' X)−1 X' (7.1)

on a ̂= DY (7.2)

̂ est donc un estimateur linéaire


VII-2- Absence de biais :

̂ est sans biais si et seulement si E ̂ =() (7.3)


̂= DY comme Y = XB + e, on a : ̂ = D(XB + e) = DXB + De comme D=(X' X)−1 X' alors

DX =( X' X ) X' X =I
−1
(7.4)
෡ est sans biais
L’estimateur 𝑩
➔ ̂=+De (7.5)
()
➔ E ̂ =+ DE(e)

➔ E(̂)= (7.6)
VII-3- Efficience:

Calculons d’abord la variance de 𝑩

( )  ( ) ( )
ˆ =E 
Var  ˆ −E ˆ 
ˆ −E ˆ  (7.7)

() 
ˆ =E 
Var  ˆ −   
ˆ −  (7.8)

Comme ̂−=De

() 
On a Var ˆ = EDe De  = EDee'D'= DE(ee')D'

Or E(ee')= 2 I

()
Var ˆ = 2(X' X ) X' X (X' X ) = 2(X' X )
−1 −1 −1
(7.9)

෩ de la classe des estimateurs linéaires sans biais tel que


Définissons un estimateur 𝑩

෩ = HY avec H = 𝑋 ′ 𝑋
𝑩 −1
𝑋′𝐶
෩ est linéaire et sans biais. Comme Y = XB + e, on peut réécrire 𝑩
De par sa définition, 𝑩 ෩ comme suit:

෩ = H(XB+e) = HXB + He
𝑩

Vérifions la propriété de sans biais :

෩ )=E[HXB+He] = HXB + HE(e) = HXB


E(𝑩

Car E(e) = 0.

෩ est donc sans biais si et seulement si HX = I or nous connaissons H


𝑩

HX = 𝑋 ′ 𝑋 −1
𝑋 ′ 𝑋 + 𝐶𝑋 = 𝐼 + 𝐶𝑋

si CX = 0
  
 
Var () = E  − E ()  − E ()
   
(7.18)
alors HX = I
Var () = E −  − 
   
(7.19)
E(𝑩෩ )=B 
or  =  + He


Cherchons la variance de 𝑩 ➔  −  = He

➔ Var ( ) = E He He 


 

➔ Var () = EHee' H ' = HE (ee')H '



( )
➔ Var  =  2 HH ' (7.20)
Remplaçons H par son expression, on a :

car CC’ est une matrice semi définie positive. L’estimateur ̂ est un estimateur efficace par

rapport à tout autre estimateur de la classe des estimateurs linéaires sans biais. L’estimateur ̂
 
Var () =  2 ( X ' X ) X '+C ( X ' X ) X '+C
 −1 −1 
 (7.21)
est donc BLU.
Var () =  ( X ' X ) 

X ' X ( X ' X ) + ( X ' X ) X ' C '+CX ( X ' X ) + CC'
2 −1 −1 −1 −1
(7.22)

()

➔ Var  =  2 ( X ' X ) +  2 CC'
−1
(7.23) Cette propriété est aussi valable pour l’estimateur du
➔ Var ( )  Var (ˆ )
 maximum de vraisemblance.
(7.24)

Théorème 1 : Si les propriétés du modèle de régression


linéaire classique sont vérifiées, l’estimateur des MCO est
BLU.
eˆeˆ
Théorème 2 : Dans le modèle de régression linéaire classique, l’estimateur ˆ 2 = est un
T −K
ˆ
estimateur sans biais de  2 avec eˆ = Y − X
Démonstration
ˆ
eˆ = Y − X (7.25)
Remplaçons ˆ par ( X X ) X Y , on a :
−1

−1

eˆ = Y − X ( X X ) X Y = I − X ( X X ) X  Y
−1
 (7.26)

Posons M = I − X ( X X )
−1
X (7.27)
on a ainsi :
eˆ = MY (7.28)
Remplaçons Y par son expression. On obtient :
eˆ = M ( X + e) = MX + Me (7.29)

comme M = I − X ( X X )
−1
X,


alors on a : MX = I − X ( X X )
−1

X  X (7.30)


➔ MX = X − X ( X X )
−1
X X 
➔ MX = X − X  = 0 (7.31)
ˆ = Me
➔ e (7.32)
La matrice M est une matrice symétrique et idempotente c'est-à-dire que M / M = M  = M 2
Avant de poursuivre, rappelons quelques éléments sur la trace d’une matrice. La trace d’une
matrice A(k x k) carré est la somme de ses éléments diagonaux. C'est-à-dire :
K
tr ( A) =  aii
i =1

Par ailleurs, on a les éléments suivants :


tr(cA) = ctr( A)
tr( A) = tr( A)
tr( A + B) = tr( A) + tr(B)
tr(I K ) = K

tr( AB) = tr(BA)


tr( ABCD) = tr(BCDA) = tr(CDAB) = tr(DABC )

eˆ = Me cherchons eˆeˆ . On a :
eˆˆe = eM Me (7.33)
eˆˆe = eMe (7.34)
Eeˆˆe = EeMe (7.35)

est donc un scalaire, par conséquent on a : EeMe = Etr(eMe) (7.36)


➔ EeMe = Etr(Mee) (7.37)

➔ EeMe = trE(Mee) (7.38)

➔ trM • E (ee) =  2 I • tr(M ) (7.39)

Or M = I − X ( X X )
−1
X

(
➔ tr (M ) = tr I − X ( X X )
−1
X ) (7.40)

(
➔ tr (I (TxT ) ) − tr X ( X X )
−1
X ) (7.41)

➔ T − tr ( X X )( X X )
−1
(7.41)

car tr( AB) = tr(BA)


➔ T − tr (I ( KxK ) ) (7.42)

➔T − K (7.42)
Donc, tr(M ) = T − K (7.43)

EeMe =  2 tr(M ) =  2 (T − K ) = E (eˆeˆ ) (7.44)


E (eˆ eˆ ) eˆ eˆ
➔ on tire ainsi  2
= ➔ ˆ 2 = (7.45)
T −K T −K
Après ce résultat, il apparaît clairement que l’estimateur du maximum de vraisemblance de la
variance résiduelle ~ 2 est biaisé car il est différent du résultat ci-dessus.
VII-4- Propriétés asymptotiques (échantillon de grande taille)

Par propriétés asymptotiques, nous voulons savoir les propriétés de convergence des estimateurs lorsque T croît
indéfiniment. Pour cela, posons d’abord que
 X X 
lim  =Q (7.46)
T →
 T 

où Q est une matrice finie non singulière. Cette hypothèse signifie que lorsque T croît, les éléments de X’X ne
croissent pas à un taux plus élevé que T et que les variables explicatives ne sont pas linéairement indépendantes.
~
a) Convergence de l’estimateur ˆ =  = ( X X )−1 X Y .
On sait que Y = X + e avec E(e) = 0 et E (ee) =  2 I . Si l’échantillon est très grand, on

s’attend à ce que l’estimateur ˆ soit très proche de  avec une probabilité très élevée, c'est-à-

( )
dire lim P ˆ −    = 1
T →
(7.47)

Où  est un nombre arbitraire positif très petit. Ce qui veut dire que la probabilité que ˆ
tombe dans l’intervalle  −  ;  +   est approximée à 1 étant donné la taille assez grande de
l’échantillon.
Si ce qui précède est correct, et que ˆ est un estimateur sans biais de  , alors on dit que ˆ

converge en probabilité vers  et que  est la probabilité limite de ˆ . On note

P lim ˆ =  (7.48)

et on dit que l’estimateur ˆ est convergent.

Rappel de quelques opérations sur les probabilités limites :

( )
P lim X 2 = (P lim X )
2
(7.49)

P lim (X ) = (P lim X )
−1 −1
(7.50)
P lim A • B = P lim A • P lim B (7.51)
A
P lim = P lim A / P lim B (7.51)
B
P lim (cons tan te) = cons tan te (7.52)

Dans le cas de ̂ = ( X X )−1 X Y , en remplaçant Y par Y = X + e on a : ˆ = ( X X )−1 X ( X + e )


−1
 X X  X e
➔ ˆ =  + ( X X ) X e Introduisons T dans le dernier membre pour obtenir :
−1 ˆ =  +  
 T  T
(7.53)

Utilisons maintenant la Plim.


  X X  X e 
−1
ˆ
P lim  = P lim   +    (7.54)
  T  T 
 X X  −1 X e 
P lim ˆ =  + P lim    (7.55)
 T  T 
−1
 X X   X e 
P lim ˆ =  + P lim   • P lim   (7.56)
 T   T 
−1
  X X   X e 
P lim ˆ =  +  P lim   • P lim   (7.57)
  T   T 

 X e 
P lim ˆ =  + Q −1 • P lim   (7.58)
 T 
X e 1 1 T
Regardons de près l’expression P lim = on a : X e =  xi ei si on pose xi ei = wi

T T T i =1
alors
1 1 T
on a X e =  wi = w (7.59)
T T i =1
Théorème (convergence en moyenne quadratique)
Un estimateur ˆ converge en moyenne quadratique vers le paramètre  s’il est
asymptotiquement sans biais et si sa variance est asymptotiquement nulle.
1
Le corollaire de ce théorème est que P lim  g (xi ) = E g (xi ) (7.60)
T
il s’en suit que
X e
P lim
T
1
T
1
T

= P lim  xi ei = E  xi ei  (7.61)

comme X est non stochastique, alors on a :


1 X e
 ( )
xi E ei = 0 ➔ P lim =0 (7.62)
T T
Cherchons la variance de w on a :
1 1
var (w ) = E w w  = E  X eeX  (7.63)
T T
1 1
var (w ) = E w w  = X E (ee)X (7.64)

de  .
T T
2 X X
• (7.65)
T T

converge
 X X 
or Tlim  =Q
→
 T 

2
var (w ) = Q

r
(7.66)

stimateu
T
 2 
P lim (var (w )) = P lim  Q  = 0 (7.67)
T → T →
 T 

onc un e
Il s’en suit que :
−1
  X X   X e 
P lim ˆ =  +  P lim   • P lim  
  T   T 

ˆ est d
➔ P lim ˆ =  + Q • 0

➔ P lim ˆ =  (7.68)
b) Convergence de l’estimateur ˆ 2

Ici, la démonstration se fera à l’aide du théorème de Khintchine.

Théorème : Soit Z t ! t= 1, 2, …, T, un échantillon aléatoire iid / E (Z t ) =  finie. Alors

P lim Z t =  (7.69)
➔ loi faible des grands nombres.
En d’autres termes, on dira que : la moyenne d’une variable aléatoire calculée à partir d’un
échantillon aléatoire qui est identiquement et indépendamment distribué, est un estimateur
convergent de la moyenne de la population.
Ainsi, si nous considérons le carré des résidus comme un échantillon aléatoire identiquement
et indépendamment distribué avec comme moyenne de la population E (ee) =  2 , la moyenne

1 1 T 2
de l’échantillon est donnée par l’expression suivante : ee =  et (7.70)
T T t =1
ee
D’après le théorème de Khintchine, on a : P lim =2 (7.71)
T
Nous sommes maintenant en mesure de démonter la convergence de ˆ 2 . On sait que :
eˆeˆ
ˆ 2 = rappelons que eˆ = Me
T −K
e = eMM e = eMe avec M = I − X ( X X )−1 X 
➔ eˆˆ
1
➔ ˆ 2 = eMe  (7.12)
T −K

➔ ˆ 2 =
1
T −K
(
e I − X ( X X ) X  e
−1
) (7.13)

➔ ˆ =
2 ee


eX ( X X ) X e
−1
 (7.14)
T −K T −K

T  ee eX  X X  −1 X e 
➔ ̂ =
2
 − •  •  (7.15)
T −K  T T  T  T 

T   ee   eX    X X  
−1
 X e 
➔ P lim ˆ 2 = P lim  P lim   − P lim   •  P lim    • P lim  
T −K  T   T    T   T 

➔ P lim ˆ 2 =  2 (7.16)

➔ ˆ 2 est donc un estimateur convergent de  2 .


CHAPITRE 8- INFERENCE DANS LE MODELE LINEAIRE GENERAL
VIII-1- Significativité globale du modèle

Dans le chapitre 4, nous avons testé la significativité des paramètres estimés. Dans cette optique, nous avons conduit
des tests individuels sur les paramètres. Dans le présent chapitre, nous nous penchons sur le modèle dans sa globalité
et pour se faire, nous utilisons le test de Fisher (F), et nous considérons le modèle de régression multiple suivant :

Yt = 1 +  2 X 2t +  3 X 3t + ... +  k X kt +  t (8.1)

Nous voulons tester l’hypothèse nulle (H0) selon laquelle,


2 =0 , …, k =0 . Si cette hypothèse est vraie, cela voudra dire que Yt = 1 +  t et que les
variables indépendantes n’expliquent pas la variable dépendante. Le modèle serait donc mal
spécifié.

La statistique est donnée par l’expression suivante :

Fc =
(STC − SCR) / (k − 1) → F (8.2)
SCR / (T − k )
( k −1;T − k )

Où k est le nombre de paramètres estimés.


La région critique est donnée comme suit : Rejeter H0 si Fc > F(k-1 ;T-k).
Cas général de test d’hypothèse
Supposons que les éléments de la matrice des coefficients soient soumis à J contraintes que l’on peut écrire sous la forme
R = r

où R est une matrice donnée de format JxK avec J ≤ K et r un vecteur donné de J éléments.

Supposons aussi que R est de rang J, c’est-à-dire que les contraintes sont linéairement indépendantes.

L’équation ci-dessus permet de tester une gamme très large d’hypothèses se présentant sous la formulation suivante :

H 0 : R = r contre H1 : R  r

Considérons les exemples suivants :


1. H 0 :  i = 0 contre H 1 :  i  0

Dans le cas présent R est constitué d’une seule ligne (J=1) avec 1 à la ième place et des zéros partout ailleurs, tandis
que r est le nombre zéro.

➔ R = 0  0 1 0  0 et r = 0 (8.3)
1. H 0 :  2 −  3 = 0 contre H1 :  2 −  3  0
➔ R = 0 1 − 1  0 et r = 0 (8.4)

1. H 0 :  3 +  4 = 1 contre H 1 :  3 +  4  1
➔ R = 0 0 1 1  0 et r = 1 (8.5)

  2  0    2  0 
   0     0 
1. H 0 :  =  3  =   contre H 1 :  =  3   
       
       
  k  0    k  0 
0 1 0  0 0 
0 0 1  0 0 
➔R =  et r =   (8.6)
    0 
   
0 0 0  1 0 

Cette hypothèse signifie que les variables explicatives n’exercent aucune influence sur la variable expliquée. Le
nombre de contraintes à tester détermine le nombre de ligne de la matrice R et le nombre de coefficients estimés
détermine le nombre de colonne de R.
Pour tester cette hypothèse (qui est le test général), il nous faut connaître la loi de R .

Pour le faire, il faut remplacer  par ˆ , on a ainsi : Rˆ = r .

Déterminons l’espérance mathématique et la variance de Rˆ .


( )
❖ E Rˆ = RE ˆ = R ( ) (8.7)

( ) 
( ( ))(

❖ var Rˆ = E  Rˆ − E Rˆ Rˆ − E Rˆ  ( )) (8.8)
 

( ) 
(
➔ var Rˆ = E  Rˆ − R Rˆ − R )( )  (8.9)
 

( ) 
(  
)(
➔ var Rˆ = E  R ˆ −  ˆ −  R  ) (8.10)
 

( ) 
 −1 
➔ var Rˆ = E  R ( X X ) X eeX ( X X ) R 

−1 

 (8.11)

( )
➔ var Rˆ = R( X X )−1 X E (ee)X ( X X )−1 R  or E (ee) =  2 I

➔ var (Rˆ ) =  R( X X )
2 −1
X X ( X X ) R 
−1

➔ var (Rˆ ) =  R( X X )
2 −1
R  = R 2 ( X X ) R 
−1
(8.12)

➔ var (Rˆ ) = R cov(ˆ )R  (8.13)


( )
Comme ˆ → N  ;  2 ( X X )−1 alors, Rˆ → N R ; R cov ˆ R  ( () ) (8.14)
(
De même, Rˆ − R → N 0; R cov ˆ R  . () )
Or nous savons que si X → N (0, ) alors la forme quadratique est donnée par :
X  −1 X →  (2T ) (8.15)

()
Le problème avec cette expression est que cov ˆ =  2 ( X X )−1 or  2 est inconnue.
eˆeˆ
Toutefois, on sait que →  (2T − K ) (8.16)
 2

eˆeˆ
or ˆ 2 = ➔ ˆ 2 (T − K ) = eˆeˆ .
T −K
Si on divise les termes qui sont de part et autre de l’égalité par 
2

ˆ 2 (T − K )
on a : →  2
(T − K ) (8.17)
2

Nous savons aussi que si F est telle que


V1 m1
F= avec V1 →  m21 et V2 →  m2 2 alors F → Fm ;m
V2 m 2 1 2
➔F =
Rˆ − R  R cov(ˆ )R  Rˆ − R  J
 −1

(8.18) Rˆ − R  
 2
 
R( X X ) R  Rˆ − R J
−1 −1

ˆ (T − K )
➔F = (8.19)
ˆ 2 (T − K ) 
2

  (T − K )   (T − K )
  2
  2
 

➔F =
Rˆ − R  R( X X ) R  Rˆ − R  J
 −1 −1

(8.20) ➔F =
Rˆ − R  R( X X ) R Rˆ − R  J
 −1 −1

(8.21)
 2 ˆ 2 (T − K )  ˆ 2
  (T − K )
 2 

  2

➔ F = R − R ˆ R( X X ) R Rˆ − R J
ˆ −1 −1
  (8.22)

1 ˆ
J

 
−1
 () 
➔ F = R − R R côv  R Rˆ − R → F( J ;T − K )
ˆ  (8.23)
VIII-2- Relation entre F, R2 et t2

/ (k − 1)
2
2 R
Nous voulons montrer que t =F=
(1 − R )/(T − k )
2
(8.24)

Montrons d’abord que t2 =F, partons du modèle simple Yt =0 +1 X t +t . Nous savons que
Y =0 + 1 X , tel que Yt −Y =1(X t − X )+t posons yt =Yt −Y et xt = X t − X

➔ yt =1xt +t ce modèle une fois estimé nous donne : yˆt = ˆ1xt si nous revenons à
l’expression de départ, nous avons : Yˆt −Y = ˆ1(X t − X ) . Élevons cette expression au carré et
faisons la sommation.
(STC − SCR) / (k − 1)
(Yˆ −Y ) =ˆ (X − X )
2 2
On obtient : 2 or nous avons Fc =
SCR / (T − k )
t 1 t

(SCE ) / (k − 1) ˆ1  (X t − X ) / (k − 1)
2 2

➔ Fc = = (8.25)
SCR / (T − k )  eˆt2 /(T − k )
ˆ1 − 1
Nous savons aussi que t = → t (T −k ) sous l’hypothèse que 1=0 , on a :
Vaˆr ( ˆ1 )
ˆ1 2 ˆ12
t= → t (T − k ) élevons t au carré. On a : t = (8.26)
ˆ ˆ
1
Vaˆr ( ˆ1 )

or nous savons que Vaˆr ( ˆ1 ) =


ˆ 2
et que ˆ  2
=
 eˆ
2
t

 (X − X) T −k
2
t
ˆ12  (X t − X )
2
ˆ12
➔ t2 = = (8.27)
ˆ 
2
ˆ 2

 (X − X)
2
t

or, ˆ 2 =
 eˆ 2
t
,
T −k
(STC − SCR)
 (X
ˆ 2 − X) (k − 1) =
2
1 t SCE /( k − 1)
➔ t2 = = (8.28)
 eˆ 2
t
SCR
(T − k )
SCR /(T − k )
(T − k )

si nous divisons SCE et SCR par STC on a

(SCE / STC )
(k − 1) R 2 /( k − 1)
: t = Fc =
2
= (8.29)
(SCR / STC ) (1 − R 2 ) /(T − k )
(T − k )
VIII-3- Critère d'inclusion de variables additionnelles

Partant du coefficient de détermination R2 que nous avons calculé précédemment. Nous avons dit que R2 mesurait la proportion
des variations de la variable dépendante expliquée par le modèle de régression. Ainsi, le R2 peut-être utilisé pour comparer
différentes spécifications de variables indépendantes d’un même modèle.

Toutefois, le R2 a un ensemble de faiblesse qui limite son utilisation.


i. le R2 ne prend pas en compte le degré de liberté,

ii. le R2 est sensible au nombre de variables explicatives utilisées dans le modèle de régression. Ainsi, plus le
nombre de variables explicatives augmente, plus le R2 est élevé, de sorte que le chercheur peut maximiser R2 en
ajoutant plus de variables explicatives au modèle.

iii. l'interprétation et l'utilisation de R2 deviennent difficiles lorsque le modèle estimé n'a pas de terme constant.
On ne peut donc pas en règle générale se baser sur le R2 pour inclure une variable additionnelle dans un modèle de
régression.

VIII.3.1. : Le R2 ajusté : R 2
La principale critique à l'endroit du R2 est qu'il ne tient pas compte du degré de liberté. Cette faiblesse est corrigée par l'utilisation
du 𝑅ത 2 en lieu et place de R2
Afin de résoudre le problème de la non prise en compte des degrés de liberté,
Rappelons que : R 2 = ( Y )
ˆt −Y 2
 ˆt
2 définissons 𝑅ത 2 en termes de variance puisque la variance se définit comme le
2 =1−
 (Y t −Y ) (Yt −Y)2 ratio des variations par rapport au degré de liberté. Ce faisant, nous éliminons
la dépendance de R2 par rapport au nombre de variables explicatives.
R = 1−
2 Vaˆr (ˆt )
où Vaˆr (ˆ ) =
 ˆ
t
2

(8.30)
t
Vaˆr (Yt ) T −K

Il est clair que pour chaque variable additionnelle, aussi bien le numérateur que le dénominateur changera puisque :

R = 1−
2  ˆ t
2

*
T −1
(8.31)
 (Yt − Y ) 2 T −K

SCR T − 1
R 2 = 1− * (8.32)
STC T − K
or
SCR STC SCE
STC = SCE + SCR  = − (8.33)
STC STC STC

 SCR =1− R2 (8.34)


STC
T −1
 R 2 = 1 − (1 − R 2 ) * (8.35)
T −K
Si K = 1  R2 = R 2

Si K 1 alors R2 R 2

iv) il est possible que R 2  0 ; dans un tel cas on considère qu'il est nul.
VIII.3.2. : Comparaison de modèles sur la base de R 2 ou R2
Très souvent, les chercheurs veulent comparer deux modèles estimés afin de déterminer lequel est meilleur. Une telle
comparaison ne peut se faire, en utilisant le R2 ou 𝑅ത 2 que si les modèles en question ont la même variable dépendante.

VIII.3.3. : Inclusion de variable additionnelle

Le critère qui est souvent utilisé pour décider de l'ajout ou non d'une variable additionnelle est basé sur 𝑅ത 2 . Si en ajoutant la
variable en question au modèle, on observe une augmentation de 𝑅ത 2 , alors on retient cette dernière, même si elle n'est pas
.
statistiquement significative.
CHAPITRE 9 : TEST DE STABILITE DES COEFFICIENTS (CHANGEMENT STRUCTUREL)

IX. 1. : Nécessité du test de stabilité des coefficients


Lorsque l'échantillon couvre des périodes de choc susceptibles d'influencer le comportement des variables d'un modèle, on ne peut
pas ignorer ces choses. En effet, une telle approche conduirait sans nul doute à des prises de décision erronée d'où la nécessité de
mener des investigations sur la stabilité des coefficients tout le long de la période d'analyse et ce surtout lorsqu'il y a des chocs
évidents. On serait par exemple intéressé de savoir si le comportement des individus ou institutions de ce pays a changé ou non en
raison de la crise ou du choc. Dans les régressions habituelles, nous supposons que le comportement des individus reste identique,
ce qui est loin d’être réaliste. Il existe plusieurs voies pour traiter de cette situation. On peut citer entres autres, le test de la variable
muettes, le test de Chow, le test de Wald etc.

IX. 2. Le test des variables muettes


Ce test consiste à introduire une variable muette dans le modèle de régression et à tester sa significativité. Considérons le modèle
suivant :
Y = X + e et définissons une variable muette de la façon suivante :
1 après choc
Dt =  (9.1)
0 avant choc
On introduit cette variable muette dans le modèle initial pour obtenir :
Y = X + D + e (9.2)
Le test consiste à tester la significativité de  . On pose donc :
H 0 :  = 0 contre H1 :   0
Ce test repose sur la statistique de Fisher donnée ci-dessous :
F =
1
Rˆ − r  R côv(ˆ )R −1 Rˆ − r  → F( J ;T − K ) (9.3)
J
➔ Rejeter H0 si Fc  F( :J ;T − K )
IX.3. Le test de Chow

Ce test fait l’hypothèse que la variance des perturbations aléatoires est la même sur les deux sous périodes. Ainsi, avant de
conduire le test de Chow, il est nécessaire de tester l’égalité des variances sur les périodes considérées. Soient les modèles
suivants :

Y = X1 + e1 t  T1 (9.4)
Y = X 2 + e2 t  T2 (9.5)
avec T = T1 + T2
Le test de Chow teste l’hypothèse suivante :

H 0 : 1 =  2 et  12 =  22 contre H1 : 1   2 ou  12   22

Il faut d’abord tester l’égalité des variances c'est-à-dire :

H 0 :  12 =  22 contre H 1 :  12   22
La statistique est donnée par l’expression suivante :
SCR2 T1 − K
Cv =  → F( :T2 − K ;T1 − K ) (9.6)
SCR1 T2 − K

➔ rejeter H 0 si Cv  F

Si 𝑯′𝟎 est rejetée, il n’y a plus de raison de poursuivre le test. Il faut chercher un autre test.

Par contre si 𝑯′𝟎 n’est pas rejetée, alors on continue pour tester l’hypothèse selon laquelle 1 =  2
Ici, deux cas de figure se présentent

➢ le cas où il y a assez d’observations après le choc pour effectuer une régression

➢ et le cas où il n’ y a pas assez d’observations après le choc pour effectuer une régression.
a- Cas ou il y a assez d'observations après le choc pour constituer un échantillon séparé

Considérons le modèle suivant : Yt = 1 X 1 +  2 X 2 + ... +  k X t +  t (9.7)

1) Définir les hypothèses H 0 et H1


H0: i =i
H1: i i i =0,1,..., K
Où i sont les paramètres du modèle basé sur un échantillon de taille T1 , et i sont les
paramètres du même modèle basé sur le second échantillon de taille T2 constitué par les
observations après le choc.

2) Estimer le modèle en utilisant T1 et calculer


SCR1=ˆ12 et dl = T1 − K

3) Estimer le modèle en utilisant T2 et calculer


SCR2 =ˆ22 et dl = T2 − K
4) Mettre les deux échantillons ensemble ( T1 + T2 = T ) estimer le modèle et calculer
SCRT et dl = T − K

SCRT =ˆT2
5) Additionner SCR et SCR2 de même que les dl correspondants

ˆ 2
1 +  ˆ22

dl  T1 − K + T2 − K = T1 + T2 − 2K

6) Soustraire ( (SCR1+SCR2) de SCRT de même que les dl

ˆ −(ˆ +ˆ )


2
T
2
1
2
2

dl➔ T1 + T2 – K – T1 – T2 + 2K = K

7) Construire la statistique de Fisher (F)

FC =
 ˆ 2
T − ( ˆ12 +  ˆ 22 ) / K  ~ F ; (K ; T1 + T2 − 2K ) (9.8)
( ˆ 2
1 +  ˆ 2
2 )/ (T
1 + T2 − 2 K )

8) Rejet de H0 si Fc  F ;( K ;T1 +T2 −2 K ) les coefficients ne sont pas stables

Accepter H0 si Fc  F ;( K ;T1 +T2 −2 K )  les coefficients sont stables.


b- Cas où il n'y pas assez d'observations après le choc pour constituer un échantillon à part

Lorsque la série n’est pas suffisamment longue pour faire une régression sur l’une ou l’autre des périodes, on peut
toujours utiliser le test de Chow pour tester la stabilité des paramètres. Pour se faire, on incorpore les ajustements apportés
par Fisher en 1970. Ces ajustements sont décrits ci-dessous

Soit le modèle suivant :

Yt = 1 X 1 +  2 X 2 + ... +  K X t +  t (9.10)
1) Définir les hypothèses nulles et alternatives (H 0 et H1 )
H0:i =i
H1 : i  i
Où  i sont les paramètres du modèle initial basé sur un échantillon de taille T1 , et i sont les
paramètres du même modèle basé sur un échantillon augmenté de taille T1 + T2 , T2 étant les
observations après le choc.

2) estimer le modèle en utilisant T1 et obtenez les résidus. Calculer

ˆ =SCR
2
1 1 et dl (degré de liberté) = T1 − K

3) estimer le modèle en utilisant T1 + T2 et calculer

ˆ =SCR
2
2 2 et dl = T1 + T2 − K
4) calculer la différence entre les sommes des carrés des erreurs
SCR2 −SCR1=ˆ22 −ˆ12

dl = (T1 + T2 − K ) − (T1 − K ) = T1 + T2 − R − T1 + K = T2

5) Calculer la statistique F
( ˆ22 −  ˆ12 ) / T2
Fc = ~ F (T2 ; T1 − K ) (9.11)
 ˆ 2 /(T1 − K )
1

6) Rejeter H0 si Fc  F ;(T2 ;T −K )  les coefficients ne sont pas stables

Accepter H0 si Fc  F ;(T2 ;T −K )  les coefficients sont stables


IX.4. Le test de Wald

Dans ce test, à la différence du test de Chow, nous ne faisons plus l’hypothèse de l’égalité des variances. On estime les paramètres
avant et après le choc considéré, de même que les variances de ces derniers. On calcule ensuite la statistique suivante :

( 
) ( )
W = ˆ2 − ˆ1 (V1 + V2 ) ˆ2 − ˆ1 →  (2K )
−1
(9.12)

où V1 et V2 sont les matrices des variances covariances des paramètres estimés des deux
modèles.

➔ Rejeter H 0 si W   2:K
CHAPITRE 10- LES MODELES DE REGRESSIONS AVEC VARIABLES EXPLICATIVES BINAIRES
(DUMMY VARIABLE MODEL)

X-1 Introduction
Dans la plupart des modèles considérés jusque là, on utilise des variables explicatives qui prennent des valeurs
continues. Toutefois, il peut arriver que la ou les variables explicatives soient muettes (dichotomiques). On est dans le
cas de ce que l’on appelle modèle de régression avec variables muettes ou « dummy variable model » en Anglais.
X-2- Régression avec uniquement des variables muettes

Supposons qu’une entreprise agricole utilise deux systèmes de production différents (A et B) pour produire un bien
donné. Sous l’hypothèse que les biens obtenus de ces deux systèmes sont normalement distribués avec des moyennes
différentes mais des variances identiques, on peut représenter ce système de production comme suit :
Yt =  0 + 1 X t +  t

où Yt est le bien produit à partir du ième système de production et Xt est une variable muette qui est telle que :

1 𝑠𝑖 𝑙𝑒 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑒𝑠𝑡 𝑜𝑏𝑡𝑒𝑛𝑢 à 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑢 𝑠𝑦𝑠𝑡è𝑚𝑒 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝐴


𝑋𝑡 = ቊ
0 𝑠𝑖 𝑙𝑒 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑒𝑠𝑡 𝑜𝑏𝑡𝑒𝑛𝑢 à 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑢 𝑠𝑦𝑠𝑡è𝑚𝑒 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝐵

Dans cet exemple simple,  0 est le produit moyen obtenu à partir du système de production B
tandis que  1 mesure la variation dans la quantité de biens produit due au passage du système
de production B au système de production A.
Ceci peut être mieux perçu si nous prenons l’espérance mathématique de chaque coté du modèle ci-dessus pour chaque valeur de Xt.

𝛽 𝑝𝑜𝑢𝑟 𝑋𝑡 = 0
𝐸 𝑌𝑡 = ቊ 0
𝛽0 + 𝛽1 𝑝𝑜𝑢𝑟 𝑋𝑡 = 1
Le test d’hypothèse selon laquelle  1 =0 teste en fait l’hypothèse qu’il n’y a pas de différence
dans le produit qui soit imputable au système de production. Ainsi, les estimations des
moindres carrés ordinaires ̂ 0 et ˆ1 des paramètres de la régression sont la valeur moyenne
de produit associée au système B et la différence entre la quantité moyenne de produit
obtenue du système A et celle obtenue du système B.

Cette procédure peut être facilement modifiée lorsqu’il y a plus de deux variables à considérer. Par exemple, deux variables
muettes sont utilisées pour prendre en compte la production obtenue à partir de trois systèmes de production non identiques
(A, B et C). Considérons le modèle suivant :

1 𝑠𝑖 𝑙𝑒 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑒𝑠𝑡 𝑜𝑏𝑡𝑒𝑛𝑢 à 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑢 𝑠𝑦𝑠𝑡è𝑚𝑒 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝐴


𝑋𝑡1 = ቊ
0 𝑠𝑖 𝑛𝑜𝑛

1 𝑠𝑖 𝑙𝑒 𝑝𝑟𝑜𝑑𝑢𝑖𝑡 𝑒𝑠𝑡 𝑜𝑏𝑡𝑒𝑛𝑢 à 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑢 𝑠𝑦𝑠𝑡è𝑚𝑒 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑖𝑜𝑛 𝐵


𝑋𝑡2 = ቊ
0 𝑠𝑖 𝑛𝑜𝑛
Si nous prenons l’espérance mathématique de chaque coté et pour chaque cas, nous avons ce qui suit :

Ici,  0 est le produit moyen associé au système de production C.  1 mesure la variation de la


quantité du bien due au passage du système C au système A et  2 mesure la variation de la
quantité de bien due au passage du système de production C au système de production B.

Ici, tester l’hypothèse  1 = 0 revient à tester l’hypothèse selon laquelle il n’y a pas de
différence entre les systèmes de production C et A
De même, tester l’hypothèse  2 = 0 revient à tester l’hypothèse selon laquelle il n’y a pas de
différence entre les systèmes de production C et B.
On pourrait aussi tester l’hypothèse selon laquelle il n’y a pas de différence entre les systèmes
de production A et B en testant H 0 : 1 =  2 .
NB : Il ne faut pas commettre l’erreur d’intégrer dans le modèle autant de variables muettes que
de systèmes de production. Dans ce qui précède, on a vu que pour deux système de production
on a une seule variable muette et pour trois système de production on a pris deux variables
muettes. En règle générale, pour N systèmes de production, on prend N-1 variables muettes et
cela pour éviter qu’il y ait une colinéarité parfaite dans le modèle.
X-3- Régression avec un mélange de variables quantitatives et de variables muettes

L’exemple le plus usuel utilisé pour illustrer ce cas de figure est la fonction de consommation estimée avec des données
chronologiques couvrant des périodes de conflit et de paix. Dans la spécification d’un tel modèle, on fait l’hypothèse que la
consommation dépend du revenu quelque soit la période considérée. Trois cas peuvent se présenter :
1er cas : La crise affecte la consommation autonome

Soit le modèle Ct =  0 + 1Yt +  2 Dt +  t (10.7)


Où Ct est la consommation, Yt est le revenu et Dt=1 en période de paix et 0 en période de conflit.
Ainsi, la fonction de consommation peut s’écrire comme suit :
Ct = ( 0 +  2 ) + 1Yt +  t en période de paix (10.8)
Ct =  0 + 1Yt +  t en période de conflit. (10.9)

Si nous représentons les deux fonctions sur un graphique, on constate que la droite de consommation s’est déplacée vers le bas
cela en raison du rationnement probable en nourriture.
Ce déplacement vers le bas équivaut à un changement du terme constant qui passe de  0 +  2
à  0 . Un tel changement peut être testé en analysant les hypothèses suivantes :

H 0 :  2 = 0 contre H 0 :  2  0
Ct
Période de paix

Période de conflit
0 + 2

0

Yt

2ème cas : La crise affecte la propension marginale à consommer


Si nous faisons l’hypothèse que les conditions d’existence pendant le conflit affectent la propension marginale à consommer
(c'est-à-dire la pente de la fonction de consommation) alors la fonction de consommation aura la forme suivante :

Ct =  0 + 1Yt +  2Yt Dt +  t
(10.10)
Où Ct est la consommation, Yt est le revenu et Dt=1 en période de conflit et 0 en période de paix. On aura les fonctions
suivantes :
Ct =  0 + (1 +  2 )Yt +  t en période de conflit et (10.11)

Ct =  0 + 1Yt +  t en période de paix. (10.12)

Période de conflit
Ct
Période de paix

Yt

Pour tester l’hypothèse selon laquelle la propension marginale à consommer est différente sur les deux périodes, on teste :

H 0 :  2 = 0 contre H 0 :  2  0
3ème cas : La crise affecte aussi bien la consommation autonome que la propension marginale à
consommer.

Dans ce cas de figure, notre modèle se présente de la façon suivante :

Ct =  0 + 1Yt +  2 Dt +  3Yt Dt +  t
(10.13)
Où Ct est la consommation, Yt est le revenu et Dt=1 en période de conflit et 0 en période de paix. On aura les fonctions
suivantes :

Ct = ( 0 +  2 ) + (1 +  3 )Yt +  t en période de conflit et (10.14)

Ct =  0 + 1Yt +  t en période de paix. (10.15)

Ct Période de conflit

Période de paix

Yt
X-4- Effets des interactions entre variables muettes

Considérons le modèle suivant :

Yt =  0 + 1 D1t +  2 D2t +  3 X t +  t
(10.16)

où Yt est le salaire, Xt est le niveau d’éducation D1 = 1 si l’individu est une femme et 0 sinon, D2 = 1 si l’individu est un noir
et 0 sinon.
Dans le modèle ci-dessus, le genre et la race sont des variables muettes (qualitatives) et l’éducation est la seule variable
quantitative. Ce modèle nous dit de façon implicite que l’impact du genre sur le salaire est constant quelque soit la race et de
même, l’impact de la race sur le salaire est constant quelque soit le genre.

En d’autre terme, si le salaire moyen des hommes est supérieur au salaire moyen des femmes, cela est vrai quelque soit la
race de l’individu.
Dans la pratique cette hypothèse n’est pas toujours vérifiée. Il peut exister des interactions entres les variables muettes. On
aura ainsi le modèle suivant :
Yt =  0 + 1 D1t +  2 D2t +  3 D1t D2t +  4 X t +  t (10.17)
avec par exemple

E(Yt D1t = 1, D2t = 1, X t ) = ( 0 + 1 +  2 +  3 ) +  4 X t (10.18)


qui est la fonction de salaire moyen des femmes noires. Ici,  1 est l’impact du genre sur le
salaire moyen,  2 est l’impact de la race sur le salaire moyen et  3 est l’impact du genre et
de la race sur le salaire moyen. Ainsi, le salaire moyen des femmes noires est différent (de  3
) du salaire moyen des femmes ou des noirs.
fin du cours d’économétrie m1 gestion

Vous aimerez peut-être aussi