0% ont trouvé ce document utile (0 vote)
240 vues25 pages

Introduction Econometrie III

Ce document présente un modèle de régression simple. Il introduit les concepts de variable expliquée, variable explicative et analyse de régression. Le document décrit ensuite comment spécifier la relation entre ces variables, notamment en introduisant un terme d'erreur aléatoire.

Transféré par

Clark Obera
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
240 vues25 pages

Introduction Econometrie III

Ce document présente un modèle de régression simple. Il introduit les concepts de variable expliquée, variable explicative et analyse de régression. Le document décrit ensuite comment spécifier la relation entre ces variables, notamment en introduisant un terme d'erreur aléatoire.

Transféré par

Clark Obera
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE MARIEN NGOUABI

Faculté des Sciences Economiques

LABORATOIRE DE RECHERCHE ET D’ETUDES ECONOMIQUES


ET SOCIALES (LARES)

INTRODUCTION A L’ECONOMETRIE

Document III : modèle de régression simple

Par:
Mathias Marie Adrien NDINGA
Enseignant chercheur

Avec la collaboration de :
MBOU LIKIBI Gaspard Symphorien
GANGA ZANDZOU Ulrich Jeanin
LEKANA Herman

Brazzaville, janvier 2015


1. Modèle de régression simple

1.1. Présentation du problème

L’analyse de régression est l’un des outils les plus utilisés dans le travail
économétrique. Ainsi, cette partie du cours est consacrée aux techniques de
base nécessaires dans la conduite d’une analyse des données économiques.
Les discussions dans cette partie du cours vont, par conséquent, démarrer
par un aperçu de l’expression analyse de régression. Pour commencer, il est
indispensable de répondre à une question de base à savoir : qu’est ce qu’une
analyse de régression ?

L’analyse de régression est une technique d’analyse qui permet la description


et l’évaluation d’une relation entre une variable donnée, souvent appelée
variable expliquée ou variable dépendante et une ou plusieurs autres
variables appelées variables explicatives ou variables indépendantes. On
peut désigner par y la variable expliquée et par x1, x2, …, xk les variables
explicatives. Si k = 1, il n’y a qu’une seule variable explicative et l’on est en
présence d’une régression simple et qui constitue l’objet de cette partie.
Lorsque k  1, il y a plus d’une variable explicative et dans ce cas on est en
présence d’une régression multiple. Celle-ci fera l’objet de la quatrième partie
de ce cours. On peut néanmoins, à titre illustratif, donner les exemples
suivants :

Exemple 1 : régression simple

y = les ventes d’eau minérale Mayo


x = les dépenses de publicité pour l’eau minérale Mayo
Dans cet exemple, on essaie de déterminer la relation qui existe entre les
ventes et les dépenses de publicité pour l’eau minérale Mayo.

Exemple 2 : régression multiple

y = dépenses de consommation d’un ménage à Brazzaville


x1 = le revenu du ménage
x2 = les actifs financiers du ménage
x3 = la taille du ménage
Dans ce deuxième exemple, on essaie de déterminer la relation entre les
dépenses de consommation d’une part et le revenu, les actifs financiers et la
taille du ménage d’autre part.

Il est indispensable de noter ici que l’étude des différentes relations permet
la poursuite de plusieurs objectifs. En effet, l’étude des relations est
indispensable pour :

• Analyser les effets des politiques qui impliquent un changement de


l’une des variables explicatives ;
• Prédire les valeurs de y pour des valeurs données des différentes
variables explicatives ;

1
• Examiner si les différentes variables explicatives ont un effet
significatif sur la variable expliquée.

Dans le deuxième cas, par exemple, l’objectif poursuivi est de déterminer


l’incidence de la taille du ménage sur les dépenses de consommation. Est-
ce que l’effet qu’exerce la variable taille du ménage sur la consommation
est significatif sur le plan statistique. Comme on peut le constater, la
présentation du problème jusqu’ici ne place pas les variables y et x au
même pied d’égalité. Implicitement on a supposé que les variables xk sont
celles qui influencent la variable y. On peut aussi dire que les variables x
sont celles que l’on peut contrôler et changer les valeurs et y est une
variable d’effet. Il y a plusieurs termes alternatifs utilisés dans la
littérature pour y et les xk. Ces termes sont présentés dans le tableau
suivant :

Tableau n° : Classification des variables dans une analyse de régression


y x1, x2, …, xk
(a) Prédictant Prédicteurs
(b) Régressant Régresseurs
(c) Variable expliquée Variables explicatives
(d) Variable dépendante Variable indépendante
(e) Variable d’effet Variables causales
(f) Variable endogène Variables exogènes
(g) Variable objectif Variables de contrôle

Chacun des termes est pertinent pour une utilisation particulière d’une
analyse de régression. La terminologie (a) est utilisée lorsque l’analyse de
régression est faite à des fins de prédiction. Par exemple, les ventes
constituent, dans le premier exemple, le prédictant et les dépenses de
publicité, le prédicteur. Les terminologies (b), (c) et (d) sont utilisées sont
généralement utilisées dans les discussions sur les modèles de régression
par les économistes. Ce sont des termes équivalents. La terminologie (e) est
utilisée dans les études de causalité. La terminologie (f) est spécifique à
l’analyse économétrique. Enfin, la terminologie (g) est utilisée pour la
résolution des problèmes. Par exemple, l’objectif pourrait être l’atteinte d’un
certain niveau des ventes (variable objectif) et l’on doit déterminer le niveau
des dépenses de publicité (variable contrôle) pour atteindre l’objectif.

Dans ce cours, on utilisera les terminologies (c) et (d). Et, dans cette partie
du cours l’on considéra le cas d’une variable expliquée (dépendante) et une
seule variable explicative (indépendante). Comme il a été mentionné plus
haut, ce cas de figure est celui d’une régression simple qui est développé ici.

1.2. Spécification de la relation

Comme il a été mentionné dans la section précédente, les discussions ici


porteront sur le cas d’une variable expliquée (dépendante), que l’on va
appelée y et une seule variable explicative que l’on appellera x. La relation
entre y et x peut s’écrire de la manière suivante :

2
y = f (x) (2.1)

Dans cette première spécification f(x) est une fonction en x. A ce stade, il est
important de faire une distinction entre deux types de relations : la première
relation est déterministe (relation mathématique) et la seconde est
statistique, c’est-à-dire qu’elle ne permet pas d’avoir une valeur unique de y
pour une valeur donnée de x, mais peut générer plusieurs valeurs de y que
l’on peut exprimer terme de probabilité. Dans ce cours, le choix porte sur la
relation de type statistique pour des raisons que l’on va avancer à travers un
exemple. Pour ce faire, on va supposer que la relation qui existe entre les
ventes y et les dépenses de publicité x se présente comme suit :

y = 2500 + 100x – x2

La relation qui vient d’être spécifiée est de type déterministe. Les ventes pour
les différents niveaux de dépenses de publicité peuvent être déterminées de
manière exacte. Elles se présentent comme suit :

x y
0 2500
20 4100
50 5000
100 2500

Par ailleurs, si l’on suppose que la relation entre les ventes y et les dépenses
de publicité x se présente comme suit :

y = 2500 + 100x – x2 + 

Dans cette seconde spécification,  est un terme aléatoire qui peut prendre
deux valeurs à savoir :

-  = + 500 avec une probabilité de 50%


-  = - 500 avec une probabilité de 50%

En incorporant le terme aléatoire dans cette nouvelle spécification, les


valeurs des ventes y pour les différents niveaux de dépenses de publicité x
peuvent être décrites de manière probabiliste. Par exemple, si les dépenses
de publicité sont de 50, les ventes seront de 5500 avec une probabilité de
50% et 4500 avec une probabilité de 50%. Les valeurs de y pour les
différentes valeurs de x se présente maintenant comme suit :

x y
0 2000 ou 3000
20 3600 ou 4600
50 4500 ou 5500
100 2000 ou 3000

3
Les valeurs de y que l’on peut observer ici pourraient être l’un des huit (8)
cas possibles. Par exemple, on peut avoir :

x y
0 2000
20 4600
50 5500
100 2000

Si le terme de l’erreur  est distribué suivant une loi normale centrée


réduite, autrement distribué normalement avec une moyenne nulle et une
variance égale à 1, alors pour chaque valeur de x correspondra des valeurs
de y normalement distribuées. Ainsi, la valeur de y peut être n’importe
laquelle de cette distribution. Par exemple, si la relation entre y et x est
définie comme suit :
y = 2 +x + 

où le terme de l’erreur  est distribué suivant une loi normale centré réduite
[ N (0,1)], alors chaque couple (x,y) sera également distribué normalement.
Ceci peut être illustré par le graphique suivant :

y y=2+x

Valeur possible de y
Pour une valeur de x

0 x

La droite qui est tracée sur ce graphique représente une relation


déterministe y = 2 + x. Les valeurs observées de y pour chaque x seront les
points situés sur les lignes verticales. La relation entre y et x, dans ce cas est
appelée stochastique ou une relation statistique.

Pour revenir à l’équation (3.1), on va considérer que la fonction f(x) est


linéaire en x ; ce qui permet d’écrire :

f(x) = α + βx.

On va également supposer que cette relation est stochastique ; ce qui nous


donne la relation suivante :

y = α + βx +  (2.2)

4
Dans l’équation (3.2),  est le terme de l’erreur qui dispose d’une probabilité
connue (pour rappel on a supposé que ce terme était distribué suivant une
loi normale centrée réduite ; ce qui en fait une variable aléatoire). Ainsi, la
relation qui a été postulée ici a deux composantes dont la première (α + βx)
est déterministe de y et la seconde () est stochastique ou aléatoire de y. α et
β sont appelés coefficient de régression ou paramètre de régression qu’il va
falloir estimer à partir des données de y et x. Il est, certes, possible de
discuter du caractère additif des deux composantes (déterministe et
aléatoire), seulement l’orientation de ce cours suggère de commencer
l’apprentissage avec un modèle simple et évoluer, au fur et à mesure, vers
des modèles plus complexes. C’est précisément pour cette raison que l’on a
considéré que la fonction f(x) est linéaire et que le modèle comprend un
terme de l’erreur. Mais pourquoi est-il indispensable d’ajouter dans cette
spécification le terme de l’erreur  ? Quelles sont les sources de l’erreur 
dans l’équation (2.2) ?

Il y a trois sources d’erreurs dans l’équation (2.2) à savoir :

• Les éléments imprévisibles résultant du comportement aléatoire de


l’homme. Par exemple si y représente les dépenses de consommation
d’un ménage et x le revenu disponible, il y a des éléments
imprévisibles dans la consommation de chaque ménage. Le ménage ne
se comporte pas comme une machine. Au cours d’un mois le ménage
peut avoir de grandes dépenses et le moi suivant les réduire
considérablement.

• L’effet d’un nombre important de variables omises. Toujours dans le


cas de l’exemple précédent, le revenu x n’est pas la seule variable qui
influence les dépenses de consommation y. La taille du ménage, les
goûts du ménage, les dépenses d’habillement, etc. affectent aussi la
variable y. Le terme aléatoire  représente les effets de toutes ces
variables, celles que l’on ne peut quantifier et celles que l’on n’a pas
pu identifier. Dans une certaine mesure on retrouve celles que l’on a
fait référence dans la première source.

• Erreur de mesure de la variable y. Dans le cas toujours de l’exemple


précédent cela renvoie à une erreur de la mesure de la consommation
du ménage. En effet, il n’est pas évident de mesurer exactement
l’ensemble des dépenses de consommation du ménage. Cet argument
est difficile à justifier notamment lorsque l’on suppose que la variable
x, c’est-à-dire le revenu disponible x est mesuré sans erreur. Le cas où
les deux variables sont mesurés avec erreur est discuté plus tard.
Etant donné que l’on a opté d’évoluer étape par étape et en
introduisant toutes les difficultés au début, on va donc accepter cet
argument à savoir qu’il y a une erreur de mesure sur y et non sur x.

En résumé, les sources de l’erreur sont : (i) les éléments imprévisibles


résultant du comportement humain aléatoire ; (ii) l’effet de l’omission d’un

5
nombre important de variable et (iii) l’erreur de mesure de la variable
endogène. Si l’on dispose de n observations sur y et x, on peut écrire
l’équation (3.2) comme suit :

yi = α + βxi + i i = 1, 2, …, n (2.3)

L’objectif est d’avoir une estimation des paramètres inconnus α et β dans


l’équation (2.3) étant donné les n observations sur y et x. Pour ce faire il est
indispensable de formuler quelques hypothèses sur le terme de l’erreur i.
Ces hypothèses sont :

1. La moyenne de l’erreur est nulle, E(i) = 0 quelque soit i ;


(2.4)
2. Tous les erreurs ont une variance identique, Var (i) = 2 quelque soit
i; (2.5)
3. Indépendance. i et j sont indépendants pour tout i ≠j ;
4. Indépendance de xj. i et xj sont indépendants pour tout i et j. Cette
hypothèse suit automatiquement lorsque l’on considère que les xj sont
comme des variables non aléatoires. En se référant à la figure (3.1),
cela signifie que l’erreur  ne dépend pas de la valeur de x,
cov(x,)=E(x,u)=0 ; (2.6)
5. Normalité. Les i sont normalement distribués pour tout i. En
considérant les trois premières hypothèses, on peut déduire que les i
sont indépendamment distribués avec une moyenne nulle et une
variance 2. On peut écrire que i  N(0, 2).

Ce sont là les hypothèses avec lesquelles on débutera les discussions sur la


régression simple. Cependant, certaines de ces hypothèses seront relâchées
dans la suite du cours. Maintenant après avoir spécifié le modèle de
régression, il va falloir passer à la discussion sur la méthode d’estimation
des paramètres α et β.

1.3. Estimation des paramètres et la méthode des MCO

Après avoir discuté des éléments de base du modèle de régression simple, il


est important d’aborder la question de l’estimation des paramètres α et β
dans l’équation (2.3). Pour le faire il est indispensable de disposer des
données soient sous la forme de séries temporaires ou d’une coupe
transversale, la version simple d’un modèle à deux variables est : yi = α + βxi
+ i, (i = 1, 2, …, n). Les i étant considérés identiquement et
indépendamment distribués (iid) de moyenne nulle et de variance 2. Il y a
dès lors trois paramètres à estimer dans le modèle à savoir : α, β et 2. Les
paramètres α et β sont considérés comme une paire d’autant plus que les
valeurs numériques des deux paramètres sont indispensables pour
déterminer l’équation d’une droite spécifique. Une fois que l’équation de cette
droite a été déterminée, les résidus provenant de cette équation peuvent être
utilisés pour déterminer une estimation de 2.

6
La première étape dans la détermination de l’équation de la droite, pour un
échantillon de données, est de faire une représentation du nuage de points
sur un diagramme et de s’assurer visuellement que celui-ci est
approximativement linéaire. Appelant la droite obtenue à partir des données
de l’échantillon par 𝑦̂ = 𝑎 + 𝑏𝑥𝑖 où 𝑦̂ est l’ordonnée à l’abscisse xi de cette
droite. Les valeurs observées de yi seront, en général, différents de celles de
𝑦̂ estimées. Plusieurs estimations de la paire (a,b) peuvent être proposées.

1. Tracer une droite à main levé et déterminer la constante a et la pente


b. Seulement, différents artistes dessinateurs peuvent tracer plusieurs
droites et avoirs plusieurs valeurs de ces paramètres. De ce fait, il est
préférable d’avoir un estimateur qui pourrait donner le même résultat
pour un échantillon de données quelque soit l’investigateur ou
l’analyste.

2. Faire passer une droite entre le point le plus à gauche et le point le


plus à droite du nuage. Si x* est la plus petite valeur de x dans
l’échantillon et x** la plus grande et y*, y** celles associées aux
valeurs de y, un estimateur se présente comme suit :

b = (y** - y*) / (x** - x*)


a = y* - bx* = y** - bx**

Cet estimateur ne pourrait être considéré comme performant dans la


mesure où il ne prend en compte que deux points au sein de
l’échantillon et ignore les autres.

3. La dernière critique concerne la méthode des moyennes de x et y des


m points les plus à gauche et m points les plus à droite du nuage. On
fait alors passer la droite entre les points moyens obtenus. Ce type
d’estimation ne se prête pas facilement à une interprétation
mathématique et certaines de ses propriétés sont difficiles à
déterminer.

Les limites de ces différentes démarches ont conduit à la mise sur pied
d’autres méthodes abondement utilisées à savoir la méthode des moments et
celle des moindres carrées ordinaires. Pour ce faire, on va ici opter pour
l’utilisation de la relation (2.3) et une importante implication des hypothèses
(2.4) et (2.6) : dans la population,  a une moyenne égale à zéro et n’est pas
corrélé avec les xi. Par conséquent, on peut postuler que  a une espérance
mathématique égale à zéro et la covariance entre xi et i est égale à zéro. On
peut donc écrire

E() = 0 (2.9)
Cov (x, ) = E(x, ) = 0 (2.10)

Les deux équations précédentes peuvent s’écrire en termes de variables


observables x et y et de paramètres inconnus α et β de la manière suivante :

7
E (y – α – βx) = 0 (2.11)
et E [x (y – α – βx)] = 0 (2.12)

Les équations (2.11) et (2.12) permettent de déterminer les paramètres


inconnus du modèle à estimer. En effet, puisqu’il y a deux paramètres non
connus, on peut espérer que les deux équations peuvent être utilisées pour
obtenir de bonnes estimations de α et β. Etant donné un échantillon, on
choisie d’estimer a et b de façon à résoudre le système d’équations formé par
(2.11) et (2.12).
1
∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0 (2.13)
𝑛
1
∑𝑛𝑖 𝑥 (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0 (2.14)
𝑛

Ceci est un exemple de l’approche par la méthode des moments. Ces


équations peuvent être résolus pour déterminer a et b. En utilisant les
propriétés de base de l’opérateur sommation, l’équation (2.13) peut être
écrite comme suit :

𝑦̅ = 𝑎 + 𝑏 𝑥̅ (2.15)
1
où 𝑦̅ = ∑𝑛𝑖=1 𝑦𝑖 représente la moyenne de l’échantillon des observations de y
𝑛
1
et autant pour 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 . Cette équation permet d’écrire a en fonction de
b 𝑦̅ et 𝑥̅ .

𝑎 = 𝑦̅ − 𝑏𝑥̅ (2.16)

Par conséquent, une fois que la pente est estimée, il devient aisé d’obtenir
l’estimation de la constante a étant donné 𝑦̅ et 𝑥̅ . En retirant 1/n de
l’équation (2.14) ; ce qui n’affecte pas la solution, et en remplaçant (2.16)
dans (2.14) on obtient ce qui suit :

∑𝑛𝑖=1 𝑥𝑖 [𝑦𝑖 − (𝑦̅ − 𝑏𝑥̅ ) − 𝑏𝑥𝑖 ] = 0

Cette formulation nous donne après arrangement ce qui suit :

∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝑦̅) = 𝑏 ∑𝑛𝑖=1 𝑥𝑖 (𝑥𝑖 − 𝑥̅ )

A partir des propriétés de l’opérateur somme, on peut écrire :

∑𝑛𝑖=1 𝑥𝑖 (𝑥𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 et ∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝑦̅) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

La prise en compte de ces transformations permet d’avoir l’expression


suivante :
𝑛
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑏= (2.18) 𝑎𝑣𝑒𝑐 ∑(𝑥𝑖 − 𝑥̅ )2 > 0, (2.17)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑖=1

L’équation (2.18) est simplement la covariance entre x et y divisé par la


variance de x (pour retrouver ce résultat, il suffit de diviser le numérateur et
8
le dénominateur par n). Ce résultat n’est valable que parce que β est égal à la
covariance de la population divisé par la variance de x lorsque E() = 0 et
cov(x,y) = E(x,) = 0. L’implication immédiate est que si x et y sont
positivement corrélé dans l’échantillon, alors b est positif. Par contre si x et y
sont négativement corrélé, alors b est négatif.

Bien que (2.16) soit obtenu à partir de la relation (2.6), la seule hypothèse
indispensable pour déterminer les paramètres estimés pour un échantillon
donné est (2.17). Cette hypothèse est très forte à tout point de vue : (2.17)
n’est valable que lorsque tous les xi dans l’échantillon ne sont pas identiques
ou n’ont pas la même valeur. Si cette hypothèse n’est pas respectée, alors on
peut considérer que l’on a été malchanceux lors du tirage de l’échantillon de
la population ou tout simplement on n’a pas spécifié un problème majeur à
savoir x ne varie pas dans la population. Par exemple, si y = salaire et x =
éducation, alors (2.17) n’est pas satisfait lorsque tous les individus de
l’échantillon ont le même niveau d’éducation (par exemple la licence). Si un
seul individu de l’échantillon a un niveau différent des autres, alors la
condition (2.17) est satisfaite et l’estimation des paramètres peut avoir lieu.

Les estimations données par (2.16) et (2.18) sont appelés estimation des
moindres carrées ordinaires (MCO) de α et β. Ce nom est justifié par le fait
que tout a et b permettent de déterminer les yi étant donné la valeur de xi qui
connue tel que :

𝑦̂𝑖 = a + bxi (2.19)


La relation (2.19) permet de déterminer la valeur prédite de yi lorsque xi est
connu. Ainsi, il y a une valeur estimée pour chaque observation dans
l’échantillon. Le résidu de l’observation i est la différence entre la valur
observée et estimée de y. On peut l’écrire de la manière suivante :

𝜇̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 (2.20)

On va maintenant supposer que le choix de a et b est faite de manière à


minimiser la somme des carrées des résidus ; qui se présente comme suit :

∑𝑛𝑖=1 𝜇̂ 𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 (2.22)

Formellement, le problème est de déterminer a et b dans un programme


d’optimisation et plus précisément de minimisation. On peut écrire ce
programme comme suit :

𝑀𝑖𝑛𝑎,𝑏 ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2

Dans cette relation, a et b sont les arguments muets pour le programme


d’optimisation. Pour des raisons de simplification, l’on va désigner cette
fonction par Q(a,b). La condition nécessaire pour résoudre ce programme est
celle du premier ordre qui consiste en l’annulation des dérivées partielles par
rapport à a et b. En d’autres termes, [Q(a,b) / a)]=0 et [Q(a,b) / b)]=0. En
faisant de petites transformations, ces deux équations deviennent :

9
−2 ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
−2 ∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0

Les deux équations obtenues ici sont en réalité les équations (2.13) et (2.14)
multipliées par -2n et de ce fait, peuvent être résolu de la même manière
pour déterminer a et b. Mais comment sait-on qu’il s’agit là du minimum de
la somme des carrées des résidus ? Les conditions du premier ordre sont
nécessaires mais non suffisantes. Une façon de vérifier qu’il s’agit du
minimum de la somme des carrées des résidus est de montrer que cette
somme est à sont niveau le plus bas lorsque a = α et b = β. Ainsi, pour tout a
et b :

𝑄(𝑎, 𝑏) = ∑𝑛𝑖=1[𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 + (𝛼 − 𝑎) + (𝛽 − 𝑏)𝑥𝑖 ]2


𝑄(𝑎, 𝑏) = ∑𝑛𝑖=1[𝜇̂ 𝑖2 + (𝛼 − 𝑎) + (𝛽 − 𝑏)𝑥𝑖 ]2
𝑄(𝑎, 𝑏) = ∑𝑛𝑖=1 𝜇̂ 𝑖2 + 𝑛(𝛼 − 𝑎)2 + (𝛽 − 𝑏)2 ∑𝑛𝑖=1 𝑥𝑖2 + 2(𝛽 − 𝑏)(𝛼 − 𝑎) ∑𝑛𝑖=1 𝑥𝑖

La dernière relation est obtenue en utilisant les propriétés suivantes :


∑𝑛𝑖=1 𝜇̂ 𝑖 = 0 et ∑𝑛𝑖=1 𝑥𝑖 𝜇̂ 𝑖 = 0. La somme des carrées des résidus ne dépend pas
de α et β. La somme des trois derniers termes peut s’écrire comme suit :

∑𝑛𝑖=1[(𝛼 − 𝑎) + (𝛽 − 𝑏)𝑥𝑖 ]2

Comme on peut le vérifier par une transformation simple, le terme du carré


de la somme peut être presque égal à zéro. Par conséquent cette somme est
la plus petite lorsque a = α et b = β.

Une fois que les paramètres ont été estimés par les MCO, on peut former
l’équation de la droite de la manière suivante :

𝑦̂ = 𝑎 + 𝑏𝑥 (2.22)

Ce que l’on peut retenir ici c’est le fait que les paramètres a et b ont été
obtenus à partir des équations (2.16) et (2.18). La notation 𝑦̂ que l’on lit y-
chapeau met l’accent sur le fait que les valeurs prédites à partir de l’équation
(2.22) sont estimées. La constante a est la valeur prédite de y lorsque x=0,
bien que dans certains cas cela n’a pas de sens de dire que x=0. Dans ces
situations, a n’est pas en lui-même intéressant. Lorsque l’équation (2.22) est
utilisée pour calculer les valeurs prédites de y pour les valeurs de x données,
la constante doit être pris en compte dans les calculs. L’équation (2.22) est
aussi appelée fonction de régression de l’échantillon parce que c’est une
version estimée de la fonction de régression de la population (FRP). Il est
important de relever que la FRP est fixée, mais pas connue dans la
population. Puisque FRP est obtenu pour un échantillon de données
quelconque, un nouvel échantillon générera une pente et une constante
différente dans l’équation (2.22).

10
Dans la plupart des cas, la pente estimée peut s’écrire de la manière
suivante :

𝑏 = ∆𝑦̂/∆𝑥 (2.23)

Ce résultat est d’un intérêt primordial car il renseigne que le nombre


d’unités de variation de 𝑦̂ lorsque x augmente d’une unité. De manière
équivalente, on peut écrire :

∆𝑦̂ = 𝛽∆𝑥 (2.24)

De telle sorte que pour tout changement de x (positif ou négatif), on peut


calculer la variation de y

1.4. Equation et tableau d’analyse de la variance

Précédemment, il a été montré qu’il existe plusieurs propriétés algébriques


des MCO et des statistiques qui leurs sont associées. Trois de ces propriétés
vont faire ici l’objet d’un examen minutieux.

• La somme, et par conséquent, la moyenne des résidus de l’échantillon


sont égales à zéro. Mathématiquement, on peut écrire cela de la
manière suivante :

∑𝑛𝑖=1 𝑢̂𝑖 = 0 (2.25)

Cette propriété n’a pas besoin de preuve. Elle se déduit


immédiatement des conditions de premier ordre (2.13) lorsque l’on se
rappelle que le résidu est défini par : 𝑢̂𝑖 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 . En d’autres
termes, les paramètres a et b sont choisis de manière à ce que le
résidu soit quasiment nul pour n’importe quelle donnée.

• La covariance de l’échantillon entre les régresseurs xi et les résidus ui


est nulle. Ce résultat est déduit des conditions du premier ordre
notamment de la relation (2.14), qui en terme de résidu peut s’écrire
de la manière suivante :

∑𝑛𝑖=1 𝑥𝑖 𝑢̂𝑖 = 0 (2.26)


Dans l’échantillon, la moyenne du résidu est nulle, ainsi le côté
gauche de la relation (2,26) est proportionnel à la covariance de
l’échantillon entre 𝑥𝑖 et 𝑢̂𝑖 .

• Les points (𝑥̅ , 𝑦̅) sont toujours sur la droite de régression des MCO. En
d’autres termes, si l’on prend l’équation (2.22) et en considérant 𝑥̅ pour
x, alors la valeur prédite est 𝑦̅. C’est ce qui est exactement mis en
évidence par l’équation (2.15).

Pour étudier les conséquences de ces trois propriétés, on va écrire chaque yi


en fonction de sa valeur estimée plus son résidu. Cette formulation donne

11
une autre possibilité d’interpréter la régression par les MCO. En effet, pour
chaque i, on peut écrire :

𝑦𝑖 = 𝑦̂𝑖 + 𝑢̂𝑖 (2.27)

A partir de la première propriété énoncée ci-dessus, la moyenne des résidus


est nulle ; de manière équivalente, la moyenne de l’échantillon des valeurs
estimées 𝑦̂𝑖 , est la même que la moyenne de l’échantillon des yi ; d’où 𝑦̅̂ = 𝑦̅.
Plus encore, les deux premières propriétés peuvent être utilisées pour
montrer que la covariance de l’échantillon entre 𝑦̂𝑖 et 𝑢̂𝑖 est nulle. De ce fait,
on peut concevoir la méthode des MCO comme une décomposition de chaque
yi en deux composantes : une valeur estimée et une erreur. Les valeurs
estimées ne sont pas corrélées dans l’échantillon.

Par ailleurs, on peut définir la somme des carrés totale, SCT, la somme des
carrés expliqués, SCE, et la somme des carrés résiduel, SCR, comme suit :

𝑆𝐶𝑇 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 (2.28)


𝑆𝐶𝐸 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 (2.29)
𝑆𝐶𝑅 = ∑𝑛𝑖=1 𝑢̂𝑖2 (2.30)

SCT est la mesure de la variation totale de l’échantillon en yi ; c’est une


mesure de la manière dont les yi se répartissent au sein de l’échantillon. Si
l’on divise SCT par n, on obtient la variance de l’échantillon. Similairement,
SCE mesure la variation de 𝑦̂𝑖 dans l’échantillon (lorsque l’on considère que
𝑦̅̂ = 𝑦̅) et SCR mesure la variation de 𝑢̂𝑖 . La variation totale de yi, SCT, peut
alors être exprimée comme la somme de la variation expliquée, SCE, et la
somme de la variation non expliquée, SCR. Ainsi, on peut écrire :

SCT = SCE + SCR (2.31)

Il n’est pas difficile d’obtenir la relation (2.31), il suffit d’utiliser les propriétés
de l’opérateur somme dans la relation (2.28). On a :

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1[(𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)]2


∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1[𝑢̂ + (𝑦̂𝑖 − 𝑦̅)]2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1 𝑢̂2 + 2 ∑𝑛𝑖=1 𝑢̂𝑖 (𝑦̂𝑖 − 𝑦̅) + ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = 𝑆𝐶𝑅 + 2 ∑𝑛𝑖=1 𝑢̂𝑖 (𝑦̂𝑖 − 𝑦̅) + 𝑆𝐶𝐸

On obtient la relation (2.31) s’il est montré que :

2 ∑𝑛𝑖=1 𝑢̂𝑖 (𝑦̂𝑖 − 𝑦̅) = 0 (2.32)

On peut se souvenir que la covariance de l’échantillon entre le résidu et les


valeurs estimées 𝑦̂𝑖 est nulle et la relation (2.32) divisé par n représente cette
covariance. Ainsi, la relation (2.31) est démontrée.

12
Implication en ce qui concerne la qualité de l’estimation : Depuis longtemps, il
n’y avait pas un moyen d’apprécier la manière dont la variable explicative ou
indépendante x, explique la variable dépendante y. Il est souvent utile de
déterminer un nombre qui résume la qualité de l’ajustement estimé avec des
données. En supposant que la somme totale des carrées SCT, n’est pas égale
à zéro, ce qui est vrai à l’exception du cas extrême où tous les yi sont égale à
la même valeur, on peut diviser (2.31) par SCT, ce qui donne :

1 = (SCE / SCT) + (SCR / SCT)

Le R-carré de la régression appelé parfois coefficient de détermination est


définie comme suit :

R2 = SCE / SCT = 1 – (SCR / SCT) (2.33)

R-carré est le ratio de la variation expliquée par rapport à la variation totale


et est interprété comme une fraction de la variation de l’échantillon de y qui
est expliquée par x. La seconde relation (2.33) fournie un autre moyen de
déterminer R-carré. A partir de la relation (2.31) on peut montrer que la
valeur du R-carré est comprise entre 0 et 1, étant donné que SCE ne peut
pas être plus grand que SCT. Lorsque l’on interprète le R-carré, on le
multiplie par 100 pour le mettre en pourcentage : 100R2 est le pourcentage
de la variation de l’échantillon en y qui est expliquée par x.

Lorsque tous les points sont sur la droite d’ajustement, alors les MCO ont
fourni une estimation parfaite des données. Dans ce cas, le R-carré est égale
à 1. Une valeur de la statistique R-carré qui est proche de zéro indique que
l’ajustement est de mauvaise qualité. En faite, il peut être montré que R-
carré est égale au carré du coefficient de corrélation. C’est de là que vient le
terme de R-carré (la lettre R a été traditionnellement utilisée pour désigner le
coefficient de corrélation estimé d’une population et son usage a été étendu à
l’analyse de régression).

Dans les sciences sociales, un faible niveau du R-carré dans les équations de
régression n’est pas rare, spécialement dans les analyses en coupe
transversale. Ces aspects feront l’objet d’une discussion approfondie dans le
cadre de l’analyse de régression multiple, mais ce qu’il convient de relever ici
c’est le faite qu’un faible niveau de R-carré ne veut pas nécessairement dire
que l’équation de régression par les MCO n’est pas utile. Il est encore
possible que la relation estimée soit une bonne estimation, notamment
lorsqu’elle ne dépend pas du niveau de R-carré. Les étudiants qui
apprennent l’économétrie pour la première fois ont tendance à mettre
l’accent sur le niveau du R-carré pour évaluer une équation de régression.
Pour le moment, on peut tout simplement les avertir que l’utilisation du R-
carré comme le principal gage de succès pour l’analyse économétrique peut
conduire à des erreurs d’appréciation.

13
Le tableau suivant présente l’analyse de la variance pour un modèle de
régression simple. Il se présente comme suit :

Source de la Somme des carrés Degré de liberté Carrés moyens


variation
𝑥𝑖 𝑆𝐶𝐸 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 1 SCE / 1
Résidu 𝑆𝐶𝑅 = ∑𝑛𝑖=1 𝜇̂ 𝑖 n–2 SCR / (n – 2)
Total 𝑆𝐶𝑇 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 n–1

Les degré de liberté correspondent au nombre de valeurs que l’on peut


choisir arbitrairement (par exemple, pour la variabilité totale, connaissant n
– 1 valeurs, nous pourrons en déduire la n-ième, puisque l’on connait la
moyenne 𝑦̅.

On peut également procéder au test de Ficher qui dans le cas du modèle de


régression simple revient à un test d’analyse de la variance. La statistique F
empirique est donnée par :

𝑆𝐶𝐸⁄

𝐹 = 1
𝑆𝐶𝑅⁄
(𝑛 − 2)

avec F* = (t*)2 ; t* = statistique empirique de student


où F* suit une loi de Fisher à 1 et n – 2 degré de liberté. On peut aussi écrire
cette formule en fonction de coefficient de détermination :

𝑅2
𝐹∗ =
(1 − 𝑅 2 )(𝑛 − 2)

La statistique F* est le rapport de la somme des carrés expliqués par xi sur


la somme des carrés des résidus, chacune de ces sommes étant divisée par
son degré de liberté respectif. Ainsi, si la variance expliquée est
significativement supérieure à la variance résiduelle, la variable xi est
considérée comme étant une variable réellement explicative.
𝛼
Si 𝐹 ∗ > 𝐹1,𝑛−2 , on ne retient pas l’hypothèse d’égalité des variances, la
variable xi est significative ; dans le cas contraire, on accepte l’hypothèse
d’égalité des variances, la variable xi n’est pas explicative de la variable yi.

1.5. Inférence dans le modèle de régression simple

Dans les discussions qui ont eu lieu jusqu’ici on a considéré que l’on
disposait d’un échantillon tiré d’une population. Le modèle de la population
est défini comme suit : yi = α + βxi + µi et l’une des hypothèses-clé de
l’analyse de régression simple est que les valeurs estimées de µ étant donné
x sont nulles. Les propriétés algébriques des MCO ont été présentées.
Maintenant, il convient de revenir au modèle de la population pour étudier
les propriétés statistiques des MCO. En d’autres termes, on s’intéresse
maintenant à a et b comme étant des estimateurs des paramètres α et β qui

14
figurent dans le modèle de la population. Cela suggère qu’il va falloir étudier
les distributions de a et b à travers les différents échantillons de la
population.

1.5.1.Qualité des estimateurs des MCO

L’objectif ici est de mettre en évidence le caractère non biaisé des MCO en se
servant d’un certains nombre d’hypothèses. Ces hypothèses sont au nombre
de quatre et se déclinent comme suit :

Hypothèse 1 : la linéarité du modèle. Dans le modèle de la population,


la variable dépendante y est fonction de la variable indépendante x et
l’erreur µ. Cette relation est linéaire et se présente comme suit :

y = α + βx +  (2.34)

où α et β sont des paramètres et représentent respectivement a


constante et la pente de la droite d’ajustement. Pour être réaliste, y, x
et µ sont tous considérées comme des variables aléatoires dans la
définition du modèle de la population. Les discussions sur ce modèle
ont révélées que ce dernier n’est pas restrictif comme cela apparaît au
début. En choisissant y et x de manière appropriée, on peut obtenir
une intéressante relation non linéaire.

Hypothèse 2 : le caractère aléatoire de l’échantillon. On s’intéresse à


l’utilisation des données de y et x pour estimer les paramètres α et β.
On suppose que les données proviennent d’un échantillon aléatoire.
On peut donc utiliser un échantillon aléatoire de taille n, {(xi, yi) ; i=1,
2, …, n} à partir du modèle de la population. Les problèmes posés par
le caractère aléatoire de l’échantillon seront traités plus tard
notamment lors de l’étude des séries temporaires et les questions de
sélection de l’échantillon. Tous les échantillons en coupe transversale
ne proviennent d’échantillons aléatoires, mais nombreux le sont. On
peut écrire (2.34) en termes d’échantillon aléatoire comme suit :

yi = α + βxi + i (2.35)

où i est l’erreur pour l’observation i (par exemple la personne, la


firme, la ville, etc.). De ce fait i contient ce qui n’est pas observable
pour l’observation i qui affecte yi. Les i ne doivent pas être confondus
avec les résidus 𝜇̂ 𝑖 . Plus tard on explorera la relation entre l’erreur et le
résidu. Pour l’interprétation de α et β en particulier, la relation (2.34)
est informative, mais (2.35) est utile pour certains développements
statistiques.

Hypothèse 3 : nullité de la moyenne conditionnelle. Pour obtenir des


estimateurs non biaisés de α et β. Il est indispensable de formuler
l’hypothèse d’une moyenne conditionnelle nulle. Pour un échantillon
aléatoire, cette hypothèse implique que E(ui/xi)=0 pour tout i = 1, 2, …,

15
n. Et, si l’on considère l’hypothèse sur le caractère aléatoire de
l’échantillon, on peut faire des simplifications techniques et pratiques.

Hypothèse 4 : variation de l’échantillon de la variable indépendante.


Dans l’échantillon, les variables indépendantes xi, i = 1, 2, …, n n’ont
pas la même valeur. Il en découle que ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 > 0 . Des quatre
hypothèses formulées, celle-ci est la plus importante parce qu’elle est
presque jamais remis en cause. Si elle venait à l’être, alors l’estimation
par les MCO devient impossible.

Une fois, ces hypothèses formulées, on peut considérer le fait que :

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑦𝑖

On peut écrire l’estimateur de la pente de la droite des MCO obtenu par


l’équation (2.18) de la manière suivante :
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )𝑦𝑖
𝑏= ∑𝑛 2
(2.36)
𝑖=1(𝑥𝑖 −𝑥̅ )

On s’intéresse maintenant au comportement de b à travers tous les


échantillons possibles. Le paramètre b est alors considéré comme une
variable aléatoire. On peut écrire b en fonction de β (le coefficient de
régression dans la population) et de l’erreur µ. En remplaçant yi par son
expression c’est-à-dire la relation (2.35) dans la relation (2.36). On a :

∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )𝑦𝑖 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )(𝛼+𝛽𝑥𝑖 +𝜇𝑖 )
𝑏= ∑𝑛 2
= (2.37)
𝑖=1(𝑥𝑖 −𝑥̅ ) 𝑆𝑥

Où la variation totale de xi est définie comme 𝑆𝑥 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 de manière à


simplifier la notation. Sx n’est pas la variance de l’échantillon de xi car
n’étant pas divisé par n. En utilisant les propriétés de l’opérateur somme, on
peut écrire le numérateur de b comme suit :
𝑛 𝑛 𝑛
∑ (𝑥𝑖 − 𝑥̅ )𝛼 + ∑ (𝑥𝑖 − 𝑥̅ ) 𝛽𝑥𝑖 + ∑ (𝑥𝑖 − 𝑥̅ ) 𝜇𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
= 𝛼∑ (𝑥𝑖 − 𝑥̅ ) + 𝛽 ∑ (𝑥𝑖 − 𝑥̅ ) 𝑥𝑖 + ∑ (𝑥𝑖 − 𝑥̅ ) 𝜇𝑖 (2.38)
𝑖=1 𝑖=1 𝑖=1

On sait que ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0 et ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑥𝑖 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . Par conséquent,


on peut écrire le numérateur de b comme étant égale à : 𝛽𝑆𝑥 + ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜇𝑖 .
En prenant cela en compte, on peut écrire b de la manière suivante :

∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )𝜇𝑖
𝑏= 𝛽+ = 𝛽 + (1⁄𝑆 ) ∑𝑛𝑖=1 𝑑𝑖 𝜇𝑖 (2.39)
𝑆𝑥 𝑥

Où 𝑑𝑖 = 𝑥𝑖 − 𝑥̅ . On peut constater ici que b est fonction de la pente de la


droite de la population β, plus un terme qui est une combinaison linéaire de
l’erreur. Le caractère aléatoire de b est dû entièrement à l’erreur dans
l’échantillon. Le fait que cette erreur est généralement différent de zéro
explique pourquoi b diffère de β. Les hypothèses 1 à 4 permettent d’établir le

16
caractère non biaisé des estimateurs des MCO. Pour cela il faut montrer
que :

E(b) = β et E(a) = α (2.40)

En d’autres termes, a est un estimateur non biaisé de α et b est un


estimateur non biaisé de β. Pour le démontrer, on va considérer que les
valeurs espérées de a et b dépendent des valeurs de l’échantillon de la
variable indépendante. Puisque Sx et di sont fonction seulement de xi, elles
sont donc des variables aléatoires. De la sorte à partir de la relation (2.40) on
a:

𝐸(𝑏) = 𝛽 + 𝐸 [(1⁄𝑆 ) ∑𝑛𝑖=1 𝑑𝑖 𝜇𝑖 ] = 𝛽 + (1⁄𝑆 ) ∑𝑛𝑖=1 𝐸(𝑑𝑖 𝜇𝑖 )


𝑥 𝑥
1 1
= 𝛽 + ( ⁄𝑆 ) ∑𝑖=1 𝑑𝑖 𝐸(𝜇𝑖 ) = 𝛽 + ( ⁄𝑆 ) ∑𝑛𝑖=1 𝑑𝑖 0 = 𝛽
𝑛
𝑥 𝑥
E(b) = β C.Q.F.D.

Où l’on a utilisé le fait que la valeur espérée de chaque µi par rapport aux xi
est nulle sous les hypothèses 2 et 3. La démonstration pour α est
maintenant simple. L’équation des moyennes obtenue à partir de (2.35) se
présente comme suit : 𝑦̅ = 𝛼 + 𝛽𝑥̅ + 𝜇̅ . En remplaçant cette dernière
expression dans la formule de a, on obtient ce qui suit :

𝑎 = 𝑦̅ − 𝑏𝑥̅ = 𝛼 + 𝛽𝑥̅ − 𝑏𝑥̅ + 𝜇̅


𝑎 = 𝛼 + (𝛽 − 𝑏)𝑥̅ + 𝜇̅
𝐸(𝑎) = 𝛼 + 𝑥̅ 𝐸 (𝛽 − 𝑏) + 𝐸(𝜇̅ )

Puisque 𝐸(𝜇̅ ) = 0 selon les hypothèses 2 et 3 et il a été montré que E(b) = β ce


qui implique E (b-β) = 0. Ces arguments sont valides pour toutes les valeurs
de α et β, de ce fait le caractère non biaisé des estimateurs des MCO est
établit. Cette absence de biais prend fin si l’une des hypothèses n’est pas
respectée. Comme on l’a montré précédemment, si l’hypothèse 4 n’est pas
respectée, alors on ne sera pas en mesure d’obtenir les estimations des
MCO. L’hypothèse 1 requiert que y et x soit linéaire avec un terme d’erreur.
Cela peut ou ne pas être vrai, mais on sait que y et x peuvent être choisi de
manière à établir une relation non linéaire. Le traitement des problèmes liés
au non respect de cette hypothèse requiert des méthodes avancées qui vont
au-delà des objectifs de ce cours.

L’hypothèse 2 sera relâchée (hypothèse sur le caractère aléatoire de


l’échantillon) pour l’analyse des séries temporaires. En ce qui concerne
l’analyse en coupe transversale, cette hypothèse peut être remise en cause
lorsque l’échantillon n’est pas représentatif de la population étudiée.
L’hypothèse sur laquelle on va mettre un accent est la troisième. Si elle n’est
pas vérifiée, c’est-à-dire que x et µ sont corrélés, les estimateurs des MCO
seront biaisés. La possibilité que x soit corrélé avec µ est presque toujours
une préoccupation dans l’analyse de régression simple avec des données non
expérimentales. L’usage d’une analyse par la régression simple lorsque µ
contient des facteurs qui affectent y qui est aussi corrélé avec x peut

17
conduire à une corrélation fortuite : c’est pour cette raison que l’on trouve
une relation entre y et x qui est en réalité due à d’autres facteurs non
observables qui affectent y et aussi se trouve être corrélé avec x. En dehors
des variables omises, il y a d’autres raisons pour x d’être corrélé avec µ dans
un modèle de régression simple. Puisque la même question se pose dans
l’analyse de régression multiple, on différera le traitement de ce problème au
chapitre 2.

1.5.2. Estimation des variances des estimateurs des MCO

Après avoir mis en évidence le caractère non biaisé des estimateurs des
MCO, il est important de savoir l’écart moyen entre b et β. La mesure de
l’étendu de la distribution de b et a avec laquelle on peut travailler
facilement est la variance ou sa racine carrée à savoir l’écart-type. Cette
variance peut être calculée en se servant des hypothèses 1 à 4. Cependant,
ses expressions pourraient être quelque peu compliquées. Pour simplifier
cela, on va ajouter une hypothèse qui est traditionnelle à une analyse en
coupe transversale. Cette hypothèse dit que la variance conditionnelle de µ
par rapport à x est constante. Cette hypothèse est connue sous le nom de
homoscédasticité ou l’hypothèse de la constance de la variance de l’erreur.

Hypothèse 5 : homoscédasticité, Var (µ/x) = σ2. Il est important de relever ici


que l’hypothèse d’homoscédasticité est différente de celle de la moyenne
conditionnelle de µ par rapport à x qui est nulle, E(µ/x) = 0. L’hypothèse 3
concerne la valeur espérée (espérance mathématique) de µ, alors que
l’hypothèse 5 concerne la variance de µ. On rappel que le caractère non
biaisé des estimateurs des MCO a été établit sans l’hypothèse
d’homoscédasticité ; qui n’a aucun rôle à jouer dans la démonstration du
caractère non biaisé de b et a. L’hypothèse 5 a été ajoutée pour simplifier les
calculs de la variance de b et a. Si l’on suppose que µ et x sont indépendant,
alors la distribution de µ étant donné x ne dépend pas de x et ainsi
E(µ/x)=E(µ)=0 et Var (µ/x)=σ2.

En effet, Var (µ/x) = E(µ2/x) – [E(µ/x)]2 et E(µ/x)=0, alors σ2 = E(µ2/x) ; ce qui


signifie que σ2 est aussi une espérance non conditionnelle de µ2. De ce fait, σ2
= E(µ2) = Var (µ) car E(µ)=0. En d’autres termes, σ2 est une variance non
conditionnelle de µ et ainsi σ2 est souvent appelé variance de l’erreur. La
racine carrée de σ2, σ est la déviation standard de l’erreur (écart-type de
l’erreur). Lorsque σ est grand, cela signifie que la distribution des variables
inobservables qui affectent y est fortement dispersée. Il est souvent utile
d’écrire les hypothèses 3 et 5 en termes de moyenne conditionnelle et de
variance conditionnelle de y comme suit :

E(y/x) = α + βx (2.41)
Var (y/x) = σ2 (2.42)

En d’autres termes l’espérance conditionnelle de y étant donné x est linéaire


en x, mais la variance de y étant donné x est une constante. Lorsque Var
(µ/x) dépend de x, on dit que le terme de l’erreur exhibe une

18
hétéroscédasticité (ou une inconstance de la variance de l’erreur). Puisque
Var (µ/x) = Var (y/x), l’hétéroscédasticité est présente lorsque Var (y/x) est
une fonction de x.

Après avoir fixé les idées sur l’hypothèse d’homoscédasticité, on peut


maintenant s’engager dans le calcul de la variance des estimateurs des
MCO. En considérant les hypothèses 1 à 5 on peut déterminer les variances
de b et a qui se présentent comme suit :

𝜎2 𝜎2
𝑉𝑎𝑟 (𝑏) = ∑𝑛
= (2.43)
𝑖=1(𝑥𝑖 −𝑥̅ )
2 𝑆𝑥2
1 𝑥̅ 2
𝑉𝑎𝑟 (𝑎) = 𝜎 2 (𝑛 + ∑2 2
) (2.44)
𝑖=1(𝑥𝑖 −𝑥̅ )

Pour démontrer la formule (2.43), on commence par l’équation (2.39) : 𝑏 =


𝛽 + (1⁄𝑆 2 ) ∑𝑛𝑖=1 𝑑𝑖 𝜇𝑖 . Puisque β est une constante, b dépend de xi, 𝑆𝑥2 et 𝑑𝑖 =
𝑥
𝑥𝑖 − 𝑥̅ . Comme les µi sont des variables aléatoires indépendantes à travers i
(par un échantillon aléatoire), la variance de la somme est la somme des
variances. En utilisant cette propriété, on a :

1 2 1 2
𝑉𝑎𝑟(𝑏) = (𝑆2 ) 𝑉𝑎𝑟(∑𝑛𝑖=1 𝑑𝑖 𝜇𝑖 ) = (𝑆2 ) (∑𝑛𝑖=1 𝑑𝑖2 𝑉𝑎𝑟(𝜇𝑖 ))
𝑥 𝑥
1 2
= (𝑆2 ) (∑𝑛𝑖=1 𝑑𝑖2 𝜎 2 ) puisque Var (µi) = σ2 pour tout i
𝑥
2 1 2 𝜎2
2 1
= 𝜎 (𝑆2 ) (∑𝑛𝑖=1 𝑑𝑖2 ) = 𝜎 2 (𝑆2 ) 𝑆𝑥2 = 𝑆2
𝑥 𝑥 𝑥

Les formules (2.43) et (2.44) sont les formules standards pour l’analyse de
régression simple. Elles sont invalides en présence de l’hétéroscédasticité.
Cela sera important lorsque l’on abordera les intervalles de confiance et les
tests d’hypothèses dans l’analyse de régression multiple. Pour plusieurs
objectifs, on va s’intéresser à la Var(b). Il est facile de résumer de quelle
manière cette variance dépend de la variance de l’erreur σ2 et de la variation
des xi à savoir 𝑆𝑥2 . D’abord, la variance de b [Var(b)] sera aussi grande que la
variance de l’erreur le sera. Cela a un sens dans la mesure où plus de
variation des variables inobservables qui affectent y rend difficile l’estimation
précise de β. Par ailleurs, on préférera une plus grande variation de la
variable indépendante dans la mesure où l’augmentation de la variation de x
implique une diminution de la variance de β.

Jusqu’ici l’analyse nous a permis d’avoir les formules des variances de b et


a. celles-ci dépendent de la variance de l’erreur qui n’est pas connue, mais
peut être estimée à partir des données. Ainsi, la détermination de Var (b) et
Var (a) est conditionnée par la détermination de la variance de l’erreur. A cet
égard, il convient de mettre un accent sur la différence entre l’erreur et le
résidu d’autant plus que cette distinction est cruciale pour la construction
d’un estimateur de σ2. L’équation (2.35) montre comment on peut écrire le
modèle de la population à partir des observations tirées d’un échantillon
aléatoire : yi = α + βxi + i, où µi est l’erreur pour l’observation i. On peut

19
également exprimer yi en fonction de ses valeurs estimées et le résidu de la
manière suivante : 𝑦𝑖 = 𝑎 + 𝑏𝑥̂𝑖 + 𝜇̂ 𝑖 . En comparant ces deux équations, on
constate que l’erreur est mise en évidence dans l’équation de la population
contenant les paramètres a et b. Les erreurs ne sont pas observables, alors
que les résidus sont calculés à partir des données.

On peut utiliser les équations (2.27) et (2.35) pour écrire les résidus comme
une fonction de l’erreur :

𝜇̂ 𝑖 = 𝑦𝑖 − 𝑎 − 𝑏𝑥 = (𝛼 + 𝛽𝑥𝑖 + 𝜇𝑖 ) − 𝑎 − 𝑏𝑥𝑖
𝜇̂ = 𝜇𝑖 − (𝑎 − 𝛼) − (𝑏 − 𝛽)𝑥𝑖 (2.45)

Bien que la valeur estimée a soit égale à α et similairement b pour β, 𝜇̂ 𝑖 n’est


pas égale à µi. La différence entre les deux doit être une valeur estimée de
zéro. Maintenant que l’on comprend la différence entre l’erreur et les résidus,
on peut revenir à l’estimation de σ2. D’abord, σ2 = E(µ2) alors un estimateur
non biaisé de σ2 est 𝑛−1 ∑𝑛𝑖=1 𝜇𝑖2 .

Malheureusement, il ne s’agit pas d’un vrai estimateur car l’erreur µ n’est


pas observable. Mais on peut estimer µi que l’on nome résidu des MCO. Si
l’on remplace l’erreur par le résidu des MCO, on a : 𝑛−1 ∑𝑛𝑖=1 𝜇̂ 𝑖2 = 𝑆𝐶𝑅⁄𝑛 − 2.
Ceci est un véritable estimateur, car il peut être calculé pour n’importe quel
échantillon de données de x et y. Cet estimateur est, cependant entaché de
biais parce qu’il ne rempli pas deux restrictions que doit satisfaire les
résidus des MCO. Ces restrictions sont données par les deux conditions de
premier ordre.

∑𝑛𝑖=1 𝜇̂ 𝑖 = 0, ∑𝑛𝑖=1 𝑥𝑖 𝜇̂ 𝑖 = 0 (2.46)

Une autre façon de voir ces restrictions est la suivante : si l’on connait n-2
résidus, on peut toujours avoir deux autres résidus en utilisant les
restrictions résultant des conditions de premier ordre (2.46). De ce fait, il y a
seulement n-2 degrés de liberté pour les résidus des MCO (à l’opposé, il y a n
degrés de liberté pour l’erreur. Si l’on remplace 𝜇̂ 𝑖 par 𝜇𝑖 dans (2.46), la
restriction ne sera plus respectée). L’estimateur non biaisé de σ2 que l’on va
utiliser est le suivant :

1
𝜎 2 = 𝑛−2 ∑𝑛𝑖=1 𝜇̂ 𝑖2 = 𝑆𝐶𝑅⁄(𝑛 − 2) (2.47)

En considérant les hypothèses 1 à 5, on peut montrer que 𝜎 2 est un


estimateur non biaisé. On peut donc écrire que : 𝐸(𝜎̂ 2 ) = 𝜎 2 . Si l’on écrit
l’équation (2.45) sous la forme des moyennes et l’on utilise le fait que la
moyenne des résidus des MCO diffère de zéro, on a :

0 = 𝜇̅ − (𝑎 − 𝛼) − (𝑏 − 𝛽)𝑥̅

20
En soustrayant cette dernière relation de (2.45) on obtient : 𝜇̂ = (𝜇𝑖 − 𝜇̅ ) −
(𝑏 − 𝛽)(𝑥𝑖 − 𝑥̅ ) . Par conséquent : 𝜇̂ 𝑖2 = (𝜇𝑖 − 𝜇̅ )2 + (𝑏 − 𝛽)2 (𝑥𝑖 − 𝑥̅ )2 − 2(𝜇𝑖 −
𝜇̅ )(𝑏 − 𝛽)(𝑥𝑖 − 𝑥̅ ). L’intégration de l’opérateur somme donne ce qui suit :

∑𝑛𝑖=1 𝜇̂ 𝑖2 = ∑𝑛𝑖=1(𝜇𝑖 − 𝜇̅ )2 + (𝑏 − 𝛽)2 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 − 2(𝑏 − 𝛽) ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝜇𝑖

L’espérance mathématique du premier terme est (n-2)σ2. Pour le second


terme c’est simplement σ2 car E[(b-β)2] = Var (b) = σ2/Sx2. Finalement, le
troisième terme peut être écrit comme suit : 2(b-β)2Sx. En prenant l’espérance
mathématique on a : 2σ2. En mettant ces trois termes ensemble, on a :

𝐸(∑𝑛𝑖=1 𝜇̂ 𝑖2 ) = (𝑛 − 1)𝜎 2 + 𝜎 2 − 2𝜎 2 = (𝑛 − 2)𝜎 2


Ainsi : 𝐸 [𝑆𝐶𝑅⁄(𝑛 − 2)] = 𝜎 2

Si 𝜎̂ 2 est intégré dans les formules de variance (2.43) et (2.44), alors on aura
des estimateurs non biaisés de Var (b) et Var (a). Enfin, on a besoin des
estimateurs des déviations standard de b et a et cela requiert une estimation
de σ. L’estimateur naturel de σ est :

𝜎̂ = √𝜎̂ 2 (2.48)

Il s’agit là de l’erreur standard de la régression. Bien que 𝜎̂ ne soit pas un


estimateur sans biais de σ. On peut montrer que c’est un bon estimateur de
σ et peut bien être utilisé. L’estimateur 𝜎̂ est intéressant puisqu’il s’agit
d’une estimation de la déviation standard des facteurs non observables qui
affectent y. On peut aussi avancer qu’il s’agit de la déviation standard de y
après que les effets de x aient été isolés. Le principal intérêt dans l’utilisation
de 𝜎̂ est d’estimer la déviation standard de a et b. Puisque Sd(b) = σ/Sx,
l’estimateur naturel de sd(b) est :

𝑆𝑒(𝑏) = 𝜎̂⁄𝑠𝑥 = 𝜎̂⁄(∑𝑛 (𝑥 2 1/2


𝑖=1 𝑖 − 𝑥̅ ) )

Il s’agit là de l’erreur standard. On note que Se(b) est peut être considéré
comme une variable aléatoire dans la mesure où 𝜎̂ varie pour les différents
échantillons. Pour un échantillon donné, Se(b) est un nombre, juste comme
b est simplement un nombre lorsqu’il est calculé à partir des données
quelconques. Similairement, Se(a) est obtenue à partir de Sd(a) en
remplaçant σ par 𝜎̂. L’erreur standard d’un estimateur donne une idée de la
précision de l’estimateur. L’erreur standard joue un rôle central dans
l’analyse de régression car il va être utilisé pour la construction des tests
statistiques et les intervalles de confiance.

1.5.3.Significativité des paramètres estimés par les MCO

L’importance du calcul des variances des paramètres estimés est de pouvoir


extraire l’écart-type et ainsi procédé au test de significativité. Ce problème

21
peut être formulé à l’aide de la théorie des tests à partir des deux hypothèses
suivantes :

Ho : β = 0
H1 : β ≠ 0

Si l’on ne retient pas l’hypothèse Ho, à un seuil α fixé, alors le paramètre b


est considéré comme étant significativement différent de 0. Le seuil le plus
communément employé est α = 0,05 (soit 5%) ; ce qui correspond à un risque
de rejeter à tort Ho de 5%.

On sait que :

𝑏−𝛽
suit une loi de student à n – 2 degré de liberté
𝜎𝑏

Sous l’hypothèse Ho, cette relation devient :

𝑏−0 𝑏
= = 𝑡𝑏∗ suit une loi de student à n – 2 degré de liberté, la distribution
𝜎𝑏 𝜎𝑏
d’échantillonnage sous Ho est représenté par le graphique suivant :

(α/2)% (α/2)%

-∞ b +∞

La règle de décision pour un seuil α = 0,05 est alors la suivante :

𝑏
Si 𝑡𝑏∗ = 𝛼
> 𝑡𝑛−2 , alors on rejette l’hypothèse Ho ; le coefficient b est alors
𝜎𝑏
significativement différent de 0 (on accepte H1 : b ≠ 0), la variable explicative
xi est donc contributive à l’explication de la variable yi.

𝑏
Si 𝑡𝑏∗ = 𝛼
< 𝑡𝑛−2 , on accepte l’hypothèse Ho, le coefficient b n’est pas
𝜎𝑏
significativement différent de 0 (on accepte b = 0) ; la variable explicative xi
n’est donc pas contributive à l’explication du phénomène que l’on cherche à
modéliser.

On peut ici constater l’importance que revêt ce test dans l’investigation


économétrique ; en effet, il permet de tester la pertinence d’une variable
explicative qui figure dans un modèle et sa contribution à l’explication du
phénomène que l’on cherche à modéliser.

22
1.6. Modèle sans terme constant

Dans des ca rares, on souhaite imposé une restriction telle que lorsque x =
0, la valeur estimée de y est 0. Il existe une relation qui permet une telle
restriction. Par exemple, si le revenu (x) est nul, alors l’impôt sur le revenu
(y) doit être nul. En plus, il y a des problèmes lorsqu’un modèle qui à
l’origine n’a pas une constante nulle est transformé en un modèle sans
constante. Formellement, on choisi une pente que l’on va appeler 𝛽̃ et une
droite d’ajustement de la forme :

𝑦̃ = 𝛽̃𝑥 (2.48)

Où les tildes sur β et y sont utilisés pour distinguer ce nouveau problème


d’estimation avec ceux qui ont été traité précédemment. La relation (2.48) est
appelée régression à travers l’origine car la droite d’ajustement (2.48) passe
par l’origine c’est-à-dire au point x=0 et 𝑦̃ = 0. Pour obtenir une estimation
de la pente de l’équation (2.48), on peut toujours utiliser la méthode des
MCO, qui dans ce cas minimise la somme des carrés des résidus.
2
∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝛽̃𝑥𝑖 ) (2.49)

Selon les conditions du premier ordre, on peut écrire :


2
∑𝑛𝑖=1 𝑥𝑖 (𝑦𝑖 − 𝛽̃𝑥𝑖 ) = 0 (2.50)

A partir de cette équation, on peut déterminer la valeur de 𝛽̃ comme suit :

∑𝑛
𝑖=1 𝑥𝑖 𝑦𝑖
𝛽̃ = ∑𝑛 2 (2.51)
𝑖=1 𝑥𝑖

On note comment 𝛽̃ peut être comparé avec la pente estimé dans le cas de
l’existence d’une constante. Les deux paramètres sont identiques si et
seulement si 𝑥̅ = 0 (voir équation 2.36 pour b). L’obtention d’une estimation
de b en utilisant une régression à travers l’origine n’est pas souvent utilisée
en pratique pour une bonne raison : si la constante α ≠ 0 alors 𝛽̃ est un
estimateur biaisé de b.

1.7. Prédiction dans le modèle de régression simple

Lorsque les coefficients du modèle ont été estimés, il est possible de calculer
une prévision à un horizon h. Soit le modèle estimé sur la période t = 1, 2, …,
n:

𝑦𝑡 = 𝑎 + 𝑏𝑥𝑡 + 𝜇𝑡

Si la valeur de la variable explicative xt est connue en n + 1 (xt+1), la prévision


est donnée par :
𝑦̂ = 𝑎 + 𝑏𝑥𝑛+1

23
Il convient de montrer que cette prévision est sans biais. L’erreur de
prévision est égale à 𝜇𝑛+1 = 𝑦𝑛+1 − 𝑦̂𝑛+1 que l’on peut écrire :

𝜇𝑛+1 = (𝛼 + 𝛽𝑥𝑛+1 + 𝜀𝑛+1 ) − (𝑎 + 𝑏𝑥𝑛+1 )


Soit 𝜇𝑛+1 = (𝛼 − 𝑎) + (𝛽 − 𝑏)𝑥𝑛+1 + 𝜀𝑛+1

En se référant aux hypothèses du modèle, on a

𝐸(𝜇𝑛+1 ) = 0

Une démonstration analogue permet d’obtenir : 𝐸(𝜇𝑛+ℎ ) = 0

La prévision sans biais est donc obtenue par l’application directe du modèle
de régression estimé. Cependant, dans la pratique, il n’est que de peu
d’utilité de connaître la prévision si on ne sait pas quel est le degré de
confiance que l’on peut lui accorder. On va donc calculer la variance de
l’erreur de prévision qui nous permet de déterminer un intervalle de
confiance bornant la prévision. La variance de l’erreur de prévision est
donnée par :

1 (𝑥𝑛+1 − 𝑥̅ )2
𝑉𝑎𝑟 (𝜇𝑛+1 ) = 𝑉𝑎𝑟 (𝑦𝑛+1 − 𝑦̂𝑛+1 ) = 𝜎̂𝜀2 [ + 𝑛 + 1]
𝑛 ∑𝑖=1(𝑥𝑡 − 𝑥̅ )2

On peut observer que, dans cette formule, la variance de l’erreur de


prévision est fonction de l’écart quadratique entre la variable exogène prévue
et la moyenne de cette même variable : plus la valeur prévue s’éloigne de
cette moyenne, plus le risque d’erreur est important. De même, on remarque
que la variance de l’erreur de prévision est une fonction inverse de la
variabilité de la série explicative.

L’hypothèse de normalité de 𝜀𝑡 permet alors de déterminer un intervalle de


confiance à (1-α)% pour la prévision :

1 (𝑥𝑛+1 − 𝑥̅ )2
𝜀𝑛+1 = 𝑦𝑛+1 − 𝑦̂𝑛+1 → 𝑁 (0, 𝜎𝜀2 [ + 𝑛 ])
𝑛 ∑𝑖=1(𝑥𝑡 − 𝑥̅ )2

𝑎+𝑏𝑥𝑛+1 −𝑦𝑛+1
Soit → 𝑡𝑛−2 (𝑠𝑡𝑢𝑑𝑒𝑛𝑡 à 𝑛 − 2 𝑑𝑑𝑖)
1 (𝑥 −𝑥̅ )2
̂𝜀 √ + 𝑛 𝑛+1
𝜎 +1
𝑛 ∑ ̅ )2
(𝑥𝑡 −𝑥
𝑖=1

𝛼⁄
2
1 (𝑥𝑛+1 − 𝑥̅ )2
𝑦𝑛+1 = 𝑦̂𝑛+1 ∓ 𝑡𝑛−2 𝜎̂𝜀 √ + 𝑛 +1
𝑛 ∑𝑖=1(𝑥𝑡 − 𝑥̅ )2

24

Vous aimerez peut-être aussi