0% ont trouvé ce document utile (0 vote)
32 vues55 pages

Modele Lineaire Module 1

Ce document présente un cours sur la régression linéaire, incluant des concepts tels que la régression linéaire simple et multiple, ainsi que des modèles log-linéaires et logistiques. Il aborde également la méthodologie de conception de questionnaires, la collecte de données et l'analyse des données avec R. Les sections incluent des hypothèses sur les variables et les erreurs, ainsi que des méthodes d'estimation des paramètres par les moindres carrés.

Transféré par

cooltuto932
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues55 pages

Modele Lineaire Module 1

Ce document présente un cours sur la régression linéaire, incluant des concepts tels que la régression linéaire simple et multiple, ainsi que des modèles log-linéaires et logistiques. Il aborde également la méthodologie de conception de questionnaires, la collecte de données et l'analyse des données avec R. Les sections incluent des hypothèses sur les variables et les erreurs, ainsi que des méthodes d'estimation des paramètres par les moindres carrés.

Transféré par

cooltuto932
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE DE KARA

Faculté des Sciences et Techniques

Chargé de Cours : Ing. BANAKINAO Wiyao


Diplômé de l’Ecole Nationale Polytechnique de Yaoundé au Cameroun
(Master - Mathématiques et Statistiques Appliquées -MASTAT)
Inspecteur et Instructeur National en sûreté de l’Aviation Civile
Note : ce polycopié est un compile de cours venant de plusieurs sources notamment :

• Cours de modèle linéaire proposé par le Pr. Ricco RAKOTOMALALA

• Cours de modèle linéaire proposé par le Pr. Romain GLELE KAKAÏ


PLAN DU COURS

PARTIE 0- INTRODUCTION

PARTIE I- REGRESSION LINAIRE SIMPLE

PARTIE I-1- TEST D’AUTOCORRELATION DES ERREURS

PARTIE II- REGRESSION LINAIRE MULTIPLE

PARTIE III- MODELE Log-LINEAIRE

PARTIE IV- MODELE LOGISTIQUE


4
5
6
7
8

Exemple :

LMSAS
9

QUELQUES IDEES SUR LES NOTIONS SUIVANTES :

* LA METHODOLOGIE DE CONCEPTION DES QUESTIONNAIRES

* LA REALISATION DES ENQUETES

* LE PROCESSUS DE COLLECTE DE DONNEES

*L'ANALYSE DES DONNEES ET APPLICATION AVEC R


Partie I

Régression Linéaire Simple

Page: 1 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


Page: 2 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53
1

Modèle de régression linéaire simple

1.1 Modèle et hypothèses

1.1.1 Régression linéaire simple

Nous cherchons à mettre en avant une relation de dépendance entre les variables Y et X . Y est celle
que l'on cherche à expliquer (à prédire), on parle de variable endogène (dépendante) ; X est la variable
explicative (prédictive), on parle de variable exogène (indépendante).
Le modèle de régression linéaire simple s'écrit :

yi = a × xi + b + εi (1.1)

a et b sont les paramètres (les coecients) du modèle. Dans le cas spécique de la régression simple,
a est la pente, b est la constante.
Nous disposons d'un échantillon de n observations i.i.d (indépendantes et identiquement distribuées)
pour estimer ces paramètres.

Le terme aléatoire ε, que l'on appelle l'erreur du modèle, tient un rôle très important dans la
régression. Il permet de résumer toute l'information qui n'est pas prise en compte dans la relation linéaire
que l'on cherche à établir entre Y et X c.-à-d. les problèmes de spécications, l'approximation par la
linéarité, résumer le rôle des variables explicatives absentes, etc. Comme nous le verrons plus bas, les
propriétés des estimateurs reposent en grande partie sur les hypothèses que nous formulerons à propos
de ε. En pratique, après avoir estimé les paramètres de la régression, les premières vérications portent
sur l'erreur calculée sur les données (on parle de "résidus") lors de la modélisation [13] (Chapitre 1).

Exemple - Rendement de maïs et quantité d'engrais. Dans cet exemple tiré de l'ouvrage de Bourbonnais
(page 12), nous disposons de n = 10 observations (Figure 1.1) 1 . On cherche à expliquer Y le rendement
en maïs (en quintal) de parcelles de terrain, à partir de X la quantité d'engrais (en kg) que l'on y a
épandu. L'objectif est de modéliser le lien à travers une relation linéaire. Bien évidemment, si l'on ne

1. regression_simple_rendements_agricoles.xlsx - "data"

Page: 3 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
13
met pas d'engrais du tout, il sera quand même possible d'obtenir du maïs, c'est le sens de la constante
b de la régression. Sa valeur devrait être positive. Ensuite, plus on mettra de l'engrais, meilleur sera le
rendement. On suppute que cette relation est linéaire, d'où l'expression a × x, on imagine à l'avance que
a devrait être positif.

Fig. 1.1. Tableau de données "Rendements Agricoles" - Bourbonnais, page 12

Le graphique nuage de points associant X et Y semble conrmer cette première analyse (Figure 1.2) 2 .
Dans le cas contraire où les coecients estimés contredisent les valeurs attendues (b ou/et a sont négatifs),
cela voudrait dire que nous avons une perception faussée du problème, ou bien que les données utilisées
ne sont pas représentatives du phénomène que l'on cherche à mettre en exergue, ou bien... On entre alors
dans une démarche itérative qui peut durer un moment avant d'obtenir le modèle dénitif 3 . C'est le
processus de modélisation.

Fig. 1.2. Graphique nuage de points "Rendements Agricoles" - Bourbonnais, page 12

2. regression_simple_rendements_agricoles.xlsx - "data"
3. Voir l'excellent site du NIST  http://www.itl.nist.gov/div898/handbook/pmd/pmd.htm  au sujet du
processus de modélisation : les terminologies utilisées, les principales étapes, la lecture des résultats. Avec des
études de cas complètes.

Page: 4 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1.2 Principe de l'ajustement des moindres carrés
14
1.1.2 Hypothèses

Ces hypothèses pèsent sur les propriétés des estimateurs (biais, convergence) et l'inférence statistique
(distribution des coecients estimés).

H1  Hypothèses sur Y et X . X et Y sont des grandeurs numériques mesurées sans erreur. X est une
donnée exogène dans le modèle. Elle est supposée non aléatoire. Y est aléatoire par l'intermédiaire
de ε c.-à-d. la seule erreur que l'on a sur Y provient des insusances de X à expliquer ses valeurs
dans le modèle.
H2  Hypothèses sur le terme aléatoire ε. Les εi sont i.i.d (indépendants et identiquement distribués).
H2.a  E(εi ) = 0, en moyenne les erreurs s'annulent c.-à-d. le modèle est bien spécié.
H2.b  V (εi ) = σε2 , la variance de l'erreur est constante et ne dépend pas de l'observation. C'est
l'hypothèse d'homoscédasticité.
H2.c  En particulier, l'erreur est indépendante de la variable exogène c.-à-d. COV (xi , εi ) = 0
H2.d  Indépendance des erreurs. Les erreurs relatives à 2 observations sont indépendantes c.-à-d.
COV (εi , εj ) = 0. On parle de "non auto-corrélation des erreurs".
Remarque : Cette hypothèse est toujours respectée pour les coupes transversales. En eet
l'échantillon est censé construit de manière aléatoire et les observations i.i.d. Nous pouvons donc
intervertir aléatoirement les lignes sans porter atteinte à l'intégrité des données. En revanche,
la question se pose pour les données temporelles. Il y a une contrainte qui s'impose à nous
(contrainte temporelle - les données sont ordonnées) dans le recueil des données.
H2.e  εi ≡ N (0, σε ). L'hypothèse de normalité des erreurs est un élément clé pour l'inférence
statistique.

1.2 Principe de l'ajustement des moindres carrés

1.2.1 Estimateur des moindres carrés ordinaires (MCO)

Notre objectif est de déterminer les valeurs de a et b en utilisant les informations apportées par
l'échantillon. Nous voulons que l'estimation soit la meilleure possible c.-à-d. la droite de régression doit
approcher au mieux le nuage de points.
Si graphiquement, la solution semble intuitive. Il nous faut un critère numérique qui réponde à cette
spécication pour réaliser les calculs sur un échantillon de données.

Le critère des moindres carrés consiste à minimiser la somme des carrés des écarts (des erreurs)
entre les vraies valeurs de Y et les valeurs prédites avec le modèle de prédiction (Figure 1.3). L'estimateur
des moindres carrées ordinaires (MCO) des paramètres a et b doit donc répondre à la minimisation de

Page: 5 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
15

Fig. 1.3. Comptabilisation de l'erreur : écart entre Y observé et Y prédit par le modèle linéaire


n
S= ε2i
i=1

n
= [yi − (axi + b)]2
i=1

n
= [yi − axi − b]2
i=1

Pour déterminer les valeurs de a et b, les conditions suivantes sont nécessaires :



 ∂S = 0
∂a
 ∂S = 0
∂b

En appliquant ces dérivées partielles, nous obtenons les équations normales (Giraud et Chaix, page
25 ; Bourbonnais, page 21 ; Johnston et DiNardo, page 22) :

 ∑ x y − a ∑ x2 − b ∑ x = 0
i i i i i i i
(1.2)
 ȳ − ax̄ − b = 0

Que l'on retrouve également sous la forme suivante dans la littérature (Tenenhaus, page 70).

∑ x ε = 0
i i i
(1.3)
 ∑ εi = 0
i

En appelant â et b̂ les solutions de ces équations normales, nous obtenons les estimateurs des
moindres carrés :
∑n
(y − ȳ)(xi − x̄)
∑n i
â = i=1 (1.4)
i=1 (xi − x̄)
2

b̂ = ȳ − âx̄ (1.5)

Détail des calculs

Quelques pistes pour obtenir ces résultats. Voyons tout d'abord la dérivée partielle ∂S
∂b

Page: 6 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1.2 Principe de l'ajustement des moindres carrés
16
∂S
=0
∑ ∂b
2(−1)(yi − axi − b) = 0
i
∑ ∑
−2[ yi − a xi − n × b] = 0
i i

En multipliant le tout par − n2 , nous avons :

b = ȳ − ax̄

Occupons-nous maintenant de ∂S
∂a

∂S ∑
= 2(−xi )(yi − axi − b) = 0
∂a i

En introduisant le résultat relatif à b ci-dessus, nous obtenons :


∑n
(y − ȳ)(xi − x̄)
a = i=1 ∑n i
i=1 (xi − x̄)
2

1.2.2 Calculs pour les données "Rendements agricoles"

Revenons à notre exemple des "Rendements agricoles" (Figure 1.1). Nous montons la feuille Excel
permettant de réaliser les calculs (Figure 1.4) 4 .

Fig. 1.4. Estimation des coecients "Rendements agricoles" - Feuille de calcul Excel

Voici les principales étapes :

 Nous calculons les moyennes des variables, ȳ = 26.1 et x̄ = 30.4.


 Nous formons alors les valeurs de (yi − ȳ), (xi − x̄), (yi − ȳ) × (xi − x̄) et (xi − x̄)2 .
∑ ∑
 Nous réalisons les sommes i (yi − ȳ) × (xi − x̄) = 351.6 et i (xi − x̄)2 = 492.4.

4. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"

Page: 7 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
17
 Nous déduisons enn les estimations :
∑n
(y − ȳ)(xi − x̄) 351.6
â = i=1∑n i = = 0.7141
(x
i=1 i − x̄) 2 492.4
b̂ = ȳ − âx̄ = 26.1 − 0.7141 × 30.4 = 4.3928

La droite de régression peut être représentée dans le graphique nuage de points. Nous avons utilisé
l'outil "Courbe de tendance" d'Excel (Figure 1.5) 5 .

Fig. 1.5. Droite de régression - "Rendements agricoles"

Nous constatons que la droite passe peu ou prou au milieu du nuage de points. Mais nous ne saurions
pas dire dans quelle mesure notre modélisation est susamment intéressante. La simple évaluation visuelle
ne sut pas. La seule manière d'obtenir une réponse rigoureuse est de produire un critère quantitatif que
l'on saura interpréter. Nous nous pencherons sur cette question dans la section consacrée à l'évaluation
du modèle (section 1.3).

1.2.3 Quelques remarques

Autre écriture de l'estimateur de la pente. Il y a une relation directe entre l'estimateur de la


pente et le coecient de corrélation linéaire de Pearson ryx .
∑n
(y − ȳ)(xi − x̄)
â = i=1∑n i
i=1 (xi − x̄)
2

\(Y, X)
COV
= 2
σ̂X
σ̂Y
= ryx ×
σ̂X

De fait, nous le verrons dans la partie inférentielle, tester la signicativité de la pente revient à tester
la signicativité de la corrélation entre Y et X .

5. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"

Page: 8 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1.3 Décomposition de la variance et coecient de détermination
18
Erreur et résidu. ε est l'erreur inconnue introduite dans la spécication du modèle. Nous avons
alors estimé les paramètres â et b̂ à partir de l'échantillon et nous appuyant sur le principe des moindres
carrés. Nous pouvons obtenir la valeur prédite de l'endogène Y pour l'individu i avec

ŷi = ŷ(xi )
= â × xi + b̂

On peut en déduire l'erreur observée, appelée "résidu" de la régression

ε̂i = yi − ŷi (1.6)

La distinction "erreur vs. résidu" est importante car, comme nous le verrons par la suite, les expressions
de leurs variances ne sont pas les mêmes.

Toujours concernant le résidu, notons une information importante :



ε̂i = 0 (1.7)
i

La somme (et donc la moyenne) des résidus est nulle dans une régression avec constante. En eet :
∑ ∑
ε̂i = [yi − (âxi + b̂)]
i i

= nȳ − nâx̄ − nb̂


= nȳ − nâx̄ − n × (ȳ − âx̄)
=0

Centre de gravité du nuage de points. La droite de régression avec constante passe forcément
par le centre de gravité du nuage de points. Pour le vérier simplement, réalisons la projection pour le
point x̄ :

ŷ(x̄) = âx̄ + b̂
= âx̄ + (ȳ − âx̄)
= ȳ

Dans notre exemple des "Rendements agricoles", nous constatons eectivement que la droite passe le
point G(x, y) de coordonnées (x̄ = 30.4, ȳ = 26.1) (Figure 1.6).

1.3 Décomposition de la variance et coecient de détermination

1.3.1 Décomposition de la variance - Équation d'analyse de variance

L'objectif est de construire des estimateurs qui minimisent la somme des carrés des résidus

Page: 9 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
19

Fig. 1.6. La droite de régression passe par le barycentre - "Rendements agricoles"


SCR = ε̂2i
i

= (yi − ŷi )2
i

Lorsque la prédiction est parfaite, tout naturellement SCR = 0. Mais dans d'autre cas, qu'est-ce
qu'une bonne régression ? A partir de quelle valeur de SCR peut-on dire que la régression est mauvaise ?

Pour répondre à cette question, il faut pouvoir comparer la SCR avec une valeur de référence. Pour
cela, nous allons décomposer la variance de Y .

On appelle somme des carrés totaux (SCT) la quantité suivante :



SCT = (yi − ȳ)2
i

= (yi − ŷi + ŷi + ȳ)2
i
∑ ∑ ∑
= (ŷi − ȳ)2 + (yi − ŷi )2 + 2 (ŷi − ȳ)(yi − ŷi )
i i i

Dans la régression avec constante, et uniquement dans ce cas, on montre que



2 (ŷi − ȳ)(yi − ŷi ) = 0
i

En s'appuyant sur deux éléments :


1∑
ŷ¯ = (âxi + b̂)
n i
1 ∑
= [â xi + n × b̂]
n i

= âȳ + b̂
= ȳ

et
∂S ∑
= 2(−xi )(yi − axi − b) = 0
∂a i

Page: 10 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1.3 Décomposition de la variance et coecient de détermination 11

On obtient dès lors l'équation d'analyse de variance :

SCT = SCE + SCR (1.8)


∑ ∑ ∑
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2 (1.9)
i i i

Comment interpréter ces quantités ?

 SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y c.-à-d. l'information
disponible dans les données.
 SCE est la somme des carrés expliqués. Elle indique la variabilité expliquée par le modèle c.-à-d.
la variation de Y expliquée par X .
 SCR est somme des carrés résiduels. Elle indique la variabilité non-expliquée (résiduelle) par le
modèle c.-à-d. l'écart entre les valeurs observées de Y et celles prédites par le modèle.

Deux situations extrêmes peuvent survenir :

 Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont complètement
expliquées par celles de X . On a un modèle parfait, la droite de régression passe exactement par
tous les points du nuage(ŷi = yi ).
 Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y . Ainsi, ŷi = ȳ , la meilleure
prédiction de Y est sa propre moyenne.

A partir de ces informations, nous pouvons produire une première version du tableau d'analyse de
variance (Tableau 1.1). La version complète nous permettra de mener le test de signicativité globale
de la régression comme nous le verrons plus loin (section 3.1).

Source de variation Somme des carrés



Expliquée SCE = i (ŷi − ȳ)2

Résiduelle SCR = i (yi − ŷi )2

Totale SCT = i (yi − ȳ)2

Tableau 1.1. Tableau simplié d'analyse de variance

1.3.2 Coecient de détermination

Il est possible de déduire un indicateur synthétique à partir de l'équation d'analyse de variance. C'est
le coecient de détermination R2 .
SCE SCR
R2 = =1− (1.10)
SCT SCT

Il indique la proportion de variance de Y expliquée par le modèle.

Page: 11 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
21
 Plus il sera proche de la valeur 1, meilleur sera le modèle, la connaissance des valeurs de X permet
de deviner avec précision celle de Y .
 Lorsque R2 est proche de 0, cela veut dire que X n'apporte pas d'informations utiles (intéressantes)
sur Y , la connaissance des valeurs de X ne nous dit rien sur celles de Y .

Remarque 1 (Une autre lecture du coecient de détermination.). Il existe une lecture moins usuelle, mais
non moins intéressante, du coecient de détermination.

On dénit le modèle par défaut comme la régression qui n'utilise pas X pour prédire les valeurs de Y
c.-à-d. le modèle composé uniquement de la constante.

yi = b + εi (1.11)

On montre très facilement dans ce cas que l'estimateur des MCO de la constante est

b̂ = ȳ (1.12)

Dès lors, on peut considérer que R2 confronte la prédiction du modèle s'appuyant sur X (ŷi = â×xi +b̂)
avec le pire modèle possible, celui qui n'utilise pas l'information procurée par X c.-à-d. basée uniquement
sur Y (ŷi = ȳ ).

Par construction, dans la régression avec constante, on sait que SCR ≤ SCT , le coecient de déter-
mination nous indique donc dans quelle mesure X permet d'améliorer nos connaissances sur Y .

Cette lecture nous permet de mieux comprendre les pseudo-R2 calculés dans des domaines connexes
telles que la régression logistique [14] (Section 1.6) où l'on confronte la vraisemblance du modèle complet
(ou le taux d'erreur), incluant toutes les exogènes, avec celle du modèle réduit à la constante.

1.3.3 Coecient de corrélation linéaire multiple

Le coecient de corrélation linéaire multiple est la racine carrée du coecient de détermination.



R= R2 (1.13)

Dans le cas de la régression simple (et uniquement dans ce cas), on montre aisément qu'il est égal au
coecient de corrélation ryx entre Y et X. Son signe est déni par la pente â de la régression.

ryx = signe(â) × R (1.14)

La démonstration est relativement simple.

Page: 12 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1.3 Décomposition de la variance et coecient de détermination
22
σ̂x2
2
ryx = â2 ×
σ̂y2

â2 i (xi − x̄)2
= ∑
i (yi − ȳ)
2

[(âxi + b̂) − (âx̄ + b̂)]2
= i ∑
i (yi − ȳ)
2

(ŷi − ȳ)2
= ∑i
i (yi − ȳ)
2

SCE
=
SCT
= R2

1.3.4 L'exemple des rendements agricoles

Nous nous appuyons sur les coecients estimés précédemment (section 1.2.2), à savoir â = 0.71405
et b̂ = 4.39277 pour construire la colonne des valeurs prédites ŷi , en déduire le résidu ε̂i et nalement
obtenir les sommes des carrés. Le tableau de calcul est organisé comme suit (Figure 1.7) 6 :

Fig. 1.7. Décomposition de la variance - "Rendements agricoles"

 Nous calculons ŷi . Par exemple, pour le 1er individu : ŷ1 = â × x1 + b̂ = 0.71405 × 20 + 4.39277 =
18.674.
 Sur la colonne suivante, nous en déduisons le résidu ε̂i (ex. ε̂1 = y1 − ŷ1 = 16 − 18.674 = −2.674).
 Pour obtenir la SCT, nous réalisons la somme des (yi − ȳi ) passées au carré : SCT = (16 − 26.1)2 +
· · · = 102.010 + · · · = 314.900
 Pour la SCE, nous sommons (ŷi − ȳ)2 c.-a-d. SCE = (18.674−26.1)2 +· · · = 55.148+· · · = 251.061
 Nous pouvons obtenir la SCR par diérence, en faisant SCR = SCT −SCE = 314.900−251.061 =
63.839.

6. regression_simple_rendements_agricoles.xlsx - "reg.simple.decomp.variance"

Page: 13 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


1 Modèle de régression linéaire simple
23
 Nous pouvons aussi la former explicitement en sommant les (yi − ŷi )2 , soit SCR = (16−18.674)2 +
· · · = 7.149 + · · · = 63.839. Les deux résultats coïncident, il ne peut pas en être autrement (dans
la régression avec constante tout du moins).

Le coecient de détermination est obtenu avec sa forme usuelle (Équation 1.10) :

SCE 251.061
R2 = = = 0.797273
SCT 314.900

Puis, le coecient de corrélation linéaire multiple



R= 0.797273 = 0.892901

â = 0.71405 étant positif, on vériera aisément dans notre exemple que ce dernier est identique au
coecient de corrélation de Pearson entre Y et X :

R = ryx = 0.892901

Page: 14 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2

Propriétés des estimateurs

Ce chapitre est assez théorique. Sa lecture n'est pas nécessaire pour la compréhension de la mise en
pratique de la régression linéaire. J'invite donc les lecteurs surtout intéressés par les aspects opérationnels
à se reporter au chapitre suivant (chapitre 3).
Ce chapitre est essentiel en revanche pour la compréhension des propriétés des estimateurs des MCO. Il
permet notamment de circonscrire les hypothèses qui conditionnent leur ecacité. Sa lecture est conseillée
pour ceux qui s'intéressent à ces aspects théoriques.
Pour les étudiants de la licence L3-IDS, vous devez lire ce chapitre !

Deux propriétés importantes sont mises en avant dans l'évaluation d'un estimateur. (1) Est-ce qu'il
est sans biais c.-à-d. est-ce qu'en moyenne nous obtenons la vraie valeur du paramètre ? (2) Est-ce qu'il
est convergent c.-à-d. à mesure que la taille de l'échantillon augmente, l'estimation devient de plus en
plus précise ?

2.1 Biais

On dit que θ̂ est un estimateur sans biais de θ si E[θ̂] = θ.

Comment procéder à cette vérication pour â et b̂ ?

Voyons ce qu'il en est pour â. Il y a deux étapes principalement dans la démonstration : dans un
premier temps, il faut exprimer â en fonction de a ; dans un deuxième temps, en passant à l'espérance
mathématique, il faut souhaiter que tout ce qui ne dépend pas de a devienne nul, au besoin en s'appuyant
sur quelques hypothèses  pour le coup bien commodes  énoncées en préambule de notre présentation
(section 1.1).

Nous reprenons ici la démarche que l'on retrouve dans la plupart des références citées en bibliographie
(Bourbonnais, page 24 pour la régression simple ; Giraud et Chaix, page 25, qui a servi de base pour les
calculs ci-dessous ; Labrousse, page 24 pour la régression multiple ; Dodge et Rousson, page 25).

Page: 15 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2 Propriétés des estimateurs
25
Soit yi = axi + b + εi , nous pouvons calculer :
1∑ 1∑ 1 1∑
yi = a( xi ) + (nb) + εi
n i n i n n i
ȳ = ax̄ + bε̄

Formons la diérence 
 y = ax + b + ε
i i i

 ȳ = ax̄ + b + ε̄

yi − ȳ = a(xi − x̄) + (εi − ε̄)

Rappelons que ∑
i (x − x̄)(yi − ȳ)
â = ∑i
i (xi − x̄)
2

Ainsi

− x̄)[a(xi − x̄) + (εi − ε̄)]
i (xi
â = ∑
i (xi − x̄)
2
∑ ∑
a i (xi − x̄)2 + i (xi − x̄)(εi − ε̄)
= ∑
i (xi − x̄)
2

(xi − x̄)(εi − ε̄)
= a + i∑
i (xi − x̄)
2


On montre facilement que ε̄ i (xi − x̄) = 0, nous obtenons ainsi

(xi − x̄)εi
â = a + ∑i (2.1)
i (xi − x̄)
2

Il nous reste à démontrer que la partie après l'addition est nulle en passant à l'espérance mathématique.
Nous devrons introduire les hypothèses adéquates pour ce faire.
[∑ ]
(xi − x̄)εi
E(â) = E(a) + E ∑i
i (xi − x̄)
2
[ ]
∑ (xi − x̄)
= a+E ∑ ε
2 i
i j (xj − x̄)

Pour simplier les écritures, posons


(xi − x̄)
ωi = ∑
j (xj − x̄)
2

Nous avons : [ ]

E(â) = a + E ωi εi
i

La variable exogène X n'est pas stochastique par hypothèse. Donc



E(â) = a + ωi × E(εi )
i

Autre hypothèse, E(εi ) = 0. A la sortie nous obtenons

Page: 16 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2.2 Variance - Convergence
26
E(â) = a

Conclusion. L'estimateur des moindres carrés ordinaires (EMCO) est sans biais, si et seulement si
les deux hypothèses suivantes sont respectées :
1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ;
2. (H2.a) E(εi ) = 0, l'espérance de l'erreur est nulle.

Concernant la constante

De manière analogue, en partant de b̂ = b + ε̄ − (â − a)x̄, on montre sous les mêmes hypothèses que

E(b̂) = b

2.2 Variance - Convergence

Un petit rappel : Un estimateur θ̂ sans biais de θ est convergent si et seulement si

V (θ̂) −→ 0 (2.2)
n→∞

Nous devons donc d'abord produire une expression de la variance de l'estimateur, et montrer qu'il
tend vers 0 quand l'eectif n tend vers ∞.

2.2.1 Variance de la pente

La variance est dénie de la manière suivante :

V (â) = E[(â − a)2 ]

Or, dans la section précédente, nous avons montré que l'estimateur pouvait s'écrire

â = a + ωi εi
i

Exploitons cela
( )2 

V (â) = E  ωi εi 
i
[ ]
∑ ∑
=E ωi2 ε2i +2 ωi ωi′ εi εi′
i i<i′
∑ ∑
= ωi2 E(ε2i ) + 2 ωi ωi′ E (εi εi′ )
i i<i′

Or, par hypothèse :

Page: 17 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2 Propriétés des estimateurs
27
1. (H2.b) E(ε2i ) = V (εi ) = σε2 , la variance de l'erreur est constante. C'est l'hypothèse d'homoscédas-
ticité.

2. (H2.d) COV (εi′ εi ) = E(εi′ εi ) = 0. Les erreurs sont deux à deux indépendantes. C'est l'hypothèse
de non-autocorrélation des erreurs.

A la sortie, nous pouvons simplier grandement l'expression de la variance :



V (â) = σε2 ωi2
i

Sachant que le terme ωi correspond à

xi − x̄
ωi = ∑
j (xj − x̄)
2

la somme de ces termes au carré devient


[ ]2
∑ ∑ xi − x̄
ωi2 = ∑
j (xj − x̄)
2
i i
1 ∑
= (∑ )2 (xi − x̄)2
j (xj − x̄)
2 i

1
= ∑
j (xj − x̄)2

A la sortie, nous avons la variance de l'estimation de la pente

σε2
V (â) = ∑ (2.3)
i (xi − x̄)
2

2.2.2 Convergence de la pente

Qu'en est-il de la convergence alors ?

Nous observons que :

 σε2 est une valeur qui ne dépend pas de n, c'est la variance de l'erreur dénie dans la population.

 En revanche, lorsque n → ∞, on constate facilement que i (xi − x̄)2 → ∞. En eet, c'est une
somme de valeurs toutes positives ou nulles.

Nous pouvons donc armer que â est un estimateur convergent de a, parce que

V (â) −→ 0 (2.4)
n→∞

Conclusion. Récapitulons tout ça. Nous avons introduit plusieurs hypothèses pour montrer la conver-
gence de l'estimateur de la pente :

1. (H2.b) E(ε2i ) = V (εi ) = σε2 . C'est l'hypothèse d'homoscédasticité.

2. (H2.d) COV (εi′ εi ) = E(εi′ εi ) = 0. C'est l'hypothèse de non-autocorrélation des erreurs.

Page: 18 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2.2 Variance - Convergence
28
2.2.3 Variance et convergence de la constante

En suivant la même démarche, nous pouvons produire l'expression de la variance de l'estimateur de


la constante : [ ]
1 x̄2
V (b̂) = σε2 +∑ (2.5)
i (xi − x̄)
n 2

b̂ est convergent, aux mêmes conditions (hypothèses) que l'estimateur de la pente.

2.2.4 Quelques remarques sur la précision des estimateurs

En scrutant un peu les formules de la variance produites dans les sections précédentes, nous remar-
quons plusieurs éléments. Les estimateurs seront d'autant plus précis, les variances seront d'autant plus
petites, que :

 La variance de l'erreur est faible c.-à-d. la régression est de bonne qualité.


 La dispersion des X est forte c.-à-d. les points recouvrent bien l'espace de représentation.
 Le nombre d'observations n est élevé.

Nous pouvons illustrer cela à l'aide de quelques graphiques caractérisant les diérentes situations
(Figure 2.1).

Fig. 2.1. Quelques situations caractéristiques - Inuence sur la variance de la pente

Page: 19 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


2 Propriétés des estimateurs
29
2.3 Théorème de Gauss-Markov

Les estimateurs des MCO de la régression sont sans biais et convergents. On peut même aller plus
loin et prouver que parmi les estimateurs linéaires sans biais de la régression, les estimateurs MCO sont à
variance minimale c.-à-d. il n'existe pas d'autres estimateurs linéaires sans biais présentant une plus petite
variance. Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
ecaces (pour les démonstrations montrant qu'il est impossible d'obtenir des variances plus faibles, voir
Johnston, page 27 et pages 40-41 ; Labrousse, page 26).

Page: 20 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3

Inférence statistique

3.1 Évaluation globale de la régression

Nous avions mis en avant la décomposition de la variance et le coecient de détermination R2 pour


évaluer la qualité de l'ajustement (section 1.3). Le R2 indiquait dans quelle proportion la variabilité de
Y pouvait être expliquée par X . En revanche, il ne répond pas à la question : est-ce que la régression est
globalement signicative ? En d'autres termes, est-ce que les X (il n'y en a qu'un seul pour l'instant dans
la régression simple) emmènent signicativement de l'information sur Y , représentative d'une relation
linéaire réelle dans la population, et qui va au-delà des simples uctuations d'échantillonnage ?

Un autre point de vue est de considérer le test d'évaluation globale comme un test de signicativité du
R : dans quelle mesure s'écarte-t-il réellement de la valeur 0 ? On a des réticences à le présenter ainsi dans
2

la littérature francophone car le R2 n'est pas un paramètre de la population estimée sur l'échantillon ; on
a moins de scrupules dans la littérature anglo-saxonne (cf. par exemple D. Garson, Multiple Regression,
http://faculty.chass.ncsu.edu/garson/PA765/regress.htm#significance  "...The F test is used
to test the signicance of R, which is the same as testing the signicance of R2, which is the same as
testing the signicance of the regression model as a whole... ; ou encore D. Mc Lane, HyperStat Online
Contents, http://davidmlane.com/hyperstat/B142546.html  ...The following formula (le test F) is
used to test whether an R2 calculated in a sample is signicantly dierent from zero...) 1 .

Quoiqu'il en soit, l'hypothèse nulle correspond bien à l'absence de liaison linéaire entre l'endogène et
les exogènes.

3.1.1 Tableau d'analyse de Variance - Test de signicativité globale

Pour répondre à cette question, nous allons étendre l'étude de la décomposition de la variance en
complétant le tableau d'analyse de variance par les degrés de liberté (Tableau 3.1).

Page: 21 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3 Inférence statistique
31
Source de variation Somme des carrés Degrés de liberté Carrés moyens

Expliquée SCE = i (ŷi − ȳ)2 1 CM E = SCE1

Résiduelle SCR = i (yi − ŷi ) 2
n−2 SCR
CM R = n−2

Totale SCT = i (yi − ȳ) 2
n−1 -

Tableau 3.1. Tableau d'analyse de variance pour la régression simple

Un petit mot sur les degrés de liberté, on peut les voir de diérentes manières. La dénition la
plus accessible est de les comprendre comme le nombre de termes impliqués dans les sommes (le nombre
d'observations) moins le nombre de paramètres estimés dans cette somme (Dodge et Rousson, page 41).
Ainsi :

 Nous avons besoin de l'estimation de la moyenne ȳ pour calculer la somme SCT.


 Nous avons besoin des coecients estimés â et b̂ pour obtenir la projection ŷi et former la SCR.
 Concernant la SCE, le plus simple est de l'obtenir par déduction c.-à-d. (n − 1) − (n − 2) = 1.

Pour tester la signicativité globale de la régression, nous nous basons sur la statistique F,
SCE
CM E
F = = 1
SCR
(3.1)
CM R n−2

Interprétation. Cette statistique indique si la variance expliquée est signicativement supérieure à


la variance résiduelle. Dans ce cas, on peut considérer que l'explication emmenée par la régression traduit
une relation qui existe réellement dans la population (Bourbonnais, page 34).

Écriture à partir du coecient de détermination. D'aucuns considèrent le test F comme un


test de signicativité du coecient de détermination, on peut le comprendre dans la mesure où il peut
s'écrire en fonction du R2

R2
F = 1
(1−R2 )
(3.2)
n−2

Distribution sous H0. Sous H0, SCE est distribué selon un χ2 (1) et SCR selon un χ2 (n − 2), de
fait pour F nous avons

χ2 (1)
F ≡ 1
χ2 (n−2)
≡ F(1, n − 2) (3.3)
n−2

Sous H0, F est donc distribué selon une loi de Fisher à (1, n − 2) degrés de liberté.

La région critique du test, correspondant au rejet de H0, au risque α est dénie pour les valeurs
anormalement élevées de F c.-à-d.

Page: 22 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3.1 Évaluation globale de la régression
32

R.C. : F > F1−α (1, n − 2) (3.4)

Décision à partir de la p-value. Dans la plupart des logiciels de statistique, on fournit directe-
ment la probabilité critique (p-value) α ′ , elle correspond à la probabilité que la loi de Fisher dépasse la
statistique calculée F.

Ainsi, la règle de décision au risque α devient :

R.C. : α ′ < α (3.5)

3.1.2 Exemple : les rendements agricoles

Revenons à notre exemple des rendements agricoles. Nous complétons notre feuille de calcul précédente
(Figure 1.7) de manière à mettre en exergue le tableau d'analyse de variance complet et le test F de
signicativité globale (Figure 3.1) 2 .

Fig. 3.1. Tableau d'analyse de variance et Test de signicativité globale - "Rendements agricoles"

Voici le détail des calculs :

 Nous avions expliqué précédemment l'obtention des SCT, SCE et SCR (section 1.3.4).
 Nous réorganisons les valeurs pour construire le tableau d'analyse de variance. Nous en déduisons
les carrés moyens expliqués CM E = SCE
1 = 251.061
1 = 251.061 et les carrés moyens résiduels
SCR 63.839
CM R = n−2 = 10−2 = 7.980
2. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.global"

Page: 23 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3 Inférence statistique
33
 Nous en déduisons la statistique de test F = CM E
CM R = 251.061
7.980 = 31.462
 Que nous comparons au quantile d'ordre (1 − α) de la loi F(1, n − 2). Pour α = 5%, elle est
égale 3 à F0.95 (1, 8) = 5.318. Nous concluons que le modèle est globalement signicatif au risque
5%. La relation linéaire entre Y et X est représentatif d'un phénomène existant réellement dans
la population.
 En passant par la probabilité critique, nous avons 4 α ′ ≈ 0.00050, inférieure à α = 5%. La conclu-
sion est la même. Il ne peut pas y avoir de contradictions entre ces deux visions de toute manière.

3.2 Distribution des coecients estimés

Pour étudier les coecients estimés, il importe d'en calculer les paramètres (l'espérance et la variance
essentiellement) et de déterminer la loi de distribution. Nous pourrons dès lors mettre en oeuvre les outils
usuels de la statistique inférentielle : la dénition des intervalles de variation à un niveau de conance
donné ; la mise en place des tests d'hypothèses, notamment les tests de signicativité.

3.2.1 Distribution de â et b̂

Dans un premier temps, concentrons-nous sur la pente de la régresion. Rappelons que â est égal à
∑n
(y − ȳ)(xi − x̄)
â = i=1∑n i
i=1 (xi − x̄)
2

X est non stochastique, Y l'est par l'intermédiaire du terme d'erreur ε. Nous introduisons l'hypothèse
selon laquelle :
εi ≡ N (0, σε )

De fait, yi = axi + b + εi suit aussi une loi normale, et â étant une combinaison linéaire des yi , il vient
â − a
≡ N (0, 1) (3.6)
σâ

Rappelons que la variance de â s'écrit (section 2.2) :

σε2
σâ2 = ∑ (3.7)
i (xi − x̄)
2

Ce résultat est très intéressant mais n'est pas utilisable en l'état, tout simplement parce que nous ne
disposons pas de l'estimation de la variance de l'erreur σε2 . Pour obtenir une estimation calculable sur un
échantillon de données de l'écart-type σ̂â du coecient â, nous devons produire une estimation de l'écart
type de l'erreur σ̂ε . La variance estimée s'écrirait alors

σ̂ε2
σ̂â2 = ∑ (3.8)
i (xi − x̄)
2

3. INVERSE.LOI.F(0.05 ;1 ;8) dans Excel


4. LOI.F(31.462 ;1 ;8) dans Excel.

Page: 24 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3.2 Distribution des coecients estimés
34
La suite logique de notre exposé consiste donc à proposer une estimation sans biais de la variance de
l'erreur σε2 .

Le cas de la constante. La situation est identique pour ce qui est de l'estimation de la constante b̂.
Nous avons :
b̂ − b
≡ N (0, 1) (3.9)
σb̂

Avec pour variance de b̂ (section 2.2) :


[ ]
1 x̄2
σb̂2 = σε2 +∑
i (xi − x̄)
n 2

De nouveau, si nous souhaitons obtenir son estimation c.-à-d. mettre un chapeau sur le σ de b̂ comme
j'ai coutume de le dire en cours, il faut mettre un chapeau sur le σ de ε. C'est ce que nous faisons dans
la section suivante.

3.2.2 Estimation de la variance de l'erreur

Estimateur sans biais de la variance de l'erreur

Le résidus ε̂i est l'erreur observée, on peut la ré-écrire de la manière suivante :

ε̂i = yi − ŷi
= axi + b + εi − (âxi + b̂)
= εi − (â − a)xi − (b̂ − b)

Remarque 2 (Espérance des résidus). On note au passage que l'espérance du résidu est nulle (E[ε̂i ] = 0)
si les estimateurs sont sans biais.

On montre que (Giraud et Chaix, page 31) :


[ ]

E ε̂i = (n − 2)σε2
2
(3.10)
i

On propose comme estimateur sans biais de la variance de l'erreur :


∑ 2
ε̂ SCR
σ̂ε2 = i i = (3.11)
n−2 n−2

Quelques commentaires :
 Au numérateur, nous avons la somme des carrés des résidus. Nous l'obtenons facilement comme
nous avons pu le constater dans notre exemple des "Rendements agricoles".
 Au dénominateur, nous avons les degrés de liberté de la régression. La valeur 2 dans (n − 2)
représente le nombre de paramètres estimés. De fait, la généralisation de cette formule au cadre
de la régression linéaire multiple avec p variables exogènes ne pose aucun problème. Le nombre de
degrés de liberté sera n − (p + 1) = n − p − 1.

Page: 25 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


35 3 Inférence statistique
Distribution de l'estimation de la variance de l'erreur

Il nous faut connaître la distribution de l'estimation de la variance de l'erreur pour pouvoir déterminer
la distribution des coecients estimés lorsque nous introduirons σ̂ε2 dans les expressions de leur variance.

On sait par hypothèse que εi


σε ≡ N (0, 1). Comme ε̂i est une réalisation de εi , il vient

ε̂i
≡ N (0, 1) (3.12)
σε

En passant au carré, nous avons un χ2 (1). Il ne nous reste plus qu'à former la somme des termes :

∑ ( ε̂i )2 ∑ 2
i ε̂i
= ≡ χ2 (n − 2) (3.13)
i
σε σε2

Ou, de manière équivalente, en se référant à l'estimateur de la variance de l'erreur (Équation 3.11) :

σ̂ε2 χ2 (n − 2)
≡ (3.14)
σε2 n−2

Nous pouvons maintenant revenir sur la distribution des coecients calculés lorsque toutes ses com-
posantes sont estimées à partir des données.

3.2.3 Distribution des coecients dans la pratique

Voyons dans un premier temps la pente, la transposition à la constante ne pose aucun problème.

Avec les équations 3.7 et 3.8, nous pouvons écrire :

σ̂â2 σ̂ 2
2 = ε2
σâ σε

En reprenant l'équation 3.14, nous déduisons :

σ̂â2 σ̂ε2 χ2 (n − 2)
= ≡ (3.15)
σâ2 σε2 n−2

De fait, la distribution réellement exploitable pour l'inférence statistique est la loi de Student à (n − 2)
degrés de liberté.
â − a
≡ T (n − 2) (3.16)
σ̂â

Comment ?

N'oublions pas que la loi de Student est dénie par un rapport entre une loi normale et la racine
carrée d'un loi du χ2 normalisée par ses degrés de liberté. Ainsi,

Page: 26 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3.3 Étude de la pente de la droite de régression
36
â−a
σâ N (0, 1)
σ̂â
≡ √ 2
χ (n−2)
σâ
n−2
â − a
≡ T (n − 2)
σ̂â

De manière complètement analogue, pour la constante estimée b̂

b̂ − b
≡ T (n − 2) (3.17)
σ̂b̂

Nous disposons maintenant de tous les éléments pour analyser les paramètres estimés de la régression.

3.3 Étude de la pente de la droite de régression

3.3.1 Test de signicativité de la pente

Le test de signicativité de la pente consiste à vérier l'inuence réelle de l'exogène X sur l'endogène
Y . Les hypothèses à confronter s'écrivent :

H : a = 0
0
 H1 : a ̸= 0

Nous formons la statistique de test



tâ = (3.18)
σ̂â

Elle suit une loi de Student à (n − 2) degrés de liberté. La région critique (de rejet de H0) au risque
α s'écrit :
R.C. : |tâ | > t1− α2 (3.19)

Où t1− α2 est le quantile d'ordre (1 − α2 ) de la loi de Student. Il s'agit d'un test bilatéral.

Test de signicativité de la pente pour les "Rendements agricoles"

Testons la signicativité de la pente pour la régression sur les "Rendements agricoles". Nous construi-
sons la feuille Excel pour les calculs intermédiaires (Figure 3.2) 5 :

 Nous calculons les projections pour chaque individu de l'échantillon. Pour le 1er individu, nous
avons ŷ1 = â × x1 + b̂ = 0.71405 × 20 + 4.39277 = 18.674.
 Nous en déduisons le résidu (ex. ε̂1 = y1 − ŷ1 = 16 − 18.674 = −2.674), que nous passons au carré
(ex. ε̂21 = (−2.674)2 = 7.149).

 Nous réalisons la somme des résidus au carré, soit SCR = 2
i ε̂i = 7.149 + · · · = 63.839
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.pente"

Page: 27 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3 Inférence statistique
37

Fig. 3.2. Calculs intermédiaires pour les tests relatifs à la pente - "Rendements agricoles"

A ce stade, nous obtenons l'estimation de la variance de l'erreur, soit

SCR 63.839
σ̂ε2 = = = 7.980
n−2 8

L'écart-type estimé de l'erreur correspond à la racine carrée, il est bien de le préciser car de nombreux
logiciels (la fonction DROITEREG d'Excel par exemple) l'achent plutôt que la variance.

σ̂ε = 7.980 = 2.825

Pour obtenir l'estimation de l'écart-type de la pente, nous avons besoin de la somme des écarts à la

moyenne au carré des X c.-à-d. i (xi − x̄)2 = (20 − 30.4)2 + · · · = 108.16 + · · · = 492.4. Nous avons
alors :

σ̂ε2
σ̂â = ∑
i (xi − x̄)
2

7.980
=
492.4

= 0.01621
= 0.12730

Nous formons la statistique de test

â 0.71405
tâ = = = 5.60909
σ̂â 0.12730

Au risque α = 5%, le seuil critique pour la loi de Student à (n − 2) degrés de liberté pour un test bila-
téral 6 est t1− α2 = 2.30600. Puisque |5.60909| > 2.30600, nous concluons que la pente est signicativement
non nulle au risque 5%.

6. LOI.STUDENT.INVERSE(0.05 ;8) sous Excel. Attention, la fonction renvoie directement le quantile pour
un test bilatéral !

Page: 28 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3.3 Étude de la pente de la droite de régression
38
Si nous étions passés par le calcul de la p-value, nous aurions obtenu 7 ′ ′
α = 0.00050. Puisque α < α,
nous rejetons de même l'hypothèse nulle.

3.3.2 Test de conformité à un standard

Nous pouvons aller plus loin que le simple test de signicativité. En eet, la distribution de â (section
3.2.3, équation 3.16) est valable sur tout le domaine de dénition de a et non pas seulement dans le voi-
sinage (a = 0). Ainsi, nous pouvons dénir tout type de test de conformité à un standard, où l'hypothèse
nulle s'écrirait H0 : a = c ; c étant une valeur de référence quelconque.

Exemple sur les "Rendements agricoles"

On souhaite mettre en oeuvre le test d'hypothèses suivant pour les "Rendements agricoles"

 H : a = 0.5
0
 H1 : a > 0.5

Il s'agit d'un test de conformité à un standard unilatéral. La région critique au risque α du test s'écrit

â − 0.5
R.C. : > t1−α
σ̂â

Voyons ce qu'il en est sur nos données,

â − 0.5 0.71405 − 0.5


= = 1.68145
σ̂â 0.12730

A comparer avec t0.95 (8) = 1.85955 pour un test à 5% 8 . Nous sommes dans la région d'acceptation
c.-à-d. nous ne pouvons pas rejeter l'hypothèse nulle. La valeur du paramètre a n'est pas signicativement
supérieur à la référence 0.5 au risque 5%.

3.3.3 Intervalle de conance

Toujours parce que la distribution de â est dénie sur tout l'intervalle de dénition de a, nous pouvons
construire des intervalles de variation (ou intervalle de conance) au niveau de conance (1 − α).

Elle est dénie par


â ± t1− α2 × σ̂â (3.20)

7. LOI.STUDENT(ABS(5.60909) ;8 ;2) sous Excel. Le paramètre 2 pour spécier que nous souhaitons obtenir
la p-value pour un test bilatéral.
8. Attention, comme il s'agit d'un test unilatéral, le seuil critique est modié par rapport à l'exemple du test
de signicativité précédent.

Page: 29 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


3 Inférence statistique
39
Exemple sur les "Rendements agricoles"

Reprenons la pente du chier "Rendements agricoles". Nous disposons de toutes les informations
nécessaires pour produire l'intervalle de conance au niveau 95% :
[ ]
â − t1− α2 × σ̂â ; â + t1− α2 × σ̂â
[0.71405 − 2.30600 × 0.12730 ; 0.71405 + 2.30600 × 0.12730]
[0.42049 ; 1.00761]

Le résultat est cohérent avec le test de signicativité de la pente, l'intervalle de conance ne contient
pas la valeur 0.

3.4 Intervalle de conance de la droite de régression

Les coecients formant le modèle sont entachées d'incertitude, il est normal que la droite de régression
le soit également. L'objectif dans cette section est de produire un intervalle de conance de la droite de
régression (Bressoux, page 76).

Pour formaliser cela, n'oublions pas que notre objectif est de modéliser au mieux les valeurs de Y en
fonction des valeurs prises par X c.-à-d. µY /X = E[Y /X]. Dans la régression linéaire, on fait l'hypothèse
que la relation est linéaire
µY /X = a × X + b (3.21)

C'est pour cette raison que dans la plupart des ouvrages, on présente les résultats décrits dans cette
section comme le calcul de l'intervalle de conance de la prédiction de la moyenne de Y conditionnellement
X (Dodge et Rousson, page 34 ; Johnston et DiNardo, page 36 ; Tenenhaus, page 92). Mais il s'agit bien
de l'intervalle de conance de ce que l'on a modélisé avec la droite, à ne pas confondre avec l'intervalle
de conance d'une prédiction lorsque l'on fourni la valeur xi∗ pour un nouvel individu i∗ n'appartenant
pas à l'échantillon.

J'avoue que pendant longtemps, cette distinction ne me paraissait pas très claire. Je ne voyais pas
très bien quelle était la diérence entre l'intervalle de conance de la prédiction l'espérance de Y sachant
X et la prédiction ponctuelle de Y . Dans les deux cas, nous avions la même valeur ponctuelle calculée
â × xi + b̂. Le passage de l'un à l'autre dans Jonhston et DiNardo  livre que j'avais beaucoup lu quand
j'étais étudiant  pages 35 et 36, formules (1.67) et (1.68), est particulièrement périlleux.

Bref, la terminologie "intervalle de conance de la droite de régression" (Bressoux, page 76) me sied
mieux.

Pour un individu donné, nous obtenons l'estimation de sa moyenne conditionnelle :

µ̂Y /xi = â × xi + b̂ (3.22)

Page: 30 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


Partie II

Régression Linéaire Multiple

Page: 83 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


Page: 84 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53
4

Régression linéaire multiple

4.1. Formulation- Hypothèse


La régression linéaire multiple est la généralisation multivariée de la régression simple. Nous cherchons
à expliquer les valeurs prises par la variable endogène Y à l'aide de p variables exogènes Xj , (j = 1, . . . , p).
L'équation de régression s'écrit :

yi = a0 + a1 xi,1 + · · · + ap xi,p + ϵi
(4.1)

Nous devons estimer les valeurs des (p + 1) paramètres (a0 , a1 , . . . , ap ) à partir d'un échantillon de n
observations. Nous remarquons dans le modèle (Équation 9.1) :

 i = 1, . . . , n correspond au numéro des observations ;


 yi est la i-ème observation de la variable Y ;
 xi,j est la i-ème observation de la j-ème variable ;
 εi est l'erreur du modèle, il résume les informations manquantes qui permettrait d'expliquer linéai-
rement les valeurs de Y à l'aide des p variables Xj (ex. problème de spécication, valeurs exogènes
manquantes, etc.).

Les étapes processus de modélisation sont les suivantes (Tenenhaus, pages 104 et 105) :
1. Estimer les valeurs des coecients (a0 , a1 , . . . , ap ) à partir d'un échantillon de données (estimateur
des moindres carrés ordinaires).

2. Évaluer la précision de ces estimations (biais, variance des estimateurs).

3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d'analyse de variance, coecient
de détermination).

4. Tester la réalité de la relation entre Y et les exogènes Xj (test de signicativité globale de la


régression).

5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de signica-
tivité de chaque coecient).

Page: 85 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


43
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de signicativité
simultanée d'un groupe de coecient).

7. Pour un nouvel individu i∗ pour lequel on fournit la description (xi∗,1 , . . . , xi∗,p ), calculer la valeur
prédite ŷi∗ et la fourchette de prédiction.

8. Interpréter les résultats en mettant en avant notamment l'impact des exogènes sur l'endogène
(interprétation des coecients, analyse structurelle).

La modélisation est un processus itératif. Lorsqu'on essaie réellement d'approfondir, on se rend


compte que le processus de modélisation est très complexe. Il nécessite parfois plusieurs aller-retour pour
vérier la validité des résultats que l'on essaie d'établir. Quelques outils de diagnostic de la régression
sont décrits dans un second support en ligne [13]. Y sont étudiés notamment :

 L'étude des résidus, graphiquement mais aussi numériquement avec les tests de normalité, les tests
du caractère aléatoire des erreurs.
 La détection des points aberrants et inuents, ces points qui peuvent peser de manière indue sur
les résultats de la régression.
 Les problèmes de colinéarité et la sélection de variables.
 Les ruptures de structure c.-à-d. la vérication de l'existence de plusieurs sous-populations dans
les données, avec des relations de nature diérente entre les exogènes et l'endogène (ex. le lien
entre le poids et la taille n'est pas le même chez les hommes et chez les femmes).
 Les problèmes de non linéarité que nous avons commencé à aborder dans la partie consacrée à la
régression simple.

Lecture des coecients. Chaque coecient se lit comme un propension marginale : ∂y


∂xj = aj .

Mais, à la diérence de la régression linéaire simple, on prend en compte le rôle des autres variables lors
de son calcul. On dit alors que c'est un coecient partiel : il indique l'impact de la variable en contrôlant
l'eet des autres variables, c'est la fameux "toutes choses égales par ailleurs". Nous approfondirons cette
notion dans un chapitre dédié à l'interprétation des coecients (chapitre 13).

Enn, l'eet des variables est additif c.-à-d. toutes les autres étant constantes, si xj et xj ′ sont tous
deux augmentés d'une unité, alors y est augmenté (aj + aj ′ ).

Régression sans constante. Les remarques émises concernant le modèle sans constante dans la
régression simple (section 7.2) restent valables. Il faut faire attention aux degrés de liberté puisque nous
n'estimons plus que p paramètres. Le coecient de détermination R2 n'est plus interprétable en termes
de proportion de variance expliquée.

Page: 86 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


44

4.2 Notationmatricielle
Pour simplier les notations,on retrouvesouventune écriturematricielledu modèle dans la littérature

(Equation 4. 2).
Y = Xa + ε
(4.2)

Les dimensions des matrices sont respectivement :

 Y → (n, 1)
 X → (n, p + 1)
 a → (p + 1, 1)
 ε → (n, 1)

La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exogènes, avec une
première colonne formée par la valeur 1 indiquant que l'on intègre la constante a0 dans l'équation.
 
1 x1,1 · · · x1,p
 
1 x2,1 · · · x2,p 
 
X = . 
 .. 
 
1 xn,1 · · · xn,p

4.3 Hypthèses

Comme pour la régression simple, les hypothèses permettront de déterminer les propriétés des es-
timateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coecientpris
individuellement, loi de Fisher dès que l'on traite un groupe de coecients).

Nous distinguons: :
 Les hypothèses stochastiques
H1  Les Xj sont non aléatoires c.-à-d. les xi,j sont observés sans erreur.
H2  E[εi ] = 0, l'espérance de l'erreur est nulle. En moyenne, le modèle est bien spécié.
H3  E[ε2i ] = σε2 , la variance de l'erreur est constante, c'est l'hypothèse de homoscédasticité.
H4 ̸ i′ , les erreurs sont indépendantes, c'est l'hypothèse de non-
 COV (εi , εi′ ) = 0 pour i =
autocorrélation des résidus.
H5  COV (xi,j , εi ) = 0, l'erreur est indépendante des variables exogènes.
H6  εi ≡ N (0, σε ), les erreurs sont distribués selon une loi normale.
 Les hypothèses structurelles
H7  La matrice (X ′ X) est régulière c.-à-d. det(X ′ X) ≠ 0 et (X ′ X)−1 existe. Elle indique l'ab-
sence de colinéarité entre les exogènes. Nous pouvons aussi voir cette hypothèse sous l'angle
rang(X) = p + 1 et rang(X ′ X) = p + 1.
H8  (X ′ X)
n tend vers une matrice nie non singulière lorsque n → +∞.

Page: 87 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


45 Régressionlinéaire multiple

H9 n > p + 1, le nombre d'observationsest supérieur au nombre de paramètresà estimer. Dans

le cas où n = p + 1, nous avons un interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (X ′ X) n'est plus inversible.

4.4 Ajustement des moindres carrés ordinaires ( MCO)

4.4.1 Minimisation de la somme des carrés des erreurs


Comme pour la régression simple, on cherche les coecients qui permettent de minimiser la quantité
suivante

n
S= ε2i
(4.3)
i=1

où ε2i = [yi − (a0 + a1 xi,1 + · · · + ap xi,p ]2

On passe de nouveau par les dérivées partielles que l'on annule pour obtenir les (p + 1) équations
normales.
  ∑

 ∂S
= 0 
 −2 i εi = 0

 ∂a 0 

.. .
. ⇔ ..

 


 ∂S = 0  −2 ∑ x × ε = 0

∂ap i i,p i


 a0 + a1 x̄1 + · · · + ap x̄p = ȳ


.
⇔ ..


a ∑ x + a ∑ x x + ··· + a ∑ x x = x y

0 i i,p 1 i i,1 i,p p i i,p i,p i,p i

Nous avons (p + 1) équations à (p + 1) inconnues. Nous pouvons en extraire les estimations

(â0, â1, . . . , âp). Mais cetteécritureest dicileà manipuler.Passonsaux matrices.

4.4.2 Écriturematricielle

Avec l'écriture matricielle, nous pouvons produire une écriture condensée. Soit ε le vecteur des erreurs,
avec ε′ = (ε1 , . . . , εn ). La somme des carrés des erreurs devient

S= ε2i = ε′ ε
i

Développons l'expression

ε′ ε = (Y − Xa)′ (Y − Xa)
= Y ′ Y − Y ′ Xa − a′ X ′ Y + a′ X ′ Xa
= Y ′ Y − 2a′ X ′ Y + a′ X ′ Xa
S = Y ′ Y − 2a′ X ′ Y + a′ X ′ Xa

Page: 88 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


9.4 Ajustement des moindres carrés ordinaires (MCO)
46
Quelques éléments sur les calculs matriciels pour comprendre les développements ci-dessus :
 (Xa)′ = a′ X ′
 (Y ′ Xa)′ = a′ X ′ Y
 La transposée d'un scalaire est égal à lui même. Or en se référant aux dimensions des vecteurs et
matrice, on constate que (a′ X ′ Y ) est de dimension (1, 1), un scalaire.

Pour déterminer le minimum de S , nous réalisons la dérivation matricielle que nous annulons (La-
brousse, page 22) :
∂S
= −2(X ′ Y ) + 2(X ′ X)a = 0
∂a
(X ′ X)a = X ′ Y

L'estimateur des moindres carrés ordinaires (MCO) des coecients du modèle s'écrit :

â = (X ′ X)−1 X ′ Y
(4.4)

4.4.3 Un exemple: consommation des véhicules


Nous reprenons l'exemple que nous décrivons dans un de nos supports [13]. Il s'agit d'expliquer la
consommation des véhicules (en L/100 km) à partir de p = 3 variables exogènes : la cylindrée (taille du
moteur, en cm3 ), la puissance (en kw) et le poids (en kg). Par rapport au chier original, nous avons
éliminé les 3 points atypiques qui posaient problèmes. Nous disposons donc de n = 28 observations.

Nous avons élaboré une feuille Excel qui reconstitue tous les calculs intermédiaires permettant d'ob-
tenir le vecteur â (Figure 9.1) 1 :
 Nous distinguons les valeurs des exogènes (X1 , X2 , X3 ), et celles de l'endogène Y .
 Nous accolons au tableau des exogènes une colonne de constante, avec la valeur 1. Nous obtenons
ainsi la matrice X .  
1 846 32 650
 
1 993 39 790 
 
X = . 
 .. 
 
1 2473 125 1570
 Nous pouvons élaborer la matrice (X ′ X), avec
 
28 50654 2176 33515
 
 .. 
(X ′ X) =  . 
 
33515 65113780 2831550 42694125
∑28
Nous devrions obtenir n = i=1 1 × 1 = 28 dans la première cellule de la matrice. C'est le cas.
 Nous inversons cette matrice pour obtenir (X ′ X)−1 (attention, certains chires de la matrice sont
en notation scientique dans la gure 9.1).
1. reg_multiple_consommation_automobiles.xlsx - "EMCO"

Page: 89 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


47 4 Régressionlinéaire multiple

Fig. 4.1. Calculsmatriciels- Consommationdes véhicules

 Ensuite, nous calculons la matrice des produits croisés entre X et Y , soit (X ′ Y ), nous avons
 
254.1
 
493218.1
′  
(X Y ) =  
 21473.7 
 
321404.5

 Enn, il ne nous reste plus qu'à calculer â = (X ′ X)−1 (X ′ Y ). Nous obtenons les estimations des
paramètres de la régression    
â0 1.7020
   
â  0.0005
 1  
â =   =  
â2  0.0183
   
â3 0.042
Les coecients sont dans l'ordre des colonnes de la matrice X .
 Le modèle s'écrit

CON SO = 1.7020 + 0.0005 × cylindree + 0.0183 × puissance + 0.042 × poids

Toutes les variables semblent jouer positivement sur la consommation c.-à-d. lorsque la cylindrée,
la puissance ou le poids augmentent, la consommation a tendance à augmenter.

Page: 90 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


4 Ajustementdes moindres carrés ordinaires(MCO) 48

4.4.4 Quelques remarques sur les matrices


Les matrices (X ′ X)−1 et (X ′ Y ) qui entrent dans la composition de â peuvent être interprétées d'une
manière qui nous éclaire sur l'inuence des variables dans l'estimation.

Matrice (X ′ X)

Chaque case de la matrice (X ′ X), de dimension (p+, 1, p + 1), est formée par la somme du produit
croisé entre les exogènes, en eet :
 ∑ ∑ 
n i xi,1 ··· i xi,p
∑ ∑ 2 ∑ 
 ··· 
′  i xi,1 i xi,1 i xi,1 xi,p 
(X X) =  . 
 .. 
 
∑ ∑ ∑ 2
i xi,p i xi,1 xi,p · · · i xi,p

(X ′ X) est une matrice symétrique. Elle indique le degré de liaison entre les exogènes.

Matrice (X ′ Y )

Chaque case du vecteur (X ′ Y ), de dimension (p + 1, 1), est composée du produit croisé entre les
exogènes et l'endogène.
 ∑ 
i yi
∑ 
 
′  i xi,1 yi 
(X X) =  .. 
 . 
 

x y
i i,p i

Le vecteur indique le degré de liaison entre chaque exogène et Y .

Ainsi le coecient associé à une variable explicative sera d'autant plus élevée en valeur absolue,
relativement aux autres (nonobstant les disparités dues aux unités de mesures), qu'elle est fortement liée
avec l'endogène et, dans le même temps, faiblement liée avec les autres exogènes.

Cas des variables centrées

Lorsque les variables sont centrées, nous retrouvons des concepts que nous connaissons bien. Soient

ẋi,j = xi,j − x̄j


ẏi = yi − ȳ

les variables centrées. Alors les matrices

Page: 91 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


49
1 ′
(Ẋ Ẋ) = cov(Xj , Xj ′ )
n
1 ′
(Ẋ Ẏ ) = cov(Xj , Y )
n

représentent respectivement la matrice des variances covariances des exogènes, et le vecteur des cova-
riances entre les exogènes et l'endogène.

Cas des variables centrées et réduites

De la même manière, lorsque les variables sont centrées et réduites c.à-d.

cr xi,j − x̄j
xi,j =
σxj
cr yi − ȳ
yi =
σy

Les matrices

1 cr ′ cr
(X X ) = r(Xj , Xj ′ )
n
1 cr ′ cr
(X Y ) = r(Xj , Y )
n

représentent respectivementles corrélations croisées entre les Xj et les corrélations des Xj avec Y .

4.5 Propriétés des estimateurs


De nouveau, cette section est surtout intéressante pour les férus de théorie. Sa lecture n'est pas pri-
mordiale si vous êtes avant tout intéressés par la mise en oeuvre de la régression sur des problèmes réels.
A l'attention des étudiants de la Licence IDS : vous par contre, vous devez bien la lire, en détail même,
et comprendre si possible. Désolé.

Deux questions reviennent toujours lorsque l'on souhaite étudier les propriétés d'un estimateur : est-il
sans biais ? est-il convergent ?

Nous allons directement à l'essentiel dans cette partie. Le détail de la démarche a déjà été exposé
dans le cadre de la régression simple (chapitre2).

4.5.1 Biais

L'estimateur â est sans biais si E(â) = a. Voyons à quelles conditions cette propriété est respectée.

Développons â :

Page: 92 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


4.5 Propriétésdes estimateurs
50
′ −1 ′
â = (X X) XY
= (X ′ X)−1 X ′ (Xa + ε)
= (X ′ X)−1 X ′ Xa + (X ′ X)−1 X ′ ε
â = a + X ′ X)−1 X ′ ε

Ainsi, en passant à l'espérance mathématique :

E(â) = a + E[(X ′ X)−1 X ′ ε]

On sait que X est non aléatoire, nous avons E[(X ′ X)−1 X ′ ε] = (X ′ X)−1 X ′ E(ε) ; de plus E(ε) = 0
par hypothèse. Au nal, nous avons bien

E(â) = a

L'estimateur des MCO est sans biais sous les deux hypothèses suivantes (section 9.3) : (H1) X
est non aléatoire,les exogènes sont mesurées sans erreur ; (H2) la moyenne de l'erreurest nulle E(ε) = 0.

4.5.2 Variance- Convergence

Soit Ωâ , de dimension (p + 1, p + 1) la matrice de variance covariance des coecients c.-à-d.


 
V (â0 ) COV (â0 , â1 ) · · · COV (â0 , âp )
 
 ··· V (â1 ) · · · COV (â1 , âp )
 
Ωâ =  . 
 .. 
 
··· ··· ··· V (âp )

La matrice est symétrique, sur la diagonale principale nous observons les variances des coecients
estimés.

Comment obtenir cette matrice ?

Elle est dénie de la manière suivante

Ωâ = E[(â − a)(â − a)′ ]

Or

â − a = (X ′ X)−1 X ′ ε
(â − a)′ = ε′ X[(X ′ X)−1 ]′
= ε′ X(X ′ X)−1 car (X′ X)−1 est symetrique

Ainsi
(â − a)(â − a)′ = (X ′ X)−1 X ′ εε′ X(X ′ X)−1

En passant à l'espérance mathématique, et sachant que les X sont non-stochastiques (H1),

Page: 93 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


51
E[(â − a)(â − a)′ ] = (X ′ X)−1 X ′ E[εε′ ]X(X ′ X)−1

La quantité E[εε′ ], de dimension (n, n), représente la matrice de variance covariance des erreurs, en
voici le détail  
E(ε21 ) E(ε1 ε2 ) · · · E(ε1 εn )
 
 . 
E[εε′ ] =  .. 
 
··· ··· · · · E(εn )
2

Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothèse (section 9.3), (H3) la variance de l'erreur est constante V (εi ) = E(ε2i ) = σε2 et,
(H4) leurs covariances nulles COV (εi , εi′ ) = 0. De fait,

E[εε′ ] = σε2 I

Où I est la matrice unité de dimension (n, n).

La matrice de variance covariance des estimateurs s'en retrouve grandement simpliée. En eet,

E[(â − a)(â − a)′ ] = (X ′ X)−1 X ′ E[εε′ ]X(X ′ X)−1


= σε2 (X ′ X)−1 X ′ IX(X ′ X)−1
= σε2 (X ′ X)−1 X ′ X(X ′ X)−1
= σε2 (X ′ X)−1

Nous trouvons ainsi la matrice de variance covariance des coecients estimés :

Ωâ = σε2 (X ′ X)−1


(4.5)

On montre qu'une condition nécessaire et susante pour que â soit un estimateur convergent de a
est que les variables exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'inni, autrement
dit que l'hypothèse (H8 reste valable lorsque n tend vers l'inni. (Giraud et Chaix, page 65 ; que l'on
retrouve sous des formes plus ou moins analogues chez Bourbonnais,page 53, et Labrousse,page 26).

4.5.3 L'estimateur des MCO est BLUE


Théorème de Gauss-Markov. Exactement comme pour la régression simple, on montre pour la
régression multiple qu'il n'existe pas d'estimateurs sans biais avec une variance plus faible que celle
des moindres carrés ordinaires (Labrousse, page 26). Les estimateurs des MCO sont BLUE (best linear
unbiased estimator ).

Page: 94 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


4.6 Estimationde la variancede l'erreur 52

4.6 Estimation de la variance de l'erreur

4.6.1 Estimation
de la variance de l'erreur
L'expression de la variance covariance des coecients estimés (Équation 9.5) est très jolie mais inuti-
lisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur σ̂ε2 .

Par analogie avec la régression simple (section 3.2.2), nous la comprenons comme le rapport entre la
somme des carrés des résidus (SCR) et le nombre de degrés de liberté de la régression, soit le nombre
d'observations moins le nombre de paramètres estimés : [n − (p + 1) = n − p − 1]. Ainsi, nous écrirons
∑ 2
2 SCR i ε̂i
σ̂ε = =
n−p−1 n−p−1 (4.6)

Où ε̂i est le résidu de la régression pour l'observation no i.

Le lecteur désireux d'approfondir la question, notamment le détail de la démarche, trouvera une


démonstration plus rigoureuse dans les ouvrages listés en bibliographie (Labrousse, pages 28 à 33 ; Dodge
et Rousson, pages 65 à 67 ; Giraud et Chaix, pages 67 à 69 ; etc.).

4.6.2 Estimation de la matrice de variance covariance des coecients


Disposant maintenant d'une estimation de la variance de l'erreur, nous pouvons produire une estima-
tion de la matrice de variance covariance des coecients estimés.

Ω̂â = σ̂ε2 (X ′ X)−1


(4.7)

Sur la diagonale principale de cette matrice, nous disposons de l'estimation de la variance


des coecients et, en passant à la racine carrée, de leur écart-type. Leur rôle sera très important
dans l'inférence statistique.

4.6.3 Détails des calculs pourles données "Consommation des véhicules"


Nous reprenons notre exemple des véhicules (section 4.4.3). Nous avons reconstruit la feuille de calcul de
manière à obtenir les éléments nécessaires à l'estimation de la variance de l'erreur et de la matrice de

variance covariance des coecients estimés (Figure 4.2) 2.


Nous reprenons des résultats précédents (Figure 9.1) la matrice (X ′ X)−1 et les coecients estimés â.
Nous formons alors :

 La valeur prédite de l'endogène ŷi pour chaque individu (ex. ŷ1 = 1.070205 + 0.00049 × 846 +
0.01825 × 32 + 0.00423 × 650 = 5.4523).
 Le résidu ε̂i = yi − ŷi (ex. ε̂1 = y1 − ŷ1 = 5.7 − 5.4523 = 0.2477.

2. reg_multiple_consommation_automobiles.xlsx - "variance erreur"

Page: 95 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


53

Fig. 9.2. Estimation de la variance de l'erreur et des coecients estimés - Consommation des véhicules

 Que nous passons au carré ε̂2i (ex. ε̂21 = (0.2477)2 = 0.0613).


∑ ∑
 Nous sommons pour obtenir la SCR = i ε̂2i (dans notre exemple, SCR = i ε̂2i = 0.0613 +
0.1978 + · · · = 13.5807).
 L'estimation de la variance de l'erreur s'écrit

SCR 13.5807
σ̂ε2 = = = 0.56586
n−p−1 28 − 3 − 1
 L'estimation de son écart-type en est déduite, valeur souvent automatiquement retournée par les
logiciels de statistique

σ̂ε = 0.56586 = 0.75224

 Reste la dernière multiplication pour obtenir l'estimation de la matrice de variance covariance des
coecients :
Ω̂â = σ̂ε2 (X ′ X)−1

Elle est forcément symétrique parce que la covariance est un opérateur symétrique.

Comme nous l'avons souligné précédemment, nous disposons sur la diagonale de cette matrice de
l'estimation de la variance des coecients. Dans notre exemple,


 σ̂â20 = 0.399490226



 σ̂ 2 = 6.0783 × 10−7
â1

 σ̂â22 = 0.00020279



 σ̂ 2 = 8.7595 × 10−7
â3

Page: 96 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


54
En passant à la racine carrée, nous avons l'estimation de l'écart-type, valeurs directement fournies
par la majorité des logiciels de statistique. C'est pour cette raison que nous avons aché les σ̂âj à côté
des estimations âj dans notre feuille Excel (Figure 9.2). Nous les retrouverons souvent sous cette forme
dans les sorties des logiciels que nous analyserons au chapitre 15.


 σ̂â0 = 0.63205



 σ̂ = 0.00078
â1

 σ̂â2 = 0.01424



 σ̂ = 0.00094
â3

4. 6.4 Résultats fournis par la fonction DROITEREG


Il est temps de voir un peu ce que nous propose la fonction DROITEREG d'Excel en matière de
régression linéaire multiple. Elle sait gérer un nombre d'exogènes supérieur à 1. Il faut simplement que
les colonnes des données soient contiguës dans la feuille de calcul. Il ne faut pas intégrer la colonne de
constante parmi les exogènes. Une option nous permet de spécier si nous souhaitons ou pas la constante
a0 dans la régression. Dans la plage de résultats, nous sélectionnons donc (p + 1 = 4) colonnes pour
notre régression, et 5 lignes pour qu'Excel puisse intégrer les informationnelles additionnelles permettant
d'analyser les résultats.

Dans l'exemple que nous reproduisons ici (Figure 9.3) 3 , nous avons inséré la commande DROITE-
REG(F3 :F30 ;B3 :D30 ;1 ;1). Le première paramètre correspond à la colonne de valeurs de Y ; le second
au(x) colonne(s) de X ; le troisième paramètre indique que nous réalisons une régression avec constante
(0 si nous souhaitons une régression sans constante) ; et le dernier indique que l'on souhaite obtenir des
informations additionnelles en plus des coecients estimés (0 dans le cas contraire).

Fig. 4.3. Comparaisonestimationmanuelle et DROITEREG d'Excel- Consommationdes véhicules

Mettons en parallèleles résultatsde DROITEREGavec ceux calculés manuellementavec les fonctions

matriciellesd'Excel(Figure 4.3) :
3. reg_multiple_consommation_automobiles.xlsx - "variance erreur (droitereg)"

Page: 97 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53


55 4 Régressionlinéaire multiple
 Sur la première ligne, nous observons les coecients estimés â. La constante est toujours en
dernière position à droite. En revanche, les coecients associés aux variables sont dans l'ordre
inverse des colonnes des données. Bon, on ne voit pas trop où est la logique. Il faudra s'en souve-
nir tout simplement. Dans notre tableau de valeurs (Figure 9.2), nous avons de gauche à droite
(cylindree, puissance, poids). Dans le tableau fourni par DROITEREG, nous avons de gauche à
droite les coecients associés à (poids, puissance, cylindree).
 Mis à part cette petite incongruité, nous constatons que les coecients sont les bons, (â0 =
1.70205, âcylindree = 0.00049, âpuissance = 0.01825, âpoids = 0.00423).
 Sur la seconde ligne, nous avons les écart-types estimés des coecients. En prenant en compte
le décalage, nous constatons que les valeurs coïncident avec l'estimation à l'aide des fonctions
matricielles d'Excel.
 Dans la case (3, 2), nous avons l'estimation de l'écart-type de l'erreur σ̂ε = 0.75224.
 Dans la case (4, 2), nous observons les degrés de liberté de la régression, n − p − 1 = 28 − 3 − 1.
 Enn, dans la case (5, 2), nous observons la SCR = 13.5807.

D'autres informations sont fournies, nous les détaillerons par la suite.

Page: 98 job: Econometrie_Regression macro: svmono.cls date/time: 3-Jan-2018/14:53

Vous aimerez peut-être aussi