Modele Lineaire Module 1
Modele Lineaire Module 1
PARTIE 0- INTRODUCTION
Exemple :
LMSAS
9
Nous cherchons à mettre en avant une relation de dépendance entre les variables Y et X . Y est celle
que l'on cherche à expliquer (à prédire), on parle de variable endogène (dépendante) ; X est la variable
explicative (prédictive), on parle de variable exogène (indépendante).
Le modèle de régression linéaire simple s'écrit :
yi = a × xi + b + εi (1.1)
a et b sont les paramètres (les coecients) du modèle. Dans le cas spécique de la régression simple,
a est la pente, b est la constante.
Nous disposons d'un échantillon de n observations i.i.d (indépendantes et identiquement distribuées)
pour estimer ces paramètres.
Le terme aléatoire ε, que l'on appelle l'erreur du modèle, tient un rôle très important dans la
régression. Il permet de résumer toute l'information qui n'est pas prise en compte dans la relation linéaire
que l'on cherche à établir entre Y et X c.-à-d. les problèmes de spécications, l'approximation par la
linéarité, résumer le rôle des variables explicatives absentes, etc. Comme nous le verrons plus bas, les
propriétés des estimateurs reposent en grande partie sur les hypothèses que nous formulerons à propos
de ε. En pratique, après avoir estimé les paramètres de la régression, les premières vérications portent
sur l'erreur calculée sur les données (on parle de "résidus") lors de la modélisation [13] (Chapitre 1).
Exemple - Rendement de maïs et quantité d'engrais. Dans cet exemple tiré de l'ouvrage de Bourbonnais
(page 12), nous disposons de n = 10 observations (Figure 1.1) 1 . On cherche à expliquer Y le rendement
en maïs (en quintal) de parcelles de terrain, à partir de X la quantité d'engrais (en kg) que l'on y a
épandu. L'objectif est de modéliser le lien à travers une relation linéaire. Bien évidemment, si l'on ne
1. regression_simple_rendements_agricoles.xlsx - "data"
Le graphique nuage de points associant X et Y semble conrmer cette première analyse (Figure 1.2) 2 .
Dans le cas contraire où les coecients estimés contredisent les valeurs attendues (b ou/et a sont négatifs),
cela voudrait dire que nous avons une perception faussée du problème, ou bien que les données utilisées
ne sont pas représentatives du phénomène que l'on cherche à mettre en exergue, ou bien... On entre alors
dans une démarche itérative qui peut durer un moment avant d'obtenir le modèle dénitif 3 . C'est le
processus de modélisation.
2. regression_simple_rendements_agricoles.xlsx - "data"
3. Voir l'excellent site du NIST http://www.itl.nist.gov/div898/handbook/pmd/pmd.htm au sujet du
processus de modélisation : les terminologies utilisées, les principales étapes, la lecture des résultats. Avec des
études de cas complètes.
Ces hypothèses pèsent sur les propriétés des estimateurs (biais, convergence) et l'inférence statistique
(distribution des coecients estimés).
H1 Hypothèses sur Y et X . X et Y sont des grandeurs numériques mesurées sans erreur. X est une
donnée exogène dans le modèle. Elle est supposée non aléatoire. Y est aléatoire par l'intermédiaire
de ε c.-à-d. la seule erreur que l'on a sur Y provient des insusances de X à expliquer ses valeurs
dans le modèle.
H2 Hypothèses sur le terme aléatoire ε. Les εi sont i.i.d (indépendants et identiquement distribués).
H2.a E(εi ) = 0, en moyenne les erreurs s'annulent c.-à-d. le modèle est bien spécié.
H2.b V (εi ) = σε2 , la variance de l'erreur est constante et ne dépend pas de l'observation. C'est
l'hypothèse d'homoscédasticité.
H2.c En particulier, l'erreur est indépendante de la variable exogène c.-à-d. COV (xi , εi ) = 0
H2.d Indépendance des erreurs. Les erreurs relatives à 2 observations sont indépendantes c.-à-d.
COV (εi , εj ) = 0. On parle de "non auto-corrélation des erreurs".
Remarque : Cette hypothèse est toujours respectée pour les coupes transversales. En eet
l'échantillon est censé construit de manière aléatoire et les observations i.i.d. Nous pouvons donc
intervertir aléatoirement les lignes sans porter atteinte à l'intégrité des données. En revanche,
la question se pose pour les données temporelles. Il y a une contrainte qui s'impose à nous
(contrainte temporelle - les données sont ordonnées) dans le recueil des données.
H2.e εi ≡ N (0, σε ). L'hypothèse de normalité des erreurs est un élément clé pour l'inférence
statistique.
Notre objectif est de déterminer les valeurs de a et b en utilisant les informations apportées par
l'échantillon. Nous voulons que l'estimation soit la meilleure possible c.-à-d. la droite de régression doit
approcher au mieux le nuage de points.
Si graphiquement, la solution semble intuitive. Il nous faut un critère numérique qui réponde à cette
spécication pour réaliser les calculs sur un échantillon de données.
Le critère des moindres carrés consiste à minimiser la somme des carrés des écarts (des erreurs)
entre les vraies valeurs de Y et les valeurs prédites avec le modèle de prédiction (Figure 1.3). L'estimateur
des moindres carrées ordinaires (MCO) des paramètres a et b doit donc répondre à la minimisation de
Fig. 1.3. Comptabilisation de l'erreur : écart entre Y observé et Y prédit par le modèle linéaire
∑
n
S= ε2i
i=1
∑
n
= [yi − (axi + b)]2
i=1
∑
n
= [yi − axi − b]2
i=1
En appliquant ces dérivées partielles, nous obtenons les équations normales (Giraud et Chaix, page
25 ; Bourbonnais, page 21 ; Johnston et DiNardo, page 22) :
∑ x y − a ∑ x2 − b ∑ x = 0
i i i i i i i
(1.2)
ȳ − ax̄ − b = 0
Que l'on retrouve également sous la forme suivante dans la littérature (Tenenhaus, page 70).
∑ x ε = 0
i i i
(1.3)
∑ εi = 0
i
En appelant â et b̂ les solutions de ces équations normales, nous obtenons les estimateurs des
moindres carrés :
∑n
(y − ȳ)(xi − x̄)
∑n i
â = i=1 (1.4)
i=1 (xi − x̄)
2
b̂ = ȳ − âx̄ (1.5)
Quelques pistes pour obtenir ces résultats. Voyons tout d'abord la dérivée partielle ∂S
∂b
b = ȳ − ax̄
Occupons-nous maintenant de ∂S
∂a
∂S ∑
= 2(−xi )(yi − axi − b) = 0
∂a i
Revenons à notre exemple des "Rendements agricoles" (Figure 1.1). Nous montons la feuille Excel
permettant de réaliser les calculs (Figure 1.4) 4 .
Fig. 1.4. Estimation des coecients "Rendements agricoles" - Feuille de calcul Excel
4. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"
La droite de régression peut être représentée dans le graphique nuage de points. Nous avons utilisé
l'outil "Courbe de tendance" d'Excel (Figure 1.5) 5 .
Nous constatons que la droite passe peu ou prou au milieu du nuage de points. Mais nous ne saurions
pas dire dans quelle mesure notre modélisation est susamment intéressante. La simple évaluation visuelle
ne sut pas. La seule manière d'obtenir une réponse rigoureuse est de produire un critère quantitatif que
l'on saura interpréter. Nous nous pencherons sur cette question dans la section consacrée à l'évaluation
du modèle (section 1.3).
\(Y, X)
COV
= 2
σ̂X
σ̂Y
= ryx ×
σ̂X
De fait, nous le verrons dans la partie inférentielle, tester la signicativité de la pente revient à tester
la signicativité de la corrélation entre Y et X .
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.1"
ŷi = ŷ(xi )
= â × xi + b̂
La distinction "erreur vs. résidu" est importante car, comme nous le verrons par la suite, les expressions
de leurs variances ne sont pas les mêmes.
La somme (et donc la moyenne) des résidus est nulle dans une régression avec constante. En eet :
∑ ∑
ε̂i = [yi − (âxi + b̂)]
i i
Centre de gravité du nuage de points. La droite de régression avec constante passe forcément
par le centre de gravité du nuage de points. Pour le vérier simplement, réalisons la projection pour le
point x̄ :
ŷ(x̄) = âx̄ + b̂
= âx̄ + (ȳ − âx̄)
= ȳ
Dans notre exemple des "Rendements agricoles", nous constatons eectivement que la droite passe le
point G(x, y) de coordonnées (x̄ = 30.4, ȳ = 26.1) (Figure 1.6).
L'objectif est de construire des estimateurs qui minimisent la somme des carrés des résidus
∑
SCR = ε̂2i
i
∑
= (yi − ŷi )2
i
Lorsque la prédiction est parfaite, tout naturellement SCR = 0. Mais dans d'autre cas, qu'est-ce
qu'une bonne régression ? A partir de quelle valeur de SCR peut-on dire que la régression est mauvaise ?
Pour répondre à cette question, il faut pouvoir comparer la SCR avec une valeur de référence. Pour
cela, nous allons décomposer la variance de Y .
= âȳ + b̂
= ȳ
et
∂S ∑
= 2(−xi )(yi − axi − b) = 0
∂a i
SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y c.-à-d. l'information
disponible dans les données.
SCE est la somme des carrés expliqués. Elle indique la variabilité expliquée par le modèle c.-à-d.
la variation de Y expliquée par X .
SCR est somme des carrés résiduels. Elle indique la variabilité non-expliquée (résiduelle) par le
modèle c.-à-d. l'écart entre les valeurs observées de Y et celles prédites par le modèle.
Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont complètement
expliquées par celles de X . On a un modèle parfait, la droite de régression passe exactement par
tous les points du nuage(ŷi = yi ).
Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y . Ainsi, ŷi = ȳ , la meilleure
prédiction de Y est sa propre moyenne.
A partir de ces informations, nous pouvons produire une première version du tableau d'analyse de
variance (Tableau 1.1). La version complète nous permettra de mener le test de signicativité globale
de la régression comme nous le verrons plus loin (section 3.1).
Il est possible de déduire un indicateur synthétique à partir de l'équation d'analyse de variance. C'est
le coecient de détermination R2 .
SCE SCR
R2 = =1− (1.10)
SCT SCT
Remarque 1 (Une autre lecture du coecient de détermination.). Il existe une lecture moins usuelle, mais
non moins intéressante, du coecient de détermination.
On dénit le modèle par défaut comme la régression qui n'utilise pas X pour prédire les valeurs de Y
c.-à-d. le modèle composé uniquement de la constante.
yi = b + εi (1.11)
On montre très facilement dans ce cas que l'estimateur des MCO de la constante est
b̂ = ȳ (1.12)
Dès lors, on peut considérer que R2 confronte la prédiction du modèle s'appuyant sur X (ŷi = â×xi +b̂)
avec le pire modèle possible, celui qui n'utilise pas l'information procurée par X c.-à-d. basée uniquement
sur Y (ŷi = ȳ ).
Par construction, dans la régression avec constante, on sait que SCR ≤ SCT , le coecient de déter-
mination nous indique donc dans quelle mesure X permet d'améliorer nos connaissances sur Y .
Cette lecture nous permet de mieux comprendre les pseudo-R2 calculés dans des domaines connexes
telles que la régression logistique [14] (Section 1.6) où l'on confronte la vraisemblance du modèle complet
(ou le taux d'erreur), incluant toutes les exogènes, avec celle du modèle réduit à la constante.
Dans le cas de la régression simple (et uniquement dans ce cas), on montre aisément qu'il est égal au
coecient de corrélation ryx entre Y et X. Son signe est déni par la pente â de la régression.
SCE
=
SCT
= R2
Nous nous appuyons sur les coecients estimés précédemment (section 1.2.2), à savoir â = 0.71405
et b̂ = 4.39277 pour construire la colonne des valeurs prédites ŷi , en déduire le résidu ε̂i et nalement
obtenir les sommes des carrés. Le tableau de calcul est organisé comme suit (Figure 1.7) 6 :
Nous calculons ŷi . Par exemple, pour le 1er individu : ŷ1 = â × x1 + b̂ = 0.71405 × 20 + 4.39277 =
18.674.
Sur la colonne suivante, nous en déduisons le résidu ε̂i (ex. ε̂1 = y1 − ŷ1 = 16 − 18.674 = −2.674).
Pour obtenir la SCT, nous réalisons la somme des (yi − ȳi ) passées au carré : SCT = (16 − 26.1)2 +
· · · = 102.010 + · · · = 314.900
Pour la SCE, nous sommons (ŷi − ȳ)2 c.-a-d. SCE = (18.674−26.1)2 +· · · = 55.148+· · · = 251.061
Nous pouvons obtenir la SCR par diérence, en faisant SCR = SCT −SCE = 314.900−251.061 =
63.839.
6. regression_simple_rendements_agricoles.xlsx - "reg.simple.decomp.variance"
SCE 251.061
R2 = = = 0.797273
SCT 314.900
â = 0.71405 étant positif, on vériera aisément dans notre exemple que ce dernier est identique au
coecient de corrélation de Pearson entre Y et X :
R = ryx = 0.892901
Ce chapitre est assez théorique. Sa lecture n'est pas nécessaire pour la compréhension de la mise en
pratique de la régression linéaire. J'invite donc les lecteurs surtout intéressés par les aspects opérationnels
à se reporter au chapitre suivant (chapitre 3).
Ce chapitre est essentiel en revanche pour la compréhension des propriétés des estimateurs des MCO. Il
permet notamment de circonscrire les hypothèses qui conditionnent leur ecacité. Sa lecture est conseillée
pour ceux qui s'intéressent à ces aspects théoriques.
Pour les étudiants de la licence L3-IDS, vous devez lire ce chapitre !
Deux propriétés importantes sont mises en avant dans l'évaluation d'un estimateur. (1) Est-ce qu'il
est sans biais c.-à-d. est-ce qu'en moyenne nous obtenons la vraie valeur du paramètre ? (2) Est-ce qu'il
est convergent c.-à-d. à mesure que la taille de l'échantillon augmente, l'estimation devient de plus en
plus précise ?
2.1 Biais
Voyons ce qu'il en est pour â. Il y a deux étapes principalement dans la démonstration : dans un
premier temps, il faut exprimer â en fonction de a ; dans un deuxième temps, en passant à l'espérance
mathématique, il faut souhaiter que tout ce qui ne dépend pas de a devienne nul, au besoin en s'appuyant
sur quelques hypothèses pour le coup bien commodes énoncées en préambule de notre présentation
(section 1.1).
Nous reprenons ici la démarche que l'on retrouve dans la plupart des références citées en bibliographie
(Bourbonnais, page 24 pour la régression simple ; Giraud et Chaix, page 25, qui a servi de base pour les
calculs ci-dessous ; Labrousse, page 24 pour la régression multiple ; Dodge et Rousson, page 25).
Formons la diérence
y = ax + b + ε
i i i
−
ȳ = ax̄ + b + ε̄
Rappelons que ∑
i (x − x̄)(yi − ȳ)
â = ∑i
i (xi − x̄)
2
Ainsi
∑
− x̄)[a(xi − x̄) + (εi − ε̄)]
i (xi
â = ∑
i (xi − x̄)
2
∑ ∑
a i (xi − x̄)2 + i (xi − x̄)(εi − ε̄)
= ∑
i (xi − x̄)
2
∑
(xi − x̄)(εi − ε̄)
= a + i∑
i (xi − x̄)
2
∑
On montre facilement que ε̄ i (xi − x̄) = 0, nous obtenons ainsi
∑
(xi − x̄)εi
â = a + ∑i (2.1)
i (xi − x̄)
2
Il nous reste à démontrer que la partie après l'addition est nulle en passant à l'espérance mathématique.
Nous devrons introduire les hypothèses adéquates pour ce faire.
[∑ ]
(xi − x̄)εi
E(â) = E(a) + E ∑i
i (xi − x̄)
2
[ ]
∑ (xi − x̄)
= a+E ∑ ε
2 i
i j (xj − x̄)
Nous avons : [ ]
∑
E(â) = a + E ωi εi
i
Conclusion. L'estimateur des moindres carrés ordinaires (EMCO) est sans biais, si et seulement si
les deux hypothèses suivantes sont respectées :
1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ;
2. (H2.a) E(εi ) = 0, l'espérance de l'erreur est nulle.
Concernant la constante
De manière analogue, en partant de b̂ = b + ε̄ − (â − a)x̄, on montre sous les mêmes hypothèses que
E(b̂) = b
V (θ̂) −→ 0 (2.2)
n→∞
Nous devons donc d'abord produire une expression de la variance de l'estimateur, et montrer qu'il
tend vers 0 quand l'eectif n tend vers ∞.
Or, dans la section précédente, nous avons montré que l'estimateur pouvait s'écrire
∑
â = a + ωi εi
i
Exploitons cela
( )2
∑
V (â) = E ωi εi
i
[ ]
∑ ∑
=E ωi2 ε2i +2 ωi ωi′ εi εi′
i i<i′
∑ ∑
= ωi2 E(ε2i ) + 2 ωi ωi′ E (εi εi′ )
i i<i′
2. (H2.d) COV (εi′ εi ) = E(εi′ εi ) = 0. Les erreurs sont deux à deux indépendantes. C'est l'hypothèse
de non-autocorrélation des erreurs.
xi − x̄
ωi = ∑
j (xj − x̄)
2
1
= ∑
j (xj − x̄)2
σε2
V (â) = ∑ (2.3)
i (xi − x̄)
2
σε2 est une valeur qui ne dépend pas de n, c'est la variance de l'erreur dénie dans la population.
∑
En revanche, lorsque n → ∞, on constate facilement que i (xi − x̄)2 → ∞. En eet, c'est une
somme de valeurs toutes positives ou nulles.
Nous pouvons donc armer que â est un estimateur convergent de a, parce que
V (â) −→ 0 (2.4)
n→∞
Conclusion. Récapitulons tout ça. Nous avons introduit plusieurs hypothèses pour montrer la conver-
gence de l'estimateur de la pente :
En scrutant un peu les formules de la variance produites dans les sections précédentes, nous remar-
quons plusieurs éléments. Les estimateurs seront d'autant plus précis, les variances seront d'autant plus
petites, que :
Nous pouvons illustrer cela à l'aide de quelques graphiques caractérisant les diérentes situations
(Figure 2.1).
Les estimateurs des MCO de la régression sont sans biais et convergents. On peut même aller plus
loin et prouver que parmi les estimateurs linéaires sans biais de la régression, les estimateurs MCO sont à
variance minimale c.-à-d. il n'existe pas d'autres estimateurs linéaires sans biais présentant une plus petite
variance. Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
ecaces (pour les démonstrations montrant qu'il est impossible d'obtenir des variances plus faibles, voir
Johnston, page 27 et pages 40-41 ; Labrousse, page 26).
Inférence statistique
Un autre point de vue est de considérer le test d'évaluation globale comme un test de signicativité du
R : dans quelle mesure s'écarte-t-il réellement de la valeur 0 ? On a des réticences à le présenter ainsi dans
2
la littérature francophone car le R2 n'est pas un paramètre de la population estimée sur l'échantillon ; on
a moins de scrupules dans la littérature anglo-saxonne (cf. par exemple D. Garson, Multiple Regression,
http://faculty.chass.ncsu.edu/garson/PA765/regress.htm#significance "...The F test is used
to test the signicance of R, which is the same as testing the signicance of R2, which is the same as
testing the signicance of the regression model as a whole... ; ou encore D. Mc Lane, HyperStat Online
Contents, http://davidmlane.com/hyperstat/B142546.html ...The following formula (le test F) is
used to test whether an R2 calculated in a sample is signicantly dierent from zero...) 1 .
Quoiqu'il en soit, l'hypothèse nulle correspond bien à l'absence de liaison linéaire entre l'endogène et
les exogènes.
Pour répondre à cette question, nous allons étendre l'étude de la décomposition de la variance en
complétant le tableau d'analyse de variance par les degrés de liberté (Tableau 3.1).
Un petit mot sur les degrés de liberté, on peut les voir de diérentes manières. La dénition la
plus accessible est de les comprendre comme le nombre de termes impliqués dans les sommes (le nombre
d'observations) moins le nombre de paramètres estimés dans cette somme (Dodge et Rousson, page 41).
Ainsi :
Pour tester la signicativité globale de la régression, nous nous basons sur la statistique F,
SCE
CM E
F = = 1
SCR
(3.1)
CM R n−2
R2
F = 1
(1−R2 )
(3.2)
n−2
Distribution sous H0. Sous H0, SCE est distribué selon un χ2 (1) et SCR selon un χ2 (n − 2), de
fait pour F nous avons
χ2 (1)
F ≡ 1
χ2 (n−2)
≡ F(1, n − 2) (3.3)
n−2
Sous H0, F est donc distribué selon une loi de Fisher à (1, n − 2) degrés de liberté.
La région critique du test, correspondant au rejet de H0, au risque α est dénie pour les valeurs
anormalement élevées de F c.-à-d.
Décision à partir de la p-value. Dans la plupart des logiciels de statistique, on fournit directe-
ment la probabilité critique (p-value) α ′ , elle correspond à la probabilité que la loi de Fisher dépasse la
statistique calculée F.
Revenons à notre exemple des rendements agricoles. Nous complétons notre feuille de calcul précédente
(Figure 1.7) de manière à mettre en exergue le tableau d'analyse de variance complet et le test F de
signicativité globale (Figure 3.1) 2 .
Fig. 3.1. Tableau d'analyse de variance et Test de signicativité globale - "Rendements agricoles"
Nous avions expliqué précédemment l'obtention des SCT, SCE et SCR (section 1.3.4).
Nous réorganisons les valeurs pour construire le tableau d'analyse de variance. Nous en déduisons
les carrés moyens expliqués CM E = SCE
1 = 251.061
1 = 251.061 et les carrés moyens résiduels
SCR 63.839
CM R = n−2 = 10−2 = 7.980
2. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.global"
Pour étudier les coecients estimés, il importe d'en calculer les paramètres (l'espérance et la variance
essentiellement) et de déterminer la loi de distribution. Nous pourrons dès lors mettre en oeuvre les outils
usuels de la statistique inférentielle : la dénition des intervalles de variation à un niveau de conance
donné ; la mise en place des tests d'hypothèses, notamment les tests de signicativité.
3.2.1 Distribution de â et b̂
Dans un premier temps, concentrons-nous sur la pente de la régresion. Rappelons que â est égal à
∑n
(y − ȳ)(xi − x̄)
â = i=1∑n i
i=1 (xi − x̄)
2
X est non stochastique, Y l'est par l'intermédiaire du terme d'erreur ε. Nous introduisons l'hypothèse
selon laquelle :
εi ≡ N (0, σε )
De fait, yi = axi + b + εi suit aussi une loi normale, et â étant une combinaison linéaire des yi , il vient
â − a
≡ N (0, 1) (3.6)
σâ
σε2
σâ2 = ∑ (3.7)
i (xi − x̄)
2
Ce résultat est très intéressant mais n'est pas utilisable en l'état, tout simplement parce que nous ne
disposons pas de l'estimation de la variance de l'erreur σε2 . Pour obtenir une estimation calculable sur un
échantillon de données de l'écart-type σ̂â du coecient â, nous devons produire une estimation de l'écart
type de l'erreur σ̂ε . La variance estimée s'écrirait alors
σ̂ε2
σ̂â2 = ∑ (3.8)
i (xi − x̄)
2
Le cas de la constante. La situation est identique pour ce qui est de l'estimation de la constante b̂.
Nous avons :
b̂ − b
≡ N (0, 1) (3.9)
σb̂
De nouveau, si nous souhaitons obtenir son estimation c.-à-d. mettre un chapeau sur le σ de b̂ comme
j'ai coutume de le dire en cours, il faut mettre un chapeau sur le σ de ε. C'est ce que nous faisons dans
la section suivante.
ε̂i = yi − ŷi
= axi + b + εi − (âxi + b̂)
= εi − (â − a)xi − (b̂ − b)
Remarque 2 (Espérance des résidus). On note au passage que l'espérance du résidu est nulle (E[ε̂i ] = 0)
si les estimateurs sont sans biais.
Quelques commentaires :
Au numérateur, nous avons la somme des carrés des résidus. Nous l'obtenons facilement comme
nous avons pu le constater dans notre exemple des "Rendements agricoles".
Au dénominateur, nous avons les degrés de liberté de la régression. La valeur 2 dans (n − 2)
représente le nombre de paramètres estimés. De fait, la généralisation de cette formule au cadre
de la régression linéaire multiple avec p variables exogènes ne pose aucun problème. Le nombre de
degrés de liberté sera n − (p + 1) = n − p − 1.
Il nous faut connaître la distribution de l'estimation de la variance de l'erreur pour pouvoir déterminer
la distribution des coecients estimés lorsque nous introduirons σ̂ε2 dans les expressions de leur variance.
ε̂i
≡ N (0, 1) (3.12)
σε
En passant au carré, nous avons un χ2 (1). Il ne nous reste plus qu'à former la somme des termes :
∑ ( ε̂i )2 ∑ 2
i ε̂i
= ≡ χ2 (n − 2) (3.13)
i
σε σε2
σ̂ε2 χ2 (n − 2)
≡ (3.14)
σε2 n−2
Nous pouvons maintenant revenir sur la distribution des coecients calculés lorsque toutes ses com-
posantes sont estimées à partir des données.
Voyons dans un premier temps la pente, la transposition à la constante ne pose aucun problème.
σ̂â2 σ̂ 2
2 = ε2
σâ σε
σ̂â2 σ̂ε2 χ2 (n − 2)
= ≡ (3.15)
σâ2 σε2 n−2
De fait, la distribution réellement exploitable pour l'inférence statistique est la loi de Student à (n − 2)
degrés de liberté.
â − a
≡ T (n − 2) (3.16)
σ̂â
Comment ?
N'oublions pas que la loi de Student est dénie par un rapport entre une loi normale et la racine
carrée d'un loi du χ2 normalisée par ses degrés de liberté. Ainsi,
b̂ − b
≡ T (n − 2) (3.17)
σ̂b̂
Nous disposons maintenant de tous les éléments pour analyser les paramètres estimés de la régression.
Le test de signicativité de la pente consiste à vérier l'inuence réelle de l'exogène X sur l'endogène
Y . Les hypothèses à confronter s'écrivent :
H : a = 0
0
H1 : a ̸= 0
Elle suit une loi de Student à (n − 2) degrés de liberté. La région critique (de rejet de H0) au risque
α s'écrit :
R.C. : |tâ | > t1− α2 (3.19)
Où t1− α2 est le quantile d'ordre (1 − α2 ) de la loi de Student. Il s'agit d'un test bilatéral.
Testons la signicativité de la pente pour la régression sur les "Rendements agricoles". Nous construi-
sons la feuille Excel pour les calculs intermédiaires (Figure 3.2) 5 :
Nous calculons les projections pour chaque individu de l'échantillon. Pour le 1er individu, nous
avons ŷ1 = â × x1 + b̂ = 0.71405 × 20 + 4.39277 = 18.674.
Nous en déduisons le résidu (ex. ε̂1 = y1 − ŷ1 = 16 − 18.674 = −2.674), que nous passons au carré
(ex. ε̂21 = (−2.674)2 = 7.149).
∑
Nous réalisons la somme des résidus au carré, soit SCR = 2
i ε̂i = 7.149 + · · · = 63.839
5. regression_simple_rendements_agricoles.xlsx - "reg.simple.test.pente"
Fig. 3.2. Calculs intermédiaires pour les tests relatifs à la pente - "Rendements agricoles"
SCR 63.839
σ̂ε2 = = = 7.980
n−2 8
L'écart-type estimé de l'erreur correspond à la racine carrée, il est bien de le préciser car de nombreux
logiciels (la fonction DROITEREG d'Excel par exemple) l'achent plutôt que la variance.
√
σ̂ε = 7.980 = 2.825
Pour obtenir l'estimation de l'écart-type de la pente, nous avons besoin de la somme des écarts à la
∑
moyenne au carré des X c.-à-d. i (xi − x̄)2 = (20 − 30.4)2 + · · · = 108.16 + · · · = 492.4. Nous avons
alors :
√
σ̂ε2
σ̂â = ∑
i (xi − x̄)
2
√
7.980
=
492.4
√
= 0.01621
= 0.12730
â 0.71405
tâ = = = 5.60909
σ̂â 0.12730
Au risque α = 5%, le seuil critique pour la loi de Student à (n − 2) degrés de liberté pour un test bila-
téral 6 est t1− α2 = 2.30600. Puisque |5.60909| > 2.30600, nous concluons que la pente est signicativement
non nulle au risque 5%.
6. LOI.STUDENT.INVERSE(0.05 ;8) sous Excel. Attention, la fonction renvoie directement le quantile pour
un test bilatéral !
Nous pouvons aller plus loin que le simple test de signicativité. En eet, la distribution de â (section
3.2.3, équation 3.16) est valable sur tout le domaine de dénition de a et non pas seulement dans le voi-
sinage (a = 0). Ainsi, nous pouvons dénir tout type de test de conformité à un standard, où l'hypothèse
nulle s'écrirait H0 : a = c ; c étant une valeur de référence quelconque.
On souhaite mettre en oeuvre le test d'hypothèses suivant pour les "Rendements agricoles"
H : a = 0.5
0
H1 : a > 0.5
Il s'agit d'un test de conformité à un standard unilatéral. La région critique au risque α du test s'écrit
â − 0.5
R.C. : > t1−α
σ̂â
A comparer avec t0.95 (8) = 1.85955 pour un test à 5% 8 . Nous sommes dans la région d'acceptation
c.-à-d. nous ne pouvons pas rejeter l'hypothèse nulle. La valeur du paramètre a n'est pas signicativement
supérieur à la référence 0.5 au risque 5%.
Toujours parce que la distribution de â est dénie sur tout l'intervalle de dénition de a, nous pouvons
construire des intervalles de variation (ou intervalle de conance) au niveau de conance (1 − α).
7. LOI.STUDENT(ABS(5.60909) ;8 ;2) sous Excel. Le paramètre 2 pour spécier que nous souhaitons obtenir
la p-value pour un test bilatéral.
8. Attention, comme il s'agit d'un test unilatéral, le seuil critique est modié par rapport à l'exemple du test
de signicativité précédent.
Reprenons la pente du chier "Rendements agricoles". Nous disposons de toutes les informations
nécessaires pour produire l'intervalle de conance au niveau 95% :
[ ]
â − t1− α2 × σ̂â ; â + t1− α2 × σ̂â
[0.71405 − 2.30600 × 0.12730 ; 0.71405 + 2.30600 × 0.12730]
[0.42049 ; 1.00761]
Le résultat est cohérent avec le test de signicativité de la pente, l'intervalle de conance ne contient
pas la valeur 0.
Les coecients formant le modèle sont entachées d'incertitude, il est normal que la droite de régression
le soit également. L'objectif dans cette section est de produire un intervalle de conance de la droite de
régression (Bressoux, page 76).
Pour formaliser cela, n'oublions pas que notre objectif est de modéliser au mieux les valeurs de Y en
fonction des valeurs prises par X c.-à-d. µY /X = E[Y /X]. Dans la régression linéaire, on fait l'hypothèse
que la relation est linéaire
µY /X = a × X + b (3.21)
C'est pour cette raison que dans la plupart des ouvrages, on présente les résultats décrits dans cette
section comme le calcul de l'intervalle de conance de la prédiction de la moyenne de Y conditionnellement
X (Dodge et Rousson, page 34 ; Johnston et DiNardo, page 36 ; Tenenhaus, page 92). Mais il s'agit bien
de l'intervalle de conance de ce que l'on a modélisé avec la droite, à ne pas confondre avec l'intervalle
de conance d'une prédiction lorsque l'on fourni la valeur xi∗ pour un nouvel individu i∗ n'appartenant
pas à l'échantillon.
J'avoue que pendant longtemps, cette distinction ne me paraissait pas très claire. Je ne voyais pas
très bien quelle était la diérence entre l'intervalle de conance de la prédiction l'espérance de Y sachant
X et la prédiction ponctuelle de Y . Dans les deux cas, nous avions la même valeur ponctuelle calculée
â × xi + b̂. Le passage de l'un à l'autre dans Jonhston et DiNardo livre que j'avais beaucoup lu quand
j'étais étudiant pages 35 et 36, formules (1.67) et (1.68), est particulièrement périlleux.
Bref, la terminologie "intervalle de conance de la droite de régression" (Bressoux, page 76) me sied
mieux.
yi = a0 + a1 xi,1 + · · · + ap xi,p + ϵi
(4.1)
Nous devons estimer les valeurs des (p + 1) paramètres (a0 , a1 , . . . , ap ) à partir d'un échantillon de n
observations. Nous remarquons dans le modèle (Équation 9.1) :
Les étapes processus de modélisation sont les suivantes (Tenenhaus, pages 104 et 105) :
1. Estimer les valeurs des coecients (a0 , a1 , . . . , ap ) à partir d'un échantillon de données (estimateur
des moindres carrés ordinaires).
3. Mesurer le pouvoir explicatif du modèle dans sa globalité (tableau d'analyse de variance, coecient
de détermination).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de signica-
tivité de chaque coecient).
7. Pour un nouvel individu i∗ pour lequel on fournit la description (xi∗,1 , . . . , xi∗,p ), calculer la valeur
prédite ŷi∗ et la fourchette de prédiction.
8. Interpréter les résultats en mettant en avant notamment l'impact des exogènes sur l'endogène
(interprétation des coecients, analyse structurelle).
L'étude des résidus, graphiquement mais aussi numériquement avec les tests de normalité, les tests
du caractère aléatoire des erreurs.
La détection des points aberrants et inuents, ces points qui peuvent peser de manière indue sur
les résultats de la régression.
Les problèmes de colinéarité et la sélection de variables.
Les ruptures de structure c.-à-d. la vérication de l'existence de plusieurs sous-populations dans
les données, avec des relations de nature diérente entre les exogènes et l'endogène (ex. le lien
entre le poids et la taille n'est pas le même chez les hommes et chez les femmes).
Les problèmes de non linéarité que nous avons commencé à aborder dans la partie consacrée à la
régression simple.
Mais, à la diérence de la régression linéaire simple, on prend en compte le rôle des autres variables lors
de son calcul. On dit alors que c'est un coecient partiel : il indique l'impact de la variable en contrôlant
l'eet des autres variables, c'est la fameux "toutes choses égales par ailleurs". Nous approfondirons cette
notion dans un chapitre dédié à l'interprétation des coecients (chapitre 13).
Enn, l'eet des variables est additif c.-à-d. toutes les autres étant constantes, si xj et xj ′ sont tous
deux augmentés d'une unité, alors y est augmenté (aj + aj ′ ).
Régression sans constante. Les remarques émises concernant le modèle sans constante dans la
régression simple (section 7.2) restent valables. Il faut faire attention aux degrés de liberté puisque nous
n'estimons plus que p paramètres. Le coecient de détermination R2 n'est plus interprétable en termes
de proportion de variance expliquée.
4.2 Notationmatricielle
Pour simplier les notations,on retrouvesouventune écriturematricielledu modèle dans la littérature
(Equation 4. 2).
Y = Xa + ε
(4.2)
Y → (n, 1)
X → (n, p + 1)
a → (p + 1, 1)
ε → (n, 1)
La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exogènes, avec une
première colonne formée par la valeur 1 indiquant que l'on intègre la constante a0 dans l'équation.
1 x1,1 · · · x1,p
1 x2,1 · · · x2,p
X = .
..
1 xn,1 · · · xn,p
4.3 Hypthèses
Comme pour la régression simple, les hypothèses permettront de déterminer les propriétés des es-
timateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coecientpris
individuellement, loi de Fisher dès que l'on traite un groupe de coecients).
Nous distinguons: :
Les hypothèses stochastiques
H1 Les Xj sont non aléatoires c.-à-d. les xi,j sont observés sans erreur.
H2 E[εi ] = 0, l'espérance de l'erreur est nulle. En moyenne, le modèle est bien spécié.
H3 E[ε2i ] = σε2 , la variance de l'erreur est constante, c'est l'hypothèse de homoscédasticité.
H4 ̸ i′ , les erreurs sont indépendantes, c'est l'hypothèse de non-
COV (εi , εi′ ) = 0 pour i =
autocorrélation des résidus.
H5 COV (xi,j , εi ) = 0, l'erreur est indépendante des variables exogènes.
H6 εi ≡ N (0, σε ), les erreurs sont distribués selon une loi normale.
Les hypothèses structurelles
H7 La matrice (X ′ X) est régulière c.-à-d. det(X ′ X) ≠ 0 et (X ′ X)−1 existe. Elle indique l'ab-
sence de colinéarité entre les exogènes. Nous pouvons aussi voir cette hypothèse sous l'angle
rang(X) = p + 1 et rang(X ′ X) = p + 1.
H8 (X ′ X)
n tend vers une matrice nie non singulière lorsque n → +∞.
le cas où n = p + 1, nous avons un interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (X ′ X) n'est plus inversible.
On passe de nouveau par les dérivées partielles que l'on annule pour obtenir les (p + 1) équations
normales.
∑
∂S
= 0
−2 i εi = 0
∂a 0
.. .
. ⇔ ..
∂S = 0 −2 ∑ x × ε = 0
∂ap i i,p i
a0 + a1 x̄1 + · · · + ap x̄p = ȳ
.
⇔ ..
a ∑ x + a ∑ x x + ··· + a ∑ x x = x y
0 i i,p 1 i i,1 i,p p i i,p i,p i,p i
4.4.2 Écriturematricielle
Avec l'écriture matricielle, nous pouvons produire une écriture condensée. Soit ε le vecteur des erreurs,
avec ε′ = (ε1 , . . . , εn ). La somme des carrés des erreurs devient
∑
S= ε2i = ε′ ε
i
Développons l'expression
ε′ ε = (Y − Xa)′ (Y − Xa)
= Y ′ Y − Y ′ Xa − a′ X ′ Y + a′ X ′ Xa
= Y ′ Y − 2a′ X ′ Y + a′ X ′ Xa
S = Y ′ Y − 2a′ X ′ Y + a′ X ′ Xa
Pour déterminer le minimum de S , nous réalisons la dérivation matricielle que nous annulons (La-
brousse, page 22) :
∂S
= −2(X ′ Y ) + 2(X ′ X)a = 0
∂a
(X ′ X)a = X ′ Y
L'estimateur des moindres carrés ordinaires (MCO) des coecients du modèle s'écrit :
â = (X ′ X)−1 X ′ Y
(4.4)
Nous avons élaboré une feuille Excel qui reconstitue tous les calculs intermédiaires permettant d'ob-
tenir le vecteur â (Figure 9.1) 1 :
Nous distinguons les valeurs des exogènes (X1 , X2 , X3 ), et celles de l'endogène Y .
Nous accolons au tableau des exogènes une colonne de constante, avec la valeur 1. Nous obtenons
ainsi la matrice X .
1 846 32 650
1 993 39 790
X = .
..
1 2473 125 1570
Nous pouvons élaborer la matrice (X ′ X), avec
28 50654 2176 33515
..
(X ′ X) = .
33515 65113780 2831550 42694125
∑28
Nous devrions obtenir n = i=1 1 × 1 = 28 dans la première cellule de la matrice. C'est le cas.
Nous inversons cette matrice pour obtenir (X ′ X)−1 (attention, certains chires de la matrice sont
en notation scientique dans la gure 9.1).
1. reg_multiple_consommation_automobiles.xlsx - "EMCO"
Ensuite, nous calculons la matrice des produits croisés entre X et Y , soit (X ′ Y ), nous avons
254.1
493218.1
′
(X Y ) =
21473.7
321404.5
Enn, il ne nous reste plus qu'à calculer â = (X ′ X)−1 (X ′ Y ). Nous obtenons les estimations des
paramètres de la régression
â0 1.7020
â 0.0005
1
â = =
â2 0.0183
â3 0.042
Les coecients sont dans l'ordre des colonnes de la matrice X .
Le modèle s'écrit
Toutes les variables semblent jouer positivement sur la consommation c.-à-d. lorsque la cylindrée,
la puissance ou le poids augmentent, la consommation a tendance à augmenter.
Matrice (X ′ X)
Chaque case de la matrice (X ′ X), de dimension (p+, 1, p + 1), est formée par la somme du produit
croisé entre les exogènes, en eet :
∑ ∑
n i xi,1 ··· i xi,p
∑ ∑ 2 ∑
···
′ i xi,1 i xi,1 i xi,1 xi,p
(X X) = .
..
∑ ∑ ∑ 2
i xi,p i xi,1 xi,p · · · i xi,p
(X ′ X) est une matrice symétrique. Elle indique le degré de liaison entre les exogènes.
Matrice (X ′ Y )
Chaque case du vecteur (X ′ Y ), de dimension (p + 1, 1), est composée du produit croisé entre les
exogènes et l'endogène.
∑
i yi
∑
′ i xi,1 yi
(X X) = ..
.
∑
x y
i i,p i
Ainsi le coecient associé à une variable explicative sera d'autant plus élevée en valeur absolue,
relativement aux autres (nonobstant les disparités dues aux unités de mesures), qu'elle est fortement liée
avec l'endogène et, dans le même temps, faiblement liée avec les autres exogènes.
Lorsque les variables sont centrées, nous retrouvons des concepts que nous connaissons bien. Soient
représentent respectivement la matrice des variances covariances des exogènes, et le vecteur des cova-
riances entre les exogènes et l'endogène.
cr xi,j − x̄j
xi,j =
σxj
cr yi − ȳ
yi =
σy
Les matrices
1 cr ′ cr
(X X ) = r(Xj , Xj ′ )
n
1 cr ′ cr
(X Y ) = r(Xj , Y )
n
représentent respectivementles corrélations croisées entre les Xj et les corrélations des Xj avec Y .
Deux questions reviennent toujours lorsque l'on souhaite étudier les propriétés d'un estimateur : est-il
sans biais ? est-il convergent ?
Nous allons directement à l'essentiel dans cette partie. Le détail de la démarche a déjà été exposé
dans le cadre de la régression simple (chapitre2).
4.5.1 Biais
L'estimateur â est sans biais si E(â) = a. Voyons à quelles conditions cette propriété est respectée.
Développons â :
On sait que X est non aléatoire, nous avons E[(X ′ X)−1 X ′ ε] = (X ′ X)−1 X ′ E(ε) ; de plus E(ε) = 0
par hypothèse. Au nal, nous avons bien
E(â) = a
L'estimateur des MCO est sans biais sous les deux hypothèses suivantes (section 9.3) : (H1) X
est non aléatoire,les exogènes sont mesurées sans erreur ; (H2) la moyenne de l'erreurest nulle E(ε) = 0.
La matrice est symétrique, sur la diagonale principale nous observons les variances des coecients
estimés.
Or
â − a = (X ′ X)−1 X ′ ε
(â − a)′ = ε′ X[(X ′ X)−1 ]′
= ε′ X(X ′ X)−1 car (X′ X)−1 est symetrique
Ainsi
(â − a)(â − a)′ = (X ′ X)−1 X ′ εε′ X(X ′ X)−1
La quantité E[εε′ ], de dimension (n, n), représente la matrice de variance covariance des erreurs, en
voici le détail
E(ε21 ) E(ε1 ε2 ) · · · E(ε1 εn )
.
E[εε′ ] = ..
··· ··· · · · E(εn )
2
Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothèse (section 9.3), (H3) la variance de l'erreur est constante V (εi ) = E(ε2i ) = σε2 et,
(H4) leurs covariances nulles COV (εi , εi′ ) = 0. De fait,
E[εε′ ] = σε2 I
La matrice de variance covariance des estimateurs s'en retrouve grandement simpliée. En eet,
On montre qu'une condition nécessaire et susante pour que â soit un estimateur convergent de a
est que les variables exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'inni, autrement
dit que l'hypothèse (H8 reste valable lorsque n tend vers l'inni. (Giraud et Chaix, page 65 ; que l'on
retrouve sous des formes plus ou moins analogues chez Bourbonnais,page 53, et Labrousse,page 26).
4.6.1 Estimation
de la variance de l'erreur
L'expression de la variance covariance des coecients estimés (Équation 9.5) est très jolie mais inuti-
lisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur σ̂ε2 .
Par analogie avec la régression simple (section 3.2.2), nous la comprenons comme le rapport entre la
somme des carrés des résidus (SCR) et le nombre de degrés de liberté de la régression, soit le nombre
d'observations moins le nombre de paramètres estimés : [n − (p + 1) = n − p − 1]. Ainsi, nous écrirons
∑ 2
2 SCR i ε̂i
σ̂ε = =
n−p−1 n−p−1 (4.6)
La valeur prédite de l'endogène ŷi pour chaque individu (ex. ŷ1 = 1.070205 + 0.00049 × 846 +
0.01825 × 32 + 0.00423 × 650 = 5.4523).
Le résidu ε̂i = yi − ŷi (ex. ε̂1 = y1 − ŷ1 = 5.7 − 5.4523 = 0.2477.
Fig. 9.2. Estimation de la variance de l'erreur et des coecients estimés - Consommation des véhicules
SCR 13.5807
σ̂ε2 = = = 0.56586
n−p−1 28 − 3 − 1
L'estimation de son écart-type en est déduite, valeur souvent automatiquement retournée par les
logiciels de statistique
√
σ̂ε = 0.56586 = 0.75224
Reste la dernière multiplication pour obtenir l'estimation de la matrice de variance covariance des
coecients :
Ω̂â = σ̂ε2 (X ′ X)−1
Elle est forcément symétrique parce que la covariance est un opérateur symétrique.
Comme nous l'avons souligné précédemment, nous disposons sur la diagonale de cette matrice de
l'estimation de la variance des coecients. Dans notre exemple,
σ̂â20 = 0.399490226
σ̂ 2 = 6.0783 × 10−7
â1
σ̂â22 = 0.00020279
σ̂ 2 = 8.7595 × 10−7
â3
Dans l'exemple que nous reproduisons ici (Figure 9.3) 3 , nous avons inséré la commande DROITE-
REG(F3 :F30 ;B3 :D30 ;1 ;1). Le première paramètre correspond à la colonne de valeurs de Y ; le second
au(x) colonne(s) de X ; le troisième paramètre indique que nous réalisons une régression avec constante
(0 si nous souhaitons une régression sans constante) ; et le dernier indique que l'on souhaite obtenir des
informations additionnelles en plus des coecients estimés (0 dans le cas contraire).
matriciellesd'Excel(Figure 4.3) :
3. reg_multiple_consommation_automobiles.xlsx - "variance erreur (droitereg)"