0% ont trouvé ce document utile (0 vote)
33 vues18 pages

Économétrie

Support d’économétrie

Transféré par

Kessy Keumeni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues18 pages

Économétrie

Support d’économétrie

Transféré par

Kessy Keumeni
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE DE DOUALA

Faculté des Sciences

Département de Mathématiques et Informatique


Licence 3 Mathématiques
MAT 396

Econométrie

Année Académique 2019/2020

Dr DONFACK Véronique
PLAN DU COURS

CHAPITRE 1 REGRESSION LINEAIRE SIMPLE

I. Introduction
II. Hypothèses et données du problème.
III. Estimation de et de par la méthode des moindres carrées ordinaires.
IV. Inférence statistique
V. Prévisions

CHAPITRE II REGRESSION LINEAIRE MULTIPLE

I. Rappel d’algèbre linaire


II. Modélisation
III. Résidus et variance résiduelle
IV. Prévision
V. Analyse de la variance
VI. Modèle linaire statistique

I. Introduction

L’économétrie est un ensemble de techniques utilisant la statistique mathématique qui vérifient


la validité empirique des relations supposées entre les phénomènes économiques et mesurent
les paramètres de ces relations.
Les méthodes de l’économétrie permettent de vérifier l’existence de certaines relations entre les
phénomènes économiques et de mesurer concrètement ces relations, sur la base d’observations
des faits réels.

Méthodologie économétrique:

L’art de l’économétrie consiste à la recherche d’un ensemble d’hypothèses qui soit


suffisamment spécifique et réaliste afin de lui permettre de tirer le meilleur parti des données
dont il dispose.

1. Enoncer la théorie ou les hypothèses


Spécifier les modèles mathématiques qui supportent la théorie
Spécifier le modèle statistique ou économétrique
2. Obtenir ou recueillir les données
Estimer les paramètres d’un modèle économétrique
Tester les hypothèses
3. Evaluation du modèle
Accepter la théorie si compatible avec les données. Puis faire les prévisions

2
Rejeter la théorie si non compatible avec les données et dans ce cas, réviser la théorie et
confronter la nouvelle théorie avec les données.

Introduction sur le modèle linéaire:

Soit le modèle = + + ⋯+ + (1)

où est la variable dépendante, = ( , … )′ est le vecteur des variables explicatives,


le terme erreur et = ( )
est
,…, est l’inconnu du problème.

=
( , ) qui satisfasse les conditions suivantes:
Le but de l’économétrie est d’estimer ce modèle, c’est -à-dire, de trouver une fonction

i) Sans biais: ( ) = ; ii) optimisation d’un critère comme min (( − ) ) ; iii)

la loi des résidus est connue, on connait la loi conditionnelle / et on choisit .


minimisation de Var ( ) et iv) obéissance à un principe, comme le maximum de vraisemblance:

Type de données économétriques :

individu) en fonction de l’évolution dans le temps, c’est-à-dire = + + , ∈


1. Série temporelle ou chronologique: Observation d’un même phénomène (sur un même

{1, … , #} avec # moyennement grand, de l’ordre de 50 périodes.


Exemple (consommation et revenu): % = + & + # + , où % est la
consommation, & le revenu, # les prélèvements fiscaux.

individus en une période (instant) donné : , , , ' = 1, … , ( où ( est très grand


2. Données en coupe instantanée : observation d’un même phénomène sur plusieurs

(plusieurs milliers d’observation). C’est le type de données le plus adapté pour le calibrage
macro-économique.

de l’évolution dans le temps : , , , , , , ' = 1, … , ( où ( est grand (( >100), , =


3. Données de panel: Observation d’un même phénomène sur plusieurs individus en fonction

1, … , # où # est petit (#<10).

But de l’estimation :

1. L’estimation vérifie qu’une variable a bien un effet sur une variable , et quantifie cet
effet.

modélisée par : % = + & + # + , quel est l’effet de prélèvements fiscaux # sur


2. L’estimation peut aussi avoir un but de simulation. Si la consommation des biens est

la consommation, autrement dit, quel est le signe de ?

= , alors il y’a une probabilité


à déterminer, pour que ) =
3. L’estimation nous permet de faire la prévision : Si:
) .

3
CHAPITRE I REGRESSION LINEAIRE SIMPLE

Dans ce chapitre, nous étudierons le modèle linéaire à deux variables dans le but de tester les
hypothèses concernant la relation entre une variable dépendante et une variable indépendante
ou explicative et, de faire des prévisions.

I Hypothèses et données du problème

Cette analyse commence habituellement par le tracé d’un nuage de points {( , ), ' =
1, … , *} et la détermination par inspection d’une relation linéaire appropriée = + .
Puisque les points de ce tracé ne sont malheureusement pas sur la droite d’équation précédente,
l’on doit spécifier la relation en ajoutant un terme stochastique d’erreur normalement
distribué

= + + (2)

Sous les hypothèses suivantes :

+ : ( )=-=0
+ : / 0( ) = 1 = 23

+4 : ∀', 6 ∈ {1, … , *}, ' ≠ 6 ⟹ %9:; , < = = 0




• +> : Le vecteur des observations = ( , … . , @ )′ est connu.
Plus simplement, est connu et fixé sur l’échantillon répété, i.e., n’est pas

est aléatoire à cause de et = ( , ) est l’inconnue du problème.


aléatoire.

Les trois premières hypothèses reviennent à dire que les observations sont
indépendantes les unes les autres.

Notations utiles :

= ( ,…, @)
A
, 1(*, 1) est le vecteur colonne formé de 1 et = ( ,… @ )′
2. BC = @ ∑@ , EC = @ ∑@ et de .
1. .

3. Les valeurs ajustées sont obtenues au moyen de la droite de régression: GF = +


sont les moyennes des valeurs observées de

. Elles sont les « prédictions » de réalisées au moyen de la variable et de la


droite de régression de en .

G: GF = − G.F Ils représentent la partie inexpliquée des


4. Les résidus sont les différences entre les valeurs observées et les valeurs ajustées
F par la droite de

II Estimation de HI et de HJ par la méthode des moindres carrées ordinaires


régression.

(MCO).
II-1 Définition

consiste à trouver les estimations ( , ) des paramètres de l’équation (2) par


Le principe des moindres carrées ordinaires (MCO) par la régression linéaire simple

minimisation de la somme des carrées des écarts entre chacune des valeurs observées

4
et les valeurs ajustées GF = + : K(HI , HJ ) = ∑@ ̂ = ∑@ ( − −
) . Sous forme vectorielle : K(HI , HJ ) = || − HI 1(*, 1) − HJ || . Ainsi

( , ) = argmin(HI , HJ ) de K(HI , HJ ).

I-2 Propriétés

, ) par la méthode MCO sont définies


') = EC − BC
Théorème 1 Les estimateurs = (

O'') ∑ ST UT VWCXC
Q
= Q Y CY
par : (3)
R
N R
∑ ST VX

Preuve : K(HI , HJ ) = ∑@ ̂ = ∑@ ( − − )

P ') =0
Z [(HI ,HJ )
Z\]

O Z [(HI ,HJ )
1) Conditions du 1er ordre :
N'') =0
(4)

Z\Q
(i) de (4) donne ∑@ ( − − ) = 0 et par transformation, nous avons
C ^
+ B = E. (ii) de (4) donne

∑@ ( − − ) =0 (5)

∑ ST UT VWCXC
Q
= RQ .
∑ STY VXC Y
En remplaçant par sa valeur obtenue précédemment, nous avons
R

Exercice: Condition du second ordre: Ecrire cette condition et justifier qu’elle est vérifiée.

= = E^ − BC.
_`a(X,W) _db(X,W)
b\c(X) bef(X)
Exemple 1 1) Justifier que et

= ∑(@ − ∑(S VX )
TXC (S VXC)
C )Y
T
2) Justifier que (6)

') ∑( − BC) = ∑ − EC ∑
3) Justifier que g
'') ∑( − BC) = ∑ − BC ∑ = ∑( − BC)
(7)

4) Justifier que ∑( − BC) = 0 (8)

') ; < = = + <


5) Justifier que ∀6 ∈ {1, … , *}, g
'') / 0; < = = / 0; < = = 1
(9)

Théorème 2 Propriétés de MCO

1. ∑ = 0 et ∑ =0

5
( )= ( , )=
; ( ), ( )=, c’est-à-dire ( ) = et ( ) = .
2. et sont les estimateurs sans biais de et , c’est-à-dire

3. / 0( )= = 1\Q , / 0( )= = 1\] et
hY hY ∑ STY
∑(ST VXC )Y @ ∑(ST VXC )Y

%i/( , )=-
hY XC
∑(ST VXC)Y
.

estimateurs < (6 ∈ {0,1} ) sont de variance minimale.


4. Théorème de Gauss Markov: Parmi les estimations sans biais linéaires en , les

Preuve: 1) i) ∑ = ∑( − − ) = ∑ − * − ∑ = *EC − * − * BC =
*(EC − BC) − * . i) de (3) donne ∑ = *(EC − BC) − * = * − * = 0.

ii) En dérivant K(HI , HJ ) par , nous obtenons (5), c’est-à-dire ∑( − − ) =0=


∑ .

∑ ST UT VWCXC
Q

= RQ
∑ STY VXC Y
2) i) Nous avons . Avec (7), nous obtenons
R

=
∑(ST VXC )UT
∑(ST VXC )Y
(10)

( )= j ∑(ST VXC)²T l = ∑(S TVXC)² ( ). comme = + + ( )=


∑(S VXC)U ∑(S VXC )
T T
+ ( ). Puisque ( ) = 0, alors ( )= ( )=
Ainsi, alors
+ + . (10) devient
( + )= + . Avec la formule (8) et ∑( − BC) = 0, on
∑(ST VXC ) ∑(ST VXC ) ∑(ST VXC )ST
∑(ST VXC)² ∑(ST VXC)² ∑(ST VXC )²
obtient ( )= .

( )= (EC − BC) = (EC) − ( )BC = ∑ ( )− BC = ∑( + )− BC =


@ @
ii)
.

3) i) Montrons que / 0( )=
hY
∑(ST VXC )Y
.

= sont non corrélés, alors/ 0( )=


∑(ST VXC)UT
∑(ST VXC )Y
D’après (10), nous avons . Comme les

/ 0 j ∑(ST VXC)YT l = / 0( ) = ∑(S VXCT)Y . Avec (ii) de (9), nous obtenons le résultat.
∑(S VXC )U ∑(ST VXC)Y b\c(U )
Y
T (∑(ST VXC )Y ) T

ii) Montrons que / 0( )=


hY ∑ STY
@ ∑(ST VXC)Y
.

6
Avec la formule (6), nous avons / 0( ) = / 0 j∑ j − l l. Comme les
T XC (S VXC)
∑(S @ C )Y
T VX
sont

non corrélés, alors / 0( ) = ∑j − l . / 0( ). Comme / 0( ) = 1 , avec la


T XC (S VXC )
∑(S @ C )Y
T VX
formule (8), nous obtenons

/ 0( )=1 j + l.
XC Y
∑(S
@ C )Y
T VX
(11)

En réduisant au même dénominateur, nous avons V 0( )= .


hY ∑ STY
@ ∑(ST VXC)Y

Les trois dernières propriétés seront serviront de TPE.

II-3 Analyse de la variance

Nouvelles notations : %9:(B, E) = KXW , et / 0(E ) = KW est la variance marginale E et


/ 0(B ) = KX est la variance de B.

Définition 1. 1. Le coefficient de détermination est le réel positif noté & et définie par

Y [ Y ⟹ 0 = 2900( , ) = & (0 est le coefficient de corrélation empirique).


& = [mn
[ Y

m n

2. La variance de régression est la variance des valeurs ajustées KWo = @ ∑( − EC) .

3. La variance résiduelle Kp̂ = @ ∑ ̂

1. La variance de régression ou expliquée KWo peut également s’écrire KWo =


KW & .
Théorème 3.

2. La variance résiduelle Kp̂ = KW (1 − & ).

résiduelle: KW =KWo + Kp̂ .


3. La variance marginale ou totale est la somme de la variance de régression et de la variance

Preuve: 1) Montrons que KWo = KW & .

KWo = @ ∑( − EC) = @ ∑(EC + ( − BC) − EC) = ( [mn


Y ) ∑( − BC) = j [mn
Y l . KX =
[mn [ [
[m
Y
m @ m

. En multipliant et en divisant par KW , on obtient KWo = KW & .


[mn Y
[m
Y

2) Montrons que Kp̂ = KW (1 − & ) .

Kp̂ = @ ∑ ̂ = @ ∑( − F̂ ) = ∑( − − ) = @ ∑( − − EC+ [mn C


Y B ) . Ainsi,
[mn [
@ [m
Y
m

Kp̂ = @ ∑(( − EC) − [mn


Y ( − BC)) En développant, nous obtenons Kp̂ = KW − 2 KXW +
[ [mn
m [m
Y

KX = KW − = KW (1 − & ).
[mn Y [mn Y
[m
r [m
Y

7
3) Exercice

III. Inférence statistique

Nous souhaitons connaitre la loi des estimateurs afin de déterminer les intervalles ou régions de
confiance pour effectuer les tests.

• e ↝ t(-, 1
1. Nous supposons les hypothèses :

• - 0
• / 0 1 23
• ∀', 6 ∈ !1, … , *$, ' 7 6 ⟹ %9:; , < = 0.
2. Le modèle de régression linéaire s’écrie comme le modèle paramétrique u@ ,
vu , t ,1 .

GI , H
. Loi des estimateurs H G J et H GJ
GI , H

Proposition 1. Lois des estimateurs lorsque la variance 1 / 0 est connue.

• GI
↝ t ,/ 0 H
• GJ
↝ t ,/ 0 H
∑ xY
T VXC
• j\\] l ↝ t j\\] l , 1 / 0 / où / w R y.
Q Q ST VXC Y VXC
@V
• hY
1 suit une loi de z@V (chi deux) à (n-2) degrés de liberté.
• j\\] l et 1 sont indépendants.
Q

Proposition 2. Lois des estimateurs lorsque la variance 1 / 0 est inconnue


\{ V\{
• ∀6 ∈ !0,1$, G
h
↝ | @V }9' ~ K ~ * à * 2 ~ €0é3 ~ ‚' 0 é3 .
\] V\ ]
• GY
, /V ƒ „ ↝ … ,@V (Loi de Fisher à 2 degré de liberté
h \Q V\Q
au numérateur et à n-2 au dénominateur).

Proposition 3. Intervalle de confiance et région de confiance de niveau †

• Un intervalle de confiance de < 6 ∈ !0,1$ est donné par


Š
‡ < |@V , V
ˆ . 1\{ , < |@V , V
ˆ . 1\{ ‰ où |@V , V
ˆ est le quantile d’ordre 1 de
Y Y Y
la loi de Student à n-2 degrés de libertés.
@V Œ Y @V Œ Y
• Un intervalle de confiance de 1 est donnée par ‹_ ,_ • où %@V ,• est le
Ž Ž
R•Y,Q• R•Y,Q•
Y Y
quantile d’ordre ‘ de B@V .

Un des buts de la régression linéaire est de proposer des prévisions pour la variable à expliquer
.

8
Soit @) une nouvelle variable . Nous voulons prédire @) .

Nous supposons que, pour cette nouvelle observation @) , le modèle reste vrai, c’est.-à-dire;
E@) = + @) + @) + à +>
( @) ) = 0
avec les hypothèses et l’hypothèse

g / 0( @) ) = 1 = 23
∀' ∈ {1, … , *}, %9:( @) , ) = 0

Nous pouvons prédire la valeur correspondante grâce au modèle estimé. Ainsi @) = +


@) .

Deux types d’erreurs vont entacher notre prévision, l’une dû à la non connaissance de @) et
l’autre dû à l’estimation des paramètres. Nous obtenons le résultat suivant qui sera démontré
dans le cas général.

Proposition 4. Variance et erreur de la prévision @) .

est / 0( ) = 1² j + l.
(SR’Q VXC)²
• La variance de la valeur ajustée @) @) @ ∑(ST VXC )²
= @) − ̂@)

• @)
; ̂@) = = 0

L’erreur de prévision définie par satisfait les propriétés

suivantes : ”
/ 0; ̂@) = = 1² j1 + @ + ∑(S l
“ (SR’Q VXC)² .
VXC)² T

Exemple d’application (Exercice 1.12, page 29 du support)

On note = •– + •– , la droite de régression.


-Donnons l’expression de •– en fonction des statistiques élémentaires ci-dessus.
I.

˜ J = ™š›(œ,•) =
J
∑(œ¡ V¢^ )(•¡ V£
^)
— žHŸ(œ)
I
J ^)
∑(œ¡ V¢
.
I

- Calculons les valeurs de •– •– .

J ^ )(•¡ − £
^)
∑(œ¡ − ¢ ¤, ¤
˜
—J = I = = I, J
J ^) ¥, ¦
∑(œ¡ − ¢
I
˜I = £
— ˜ J¢
^−— ^ = J¥, §¨ − I, J . §¨, ¦ = JI, ¤J©

II. Donnons une mesure de la qualité de l’ajustement des données au modèle.

de détermination & . Evaluons donc & .


Une mesure de la qualité de l’ajustement des données du modèle passe par le coefficient

& étant le coefficient le carrée de corrélation empirique entre et , on a :

9
Y
Q
∑(œ¡ V¢^ )(•¡ V£
^) ‡
Q
^ )(•¡ V£
∑(œ¡ V¢ ^ )‰
& 0 2900 , ) = ª Y]
¬ = Q
Y]
^ ) . J ∑(•¡ V£^)
Q
« ∑(œ¡ V¢ ^ ) . J ∑(•¡ V£
^) ∑(œ¡ V¢
Y] I Y] I

(6,26)
= = 0,486 ≈ 0,5
28,29. 2,85

Commentaire: Le modèle de régression linéaire explique sensiblement la moitié de la variance


des données du modèle. On peut donc conclure d’une bonne qualité de l’ajustement des
données au modèle. Le modèle de régression linéaire dans lequel on essaie d’expliquer la
hauteur ( ) d’un arbre par son diamètre ( ) est significatif au sens du rapport entre ces deux
variables.

3 ) Nous traiterons cette question au chapitre 2.

10
CHAPITRE II : LA REGRESSION LINEAIRE MULTIPLE OU MODELE LINEAIRE
A PLUSIEURS VARIABLES

I Rappel d’algèbre linéaire

On donne E, ∈ ℝ@ (E et sont des matrices d’ordre * x 1 ou des vecteurs colonnes) et B une


matrice d’ordre * x ´.

µ = (E − B )A (E − B ) = (E A − A
B A )(E − B ) = E A E − E A B − A
BAE + A
BAB .

¶(E A B ) ¶( B A B ) ¶( A B′E)
= E A B, = B A B + B A B = 2B A B , = E A B.
¶ ¶ ¶
.
SQ
¹̧ . ¼ ¹̧ ¼
. .. . SQ
.
Soient les matrices : = 1(*, 1) = , B = ½ T. ¾ , B = (B , B ) =
» ».
S
.. 4 .
ST
..
@
· º · SR º

Définissons les projections ¿ , ¿ et ¿4 orthogonales sur des sous-espaces engendrés par


B , B et B4.

¿ est une application de ℝ@ vers / 2 (B ) définie par ∀E ∈ ℝ@ , ¿ (E) = ÀB .

DéterminonsÀ

< E − ¿ (E), B > = 0, c’est-à dire < E, B > −ÀÃ|B |Ã 0. Ainsi À =


ÄW,XQ Å
EC.
∑ UT
Ã|XQ |Ã
Y

Donc ∀E ∈ ℝ@ , ¿ (E) = ECB .


@

¿ est une application de ℝ@ vers / 2 (B ) définie par ∀E ∈ ℝ@ , ¿ (E) = ÀB .

Déterminons À.

< E − ¿ (E), B > = 0, c’est-à dire < E, B > −ÀÃ|B |Ã 0. Ainsi À =


ÄW,XY Å ∑ ST U T
Ã|XY |Ã
Y
∑ STY
.

Donc ∀ E ∈ ℝ@ , ¿ (E) = B .
∑ ST U T
∑ STY

¿4 est une application de ℝ@ vers / 2 (B4 ) = / 2 (B , B ) définie par ∀ E ∈ ℝ@ , ¿4 (E) =


À B +À B .

Déterminons À À

< E − ¿4 (E), B > = 0 < E, B > −À Ã|B |Ã À < B , B >= 0


Æ
< E − ¿ (E), B > = 0 < E, B > −À < B , B > −À Ã|B |Ã > 0
, c’est-à-dire,” . Ainsi

À Ã|B |Ã À < B , B > = < E, B >


” .
À < B , B > +À Ã|B |Ã > < E, B >

11
Nous avons: ¿X B BAB V
B′ et ¿X ⊥ È ¿X .

Lemme1. Soit A une matrice symétrique de trace #0(É) et B = (B , … , B@ ) un vecteur


aléatoire de * variables d’espérance nulle et vérifiant ;B B< = = 0, et de variance / 0(B) =
Ê È@ . Alors, (B A ÉB) = Ê #0(É).

Preuve: (B A ÉB) = (∑ B +∑ <B B< ) = (∑ B )+ (∑ <B B< ) =


∑ (B ) + ∑ < < ;B B< = = ∑ Ê .

II Modélisation

II.1 Description du modèle de régression multiple


Le modèle de régression multiple est une généralisation du modèle de régression simple

collecter est le suivant: ∀' ∈ {1, … , *}, = • + • +• + ⋯ + •“ “ + où < sont


lorsque les variables explicatives sont en nombre fini. Nous supposons dont que le modèle à

les nombres connus et non aléatoires.

Les paramètres à estimer •< du modèle sont inconnus.

Les sont des variables aléatoires inconnues.

II.2 Ecriture matricielle du modèle de régression multiple

Description : Un modèle de régression linéaire multiple est défini de la forme


E = Xβ + e (12)

Sous forme matricielle:


. . . SQQ . . . SQÎ Ï]
UQ pQ

¹̧ ¼ ¹̧ ¼
. . .
¹̧ U ¼ . . . STQ . . . STÎ ¹̧ ¼
. »= » Ï. T »
+ . »
pT
¸ » ¸ »¸ » ¸ »
T

¸ »¸ »
(13)

.
· @º • ·pR º
·1 @ . . . @“ º · “ º

Où : E est un vecteur aléatoire de dimension *,

B = (1(*, 1)|B | … . . |B“ est une matrice de taille * × ´ 1) connue. La matrice


(B | … . . |B“ obtenue par la concaténation des variables B< de dimension * est appelée matrice
du plan d’expérience.

• est le vecteur de dimension ´ 1 des paramètres du modèle

est le vecteur aléatoire de dimension * des erreurs.

12
Hypothèses :

• + : = - = 0. Plus généralement, = 0ℝR .


• +: / 0 = 1 = 23 . Plus généralement, / 0 = 1 I@ .
• +4 : ∀', 6 ∈ !1, … , *$, ' ≠ 6 ⟹ %9:; , < = = 0
• +> : La matrice des observations (B | … . . |B“ est connue.
• +Ò Les vecteurs colonnes de la matrice du plan d’expérience B = B | … . . |B“ sont
non colinéaires.
On dit que B est de plein rang ou 0 *€ B = ´ + 1.

N.B. : Dans le cas de la régression linaire simple, +Ò ne s’impose pas, car nous avons un seul
vecteur d’observations = , … @ ) qui est par conséquent libre.

Proposition 5 Si 0 *€ B = ´ + 1, alors B′B est inversible.

Preuve: (Par l’absurde) Supposons que 0 *€ B = ´ + 1 et que B′B n’est pas


inversible.
Comme B′B est non inversible, alors ∃ Ô ≠ 0/B A BÔ = 0. Ainsi, Ô′B A BÔ = 0, c’est-à-
dire, ||BÔ|| = 0. Ainsi, BÔ = 0. Il existe donc une combinaison linéaire nulle des Xi.
Ce qui contredit le fait que 0 *€ B = ´ + 1.

II.3 Estimateur des moindres carrées

Définition 2. On appelle estimateur des moindres carrés •– de • la valeur suivante :

•– = 0€Õ'* ∑ ; − ∑ •< <= = 0€Õ'* E − B• A


E − B• .

Théorème 4. Si l’hypothèse +Ò est vérifiée, l’estimateur des Ö%i vaut •– = B′B V


B′E.

Preuve: Déterminons la valeur de • qui minimise µ • = E − B• A E − B• = E A E −


E A B• − • A B A E + • A B A B•.
Z× Ï
L’égalité ZÏ
= 0 donne 2B A E − B• = B A E − B A B• = 0, c’est-à-dire B A B• = B A E.
Comme +Ò est vérifiée, la Proposition 5 implique B′B est inversible. Donc •Ø_d =
B′B V B′E.

Proposition 6. L’estimateur •– des moindres carrés est un estimateur sans biais de • et de


variance /;•– = = Ê B′B V
.

V
Preuve : •Ø_d = B′B B′E.

i) Montrons que •Ø_d = •.


•Ø_d = B′B V B A E = B′B V
B′ E (16)

Car est un opérateur linéaire. Comme E = B• + et = 0, (voir + ) alors E = B•.


En remplaçant cette valeur de E dans (16), nous obtenons •Ø_d = B′B V B A B• = •.
13
ii) Montrons que /;•– = Ê B′B V
.

/ •Ø_d / B′B V
BAE B′B V
BA / E B′B V
BA A
( 17)

Comme E B• et / Ê È@ , alors / E / Ê È@ . En remplaçant cette valeur de


/(E)
/(•Ø_d ) = ((B′B) B )Ê È@ B((B′B) ) = Ê (B′B) B′B(B′B) = Ê (B′B) .
V A V A V V V
dans (17), nous avons

Théorème 5. Théorème de Gauss-Marko : l’estimateur •– est moindres carrés est optimale


parmi les estimateurs linéaires sans biais de •.

Preuve : Travail personnel de l’étudiant.


III Résidus et Variance résiduelle

Définition 3. Soient E et Eo les valeurs observées et estimées respectivement.


Les résidus sont définis par la relation ̂ = E − Eo.

Proposition 7. 1. Les résidus sont toujours orthogonaux à Eo et ̂ = ¿(E).

2. ̂ et •– sont non corrélés.

( ̂ ) = 0.
4. / 0( ̂ ) = Ê ¿X •Q .
3.

5. ') ( ̂ A ̂ ) = (* − ´ − 1)Ê .
ii) La statistique Ê = @V“V est un estimateur sans biais de Ê .
p̂ Ù p̂

Preuve: 1) Montrons que ̂ ⊥ Eo.

A l’aide du modèle E = B• + , nous avons: ̂ = E − B•– = E − B(B′B)V B A E = (È −


B(B′B)V B A )E = (È − ¿X )E = ¿X ⊥ (E). Comme ¿X ⊥ (E) = ¿X ⊥ (E) − 0 = ¿X ⊥ (E) −
¿X ⊥ (B•) = ¿X ⊥ (E − B•) = ¿X ⊥ ( ), nous obtenons ̂ = ¿X ⊥ ( ) ⟹ ̂ ∈< B >Ú .

Ainsi Eo = B•– ∈ < B > et ̂ ∈ < B >Ú . Donc ̂ est orthogonal à Eo.

2) Montrons que ̂ et •– sont non corrélés, c’est-à-dire, j ̂ ;•– − •= l = 0.


A

Montrons d’abord que

(•– − •)′ = ′B(B′B)V . (18)

•– − • = (B′B)V B A E − • = (B′B)V B A E − (B′B)V B A EC = (B′B)V B A (E − EC) = (B′B)V B A

D’où le résultat.

14
j ̂ ;•– ¿X ⊥ e;•–
A A
•= l •= car le premier résultat précédent. Ainsi (18) donne
j ̂ ;•–
A
•= l ¿X ⊥ eeA B B′B V
¿X ⊥ eeA B B′B V
¿X ⊥ Ê È@ B B′B V

Ê ¿X ⊥ B B′B V
0, car ¿X ⊥ B = 0.

3) Montrons que ( ̂ ) = 0.

( ̂ ) = ;¿X ⊥ ( )= = ¿X ⊥ ; ( )= = 0, car ( ) = 0.

4) Montrons que / 0( ̂ ) = Ê ¿X ⊥.

/ 0( ̂ ) = / 0;¿X ⊥ ( )= = ¿X ⊥ / 0( )¿AX ⊥= Ê È@ ¿X ⊥ ¿AX ⊥= Ê ¿X ⊥.

5) i) Montrons que ( ̂ A ̂ ) = (* − ´ − 1)Ê .

̂ = (È − ¿X ) et ̂ A = ′(È − ¿X )′. Ainsi ̂ A ̂ = A (È − ¿X )′(È − ¿X ) = A (È − ¿X ) = A È −


′¿X . ( ̂ A ̂ ) = ( A È ) − ( ′¿X ). En appliquant le Lemme 1, nous obtenons ( ̂ A ̂ ) =
Ê #0(È) − Ê #0(¿X ) = Ê * − Ê (´ + 1) = Ê (* − ´ − 1).

ii) Montrons que Ê = @V“V est un estimateur sans biais de Ê .


p̂ Ù p̂

̂A ̂ 1 1
;Ê– = = w y= ( ̂ A ̂) = (* − ´ − 1)Ê = Ê .
*−´−1 *−´−1 *−´−1

IV Prévision

Modèle :

E = •B +
” + à +Ò .
* 9 3 0: '9*3

Supposons que pour une observation de rang * + 1, noté ′@) = ; @) , ,…, @) ,“ =, le


modèle reste vrai:

E@) = •B@) + @)
+ à +Ò
Û .
( @) ) = 0
∀' ∈ {1, … , *}, 29:( @) , ) = 0

Définition 4. La prévision Ö%i de est = ′@) •– .



@)

= A @) •– est le meilleur prédicteur linéaire en .



Proposition 8. @) @)
Preuve : Montrons que ; @) − @) = = 0.
sans biais de

; “
@) − @) == ; A
@) •– − A
@) •− @) == A
@) ;•– − •= − ( @) ) = 0.

Soit Ü@) un prédicteur linéaire sans biais de @) .

15
Ü@) Ü@) A
@) • . Comme Ü@) est une combinaison linéaire
des , … , @ , c’en est une des , … , @ , donc ( Ü@) − A @) •) et @) ne sont pas corrélés,
@)

d’où (( Ü@) − @) ) ) = (( Ü@) − A @) •) ) + ( @) ). En raison du Théorème de


Gauss-Markov, le meilleur estimateur Ü@) de A @) • est A @) •– .

Calculons la variance de la prévision : / 0; Ü@) − A


@) •– = = / 0; A
@) ;• − •– = + @) ==
/ 0j A
@) ;• − •– =l + / 0 ( @) )=Ê A
@) (B A B)V @) +Ê .

l’estimation de • sur les seuls , … , @


Le second terme est l’erreur standard du modèle, le premier représente l’erreur due à

L’erreur de prévisions est “


@) = @) − “
@) .

L’espérance de l’erreur:

; == ; − == ( )− ; == •− ;•– = = 0.
“ “ “ A
@) @) @) @) @) @) @)

/ 0; “
@) = = / 0; @) − “
@) = = / 0; A
@) •+ @) − @) •– =
= / 0( @) ) + / 0; @) •– = = Ê + @) / 0;•– = @)
=Ê + @) Ê (B B) = Ê (1 + (B A B) @) ).
A
@) @)

Proposition 9. (È* 0: ‚‚ ~ 29*Ý' *2 ~ ´0é:'3'9*3 )


niveau1 − †, @)

‡ •– ± @V“, Ê– ß A @) (B A B)V + 1‰.


Un intervalle de confiance, de pour est donné par
A
@) @)

V Analyse de la variance

Hypothèse: on suppose que la constante est incluse dans les variables explicatives.

Théorème 6. (~é29Õ´93' '9* ~ ‚ : 0' *2 )


Si la constante est incluse dans les variables explicatives, la variance se décompose comme :

∑( − C) = @ ∑( − )² + @ ∑ ̂ .
@
(19)

(/ 0' *2 9 ‚ = : 0' *2 ´‚'à é + : 0' *2 0é3'~ ‚‚ ).

Preuve: Travail personnel de l’étudiant.


Cette équation permet de définir une mesure synthétique de l’ajustement du modèle :

Définition 5. (& ).

& =1− .
Œ̃ Y
Œ̃á
Y (20)

16
Du fait du théorème de décomposition, & ∈ â0,1ã, et & = 1 − . Comme & fait
∑ p̂TY
∑(UT VUC)Y
intervenir la variance de E, il est sensible à la forme de la modélisation.

En outre, on a le problème que le & augmente mécaniquement quand la liste des variables
explicatives augmentent.

Définition 6. (& ) 6 3 é

&\<äå é = 1 − ∑(UT .
∑(U VU)Y
C)²
T VU
(21)

On part du modèle et du jeu d’hypothèses de section précédente. On suppose en outre que


Hypothèse :

+æ : ↷ ((0, Ê ). (22)

Propriétés Sous +æ , les estimateurs Ö%i vérifient les propriétés suivantes :


1. •–Ø_d ↷ ((•, Ê (B A B)V ).
2. (( − è − 1) ŒY ↷ z (( − è − 1).
Œ̃ Y

Intervalle de confiance

Définition 7. (È* 0: ‚‚ ~ 29*Ý' *2 ) Un intervalle de confiance au seuil (1 − †) pour


un paramètre • est la donnée d’un intervalle â , ã tel que ¿(• ∈ â , ã) = 1 − †.

Proposition 10. Soit ~ le kème élément de la diagonale de (B A B)V ).

↷ #(* − ´ − 1).
Ï̃é VÏé
Œ̃ßêé

Preuve: Exercice
Un intervalle de confiance, de niveau 1 − †, pour • est donné par

ë•– − Ê– ß ~ @V“V , •– + Ê– ß ~ @V“V ì.

Test d’hypothèse

Le problème consiste à tester la valeur d’un coefficient de régression particulier, c’est-à-dire,


nous posons:

+ : •< =
Æ .
+ : •< ≠

Sous + , •< ↷ t( , ÊÏ{ ) où ÊÏ{ = â(B A B)V 1 ã<< qui est estimée par 1Ï{ = â(B A B)V 1 ã<< .

17
Ê ↷ z@V“V . Donc ÊÏ{ =
@V“V
et •– sont indépendants et que
@V“V
Rappelons que Ê
ŒY Œí
Y
{
G Y ì{{
(@V“V )ë(X Ù X)•Q h
↷ z@V“V . De plus, ↷ t(0,1).
Ï̃{ Vî
â(X Ù X)•Q h
G Y ã{{ Œ̃í
{

í̃{ •ï

Sous + , la statistique du test est : = = ↷ (loi de student à * − ´ −


ð̃í
{ Ï̃{ Vî
(R•ΕQ)ðY Œ̃í @V“V
« {
(R•ΕQ)ðY

1) degré de libertés).

La règle de décision : On rejette + si |t| > V ,@V“V


ˆ . Lorsque = 0, on parle de test de
signification de •< .
Y

Exemple d’application (Exercice 1.12, page 29 du support)

3) Les estimations des écarts types de •– et de •– donnent Ê–Ï] = 1,89 etÊ–ÏQ = 0,05. Testez
+ : •< = 0 contre + : •< ≠ 0 pour j = 0,1.

i) Testons + : • = 0 contre + : • ≠ 0. Il s’agit ici d’effectuer un test de signification de la


constante dans le modèle. Pour cela on utilise la statistique de Student à 18 degré de liberté.

Sous + , Œ̃ ↷ ò j1 − l = 2,101.
] Ï̃ , Ò
í]

= 5,[Link] a |t| > − l. Donc


Ï̃ ,æ ô , Ò
Soit la statistique de test associé: |t| óŒ̃ ] ó ,òõ ò j1

on rejette + . On conclut au risque 5% que la constante a un effet significatif sur la hauteur


í]

des arbres.

ii) Testons + : • = 0 contre + : • ≠ 0. Il s’agit de tester l’effet de l’absence du diamètre ( )


sur la hauteur ( ) en effectuant le test signification de • . La statistique de test est la loi de
Student à 18 degré de liberté.

Sous + , Œ̃ Q ↷ ò j1 − l = 2,101.
Ï̃ , Ò
íQ

Soit ′ la statistique de test associé: |t′| = 4,42. On a |t′| > − l.


Ï̃ , , Ò
óŒ̃ Q ó , Ò ò j1

Donc on rejette + . On conclut au risque 5% que le diamètre d’un arbre a un effet significatif
íQ

sur sa hauteur.

18

Vous aimerez peut-être aussi