0% ont trouvé ce document utile (0 vote)
101 vues64 pages

EMCO Cours

Transféré par

boubacar medmahmoud
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
101 vues64 pages

EMCO Cours

Transféré par

boubacar medmahmoud
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Sur l’Estimateur des Moindres Carrés Ordinaires (emco)

Christophe Chesneau

To cite this version:


Christophe Chesneau. Sur l’Estimateur des Moindres Carrés Ordinaires (emco). Master. France.
2017. �cel-01387714v2�

HAL Id: cel-01387714


[Link]
Submitted on 9 Jan 2017 (v2), last revised 6 Feb 2017 (v4)

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
Université de Caen

Sur l’Estimateur des Moindres Carrés Ordinaires (emco)

Christophe Chesneau

[Link]

Caen, le 04 Janvier 2017


Table des matières

Table des matières

1 Modèle de régression linéaire multiple et emco 5

2 Cas particulier : le modèle de régression linéaire simple 15

3 Propriétés standards et lois associées 31

4 Retour sur le modèle de rls 43

5 Intervalles et volumes de confiance 45

6 Tests statistiques 51

Index 63

∼ Note ∼
Ce document résume les notions abordées dans la première partie du cours Statistique 2 du
M1 orienté statistique de l’université de Caen (la deuxième partie concerne l’ANOVA à 1 et
2 facteurs).
L’enjeu de ce document est de présenter les fondations théoriques sur lesquelles repose l’es-
timateur des moindres carrés ordinaires. Des jeux de données et des commandes R viennent
illustrer la théorie.
Je vous invite à me contacter pour tout commentaire :

[Link]@[Link]

Bonne lecture !

C. Chesneau 3
1 Modèle de régression linéaire multiple et emco

1 Modèle de régression linéaire multiple et emco

Modèle de régression linéaire multiple (rlm) ; forme générique


On souhaite prédire et/ou expliquer les valeurs d’une variable quantitative Y à partir des valeurs
de p variables X1 , . . . , Xp . On dit alors que l’on souhaite "expliquer Y à partir de X1 , . . . , Xp ", Y est
appelée "variable à expliquer" et X1 , . . . , Xp sont appelées "variables explicatives".
Pour ce faire, on dispose de données qui sont n observations de (Y, X1 , . . . , Xp ) notées
(y1 , x1,1 , . . . , xp,1 ), (y2 , x1,2 , . . . , xp,2 ), . . . , (yn , x1,n , . . . , xp,n ). Elles se présentent généralement sous
la forme d’un tableau :
Y X1 ... Xp

y1 x1,1 ... xp,1


y2 x1,2 ··· xp,2
.. .. .. ..
. . . .
yn x1,n . . . xp,n

Si une liaison linéaire entre Y et X1 , . . . , Xp est enisageable, on peut considérer le modèle de régression
linéaire multiple (rlm). Sa forme générique est

Y = β0 + β1 X1 + . . . + βp Xp + ,

où β0 , . . . , βp sont des coefficients réels inconnus et  est une variable quantitative de valeur moyenne
nulle, indépendante de X1 , . . . , Xp , qui représente une somme d’erreurs aléatoires et multifactorielles
(erreurs de mesures, effets non prévisibles, variables omises. . . ).

Notre principal objectif est d’estimer convenablement β0 , . . . , βp à l’aide des données. Entre autres,
cela nous permettra de mesurer l’importance des variables X1 , . . . , Xp dans l’explication de Y et de
prédire avec précision la valeur moyenne de Y pour une nouvelle valeur de (X1 , . . . , Xp ).

C. Chesneau 5
1 Modèle de régression linéaire multiple et emco

Exemples
Loyers : On peut considérer le jeu de données "loyers" :

[Link]

Dans un quartier parisien, une étude a été menée afin de mettre en évidence une relation entre le
loyer mensuel et la surface des appartements ayant exactement 3 pièces.
Pour 30 appartements de ce type, on dispose :
◦ de la surface en mètres carrés (variable X1),
◦ du loyer mensuel en francs (variable Y ).

Fromages : On peut considérer le jeu de données "fromages" :

[Link]

Le goût d’un fromage dépend de la concentration de plusieurs composés chimiques, dont :


◦ la concentration de l’acide acétique (variable X1),
◦ la concentration d’hydrogène sulfuré (variable X2),
◦ la concentration d’acide lactique (variable X3).
Pour 30 types de fromage, on dispose du score moyen attribué par des consommateurs (variable Y ).
On souhaite expliquer Y à partir de X1, X2 et X3.

NBA : On peut considérer le jeu de données "nba" :

[Link]

On souhaite expliquer le poids d’un basketteur professionnel de la NBA à partir de sa taille et de


son âge. Ainsi, pour 505 basketteurs de la NBA, on dispose :
◦ de leur poids (variable Y ),
◦ de leur taille (variable X1),
◦ de leur âge (variable X3).
On souhaite expliquer Y à partir de X1 et X3 (pour information, on dispose aussi de leur rôle sur le
terrain (variable qualitative X2) mais on ne souhaite pas l’inclure dans le modèle ici).

C. Chesneau 6
1 Modèle de régression linéaire multiple et emco

Modèle de rlm
On modélise les variables considérées comme des variables aléatoires réelles (var) (définies sur un
espace probabilisé (Ω, A, P)), en gardant les mêmes notations par convention. À partir de celles-ci, le
modèle de rlm est caractérisé par : pour tout i ∈ {1, . . . , n},
◦ (x1,i , . . . , xp,i ) est une réalisation du vecteur aléatoire réel (X1 , . . . , Xp ),
◦ sachant que (X1 , . . . , Xp ) = (x1,i , . . . , xp,i ), yi est une réalisation de

Yi = β0 + β1 x1,i + . . . + βp xp,i + i ,

où i est une var indépendante de X1 , . . . , Xp avec E(i ) = 0.


D’autres hypothèses sur 1 , . . . , n seront formulées ultérieurement.
Écriture matricielle du modèle de rlm
Le modèle de rlm peut alors s’écrire sous la forme matricielle : Y = Xβ + , où

       
 Y1  1 x1,1 · · · xp,1   β0   1 
       
 Y2  1 x1,2 · · · xp,2   β1   2 
Y =  . , X = . , β =  . ,  =  . .
       
 ..   .. .. .. ..   ..   .. 
   . . . 
   
       
Yn 1 x1,n · · · xp,n βp n

Estimateur des moindres carrés ordinaire ; un résultat central


Soient k.k la norme euclidienne : pour tout vecteur colonne x, kxk2 = xt x = somme des
carrés des composantes de x. Partant du modèle de rlm écrit sous la forme matricielle :
Y = Xβ + , un estimateur des moindres carrés ordinaires (emco) βb de β vérifie :

βb ∈ argmin kY − Xβk2 .
β∈Rp+1

On suppose que X est de rang colonnes plein : il n’existe pas de vecteur colonne x à p + 1
composantes non nul tel que Xx = le vecteur nul (cela entraîne l’existence de (X t X)−1 ).
Alors βb est unique ; il est donné par la formule :

βb = (X t X)−1 X t Y.

C. Chesneau 7
1 Modèle de régression linéaire multiple et emco

Preuve : Posons
f (β) = kY − Xβk2 , β ∈ Rp+1 .

Comme βb ∈ argminβ∈Rp+1 f (β), βb est un extremum de f (β), et


βb extremum de f (β) ⇒ f (β)
b = 0, j ∈ {0, . . . , p}.
∂βj

Simplifions l’écriture de f (β). En utilisant les formules : (A + B)t = At + B t et (AB)t = B t At , il vient

f (β) = kY − Xβk2 = (Y − Xβ)t (Y − Xβ) = (Y t − (Xβ)t )(Y − Xβ)

= (Y t − β t X t )(Y − Xβ) = Y t Y − Y t Xβ − β t X t Y + β t X t Xβ.

Comme Y t Xβ est la multiplication d’un vecteur ligne Y t par un vecteur colonne Xβ, c’est un réel. Par consé-
quent, il est égal à sa transposé ; on a Y t Xβ = (Y t Xβ)t = (Xβ)t (Y t )t = β t X t Y . Il vient

f (β) = Y t Y − 2β t X t Y + β t X t Xβ.


Pour tout j ∈ {0, . . . , p}, déterminons la dérivée partielle ∂βj f (β). Soit ej le vecteur colonne à p+1 composantes
avec p composantes nulles, sauf la j + 1-ème qui vaut 1. En utilisant la formule :
(u(x)v(x))0 = u0 (x)v(x) + u(x)v 0 (x), il vient

∂ ∂ ∂ ∂ ∂
f (β) = (Y t Y − 2β t X t Y + β t X t Xβ) = (Y t Y ) − 2 (β t X t Y ) + (β t X t Xβ)
∂βj ∂βj ∂βj ∂βj ∂βj
= 0 − 2etj X t Y + etj X t Xβ + β t X t Xej .

Comme etj X t Xβ est la multiplication d’un vecteur ligne etj X t par un vecteur colonne Xβ, c’est un réel. Par
conséquent, il est égal à sa transposé ; on a etj X t Xβ = (etj X t Xβ)t = (Xβ)t (etj X t )t = β t X t Xej . Donc


f (β) = −2etj X t Y + 2etj X t Xβ.
∂βj

Il s’ensuit

∂ b = 0 ⇔ −2et X t Y + 2et X t X βb = 0 ⇔ et X t X βb = et X t Y.
f (β) j j j j
∂βj

C. Chesneau 8
1 Modèle de régression linéaire multiple et emco

Comme cela est vraie pour tout j ∈ {0, . . . , p} et que etj X t X βb calcule la j-ème ligne de la matrice X t X β,
b

il vient


f (β)
b = 0, j ∈ {0, . . . , p} ⇔ X t X βb = X t Y.
∂βj

Comme (X t X)−1 existe, l’égalité (X t X)−1 X t X = Ip+1 entraîne

X t X βb = X t Y ⇔ (X t X)−1 X t X βb = (X t X)−1 X t Y ⇔ βb = (X t X)−1 X t Y.

Au final, on a

βb extremum de f (β) ⇒ βb = (X t X)−1 X t Y.

Il reste à montrer que βb est bien un minimum pour f (β). Pour cela, on calcule la matrice hessienne
∂2
 
H(f ) = f (β) et on montre qu’elle est définie positive : pour tout vecteur colonne
∂βj ∂βk (j,k)∈{0,...,p}2
non nul x à p + 1 composantes, on a xt H(f )x > 0. Pour tout (j, k) ∈ {0, . . . , p}2 , on a

∂2
 
∂ ∂ ∂
f (β) = f (β) (−2etj X t Y + 2etj X t Xβ)
=
∂βj ∂βk ∂βk ∂βj ∂βk
∂ ∂
= −2 (et X t Y ) + 2 (et X t Xβ) = 0 + 2etj X t Xek = 2etj X t Xek .
∂βk j ∂βk j

Donc
H(f ) = 2etj X t Xek = 2X t X.

(j,k)∈{0,...,p}2
 
x
  0
.
Pour tout x =  .
 .  non nul, comme X est de rang colonnes plein, on a
 
xp

xt H(f )x = xt (2X t X)x = 2xt X t Xx = 2(Xx)t Xx = 2kXxk2 > 0.

Ainsi H(f ) est définie positive ; βb est bien un minimum pour f (β). On en déduit que

βb ∈ argmin kY − Xβk2 ⇔ βb = (X t X)−1 X t Y.


β∈Rp+1

C. Chesneau 9
1 Modèle de régression linéaire multiple et emco

Emco de βj
   
β0   β0 
b
.
. b  .. 
 
 .  s’écrit sous la forme β =  . . Ainsi, pour tout j ∈ {0, . . . , p}, la
L’emco βb de β = 
   
βp βbp
j + 1-ème composante de β,
b notée βbj , est l’emco de βj .

Dorénavant, βb désignera l’emco de β et βbj l’emco de βj .

Estimateur de la valeur moyenne

◦ On appelle valeur moyenne de Y quand (X1 , . . . , Xp ) = (x1 , . . . , xp ) = x le réel inconnu :

yx = E(Y |{(X1 , . . . , Xp ) = x}) = β0 + β1 x1 + . . . + βp xp .

◦ Un estimateur de yx est
Ybx = βb0 + βb1 x1 + . . . + βbp xp .

En posant x• = (1, x1 , . . . , xp ), on a yx = x• β et Ybx = x• β.


b

Estimations ponctuelles

◦ Une estimation ponctuelle de β est la réalisation b de βb correspondante aux données :

b = (X t X)−1 X t y, .
   
 y1  b0 
.
.. . On peut écrire b sous la forme b =  ... . Ainsi, pour tout j ∈ {0, . . . , p},
 
avec y =    
   
yn bp
la j + 1-ème composante de b, notée bj , est une estimation ponctuelle de βj .
◦ Soit x• = (1, x1 , . . . , xp ). Une estimation ponctuelle de yx = x• β est la réalisation dx de
Ybx = x• βb correspondante aux données :

dx = x• b = b0 + b1 x1 + . . . + bp xp .

On dit que dx est la valeur prédite de Y quand (X1 , . . . , Xp ) = x.

C. Chesneau 10
1 Modèle de régression linéaire multiple et emco

Coefficient de détermination
Soit 1n le vecteur colonne à n composantes égales à 1. On pose

n
1X
Yb = X β,
b Y = Yi
n
i=1

et
2
b2 = 1 − kY − Y k .
b
R
kY 1n − Y k2

On appelle coefficient de détermination la réalisation R2 de R


b2 correspondante aux données.
Avec les notations déjà introduites, on peut écrire :

kXb − yk2
R2 = 1 − .
ky1n − yk2

On a toujours R2 ∈ [0, 1] et

plus le modèle de rlm est pertinent ⇔ plus y devrait être proche de Xb


m
plus kXb − yk2 devrait être proche de 0 ⇔ plus R2 devrait être proche de 1.

Une version améliorée du R2 est le coefficient de détermination ajustée défini par

2 n−1
R =1− (1 − R2 ).
n − (p + 1)

Mise en œuvre avec le logiciel R

Pour illustrer les notions précédentes avec le logiciel R, on peut considérer le jeu de données "profs".
Dans une étude statistique, 23 professeurs sont évalués quant à la qualité de leur enseignement. Pour
chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .

C. Chesneau 11
1 Modèle de régression linéaire multiple et emco

Le jeu de données est disponible ici :

[Link]

Écrire dans une fenêtre R :


w = [Link]("[Link] header = T)
attach(w)
head(w)
Cela renvoie l’entête du jeu de données :

Y X1 X2 X3 X4 X5
1 489 81 151 45.50 43.61 1
2 423 68 156 46.45 44.69 1
3 507 80 165 76.50 54.57 1
4 467 107 149 55.50 43.27 1
5 340 43 134 49.40 49.21 1
6 524 129 163 72.00 49.96 1

Le modèle de rlm est envisageable. Sa forme générique est

Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + .

où β0 , β1 , β2 , β3 , β4 et β5 sont des coefficients réels inconnus.


On le considère sous sa forme matricielle : Y = Xβ + , où
 
1 81 151 45.50 43.61 1      

1 68 156 46.45
  Y1  β0   1 
 44.69 1       
Y  β   
   2  1  2
1 80 165 76.50 54.57 1
       
 Y3  β2   3 
       
X = 1 107 149 55.50 43.27 1 ,  ,
Y =  ,
β=  .
=
    



  Y4  β3   4 
1 43 134 49.40 49.21 1
 
 . 
   
 . 
 ..   .. 
   
β 

1 129 163 72.00
    4  
 49.96 1       
. .. .. .. .. ..  Y23 β5 23
.. . . . . .

Nous allons maintenant étudier l’estimation ponctuelle de β par la méthode des moindres carrés
ordinaires.

C. Chesneau 12
1 Modèle de régression linéaire multiple et emco

Il s’agit donc de calculer le vecteur colonne b défini par

 
489
 
423
b = (X t X)−1 X t y, y =  .
 
507
 
..
 
.

Introduisons la matrice X composée des colonnes "que des 1", X1, X2, X3, X4 et X5 :

X = cbind(1, X1, X2, X3, X4, X5)

En utilisant les commandes R : %*% = produit matriciel, t(A) = At et solve(A) = A−1 ,


calculons b = (X t X)−1 X t y :

b = solve(t(X) %*% X) %*% t(X) %*% Y


b
Cela renvoie :    
b0  −272.04
   
b   0.79 
 1  
   
b2   2.68 
   
b=
 =
  .

b3   −1.44 
   
   
b   6.83 
 4  
   
b5 14.90

Entre autre, ces estimations nous permettent de faire des prédictions sur Y pour de nouvelles valeurs
de (X1 , X2 , X3 , X4 , X5 ).
Par exemple, pour (X1 , X2 , X3 , X4 , X5 ) = (82, 158, 47, 49, 1) = x, en posant x• = (1, 82, 158, 47, 49, 1),
la valeur prédite de Y est dx = x• b. Cela s’obtient en faisant :

x = c(1, 82, 158, 47, 49, 1)


d = x %*% b
d
Cela renvoie : 498.5063.
Ainsi, pour de tels critères, l’indice de performance globale moyen est de 498.5063.

C. Chesneau 13
1 Modèle de régression linéaire multiple et emco

Le R2 peut se calculer en faisant :

R2 = 1 - sum((X %*% b - Y)^2) / sum((mean(Y) - Y)^2)


R2
Cela renvoie : 0.6834218.
De même pour le R2 ajusté :

R2aj = 1 - ((23 - 1)/(23 - (5 + 1))) * (1 - R2)


R2aj

Cela renvoie : 0.5903106.


2
Le R2 (et R ) étant relativement proche de 1, le modèle de rlm semble être pertinent avec les
données traitées.
Commande summary :
On retrouve plus simplement ces estimations (et beaucoup plus) avec la commande summary :

reg = lm(Y ~ X1 + X2 + X3 + X4 + X5)


summary(reg)

Cela renvoie :

Estimate Std. Error t value Pr(>|t|)


(Intercept) -272.0388 184.3865 -1.48 0.1584
X1 0.7913 0.5363 1.48 0.1583
X2 2.6828 0.9216 2.91 0.0097 ∗∗
X3 -1.4434 0.8217 -1.76 0.0970 .
X4 6.8308 1.8192 3.75 0.0016 ∗∗
X5 14.9008 27.3134 0.55 0.5925

Residual standard error: 55.06 on 17 degrees of freedom


Multiple R-squared: 0.6834, Adjusted R-squared: 0.5903
F-statistic: 7.34 on 5 and 17 DF, p-value: 0.0007887
On retrouve b dans colonne Estimate du tableau.
2
On retrouve également : R2 = 0.6834 et R = 0.5903.
Pour la valeur prédite de Y quand (X1 , X2 , X3 , X4 , X5 ) = (82, 158, 47, 49, 1), on peut faire :

predict(reg, [Link](X1 = 82, X2 = 158, X3 = 47, X4 = 49, X5 = 1))

C. Chesneau 14
2 Cas particulier : le modèle de régression linéaire simple

2 Cas particulier : le modèle de régression linéaire simple

Modèle de régression linéaire simple (rls)


Le modèle de régression linéaire simple (rls) est le modèle de rlm avec p = 1.
Contexte
On souhaite expliquer une variable quantitative Y à partir d’une variable X1 . Pour ce faire, on
dispose de données qui sont n observations de (Y, X1 ) notées (y1 , x1,1 ), (y2 , x1,2 ), . . . , (yn , x1,n ).
Ces observations peuvent être représentées sur le repère orthonormé (O, I, J) par les points de
coordonnées (x1,1 , y1 ), (x1,2 , y2 ), . . . , (x1,n , yn ). L’ensemble de ces points est appelé nuage de points. Si
la silhouette de ce nuage de points est allongée dans une direction, une liaison linéaire entre Y et X1
est envisageable. On peut alors considérer le modèle de rls. Sa forme générique est

Y = β0 + β1 X1 + ,

où β0 et β1 sont des coefficients réels inconnus et  est une variable quantitative de valeur moyenne
nulle, indépendante de X1 , qui représente une somme d’erreurs aléatoires et multifactorielles.
Notre principal objectif est d’estimer convenablement β0 et β1 à l’aide des données. On pourra alors
prédire avec précision la valeur moyenne de Y pour une nouvelle valeur de X1 . Cela revient à ajuster
du mieux possible le nuage de points par une droite (on parle alors d’ajustement affine).
Exemples

Scores : On peut considérer le jeu de données "scores" :

[Link]

Une étude a été menée auprès de 19 étudiants afin de mettre en évidence une relation entre le score
(note) final à un examen de mathématiques et le temps consacré à la préparation de cet examen. Pour
chaque étudiant, on dispose :
◦ du temps de révision en heures (variable X1),
◦ du score obtenu sur 800 points (variable Y ).

C. Chesneau 15
2 Cas particulier : le modèle de régression linéaire simple

Fibres : On peut considérer le jeu de données "fibres" :

[Link]

Une étude s’intéresse à la vitesse de propagation de l’influx nerveux dans une fibre nerveuse. Pour
16 fibres nerveuses différentes, on considère :
◦ le diamètre en microns (variable X1),
◦ la vitesse de l’influx nerveux en m/s (variable Y ).
On souhaite expliquer Y à partir de X1.

Toluca : On peut considérer le jeu de données "toluca" :

[Link]

L’entreprise Toluca fabrique des pièces de rechange pour l’équipement de réfrigération. Pour une
pièce particulière, le processus de production prend un certain temps.
Dans le cadre d’un programme d’amélioration des coûts, l’entreprise souhaite mieux comprendre
la relation entre :
◦ la taille du lot (variable X1),
◦ nombre total d’heures de travail (variable Y ).
Les données ont été rapportées pour 25 lots représentatifs de taille variable.

Eaux usées : On peut considérer le jeu de données "eaux usées" :

[Link]

Une nouvelle machine pour le traitement des eaux usées est à l’étude. En particulier, les ingénieurs
s’intéressent à :
◦ la vitesse de filtration mesurée en pour cent (variable X1),
◦ l’humidité des granulés en kg-DS/m/h (variable Y ).
Les données ont été rapportées pour 20 expériences indépendantes. On souhaite expliquer Y à partir
de X1.

C. Chesneau 16
2 Cas particulier : le modèle de régression linéaire simple

Exemples : nuages de points


Les nuages de points associées aux exemples introduits précédents sont présentés ci-dessous :

La silhouette de chaque nuage de points est étirée dans une direction ; une liaison linéaire entre Y
et X1 est envisageable, on peut considérer le modèle de rls.

C. Chesneau 17
2 Cas particulier : le modèle de régression linéaire simple

Écriture matricielle du modèle de rls


On modélise les variables considérées comme des var (définies sur un espace probabilisé (Ω, A, P)),
en gardant les mêmes notations par convention. À partir de celles-ci, le modèle de rls est caractérisé
par : pour tout i ∈ {1, . . . , n},
◦ x1,i est une réalisation de X1 ,
◦ sachant que X1 = x1,i , yi est une réalisation de

Yi = β0 + β1 x1,i + i ,

où i est une var modélisant une somme d’erreurs aléatoires et multifactorielles.


Notons que le modèle de rls peut s’écrire sous la forme matricielle : Y = Xβ + , où

     
 Y1  1 x1,1     1 
     
 Y2  1 x1,2  β0  2 
Y =  . , X = . , β =  ,  =  . .
     
 ..   .. ..   .. 
   .  β1  
     
Yn 1 x1,n n

Emco et modèle de rls

À l’instar du modèle de rlm, on peut estimer les coefficients β0 et β1 par la méthode des mco. Le
résultat suivant présentent des expressions analytiques des estimateurs obtenus.

On pose
n n
1X 1X
x1 = x1,i , Y = Yi .
n n
i=1 i=1
   
β0
b β0
Soit βb =   l’emco de β =  , i.e., partant de l’écriture matricielle : Y = Xβ + ,
βb1 β1
βb = argminβ∈R2 kY − Xβk2 . Alors on a

n
1 X
βb1 = n (x1,i − x1 )(Yi − Y ), βb0 = Y − x1 βb1 .
X
(x1,i − x1 )2 i=1

i=1

C. Chesneau 18
2 Cas particulier : le modèle de régression linéaire simple

Preuve : On rappelle que le modèle de rls s’écrit sous la forme matricielle : Y = Xβ + , où


     
Y
 1 1 x1,1   1 
       
 Y2  1 x1,2  β0  2 
Y =  . , X = . , β =  ,  =  . .
     
 .  . ..  .
 .  . . 
 β1 .
     
Yn 1 x1,n n

L’emco βb de β est donné par la formule :


βb = (X t X)−1 X t Y.

◦ Calcul de X t X. On a
 
1 x1,1   X n n
X   
  1 x1,i 

1

x1,2  n nx1 
1 1 ... 1 
X tX = 
  i=1 i=1   n

. ..  = X n n =  X .
x21,i

 ..
x1,1 x1,2 . . . x1,n  .  
X  nx1 
x21,i

x1,i
  i=1
i=1 i=1
1 x1,n

◦ Calcul de (X t X)−1 . En utilisant la formule matricielle : si ad − bc 6= 0,

   
a b 1 d −b
A=  ⇔ A−1 =  ,
c d ad − bc −c a

on obtient
 n   n 
X 1X 2
1 x21,i −nx1  1 x1,i −x1 
(X t X)−1  n i=1
 
= n  i=1
 =
 Xn 
.

X
2 2
n x1,i − (nx1 ) −nx1 n x21,i − nx21 −x1 1
i=1 i=1

◦ Calcul de X t Y . On a
 
Y 1  X n   
  
Y
 
 Y2   i nY
1 1 ... 1  
X tY = 

= n
  i=1
 .  = X
 .
 X
n
x1,1 x1,2 ... .
x1,n  . 
    x1,i Yi

x 1,i Yi
  i=1
i=1
Yn

C. Chesneau 19
2 Cas particulier : le modèle de régression linéaire simple

◦ Calcul de βb = (X t X)−1 X t Y . En mettant bout à bout les égalités précédentes, il vient

 n  
1X 2 nY
1 x1,i −x1  
(X t X)−1 X t Y = n  n i=1
 n

βb =  X 
x1,i Yi
X   
x21,i − nx21 −x1 1 i=1
i=1
n
! n

1X 2 X
 x1,i nY − x1 x1,i Yi 
1  n 
=  i=1 i=1 
n  Xn 
X
2 2  −x1 × nY + x1,i Yi
x1,i − nx1

i=1 i=1
 Xn Xn 
2
Y x1,i − x1 x1,i Yi 
1  i=1 i=1
= .

n  Xn
X
2 2
 
x1,i − nx1 x1,i Yi − nx1 Y
i=1 i=1

On en déduit que

n n
! n
!
1 X X 1 X
βb0 = n Y x21,i − x1 x1,i Yi , βb1 = n x1,i Yi − nx1 Y .
X X
x21,i − nx21 i=1 i=1
x21,i − nx21 i=1

i=1 i=1

◦ Réécriture de βb1 . On a

n
X n
X n
X n
X n
X
(x1,i − x1 )2 = (x21,i − 2x1 x1,i + x21 ) = x21,i − 2x1 x1,i + x21 1
i=1 i=1 i=1 i=1 i=1
Xn n
X Xn
= x21,i − 2x1 × nx1 + x21 n = x21,i − 2nx21 + nx21 = x21,i − nx21 .
i=1 i=1 i=1

De plus, on a

n
X n
X
(x1,i − x1 )(Yi − Y ) = (x1,i Yi − x1,i Y − x1 Yi + x1 Y )
i=1 i=1
Xn n
X n
X n
X
= x1,i Yi − Y x1,i − x1 Yi + x1 Y 1
i=1 i=1 i=1 i=1
Xn
= x1,i Yi − Y × nx1 − x1 × nY + x1 Y × n
i=1
Xn n
X
= x1,i Yi − nx1 Y 6nx1 Y + nx1 Y = x1,i Yi − nx1 Y .
i=1 i=1

C. Chesneau 20
2 Cas particulier : le modèle de régression linéaire simple

Par conséquent, on peut réécrire βb1 comme

n
! n
1 X 1 X
βb1 = n x1,i Yi − nx1 Y = n (x1,i − x1 )(Yi − Y ).
X X
x21,i − nx21 i=1
(x1,i − x1 ) 2 i=1

i=1 i=1

◦ Réécriture de βb0 . En introduisant 0 = −nx21 Y + nx21 Y , on obtient

n
X n
X n
X n
X
Y x21,i − x1 x1,i Yi = Y x21,i − nx21 Y + nx21 Y − x1 x1,i Yi
i=1 i=1 i=1 i=1
n
! n
!
X X
= Y x21,i − nx21 − x1 x1,i Yi − nx1 Y .
i=1 i=1

Il vient

n n
!
1 X X
βb0 = n Y x21,i − x1 x1,i Yi
X
x21,i − nx21 i=1 i=1

i=1
n
! n
!!
1 X X
= n Y x21,i − nx21 − x1 x1,i Yi − nx1 Y
X
x21,i − nx21 i=1 i=1

i=1
n
!
1 X
= Y − x1 n x1,i Yi − nx1 Y = Y − x1 βb1 .
X
x21,i − nx21 i=1

i=1

◦ Au final. L’emco βb de β a pour composantes :

n
1 X
βb1 = n (x1,i − x1 )(Yi − Y ), βb0 = Y − x1 βb1 .
X
(x1,i − x1 )2 i=1

i=1

C. Chesneau 21
2 Cas particulier : le modèle de régression linéaire simple

Estimateur de la prédiction

Soit yx la valeur moyenne de Y quand X1 = x1 = x :

yx = β0 + β1 x1 .

Un estimateur de yx est
Ybx = βb0 + βb1 x1 .

Quantités utilisées

Partant des données, on considère les quantités suivantes :


◦ Moyennes :
n n
1X 1X
x1 = x1,i , y= yi .
n n
i=1 i=1

◦ Écarts-type :
v v
u n u n
u 1 X u 1 X
sx = t (x1,i − x1 )2 , sy = t (yi − y)2 .
n−1 n−1
i=1 i=1

◦ Sommes des carrés des écarts :

n
X n
X
2
scex = (x1,i − x1 ) = (n − 1)s2x = x21,i − nx21 ,
i=1 i=1

n
X n
X
scey = (yi − y)2 = (n − 1)s2y = yi2 − ny 2 .
i=1 i=1

◦ Somme des produits des écarts :

n
X n
X
spex,y = (x1,i − x1,i )(yi − y) = x1,i yi − nx1 y.
i=1 i=1

C. Chesneau 22
2 Cas particulier : le modèle de régression linéaire simple

Estimations ponctuelles

Vu les formules analytiques de βb1 et βb0 ,


◦ une estimation ponctuelle de β1 est la réalisation de βb1 correspondante aux données :

n
1 X spex,y
b1 = n (x1,i − x1 )(yi − y) = .
X scex
(x1,i − x1 )2 i=1

i=1

◦ une estimation ponctuelle de β0 est la réalisation de βb0 correspondante aux données :

b0 = y − b1 x1 .

◦ une estimation ponctuelle de yx = β0 + β1 x1 est la réalisation de Ybx = βb0 + βb1 x1 corres-


pondante aux données :
dx = b0 + b1 x1 .

On dit que dx est la valeur prédite de Y quand X1 = x1 .

Droite de régression

On appelle droite de régression la droite qui ajuste au mieux le nuage de points. Cet ajuste-
ment se fait en termes de distance euclidienne, les points de la droite étant pris aux mêmes
abscisses que ceux des points du nuage. La droite de régression est donnée par l’équation :

y = b0 + b1 x.

Comme b0 = y − b1 x1 , notons que la droite de régression passe par le point G de coordonnée (x1 , y),
appelé point moyen, centre d’inertie ou centre de gravité du nuage de points.

Remarque : Des méthodes autres que celle des moindres carrés existent pour ajuster un nuage de
points. Certaines sont décrites ici :

[Link]

C. Chesneau 23
2 Cas particulier : le modèle de régression linéaire simple

Exemples : droites de régression


En reprenant les exemples introduits précédemment, les droites de régressions sont représentées
ci-dessous :

Coefficient de corrélation linéaire


On appelle coefficient de corrélation linéaire le réel rx,y défini par

spex,y
rx,y = √ .
scex scey

On a rx,y ∈ [−1, 1]

C. Chesneau 24
2 Cas particulier : le modèle de régression linéaire simple

Droite de régression et coefficient de corrélation linéaire

On a
sy
b1 = rx,y .
sx

Comme sx > 0 et sy > 0, le coefficient directeur b1 de la droite de régression et rx,y sont de même
signe (à une droite de régression croissante correspond un rx,y positif. . . ). Dès lors, on peut deviner le
signe de rx,y avec la silhouette du nuage de points. De plus, comme rx,y ∈ [−1, 1], on a

plus X1 influe sur/est corrélée avec Y ⇔ plus β1 diffère de 0



plus b1 devrait différer de 0 ⇔ plus rx,y devrait différer de 0 ⇔ plus |rx,y | devrait être proche 1.

Le graphique suivant illustre le lien existant entre la pertinence de l’ajustement d’un nuage de
points par une droite, caractérisée par la corrélation linéaire entre Y et X1 , et la valeur associée de
rx,y :

Source du graphique :

[Link]

Coefficient de détermination et coefficient de corrélation linéaire


Dans le cas du modèle de rls, on peut montrer que

R2 = rx,y
2
.

Dans ce cas, l’interprétation des valeurs de R2 et rx,y


2 est donc identique.

C. Chesneau 25
2 Cas particulier : le modèle de régression linéaire simple

Mise en œuvre avec le logiciel R

Pour illustrer le résultat théorique précédent, on peut considérer le jeu de données "loyers". Dans
un quartier parisien, une étude a été menée afin de mettre en évidence une relation entre le loyer
mensuel et la surface des appartements ayant exactement 3 pièces.
Pour 30 appartements de ce type, on dispose :
◦ de la surface en mètres carrés (variable X1 ),
◦ du loyer mensuel en francs (variable Y ).
L’objectif est d’expliquer Y à partir de X1 .
Le jeu de données est disponible ici :

[Link]

Écrire dans une fenêtre R :


w = [Link]("[Link]
header = T)
attach(w)
head(w)
Cela renvoie l’entête du jeu de données :

Y X1
1 3000 40
2 2844 44
3 3215 44
4 2800 45
5 3493 45
6 3140 48

Le nuage de points associé est donné par les commandes R :

plot(X1, Y)

C. Chesneau 26
2 Cas particulier : le modèle de régression linéaire simple

Le nuage de points étant étiré dans une direction, le modèle de rls est envisageable. Sa forme générique
est
Y = β0 + β1 X1 + ,

où β0 et β1 sont des coefficients réels inconnus.


 
βb0
Pour estimer β0 et β1 , nous allons utiliser directement l’emco βb =   et les formules analytiques
βb1
de b0 et b1 , réalisations respectives de βb0 et βb1 correspondantes aux données :

b1 = (1 / (sum((X1 - mean(X1))^2))) * sum((X1 - mean(X1)) * (Y - mean(Y)))


b0 = mean(Y) - mean(X1) * b1
b0 ; b1

Cela renvoie : b0 = 548.9782 et b1 = 58.37875.


On peut calculer le R2 en utilisant l’égalité : R2 = rx,y
2 :

R2 = cor(Y, X1)^2

Cela renvoie : 0.7311242.

C. Chesneau 27
2 Cas particulier : le modèle de régression linéaire simple

De même pour le R2 ajusté :

R2aj = 1 - ((30 - 1)/(30 - (2 + 1))) * (1 - R2)


R2aj

Cela renvoie : 0.6599716.


2
Le R2 (et R ) étant proche de 1, le modèle de rls semble être pertinent avec les données traitées.
Commande summary :
On retrouve plus simplement ces estimations (et beaucoup plus) avec la commande summary :

reg = lm(Y ~ X1)


summary(reg)

Cela renvoie :

Estimate Std. Error t value Pr(>|t|)


(Intercept) 548.9782 403.0783 1.36 0.1841
X1 58.3787 6.6905 8.73 0.0000 ∗∗∗

Residual standard error: 409.7 on 28 degrees of freedom


Multiple R-squared: 0.7311, Adjusted R-squared: 0.7215
F-statistic: 76.14 on 1 and 28 DF, p-value: 1.783e-09
On retrouve b0 et b1 dans la colonne Estimate du tableau.
2
On retrouve également : R2 = 0.7311 et R = 0.7215.
D’autre part, la droite de régression est donnée par l’équation :

y = b0 + b1 x = 548.9782 + 58.3787x.

On peut la visualiser en faisant :

plot(X1, Y)
abline(reg, col = "red")

C. Chesneau 28
2 Cas particulier : le modèle de régression linéaire simple

On constate que cette droite ajuste correctement le nuage de points ; les prédictions issues du
modèle sont alors relativement fiables.
Par exemple, pour X1 = 56 = x, la valeur prédite de Y est

dx = b0 + b1 × 56 = 548.9782 + 58.3787 × 56 = 3818.185.

Ainsi, pour une surface de 56 mètres carrés, le loyer mensuel moyen est de 3818.185 francs.
On aurait aussi pu utiliser les commandes R :

predict(reg, [Link](X1 = 56))

Dorénavant, dès que possible, on utilisera la commande summary dans les analyses.

C. Chesneau 29
3 Propriétés standards et lois associées

3 Propriétés standards et lois associées

Hypothèses standards

On considère le modèle de rlm sous la forme matricielle : Y = Xβ + . On suppose que


◦ X est de rang colonnes plein,
◦  et X1 , . . . , Xp sont indépendantes,
◦  ∼ Nn (0n , σ 2 In ) où σ > 0 est un paramètre inconnu.

L’hypothèse  ∼ Nn (0n , σ 2 In ) signifie que  est un vecteur gaussien de dimension n de moyenne 0n


(vecteur colonne à n composantes nulles) et de matrice de covariance σ 2 In . Autrement écrit, pour les
paramètres, on a

     
 E( )
1  0  C(1 1 ,  ) C(1 2 ,  ) . . . C( ,
1 n  )
     
 E(2 )  0  C(2 , 1 ) C(2 , 2 ) . . . C(2 , n ) 
En () =  .  =  .  = 0n , Vn () =   = σ 2 In .
     
 ..   ..  .. .. ..
   

 . . . 

     
E(n ) 0 C(n , 1 ) C(n , 2 ) . . . C(n , n )

Soit encore, en utilisant la notation "espérance matricielle" pour la matrice de covariance :

Vn () = En,n ( − En ())( − En ())t = σ 2 In .




L’hypothèse  ∼ Nn (0n , σ 2 In ) entraîne que


◦ 1 , . . . , n sont indépendantes (car  est un vecteur gaussien avec C(i , j ) = 0 pour i 6= j,
(i, j) ∈ {1, . . . , n}2 ),
◦ V(1 ) = . . . = V(n ) = σ 2 ,
◦ 1 , . . . , n suivent chacune une loi normale (qui est N (0, σ 2 )).

Les hypothèses standards sont à la base d’une analyse statistique avancée via le modèle de rlm.
Dorénavant, on suppose que les hypothèses standards sont satisfaites.

C. Chesneau 31
3 Propriétés standards et lois associées

Propriétés de βb

L’emco βb de β est sans biais, et

βb ∼ Np+1 β, σ 2 (X t X)−1 .


Preuve : Comme X est de rang colonnes plein, l’emco βb est unique et est défini par
βb = (X t X)−1 X t Y . Comme Y = Xβ +  et (X t X)−1 X t X = Ip+1 , on peut écrire

βb = (X t X)−1 X t Y = (X t X)−1 X t (Xβ + ) = (X t X)−1 X t Xβ + (X t X)−1 X t 

= Ip+1 β + (X t X)−1 X t  = β + (X t X)−1 X t .

Comme  est un vecteur gaussien et βb est une combinaison linéaire de , βb est un vecteur gaussien. Ayant
p + 1 composantes, il est de dimension p + 1. Il reste à déterminer ses paramètres : Ep+1 (β)
b et Vp+1 (β).
b

Comme En () = 0n , on a

Ep+1 (β)
b = Ep+1 (β + (X t X)−1 X t ) = β + (X t X)−1 X t En ()

= β + (X t X)−1 X t 0n = β + 0p+1 = β.

b = β et βb − β = (X t X)−1 X t , il vient
Comme Ep+1 (β)

 
Vp+1 (β)
b = Ep+1,p+1 (βb − En (β))( b t
b βb − En (β))
 
= Ep+1,p+1 (βb − β)(βb − β)t = Ep+1,p+1 (X t X)−1 X t ((X t X)−1 X t )t .


En utilisant les formules : (AB)t = B t At , (At )t = A et (A−1 )t = (At )−1 , il vient

(X t X)−1 X t ((X t X)−1 X t )t = (X t X)−1 X t t ((X t X)−1 X t )t

= (X t X)−1 X t t (X t )t (X t (X t )t )−1 = (X t X)−1 X t t X(X t X)−1 .

Comme En,n (t ) = En,n (( − En ())( − En ())t ) = Vn () = σ 2 In et (X t X)−1 X t X = Ip+1 , il vient

= Ep+1,p+1 (X t X)−1 X t t X(X t X)−1 = (X t X)−1 X t En,n (t )X(X t X)−1

Vp+1 (β)
b

= (X t X)−1 X t σ 2 In X(X t X)−1 = σ 2 (X t X)−1 X t X(X t X)−1 = σ 2 Ip+1 (X t X)−1

= σ 2 (X t X)−1 .

C. Chesneau 32
3 Propriétés standards et lois associées

Au final, on a
βb ∼ Np+1 β, σ 2 (X t X)−1 .


Propriétés de βb ; suite

◦ Pour tout vecteur ligne c à p + 1 composantes, on a

cβb ∼ N cβ, σ 2 c(X t X)−1 ct .




 
β0 
b
 
βb1  et c = (2, −5, 3), on a cβ = 2β0 − 5β1 + 3β2 .
Par exemple, avec avec βb =   b b b b
 
βb2
◦ Pour tout j ∈ {0, . . . , p}, en notant [(X t X)−1 ]j+1,j+1 la j + 1-ème composante diagonale
de (X t X)−1 , on a
βbj ∼ N βj , σ 2 [(X t X)−1 ]j+1,j+1 .


◦ Soient x• = (1, x1 , . . . , xp ), yx = x• β la valeur moyenne de Y quand


(X1 , . . . , Xp ) = (x1 , . . . , xp ) = x et Ybx = x• β.
b On a

Ybx ∼ N yx , σ 2 x• (X t X)−1 xt• .




Preuve : Tout repose sur le résultat :

βb ∼ Np+1 β, σ 2 (X t X)−1 .


◦ Comme βb est un vecteur gaussien, pour tout vecteur ligne c à p + 1 composantes, cβb suit une loi normale.
Il reste à déterminer ses paramètres : E(cβ)
b et V(cβ).
b Comme En (β) = β, on a

E(cβ)
b = cEp+1 (β)
b = cβ.

C. Chesneau 33
3 Propriétés standards et lois associées

b = σ 2 (X t X)−1 , il vient
b = cβ, la formule : (AB)t = B t At , et Vp+1 (β)
De plus, en utilisant E(cβ)

V(cβ)
b b 2 ) = E((cβb − cβ))2 ) = E((cβb − cβ)(cβb − cβ)t )
= E((cβb − E(cβ))
 
= E(c(βb − β)(βb − β)t ct ) = cEp+1,p+1 (βb − β)(βb − β)t ct = cVp+1 (β)c
b t

= cσ 2 (X t X)−1 ct = σ 2 c(X t X)−1 ct .

On en déduit que
cβb ∼ N cβ, σ 2 c(X t X)−1 ct .


◦ Par le résultat précédent, en notant cj le vecteur ligne à p + 1 composantes avec p composantes nulles,
sauf la j + 1-ème qui vaut 1, on obtient

βbj = cj βb ∼ N cj β, σ 2 cj (X t X)−1 ctj = N βj , σ 2 [(X t X)−1 ]j+1,j+1 .


 

◦ De même, le premier résultat entraîne

Yx = x• βb ∼ N x• β, σ 2 x• (X t X)−1 xt• = N yx , σ 2 x• (X t X)−1 xt• .


 

Conséquence du théorème de Gauss-Markov

L’emco βb est le meilleur estimateur linéaire sans biais de β ; c’est le BLUE (Best Linear
Unbiased Estimator). Ainsi, aucun autre estimateur linéaire sans biais de β n’a une variance
plus petite que celle de β.
b

Lien avec l’estimateur du maximum de vraisemblance (emv)

L’emco βb est l’emv de β. Il est donc fortement consistant, asymptotiquement efficace et


asymptotiquement normal.

Preuve : Comme  est un vecteur gaussien et Y est une combinaison linéaire de , Y est un vecteur
gaussien. Ayant n composantes, il est de dimension n. Il reste à déterminer ses paramètres : En (Y ) et Vn (Y ).
Comme En () = 0n , on a

En (Y ) = En (Xβ + ) = Xβ + En () = Xβ + 0n = Xβ.

C. Chesneau 34
3 Propriétés standards et lois associées

Comme En (Y ) = Xβ et En,n (t ) = Vn () = σ 2 In , il vient

Vn (Y ) = En,n (Y − En (Y ))(Y − En (Y ))t = En,n (Y − Xβ)(Y − Xβ)t = En,n (t ) = σ 2 In .


 

Au final, on a
Y ∼ Nn Xβ, σ 2 In .


La vraisemblance associée à (Y1 , . . . , Yn ) est donnée par la densité de Y :

kz − Xβk2
 
1
L(β, z) = exp − , z ∈ Rn .
(2πσ 2 )n/2 2σ 2

Soit βe l’estimateur du maximum de vraisemblance défini par :

βe = argmax L(β, Y ).
β∈Rp+1

Alors, par la croissance de la fonction exponentielle, on a

kY − Xβk2
  
1
βe = argmax L(β, Y ) = argmax exp −
β∈Rp+1 β∈Rp+1 (2πσ 2 )n/2 2σ 2
kY − Xβk2
 
= argmax − = argmin kY − Xβk2 = β.
b
β∈Rp+1 2σ 2 β∈Rp+1

Estimateur sans biais de σ 2

Un estimateur naturel de σ 2 est

1
b2 =
σ b 2.
kY − X βk
n − (p + 1)

Sous les hypothèses standards, il vérifie :


σ2) = σ2,
◦ E(b
b2 et βb sont indépendants,
◦ σ
◦ on a
b2
σ
(n − (p + 1)) ∼ χ2 (n − (p + 1)).
σ2

C. Chesneau 35
3 Propriétés standards et lois associées

Éléments de preuve : Soit L le sous-espace vectoriel de Rn engendré par les colonnes de X. On peut
montrer que In − X(X t X)−1 X t est la matrice de projection sur l’orthogonal de L noté L⊥ . Ce sous-espace est
de dimension n − (p + 1) : Dim(L⊥ ) = n − (p + 1).
◦ On peut montrer que Y − X βb ∼ Nn 0n , σ 2 (In − X(X t X)−1 X t ) . Comme la trace d’une matrice de


projection est égale à la dimension de l’image de la projection, on a

     
b 2)
E(kY − X βk = E Trace (Y − X β)(Y
b bt
− X β) = Trace En,n (Y − X β)(Y b bt
− X β)

= σ 2 Trace In − X(X t X)−1 X t = σ 2 Dim(L⊥ ) = σ 2 (n − (p + 1)).




Donc
1
σ2 ) =
E(b b 2 ) = σ2 .
E(kY − X βk
n − (p + 1)

◦ On peut montrer que le vecteur aléatoire réel (Y − X β,


b β)
b est gaussien et que toutes les covariances d’une

composante de Y − X βb et d’une composante de βb sont nulles. Cela entraîne l’indépendance de Y − X βb


et β. b2 est uniquement fonction de b
b Comme σ b2 et β.
, on a aussi l’indépendance de σ b

◦ On peut écrire :
b2
σ 
(n − (p + 1)) 2
= k(In − X(X t X)−1 X t ) k2 .
σ σ

Comme /σ ∼ Nn (0n , In ) et In − X(X t X)−1 X t est la matrice de projection sur L⊥ avec Dim(L⊥ ) =
n − (p + 1), le théorème de Cochran entraîne

b2
σ
(n − (p + 1)) ∼ χ2 (ν), ν = Dim(L⊥ ) = n − (p + 1).
σ2

Emco et loi de Student


Pour tout vecteur ligne c à p + 1 composantes, on a

cβb − cβ
p ∼ T (n − (p + 1)).
b c(X t X)−1 ct
σ

Preuve : Dans un premier temps, rappelons une caractérisation de la loi de Student. Soient A et B deux
var indépendantes avec A ∼ N (0, 1) et B ∼ χ2 (ν), alors T = √AB ∼ T (ν).
ν

On pose alors :
cβb − cβ b2
σ
A= , B = (n − (p + 1)) .
σ2
p
σ c(X t X)−1 ct

C. Chesneau 36
3 Propriétés standards et lois associées

b2 sont indépendantes, il en est de même pour A et B. Comme cβb ∼ N cβ, σ 2 c(X t X)−1 ct , on a

Comme βb et σ
A ∼ N (0, 1). De plus, on a B ∼ χ2 (n − (p + 1)).
Par la caractérisation de la loi de Student, il s’ensuit

cβb − cβ A
p =q ∼ T (n − (p + 1)).
σ t
b c(X X) c −1 t B
n−(p+1)

Emco et loi de Student ; suite

◦ Pour tout j ∈ {0, . . . , p}, on a

βbj − βj
p ∼ T (n − (p + 1)).
b [(X t X)−1 ]j+1,j+1
σ

◦ Soient x• = (1, x1 , . . . , xp ), yx = x• β la valeur moyenne de Y quand


(X1 , . . . , Xp ) = (x1 , . . . , xp ) = x et Ybx = x• β.
b On a

Yb − yx
p x ∼ T (n − (p + 1)).
b x• (X t X)−1 xt•
σ

Preuve : Tout repose sur le résultat :

cβb − cβ
p ∼ T (n − (p + 1)).
b c(X t X)−1 ct
σ

◦ En notant cj le vecteur ligne à p + 1 composantes avec p composantes nulles, sauf la


j + 1-ème qui vaut 1, on obtient

βbj − βj cj βb − cj β
p = q ∼ T (n − (p + 1)).
σ t −1
b [(X X) ]j+1,j+1 b cj (X t X)−1 ctj
σ

◦ On a
Ybx − yx x βb − x• β
p = p • ∼ T (n − (p + 1)).
σ
b x• (X t X)−1 xt• b x• (X t X)−1 xt•
σ

C. Chesneau 37
3 Propriétés standards et lois associées

Emco et loi de Fisher


Soit R une matrice de réels à p + 1 colonnes et k lignes de rang colonnes plein. Alors on a

(Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ)


∼ F(k, n − (p + 1)).
σ2
kb
 
β0 
b    
  4 1 0 4βb0 + βb1
Par exemple, avec βb = 
βb1  et R =
  , on a Rβb =  .
  0 2 −5 2βb1 − 5βb2
βb2

Éléments de preuve : Dans un premier temps, rappelons une caractérisation de la loi de Fisher. Soient
ν2 A
A et B deux var indépendantes avec A ∼ χ2 (ν1 ) et B ∼ χ2 (ν2 ), alors F = ν1 B ∼ F(ν1 , ν2 ). On pose alors :

(Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ) b2


σ
A= , B = (n − (p + 1)) .
σ2 σ2

En utilisant le théorème de Cochran, on peut montrer que A et B sont indépendantes avec


A ∼ χ2 (k) et B ∼ χ2 (n − (p + 1)). Par la caractérisation de la loi de Fisher, il s’ensuit

(Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ) (n − (p + 1))A


2
= ∼ F(k, n − (p + 1)).
kb
σ kB

Estimation ponctuelles

◦ Une estimation ponctuelle de σ est la réalisation de σ


b correspondante aux données :
s
1
s= ky − Xbk2 .
n − (p + 1)

◦ Pour tout j ∈ {0, . . . , p}, une estimation ponctuelle de l’écart-type de βbj est

q
etej = s [(X t X)−1 ]j+1,j+1 .

◦ Soit x• = (1, x1 , . . . , xp ). Une estimation ponctuelle de l’écart-type de Ybx = x• βb est

p
etex = s x• (X t X)−1 xt• .

C. Chesneau 38
3 Propriétés standards et lois associées

En pratique

En pratique, pour admettre que les hypothèses standards sont acceptables à partir des données, il
y a un protocole à suivre. Notamment, il faut analyser plusieurs graphiques spécifiques (graphique des
résidus, QQ plot, graphique Scale-Location, acf, pacf. . . ) et mettre en œuvre plusieurs tests statistiques
(test de Shapiro-Wilk, test de Rainbow, test de Durbin-Watson. . . ) (plus de détails en Master 2).

Dans ce document, on se focalise sur le principal repère visuel : le graphique des résidus.
Graphique des résidus
   
 β0   β0 
b
.
..  de β =  ... , pour tout i ∈ {1, . . . , n}, on appelle i-ème résidu la
 
Partant de l’emco βb =     
   
βbp βp
réalisationei de
bi = Yi − Ybi , où Ybi = 
βb0 +βb1 x1,i + . . . + βbp xp,i . On appelle résidus les réels e1 , . . . , en .

 e1  b1 
. .
. .
 .  est la réalisation de  .  , lequel est un estimateur grossier de .
Ainsi, 
   
en n
b
 
 e1 
.
Donc, sous les hypothèses standards,  .
 .  devrait avoir les caractéristiques grossières d’une réa-
 
en
lisation de Nn (0n , σ 2 In ).
On trace alors le nuage de points :

Ne = {(i, ei ); i ∈ {1, . . . , n}}.

Si le nuage de points n’a aucune structure particulière, et s’il y a une symétrie dans la répartition
des points par rapport à l’axe des abscisses, alors on admet que  ∼ Nn (0n , σ 2 In ).
En particulier :
◦ Si le nuage de points a l’allure d’une route sinueuse ou d’un mégaphone, on soupçonne que  et
X1 , . . . , Xn sont dépendantes ou/et les var 1 , . . . , n sont dépendantes (si cela a du sens), ou/et
V(1 ) = . . . = V(n ) n’est pas vérifiée.

C. Chesneau 39
3 Propriétés standards et lois associées

◦ S’il y a une asymétrie dans la répartition des points par rapport à l’axe des abscisses, l’hypothèse
de normalité de 1 , . . . , n est à étudier.
Des exemples de graphiques des résidus sont proposés ci-dessous ; seul le premier colle avec les
hypothèses standards.

C. Chesneau 40
3 Propriétés standards et lois associées

Mise en œuvre avec le logiciel R

On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 . On enregistre les données dans R :

w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est

Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,

où β0 , β1 , β2 , β3 , β4 et β5 sont des coefficients réels inconnus.


On considère les estimations de ces coefficients par la méthode des mco en faisant :

reg = lm(Y ~ X1 + X2 + X3 + X4 + X5)

Les commandes R pour visualiser le graphique des résidus sont :

e = residuals(reg)
plot(e)

C. Chesneau 41
3 Propriétés standards et lois associées

Globalement, à part un point légèrement excentré en bas à droite (qu’il faudrait analyser), le
graphique des résidus est colle avec les hypothèses standards.
D’autre part, plusieurs estimations ponctuelles sont directement données par la commande
summary :

summary(reg)

Cela renvoie :

Estimate Std. Error t value Pr(>|t|)


(Intercept) -272.0388 184.3865 -1.48 0.1584
X1 0.7913 0.5363 1.48 0.1583
X2 2.6828 0.9216 2.91 0.0097 ∗∗
X3 -1.4434 0.8217 -1.76 0.0970 .
X4 6.8308 1.8192 3.75 0.0016 ∗∗
X5 14.9008 27.3134 0.55 0.5925

Residual standard error: 55.06 on 17 degrees of freedom


Multiple R-squared: 0.6834, Adjusted R-squared: 0.5903
F-statistic: 7.34 on 5 and 17 DF, p-value: 0.0007887
On retrouve (ete0 , . . . , ete5 ) dans la colonne Std. Error du tableau :

ete0 = 184.3865, ete1 = 0.5363, ete2 = 0.9216, ete3 = 0.8217,

ete4 = 1.8192, ete5 = 27.3134.

On a également le s avec Residual standard error : s = 55.06 et ν avec degrees of freedom :


ν = 17.

C. Chesneau 42
4 Retour sur le modèle de rls

4 Retour sur le modèle de rls

Propriétés de βb
On a
x21
    
2 1 2 1
βb1 ∼ N β1 , σ , βb0 ∼ N β0 , σ + .
scex n scex

Preuve : Tout repose sur le résultat : pour tout j ∈ {0, 1}, on a βbj ∼ N βj , σ 2 [(X t X)−1 ]j+1,j+1 . Il reste


à expliciter [(X t X)−1 ]2,2 et [(X t X)−1 ]1,1 . On a

 
1 x1,1   X n n
X   
  1 x1,i 

1

x1,2  n nx1 
1 1 ... 1 
X tX = 
  i=1 i=1   n

. ..  = X n n =  X .
x21,i

 ..
x1,1 x1,2 . . . x1,n  .  
X  nx1 
x21,i

x1,i
  i=1
i=1 i=1
1 x1,n

n
X
En inversant X t X et en utilisant la décomposition : scex = x21,i − nx21 , il vient
i=1

 n   n 
X 1X 2
1 x21,i −nx1  1 x1,i −x1 
(X t X)−1  n i=1
 
= n  i=1
 =
 scex 
.

X
2 2
n x1,i − (nx1 ) −nx1 n −x1 1
i=1

En identifiant les composantes diagonales de (X t X)−1 , on obtient

n
x2
 
−1 1 −1 1 1X 2 1 1 1
[(X X) t
]2,2 = , t
[(X X) ]1,1 = × x1,i = (scex + nx1 ) = + 1 .
2
scex scex n i=1 scex n n scex

On en déduit que
x2
    
1 1
βb1 ∼ N 2
β1 , σ , βb0 ∼ N β0 , σ 2
+ 1 .
scex n scex

Propriétés de Ybx
On a
1 (x1 − x1 )2
  
2
Ybx = βb0 + βb1 x1 ∼ N yx , σ + .
n scex

C. Chesneau 43
4 Retour sur le modèle de rls

Éléments de preuve : Tout repose sur le résultat : pour x• = (1, x1 ), on a Ybx ∼ N yx , σ 2 x• (X t X)−1 xt• .


Il reste à expliciter x• (X t X)−1 xt• . On a

 n   n 
1X 2   1X 2
1  x1,i −x1  1 x − x1 x1 
  = 1 n i=1 1,i
  
x• (X t X)−1 xt• n

= 1 x1 
 i=1 1 x1  
scex 
x1 sce x
 
−x1 1 −x1 + x1
n
! n
!
1 1X 2 2 1 1X 2 2 2 2
= x − 2x1 x1 + x1 = x − x1 + x1 − 2x1 x1 + x1
scex n i=1 1,i scex n i=1 1,i
(x1 − x1 )2
 
1 1 2 1
= scex + (x1 − x1 ) = + .
scex n n scex

On en déduit que
(x1 − x1 )2
  
1
Ybx ∼ N yx , σ 2 + .
n scex

Estimation ponctuelles

◦ Une estimation ponctuelle de σ est la réalisation de σ


b correspondante aux données :
s
(n − 1)s2y (1 − rx,y
2 )
r
1
s= ky − Xbk2 = .
n−2 n−2

◦ Une estimation ponctuelle de l’écart-type de βb1 est

r
1
ete1 = s .
scex

◦ Une estimation ponctuelle de l’écart-type de βb0 est


s
1 x2
ete0 = s + 1 .
n scex

◦ Une estimation ponctuelle de l’écart-type de Ybx = βb0 + βb1 x1 est


s
1 (x1 − x1 )2
etex = s + .
n scex

C. Chesneau 44
5 Intervalles et volumes de confiance

5 Intervalles et volumes de confiance

Intervalle de confiance pour cβ

Pour tout vecteur ligne c à p + 1 composantes, un intervalle de confiance pour cβ au niveau


100(1 − α)%, α ∈]0, 1[, est la réalisation icβ de

h p p i
σ c(X t X)−1 ct , cβb + tα (ν)b
Icβ = cβb − tα (ν)b σ c(X t X)−1 ct ,

où tα (ν) est le réel vérifiant P(|T | ≥ tα (ν)) = α, avec T ∼ T (ν), ν = n − (p + 1).


Avec les notations déjà introduites, on peut écrire :

h p p i
icβ = cb − tα (ν)s c(X t X)−1 ct , cb + tα (ν)s c(X t X)−1 ct .

Preuve : Dire que Icβ est un intervalle de confiance (aléatoire) pour cβ au niveau 100(1 − α)%, α ∈]0, 1[,
signifie que P(cβ ∈ Icβ ) = 1 − α. Tout repose sur le résultat :

cβb − cβ
T∗ = p ∼ T (n − (p + 1)).
σ
b c(X t X)−1 ct

En utilisant la définition de tα (ν), le fait que T∗ et T suivent la même loi (entrainant


P(|T∗ | ≤ x) = P(|T | ≤ x) pour tout x ≥ 0) et la définition de T∗ , il vient

1−α = 1 − P(|T | ≥ tα (ν)) = P(|T | ≤ tα (ν)) = P(|T∗ | ≤ tα (ν))


!
cβb − cβ  p 
= P p ≤ tα (ν) = P |cβ − cβ| b ≤ tα (ν)bσ c(X t X)−1 ct
σb c(X t X)−1 ct
 p p 
= P −tα (ν)b σ c(X t X)−1 ct ≤ cβ − cβb ≤ tα (ν)b σ c(X t X)−1 ct
 p p 
σ c(X t X)−1 ct ≤ cβ ≤ cβb + tα (ν)b
= P cβb − tα (ν)b σ c(X t X)−1 ct = P(cβ ∈ Icβ ).

Ainsi, Icβ est un intervalle de confiance (aléatoire) pour cβ au niveau 100(1 − α)%, α ∈]0, 1[.

C. Chesneau 45
5 Intervalles et volumes de confiance

Intervalle de confiance pour βj

Pour tout j ∈ {0, . . . , p}, un intervalle de confiance pour βj au niveau 100(1 − α)%, α ∈]0, 1[,
est la réalisation iβj de

 q q 
Iβj = βj − tα (ν)b
b t −1
σ [(X X) ]j+1,j+1 , βj + tα (ν)b
b t −1
σ [(X X) ]j+1,j+1 .

Avec les notations déjà introduites, on peut écrire :

iβj = [bj − tα (ν)etej , bj + tα (ν)etej ] .

Preuve : Tout repose sur le résultat : P(cβ ∈ Icβ ) = 1−α ; en notant cj le vecteur ligne à p+1 composantes
avec p composantes nulles, sauf la j + 1-ème qui vaut 1, on a P(βj ∈ Iβj ) = P(cj β ∈ Icj β ) = 1 − α. Donc Iβj est

un intervalle de confiance (aléatoire) pour βj au niveau 100(1 − α)%, α ∈]0, 1[.

Intervalle de confiance pour yx

Soient x• = (1, x1 , . . . , xp ), yx = x• β la valeur moyenne de Y quand


(X1 , . . . , Xp ) = (x1 , . . . , xp ) = x et Ybx = x• β.
b

Un intervalle de confiance pour yx au niveau 100(1 − α)%, α ∈]0, 1[, est la réalisation iyx de

h p p i
σ x• (X t X)−1 xt• , Ybx + tα (ν)b
Iyx = Ybx − tα (ν)b σ x• (X t X)−1 xt• .

Avec les notations déjà introduites, on peut écrire :

h p p i
iyx = dx − tα (ν)s x• (X t X)−1 xt• , dx + tα (ν)s x• (X t X)−1 xt• .

Preuve : On rappelle que : P(cβ ∈ Icβ ) = 1 − α. Il vient P(yx ∈ Iyx ) = P(x• β ∈ Ix• β ) = 1 − α. Donc Iyx
est un intervalle de confiance (aléatoire) pour yx au niveau 100(1 − α)%, α ∈]0, 1[.

C. Chesneau 46
5 Intervalles et volumes de confiance

Volume de confiance pour Rβ

Soit R une matrice de réels à p + 1 colonnes et k lignes de rang colonnes plein.


Un volume de confiance pour Rβ au niveau 100(1 − α)%, α ∈]0, 1[, est la réalisation vRβ de

n o
VRβ = β ∈ Rp+1 ; (Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ) ≤ kb
σ 2 fα (ν1 , ν2 ) ,

où fα (ν1 , ν2 ) est le réel vérifiant P(F ≥ fα (ν1 , ν2 )) = α, avec F ∼ F(ν1 , ν2 ),


(ν1 , ν2 ) = (k, n − (p + 1)).
Avec les notations déjà introduites, on peut écrire :

vRβ = β ∈ Rp+1 ; (Rb − Rβ)t (R(X t X)−1 Rt )−1 (Rb − Rβ) ≤ ks2 fα (ν1 , ν2 ) .


Preuve : Dire que VRβ est un volume de confiance (aléatoire) pour Rβ au niveau 100(1 − α)%, α ∈]0, 1[,
signifie que P(vRβ ∈ VRβ ) = 1 − α. Tout repose sur le résultat :

(Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ)


F∗ = ∼ F(k, n − (p + 1)).
σ2
kb

En utilisant la définition de fα (ν1 , ν2 ), le fait que F∗ et F suivent la même loi (entrainant


P(F∗ ≤ x) = P(F ≤ x) pour tout x ≥ 0) et la définition de F∗ , il vient

1−α = 1 − P(F ≥ fα (ν1 , ν2 )) = P(F ≤ fα (ν1 , ν2 )) = P(F∗ ≤ fα (ν1 , ν2 ))


!
(Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ)
= P ≤ fα (ν1 , ν2 )
σ2
kb
 
= P (Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ) ≤ kb σ 2 fα (ν1 , ν2 ) = P(vRβ ∈ VRβ ).

Ainsi, IvRβ est un volume de confiance (aléatoire) pour vRβ au niveau 100(1 − α)%, α ∈]0, 1[.

C. Chesneau 47
5 Intervalles et volumes de confiance

Cas particulier : ellipsoïde de confiance pour β dans un modèle de rls

Dans le cadre du modèle de rls (donc p = 1), avec les notations déjà introduites, un ellipsoïde
 
β0
de confiance pour β =   au niveau 100(1 − α)%, α ∈]0, 1[, est
β1

n
eβ = (β0 , β1 ) ∈ R2 ;
o
(scex + nx21 )(b1 − β1 )2 + 2nx1 (b0 − β0 )(b1 − β1 ) + n(b0 − β0 )2 ≤ 2s2 fα (ν1 , ν2 ) ,

où fα (ν1 , ν2 ) est le réel vérifiant P(F ≥ fα (ν1 , ν2 )) = α, avec F ∼ F(ν1 , ν2 ),


(ν1 , ν2 ) = (2, n − 2).

Mise en œuvre avec le logiciel R

On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .
On enregistre les données dans R :

w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est

Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,

où β0 , β1 , β2 , β3 , β4 et β5 sont des coefficients réels inconnus.


On considère les estimations de ces coefficients par la méthode des mco en faisant :

reg = lm(Y ~ X1 + X2 + X3 + X4 + X5)

C. Chesneau 48
5 Intervalles et volumes de confiance

Pour calculer les intervalles de confiances pour β0 , β1 , β2 , β3 , β4 et β5 au niveau 95%, les commandes
R sont :

confint(reg, level = 0.95)

Cela renvoie :

2.5 % 97.5 %
(Intercept) -661.06 116.98
X1 -0.34 1.92
X2 0.74 4.63
X3 -3.18 0.29
X4 2.99 10.67
X5 -42.73 72.53

Le tableau donne les bornes inférieures et supérieures des intervalles de confiance de β0 , β1 , β2 , β3 ,


β4 et β5 :

iβ0 iβ1 iβ2

[−661.06, 116.98] [−0.34, 1.92] [0.74, 4.63]

iβ3 iβ4 iβ5

[−3.18, 0.29] [2.99, 10.67] [−42.73, 72.53]

Les commandes R pour calculer les intervalles de confiances pour la valeur moyenne de Y quand
(X1 , X2 , X3 , X4 , X5 ) = (82, 158, 47, 49, 1) au niveau 95% sont :

predict(reg, [Link](X1 = 82, X2 = 158, X3 = 47, X4 = 49, X5 = 1),


interval = "confidence")
Cela renvoie :

iyx = [451.5943, 545.4183].

C. Chesneau 49
5 Intervalles et volumes de confiance

Les commandes R pour calculer les volumes de confiances pour (β1 , β2 ) (donc des ellipses de
confiance) au niveau 95% sont :

library(ellipse)
plot(ellipse(reg, c(2, 3), level = 0.95), type = "l")

C. Chesneau 50
6 Tests statistiques

6 Tests statistiques

Notions de base

Hypothèses. On oppose deux hypothèses complémentaires : H0 et H1 ,


◦ l’hypothèse H0 formule ce que l’on souhaite rejeter/réfuter,
◦ l’hypothèse H1 formule ce que l’on souhaite montrer.
Par exemple, si on veut montrer l’hypothèse "X1 influe sur Y ", H0 et H1 s’opposent sous la forme :

H0 : "X1 n’influe pas sur Y " contre H1 : "X1 influe sur Y ".

Risque. Le risque est le pourcentage de chances de rejeter H0 , donc d’accepter H1 , alors que H0 est
vraie. On veut que ce risque soit aussi faible que possible.
Il s’écrit sous la forme : 100α%, avec α ∈]0, 1[ (par exemple, 5%, soit α = 0.05).
Le réel α est alors la probabilité de rejeter H0 alors que H0 est vraie.
Le rejet de H0 est dit "significatif" si elle est rejetée au risque 5%.

Test statistique. Un test statistique est une procédure qui vise à apporter une réponse à la question :
Est-ce que les données nous permettent de rejeter H0 , donc d’accepter H1 , avec un faible risque de
se tromper ?

Types de test statistique. En notant θ un paramètre inconnu, on dit que le test est
◦ bilatéral si H1 est de la forme H1 : θ 6= . . .
◦ unilatéral à gauche (sens de <) si H1 est de la forme H1 : θ < . . .
◦ unilatéral à droite (sens de >) si H1 est de la forme H1 : θ > . . .

p-valeur. La p-valeur est le plus petit réel α ∈]0, 1[ calculé à partir des données tel que l’on puisse se
permettre de rejeter H0 au risque 100α%. Autrement écrit, la p-valeur est une estimation ponctuelle
de la probabilité critique de se tromper en rejetant H0 alors que H0 est vraie.
Les logiciels actuels travaillent principalement avec cette p-valeur.

C. Chesneau 51
6 Tests statistiques

Rappel : degré de significativité

La p-valeur nous donne un degré de significativité du rejet de H0 .


Le rejet de H0 sera :
◦ significatif si p-valeur ∈]0.01, 0.05], symbolisé par ∗,
◦ très significatif si p-valeur ∈]0.001, 0.01], symbolisé par ∗∗,
◦ hautement significatif si p-valeur < 0.001, symbolisé par ∗ ∗ ∗.
Il y a non rejet de H0 si p-valeur > 0.05.
S’il y a non-rejet de H0 , sauf convention, on ne peut rien conclure du tout (avec le risque considéré).
En revanche, peut-être qu’un risque de départ plus élevé ou la disposition de plus de données peuvent
conduire à un rejet de H0 .
Emco et test de Student
Soient c un vecteur ligne à p + 1 composantes et r un réel. On considère les hypothèses :

Hypothèses H0 H1

bilatérale cβ = r cβ 6= r

unilatérale à droite cβ ≤ r cβ > r

unilatérale à gauche cβ ≥ r cβ < r

On calcule la réalisation tobs de

cβb − r
T∗ = p .
b c(X t X)−1 ct
σ

On considère une var T ∼ T (ν), ν = n − (p + 1).


Alors les p-valeurs associées aux hypothèses considérées sont :

H0 H1 p-valeurs

cβ = r cβ 6= r P(|T | ≥ |tobs |)

cβ ≤ r cβ > r P(T ≥ tobs )

cβ ≥ r cβ < r P(T ≤ tobs )

C. Chesneau 52
6 Tests statistiques

 
β0 
 
Par exemple, pour p = 2, donc β =  β1 , si on veut prouver que X1 à plus d’influence que

 
β2
X2 sur Y , alors on considère l’hypothèse : H1 : β1 > β2 , laquelle peut se réécrire comme H1 :
cβ > r avec c = (0, 1, −1) et r = 0.
Avec les notations déjà introduites, on peut écrire :

cb − r
tobs = p .
s c(X t X)−1 ct

Éléments de preuve : Sous les hypothèses standards, par le test du rapport des vraisemblances maxi-
males, on peut montrer que la zone de rejet optimale de H0 est un événement de la forme :
( )
n o cβb − r
R = |cβb − r| ≥ C = p ≥ C∗ = {|T∗ | ≥ C∗ } ,
σ
b c(X t X)−1 ct

où C > 0 et C∗ > 0 désignent des quantités muettes ; seule la forme générale de R importe. Plus intuitivement :
rejet de H0 / affirmation de H1 ⇔ cβ 6= r ⇔ |cβ − r| > 0 ⇒ |cβb − r| > C > 0. Si H0 est vraie, alors
T∗ ∼ T (ν), ν = n − (p + 1) ; T∗ et T suivent la même loi, laquelle ne dépend pas de paramètre inconnue.
De plus, une estimation ponctuelle de la plus grande constante calculable C∗ qui minimise la probabilité
que l’événement R se réalise est la réalisation |tobs | de |T∗ |. C’est pourquoi on considère :

p-valeur = P(|T | ≥ |tobs |).

C. Chesneau 53
6 Tests statistiques

Emco et test de Student ; suite

Soient j ∈ {0, . . . , p} et r un réel. On considère les hypothèses :

Hypothèses H0 H1

bilatérale βj = r βj 6= r

unilatérale à droite βj ≤ r βj > r

unilatérale à gauche βj ≥ r βj < r

On calcule la réalisation tobs de

βbj − r
T∗ = p .
b [(X t X)−1 ]j+1,j+1
σ

On considère une var T ∼ T (ν), ν = n − (p + 1).


Alors les p-valeurs associées aux hypothèses considérées sont :

H0 H1 p-valeurs

βj = r βj 6= r P(|T | ≥ |tobs |)

β j ≤ r βj > r P(T ≥ tobs )

β j ≥ r βj < r P(T ≤ tobs )

Avec les notations déjà introduites, on peut écrire :

bj − r
tobs =
etej

C. Chesneau 54
6 Tests statistiques

Influence de Xj sur Y

Pour tout j ∈ {1, . . . , p}, l’influence de Xj sur Y est caractérisée par βj 6= 0. On pose alors les
hypothèses :

H0 : βj = 0 contre H1 : βj 6= 0,

correspondant à r = 0. On obtient le degré de significativité de son influence en posant en étudiant :

p-valeur = P(|T | ≥ |tobs |).

Par exemple, si p-valeur ∈]0.001, 0.01] ; ∗∗, l’influence de Xj sur Y est très significative.
On a alors p + 1 p-valeurs, lesquelles sont souvent donnés directement par les logiciels statistiques.
Emco et test de Fisher

Soient R une matrice de réels à p + 1 colonnes et k lignes de rang colonnes plein et r un


vecteur colonne à k lignes. On considère les hypothèses :

H0 : Rβ = r contre H1 : Rβ 6= r.

On calcule la réalisation fobs de

(Rβb − r)t (R(X t X)−1 Rt )−1 (Rβb − r)


F∗ = .
σ2
kb

On considère une var F ∼ F(ν1 , ν2 ), (ν1 , ν2 ) = (k, n − (p + 1)).


Alors la p-valeur associée est
p-valeur = P(F ≥ fobs ).
 
β0 
 
Par exemple, pour p = 2, donc β = β1 , on peut écrire H0 : β0 = β1 = β2 comme H0 :

 
β2
   
1 −1 0 0
Rβ = r avec R =   et r =  .
0 1 −1 0

C. Chesneau 55
6 Tests statistiques

Avec les notations déjà introduites, on peut écrire :

(Rb − r)t (R(X t X)−1 Rt )−1 (Rb − r)


fobs = .
ks2

Éléments de preuve : Sous les hypothèses standards, par le test du rapport des vraisemblances maxi-
males, on peut montrer que la zone de rejet optimale de H0 est un événement de la forme :
( )
n o (Rβb − r)t (R(X t X)−1 Rt )−1 (Rβb − r)
R = kX(X t X)−1 Rt (R(X t X)−1 Rt )−1 (Rβb − r)k2 ≥ C = ≥ C∗
σ2
kb
= {F∗ > C∗ } ,

où C > 0 et C∗ > 0 désignent des quantités muettes ; seule la forme générale de R importe.
Si H0 est vraie, alors F∗ ∼ F(ν1 , ν2 ), (ν1 , ν2 ) = (k, n − (p + 1)) ; F∗ et F suivent la même loi, laquelle ne
dépend pas de paramètre inconnue. De plus, une estimation ponctuelle de la plus grande constante calculable
C∗ qui minimise la probabilité que l’événement R se réalise est la réalisation fobs de F∗ . C’est pourquoi on
considère :
p-valeur = P(F ≥ fobs ).

Test global de Fisher

On considère les hypothèses :

H0 : β1 = β2 = . . . = βp = 0 contre H1 : "il y a au moins un coefficient non nul".

On calcule la réalisation fobs de

b2 n − (p + 1)
R
F∗ = .
1−Rb2 p

On considère une var F ∼ F(p, ν), ν = n − (p + 1).


Alors la p-valeur associée est
p-valeur = P(F ≥ fobs ).
Avec les notations déjà introduites, on peut écrire :

R2 n − (p + 1)
fobs = .
1 − R2 p

C. Chesneau 56
6 Tests statistiques

Ce test est un cas particulier du test de Fisher avec la matrice R = diagp+1 (0, 1, . . . , 1) et r = 0p+1 .
Il vise à étudier la pertinence du lien linéaire entre Y et X1 , . . . , Xp .
Comparaison de deux modèles emboîtés

Soit Λ un sous ensemble de {1, . . . , p} ayant k éléments. On considère les hypothèses :

H0 : "βj = 0 pour tout j ∈ Λ" contre


H1 : "il y a au moins un des coefficients βj , j ∈ Λ, non nul".
 
 β0 
.
Soient XΛ la matrice X privée des colonnes d’indice j ∈ Λ et βΛ le vecteur β =  .
 .  privé
 
βp
des coefficients d’indice j ∈ Λ. Ainsi, les hypothèses précédentes peuvent s’écrire comme :

H0 : "Y = Xλ βλ + " contre H1 : "Y = Xβ + ".

Soient βb l’emco de β, βbΛ l’emco de βΛ avec le modèle de rlm : Y = Xλ βλ +  (donc βbΛ =


1 b 2 sous les hypothèses standards. On calcule
(XΛt XΛ )−1 XΛt Y ) et σ
b2 = kY − X βk
n − (p + 1)
la réalisation fobs de
b 2
||XΛ βbΛ − X β||
F∗ = .
σ2
kb

On considère une var F ∼ F(ν1 , ν2 ), (ν1 , ν2 ) = (k, n − (p + 1)).


Alors la p-valeur associée est
p-valeur = P(F ≥ fobs ).
On peut aussi écrire :
||Y − XΛ βbΛ ||2 − ||Y − X β||
b 2
F∗ = .
kbσ2
Avec les notations déjà introduites, en posant bΛ = (XΛt XΛ )−1 XΛt y, on peut écrire :

||XΛ bΛ − Xb||2
fobs = .
ks2

C. Chesneau 57
6 Tests statistiques

Ce test est un cas particulier du test de Fisher. Il vise à évaluer la pertinence de l’inclusion de
certaines variables dans le modèle. On peut alors faire de la sélection de variables. Si des variables
explicatives sont statistiquement dispensables dans l’explication de Y , il est préférable de ne pas les
inclure dans le modèle. En effet, moins le modèle contient de variables, plus il est opérationnel pour le
praticien.
Mise en œuvre avec le logiciel R

On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .
On enregistre les données dans R :

w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est

Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,

où β0 , β1 , β2 , β3 , β4 et β5 sont des coefficients réels inconnus.


On considère les estimations de ces coefficients par la méthode des mco en faisant :

reg = lm(Y ~ X1 + X2 + X3 + X4 + X5)

Pour tout j ∈ {1, . . . , p}, pour étudier l’influence de Xj sur Y , on considère les hypothèses :

H0 : βj = 0 contre H1 : βj 6= 0.

On peut obtenir les tobs et les p-valeurs associées avec la commande summary :

summary(reg)

C. Chesneau 58
6 Tests statistiques

Cela renvoie :

Estimate Std. Error t value Pr(>|t|)


(Intercept) -272.0388 184.3865 -1.48 0.1584
X1 0.7913 0.5363 1.48 0.1583
X2 2.6828 0.9216 2.91 0.0097 ∗∗
X3 -1.4434 0.8217 -1.76 0.0970 .
X4 6.8308 1.8192 3.75 0.0016 ∗∗
X5 14.9008 27.3134 0.55 0.5925

Residual standard error: 55.06 on 17 degrees of freedom


Multiple R-squared: 0.6834, Adjusted R-squared: 0.5903
F-statistic: 7.34 on 5 and 17 DF, p-value: 0.0007887
Les tobs sont donnés dans la colonne t value du tableau et les p-valeurs associées dans la colonne
Pr(>|t|). Les degrés de significativité sont dans la dernière colonne.
Ainsi, comme on a ∗∗ pour les p-valeurs associées à X2 et X4 , X2 et X4 ont une influence très
significative sur Y . Comme on a "." pour la p-valeur associée à X3 , X3 a une influence "presque"
significative sur Y . Rien ne ressort pour X1 , X2 et X5 .
On considère maintenant les hypothèses :

H0 : β1 = β2 = . . . = β5 = 0 contre H1 : il y a au moins un coefficient non nul.

On utilise alors le test global de Fisher, lequel est mis en œuvre avec la commande summary. On a
le fobs avec F-statistic : fobs = 7.34 et la p-valeur associée avec p-value : p-valeur = 0.0007887.
Comme p-valeur < 0.001, le degré de significativité est ∗ ∗ ∗ ; le lien linéaire entre Y et X1 , X2 , X3 ,
X4 et X5 est pertinent.
Remarque : Comme R2 = 0.6834, on peut vérifier que

R2 n − (p + 1) 0.6834 23 − (5 + 1)
fobs = 2
= = 7.339104.
1−R p 1 − 0.6834 5

On considère maintenant les hypothèses :

H0 : β1 = β3 = 0 contre H1 : β1 6= 0 ou β3 6= 0.

On peut alors mettre H0 sous la forme Rβ = r ; on utilise le test de Fisher.

C. Chesneau 59
6 Tests statistiques

On le met en oeuvre en faisant :


reg1 = lm(Y ~ X1 + X2 + X3 + X4 + X5)
reg2 = lm(Y ~ X2 + X4 + X5)
anova(reg1, reg2)

On obtient la p-valeur associée dans la colonne Pr(>F) : p-valeur = 0.1702. Comme p-valeur > 0.05,
les données ne nous permettent pas de rejeter H0 .

C. Chesneau 60
6 Tests statistiques

Complément : test de nullité du coefficient de corrélation (de Pearson)


On se place dans le cadre du modèle de rls (donc p = 1) et on considère les hypothèses :

H0 : "X1 et Y sont indépendantes" contre


H1 : "X1 et Y ne sont pas indépendantes".

On définit le coefficient de corrélation ρ par

C(X1 , Y )
ρ= .
σ(X1 )σ(Y )

De plus, on suppose que (X1 , Y ) est un vecteur de var suivant une loi normale bidimensionnelle. Grâce
à cette hypothèse, on a l’équivalence : X1 et Y indépendantes ⇔ ρ = 0.
On peut alors reformuler les hypothèses comme :

H0 : ρ = 0 contre H1 : ρ 6= 0.

Pour mettre en œuvre le test de nullité du coefficient de corrélation, on considère les quantités :

n
X
n n
(x1,i − x)(yi − y)
1X 1X
x1 = x1,i , y= yi , r = v i=1 .
n n u n
uX n
i=1 i=1 X
t (x1,i − x1 )2 (yi − y)2
i=1 i=1

On calcule

√ r
tobs = n − 2√ .
1 − r2

Soit T ∼ T (ν), ν = n − 2. Alors la p-valeur associée au test de nullité du coefficient de corrélation est

p-valeur = P(|T | ≥ |tobs |).

Ce test est en fait similaire au test de Student ; on peut montrer que t2obs = b21 /ete21 .

C. Chesneau 61
6 Tests statistiques

Mise en œuvre avec le logiciel R


Sur 14 familles composées d’un père et d’un fils, on examine le QI du père et le QI du fils. Les
résultats sont les suivants :

Père 121 142 108 111 97 139 131 90 115 107 124 103 115 151

Fils 102 138 126 133 95 146 115 100 142 105 130 120 109 123

Peut-on affirmer qu’il y a une liaison significative entre le QI du père et le QI du fils ?


Soient X (ou X1 ) la variable "QI du père" et Y la variable "QI du fils". Par l’énoncé, on observe
la valeur de (X, Y ) pour chacun des n individus (familles) d’un échantillon avec n = 14. On considère
les hypothèses :

H0 : "les caractères X et Y sont indépendants" contre


H1 : "les caractères X et Y ne sont pas indépendants".

On considère les commandes :


x = c(121, 142, 108, 111, 97, 139, 131, 90, 115, 107, 124, 103, 115, 151)
y = c(102, 138, 126, 133, 95, 146, 115, 100, 142, 105, 130, 120, 109, 123)
[Link](x, y)

Cela renvoie : p-valeur = 0.04090612.


Comme p-valeur ∈]0.01, 0.05], le rejet de H0 est significatif ?.
Ainsi, on peut affirmer qu’il y a une liaison significative entre le QI du père et le QI du fils.

C. Chesneau 62
Index

Coefficient de détermination, 11 Intervalles de confiance pour la prédiction, 46


Comparaison de modèles, 57
lm, 14, 28, 41, 48, 58, 60
confint, 49
Loi de l’emco, 32
Droite de régression, 23, 24
p-valeur, 51
Ecriture matricielle, 7, 18 predict, 49
Ellipsoïdes de confiance, 48, 50 Prédiction, 10
Emco, 7
residuals, 41
Emco et Emv, 34
Risque, 51
Emco et loi de Fisher, 38
Régression linéaire multiple (rlm), 5
Emco et loi de Student, 37
Régression linéaire simple (rls), 15
Estimateur de la valeur moyenne, 10
Estimateur de la variance, 35 summary, 14, 28, 42, 58

Estimations ponctuelles, 10
Test de Fisher, 55, 59

Forme matricielle, 7, 18 Test de Student, 52, 54


Test du coefficient de corrélation, 61
Graphique des résidus, 39
Test global de Fisher, 56, 59
Hypothèses, 51 Test statistique, 51
Hypothèses standards, 31 Théorème de Gauss-Markov, 34

Intervalles de confiance, 45, 46 Volumes de confiance, 47

63

Vous aimerez peut-être aussi