EMCO Cours
EMCO Cours
Christophe Chesneau
Christophe Chesneau
[Link]
6 Tests statistiques 51
Index 63
∼ Note ∼
Ce document résume les notions abordées dans la première partie du cours Statistique 2 du
M1 orienté statistique de l’université de Caen (la deuxième partie concerne l’ANOVA à 1 et
2 facteurs).
L’enjeu de ce document est de présenter les fondations théoriques sur lesquelles repose l’es-
timateur des moindres carrés ordinaires. Des jeux de données et des commandes R viennent
illustrer la théorie.
Je vous invite à me contacter pour tout commentaire :
[Link]@[Link]
Bonne lecture !
C. Chesneau 3
1 Modèle de régression linéaire multiple et emco
Si une liaison linéaire entre Y et X1 , . . . , Xp est enisageable, on peut considérer le modèle de régression
linéaire multiple (rlm). Sa forme générique est
Y = β0 + β1 X1 + . . . + βp Xp + ,
où β0 , . . . , βp sont des coefficients réels inconnus et est une variable quantitative de valeur moyenne
nulle, indépendante de X1 , . . . , Xp , qui représente une somme d’erreurs aléatoires et multifactorielles
(erreurs de mesures, effets non prévisibles, variables omises. . . ).
Notre principal objectif est d’estimer convenablement β0 , . . . , βp à l’aide des données. Entre autres,
cela nous permettra de mesurer l’importance des variables X1 , . . . , Xp dans l’explication de Y et de
prédire avec précision la valeur moyenne de Y pour une nouvelle valeur de (X1 , . . . , Xp ).
C. Chesneau 5
1 Modèle de régression linéaire multiple et emco
Exemples
Loyers : On peut considérer le jeu de données "loyers" :
[Link]
Dans un quartier parisien, une étude a été menée afin de mettre en évidence une relation entre le
loyer mensuel et la surface des appartements ayant exactement 3 pièces.
Pour 30 appartements de ce type, on dispose :
◦ de la surface en mètres carrés (variable X1),
◦ du loyer mensuel en francs (variable Y ).
[Link]
[Link]
C. Chesneau 6
1 Modèle de régression linéaire multiple et emco
Modèle de rlm
On modélise les variables considérées comme des variables aléatoires réelles (var) (définies sur un
espace probabilisé (Ω, A, P)), en gardant les mêmes notations par convention. À partir de celles-ci, le
modèle de rlm est caractérisé par : pour tout i ∈ {1, . . . , n},
◦ (x1,i , . . . , xp,i ) est une réalisation du vecteur aléatoire réel (X1 , . . . , Xp ),
◦ sachant que (X1 , . . . , Xp ) = (x1,i , . . . , xp,i ), yi est une réalisation de
Yi = β0 + β1 x1,i + . . . + βp xp,i + i ,
Y1 1 x1,1 · · · xp,1 β0 1
Y2 1 x1,2 · · · xp,2 β1 2
Y = . , X = . , β = . , = . .
.. .. .. .. .. .. ..
. . .
Yn 1 x1,n · · · xp,n βp n
βb ∈ argmin kY − Xβk2 .
β∈Rp+1
On suppose que X est de rang colonnes plein : il n’existe pas de vecteur colonne x à p + 1
composantes non nul tel que Xx = le vecteur nul (cela entraîne l’existence de (X t X)−1 ).
Alors βb est unique ; il est donné par la formule :
βb = (X t X)−1 X t Y.
C. Chesneau 7
1 Modèle de régression linéaire multiple et emco
Preuve : Posons
f (β) = kY − Xβk2 , β ∈ Rp+1 .
∂
βb extremum de f (β) ⇒ f (β)
b = 0, j ∈ {0, . . . , p}.
∂βj
Comme Y t Xβ est la multiplication d’un vecteur ligne Y t par un vecteur colonne Xβ, c’est un réel. Par consé-
quent, il est égal à sa transposé ; on a Y t Xβ = (Y t Xβ)t = (Xβ)t (Y t )t = β t X t Y . Il vient
f (β) = Y t Y − 2β t X t Y + β t X t Xβ.
∂
Pour tout j ∈ {0, . . . , p}, déterminons la dérivée partielle ∂βj f (β). Soit ej le vecteur colonne à p+1 composantes
avec p composantes nulles, sauf la j + 1-ème qui vaut 1. En utilisant la formule :
(u(x)v(x))0 = u0 (x)v(x) + u(x)v 0 (x), il vient
∂ ∂ ∂ ∂ ∂
f (β) = (Y t Y − 2β t X t Y + β t X t Xβ) = (Y t Y ) − 2 (β t X t Y ) + (β t X t Xβ)
∂βj ∂βj ∂βj ∂βj ∂βj
= 0 − 2etj X t Y + etj X t Xβ + β t X t Xej .
Comme etj X t Xβ est la multiplication d’un vecteur ligne etj X t par un vecteur colonne Xβ, c’est un réel. Par
conséquent, il est égal à sa transposé ; on a etj X t Xβ = (etj X t Xβ)t = (Xβ)t (etj X t )t = β t X t Xej . Donc
∂
f (β) = −2etj X t Y + 2etj X t Xβ.
∂βj
Il s’ensuit
∂ b = 0 ⇔ −2et X t Y + 2et X t X βb = 0 ⇔ et X t X βb = et X t Y.
f (β) j j j j
∂βj
C. Chesneau 8
1 Modèle de régression linéaire multiple et emco
Comme cela est vraie pour tout j ∈ {0, . . . , p} et que etj X t X βb calcule la j-ème ligne de la matrice X t X β,
b
il vient
∂
f (β)
b = 0, j ∈ {0, . . . , p} ⇔ X t X βb = X t Y.
∂βj
Au final, on a
Il reste à montrer que βb est bien un minimum pour f (β). Pour cela, on calcule la matrice hessienne
∂2
H(f ) = f (β) et on montre qu’elle est définie positive : pour tout vecteur colonne
∂βj ∂βk (j,k)∈{0,...,p}2
non nul x à p + 1 composantes, on a xt H(f )x > 0. Pour tout (j, k) ∈ {0, . . . , p}2 , on a
∂2
∂ ∂ ∂
f (β) = f (β) (−2etj X t Y + 2etj X t Xβ)
=
∂βj ∂βk ∂βk ∂βj ∂βk
∂ ∂
= −2 (et X t Y ) + 2 (et X t Xβ) = 0 + 2etj X t Xek = 2etj X t Xek .
∂βk j ∂βk j
Donc
H(f ) = 2etj X t Xek = 2X t X.
(j,k)∈{0,...,p}2
x
0
.
Pour tout x = .
. non nul, comme X est de rang colonnes plein, on a
xp
Ainsi H(f ) est définie positive ; βb est bien un minimum pour f (β). On en déduit que
C. Chesneau 9
1 Modèle de régression linéaire multiple et emco
Emco de βj
β0 β0
b
.
. b ..
. s’écrit sous la forme β = . . Ainsi, pour tout j ∈ {0, . . . , p}, la
L’emco βb de β =
βp βbp
j + 1-ème composante de β,
b notée βbj , est l’emco de βj .
◦ Un estimateur de yx est
Ybx = βb0 + βb1 x1 + . . . + βbp xp .
Estimations ponctuelles
b = (X t X)−1 X t y, .
y1 b0
.
.. . On peut écrire b sous la forme b = ... . Ainsi, pour tout j ∈ {0, . . . , p},
avec y =
yn bp
la j + 1-ème composante de b, notée bj , est une estimation ponctuelle de βj .
◦ Soit x• = (1, x1 , . . . , xp ). Une estimation ponctuelle de yx = x• β est la réalisation dx de
Ybx = x• βb correspondante aux données :
dx = x• b = b0 + b1 x1 + . . . + bp xp .
C. Chesneau 10
1 Modèle de régression linéaire multiple et emco
Coefficient de détermination
Soit 1n le vecteur colonne à n composantes égales à 1. On pose
n
1X
Yb = X β,
b Y = Yi
n
i=1
et
2
b2 = 1 − kY − Y k .
b
R
kY 1n − Y k2
kXb − yk2
R2 = 1 − .
ky1n − yk2
On a toujours R2 ∈ [0, 1] et
2 n−1
R =1− (1 − R2 ).
n − (p + 1)
Pour illustrer les notions précédentes avec le logiciel R, on peut considérer le jeu de données "profs".
Dans une étude statistique, 23 professeurs sont évalués quant à la qualité de leur enseignement. Pour
chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .
C. Chesneau 11
1 Modèle de régression linéaire multiple et emco
[Link]
Y X1 X2 X3 X4 X5
1 489 81 151 45.50 43.61 1
2 423 68 156 46.45 44.69 1
3 507 80 165 76.50 54.57 1
4 467 107 149 55.50 43.27 1
5 340 43 134 49.40 49.21 1
6 524 129 163 72.00 49.96 1
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + .
Nous allons maintenant étudier l’estimation ponctuelle de β par la méthode des moindres carrés
ordinaires.
C. Chesneau 12
1 Modèle de régression linéaire multiple et emco
489
423
b = (X t X)−1 X t y, y = .
507
..
.
Introduisons la matrice X composée des colonnes "que des 1", X1, X2, X3, X4 et X5 :
Entre autre, ces estimations nous permettent de faire des prédictions sur Y pour de nouvelles valeurs
de (X1 , X2 , X3 , X4 , X5 ).
Par exemple, pour (X1 , X2 , X3 , X4 , X5 ) = (82, 158, 47, 49, 1) = x, en posant x• = (1, 82, 158, 47, 49, 1),
la valeur prédite de Y est dx = x• b. Cela s’obtient en faisant :
C. Chesneau 13
1 Modèle de régression linéaire multiple et emco
Cela renvoie :
C. Chesneau 14
2 Cas particulier : le modèle de régression linéaire simple
Y = β0 + β1 X1 + ,
où β0 et β1 sont des coefficients réels inconnus et est une variable quantitative de valeur moyenne
nulle, indépendante de X1 , qui représente une somme d’erreurs aléatoires et multifactorielles.
Notre principal objectif est d’estimer convenablement β0 et β1 à l’aide des données. On pourra alors
prédire avec précision la valeur moyenne de Y pour une nouvelle valeur de X1 . Cela revient à ajuster
du mieux possible le nuage de points par une droite (on parle alors d’ajustement affine).
Exemples
[Link]
Une étude a été menée auprès de 19 étudiants afin de mettre en évidence une relation entre le score
(note) final à un examen de mathématiques et le temps consacré à la préparation de cet examen. Pour
chaque étudiant, on dispose :
◦ du temps de révision en heures (variable X1),
◦ du score obtenu sur 800 points (variable Y ).
C. Chesneau 15
2 Cas particulier : le modèle de régression linéaire simple
[Link]
Une étude s’intéresse à la vitesse de propagation de l’influx nerveux dans une fibre nerveuse. Pour
16 fibres nerveuses différentes, on considère :
◦ le diamètre en microns (variable X1),
◦ la vitesse de l’influx nerveux en m/s (variable Y ).
On souhaite expliquer Y à partir de X1.
[Link]
L’entreprise Toluca fabrique des pièces de rechange pour l’équipement de réfrigération. Pour une
pièce particulière, le processus de production prend un certain temps.
Dans le cadre d’un programme d’amélioration des coûts, l’entreprise souhaite mieux comprendre
la relation entre :
◦ la taille du lot (variable X1),
◦ nombre total d’heures de travail (variable Y ).
Les données ont été rapportées pour 25 lots représentatifs de taille variable.
[Link]
Une nouvelle machine pour le traitement des eaux usées est à l’étude. En particulier, les ingénieurs
s’intéressent à :
◦ la vitesse de filtration mesurée en pour cent (variable X1),
◦ l’humidité des granulés en kg-DS/m/h (variable Y ).
Les données ont été rapportées pour 20 expériences indépendantes. On souhaite expliquer Y à partir
de X1.
C. Chesneau 16
2 Cas particulier : le modèle de régression linéaire simple
La silhouette de chaque nuage de points est étirée dans une direction ; une liaison linéaire entre Y
et X1 est envisageable, on peut considérer le modèle de rls.
C. Chesneau 17
2 Cas particulier : le modèle de régression linéaire simple
Yi = β0 + β1 x1,i + i ,
Y1 1 x1,1 1
Y2 1 x1,2 β0 2
Y = . , X = . , β = , = . .
.. .. .. ..
. β1
Yn 1 x1,n n
À l’instar du modèle de rlm, on peut estimer les coefficients β0 et β1 par la méthode des mco. Le
résultat suivant présentent des expressions analytiques des estimateurs obtenus.
On pose
n n
1X 1X
x1 = x1,i , Y = Yi .
n n
i=1 i=1
β0
b β0
Soit βb = l’emco de β = , i.e., partant de l’écriture matricielle : Y = Xβ + ,
βb1 β1
βb = argminβ∈R2 kY − Xβk2 . Alors on a
n
1 X
βb1 = n (x1,i − x1 )(Yi − Y ), βb0 = Y − x1 βb1 .
X
(x1,i − x1 )2 i=1
i=1
C. Chesneau 18
2 Cas particulier : le modèle de régression linéaire simple
◦ Calcul de X t X. On a
1 x1,1 X n n
X
1 x1,i
1
x1,2 n nx1
1 1 ... 1
X tX =
i=1 i=1 n
. .. = X n n = X .
x21,i
..
x1,1 x1,2 . . . x1,n .
X nx1
x21,i
x1,i
i=1
i=1 i=1
1 x1,n
a b 1 d −b
A= ⇔ A−1 = ,
c d ad − bc −c a
on obtient
n n
X 1X 2
1 x21,i −nx1 1 x1,i −x1
(X t X)−1 n i=1
= n i=1
=
Xn
.
X
2 2
n x1,i − (nx1 ) −nx1 n x21,i − nx21 −x1 1
i=1 i=1
◦ Calcul de X t Y . On a
Y 1 X n
Y
Y2 i nY
1 1 ... 1
X tY =
= n
i=1
. = X
.
X
n
x1,1 x1,2 ... .
x1,n .
x1,i Yi
x 1,i Yi
i=1
i=1
Yn
C. Chesneau 19
2 Cas particulier : le modèle de régression linéaire simple
n
1X 2 nY
1 x1,i −x1
(X t X)−1 X t Y = n n i=1
n
βb = X
x1,i Yi
X
x21,i − nx21 −x1 1 i=1
i=1
n
! n
1X 2 X
x1,i nY − x1 x1,i Yi
1 n
= i=1 i=1
n Xn
X
2 2 −x1 × nY + x1,i Yi
x1,i − nx1
i=1 i=1
Xn Xn
2
Y x1,i − x1 x1,i Yi
1 i=1 i=1
= .
n Xn
X
2 2
x1,i − nx1 x1,i Yi − nx1 Y
i=1 i=1
On en déduit que
n n
! n
!
1 X X 1 X
βb0 = n Y x21,i − x1 x1,i Yi , βb1 = n x1,i Yi − nx1 Y .
X X
x21,i − nx21 i=1 i=1
x21,i − nx21 i=1
i=1 i=1
◦ Réécriture de βb1 . On a
n
X n
X n
X n
X n
X
(x1,i − x1 )2 = (x21,i − 2x1 x1,i + x21 ) = x21,i − 2x1 x1,i + x21 1
i=1 i=1 i=1 i=1 i=1
Xn n
X Xn
= x21,i − 2x1 × nx1 + x21 n = x21,i − 2nx21 + nx21 = x21,i − nx21 .
i=1 i=1 i=1
De plus, on a
n
X n
X
(x1,i − x1 )(Yi − Y ) = (x1,i Yi − x1,i Y − x1 Yi + x1 Y )
i=1 i=1
Xn n
X n
X n
X
= x1,i Yi − Y x1,i − x1 Yi + x1 Y 1
i=1 i=1 i=1 i=1
Xn
= x1,i Yi − Y × nx1 − x1 × nY + x1 Y × n
i=1
Xn n
X
= x1,i Yi − nx1 Y 6nx1 Y + nx1 Y = x1,i Yi − nx1 Y .
i=1 i=1
C. Chesneau 20
2 Cas particulier : le modèle de régression linéaire simple
n
! n
1 X 1 X
βb1 = n x1,i Yi − nx1 Y = n (x1,i − x1 )(Yi − Y ).
X X
x21,i − nx21 i=1
(x1,i − x1 ) 2 i=1
i=1 i=1
n
X n
X n
X n
X
Y x21,i − x1 x1,i Yi = Y x21,i − nx21 Y + nx21 Y − x1 x1,i Yi
i=1 i=1 i=1 i=1
n
! n
!
X X
= Y x21,i − nx21 − x1 x1,i Yi − nx1 Y .
i=1 i=1
Il vient
n n
!
1 X X
βb0 = n Y x21,i − x1 x1,i Yi
X
x21,i − nx21 i=1 i=1
i=1
n
! n
!!
1 X X
= n Y x21,i − nx21 − x1 x1,i Yi − nx1 Y
X
x21,i − nx21 i=1 i=1
i=1
n
!
1 X
= Y − x1 n x1,i Yi − nx1 Y = Y − x1 βb1 .
X
x21,i − nx21 i=1
i=1
n
1 X
βb1 = n (x1,i − x1 )(Yi − Y ), βb0 = Y − x1 βb1 .
X
(x1,i − x1 )2 i=1
i=1
C. Chesneau 21
2 Cas particulier : le modèle de régression linéaire simple
Estimateur de la prédiction
yx = β0 + β1 x1 .
Un estimateur de yx est
Ybx = βb0 + βb1 x1 .
Quantités utilisées
◦ Écarts-type :
v v
u n u n
u 1 X u 1 X
sx = t (x1,i − x1 )2 , sy = t (yi − y)2 .
n−1 n−1
i=1 i=1
n
X n
X
2
scex = (x1,i − x1 ) = (n − 1)s2x = x21,i − nx21 ,
i=1 i=1
n
X n
X
scey = (yi − y)2 = (n − 1)s2y = yi2 − ny 2 .
i=1 i=1
n
X n
X
spex,y = (x1,i − x1,i )(yi − y) = x1,i yi − nx1 y.
i=1 i=1
C. Chesneau 22
2 Cas particulier : le modèle de régression linéaire simple
Estimations ponctuelles
n
1 X spex,y
b1 = n (x1,i − x1 )(yi − y) = .
X scex
(x1,i − x1 )2 i=1
i=1
b0 = y − b1 x1 .
Droite de régression
On appelle droite de régression la droite qui ajuste au mieux le nuage de points. Cet ajuste-
ment se fait en termes de distance euclidienne, les points de la droite étant pris aux mêmes
abscisses que ceux des points du nuage. La droite de régression est donnée par l’équation :
y = b0 + b1 x.
Comme b0 = y − b1 x1 , notons que la droite de régression passe par le point G de coordonnée (x1 , y),
appelé point moyen, centre d’inertie ou centre de gravité du nuage de points.
Remarque : Des méthodes autres que celle des moindres carrés existent pour ajuster un nuage de
points. Certaines sont décrites ici :
[Link]
C. Chesneau 23
2 Cas particulier : le modèle de régression linéaire simple
spex,y
rx,y = √ .
scex scey
On a rx,y ∈ [−1, 1]
C. Chesneau 24
2 Cas particulier : le modèle de régression linéaire simple
On a
sy
b1 = rx,y .
sx
Comme sx > 0 et sy > 0, le coefficient directeur b1 de la droite de régression et rx,y sont de même
signe (à une droite de régression croissante correspond un rx,y positif. . . ). Dès lors, on peut deviner le
signe de rx,y avec la silhouette du nuage de points. De plus, comme rx,y ∈ [−1, 1], on a
Le graphique suivant illustre le lien existant entre la pertinence de l’ajustement d’un nuage de
points par une droite, caractérisée par la corrélation linéaire entre Y et X1 , et la valeur associée de
rx,y :
Source du graphique :
[Link]
R2 = rx,y
2
.
C. Chesneau 25
2 Cas particulier : le modèle de régression linéaire simple
Pour illustrer le résultat théorique précédent, on peut considérer le jeu de données "loyers". Dans
un quartier parisien, une étude a été menée afin de mettre en évidence une relation entre le loyer
mensuel et la surface des appartements ayant exactement 3 pièces.
Pour 30 appartements de ce type, on dispose :
◦ de la surface en mètres carrés (variable X1 ),
◦ du loyer mensuel en francs (variable Y ).
L’objectif est d’expliquer Y à partir de X1 .
Le jeu de données est disponible ici :
[Link]
Y X1
1 3000 40
2 2844 44
3 3215 44
4 2800 45
5 3493 45
6 3140 48
plot(X1, Y)
C. Chesneau 26
2 Cas particulier : le modèle de régression linéaire simple
Le nuage de points étant étiré dans une direction, le modèle de rls est envisageable. Sa forme générique
est
Y = β0 + β1 X1 + ,
R2 = cor(Y, X1)^2
C. Chesneau 27
2 Cas particulier : le modèle de régression linéaire simple
Cela renvoie :
y = b0 + b1 x = 548.9782 + 58.3787x.
plot(X1, Y)
abline(reg, col = "red")
C. Chesneau 28
2 Cas particulier : le modèle de régression linéaire simple
On constate que cette droite ajuste correctement le nuage de points ; les prédictions issues du
modèle sont alors relativement fiables.
Par exemple, pour X1 = 56 = x, la valeur prédite de Y est
Ainsi, pour une surface de 56 mètres carrés, le loyer mensuel moyen est de 3818.185 francs.
On aurait aussi pu utiliser les commandes R :
Dorénavant, dès que possible, on utilisera la commande summary dans les analyses.
C. Chesneau 29
3 Propriétés standards et lois associées
Hypothèses standards
E( )
1 0 C(1 1 , ) C(1 2 , ) . . . C( ,
1 n )
E(2 ) 0 C(2 , 1 ) C(2 , 2 ) . . . C(2 , n )
En () = . = . = 0n , Vn () = = σ 2 In .
.. .. .. .. ..
. . .
E(n ) 0 C(n , 1 ) C(n , 2 ) . . . C(n , n )
Les hypothèses standards sont à la base d’une analyse statistique avancée via le modèle de rlm.
Dorénavant, on suppose que les hypothèses standards sont satisfaites.
C. Chesneau 31
3 Propriétés standards et lois associées
Propriétés de βb
βb ∼ Np+1 β, σ 2 (X t X)−1 .
Preuve : Comme X est de rang colonnes plein, l’emco βb est unique et est défini par
βb = (X t X)−1 X t Y . Comme Y = Xβ + et (X t X)−1 X t X = Ip+1 , on peut écrire
Comme est un vecteur gaussien et βb est une combinaison linéaire de , βb est un vecteur gaussien. Ayant
p + 1 composantes, il est de dimension p + 1. Il reste à déterminer ses paramètres : Ep+1 (β)
b et Vp+1 (β).
b
Comme En () = 0n , on a
Ep+1 (β)
b = Ep+1 (β + (X t X)−1 X t ) = β + (X t X)−1 X t En ()
= β + (X t X)−1 X t 0n = β + 0p+1 = β.
b = β et βb − β = (X t X)−1 X t , il vient
Comme Ep+1 (β)
Vp+1 (β)
b = Ep+1,p+1 (βb − En (β))( b t
b βb − En (β))
= Ep+1,p+1 (βb − β)(βb − β)t = Ep+1,p+1 (X t X)−1 X t ((X t X)−1 X t )t .
Comme En,n (t ) = En,n (( − En ())( − En ())t ) = Vn () = σ 2 In et (X t X)−1 X t X = Ip+1 , il vient
= Ep+1,p+1 (X t X)−1 X t t X(X t X)−1 = (X t X)−1 X t En,n (t )X(X t X)−1
Vp+1 (β)
b
= σ 2 (X t X)−1 .
C. Chesneau 32
3 Propriétés standards et lois associées
Au final, on a
βb ∼ Np+1 β, σ 2 (X t X)−1 .
Propriétés de βb ; suite
β0
b
βb1 et c = (2, −5, 3), on a cβ = 2β0 − 5β1 + 3β2 .
Par exemple, avec avec βb = b b b b
βb2
◦ Pour tout j ∈ {0, . . . , p}, en notant [(X t X)−1 ]j+1,j+1 la j + 1-ème composante diagonale
de (X t X)−1 , on a
βbj ∼ N βj , σ 2 [(X t X)−1 ]j+1,j+1 .
βb ∼ Np+1 β, σ 2 (X t X)−1 .
◦ Comme βb est un vecteur gaussien, pour tout vecteur ligne c à p + 1 composantes, cβb suit une loi normale.
Il reste à déterminer ses paramètres : E(cβ)
b et V(cβ).
b Comme En (β) = β, on a
E(cβ)
b = cEp+1 (β)
b = cβ.
C. Chesneau 33
3 Propriétés standards et lois associées
b = σ 2 (X t X)−1 , il vient
b = cβ, la formule : (AB)t = B t At , et Vp+1 (β)
De plus, en utilisant E(cβ)
V(cβ)
b b 2 ) = E((cβb − cβ))2 ) = E((cβb − cβ)(cβb − cβ)t )
= E((cβb − E(cβ))
= E(c(βb − β)(βb − β)t ct ) = cEp+1,p+1 (βb − β)(βb − β)t ct = cVp+1 (β)c
b t
On en déduit que
cβb ∼ N cβ, σ 2 c(X t X)−1 ct .
◦ Par le résultat précédent, en notant cj le vecteur ligne à p + 1 composantes avec p composantes nulles,
sauf la j + 1-ème qui vaut 1, on obtient
L’emco βb est le meilleur estimateur linéaire sans biais de β ; c’est le BLUE (Best Linear
Unbiased Estimator). Ainsi, aucun autre estimateur linéaire sans biais de β n’a une variance
plus petite que celle de β.
b
Preuve : Comme est un vecteur gaussien et Y est une combinaison linéaire de , Y est un vecteur
gaussien. Ayant n composantes, il est de dimension n. Il reste à déterminer ses paramètres : En (Y ) et Vn (Y ).
Comme En () = 0n , on a
C. Chesneau 34
3 Propriétés standards et lois associées
Au final, on a
Y ∼ Nn Xβ, σ 2 In .
kz − Xβk2
1
L(β, z) = exp − , z ∈ Rn .
(2πσ 2 )n/2 2σ 2
βe = argmax L(β, Y ).
β∈Rp+1
kY − Xβk2
1
βe = argmax L(β, Y ) = argmax exp −
β∈Rp+1 β∈Rp+1 (2πσ 2 )n/2 2σ 2
kY − Xβk2
= argmax − = argmin kY − Xβk2 = β.
b
β∈Rp+1 2σ 2 β∈Rp+1
1
b2 =
σ b 2.
kY − X βk
n − (p + 1)
C. Chesneau 35
3 Propriétés standards et lois associées
Éléments de preuve : Soit L le sous-espace vectoriel de Rn engendré par les colonnes de X. On peut
montrer que In − X(X t X)−1 X t est la matrice de projection sur l’orthogonal de L noté L⊥ . Ce sous-espace est
de dimension n − (p + 1) : Dim(L⊥ ) = n − (p + 1).
◦ On peut montrer que Y − X βb ∼ Nn 0n , σ 2 (In − X(X t X)−1 X t ) . Comme la trace d’une matrice de
b 2)
E(kY − X βk = E Trace (Y − X β)(Y
b bt
− X β) = Trace En,n (Y − X β)(Y b bt
− X β)
Donc
1
σ2 ) =
E(b b 2 ) = σ2 .
E(kY − X βk
n − (p + 1)
◦ On peut écrire :
b2
σ
(n − (p + 1)) 2
= k(In − X(X t X)−1 X t ) k2 .
σ σ
Comme /σ ∼ Nn (0n , In ) et In − X(X t X)−1 X t est la matrice de projection sur L⊥ avec Dim(L⊥ ) =
n − (p + 1), le théorème de Cochran entraîne
b2
σ
(n − (p + 1)) ∼ χ2 (ν), ν = Dim(L⊥ ) = n − (p + 1).
σ2
cβb − cβ
p ∼ T (n − (p + 1)).
b c(X t X)−1 ct
σ
Preuve : Dans un premier temps, rappelons une caractérisation de la loi de Student. Soient A et B deux
var indépendantes avec A ∼ N (0, 1) et B ∼ χ2 (ν), alors T = √AB ∼ T (ν).
ν
On pose alors :
cβb − cβ b2
σ
A= , B = (n − (p + 1)) .
σ2
p
σ c(X t X)−1 ct
C. Chesneau 36
3 Propriétés standards et lois associées
b2 sont indépendantes, il en est de même pour A et B. Comme cβb ∼ N cβ, σ 2 c(X t X)−1 ct , on a
Comme βb et σ
A ∼ N (0, 1). De plus, on a B ∼ χ2 (n − (p + 1)).
Par la caractérisation de la loi de Student, il s’ensuit
cβb − cβ A
p =q ∼ T (n − (p + 1)).
σ t
b c(X X) c −1 t B
n−(p+1)
βbj − βj
p ∼ T (n − (p + 1)).
b [(X t X)−1 ]j+1,j+1
σ
Yb − yx
p x ∼ T (n − (p + 1)).
b x• (X t X)−1 xt•
σ
cβb − cβ
p ∼ T (n − (p + 1)).
b c(X t X)−1 ct
σ
βbj − βj cj βb − cj β
p = q ∼ T (n − (p + 1)).
σ t −1
b [(X X) ]j+1,j+1 b cj (X t X)−1 ctj
σ
◦ On a
Ybx − yx x βb − x• β
p = p • ∼ T (n − (p + 1)).
σ
b x• (X t X)−1 xt• b x• (X t X)−1 xt•
σ
C. Chesneau 37
3 Propriétés standards et lois associées
Éléments de preuve : Dans un premier temps, rappelons une caractérisation de la loi de Fisher. Soient
ν2 A
A et B deux var indépendantes avec A ∼ χ2 (ν1 ) et B ∼ χ2 (ν2 ), alors F = ν1 B ∼ F(ν1 , ν2 ). On pose alors :
Estimation ponctuelles
◦ Pour tout j ∈ {0, . . . , p}, une estimation ponctuelle de l’écart-type de βbj est
q
etej = s [(X t X)−1 ]j+1,j+1 .
p
etex = s x• (X t X)−1 xt• .
C. Chesneau 38
3 Propriétés standards et lois associées
En pratique
En pratique, pour admettre que les hypothèses standards sont acceptables à partir des données, il
y a un protocole à suivre. Notamment, il faut analyser plusieurs graphiques spécifiques (graphique des
résidus, QQ plot, graphique Scale-Location, acf, pacf. . . ) et mettre en œuvre plusieurs tests statistiques
(test de Shapiro-Wilk, test de Rainbow, test de Durbin-Watson. . . ) (plus de détails en Master 2).
Dans ce document, on se focalise sur le principal repère visuel : le graphique des résidus.
Graphique des résidus
β0 β0
b
.
.. de β = ... , pour tout i ∈ {1, . . . , n}, on appelle i-ème résidu la
Partant de l’emco βb =
βbp βp
réalisationei de
bi = Yi − Ybi , où Ybi =
βb0 +βb1 x1,i + . . . + βbp xp,i . On appelle résidus les réels e1 , . . . , en .
e1 b1
. .
. .
. est la réalisation de . , lequel est un estimateur grossier de .
Ainsi,
en n
b
e1
.
Donc, sous les hypothèses standards, .
. devrait avoir les caractéristiques grossières d’une réa-
en
lisation de Nn (0n , σ 2 In ).
On trace alors le nuage de points :
Si le nuage de points n’a aucune structure particulière, et s’il y a une symétrie dans la répartition
des points par rapport à l’axe des abscisses, alors on admet que ∼ Nn (0n , σ 2 In ).
En particulier :
◦ Si le nuage de points a l’allure d’une route sinueuse ou d’un mégaphone, on soupçonne que et
X1 , . . . , Xn sont dépendantes ou/et les var 1 , . . . , n sont dépendantes (si cela a du sens), ou/et
V(1 ) = . . . = V(n ) n’est pas vérifiée.
C. Chesneau 39
3 Propriétés standards et lois associées
◦ S’il y a une asymétrie dans la répartition des points par rapport à l’axe des abscisses, l’hypothèse
de normalité de 1 , . . . , n est à étudier.
Des exemples de graphiques des résidus sont proposés ci-dessous ; seul le premier colle avec les
hypothèses standards.
C. Chesneau 40
3 Propriétés standards et lois associées
On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 . On enregistre les données dans R :
w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,
e = residuals(reg)
plot(e)
C. Chesneau 41
3 Propriétés standards et lois associées
Globalement, à part un point légèrement excentré en bas à droite (qu’il faudrait analyser), le
graphique des résidus est colle avec les hypothèses standards.
D’autre part, plusieurs estimations ponctuelles sont directement données par la commande
summary :
summary(reg)
Cela renvoie :
C. Chesneau 42
4 Retour sur le modèle de rls
Propriétés de βb
On a
x21
2 1 2 1
βb1 ∼ N β1 , σ , βb0 ∼ N β0 , σ + .
scex n scex
Preuve : Tout repose sur le résultat : pour tout j ∈ {0, 1}, on a βbj ∼ N βj , σ 2 [(X t X)−1 ]j+1,j+1 . Il reste
1 x1,1 X n n
X
1 x1,i
1
x1,2 n nx1
1 1 ... 1
X tX =
i=1 i=1 n
. .. = X n n = X .
x21,i
..
x1,1 x1,2 . . . x1,n .
X nx1
x21,i
x1,i
i=1
i=1 i=1
1 x1,n
n
X
En inversant X t X et en utilisant la décomposition : scex = x21,i − nx21 , il vient
i=1
n n
X 1X 2
1 x21,i −nx1 1 x1,i −x1
(X t X)−1 n i=1
= n i=1
=
scex
.
X
2 2
n x1,i − (nx1 ) −nx1 n −x1 1
i=1
n
x2
−1 1 −1 1 1X 2 1 1 1
[(X X) t
]2,2 = , t
[(X X) ]1,1 = × x1,i = (scex + nx1 ) = + 1 .
2
scex scex n i=1 scex n n scex
On en déduit que
x2
1 1
βb1 ∼ N 2
β1 , σ , βb0 ∼ N β0 , σ 2
+ 1 .
scex n scex
Propriétés de Ybx
On a
1 (x1 − x1 )2
2
Ybx = βb0 + βb1 x1 ∼ N yx , σ + .
n scex
C. Chesneau 43
4 Retour sur le modèle de rls
Éléments de preuve : Tout repose sur le résultat : pour x• = (1, x1 ), on a Ybx ∼ N yx , σ 2 x• (X t X)−1 xt• .
n n
1X 2 1X 2
1 x1,i −x1 1 x − x1 x1
= 1 n i=1 1,i
x• (X t X)−1 xt• n
= 1 x1
i=1 1 x1
scex
x1 sce x
−x1 1 −x1 + x1
n
! n
!
1 1X 2 2 1 1X 2 2 2 2
= x − 2x1 x1 + x1 = x − x1 + x1 − 2x1 x1 + x1
scex n i=1 1,i scex n i=1 1,i
(x1 − x1 )2
1 1 2 1
= scex + (x1 − x1 ) = + .
scex n n scex
On en déduit que
(x1 − x1 )2
1
Ybx ∼ N yx , σ 2 + .
n scex
Estimation ponctuelles
r
1
ete1 = s .
scex
C. Chesneau 44
5 Intervalles et volumes de confiance
h p p i
σ c(X t X)−1 ct , cβb + tα (ν)b
Icβ = cβb − tα (ν)b σ c(X t X)−1 ct ,
h p p i
icβ = cb − tα (ν)s c(X t X)−1 ct , cb + tα (ν)s c(X t X)−1 ct .
Preuve : Dire que Icβ est un intervalle de confiance (aléatoire) pour cβ au niveau 100(1 − α)%, α ∈]0, 1[,
signifie que P(cβ ∈ Icβ ) = 1 − α. Tout repose sur le résultat :
cβb − cβ
T∗ = p ∼ T (n − (p + 1)).
σ
b c(X t X)−1 ct
Ainsi, Icβ est un intervalle de confiance (aléatoire) pour cβ au niveau 100(1 − α)%, α ∈]0, 1[.
C. Chesneau 45
5 Intervalles et volumes de confiance
Pour tout j ∈ {0, . . . , p}, un intervalle de confiance pour βj au niveau 100(1 − α)%, α ∈]0, 1[,
est la réalisation iβj de
q q
Iβj = βj − tα (ν)b
b t −1
σ [(X X) ]j+1,j+1 , βj + tα (ν)b
b t −1
σ [(X X) ]j+1,j+1 .
Preuve : Tout repose sur le résultat : P(cβ ∈ Icβ ) = 1−α ; en notant cj le vecteur ligne à p+1 composantes
avec p composantes nulles, sauf la j + 1-ème qui vaut 1, on a P(βj ∈ Iβj ) = P(cj β ∈ Icj β ) = 1 − α. Donc Iβj est
Un intervalle de confiance pour yx au niveau 100(1 − α)%, α ∈]0, 1[, est la réalisation iyx de
h p p i
σ x• (X t X)−1 xt• , Ybx + tα (ν)b
Iyx = Ybx − tα (ν)b σ x• (X t X)−1 xt• .
h p p i
iyx = dx − tα (ν)s x• (X t X)−1 xt• , dx + tα (ν)s x• (X t X)−1 xt• .
Preuve : On rappelle que : P(cβ ∈ Icβ ) = 1 − α. Il vient P(yx ∈ Iyx ) = P(x• β ∈ Ix• β ) = 1 − α. Donc Iyx
est un intervalle de confiance (aléatoire) pour yx au niveau 100(1 − α)%, α ∈]0, 1[.
C. Chesneau 46
5 Intervalles et volumes de confiance
n o
VRβ = β ∈ Rp+1 ; (Rβb − Rβ)t (R(X t X)−1 Rt )−1 (Rβb − Rβ) ≤ kb
σ 2 fα (ν1 , ν2 ) ,
vRβ = β ∈ Rp+1 ; (Rb − Rβ)t (R(X t X)−1 Rt )−1 (Rb − Rβ) ≤ ks2 fα (ν1 , ν2 ) .
Preuve : Dire que VRβ est un volume de confiance (aléatoire) pour Rβ au niveau 100(1 − α)%, α ∈]0, 1[,
signifie que P(vRβ ∈ VRβ ) = 1 − α. Tout repose sur le résultat :
Ainsi, IvRβ est un volume de confiance (aléatoire) pour vRβ au niveau 100(1 − α)%, α ∈]0, 1[.
C. Chesneau 47
5 Intervalles et volumes de confiance
Dans le cadre du modèle de rls (donc p = 1), avec les notations déjà introduites, un ellipsoïde
β0
de confiance pour β = au niveau 100(1 − α)%, α ∈]0, 1[, est
β1
n
eβ = (β0 , β1 ) ∈ R2 ;
o
(scex + nx21 )(b1 − β1 )2 + 2nx1 (b0 − β0 )(b1 − β1 ) + n(b0 − β0 )2 ≤ 2s2 fα (ν1 , ν2 ) ,
On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .
On enregistre les données dans R :
w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,
C. Chesneau 48
5 Intervalles et volumes de confiance
Pour calculer les intervalles de confiances pour β0 , β1 , β2 , β3 , β4 et β5 au niveau 95%, les commandes
R sont :
Cela renvoie :
2.5 % 97.5 %
(Intercept) -661.06 116.98
X1 -0.34 1.92
X2 0.74 4.63
X3 -3.18 0.29
X4 2.99 10.67
X5 -42.73 72.53
Les commandes R pour calculer les intervalles de confiances pour la valeur moyenne de Y quand
(X1 , X2 , X3 , X4 , X5 ) = (82, 158, 47, 49, 1) au niveau 95% sont :
C. Chesneau 49
5 Intervalles et volumes de confiance
Les commandes R pour calculer les volumes de confiances pour (β1 , β2 ) (donc des ellipses de
confiance) au niveau 95% sont :
library(ellipse)
plot(ellipse(reg, c(2, 3), level = 0.95), type = "l")
C. Chesneau 50
6 Tests statistiques
6 Tests statistiques
Notions de base
H0 : "X1 n’influe pas sur Y " contre H1 : "X1 influe sur Y ".
Risque. Le risque est le pourcentage de chances de rejeter H0 , donc d’accepter H1 , alors que H0 est
vraie. On veut que ce risque soit aussi faible que possible.
Il s’écrit sous la forme : 100α%, avec α ∈]0, 1[ (par exemple, 5%, soit α = 0.05).
Le réel α est alors la probabilité de rejeter H0 alors que H0 est vraie.
Le rejet de H0 est dit "significatif" si elle est rejetée au risque 5%.
Test statistique. Un test statistique est une procédure qui vise à apporter une réponse à la question :
Est-ce que les données nous permettent de rejeter H0 , donc d’accepter H1 , avec un faible risque de
se tromper ?
Types de test statistique. En notant θ un paramètre inconnu, on dit que le test est
◦ bilatéral si H1 est de la forme H1 : θ 6= . . .
◦ unilatéral à gauche (sens de <) si H1 est de la forme H1 : θ < . . .
◦ unilatéral à droite (sens de >) si H1 est de la forme H1 : θ > . . .
p-valeur. La p-valeur est le plus petit réel α ∈]0, 1[ calculé à partir des données tel que l’on puisse se
permettre de rejeter H0 au risque 100α%. Autrement écrit, la p-valeur est une estimation ponctuelle
de la probabilité critique de se tromper en rejetant H0 alors que H0 est vraie.
Les logiciels actuels travaillent principalement avec cette p-valeur.
C. Chesneau 51
6 Tests statistiques
Hypothèses H0 H1
bilatérale cβ = r cβ 6= r
cβb − r
T∗ = p .
b c(X t X)−1 ct
σ
H0 H1 p-valeurs
cβ = r cβ 6= r P(|T | ≥ |tobs |)
C. Chesneau 52
6 Tests statistiques
β0
Par exemple, pour p = 2, donc β = β1 , si on veut prouver que X1 à plus d’influence que
β2
X2 sur Y , alors on considère l’hypothèse : H1 : β1 > β2 , laquelle peut se réécrire comme H1 :
cβ > r avec c = (0, 1, −1) et r = 0.
Avec les notations déjà introduites, on peut écrire :
cb − r
tobs = p .
s c(X t X)−1 ct
Éléments de preuve : Sous les hypothèses standards, par le test du rapport des vraisemblances maxi-
males, on peut montrer que la zone de rejet optimale de H0 est un événement de la forme :
( )
n o cβb − r
R = |cβb − r| ≥ C = p ≥ C∗ = {|T∗ | ≥ C∗ } ,
σ
b c(X t X)−1 ct
où C > 0 et C∗ > 0 désignent des quantités muettes ; seule la forme générale de R importe. Plus intuitivement :
rejet de H0 / affirmation de H1 ⇔ cβ 6= r ⇔ |cβ − r| > 0 ⇒ |cβb − r| > C > 0. Si H0 est vraie, alors
T∗ ∼ T (ν), ν = n − (p + 1) ; T∗ et T suivent la même loi, laquelle ne dépend pas de paramètre inconnue.
De plus, une estimation ponctuelle de la plus grande constante calculable C∗ qui minimise la probabilité
que l’événement R se réalise est la réalisation |tobs | de |T∗ |. C’est pourquoi on considère :
C. Chesneau 53
6 Tests statistiques
Hypothèses H0 H1
bilatérale βj = r βj 6= r
βbj − r
T∗ = p .
b [(X t X)−1 ]j+1,j+1
σ
H0 H1 p-valeurs
βj = r βj 6= r P(|T | ≥ |tobs |)
bj − r
tobs =
etej
C. Chesneau 54
6 Tests statistiques
Influence de Xj sur Y
Pour tout j ∈ {1, . . . , p}, l’influence de Xj sur Y est caractérisée par βj 6= 0. On pose alors les
hypothèses :
H0 : βj = 0 contre H1 : βj 6= 0,
Par exemple, si p-valeur ∈]0.001, 0.01] ; ∗∗, l’influence de Xj sur Y est très significative.
On a alors p + 1 p-valeurs, lesquelles sont souvent donnés directement par les logiciels statistiques.
Emco et test de Fisher
H0 : Rβ = r contre H1 : Rβ 6= r.
C. Chesneau 55
6 Tests statistiques
Éléments de preuve : Sous les hypothèses standards, par le test du rapport des vraisemblances maxi-
males, on peut montrer que la zone de rejet optimale de H0 est un événement de la forme :
( )
n o (Rβb − r)t (R(X t X)−1 Rt )−1 (Rβb − r)
R = kX(X t X)−1 Rt (R(X t X)−1 Rt )−1 (Rβb − r)k2 ≥ C = ≥ C∗
σ2
kb
= {F∗ > C∗ } ,
où C > 0 et C∗ > 0 désignent des quantités muettes ; seule la forme générale de R importe.
Si H0 est vraie, alors F∗ ∼ F(ν1 , ν2 ), (ν1 , ν2 ) = (k, n − (p + 1)) ; F∗ et F suivent la même loi, laquelle ne
dépend pas de paramètre inconnue. De plus, une estimation ponctuelle de la plus grande constante calculable
C∗ qui minimise la probabilité que l’événement R se réalise est la réalisation fobs de F∗ . C’est pourquoi on
considère :
p-valeur = P(F ≥ fobs ).
b2 n − (p + 1)
R
F∗ = .
1−Rb2 p
R2 n − (p + 1)
fobs = .
1 − R2 p
C. Chesneau 56
6 Tests statistiques
Ce test est un cas particulier du test de Fisher avec la matrice R = diagp+1 (0, 1, . . . , 1) et r = 0p+1 .
Il vise à étudier la pertinence du lien linéaire entre Y et X1 , . . . , Xp .
Comparaison de deux modèles emboîtés
||XΛ bΛ − Xb||2
fobs = .
ks2
C. Chesneau 57
6 Tests statistiques
Ce test est un cas particulier du test de Fisher. Il vise à évaluer la pertinence de l’inclusion de
certaines variables dans le modèle. On peut alors faire de la sélection de variables. Si des variables
explicatives sont statistiquement dispensables dans l’explication de Y , il est préférable de ne pas les
inclure dans le modèle. En effet, moins le modèle contient de variables, plus il est opérationnel pour le
praticien.
Mise en œuvre avec le logiciel R
On reprend le jeu de données "profs". Dans une étude statistique, 23 professeurs sont évalués quant
à la qualité de leur enseignement. Pour chacun d’entre eux, on dispose :
◦ d’un indice de performance globale donné par les étudiants (variable Y ),
◦ des résultats de 4 tests écrits donnés à chaque professeur (variables X1 , X2 , X3 et X4 ),
◦ du sexe (variable X5 , avec X5 = 0 pour femme, X5 = 1 pour homme).
L’objectif est d’expliquer Y à partir de X1 , X2 , X3 , X4 et X5 .
On enregistre les données dans R :
w = [Link]("[Link] header = T)
attach(w)
Le modèle de rlm est envisageable. Sa forme générique est
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + ,
Pour tout j ∈ {1, . . . , p}, pour étudier l’influence de Xj sur Y , on considère les hypothèses :
H0 : βj = 0 contre H1 : βj 6= 0.
On peut obtenir les tobs et les p-valeurs associées avec la commande summary :
summary(reg)
C. Chesneau 58
6 Tests statistiques
Cela renvoie :
On utilise alors le test global de Fisher, lequel est mis en œuvre avec la commande summary. On a
le fobs avec F-statistic : fobs = 7.34 et la p-valeur associée avec p-value : p-valeur = 0.0007887.
Comme p-valeur < 0.001, le degré de significativité est ∗ ∗ ∗ ; le lien linéaire entre Y et X1 , X2 , X3 ,
X4 et X5 est pertinent.
Remarque : Comme R2 = 0.6834, on peut vérifier que
R2 n − (p + 1) 0.6834 23 − (5 + 1)
fobs = 2
= = 7.339104.
1−R p 1 − 0.6834 5
H0 : β1 = β3 = 0 contre H1 : β1 6= 0 ou β3 6= 0.
C. Chesneau 59
6 Tests statistiques
On obtient la p-valeur associée dans la colonne Pr(>F) : p-valeur = 0.1702. Comme p-valeur > 0.05,
les données ne nous permettent pas de rejeter H0 .
C. Chesneau 60
6 Tests statistiques
C(X1 , Y )
ρ= .
σ(X1 )σ(Y )
De plus, on suppose que (X1 , Y ) est un vecteur de var suivant une loi normale bidimensionnelle. Grâce
à cette hypothèse, on a l’équivalence : X1 et Y indépendantes ⇔ ρ = 0.
On peut alors reformuler les hypothèses comme :
H0 : ρ = 0 contre H1 : ρ 6= 0.
Pour mettre en œuvre le test de nullité du coefficient de corrélation, on considère les quantités :
n
X
n n
(x1,i − x)(yi − y)
1X 1X
x1 = x1,i , y= yi , r = v i=1 .
n n u n
uX n
i=1 i=1 X
t (x1,i − x1 )2 (yi − y)2
i=1 i=1
On calcule
√ r
tobs = n − 2√ .
1 − r2
Soit T ∼ T (ν), ν = n − 2. Alors la p-valeur associée au test de nullité du coefficient de corrélation est
Ce test est en fait similaire au test de Student ; on peut montrer que t2obs = b21 /ete21 .
C. Chesneau 61
6 Tests statistiques
Père 121 142 108 111 97 139 131 90 115 107 124 103 115 151
Fils 102 138 126 133 95 146 115 100 142 105 130 120 109 123
C. Chesneau 62
Index
Estimations ponctuelles, 10
Test de Fisher, 55, 59
63