Régression Linéaire: Guide Pratique
Thèmes abordés
Régression Linéaire: Guide Pratique
Thèmes abordés
Etude n° 70/00
Modélisation
RAPPORT FINAL
Documents associés :
Août 2002
INTRODUCTION
Dans un laboratoire d'essais, il est très fréquent que l'expérimentateur cherche à ajuster
un modèle mathématique à des données expérimentales. En particulier, il cherche souvent à
estimer la relation fonctionnelle entre des données d’entrée et des données de sortie. Il
existe différentes méthodes pour caractériser une telle relation: interpolations, régression,
réseaux de neurones… Dans ce document, nous parlerons uniquement de la régression
linéaire. Son avantage par rapport à d'autres méthodes, est qu'elle est basée sur la théorie
des probabilités et fournit donc non seulement une courbe ajustant les données, mais aussi
des prédictions avec leurs incertitudes. Chaque résultat fourni peut être accompagné de sa
variance et de son intervalle de confiance. Mais il faut l'utiliser avec une grande prudence car
elle repose sur des hypothèses statistiques qui doivent être absolument vérifiées sous peine
d'obtenir des résultats faux. En effet, le calcul des estimateurs, mais surtout de leurs
variances et des intervalles de confiance utilise des propriétés qui ne sont valables que si les
hypothèses sont respectées. C'est une des raisons principales qui nous a conduit à écrire ce
document qui donne les méthodes de vérification des hypothèses. Nous fournissons aussi
divers outils statistiques pour détecter les valeurs atypiques ou trop influentes dans la
construction du modèle. Ainsi, tous ces éléments permettent à chacun d'apprécier la qualité
du modèle choisi.
Dans la première partie, nous étudions la régression linéaire simple avec le détail de tous
les calculs, dans la seconde nous présentons la régression linéaire multiple comme
généralisation de la régression simple.
Enfin, dans la dernière partie, nous commenterons les outils informatiques disponibles
sous Excel.
1. INTRODUCTION
RESIDUS ET INFLUENCES 27
REGRESSION PONDEREE 59
5. OUTILS INFORMATIQUES 77
6. CONCLUSION 97
7. ANNEXES 99
ANNEXE B (norme NF X 06-050 déc 1995 : étude de la normalité d’une distribution) 103
8. BIBLIOGRAPHIE 130
REGRESSION
LINEAIRE
SIMPLE
1. Le modèle.
La droite de régression
« De nombreuses études consistent à essayer d'expliquer à l'aide d'un modèle, une variable,
en fonction d'une autre variable. Dans le cadre de la régression linéaire simple, on écrit alors
la relation recherchée sous la forme suivante :
Y = β 0 + β1 X
C'est l’équation d’une droite. Elle correspond au modèle « idéal » jamais rencontré en
pratique.
Les coefficients β 0 et β1 sont des paramètres inconnus qu'il faut évaluer. Si la relation
qui lie Y à X était parfaitement exacte, il suffirait de connaître les valeurs de Y et de X pour 2
observations et de résoudre un système d'équations à 2 inconnues pour trouver β 0 et β1 .
Cependant, une relation choisie pour expliquer un phénomène donné n'est que rarement
exacte. Tout d'abord, un modèle n'est en général qu'une approximation d'un phénomène
beaucoup plus complexe. De plus, toute expérience répétée deux fois dans des conditions
que l'on croit identiques, ne donne que rarement le même résultat. Les variations sont en
général dues à une multitude de facteurs inconnus ou que l'on ne sait pas contrôler. Il est
donc nécessaire d'attacher à tout modèle un terme aléatoire qui représente l'écart entre le
modèle théorique et la réalité ». Ce terme aléatoire appelé terme d'erreur, est ajouté au
modèle comme le montre la relation suivante :
β 0 constante de
régression ou β1 pente de la
« intercept » régression
Y = β 0 + β1 X + ε (1)
On dit que les valeurs de Y sont entachées d’une erreur de mesure aléatoire notée
ε.
A la base de toute étude statistique, il y a une population sur laquelle porte l'observation.
Lorsqu'il est impossible ou inutile d'étudier l'ensemble de la population, on observe alors une
sous-population de taille réduite, en espérant tirer des conclusions généralisables à toute la
population. Cette sous-population est appelée échantillon.
Pour effectuer une régression linéaire, l’expérimentateur doit disposer d’un échantillon de
données ( il est conseillé de faire un plan d’expériences pour obtenir un échantillon tel qu'on
ait les meilleures propriétés sur les estimateurs). Ces données sont les observations de la
variable expliquée Y pour différentes valeurs fixées de la variable explicative X.
Il est important de préciser que le mot échantillon prend deux sens différents, selon qu'on
parle des données observées ou du modèle probabiliste. L'hypothèse de modélisation (1)
consiste à voir l'échantillon (observé) comme une réalisation d'un échantillon (théorique)
d'une certaine loi de probabilité P. En d'autres termes, on considère que les données
auraient pu être produites en simulant de façon répétée la loi de probabilité P. Pour éviter les
confusions, nous désignerons par données ou échantillon observé, la séquence de nombres
recueillie, et échantillon l’échantillon théorique.
Si on différencie l'échantillon observé de l'échantillon théorique, c'est parce que leur rôle
n'est pas le même : l'échantillon théorique va permettre de trouver des estimateurs et
d'utiliser les théorèmes et propriétés statistiques, alors que l'échantillon observé permet de
trouver des estimations qui sont des réalisations des estimateurs.
Il faut en effet bien distinguer en statistiques l'estimateur qui est une variable
aléatoire, de l'estimation qui est la valeur qu'il prend pour un échantillon de données.
Pour établir les formules des estimateurs et les théorèmes qui leur sont liés, on utilise
l'échantillon théorique que l'on note :
Echantillon (théorique)
Termes d'erreur
Remarques:
β1 pente de la
β 0 intercept ou ordonnée à l’origine droite de régression
∀i ∈ {1, n}, Yi = β 0 + β 1 X i + ε i
2. Les hypothèses.
Avant de proposer une méthode pour ajuster une droite à l'échantillon, il est important de
préciser les hypothèses sous-jacentes au modèle linéaire simple.
La validité de la plupart des résultats que nous exposons dans la suite dépend
directement des hypothèses. Il est donc primordial, avant le choix d'un modèle, de réfléchir à
chacune des hypothèses et d'utiliser, après l'estimation des paramètres du modèle, des
méthodes adéquates pour les valider.(car il est impossible de valider les hypothèses
théoriques, c’est seulement à partir des données qu’on peut les valider)
HYPOTHESE 1 :
• Le modèle doit être « linéaire par rapport aux paramètres », c’est à dire que la variable
expliquée Y s’écrit comme la somme d’une constante ( β 0 , éventuellement nulle) et d’un
paramètre β1 multiplié par une fonction de X .
Exemples :
Remarques :
1
Si on pose X * = X 3 pour l’exemple 1 et X * = pour l’exemple 2, on retrouve bien le
X
modèle de régression simple Y = β 0 + β1 X * .
HYPOTHESE 2 :
Le modèle doit être bien spécifié, c’est à dire qu’il ne faut pas avoir oublié des variables
explicatives. ( voir régression multiple si nécessaire)
HYPOTHESE 3 :
• La variable explicative X est déterministe, c’est à dire que les valeurs prises par X sont
parfaitement connues (contrairement à une variable aléatoire). On parle alors de modèle
à effets fixes ou encore de modèle à facteur contrôlé. Il existe aussi des modèles à
effets aléatoires pour lesquels les valeurs de X sont aléatoires (Pour ces modèles, une
fiche sera rédigée par la suite, pour le moment se renseigner au service statistiques)
HYPOTHESE 4 :
E (εi ) = 0 ∀i ∈ {1, n}
On verra qu’avec cette hypothèse, l’estimateur des moindres carrés est sans biais. (une
fiche sur les propriétés des estimateurs sera ajoutée par la suite).
HYPOTHESE 5 :
Exemples :
Dans le cas où la variable expliquée suit pour chaque niveau une loi normale.
Homoscédasticité
Hétéroscédasticité
HYPOTHESE 6 :
• Les termes d’erreur ne sont pas corrélés. Il ne doit y avoir aucun lien entre l’erreur
commise sur une mesure et les mesures effectuées précédemment. Mathématiquement,
cela se traduit par :
( )
Cov εi , ε j = 0 pour i ≠ j
Pour tester cette hypothèse, se reporter à la fiche « corrélation des termes d’erreur »
HYPOTHESE 7 ( FACULTATIVE ) :
3. Les objectifs.
Les estimateurs
⇒ on appelle b0 l’estimateur de β 0
⇒ on appelle b1 l’estimateur de β1
⇒ on appelle s 2 l’estimateur de σ 2
Yˆ = b0 + b1 X
Dans ce document, nous utilisons toujours l'échantillon théorique afin d'obtenir les
estimateurs et leurs propriétés. Mais de façon concrète, l'expérimentateur a besoin des
estimations. Pour les obtenir, il lui suffit, dans les formules des estimateurs, de remplacer les
variables par les données qu'il a obtenues. En toute rigueur, il faudrait différencier les
notations utilisées pour les estimateurs et celles pour les estimations, de même il faudrait
différencier les notations utilisées pour les données et celles pour les variables aléatoires
dont elles sont les réalisations, mais cela complique et alourdit le document, c'est pourquoi
nous garderons les mêmes notations, comme dans la plupart des ouvrages sur la
régression.
Remarques :
Pour un échantillon, Yˆi = b0 + b1 X i est l’estimateur de la valeur moyenne prise par la variable
Y quand la variable X prend la valeur X i .
Il existe différentes méthodes pour calculer les estimateurs des coefficients. Nous exposons
ici celle des moindres carrés.
Elle consiste à minimiser la sommes des carrés des écarts Yi − Yˆi , c’est à dire qu’on
cherche :
Min ∑ (Y
b0 ,b1 i =1
i − b0 − b1 X i )2
Ces écarts Yi − Yˆi sont appelés les résidus, ce sont des variables aléatoires que nous
noterons ei . Ils ne sont pas égaux aux termes d’erreur et contrairement à ces derniers, on
peut connaître leur valeur pour chaque échantillon de données.
Remarque: on trouve souvent dans les ouvrages de statistiques que la méthode des
moindres carrés consiste à minimiser la somme des carrés des erreurs ε i :
n
Min ∑ (Y
b0 ,b1 i =1
i − β 0 − β1 X i )2
1 n 1 n
X = ∑ Xi
n i =1
Y = ∑ Yi
n i =1
1 n 1 n
s x2 = ∑ ( X i − X )2
n − 1 i =1
sY2 = ∑ (Yi − Y )2
n − 1 i =1
1 n
s xy
2
= ∑ ( X i − X )(Yi − Y )
n − 1 i =1
Paramètres de
la droite Estimateur Variance de l’estimateur
théorique
⎛ ⎞
⎜ 2 ⎟
β0 1 X
b0 = Y − b1 X Var (b0 ) = s 2 ⎜ + n ⎟
⎜n 2⎟
⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠
n
∑ ( X i − X )(Yi − Y ) s2
i =1
s xy Var (b1 ) =
β1 b1 = = n
n
∑ ( Xi − X ) s x2 ∑(X
i =1
i − X )2
i =1
−X
Cov (b0 , b1 ) = s 2 n
∑(X
i =1
i − X )2
1 n
s2 = ∑ (Yi − b0 − b1 X i ) 2
n − 2 i =1
σ2 1 n 1 n 2
= ∑
n − 2 i =1
(Y i − Yˆi ) 2 = ∑ ei
n − 2 i =1
Remarques :
Les prédictions.
On utilise souvent les modèles linéaires pour faire de la prédiction, c’est à dire calculer la
valeur de Y lorsqu’on a choisi une valeur pour X.
Dans ces fiches, nous utilisons le terme de prédiction (prediction en anglais), mais il est
important de signaler que la littérature utilise aussi pour les mêmes résultats le mot prévision
(forecasting). La différence entre les deux mots n’est pas clairement expliquée dans les
ouvrages et donne lieux à de nombreuses discussions.
Dans le modèle de régression linéaire simple, il faut distinguer deux sortes de prédictions :
ˆ
• Yˆk la prédiction sur une nouvelle valeur de Y pour X= X k .(résultat d’un nouvel essai au
point X= X k ). C’est l’estimateur de Y sachant que X= X k (notée mathématiquement
Y / X = X k ), c’est à dire l’estimateur de la valeur que prendra la variable Y pour X= X k .
ˆ
Les estimateurs Ŷk et Yˆk sont égaux, ce sont des points qui se situent sur la droite de
régression, mais ils n'ont pas la même variance (c’est pourquoi il est important de bien
différencier les deux).
⎛ ⎞
E (Y / X = X k ) ⎜ 2 ⎟
1 ( X − X )
Yˆk = b0 + b1 X k Var (Yˆk ) = s 2 ⎜ + n k ⎟
(= β 0 + β1 X k ) ⎜n 2⎟
⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠
ˆ
Yˆk = b0 + b1 X k +e ⎛ ⎞
Y /( X = X k ) ⎜ 2 ⎟
avec e estimateur de ε k ˆ 1 (X − X ) ⎟
Var (Yˆk ) = s 2 ⎜1 + + n k
(= β 0 + β1 X k + ε k ) ⎜ n 2⎟
(e=0, var(e)= σ 2 ) ⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠
Pour connaître les intervalles de confiance liés à ces prédictions, se reporter à la fiche :
"QUALITE DE L’AJUSTEMENT"
Résumé notations :
Enfin, pour résumer les notations qui sont utilisées tout au long de ce document, voici un
tableau des notations et un schéma sur la régression.
observable
certaine ou (O) ou
Notations Variable constante aléatoire
déterministe calculable
(C)
Y (population) × × O
Yi
variable à expliquer × × O
(échantillon)
X (population)
× × O
variable explicative
Xi
variable explicative O
(échantillon)
ε i = Yi − β 0 − β 1 X i
× ×
variable d'erreur
β0
× ×
intercept du modèle
β1
× ×
pente du modèle
ei = Yi − b0 − b1 X i
× × C
résidus
b0
× × C
estimateur de l'intercept
b1
× × C
estimateur de la pente
s2
estimateur de la variance × × C
d'erreur
Si on suppose par exemple que tous les εi suivent une loi normale centrée N (0, σ 2 ) , le
modèle de régression linéaire implique que les Yi suivent aussi une loi normale de moyenne
βo + β1 X i . On a donc le schéma suivant :
Dans l'exemple H.3, le GUM, Guide pour l'expression de l'incertitude de mesure (ISO,
première édition, 1995), utilise une série de formules (H.13a à H.13g). Toutes ces formules,
application de la méthode des moindres carrés à la régression linéaire, sont démontrées ci-
dessous.
1. Notations
On note également
S XY = ∑ (X − X )(Y − Y ) = ∑ (X
i i i )
− X Yi = ∑ X i Yi − Y ( )
= ∑ X Y − X ∑Y − Y ∑ X
i i i i + n XY
(∑ X )(∑Y )
= ∑XY i i − n XY = ∑ X i Yi −
i
n
i
de même
(
S XX = ∑ X i − X ) = ∑ (X
2
)
− X Xi = ∑ X − nX = ∑ X 2 2 2
−
(∑ X )i
2
i i i
n
La droite "idéale" serait définie par les paramètres inconnus β0 et β1 ayant ainsi pour
équation :
Y = β0 + β1 X (1)
On va chercher des estimations de β0 et β1, qui seront notées b0 et b1 . Ces valeurs seront
utilisées pour calculer les valeurs prédites de Y notées Y :
Y = b0 + b1 X (2)
Pour chacune des n paires d'observations ( X i ,Yi ) on peut écrire :
Yi = β 0 + β1 X i + ε i (3)
ε i représentant l'écart entre la valeur observée Yi et l'ordonnée de la droite "idéale".
Considérons la somme des carrés des déviations par rapport à cette droite :
S = ∑ ε i2 = ∑ (Yi − β 0 − β1 X i )
2
(4)
Cette somme S dont on recherche le minimum étant une fonction de β0 et β1, on calcule sa
dérivée par rapport à chacune de ces deux variables :
∂S
= −2∑ (Yi − β 0 − β1 X i )
∂ β0
(5)
∂S
= −2∑ X i (Y1 − β 0 − β1 X i )
∂ β1
∑ (Y i − b0 − b1 X i ) = 0
(6)
∑ (Y i − b0 − b1 X i )X i = 0
∑Y − n b − b ∑ X = 0
i 0 1 i
(7)
∑X Y −b ∑X −b ∑X
i i 0 1 1 i
2
=0
b0 n + b1 ∑ X i = ∑ Y1 (8a )
b0 ∑ X i + b1 ∑ X = ∑ X i Yi i
2
(8b )
De (8a) on déduit b0 =
1
(∑Yi − b1∑ X i ) (9a)
n
ou b0 = Y − b1 X (9b)
∑XY i
1
n
(∑ X i )(∑Yi )
i −
soit (H.13b) b1 = (10a)
∑ X i2 − n (∑ X i )
1 2
ou encore b1 =
∑ (X − X )(Y − Y ) = S
i i XY
(10b)
∑ (X − X ) S 2
i XX
b0 =
∑Y − ∑ X
i i
⎡ n ∑ X iYi − (∑ X i )(∑ Yi )⎤
⎢ ⎥ =
(∑ X )(∑Y ) − (∑ X )(∑ X Y )
i
2
i i i i
(9c)
n n ⎢⎣ n ∑ X i2 − (∑ X i ) ⎥⎦ n ∑ X − (∑ X )
2 2 2
i i
5. Variance de b1
b1 =
∑ (X − X )(Y − Y ) = ∑ (X − X )Y
i i i i
=
(X − X ) Y
1
+ … +
(X − X ) Y
n
∑ (X − X ) ∑ (X − X ) ∑ (X − X ) ∑ (X − X )
2 2 2 1 2 n
i i i i
alors on en déduit :
1°) E (Yi ) = β 0 + β1 X i
2°) V (Yi ) = σ 2 quel que soit i
3°) Yi et Yj sont non corrélés quels que soient i et j
D'où (H.13d) :
⎡ ⎛ ⎞
2
⎤
Xi − X σ2
V (b1 ) = ⎢∑ ⎜ ⎟ ⎥σ 2 = (12)
⎢ ⎜ ( ) ∑ (X )
2 ⎟ ⎥
⎣⎢ ⎝ ∑ i
2
X −X ⎠ −X
⎦⎥ i
6. Variance de b0
( ) ( )
V (b0 ) = V Y − b1 X = V Y + X 2V (b1 ) − 2 X cov Y , b1 ( )
( )
Mais cov Y , b1 = 0 . En effet
1 1
Y = Y1 + … + Yn
n n
et
b1 =
X1 − X (
Y1 + …
) +
(X − X )
n
Yn
∑ Xi − X
2
( ) ∑ (X − X ) i
2
et comme les Yi et Yj ne sont pas corrélés, et que V (Yi ) = σ 2 quel que soit i, alors (d'une part
voir le rappel au paragraphe 2, d'autre part se souvenir de ce que ∑ (X i )
− X ≡ 0) :
(
⎡1
cov Y , b1 = σ 2 ∑ ⎢ ) (X − X ) ⎤⎥= 0
i
⎢n ∑ (X − X ) ⎥⎦
2
⎣ i
( )
V (b0 ) = V Y + X 2V (b1 ) =
σ2
+ X2
σ2
n ∑ (X )
2
i −X
⎛1 X2 ⎞
V (b0 ) = σ 2 ⎜ + ⎟ (13)
⎜n
∑( )
2 ⎟
⎝ Xi − X ⎠
V (b0 ) =
[
σ 2 ∑ (X i − X ) + n X 2
2
]= σ 2 ∑ X i2
(14)
n∑ X i − X( ) 2
n∑ X i − X( ) 2
(
cov (b0 , b1 ) = cov Y − b1 X , b1 = − X V (b1 ) = ) − Xσ 2
(15)
∑ (X )
2
i −X
cov (b0 , b1 ) − Xσ 2
r (b0 , b1 ) = =
s (b0 )s (b1 ) σ 2 ∑ X i2
∑ (X )
2 σ2
−X
i
n∑ X i − X ( ) ∑ (X
2
i −X )
2
n
− ∑ Xi
c'est-à-dire (H.13e) r (b0 , b1 ) =
n ∑ X i2
donc ()
⎡1
V Yˆ = σ 2 ⎢ +
(X − X ) ⎤⎥ 2
(16)
⎢n ∑ (X − X ) ⎥⎦
2
⎣ i
Or, de l'égalité
( ) (
Yi − Y = Yi − Yˆi + Yˆi − Y ) ( )
on déduit (élévation au carré et sommation pour tous les points)
∑(
2
Y −Y = i ) ∑ [(
Y − Yˆ + Yˆ − Y
2
) ( )]
i i i
= ∑ (Y − Yˆ ) + 2∑ (Y − Yˆ )(Yˆ − Y ) + ∑ (Yˆ − Y )
2 2
i i i i i i
Finalement :
∑ (Y i −Y ) = ∑ (Y
2
i − Yˆi ) + ∑ (Yˆ − Y )
2
i
2
∑ (Y )
2
i −Y est la somme des carrés des écarts des valeurs observées par rapport à la
moyenne, elle a n − 1 degrés de liberté.
∑ (Yˆ )
2
i −Y est la somme des carrés des écarts des valeurs prédites par rapport à la
moyenne ; c'est la somme des carrés due à (expliquée par) la régression ;
comme elle vaut b12 SXX elle n'a qu'un seul degré de liberté.
∑ (Y )
2
i − Yˆi qui est la somme des carrés des résidus (part de la somme des carrés initiale
inexpliquée par la régression) a en conséquence n − 2 degrés de liberté.
∑ (Y ) 2
i − Yˆi
s 2
=
n−2
RESIDUS ET INFLUENCES
On ne peut déterminer la valeur des résidus qu’après avoir effectué une régression, mais
on les utilise souvent pour vérifier les hypothèses de la régression.
Ils permettent par exemple de vérifier :
• la normalité des termes d’erreur (voir fiche « normalité des erreurs »).
Il existe différents types de résidus dont les formules sont données dans le « tableau des
résidus ».(quelques pages plus loin). Ils nécessitent des notations introduites dans l’annexe
A.
En régression linéaire, il existe des méthodes qui permettent de détecter les valeurs
atypiques (« outliers ») , c’est à dire les données qui s’éloignent fortement de la droite de
régression, et les valeurs influentes, c’est à dire celles qui apportent une forte contribution
dans le calcul de la droite de régression. Ces méthodes sont souvent réunies sous le nom de
« diagnostics »
Remarque : Les graphes qui suivent ont tous été réalisés avec le même échantillon de
données.
1 ( X − X )2
• hii les leviers (voir annexe A) ( hii = + n i )
n
∑(Xi − X)
i =1
2
ei = Yi − Yˆi ∀i ∈ {1, n}
Ces résidus sont les plus faciles à calculer et sont souvent donnés par les logiciels de
régression. Ils s’expriment dans la même unité que la variable Y. Ils permettent
éventuellement de repérer une valeur atypique mais ce ne sont pas les meilleurs pour cet
objectif car ils n’ont pas la même variance et sont donc difficilement comparables.
⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus simples
croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce nuage qui
devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses.
Résidus simples
21
résidus simples
16
11
6
1
-4
-9
8 12 16 20 24 28 32
Variable explicative X
Remarque : Pour un modèle avec constante, les résidus sont centrés sur zéro.
∑ (Y )
n n
∑e
2
i − Yˆi 2
i
e
eri = i ∀i ∈ {1, n} avec s = i =1
= i =1
s n−2 n−2
Ces résidus sont sans unité. Dans la littérature, on identifie souvent la loi des résidus
normalisés à une loi normale centrée réduite, ce qui n’est pas démontré théoriquement. De
plus la variance des résidus normalisés n’est pas constante puisqu’elle vaut : (1 − hii ) (voir
tableau des résidus). Cependant plus n est grand, plus hii est proche de zéro et donc plus la
variance des résidus normalisés est proche de 1.
En général on admet que les résidus normalisés suivent une loi normale centrée réduite (si
on a un nombre d’observations supérieur à 10), ce qui permet souvent de choisir un seuil
critique simple de 2 à partir duquel on considère qu’un résidu est suspect. La valeur 2
correspond à un risque de 5% si l'hypothèse de normalité est vérifiée, c’est à dire qu’il y a
environ une chance sur 20 qu’un résidu en valeur absolue se trouve au dessus de 2. On
peut aussi prendre comme seuil la valeur 3 pour laquelle il y a une chance sur 100 qu’un
résidu se trouve au-dessus en valeur absolue.
Remarque : l’utilitaire d’analyse d’Excel est censé calculer ces résidus mais en fait au lieu de
n
∑e
i =1
2
i
diviser les résidus simples par l’estimateur de l’écart type résiduel ( s 2 = ), il les divise
n−2
n
∑e
i =1
2
i
par l’écart type calculé d’après la série de résidus simples. (c’est à dire : )
n −1
⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
normalisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce
nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De plus
les résidus doivent se trouver dans l’intervalle [-2 ;2], sinon ce sont des valeurs suspectes.
Résidus normalisés
7
résidus normalisés
6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X
ei ( X − X )2
∀i ∈ {1, n} avec
1
ri = hii = + n i
s 1 − hii n
∑ ( X i − X )2
i =1
Les résidus standardisés ont les même propriétés que les résidus normalisés sauf que leur
variance est constante et vaut exactement 1.
⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
standardisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de
ce nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De
plus les résidus doivent se trouver dans l’intervalle [-2 ;2], sinon c’est que ce sont des
valeurs suspectes.
Résidus standardisés
résidus standardisés
7
6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X
ei
es( i ) = ∀i ∈ {1, n}
s( i ) 1 − hii
Les résidus studentisés permettent de mieux évaluer l’importance d'un résidu ei car on
utilise une estimation de la variance résiduelle σ sans utiliser l’observation i, notée s(i ) .
Ainsi, enlever l’observation ayant un fort résidu ei , conduit à une forte diminution de σ et
augmente donc la valeur du résidu studentisé. De plus, dans le cas où l’hypothèse de
normalité des résidus est respectée, il est prouvé que les résidus studentisés suivent une loi
de Student de degré de liberté n-3 . On peut donc considérer qu’une observation i est mal
reconstituée par le modèle dès que es( i ) ≥ t0.975 (n − 3) .(valeur donnée dans la table de
Student avec un risque de 5%). Cette valeur est proche de 2 quand le nombre
d’observations n est suffisamment important, c’est pourquoi on prendra souvent 2 comme
seuil critique pour les résidus studentisés.
⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
studentisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce
nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De plus
les résidus doivent se trouver dans l’intervalle [− t0975 (n − 3);+t0.975 (n − 3)] ( approximé à
[-2 ;2]), sinon ce sont des valeurs suspectes.
Remarque : les résidus studentisés sont souvent appelés dans les logiciels ou la littérature
« les Rstudent ».
Résidus studentisés
7
résidus studentisés
6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X
Pour mieux comparer les résidus entre eux, réunissons côte à côte les graphes des
différents résidus :
6
résidus simples
16 5
11 4
6 3
2
1 1
-4 0
-1
-9 -2
8 12 16 20 24 28 32 8 12 16 20 24 28 32
Variable explicative X Variable explicative X
7 7
résidus studentisés
6 6
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-2 -2
8 12 16 20 24 28 32 8 12 16 20 24 28 32
Variable explicative X Variable explicative X
Dans cet exemple, les quatre types de résidus montrent qu’il existe une valeur atypique
pour X=25, mais on peut remarquer que les résidus studentisés sont ceux qui la mettent le
plus en évidence (la valeur du résidu studentisé est plus élevée).
Les leviers
1 ( X − X )2
hii = + n i ∀i ∈ {1, n}
n 2
∑ ( Xi − X )
i =1
Les élément diagonaux de la « hat matrice » (voir « annexe A ») notés hii sont appelés les
effets levier (en anglais « leverage »). Les observations pour lesquelles l’effet levier est
important sont celles qui se situent loin de X et sont a priori peu nombreuses. Ces
observations ont une grande influence sur le calcul de la droite de régression. Il n’est pas
satisfaisant que les informations statistiques (estimations…) tiennent en grande partie à la
présence d’un unique point (ou de peu de points) Le levier indique non seulement
l’éloignement d’un point par rapport à X , mais aussi l’impact ou l’importance que joue
Yi dans l’estimation de Ŷi .
4
⇒ On peut considérer qu’un levier est important dès qu’il est supérieur à .
n
⇒ Un effet levier important se détecte aussi en examinant les graphiques des données et
des résidus.
10
300
5
Résidus
0
200
y
-5
100
-10
0
x Valeurs prédites
Critères d’influences
La distance de Cook
Elle mesure l’influence d’une observation sur l’ensemble des prévisions en prenant en
compte l’effet levier et l’importance des résidus (d’où le dénominateur dans la formule). On la
note Di .
n
∑ (Yˆ( i ) j − Yˆ j )
2
j =1 hii
Di = 2
= ri 2 pour i = 1,…..n
2s 2(1 − hii )
avec :
• Yˆ( i ) j prédiction de Y j calculée sans la ième observation ( X i ,Yi )
• ri résidu standardisé.
On considère qu’un point est atypique si la distance de Cook qui lui est associée est
4
supérieure à . (On trouve parfois dans les livres 1 comme seuil critique )
n
On peut aussi tracer le graphe des distances de Cook en fonction des numéros
d’observations pour repérer rapidement la plus influente. La distance de Cook est le critère le
plus souvent calculé par les logiciels de statistiques.
Distance de Cook
32
0.15
Distance de Cook
0.10
14
98
0.05
0.00
0 50 100 150
Numéro de l’observation
Le DFITS
Il mesure l’influence de la ième observation Yi sur la prévision Ŷi . Il est défini par :
Yˆi − Yˆ( i )
DFITSi =
s( i ) hii
avec :
• Y(i ) l'estimateur de Y pour la ième observation, mais sans utilisation de l’observation i
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation.
• hii les leviers
2
On peut considérer que le DFITS est important dès qu’il est supérieur à 2
n
Le DFBETA
avec :
• b j (i ) l’estimateur de β j obtenue sans l’observation i
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation
• ( X ' X ) −jj1 le (j+1)ème élément diagonal de la matrice ( X ' X ) −1 .
2
Le dfbeta est considéré comme suspect si sa valeur absolue dépasse
n
Le COVRATIO
Le covratio mesure l’influence d’une observation sur la précision des estimateurs. Il est
défini par :
s(2i ) det( X ' X )(−i1)
Covratio i = 2
s( i ) det( X ' X )−1
avec :
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation
• det( X ' X )(−i1) le déterminant de la matrice ( X ' X )(−i1) calculée sans la ième observation.
Un covratio plus grand que 1 indique que le fait de mettre l’observation augmente la
qualité de l’estimation, alors qu’une plus petite valeur que 1 indique une diminution de la
qualité de l’estimation.
Les résidus PRESS permettent de repérer des points influents si on les compare au
résidus simples. Ils mesurent en fait l’influence de la ième observation sur le ième résidu.
Ils sont définis par :
e ( i ) = Yi − Yˆ( i )
Observation influente
100
0
80
Résidus
-20
60
y
40
-40
20
-60
x Valeurs prédites
⎪Résidu studentisé ⎪
>2
ou ⎪Rstudent⎪
4
⎪Levier⎪ >
n
4
⎪Distance de Cook⎪ >
n
2
⎪DFITS⎪ >2
n
2
⎪DFBETAS⎪ >
n
ei
ei es( i ) = ∀i ∈ {1, n}
ei = Yi − Yˆi ∀i ∈ {1, n}
e
eri = i ∀i ∈ {1, n} ri = ∀i ∈ {1, n} e( i ) = Yi − Yˆ( i ) ∀i ∈ {1, n} s( i ) 1 − hii
s s 1 − hii
Remarque : si l’hypothèse
Remarque : si l’hypothèse de normalité est vérifiée, Remarque : on peut mieux Remarque: ils permettent Remarque : ils permettent
de normalité est vérifiée, ils on considère souvent comparer les résidus car ils de repérer les points de trouver les points
suivent une loi normale qu’ils suivent une loi ont tous même variance. influents si on calcule la atypiques (outliers). Ils
normale centrée réduite On considère qu'ils suivent différence ei − e(i ) . suivent une loi de Student
N (0,σ 1 − hii )
N(0,1) et qu'ils sont une loi N(0,1) de degré de liberté n-3
identiquement distribués.
Nous avons vu dans la fiche «Hypothèses» qu’il faut vérifier l’égalité des variances des
erreurs (homoscédasticité). Cela signifie que toutes les distributions de Y (les Yi ) doivent
avoir le même écart-type : la variance résiduelle est constante sur le domaine étudié.
Les graphiques
Remarque :
L’hétéroscedasticité est un des cas les plus fréquents de non respect des hypothèses.
Si la variance n'est pas constante sur tout le domaine, utiliser les "moindres carrés" avec
éventuellement l'inverse de la variance pour pondération. (voir fiche "REGRESSION
PONDEREE")
Analyse graphique de la
variance résiduelle
Y Y
e X e X
X X
Hétéroscédasticité 9 Homoscédasticité
© 2000 Prentice-Hall, Inc. Chap. 9 - 39
Les tests.
Il est préférable pour utiliser les tests d'introduire les notations suivantes :
Les données :
il observe une ou plusieurs valeurs que prend la variable Y pour différentes valeurs fixées de
X appelées « niveaux de la variable X » :
A chaque niveau x i ( i ∈ {1, p} ) de X, il note les n i valeurs de Y qu’il observe (si il décide de
répéter ni fois l’expérience).
1)
Les tests
ATTENTION : les tests ne sont valables que sous l’hypothèse de la normalité des erreurs.
Rappel : on veut vérifier à l’aide des données que pour chaque niveau de X, les distributions
de Y ont même écart-type.
Le test de Fisher :
Le test de Fisher s’applique pour tester l’égalité de deux variances uniquement (p = 2).
[Link]
On note : s max
2
{
= max s12 , s 22 ..., s p2 }
∑s
i =1
2
i
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de l’homogénéité des
variances de la façon suivante :
1. Si la statistique C du test (calculée avec les données) est inférieure ou égale à C(n, p, α)
l'hypothèse d'homogénéité des variances est acceptée
2. Si la statistique C du test est supérieure à C(n, p, α), l'hypothèse d'homogénéité des
variances est rejetée.
α=0.05
α =0.01
Le test de Hartley :
Le test de Hartley est utilisé pour contrôler l’égalité de p variances dans le cas de
populations normales. Toutes les variances doivent être estimées par un même nombre de
valeurs (le nombre de degrés de liberté associé à chacune des estimations de ces variances
est constant).
où s max
2
est la plus forte des estimations de variances, s min
2
la plus faible.
La table du test de Hartley fournit une valeur C(ν, p, α) en fonction du nombre de degrés de
liberté ν (nombre de données – 1), du nombre de variances à comparer p, et de la valeur du
risque α.
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de l’homogénéité des
variances de la façon suivante :
3. Si la statistique C du test (calculée avec les données) est inférieure ou égale à C(n, p, α)
l'hypothèse d'homogénéité des variances est acceptée
4. Si la statistique C du test est supérieure à C(n, p, α), l'hypothèse d'homogénéité des
variances est rejetée.
TABLE DE HARTLEY
α=0.05
Remarque : il existe deux autres tests qui permettent de tester l’homogénéité des variances :
⇒ le test de Levene
Il est décrit dans le document Internet « Régression 1 » note 3 page 7
disponible dans le dossier DOCUMENTS INTERNET ou à l’adresse suivante :
[Link]
On veut vérifier qu’il n’y a aucun lien entre l’erreur commise sur une mesure et les mesures
effectuées précédemment. Pour cela, deux méthodes sont possibles : l'étude graphique ou
les tests.
1. Etude graphique
On trace le graphe des résidus en fonction du temps (voir fiche « résidus ») et on regarde si
ils se répartissent de manière aléatoire autour de l’axe des abscisses. Si ce n’est pas le cas,
on peut mettre en doute la non-corrélation des termes d’erreur.
Exemple :
Analyse graphique de
l’indépendance des résidus
dépendance Indépendance
e
9
e
temps temps
2. Les tests
Pour détecter un problème de corrélation des erreurs dans une régression, on peut utiliser le
test de Durbin-Watson. Il s’utilise dans le cas où Y suit une loi normale (voir fiche
"NORMALITE".).
On utilise les résidus {e1, e2 ,....en } pour calculer le coefficient de Durbin-Watson qui permet
de prendre une décision quant à la non-corrélation des erreurs.
∑ (e
i =1
i +1 − ei )2
d = n
∑e
1
2
i
Il faut vérifier l’hypothèse de normalité sur les termes d’erreur. Cette hypothèse n’est pas
indispensable, mais elle permet d’utiliser les tests statistiques de ce document qui reposent
sur cette hypothèse. Pour cela , on va tester la normalité des résidus par les méthodes
disponibles dans la norme NF X 06-050 (voir annexe B).
Dans cette norme, il faut retenir essentiellement les méthodes graphiques et statistiques
suivantes :
On trouve dans cette fiche l’explication de résultats statistiques classiques souvent fournis
par les logiciels.
Qualité de l’ajustement
Les variations de Y sont expliquées d’une part par les variations de X, et d’autre part par
le caractère aléatoire des expériences. Pour préciser la part de variation de Y expliquée par
la variation de X et celle aléatoire, on utilise la relation suivante :
Ce qu’on écrit :
SCTotal = SC Régression + SC Résiduel
ou encore
n n n
∑ (Yi − Y ) = ∑ (Yˆi − Yi ) + ∑ (Yi − Yˆi )
2 2 2
i =1 i =1 i =1
où :
SCTotal
ou « total sum of square » mesure la variation globale
n
des y i autour de leur 2
(SST) ∑ (Yi − Y )
i =1
ou « somme des carrés moyenne y .
totale »
SC Régression
ou « regression sum of mesure la part de variation de n
∑ (Yˆi − Y )
2
square » (SSR) Y expliquée par le modèle
(par une variation de X). i =1
ou « somme des carrés
expliquée par X »
SC Résiduel
ou « error sum of square » mesure la part de variation de n
∑ (Yi − Yˆi )
2
(SSE) Y non expliquée par X i =1
ou « somme des carrés
résiduelle »
Remarques importantes :
• Le coefficient de corrélation entre les variables X et Y (noté R) élevé au carré est égal au
coefficient de détermination. Il mesure à la fois la force et le sens de la liaison entre X et
Y . Un R positif signifie que si X croit alors Y croit, si X décroît alors Y décroît. Un R
négatif signifie que si X croit alors Y décroît, si X décroît alors Y croit.
Tests statistiques
ATTENTION : Il est impératif d’avoir vérifier l’hypothèse de normalité des résidus (voir fiche
« normalité des résidus ») pour utiliser les tests statistiques.
Le test de FISHER-SNEDECOR
Dans le cas d’une régression linéaire simple, il consiste à tester la significativité de la pente
β1 . Il est alors strictement équivalent au test de Student effectué pour tester la pente β1 (en
effet on a la relation suivante entre le F de Fisher et le t de Student : t n2− 2 = F (1, n − 2) ).
• H0 : β1 = 0
contre
• H1 : β1 ≠ 0
La table du test de Fisher-Snedecor fournit une valeur F1−α (ν1,ν 2 ) en fonction du nombre de
degrés de liberté du numérateur ν1 (dans le cas de la régression simple, ν1 =1), du nombre
de degrés de liberté du numérateur ν 2 (dans le cas de la régression simple, ν 2 =n-2) et de la
valeur du risque α.
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de la significativité de
β1 de la façon suivante :
1. Si la statistique F du test (calculée avec les données) est inférieure ou égale à F1−α (ν1,ν 2 )
l'hypothèse H0 est acceptée, c’est à dire que β1 n’est pas significatif.
2. Si la statistique F du test est supérieure à F1−α (ν1,ν 2 ) l'hypothèse H0 est rejetée, c’est à
dire que β1 est significatif.
TABLE DE FISHER-SNEDECOR
Les logiciels statistiques effectuent systématiquement des tests pour regarder si les
coefficients de régression sont significatifs.
Test sur β 0
b0 b0
La statistique utilisée pour ce test est : T= =
var( b0 ) 1 X
s + n
n
∑(X
i =1
i − X )2
La loi de probabilité de T sous l’hypothèse H0 vraie est une loi de Student à n-2 degrés de
liberté.
La table du test de Student fournit une valeur t1− α (ν ) en fonction du nombre de degrés de
2
liberté ν (n-2) et de la valeur du risque α.
Après avoir fixé la valeur du risque α, on conclut au rejet ou non-rejet de l’hypothèse nulle de
la façon suivante :
1. Si la valeur absolue de la statistique T du test (calculée avec les données) est inférieure
ou égale à t1− α (ν ) l'hypothèse H0 est acceptée, c’est à dire que β 0 n’est pas
2
significativement différent de zéro au risque α.
2. Si la valeur absolue de la statistique T du test est supérieure à t1− α (ν ) l'hypothèse H0
2
est rejetée, c’est à dire que β 0 est significativement différent de zéro au risque α.
Test sur β1
• H0 : β1 = 0
contre
• H1 : β1 ≠ 0
b1 b1
T = =
var( b1 ) 1
s n
∑(X
i =1
i − X )2
La loi de probabilité de T sous l’hypothèse H0 vraie est une loi de Student à n-2 degrés de
liberté.
La table du test de Student fournit une valeur t1− α (ν ) en fonction du nombre de degrés de
2
liberté ν (n-2) et de la valeur du risque α.
Après avoir fixé la valeur du risque α, on conclut au rejet ou non-rejet de l’hypothèse nulle de
la façon suivante :
3. Si la valeur absolue de la statistique T du test (calculée avec les données) est inférieure
ou égale à t1− α (ν ) l'hypothèse H0 est acceptée, c’est à dire que β1 n’est pas
2
significativement différent de zéro au risque α.
4. Si la valeur absolue de la statistique T du test est supérieure à t1− α (ν ) l'hypothèse H0
2
est rejetée, c’est à dire que β1 est significativement différent de zéro au risque α.
En général, pour conclure au rejet ou non rejet d’une hypothèse, les logiciels fournissent
la p-valeur. C’est la probabilité que l’estimation du paramètre testé, prenne la valeur
quantitative observée, sous l’hypothèse H0. Si la p-value est petite, on rejette H0.
Intervalles de confiance
Il est intéressant de donner les intervalles de confiance de niveau de confiance (1- α ), des
ˆ
paramètres β , β , Ŷ , Yˆ . Ces intervalles sont des intervalles aléatoires : ils changent
0 1
selon le jeu de données.
Les intervalles de confiance suscitent souvent des erreurs d’interprétation et des abus de
langage. On entend souvent dire que si I est un intervalle de confiance à 95% d’un
paramètre θ , c’est qu’il y a 95% de chance que θ se trouve dans l’intervalle Ceci est
incorrect. En fait, si on recommence 100 fois notre expérience, qu’on se retrouve avec 100
jeu de données, et qu’on calcule pour chaque jeu de données l’intervalle de confiance, on
aura alors 100 intervalles de confiance différents mais a priori tous proches les un des
autres. En moyenne, θ sera dans 95 de ces intervalles.
Intervalles de confiance de β 0 et β 1
⎛ ⎞
⎜ ⎟
X 2
s2
Var (b0 ) = s 2 ⎜ + n ⎟
1
Var (b1 ) =
⎜n ⎟ n
⎜
⎝
∑
i =1
( X i − X )2 ⎟
⎠
∑(X
i =1
i − X )2
b0 − β 0 b1 − β 1
et les variables et suivent une loi de Student à n-2 degré de liberté.
Var ( b0 ) Var (b1 )
ˆ
Intervalles de confiance de Ŷ et Yˆ
ˆ
Rappelons qu’il faut bien différencier les intervalles de confiance de Ŷ et Yˆ malgré
l’égalité de leurs estimateurs :
ˆ
• L’intervalle de confiance de Yˆ définit « les limites dans lesquelles tombera une nouvelle
observation de Y si elle fait partie de la même population statistique que l’échantillon.
Cela produit un intervalle plus large que le précédent : en effet, en plus de la variance de
l’échantillon qui a servi à établir l’équation, s’ajoute celle qui est associée au tirage d’un
nouvel élément. »
1 ( X − X )2
b0 + b1 X 0 ± t 1−α 2 ( n − 2)s + n 0
n
∑ ( X i − X )2
i =1
1 ( X − X )2
b0 + b1 X 0 ± t 1−α 2 (n − 2)s 1 + + n 0
n
∑ ( X i − X )2
i =1
REGRESSION PONDEREE
Nous avons vu dans les hypothèses que la condition d’homoscédasticité (variance des
erreurs constante) doit être vérifiée pour modéliser un phénomène par une régression
linéaire simple. Si ce n’est pas le cas, deux solutions sont envisageables : on peut faire un
changement de variable sur Y, ou effectuer une régression pondérée (weighted least
squares).
La régression pondérée prend en compte la différence sur les variances des résidus.
Supposons que pour chaque observation i, nous puissions connaître un poids w i , alors
estimer les paramètres β 0 et β1 du modèle Y = β 0 + β1 X + ε avec ces pondérations consiste
à minimiser la quantité:
n n
∑
i =1
w i (Yi − β 0 − β1 X i )2 ou ∑w
i =1
i (Yi − b0 − b1 X i ) 2
∑w X i i
X = i =1
n
∑w i =1
i
∑w Y i i
Y = i =1
n
∑w
i =1
i
∑w i (Yi − Y )( X i − X )
b1 = i =1
n
∑w (X
i =1
i i − X )2
b0 = Y − b1 X
σ2
wi =
Var (ε i )
Il faut donc évaluer la forme de Var (ε i ) en fonction de X i pour connaître les poids à utiliser.
Pour déterminer cette forme, on trace généralement le graphe des résidus ou de la variance
des résidus en fonction de la variable explicative X. On peut alors faire des suppositions sur
la forme de Var (ε i ) en fonction des X i .
-1
-2
0 2 4 6 8
Variable explicative X
Le graphe des résidus montre que les écart au modèle choisi ne sont pas constants. Plus X
augmente, plus l’écart augmente. Il faut donc procéder à une régression pondérée.
Les données recueillies par l’expérimentateur n’interviennent pas avec la même influence
dans le calcul du modèle.
1
ou w i =
Xi
1
ou w i =
X i2
Pour savoir si l'une des formes est meilleure que l'autre, on va effectuer la régression
pondérée avec chacune des formes proposées et choisir celle pour laquelle le graphe des
résidus en fonction de X est le meilleur.
Remarque : dans le cas d’une régression pondérée les résidus ont pour valeur :
ei = wi (Yi − b0 − b1 X i )
1
wi =
VAR( Xi )
REGRESSION
LINEAIRE
MULTIPLE
Il arrive souvent qu'on explique une variable, non pas par une unique variable, mais par
un certain nombre de variables. Par exemple, le rendement d'une réaction chimique
s'explique par la température et la quantité de catalyseur utilisées pour effectuer la réaction.
On parle alors de régression multiple.
Y variable
dépendante ou à X1, X 2 ,..... X p variables
expliquer explicatives (déterministes)
(aléatoire)
Y = β 0 + β 1 X 1 + β 2 X 2 + ....... + β p X p + ε
Yi = β 0 + β1 X1i + β 2 X 2i + ............ + β p X pi + ε i
Enfin on écrit souvent le modèle de régression multiple sous forme matricielle afin d'exprimer
les estimateurs par des formules plus simples.
Pour un échantillon de taille n des variables Y, X1, X 2 ,......... X p , on a :
Y = Xβ + ε
avec :
⎛Y1 ⎞ ⎛1 X11 X 21 X p1 ⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎜ ⎟ ⎛ β0 ⎞ ⎜ ⎟
⎜Y 2 ⎟ ⎜1 X12 X 22 Xp ⎟
2 ⎜ ⎟ ⎜ ε2 ⎟
⎜. ⎟ ⎜ ⎟ ⎜ β1 ⎟ ⎜ ⎟
Y= ⎜ ⎟ ,X = ⎜
1 ⎟ , β =⎜ ⎟ , ε=⎜ ⎟,
⎜. ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜ ⎟ ⎜⎜ ⎟⎟ ⎜ ⎟
⎜Y ⎟ ⎜1 X n X 2n X pn ⎟⎠ ⎝ βp ⎠ ⎜ε ⎟
⎝ n⎠ ⎝ 1 ⎝ n⎠
Les hypothèses qui accompagnent le modèle de régression linéaire multiple sont les
suivantes :
HYPOTHESE 1 :Le modèle doit être "linéaire par rapport aux paramètres", c'est à dire que la
variable expliquée Y s'écrit comme la somme d'une constante (souvent notée β 0 ,
Exemples :
Rappelons que p est le nombre de variables explicatives (la constante n’est pas prise en
compte dans p)
1
• Y = β 0 + β1 X1 + β 2 est un modèle linéaire multiple (p = 2)
X2
1
• Y = β 0 + β1 X1 + β 2 X 23 + β 3 est un modèle linéaire multiple (p = 3)
X3
• Y = β 0 + β1 X1 + β 2 X12 + β 3 X13 + β 4 X14 est un modèle linéaire multiple (p = 4). malgré
qu'il n'y ait pourtant qu'une unique variable explicative. Ce type de modèle est
appelé modèle polynomial. C’est un cas particulier de la régression multiple très
important c'est pourquoi un chapitre entier lui est souvent réservé dans la
littérature. (Voir ANNEXE D)
β2
• Y = β 0 + β1 X1 + n'est pas un modèle linéaire multiple.
β3 + X 2
HYPOTHESE 2 : Le modèle doit être bien spécifié, c'est à dire qu'il ne faut pas avoir oublié
de variables explicatives.
HYPOTHESE 3 : Les variables X1, X 2 , X 3 ,......... X p sont déterministes (ou certaines), c'est à
dire que les valeurs qu'elles prennent sont parfaitement connues (contrairement à une
variable aléatoire). On parle alors de modèle à effets fixes ou encore de modèle à facteurs
contrôlés. (Il existe aussi des modèles à effets aléatoires pour lesquels les valeurs de X sont
aléatoires.)
E (εi ) = 0 ∀i ∈ {1, n}
E (Y ) = β 0 + β1 X1 + β 2 X 2 + ......... + β p X p
On dit alors que l’estimateur des moindres carrés est sans biais.
HYPOTHESE 6 : Les termes d’erreur ne sont pas corrélés. Il ne doit y avoir aucun lien entre
l’erreur commise sur une mesure et les mesures effectuées précédemment.
mathématiquement, cela signifie que :
( )
Cov εi , ε j = 0 pour i ≠ j
⎛1 X11 X 21 X p1 ⎞
⎜ ⎟
⎜1 X12 X 22 X p2 ⎟
⎜ ⎟
1
HYPOTHESE 7 : La matrice X = ⎜ ⎟ doit être de plein rang, de façon
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜1 X n X 2n X pn ⎟⎠
⎝ 1
à pouvoir inverser X'X où X' est la transposée de X. Concrètement, il faut que les colonnes
de cette matrice ne soient pas multiples les unes des autres, c'est à dire mathématiquement
que les vecteurs :
⎛ X11 ⎞ ⎛ X 21 ⎞ ⎛ X p1 ⎞
⎜ 2⎟ ⎜ 2⎟ ⎜ 2⎟
⎜ X1 ⎟ ⎜ X2 ⎟ ⎜ Xp ⎟
X1 = ⎜ ⎟ , X2 = ⎜ ⎟ , ………….., Xp = ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ Xn ⎟ ⎜ Xn ⎟ ⎜ Xn ⎟
⎝ 1⎠ ⎝ 2⎠ ⎝ p⎠
ne doivent pas être colinéaires : les variables X1, X 2 ,........, X p doivent être linéairement
indépendantes. Notons que cette hypothèse est propre à la régression multiple et qu'il nous
faudra donc préciser plus tard comment la tester.
LES ESTIMATEURS
L'objectif de la régression est d'estimer les coefficients du modèle ( β 0 , β1,.........β p ) ainsi que
la variance σ 2 de l'erreur ε à partir d'un échantillon.
⎛ b0 ⎞ ⎛ β0 ⎞
⎜ ⎟ ⎜ ⎟
⎜ b1 ⎟ ⎜ β1 ⎟
• On appelle B = ⎜ ⎟ l'estimateur de β = ⎜⎜ ⎟⎟ .
⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ bp ⎠ ⎝ βp ⎠
• On appelle s 2 l'estimateur de σ 2 .
Dans ce document, nous utilisons toujours l'échantillon théorique afin d'obtenir les
estimateurs et leurs propriétés. Mais de façon concrète, l'expérimentateur a besoin des
estimations. Pour les obtenir, il lui suffit, dans les formules des estimateurs, de remplacer les
variables par les données qu'il a obtenu. En toute rigueur, il faudrait différencier les notations
utilisées pour les estimateurs et celles pour les estimations, de même il faudrait différencier
les notations utilisées pour les données et celles pour les variables aléatoires dont elles sont
les réalisations, mais cela complique et alourdit le document, c'est pourquoi nous garderons
les mêmes notations, comme dans la plupart des ouvrages sur la régression.
Il existe différentes méthodes pour calculer les estimateurs des coefficients. Nous
exposons ici la méthode des moindres carrés. On note Yˆi = b0 + b1 X1i + b2 X 2i + ........... + bp X pi
l'estimateur de la valeur moyenne prise par la variable Y quand
X1 = X1i , X 2 = X 2i ,........... X p = X pi . Alors la méthode des moindres carrés consiste à minimiser
la somme des carrés des écarts Yˆi − Yi , c’est à dire qu’on cherche :
Min ∑ (Y
2
i − b0 − b1 X1i − ..... − bp X pi )2 = Y − XB
b0 ,b1 i =1
Ces écarts Yi − Y ˆ sont appelés les résidus, ce sont des variables aléatoires que nous
i
noterons ei . Ils ne sont pas égaux aux termes d’erreur et contrairement à ces derniers, on
peut connaître leur valeur pour chaque échantillon de données.
MATRICE DE COVARIANCE DE
ESTIMATEUR
L'ESTIMATEUR (estimée)
σ 2 Y − Xβ ∑ (Y − Yˆ )
i i
2
= i =1
n − p −1 n − p −1
A NOTER :
Il est important de remarquer que Y n'intervient pas dans la qualité des estimations
contrairement à la matrice d'expériences X.
La validité de la plupart des résultats que nous exposons dépend directement des
hypothèses énoncées auparavant. Il est donc primordial, avant le choix d'un modèle, de
réfléchir à chacune des hypothèses et d'utiliser, après l'estimation des paramètres du
modèle, des méthodes adéquates pour les valider. Ces méthodes étant les mêmes que pour
la régression simple, nous ne les détaillons pas dans cette fiche et vous invitons à lire les
fiches suivantes :
• "RESIDUS ET INFLUENCES"
• "NORMALITE DES RESIDUS"
• "HOMOSCEDASTICITE ou égalité des variances"
• "CORRELATION DES TERMES D'ERREUR"
Une seule hypothèse est spécifique à la régression multiple : les variables X1, X2 ,.....Xp
doivent être linéairement indépendantes (la matrice d'information doit être inversible).
Les problèmes de multicollinéarité entre les variables peuvent être détectés par l'analyse de
la matrice d'expérience et de la matrice de corrélation, mais aussi par le facteur d'inflation de
la variance (VIF).
1
VIF( Xk ) =
1 − Rk2
où Rk2 est le coefficient de détermination obtenue par la régression de Xk en fonction des (p-
1) autres variables. On considère que si Max( VIF( X1 ), VIF( X2 ),.......VIF( Xp )) >10, il y a un
problème de multicollinéarité qui va réduire la qualité des estimations.
On procède de la même manière qu'en régression linéaire simple pour faire l'analyse des
résidus, des valeurs atypiques et des points influents.
Voici un tableau récapitulatif des critères à étudier dans le cadre de la régression multiple :
⎪Résidu studentisé ⎪ ei
es( i ) = >2
ou ⎪Rstudent⎪ s( i ) 1 − hii
2( p + 1)
⎪Levier⎪ hii = ( X ( X ' X )−1 X ' )ii >
n
ri 2hii 4
⎪Distance de Cook⎪ Di = >
( p + 1)(1 − hii ) (n − p − 1)
Yˆi − Yˆ( i ) ( p + 1)
⎪DFITS⎪ DFITSi = >2
s( i ) hii n
b j − b j (i ) 2
⎪DFBETAS⎪ dfbetas i, j = >
−1
s (i ) ( X ' X ) jj n
LES PREDICTIONS
ˆ
Les estimateurs Ŷk et Yˆk sont égaux, mais ils n’estiment pas la même chose et n’ont
d’ailleurs pas la même variance (c’est pourquoi il est important de bien différencier les deux).
A NOTER : l'annexe A est valable pour la régression multiple, elle introduit la "hat matrice" H
qui est utile pour écrire le modèle prédictif sous forme matricielle. En effet, on a :
Yˆ = XB
= (X)(X' X) −1 (X' Y)
= HY
Qualité de l'ajustement
ou
n n n
∑ (Yi − Y ) = ∑ (Yˆi − Yi ) + ∑ (Yi − Yˆi )
2 2 2
i =1 i =1 i =1
SCRégression ∑ (Y i − Yˆ )2i
R2 = = 1− i =1
n
SCTotal
∑ (Y
i =1
i − Y )2
C'est pour remédier à ce problème que le R 2 ajusté a été introduit. C'est un coefficient de
détermination qui introduit une pénalisation liée au nombre de variables. Sa formule est :
(Yi − Yˆi )2
n
∑ n - p -1
R 2ajusté = 1 − i =n1
(Yi − Y )2
∑i =1 n −1
Le test de FISHER-SNEDECOR
Ce test mesure l’apport global des variables explicatives sur la détermination de Y. Il teste
si la liaison globale entre Y et X1, X2 ,.....Xp est significative. L’hypothèse testée est donc :
• H0 : β1 = β 2 = ..... = βp = 0
contre
• H1 : il existe au moins un β j ≠ 0
SC Régression
Régression p SC régression
p
SC Résiduel SC Régression
Résiduel n-p-1 SC Résiduel F =
n − p −1 SC Résiduel
La table du test de Fisher-Snedecor fournit une valeur F1−α (ν1,ν 2 ) en fonction du nombre de
degrés de liberté du numérateur ν1 (dans le cas de la régression multiple, ν1 =p), du nombre
de degrés de liberté du dénominateur ν 2 (dans le cas de la régression simple, ν 2 =n-p-1) et
de la valeur du risque α.
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de la significativité du
modèle de la façon suivante :
1. Si la statistique F du test (calculée avec les données) est inférieure ou égale à F1−α (ν1,ν 2 )
l'hypothèse H0 est acceptée, c’est à dire que le modèle n’est pas significatif.
2. Si la statistique F du test est supérieure à F1−α (ν1,ν 2 ) l'hypothèse H0 est rejetée, c’est à
dire que le modèle est significatif.
TABLE DE FISHER-SNEDECOR
Si on rejette H0, c'est qu'un ou plusieurs des coefficients sont significatifs. Il faut donc
chercher quels sont ces coefficients à l'aide du test de Student sur chacun des coefficients.
Le test de STUDENT
On effectue aussi en régression linéaire multiple le test de Student qui va tester si chacun
des coefficients estimés de la régression est significativement différent de zéro. La manière
de procéder est la même qu'en régression simple, il faut donc se reporter à la fiche
"QUALITE D'AJUSTEMENT" du modèle linéaire simple.
et que l'on souhaite tester si globalement le degré 2 est significatif dans la régression, ni le
test de Fisher, ni celui de Student ne pourront être utilisés. On utilisera alors le test de Fisher
partiel (F-partiel). Il teste l'hypothèse :
H0 : β 2 = β 4 = 0 contre H1 : β 2 ≠ 0 ou β 4 ≠ 0
Nous n'allons pas détailler ce test mais vous pouvez avoir plus de renseignements au
service statistique.
OUTILS
INFORMATIQUES
Formulation : Droitereg(Y;X;VRAI;VRAI)
pour estimer la constante
dans le modèle
pente constante
N° (mm) (mm) Ecart-type
Ecart-type sur la
constante
1 0 0.000 100 000 sur la pente
Procédure :
∑ (yˆ )2
Statistiques de la régression
− y
r =
i
Coefficient de détermination multiple (1)
(Coefficient de corrélation) (1)
0.999947455
∑ (y i − y )2
Coefficient de détermination R^2 (2) & (3)
∑ (yˆ − y) ∑ (y − yˆ i )
0.999894913 2 2
R =
2 2
= 1−
i i
Coefficient de détermination R^2 (2 ) R (3 )
∑ (y − y) ∑ (y − y)
0.999868641 2 2
(Coefficient ajusté) (4) i i
Erreur-type
∑ (y − yˆ )
0.214419322 2
N −2
R 2 ajusté = 1 −
i i
(4)
∑ (y − y )
2
Observations (nbre de réalisations) 6
i
N − p−1 Test de significativité de chaque
ANALYSE DE VARIANCE coefficient dans la régression linéaire
Degré de Somme des Moyenne Valeur par le test de student.
liberté carrés des carrés F critique de F Si probabilité (P-Value) est supérieure à
Régression 1 1749.8161 1749.8161 38059.6306 4.1414E-09 0,05 --> le coefficient n'est pas
Résidus 4 0.18390258 0.04597565 significatif dans le modèle.
Total 5 1750
TEST GLOBAL(test de Fisher) : Ecart-type
Il permet de vérifier si il existe une résiduel Ecart-type de b0
Limite Limite Limite Limite
relation linéaire entre X et Y inférieure supérieure inférieure supérieure
Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de pour seuil de pour seuil de
confiance = confiance = confiance = confiance =
95% 95% 95.0% 95.0%
Constante -0.15689887 0.15585563 -1.00669364 0.37103683 -0.58962435 0.27582662 -0.58962435 0.27582662
Variable X 1 0.000390266 2.0005E-06 195.088776 4.1414E-09 0.00038471 0.00039582 0.00038471 0.00039582
DOCUMENT 1 : [Link]
DOCUMENT 2 : FORSYTHE_LNE.XLS
1- L’onglet « calculs » correspond à la feuille de base, avec les données à rentrer, les
calculs, les graphes et les résultats.
2- L’onglet « résultats » donne juste un tableau avec les coefficients et leurs incertitudes,
l'écart-type résiduel et la matrice de variance-covariance des coefficients.
3- L’onglet « résidus » contient une macro. Il permet de visualiser l’allure des résidus simple
de la régression de Y sur les polynômes orthogonaux. (appuyer sur le bouton commande
après avoir rentrer les données et le degré dans la feuille « calculs » pour avoir le graphe
des résidus actualisé).
1 MODELE SIMPLE
1.1 MODELE :
Pour un tel modèle, l’utilisation de polynômes orthogonaux permet de minimiser les calculs
et temps de calcul.
Lorsque les observations X i sont régulièrement espacées (ce qui est fréquent dans les
séries chronologiques par exemple), il existe des tables de polynômes orthogonaux.
Lorsque le pas entre les observations X i n’est pas régulier, alors il faut construire les
polynômes orthogonaux. La méthode de Forsythe est un moyen de générer une famille de
tels polynômes (cf 1.3).
• degré ( Pj )=j
n
• ∀ (q,l) / q≠l, ∑P q (X i ) Pl (X i ) = 0
i =1
Y = XΦ + E avec Var ( E ) = σ 2 I
⎡ P0 (X 1 ) P1 (X 1 ) . . . Pk (X 1 ) ⎤
⎢ ⎥
P0 (X 2 ) P1 (X 2 ) . . . Pk (X 2 )
avec X = ⎢ ⎥
⎢ ⎥
⎢ P (X ) Pk (X n )⎥⎦
⎣ 0 n P1 (X n ) . . .
1
( X ′X ) −1 est alors une matrice diagonale de terme A jj = n
∑ (P (X
i =1
j i )) 2
k
Y = ∑ ϕ i Pi ( X )
i =0
∑Y P ( X
i j i )
σ2
ϕj = i =1
n V (ϕ j ) = n cov( ϕ q , ϕ p ) = 0 si p ≠ q
∑ (P ( X j i )) 2
∑ (P ( X j i )) 2
i =1 i =1
⎧ • P0 ( X ) = 1
⎪
⎪ • P1( X ) = ( X − α 1 )P0 ( X )
⎪⎪
Système {SX} ⎨ • P2 ( X ) = ( X − α 2 )P1 ( X ) − β 2 P0 ( X )
⎪
⎪ • ...
⎪
⎪⎩ • Pk ( X ) = ( X − α k )Pk −1 ( X ) − β k Pk − 2 ( X )
avec
( ) ∑( P ( X ) )
n n
∑ X i Pj −1( X i )
2 2
j −1 i
α0 = β 0 = β1 = 0 ; αj = i =1
; βj = i =1
∑( P ( X ) ) ∑( P ( X ) )
n 2 n 2
j −1 i j −2 i
i =1 i =1
1.4 EXPRESSION DES POLYNOMES DE FORSYTHE COMME FONCTION DIRECTE DES PUISSANCES
DE X
k
On a Y = ∑ ϕ i Pi ( X ) .
i =0
k
Or on cherche les coefficients du modèle Y = ∑ γ j X j + ε .
j =0
Il faut donc écrire les polynômes Pi ( X ) en fonction linéaire des puissances de X pour
déterminer les estimateurs des coefficients γ j .
i
Recherche les coefficients λ i , j tels que Pi ( X ) = ∑ λ i , j X j :
j =0
• P0 ( X ) = 1 ⇒ λ 0,0 = 1
⎧λ = α α − β
⎪ 2,0 1 2 2
( )
• P2 ( X ) = ( X − α 2 )P1( X ) − β 2P0 ( X ) = X − α 1 + α 2 X + α 1α 2 − β 2 ⇒ ⎨ λ 2,1= α 1 + α 2
2
⎪
⎩ λ 2,2 = 1
On peut montrer par récurrence que les coefficients λ i , j vérifient le système d’équations
suivant :
⎧ λ = 1 λ = −α λ 1,1= 1
⎪ 0,0 1,0 1
⎪ λ i ,0 = −α i λ i −1,0 − β i λ i − 2,0
⎪
⎨ λ i , j = λ i −1, j −1− α i λ i −1, j − β i λ i − 2, j 1≤ j ≤ i − 2
⎪
⎪ λ i ,i −1= λ i −1,i − 2 − α i
⎪λ = 1
⎩ i ,i
k
Rappel : on cherche les coefficients γ i = Ci du modèle Y = ∑ γ j X j + ε
j =0
⎡ i
k ⎤ k ⎡ k ⎤
Cf 1.2 et 1.4 Y = ∑ ϕ i ⎢ ∑ λ i , j X j ⎥ = ∑⎢ ∑ ϕ i λ i , j ⎥X j
i =0 ⎣ j =0 ⎦ i =0 ⎣ i = j ⎦
k
⇒ C j = ∑ϕi λ i , j
i= j
k k
⇒ Var (C j ) = ∑ λ i , j 2 Var (ϕ i ) et Cov (C j ,Cq ) = ∑ λ i , j λ i ,qVar (ϕ i ) pour j ≺q ≤k
i= j i =q
La transformation suivante permet de travailler sur des données U k dont les valeurs sont
comprises entre -2 et 2, ce qui améliore la précision des calculs numériques.
⎧M = Max { X }
⎪⎪ k
Xk − m
U k = −2 + 4 ⎨m = min{ X k }
M−m ⎪
⎪⎩k ∈ [1, n]
M −m M +m
Notons H = et L = .
4 4
2.1 MODELE :
k
Y = ∑γ j X j + ε (
n données X i ,Yi )
j =0
1
( Z ′Z ) −1 est une matrice diagonale de terme Ajj = n
∑ (Q (U ))j i
2
i =1
On obtient
k
Y = ∑ φ i Qi (U )
i =0
∑Y Q (U )
i j i
σ2
φj = i =1
n V (φ j ) = n cov(φ q , φ p ) = 0 si p ≠ q
∑ (Q j (Ui ))2 ∑ (Q j (Ui ))2
i =1 i =1
• Q0 (U ) = 1
⎧
⎪
⎪ • Q1(U ) = (U − α 1′ )Q0 (U )
Système { SU} ⎪⎪
⎨ • Q2 (U ) = (U − α 2′ )Q1(U ) − β 2′Q0 (U )
⎪
⎪ • ...
⎪
⎪⎩
• Qk (U ) = (U − α k ′ )Qk −1(U ) − β k ′Qk − 2 (U )
avec
∑U ( Q ( U ) ) ∑( Q (U ) )
n 2 n 2
i j −1 i j −1 i
α 0 ′ = β 0 ′ = β 1′ = 0 ; α j′ = i =1
; β j′ = i =1
∑( Q (U ) ) ∑( Q (U ) )
n 2 n 2
j −1 i j −2 i
i =1 i =1
Après avoir défini les polynômes Pi comme des polynômes générés par les équations de
Forsythe, on peut reprendre les résultats obtenus en 1.4 , en tenant compte de la nouvelle
définition des α j et β j .
⎧μ =1 μ1,0 = −α 1 μ1,1 = 1
⎪ 0,0
⎪ μ i ,0 = −α i μ i −1,0 − β i μ i − 2,0
i
⎪
Pi ( X ) = ∑ μ i , j X avec ⎨ μ i , j = μ i −1, j −1 − α i μ i −1, j − β i μ i − 2, j
j
1≤ j ≤ i − 2
j =0 ⎪
⎪ μ i ,i −1 = μ i −1,i − 2 − α i
⎪μ =1
⎩ i ,i
et α j = α j ′H + 2L , β = β j ′H 2
k
rappel (cf §1) : Y = ∑ ϕ i Pi ( X ) + η
i =0 (a)
k
Y = ∑ ϕ i Pi ( X )
i =0
k
cf §2.2 et §4 : Y = ∑ φ i Qi (U ) + η ′ (b)
i =0
k k
Y = ∑ φ iQi (U ) = ∑ φ i ( H − i Pi ( X ) )
i =0 i =0
⎧Qi ( U ) = H − i Pi ( X )
⎪
⎪ϕ i = H − i φ i
On a les égalités suivantes : ⎨
⎪η = η ′
⎪λ = μ
⎩ i, j i, j
En fait, il suffit d’introduire le produit H i H − i dans le modèle simple (a), pour obtenir le modèle
(b) :
k k k k
Y = ∑ ϕ i Pi ( X ) = ∑ ϕ i ( H i H − i ) Pi ( X ) = ∑ ( ϕ i H i )( H − i Pi ( X )) = ∑ φ iQi ( U )
i =0 i =0 i =0 i =0
k
⇒ C j = ∑ φ i H − i μ i, j
i=j
k μi, j 2 k μ i , j μ i ,q
⇒ Var (C j ) = ∑ 2i
Var (φ i ) et Cov (C j ,Cq ) = ∑ Var ( φ i ) pour j ≺q ≤ k
i= j H i =q H 2i
Ecriture matricielle Y = Xβ + ε
(
n données X i ,Yi )
Hyp : on a des informations sur les variances des Yi (ou des εi).
V = P' P = P 2
Nous pouvons appliquer la théorie des mco sur le modèle P −1Y = P −1 Xβ + P −1ε
L’estimation des moindres carrés de β est donnée par b = ( X 'V −1 X ) −1 X 'V −1Y .
L’estimation de la variance de β est Var ( b ) = ( X 'V −1X ) −1σ 2
Le fait de pondérer les observations va entraîner des modifications dans les estimateurs des
coefficients de régression de Y sur les polynômes orthogonaux, ainsi que dans la définition
des polynômes orthogonaux.
k
On travaille sur le modèle Y = ∑ φ i Qi (U ) + ε ' qui s’écrit, sous forme matricielle Y = ZΨ + G
i =0
(cf. §2.2)
On obtient
∑ w Y Q (U )
i i j i
σ2
φj = i =1
n V (φ j ) = n cov(φ q , φ p ) = 0 si p ≠ q
∑ w (Q (U ))
i j i
2
∑ w (Q (U )) i j i
2
i =1 i =1
∑w U (Q (U ) ) ∑ w (Q (U ) )
n 2 n 2
i i j −1 i i j −1 i
α 0 ′ = β 0′ = β 1′ = 0 ; α j′ = i =1
; β j′ = i =1
∑ w (Q (U ) ) ∑w (Q (U ) )
n 2 n 2
i j −1 i i j −2 i
i =1 i =1
Les étapes 4, 5 et 6 sont les mêmes que dans le paragraphe 2, à la différence de définition
des α j ′ et β j ′ près.
k
⇒ Cj = ∑φ H i
−i
μi , j
i= j
A B C D E AN AO AQ AR AS AU AV AW AX AY AZ BA BB
RESULTATS
l'écart-type
s= 0.2144193 à chaque coefficient du
4 51134 20 - - b2
modèle
5 Pondération
77211 30 de la Si Xp= 824 - - b3 Cellule à remplir
régression à partir de Ecart-type résiduel en fonction des degrés
=> Yp= 0.16468067 - - b4 proposés en AO1 et AO2
6 poids40
102340
11 polynômes orthogonaux
12
13
Droite d'étalonnage et incertitude associée
14
Graphe de l'intervalle de confiance du modèle (2s(Y))
60
15
0.35
16 50
0.3
17 0.25
40
0.2
18 0.15
30
0.1
19
20 0.05
20 0
824
10
21
X
0
22
0 20000 40000 60000 80000 100000 120000 140000
23
s =Ecart-type
bi s(bi) résiduel b0 b1 b2 b3 b4 b5 b6
RESULTATS
60
50
40
30
20
10
0
0 20000 40000 60000 80000 100000 120000 140000
0.4
0.3
0.2
0.1
0
824
CONCLUSION
Pour conclure, la régression est un outil très utilisé au LNE en particulier pour déterminer
les courbes d'étalonnages, elle permet non seulement d'ajuster une courbe aux données,
mais aussi de prédire de nouvelles valeurs et les incertitudes associées. Cependant, elle est
à utiliser avec précaution, car elle repose sur des hypothèses en partie probabilistes qui,
lorsqu'elles ne sont pas respectées conduisent à des résultats faux. Elle a de plus des
limites, informatiquement les temps de calcul peuvent être longs dans le cas par exemple
d'une régression polynomiale de degré élevé.
ANNEXES
REGRESSION LINEAIRE
Le calcul des résidus standardisés, press, studentisés (voir tableau « RESIDUS ») ainsi
que les critères d’influence nécessitent l’introduction de nouvelles notations dont les leviers
( hii ).
• Soient
⎛Y1 ⎞ ⎛ X1 ⎞
⎜ ⎟ ⎜ ⎟
⎜Y2 ⎟ ⎜ X2 ⎟
⎜. ⎟ ⎜. ⎟
Y=⎜ ⎟ X=⎜ ⎟
⎜. ⎟ ⎜. ⎟
⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜. ⎟
⎜Y ⎟ ⎜X ⎟
⎝ n⎠ ⎝ n⎠
Y = Xβ + ε
avec :
⎛Y1 ⎞ ⎛1 X1 ⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜Y 2 ⎟ ⎜1 X 2 ⎟ ⎜ε2 ⎟
⎜. ⎟ ⎜. . ⎟ β ⎜ ⎟
Y =⎜ ⎟ , X=⎜ ⎟ , β = ⎛⎜ 0 ⎞⎟ , ε = ⎜ . ⎟
⎜. ⎟ ⎜. . ⎟ ⎜β ⎟ ⎜. ⎟
⎝ 1⎠
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜. . ⎟ ⎜. ⎟
⎜Y ⎟ ⎜1 X ⎟ ⎜ε ⎟
⎝ n⎠ ⎝ n⎠ ⎝ n⎠
⎛ b0 ⎞
On peut alors écrire l’estimateur de β sous la forme B = (X' X)−1(X' Y) où B = ⎜⎜ ⎟⎟
⎝ b1 ⎠
Et on a alors l’estimation suivante pour Y :
Yˆ = XB
= (X)(X' X)−1(X' Y)
= HY
1 ( X i − X )( X j − X )
Dans le cadre de la régression simple, on a : hij = + n
n 2
∑(X j − X )
i =1
2
1 (X − X)
donc en particulier pour i=j , on a : hii = + n i ∀i ∈ {1, n}
n 2
∑(X j − X )
i =1
Les valeurs hii sont appelées « leviers » ou en anglais « leverage ». Ce sont les éléments
diagonaux de la « hat matrice » et ils ont un rôle important dans le calcul des résidus et
dans la détection de valeurs influentes.
A noter :
2
• La moyenne des leviers vaut
n
• 0 ≤ hii ≤ 1 ∀i ∈ {1, n}
Remarques :
REGRESSION LINEAIRE
ANNEXE B
REGRESSION LINEAIRE
[Link]
ading129
REGRESSION LINEAIRE
LA REGRESSION POLYNOMIALE
Il semble important de faire une annexe sur la régression polynomiale, car c'est un type de
modèle très souvent utilisé lorsque la régression simple n'est pas appropriée. Nous ne
développons pas un chapitre à son sujet car elle n'est qu'un cas particulier de la régression
linéaire multiple. En effet, pour un modèle à une variable explicative X, le modèle polynomial
s'écrit :
Y = β 0 + β1X + β 2 X2 + .... + βp Xp + ε
REGRESSION LINEAIRE
Pour mettre en évidence l'influence d'une valeur atypique sur un ajustement par
régression linéaire, nous avons construit un échantillon. Nous l'avons choisi de taille 50, avec
une unique variable explicative X prenant pour valeurs les nombres entiers de 1 à 50 sans
répétition. Nous avons choisi Y la variable à expliquer telle que :
Y = 1 + 2 X + 0 .5 X 2 + ε
Ainsi nous savons quelle équation nous devons retrouver en effectuant une régression
linéaire et nous pourrons facilement juger de la qualité des régressions. Par la suite, nous
changerons l'une des données obtenues par une valeur plus grande, et nous aurons ainsi
simulé un exemple de données avec une valeur atypique.
Mettons nous dans le cas où nous ne connaissons pas la relation qui lie Y et X.
On effectue alors une régression linéaire simple. On s'aperçoit que le coefficient de
détermination R 2 est bon, alors que les graphes et les résultats indiquent clairement que
beaucoup des hypothèses ne sont pas vérifiées. L'allure des résidus montre de façon
évidente qu'on doit effectuer une régression polynomiale.
On change une des données de façon à obtenir un échantillon avec une valeur
atypique pour la 5ème observation. Les graphes confirment bien la présence d'une valeur
atypique. On s'aperçoit alors que la présence de cette valeur modifie légèrement l'estimation
de L'écart-type résiduel (il est un peu moins proche de la vraie valeur) et l'incertitude sur les
prédictions.
On refait la même expérience que dans l'étape 4 mais en mettant cette fois ci
une valeur encore plus grande. On se rend alors vraiment compte qu'une valeur atypique
conduit à des résultats faux. L'estimation de L'écart-type résiduel devient alors 5 fois plus
grand que celui qui devrait être trouvé, les prédictions et leurs incertitudes deviennent donc
mauvaises. Il est toujours intéressant lorsqu'on détecte une ou plusieurs valeurs atypiques,
de faire une régression sans ces valeurs pour voir si elles changent de façon importante les
résultats.
O
Y ne X
s
[Link]
1 3.436624 1 1
2 7.360805 1 2
3 10.95506 1 3
4 16.69787 1 4
5 24.46581 1 5
6 30.93739 1 6
7 38.867 1 7
8 49.78399 1 8
9 59.36871 1 9
10 71.04491 1 10
11 84.02521 1 11
12 96.93948 1 12
13 111.1324 1 13
14 128.0678 1 14
15 143.509 1 15
16 161.7631 1 16
17 178.9092 1 17
18 198.6647 1 18
19 218.6694 1 19
20 241.5801 1 20
21 263.9548 1 21
22 287.821 1 22
23 311.4696 1 23
24 336.706 1 24
25 363.9353 1 25
26 391.2174 1 26
27 419.4449 1 27
28 448.7912 1 28
29 479.3748 1 29
30 510.6553 1 30
31 543.6711 1 31
32 576.4625 1 32
33 611.9016 1 33
34 646.6932 1 34
35 683.1719 1 35
36 720.8871 1 36
37 760.1786 1 37
38 798.3278 1 38
39 839.1883 1 39
40 881.5113 1 40
41 923.5883 1 41
42 966.3947 1 42
43 1011.538 1 43
44 1056.314 1 44
45 1103.717 1 45
46 1151.238 1 46
47 1199.29 1 47
48 1249.429 1 48
49 1298.461 1 49
50 1350.74 1 50
A B C D E F G H I J K L
1 Multiple Regression Results régression simple
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X
5 b -219.84 27.4935
6 s(b) 27.2629 0.93047
7 t -8.0637 29.548
8 p-value 0.0000 0.0000
9
10 VIF #REF!
11
12 Table ANOVA
13 Source SS df MS F Fcritiqu p -value
14 Regn. 7870740 1 8E+06 873.08 4.04265 0.0000 s 94.947
15 Erreur 432714 48 9014.9
2 2 (ajusté)
16 Total 8303454 49 169458 R 0.9479 R 0.9468
17
18
19 Intervalles de prédiction (I.P)
20
21 X donné X
22 1 2 4
23
24 1-α (1-α) I.P de Y/X 1-α (1-α) I.P de E[Y | X]
25 95% -164.85 + ou - 197.75 95% -164.85 + ou - 51.592
26
27
28 Matrice de covariance des coefficients de la régression
29
30
31 b0 b1
32 b0 743.267 -22.077
33 b1 -22.077 0.86577
34
35
36
37
38
39
40
41
42
43
44 Tableau récapitulatif sur les incertitudes de prédiction
45
46
47 Estimateur incertitude élargie + ou - U (k=2)
48 prédiction sur un point (Y/X) -164.8525881 + ou - 196.7058246
49 prédiction sur la droite (E(Y/X)) -164.8525881 + ou - 51.31944249
50
H I J K L M N O S T U X Y Z AA AB
1 régression simple
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 0.022677
5
6 Résidus simples Résidus normalisés
250 2.5
7
8 200 2
9
10 150 1.5
Résidus normalisés
Résidus simples
11
100 1
12
13 50 0.5
14
15 0 0
0 10 20 30 40 50 60
16 -50
0 10 20 30 40 50 60
-0.5
17
18 -100 -1
19
-150 -1.5
20
21
22
23
Droite de Henry Résidus standardisés
24 3 2.500
25
26 2.000
2
Corresponding Normal Z
27
28 1.500
Résidus standardisés
29 1
1.000
30
31 0
0.500
32 -400 -300 -200 -100 0 100 200 300 400
33 -1 0.000
34 0 10 20 30 40 50 60
35 -2
-0.500
36
37 -1.000
-3
38
-1.500
39 Résidus
40
41
LEVIERS
0.09000000
0.08000000
0.07000000
0.06000000
Leviers
0.05000000
0.04000000
0.03000000
0.02000000
0.01000000
0.00000000
0 10 20 30 40 50 60
DISTANCE DE COOK
0.25
0.2
Distance de COOK
0.15
0.1
0.05
0
0 10 20 30 40 50 60
O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 16.69787 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500
A B C D E F G H I J K L
1 Multiple Regression Results Degré 2
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2
H I J K L M N O S T U X Y Z AA AB
1 Degré 2
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.526986
5
6 Résidus simples Résidus normalisés
1.5 2.5
7
8 2
9 1
1.5
10
Résidus normalisés
1
Résidus simples
11 0.5
12 0.5
13 0 0
14 0 10 20 30 40 50 60 0 10 20 30 40 50 60
-0.5
15 -0.5
16 -1
17 -1.5
-1
18
-2
19
-1.5 -2.5
20
21
22
23
Droite de Henry Résidus standardisés
24 3 2.500
25
26 2.000
2
Corresponding Normal Z
27 1.500
28
Résidus standardisés
1 1.000
29
30 0.500
31 0
0.000
32 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0 10 20 30 40 50 60
33 -1 -0.500
34 -1.000
35 -2
-1.500
36
37 -2.000
-3
38
Résidus -2.500
39
40
41
LEVIERS
0.18000000
0.16000000
0.14000000
0.12000000
Leviers
0.10000000
0.08000000
0.06000000
0.04000000
0.02000000
0.00000000
0 10 20 30 40 50 60
DISTANCE DE COOK
0.18
0.16
0.14
Distance de COOK
0.12
0.1
0.08
0.06
0.04
0.02
0
0 10 20 30 40 50 60
O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 20 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500
A B C D E F G H I J K L
1 Multiple Regression Results degré 2 avec valeur atypique
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2
H I J K L M N O S T U X Y Z AA AB
1 degré 2 avec valeur atypique
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.337217
5
6 Résidus simples Résidus normalisés
3 5
7
8 2.5
4
9
2
10
Résidus normalisés
3
Résidus simples
11 1.5
12 1 2
13
14 0.5
1
15 0
16 0 10 20 30 40 50 60 0
17 -0.5
0 10 20 30 40 50 60
18 -1 -1
19
-1.5 -2
20
21
22
23
Droite de Henry Résidus standardisés
24 3 5.000
25
26 4.000
2
Corresponding Normal Z
27
28
Résidus standardisés
3.000
29 1
30 2.000
31 0
32 -3 -2 -1 0 1 2 3
1.000
33 -1
34
0.000
35 -2 0 10 20 30 40 50 60
36
-1.000
37
-3
38
-2.000
39 Résidus
40
41
LEVIERS
0.18000000
0.16000000
0.14000000
0.12000000
Leviers
0.10000000
0.08000000
0.06000000
0.04000000
0.02000000
0.00000000
0 10 20 30 40 50 60
DISTANCE DE COOK
0.8
0.7
0.6
Distance de COOK
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40 50 60
O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 35 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500
A B C D E F G H I J K L
1 Multiple Regression Results degré 2 avec grande valeur atypique
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2
H I J K L M N O S T U X Y Z AA AB
1 degré 2 avec grande valeur atypiq
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.214648
5
6 Résidus simples Résidus normalisés
20 7
7
8 6
9 15
10 5
Résidus normalisés
Résidus simples
11 4
12 10
3
13
14 5
2
15
1
16
17 0 0
18 0 10 20 30 40 50 60 0 10 20 30 40 50 60
-1
19
-5 -2
20
21
22
23
Droite de Henry Résidus standardisés
24 3 8.000
25
26 7.000
2
Corresponding Normal Z
27 6.000
28
Résidus standardisés
1 5.000
29
30 4.000
31 0
3.000
32 -10 -5 0 5 10 15 20
33 2.000
-1
34 1.000
35 -2
36 0.000
0 10 20 30 40 50 60
37 -1.000
-3
38
-2.000
39 Résidus
40
41
LEVIERS
0.18000000
0.16000000
0.14000000
0.12000000
Leviers
0.10000000
0.08000000
0.06000000
0.04000000
0.02000000
0.00000000
0 10 20 30 40 50 60
DISTANCE DE COOK
1.8
1.6
1.4
Distance de COOK
1.2
0.8
0.6
0.4
0.2
0
0 10 20 30 40 50 60
BIBLIOGRAPHIE
[3] Cetama, Statistique appliquée à l'exploitation des mesures, Masson 2e édition, 1986.
[5] Dagnelie P. Théorie et méthodes statistiques (2e éd). Agronomiques Gembloux 1998.
[7] Draper NR, Smith H. Applied Regression Analysis (3rd edition). New York: Wiley
1998.
[10] Lebart L., Morineau A. and Fénelon J-P. Traitement des données statistiques :
méthodes et programmes. Paris : Dunod , 1984.
[11] Steppan D., Werner J. and Yeater R. Essential regression and experimental design for
chemists and engineers, 1998. Available via
[Link]
[13] Tomassone R., Lesquoy E., Millier R. La régression, nouveaux regards sur une
ancienne méthode statistique, Masson, Paris, 1983.