0% ont trouvé ce document utile (0 vote)
177 vues130 pages

Régression Linéaire: Guide Pratique

document sur la régression linéaire
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Prédiction nouvelle,
  • Échantillon,
  • Résidus,
  • Estimation des paramètres,
  • Analyse graphique,
  • Analyse des données,
  • Écart-type résiduel,
  • Prédiction moyenne,
  • Qualité d'ajustement,
  • Régression linéaire
0% ont trouvé ce document utile (0 vote)
177 vues130 pages

Régression Linéaire: Guide Pratique

document sur la régression linéaire
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Prédiction nouvelle,
  • Échantillon,
  • Résidus,
  • Estimation des paramètres,
  • Analyse graphique,
  • Analyse des données,
  • Écart-type résiduel,
  • Prédiction moyenne,
  • Qualité d'ajustement,
  • Régression linéaire

RECHERCHE ET DEVELOPPEMENT

Etude n° 70/00

Modélisation

RAPPORT FINAL

Chef de projet : Michèle DESENFANT


Etude réalisée par Caroline Bernard-Michel

Documents associés :
Août 2002

R&D - Diffusion générale –

DRT/SID/Statistiques CBM Régression linéaire


2 Régression linéaire

DRT/SID/Statistiques/CBM Régression linéaire


3 Régression linéaire

INTRODUCTION

Dans un laboratoire d'essais, il est très fréquent que l'expérimentateur cherche à ajuster
un modèle mathématique à des données expérimentales. En particulier, il cherche souvent à
estimer la relation fonctionnelle entre des données d’entrée et des données de sortie. Il
existe différentes méthodes pour caractériser une telle relation: interpolations, régression,
réseaux de neurones… Dans ce document, nous parlerons uniquement de la régression
linéaire. Son avantage par rapport à d'autres méthodes, est qu'elle est basée sur la théorie
des probabilités et fournit donc non seulement une courbe ajustant les données, mais aussi
des prédictions avec leurs incertitudes. Chaque résultat fourni peut être accompagné de sa
variance et de son intervalle de confiance. Mais il faut l'utiliser avec une grande prudence car
elle repose sur des hypothèses statistiques qui doivent être absolument vérifiées sous peine
d'obtenir des résultats faux. En effet, le calcul des estimateurs, mais surtout de leurs
variances et des intervalles de confiance utilise des propriétés qui ne sont valables que si les
hypothèses sont respectées. C'est une des raisons principales qui nous a conduit à écrire ce
document qui donne les méthodes de vérification des hypothèses. Nous fournissons aussi
divers outils statistiques pour détecter les valeurs atypiques ou trop influentes dans la
construction du modèle. Ainsi, tous ces éléments permettent à chacun d'apprécier la qualité
du modèle choisi.

Dans la première partie, nous étudions la régression linéaire simple avec le détail de tous
les calculs, dans la seconde nous présentons la régression linéaire multiple comme
généralisation de la régression simple.
Enfin, dans la dernière partie, nous commenterons les outils informatiques disponibles
sous Excel.

DRT/SID/Statistiques/CBM Régression linéaire


4 Régression linéaire

DRT/SID/Statistiques/CBM Régression linéaire


REGRESSION LINEAIRE
INVENTAIRE DES FICHES

1. INTRODUCTION

2. INVENTAIRE DES FICHES

3. LA REGRESSION LINEAIRE SIMPLE


LE MODELE, LES HYPOTHESES, L'OBJECTIF 9

LES MOINDRES CARRES : THEORIE 21

RESIDUS ET INFLUENCES 27

HOMOSCEDASTICITE OU EGALITE DES VARIANCES 39

CORRELATION DES TERMES D'ERREUR 45

NORMALITE DES RESIDUS 47

QUALITE D'AJUSTEMENT, TESTS, INTERVALLES DE CONFIANCE 49

REGRESSION PONDEREE 59

TABLEAU RECAPITULATIF SUR LA REGRESSION LINEAIRE SIMPLE 62

4. REGRESSION LINEAIRE MULTIPLE 63

5. OUTILS INFORMATIQUES 77

LES OUTILS CLASSIQUES D'EXCEL POUR LA REGRESSION 79

LA REGRESSION PAR LA METHODE DE FORSYTHE (macro Excel) 83

6. CONCLUSION 97

7. ANNEXES 99

ANNEXE A (les leviers) 101

ANNEXE B (norme NF X 06-050 déc 1995 : étude de la normalité d’une distribution) 103

ANNEXE C (notice droitereg d'excel) 106

ANNEXE D (régression polynomiale) 114

ANNEXE E (exemple : impact d’une valeur atypique) 116

8. BIBLIOGRAPHIE 130

DRT/SID/Statistiques CBM Régression linéaire


DRT/SID/Statistiques CBM Régression linéaire
7 Régression linéaire

REGRESSION
LINEAIRE
SIMPLE

DRT/SID/Statistiques/CBM Régression linéaire


DRT/SID/Statistiques CBM Régression linéaire
9 Régression linéaire

REGRESSION LINEAIRE SIMPLE


LE MODELE, LES HYPOTHESES, L'OBJECTIF

1. Le modèle.

La droite de régression

« De nombreuses études consistent à essayer d'expliquer à l'aide d'un modèle, une variable,
en fonction d'une autre variable. Dans le cadre de la régression linéaire simple, on écrit alors
la relation recherchée sous la forme suivante :

Y = β 0 + β1 X

Exemple : Y représente la hauteur des pics mesurée par le chromatographe, et X la teneur


en éthanol de la substance introduite.

C'est l’équation d’une droite. Elle correspond au modèle « idéal » jamais rencontré en
pratique.

Les coefficients β 0 et β1 sont des paramètres inconnus qu'il faut évaluer. Si la relation
qui lie Y à X était parfaitement exacte, il suffirait de connaître les valeurs de Y et de X pour 2
observations et de résoudre un système d'équations à 2 inconnues pour trouver β 0 et β1 .

Cependant, une relation choisie pour expliquer un phénomène donné n'est que rarement
exacte. Tout d'abord, un modèle n'est en général qu'une approximation d'un phénomène
beaucoup plus complexe. De plus, toute expérience répétée deux fois dans des conditions
que l'on croit identiques, ne donne que rarement le même résultat. Les variations sont en
général dues à une multitude de facteurs inconnus ou que l'on ne sait pas contrôler. Il est
donc nécessaire d'attacher à tout modèle un terme aléatoire qui représente l'écart entre le
modèle théorique et la réalité ». Ce terme aléatoire appelé terme d'erreur, est ajouté au
modèle comme le montre la relation suivante :

β 0 constante de
régression ou β1 pente de la
« intercept » régression

Y = β 0 + β1 X + ε (1)

Y la variable à X la variable ε le terme


expliquer explicative (certaine) d’erreur
(aléatoire). sans incertitude (aléatoire)

DRT/SID/Statistiques/CBM Régression linéaire


10 Régression linéaire

• X est la variable dite « explicative » ou « indépendante ». C’est une variable


certaine, c’est à dire que les valeurs qu ‘elle prend sont fixées par l’expérimentateur et
supposées connues sans incertitude.

• Y est la variable dite « à expliquer » ou « dépendante ». On considère que c’est une


variable aléatoire suite au postulat de modélisation sur lequel toute étude statistique
est basée :

« Les données observées sont des réalisations de variables aléatoires » (1)

On dit que les valeurs de Y sont entachées d’une erreur de mesure aléatoire notée
ε.

Modèle pour un échantillon

A la base de toute étude statistique, il y a une population sur laquelle porte l'observation.
Lorsqu'il est impossible ou inutile d'étudier l'ensemble de la population, on observe alors une
sous-population de taille réduite, en espérant tirer des conclusions généralisables à toute la
population. Cette sous-population est appelée échantillon.
Pour effectuer une régression linéaire, l’expérimentateur doit disposer d’un échantillon de
données ( il est conseillé de faire un plan d’expériences pour obtenir un échantillon tel qu'on
ait les meilleures propriétés sur les estimateurs). Ces données sont les observations de la
variable expliquée Y pour différentes valeurs fixées de la variable explicative X.
Il est important de préciser que le mot échantillon prend deux sens différents, selon qu'on
parle des données observées ou du modèle probabiliste. L'hypothèse de modélisation (1)
consiste à voir l'échantillon (observé) comme une réalisation d'un échantillon (théorique)
d'une certaine loi de probabilité P. En d'autres termes, on considère que les données
auraient pu être produites en simulant de façon répétée la loi de probabilité P. Pour éviter les
confusions, nous désignerons par données ou échantillon observé, la séquence de nombres
recueillie, et échantillon l’échantillon théorique.
Si on différencie l'échantillon observé de l'échantillon théorique, c'est parce que leur rôle
n'est pas le même : l'échantillon théorique va permettre de trouver des estimateurs et
d'utiliser les théorèmes et propriétés statistiques, alors que l'échantillon observé permet de
trouver des estimations qui sont des réalisations des estimateurs.

Il faut en effet bien distinguer en statistiques l'estimateur qui est une variable
aléatoire, de l'estimation qui est la valeur qu'il prend pour un échantillon de données.

Pour établir les formules des estimateurs et les théorèmes qui leur sont liés, on utilise
l'échantillon théorique que l'on note :

Echantillon (théorique)

⇒ On note ( X i ,Yi ) i ∈ {1, n} l'échantillon (théorique) (n expériences)

Termes d'erreur

⇒ On note ε i le terme d’erreur associé au couple ( X i ,Yi ) i ∈ {1, n} .


ε i = Yi − ( β 0 + β1 X i ) i ∈ {1, n}

DRT/SID/Statistiques/CBM Régression linéaire


11 Régression linéaire

Remarques:

• ε i est une variable aléatoire pour laquelle on n'a aucune observation.

• Lorsqu’on répète une expérience pour une même valeur de X (cas où


X i = X j pour i ≠ j ), les variables aléatoires Yi et Y j suivent la même loi, de même pour
εi et ε j .

Avec ces notations, et appliqué à un échantillon (théorique) de taille n :


le modèle de régression linéaire simple devient :

β1 pente de la
β 0 intercept ou ordonnée à l’origine droite de régression

∀i ∈ {1, n}, Yi = β 0 + β 1 X i + ε i

Yi variable aléatoire à X i : ième εi variable aléatoire


expliquer décrivant les valeur choisie décrivant les termes
valeurs prises par Y pour X. d’erreur lorsque X
lorsque X vaut X i vaut X i

2. Les hypothèses.

Avant de proposer une méthode pour ajuster une droite à l'échantillon, il est important de
préciser les hypothèses sous-jacentes au modèle linéaire simple.
La validité de la plupart des résultats que nous exposons dans la suite dépend
directement des hypothèses. Il est donc primordial, avant le choix d'un modèle, de réfléchir à
chacune des hypothèses et d'utiliser, après l'estimation des paramètres du modèle, des
méthodes adéquates pour les valider.(car il est impossible de valider les hypothèses
théoriques, c’est seulement à partir des données qu’on peut les valider)

DRT/SID/Statistiques/CBM Régression linéaire


12 Régression linéaire

HYPOTHESE 1 :

• Le modèle doit être « linéaire par rapport aux paramètres », c’est à dire que la variable
expliquée Y s’écrit comme la somme d’une constante ( β 0 , éventuellement nulle) et d’un
paramètre β1 multiplié par une fonction de X .

Aucun programme de régression ne pourra fonctionner si cette hypothèse n’est pas


vérifiée.

Exemples :

1. Y = β 0 + β 1 X 3 est un modèle linéaire simple en X 3


β 1
2. Y = β 0 + 1 est un modèle linéaire simple en
X X
β0
3. Y = n’est pas un modèle linéaire
β1 + X

Remarques :
1
Si on pose X * = X 3 pour l’exemple 1 et X * = pour l’exemple 2, on retrouve bien le
X
modèle de régression simple Y = β 0 + β1 X * .

HYPOTHESE 2 :

Le modèle doit être bien spécifié, c’est à dire qu’il ne faut pas avoir oublié des variables
explicatives. ( voir régression multiple si nécessaire)

HYPOTHESE 3 :

• La variable explicative X est déterministe, c’est à dire que les valeurs prises par X sont
parfaitement connues (contrairement à une variable aléatoire). On parle alors de modèle
à effets fixes ou encore de modèle à facteur contrôlé. Il existe aussi des modèles à
effets aléatoires pour lesquels les valeurs de X sont aléatoires (Pour ces modèles, une
fiche sera rédigée par la suite, pour le moment se renseigner au service statistiques)

HYPOTHESE 4 :

• L’espérance des erreurs associées à chaque couple d’observations est nulle :

E (εi ) = 0 ∀i ∈ {1, n}

Cela implique que la moyenne de Yi lorsque X = X i est βo + β1 X i . Plus généralement,


on a :
E (Y ) = β 0 + β1 X

On verra qu’avec cette hypothèse, l’estimateur des moindres carrés est sans biais. (une
fiche sur les propriétés des estimateurs sera ajoutée par la suite).

DRT/SID/Statistiques/CBM Régression linéaire


13 Régression linéaire

HYPOTHESE 5 :

• La variance des erreurs associées à chaque couple d’observations est constante. On a


donc :

Var (ε i ) = constante = σ 2 ∀i ∈ {1, n}

L’écart-type (= Var (ε i ) ) des termes d’erreur est donc constant.


Lorsque cette hypothèse est vérifiée, on dit qu’il y a « homoscédasticité » (homogénéité
des variances)

Pour tester l’homoscédasticité, se reporter à la fiche « Homoscédasticité » ou égalité des


variances ».

Exemples :

Dans le cas où la variable expliquée suit pour chaque niveau une loi normale.

1. les variances du terme d’erreur sont égales pour chaque niveau

Homoscédasticité

2. les variances du terme d’erreur ne sont pas égales

Hétéroscédasticité

Si l'homoscédasticité n'est pas vérifiée, se reporter à la fiche "REGRESSION


PONDEREE".

DRT/SID/Statistiques/CBM Régression linéaire


14 Régression linéaire

HYPOTHESE 6 :

• Les termes d’erreur ne sont pas corrélés. Il ne doit y avoir aucun lien entre l’erreur
commise sur une mesure et les mesures effectuées précédemment. Mathématiquement,
cela se traduit par :
( )
Cov εi , ε j = 0 pour i ≠ j

Pour tester cette hypothèse, se reporter à la fiche « corrélation des termes d’erreur »

HYPOTHESE 7 ( FACULTATIVE ) :

• Les variables aléatoires εi suivent une loi normale N (0,σ 2 ) .


Cette hypothèse est nécessaire pour l’utilisation des tests statistiques (Student, Fisher
…) et la construction d’intervalles de confiance.

Remarque : les variables Yi suivent alors toutes une loi normale


Pour tester cette hypothèse se reporter à la fiche « Normalité des résidus »

3. Les objectifs.

Les estimateurs

L’ objectif de la régression est d’estimer les coefficients du modèle ( β 0 et β1 ) ainsi que la


variance σ 2 de l’erreur ε à partir d’un échantillon.

⇒ on appelle b0 l’estimateur de β 0
⇒ on appelle b1 l’estimateur de β1
⇒ on appelle s 2 l’estimateur de σ 2

Ainsi, la droite de régression « réelle » Y = β 0 + β1 X , inconnue, est estimée par la droite :

Yˆ = b0 + b1 X

Dans ce document, nous utilisons toujours l'échantillon théorique afin d'obtenir les
estimateurs et leurs propriétés. Mais de façon concrète, l'expérimentateur a besoin des
estimations. Pour les obtenir, il lui suffit, dans les formules des estimateurs, de remplacer les
variables par les données qu'il a obtenues. En toute rigueur, il faudrait différencier les
notations utilisées pour les estimateurs et celles pour les estimations, de même il faudrait
différencier les notations utilisées pour les données et celles pour les variables aléatoires
dont elles sont les réalisations, mais cela complique et alourdit le document, c'est pourquoi
nous garderons les mêmes notations, comme dans la plupart des ouvrages sur la
régression.

DRT/SID/Statistiques/CBM Régression linéaire


15 Régression linéaire

Remarques :

• Yˆ = b0 + b1 X est appelée « droite d’estimation » ou encore « droite de régression de Y


en X ».
• différents jeux de données conduisent à des estimations différentes de β 0 et β1 . Les
estimations sont cependant toutes très proches si on a un assez grand nombre de
données.

Pour un échantillon, Yˆi = b0 + b1 X i est l’estimateur de la valeur moyenne prise par la variable
Y quand la variable X prend la valeur X i .

Il existe différentes méthodes pour calculer les estimateurs des coefficients. Nous exposons
ici celle des moindres carrés.
Elle consiste à minimiser la sommes des carrés des écarts Yi − Yˆi , c’est à dire qu’on
cherche :

Min ∑ (Y
b0 ,b1 i =1
i − b0 − b1 X i )2

Ces écarts Yi − Yˆi sont appelés les résidus, ce sont des variables aléatoires que nous
noterons ei . Ils ne sont pas égaux aux termes d’erreur et contrairement à ces derniers, on
peut connaître leur valeur pour chaque échantillon de données.

⇒ On note ei = Yi − Yˆi les résidus

Remarque: on trouve souvent dans les ouvrages de statistiques que la méthode des
moindres carrés consiste à minimiser la somme des carrés des erreurs ε i :
n

Min ∑ (Y
b0 ,b1 i =1
i − β 0 − β1 X i )2

Cela conduit exactement aux mêmes estimateurs.

Soient les notations suivantes :

1 n 1 n
X = ∑ Xi
n i =1
Y = ∑ Yi
n i =1

1 n 1 n
s x2 = ∑ ( X i − X )2
n − 1 i =1
sY2 = ∑ (Yi − Y )2
n − 1 i =1

1 n
s xy
2
= ∑ ( X i − X )(Yi − Y )
n − 1 i =1

DRT/SID/Statistiques/CBM Régression linéaire


16 Régression linéaire

La méthode des moindres carrés conduit aux estimateurs suivants :

Paramètres de
la droite Estimateur Variance de l’estimateur
théorique
⎛ ⎞
⎜ 2 ⎟
β0 1 X
b0 = Y − b1 X Var (b0 ) = s 2 ⎜ + n ⎟
⎜n 2⎟
⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠
n
∑ ( X i − X )(Yi − Y ) s2
i =1
s xy Var (b1 ) =
β1 b1 = = n
n
∑ ( Xi − X ) s x2 ∑(X
i =1
i − X )2
i =1

−X
Cov (b0 , b1 ) = s 2 n

∑(X
i =1
i − X )2

1 n
s2 = ∑ (Yi − b0 − b1 X i ) 2
n − 2 i =1
σ2 1 n 1 n 2
= ∑
n − 2 i =1
(Y i − Yˆi ) 2 = ∑ ei
n − 2 i =1

Remarques :

• Plus la variance du terme d’erreur du modèle ( s 2 , appelée variance résiduelle) est


faible, meilleurs seront les estimateurs.
• Les variances et les covariances diminuent quand la taille de l'échantillon augmente.
Un grand échantillon donne donc de meilleures estimations.
• Les variances et les covariances sont inversement proportionnelles à la dispersion
des X autour de leur moyenne. L’expérimentateur aura donc intérêt à placer ses
essais aux extrémités de ce domaine pour obtenir des estimations précises.

Les prédictions.

On utilise souvent les modèles linéaires pour faire de la prédiction, c’est à dire calculer la
valeur de Y lorsqu’on a choisi une valeur pour X.
Dans ces fiches, nous utilisons le terme de prédiction (prediction en anglais), mais il est
important de signaler que la littérature utilise aussi pour les mêmes résultats le mot prévision
(forecasting). La différence entre les deux mots n’est pas clairement expliquée dans les
ouvrages et donne lieux à de nombreuses discussions.

DRT/SID/Statistiques CBM Régression linéaire


17 Régression linéaire

Dans le modèle de régression linéaire simple, il faut distinguer deux sortes de prédictions :

• Ŷ k la prédiction sur la moyenne de Y pour X= X k . C’est l’estimateur de l’espérance de Y


sachant que X= X k (notée mathématiquement E (Y / X = X k ) ), c’est à dire l’estimateur
de la valeur moyenne prise par la variable Y quand la variable X prend la valeur X k .

ˆ
• Yˆk la prédiction sur une nouvelle valeur de Y pour X= X k .(résultat d’un nouvel essai au
point X= X k ). C’est l’estimateur de Y sachant que X= X k (notée mathématiquement
Y / X = X k ), c’est à dire l’estimateur de la valeur que prendra la variable Y pour X= X k .
ˆ
Les estimateurs Ŷk et Yˆk sont égaux, ce sont des points qui se situent sur la droite de
régression, mais ils n'ont pas la même variance (c’est pourquoi il est important de bien
différencier les deux).

ESTIMATEUR VARIANCE DE L'ESTIMATEUR

⎛ ⎞
E (Y / X = X k ) ⎜ 2 ⎟
1 ( X − X )
Yˆk = b0 + b1 X k Var (Yˆk ) = s 2 ⎜ + n k ⎟
(= β 0 + β1 X k ) ⎜n 2⎟
⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠
ˆ
Yˆk = b0 + b1 X k +e ⎛ ⎞
Y /( X = X k ) ⎜ 2 ⎟
avec e estimateur de ε k ˆ 1 (X − X ) ⎟
Var (Yˆk ) = s 2 ⎜1 + + n k
(= β 0 + β1 X k + ε k ) ⎜ n 2⎟
(e=0, var(e)= σ 2 ) ⎜ ∑ ( Xi − X ) ⎟
⎝ i =1 ⎠

Pour connaître les intervalles de confiance liés à ces prédictions, se reporter à la fiche :
"QUALITE DE L’AJUSTEMENT"

DRT/SID/Statistiques CBM Régression linéaire


18 Régression linéaire

Résumé notations :

Enfin, pour résumer les notations qui sont utilisées tout au long de ce document, voici un
tableau des notations et un schéma sur la régression.

TABLEAU RECAPITULATIF DES NOTATIONS

observable
certaine ou (O) ou
Notations Variable constante aléatoire
déterministe calculable
(C)

Y (population) × × O

Yi
variable à expliquer × × O
(échantillon)
X (population)
× × O
variable explicative
Xi
variable explicative O
(échantillon)
ε i = Yi − β 0 − β 1 X i
× ×
variable d'erreur
β0
× ×
intercept du modèle
β1
× ×
pente du modèle

ei = Yi − b0 − b1 X i
× × C
résidus

b0
× × C
estimateur de l'intercept

b1
× × C
estimateur de la pente

s2
estimateur de la variance × × C
d'erreur

DRT/SID/Statistiques CBM Régression linéaire


19 Régression linéaire

SCHEMA DU MODELE DE REGRESSION SIMPLE

Si on suppose par exemple que tous les εi suivent une loi normale centrée N (0, σ 2 ) , le
modèle de régression linéaire implique que les Yi suivent aussi une loi normale de moyenne
βo + β1 X i . On a donc le schéma suivant :

DRT/SID/Statistiques CBM Régression linéaire


20 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


21 Régression linéaire

REGRESSION LINEAIRE SIMPLE


LES MOINDRES CARRES : THEORIE

Note technique n° 004

Objet : Formulaire pour les régressions linéaires

Date de diffusion : 1er mai 2002 Nombre de pages : 6

Annule et remplace : / Rédaction : Ch. Ranson

Destinataires : diffusion générale Visa :

Dans l'exemple H.3, le GUM, Guide pour l'expression de l'incertitude de mesure (ISO,
première édition, 1995), utilise une série de formules (H.13a à H.13g). Toutes ces formules,
application de la méthode des moindres carrés à la régression linéaire, sont démontrées ci-
dessous.

1. Notations

Soient n paires d'observations X i Yi

la moyenne des X i est notée X=


∑X i

de même, la moyenne des Yi est notée Y =


∑Y i

DRT/SID/Statistiques CBM Régression linéaire


22 Régression linéaire

On note également
S XY = ∑ (X − X )(Y − Y ) = ∑ (X
i i i )
− X Yi = ∑ X i Yi − Y ( )
= ∑ X Y − X ∑Y − Y ∑ X
i i i i + n XY
(∑ X )(∑Y )
= ∑XY i i − n XY = ∑ X i Yi −
i

n
i

de même

(
S XX = ∑ X i − X ) = ∑ (X
2
)
− X Xi = ∑ X − nX = ∑ X 2 2 2

(∑ X )i
2

i i i
n

2. Rappel sur la covariance de résultats simultanés

Si les deux quantités a et c se déduisent des variables communes Y1 … Yi … Yn par les


fonctions :
a = aY
1 1+ … + aY
i i + … + anYn
c = c1Y1 + … + cY
i i + … + cnYn

avec V (Yi ) = σ 2 quel que soit i


et Yi non corrélé avec Y j pour tout i ≠ j

alors cov (a, c ) = (a1c1 + … + ai c i + … + an c n )σ 2

ce qui peut aussi s'écrire cov (a, c ) = σ 2 ∑ ai c i

3. La régression linéaire par moindres carrés

La droite "idéale" serait définie par les paramètres inconnus β0 et β1 ayant ainsi pour
équation :
Y = β0 + β1 X (1)

On va chercher des estimations de β0 et β1, qui seront notées b0 et b1 . Ces valeurs seront
utilisées pour calculer les valeurs prédites de Y notées Y :
Y = b0 + b1 X (2)
Pour chacune des n paires d'observations ( X i ,Yi ) on peut écrire :
Yi = β 0 + β1 X i + ε i (3)
ε i représentant l'écart entre la valeur observée Yi et l'ordonnée de la droite "idéale".

Considérons la somme des carrés des déviations par rapport à cette droite :
S = ∑ ε i2 = ∑ (Yi − β 0 − β1 X i )
2
(4)

on adopte pour valeurs de β0 et β1 les valeurs de b0 et b1 telles que la somme S soit


minimale (de là vient la dénomination "moindres carrés").

DRT/SID/Statistiques CBM Régression linéaire


23 Régression linéaire

4. Calcul des coefficients de régression

Cette somme S dont on recherche le minimum étant une fonction de β0 et β1, on calcule sa
dérivée par rapport à chacune de ces deux variables :
∂S
= −2∑ (Yi − β 0 − β1 X i )
∂ β0
(5)
∂S
= −2∑ X i (Y1 − β 0 − β1 X i )
∂ β1

et les racines des "équations normales" fournissent ainsi les estimations de b0 et b1 :

∑ (Y i − b0 − b1 X i ) = 0
(6)
∑ (Y i − b0 − b1 X i )X i = 0

∑Y − n b − b ∑ X = 0
i 0 1 i
(7)
∑X Y −b ∑X −b ∑X
i i 0 1 1 i
2
=0

b0 n + b1 ∑ X i = ∑ Y1 (8a )
b0 ∑ X i + b1 ∑ X = ∑ X i Yi i
2
(8b )

De (8a) on déduit b0 =
1
(∑Yi − b1∑ X i ) (9a)
n

ou b0 = Y − b1 X (9b)

De (8b) et de (9a) on déduit :


1
(∑ X i )(∑Yi ) − 1 b1 (∑ X i )2 + b1 ∑ X i2 = ∑ X iYi
n n

∑XY i
1
n
(∑ X i )(∑Yi )
i −
soit (H.13b) b1 = (10a)
∑ X i2 − n (∑ X i )
1 2

ou encore b1 =
∑ (X − X )(Y − Y ) = S
i i XY
(10b)
∑ (X − X ) S 2
i XX

De (9a) et de (10a) on déduit (H.13a) :

b0 =
∑Y − ∑ X
i i
⎡ n ∑ X iYi − (∑ X i )(∑ Yi )⎤
⎢ ⎥ =
(∑ X )(∑Y ) − (∑ X )(∑ X Y )
i
2
i i i i
(9c)
n n ⎢⎣ n ∑ X i2 − (∑ X i ) ⎥⎦ n ∑ X − (∑ X )
2 2 2
i i

De (2) et de (9b) on déduit : Yˆ = Y + b1 X − X( ) (11)

DRT/SID/Statistiques CBM Régression linéaire


24 Régression linéaire

5. Variance de b1

Reprenant l'expression de b1 démontrée en (10b) :

b1 =
∑ (X − X )(Y − Y ) = ∑ (X − X )Y
i i i i
=
(X − X ) Y
1
+ … +
(X − X ) Y
n

∑ (X − X ) ∑ (X − X ) ∑ (X − X ) ∑ (X − X )
2 2 2 1 2 n
i i i i

si l'on accepte les hypothèses suivantes :


dans Yi = β0 + β1 X i + ε i

1°) ε i est une variable aléatoire telle que E (ε i ) = 0 et V (ε i ) = σ 2


2°) ε i et ε j sont non corrélées, ou cov (ε i , ε j ) = 0 quels que soient i et j

alors on en déduit :
1°) E (Yi ) = β 0 + β1 X i
2°) V (Yi ) = σ 2 quel que soit i
3°) Yi et Yj sont non corrélés quels que soient i et j

D'où (H.13d) :
⎡ ⎛ ⎞
2

Xi − X σ2
V (b1 ) = ⎢∑ ⎜ ⎟ ⎥σ 2 = (12)
⎢ ⎜ ( ) ∑ (X )
2 ⎟ ⎥
⎣⎢ ⎝ ∑ i
2
X −X ⎠ −X
⎦⎥ i

6. Variance de b0

Reprenant l'expression (9b) de b0 on écrit sa variance :

( ) ( )
V (b0 ) = V Y − b1 X = V Y + X 2V (b1 ) − 2 X cov Y , b1 ( )
( )
Mais cov Y , b1 = 0 . En effet
1 1
Y = Y1 + … + Yn
n n
et

b1 =
X1 − X (
Y1 + …
) +
(X − X )
n
Yn
∑ Xi − X
2
( ) ∑ (X − X ) i
2

et comme les Yi et Yj ne sont pas corrélés, et que V (Yi ) = σ 2 quel que soit i, alors (d'une part
voir le rappel au paragraphe 2, d'autre part se souvenir de ce que ∑ (X i )
− X ≡ 0) :

(
⎡1
cov Y , b1 = σ 2 ∑ ⎢ ) (X − X ) ⎤⎥= 0
i

⎢n ∑ (X − X ) ⎥⎦
2
⎣ i

DRT/SID/Statistiques CBM Régression linéaire


25 Régression linéaire

Donc, utilisant le résultat (12),

( )
V (b0 ) = V Y + X 2V (b1 ) =
σ2
+ X2
σ2
n ∑ (X )
2
i −X

⎛1 X2 ⎞
V (b0 ) = σ 2 ⎜ + ⎟ (13)
⎜n
∑( )
2 ⎟
⎝ Xi − X ⎠

ou encore, selon les notations du Guide... (H.13c)

V (b0 ) =
[
σ 2 ∑ (X i − X ) + n X 2
2
]= σ 2 ∑ X i2
(14)
n∑ X i − X( ) 2
n∑ X i − X( ) 2

7. Covariance et coefficient de corrélation de b0 et b1

Utilisant (9b), le rappel du paragraphe 2 et (12)

(
cov (b0 , b1 ) = cov Y − b1 X , b1 = − X V (b1 ) = ) − Xσ 2
(15)
∑ (X )
2
i −X

On en déduit, avec (14) et (12), le coefficient de corrélation

cov (b0 , b1 ) − Xσ 2
r (b0 , b1 ) = =
s (b0 )s (b1 ) σ 2 ∑ X i2
∑ (X )
2 σ2
−X
i
n∑ X i − X ( ) ∑ (X
2
i −X )
2

ou, après simplification


−X
r (b0 , b1 ) =
∑X i
2

n
− ∑ Xi
c'est-à-dire (H.13e) r (b0 , b1 ) =
n ∑ X i2

8. Variance de la valeur estimée

Reprenant la formule (2)


()
V Yˆ = V (b0 + b1 X ) = V (b0 ) + X 2V (b1 ) + 2 X cov (b0 , b1 )
et utilisant (13), (12) et (15)
⎛1 ⎞
()
V Yˆ = σ 2 ⎜ +
X2 ⎟+ X 2σ 2
−2
X Xσ 2
⎜n
∑( ) ∑ (X ) ∑ (X )
2 ⎟ 2 2
⎝ Xi − X ⎠ i −X i −X

DRT/SID/Statistiques CBM Régression linéaire


26 Régression linéaire

donc ()
⎡1
V Yˆ = σ 2 ⎢ +
(X − X ) ⎤⎥ 2

(16)
⎢n ∑ (X − X ) ⎥⎦
2
⎣ i

9. Estimation de la variance des résidus

Il s'agit d'estimer σ 2 = V (ε i ) , variance des écarts des observations à la droite "idéale".

On dispose des écarts à la droite estimée Yi − Yi . On estimera σ 2 au moyen du quotient de la


somme des carrés de ces écarts par le nombre de degrés de liberté correspondant à cette
somme.

Or, de l'égalité
( ) (
Yi − Y = Yi − Yˆi + Yˆi − Y ) ( )
on déduit (élévation au carré et sommation pour tous les points)
∑(
2
Y −Y = i ) ∑ [(
Y − Yˆ + Yˆ − Y
2
) ( )]
i i i

= ∑ (Y − Yˆ ) + 2∑ (Y − Yˆ )(Yˆ − Y ) + ∑ (Yˆ − Y )
2 2
i i i i i i

de (2) et (9b) on déduit Yˆ = Y + b1 X − X ( )


∑ (Yˆ ) = b12 ∑ X i − X ( )
2 2
et donc, d'une part i −Y = b12 S XX
et, d'autre part
( )( )
2∑ Yi − Yˆi Yˆi − Y = 2b1∑ Yi − Y − b1 X i − X X i − X [( ) ( )]( )
= 2b1(S XY − b1S XX )
=0
d'après (10b).

Finalement :

∑ (Y i −Y ) = ∑ (Y
2
i − Yˆi ) + ∑ (Yˆ − Y )
2
i
2

∑ (Y )
2
i −Y est la somme des carrés des écarts des valeurs observées par rapport à la
moyenne, elle a n − 1 degrés de liberté.

∑ (Yˆ )
2
i −Y est la somme des carrés des écarts des valeurs prédites par rapport à la
moyenne ; c'est la somme des carrés due à (expliquée par) la régression ;
comme elle vaut b12 SXX elle n'a qu'un seul degré de liberté.

∑ (Y )
2
i − Yˆi qui est la somme des carrés des résidus (part de la somme des carrés initiale
inexpliquée par la régression) a en conséquence n − 2 degrés de liberté.

σ 2 = V (ε i ) sera donc estimé (voir H.13f) par

∑ (Y ) 2
i − Yˆi
s 2
=
n−2

DRT/SID/Statistiques CBM Régression linéaire


27 Régression linéaire

REGRESSION LINEAIRE SIMPLE

RESIDUS ET INFLUENCES

Précédemment, on a noté εi = Yi − β 0 − β1 X i , i ∈ {1, n} les termes d’erreur aléatoire d’une


régression . Ces termes permettent de détecter des défaillances dans le modèle mais ils ne
peuvent pas être calculés puisqu’ils dépendent de β 0 et β1 inconnus. C’est pourquoi on
introduit les résidus ei = Yi − b0 − b1 X i , i ∈ {1, n} qui dépendent de l'échantillon. Ce sont des
estimateurs convergents ( on dit aussi consistants) des erreurs ε i .De plus, on a accès à des
réalisations des ei en utilisant l'échantillon de données.

DRT/SID/Statistiques CBM Régression linéaire


28 Régression linéaire

On ne peut déterminer la valeur des résidus qu’après avoir effectué une régression, mais
on les utilise souvent pour vérifier les hypothèses de la régression.
Ils permettent par exemple de vérifier :

• l’homoscédasticité (voir fiche « Homoscédasicité ou égalité des variances »)

• la corrélation (voir fiche « corrélation »)

• la normalité des termes d’erreur (voir fiche « normalité des erreurs »).

• Ils mettent aussi en évidence la présence d’observations atypiques.

Il existe différents types de résidus dont les formules sont données dans le « tableau des
résidus ».(quelques pages plus loin). Ils nécessitent des notations introduites dans l’annexe
A.

En régression linéaire, il existe des méthodes qui permettent de détecter les valeurs
atypiques (« outliers ») , c’est à dire les données qui s’éloignent fortement de la droite de
régression, et les valeurs influentes, c’est à dire celles qui apportent une forte contribution
dans le calcul de la droite de régression. Ces méthodes sont souvent réunies sous le nom de
« diagnostics »

Les valeurs atypiques

Remarque : Les graphes qui suivent ont tous été réalisés avec le même échantillon de
données.

Notations : Le calcul des résidus utilise les notations suivantes :

1 ( X − X )2
• hii les leviers (voir annexe A) ( hii = + n i )
n
∑(Xi − X)
i =1
2

• Yˆ(i ) l’estimateur de Y i ,calculé sans la ième observation.


• s(i ) l’estimateur de s l’écart-type résiduel, calculé sans la ième observation

Nous présentons ci-dessous différentes formules de résidus (rencontrés dans les


logiciels ou la littérature) et leurs propriétés.

DRT/SID/Statistiques CBM Régression linéaire


29 Régression linéaire

Les résidus simples

ei = Yi − Yˆi ∀i ∈ {1, n}

Ces résidus sont les plus faciles à calculer et sont souvent donnés par les logiciels de
régression. Ils s’expriment dans la même unité que la variable Y. Ils permettent
éventuellement de repérer une valeur atypique mais ce ne sont pas les meilleurs pour cet
objectif car ils n’ont pas la même variance et sont donc difficilement comparables.

⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus simples
croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce nuage qui
devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses.

Résidus simples
21
résidus simples

16
11
6
1
-4
-9
8 12 16 20 24 28 32
Variable explicative X

Remarque : Pour un modèle avec constante, les résidus sont centrés sur zéro.

Les résidus normalisés (ou partiels ou réduits)

∑ (Y )
n n

∑e
2
i − Yˆi 2
i
e
eri = i ∀i ∈ {1, n} avec s = i =1
= i =1

s n−2 n−2

Ces résidus sont sans unité. Dans la littérature, on identifie souvent la loi des résidus
normalisés à une loi normale centrée réduite, ce qui n’est pas démontré théoriquement. De
plus la variance des résidus normalisés n’est pas constante puisqu’elle vaut : (1 − hii ) (voir
tableau des résidus). Cependant plus n est grand, plus hii est proche de zéro et donc plus la
variance des résidus normalisés est proche de 1.
En général on admet que les résidus normalisés suivent une loi normale centrée réduite (si
on a un nombre d’observations supérieur à 10), ce qui permet souvent de choisir un seuil
critique simple de 2 à partir duquel on considère qu’un résidu est suspect. La valeur 2
correspond à un risque de 5% si l'hypothèse de normalité est vérifiée, c’est à dire qu’il y a
environ une chance sur 20 qu’un résidu en valeur absolue se trouve au dessus de 2. On
peut aussi prendre comme seuil la valeur 3 pour laquelle il y a une chance sur 100 qu’un
résidu se trouve au-dessus en valeur absolue.

DRT/SID/Statistiques CBM Régression linéaire


30 Régression linéaire

Remarque : l’utilitaire d’analyse d’Excel est censé calculer ces résidus mais en fait au lieu de
n

∑e
i =1
2
i
diviser les résidus simples par l’estimateur de l’écart type résiduel ( s 2 = ), il les divise
n−2
n

∑e
i =1
2
i
par l’écart type calculé d’après la série de résidus simples. (c’est à dire : )
n −1

⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
normalisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce
nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De plus
les résidus doivent se trouver dans l’intervalle [-2 ;2], sinon ce sont des valeurs suspectes.

Résidus normalisés
7
résidus normalisés

6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X

Les résidus standardisés

ei ( X − X )2
∀i ∈ {1, n} avec
1
ri = hii = + n i
s 1 − hii n
∑ ( X i − X )2
i =1

Les résidus standardisés ont les même propriétés que les résidus normalisés sauf que leur
variance est constante et vaut exactement 1.

⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
standardisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de
ce nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De
plus les résidus doivent se trouver dans l’intervalle [-2 ;2], sinon c’est que ce sont des
valeurs suspectes.

DRT/SID/Statistiques CBM Régression linéaire


31 Régression linéaire

Résidus standardisés
résidus standardisés
7
6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X

Les résidus studentisés

ei
es( i ) = ∀i ∈ {1, n}
s( i ) 1 − hii

Les résidus studentisés permettent de mieux évaluer l’importance d'un résidu ei car on
utilise une estimation de la variance résiduelle σ sans utiliser l’observation i, notée s(i ) .
Ainsi, enlever l’observation ayant un fort résidu ei , conduit à une forte diminution de σ et
augmente donc la valeur du résidu studentisé. De plus, dans le cas où l’hypothèse de
normalité des résidus est respectée, il est prouvé que les résidus studentisés suivent une loi
de Student de degré de liberté n-3 . On peut donc considérer qu’une observation i est mal
reconstituée par le modèle dès que es( i ) ≥ t0.975 (n − 3) .(valeur donnée dans la table de
Student avec un risque de 5%). Cette valeur est proche de 2 quand le nombre
d’observations n est suffisamment important, c’est pourquoi on prendra souvent 2 comme
seuil critique pour les résidus studentisés.

⇒ Pour détecter les valeurs atypiques, il faut tracer le nuage de points des résidus
studentisés croisés avec les valeurs de X. On peut ainsi repérer les formes suspectes de ce
nuage qui devrait se répartir aléatoirement de part et d’autre de l’axe des abscisses. De plus
les résidus doivent se trouver dans l’intervalle [− t0975 (n − 3);+t0.975 (n − 3)] ( approximé à
[-2 ;2]), sinon ce sont des valeurs suspectes.

Remarque : les résidus studentisés sont souvent appelés dans les logiciels ou la littérature
« les Rstudent ».

DRT/SID/Statistiques CBM Régression linéaire


32 Régression linéaire

Résidus studentisés
7
résidus studentisés
6
5
4
3
2
1
0
-1
-2
8 12 16 20 24 28 32
Variable explicative X

Pour mieux comparer les résidus entre eux, réunissons côte à côte les graphes des
différents résidus :

Résidus simples Résidus normalisés


21 7
résidus normalisés

6
résidus simples

16 5
11 4
6 3
2
1 1
-4 0
-1
-9 -2
8 12 16 20 24 28 32 8 12 16 20 24 28 32
Variable explicative X Variable explicative X

Résidus standardisés Résidus studentisés


résidus standardisés

7 7
résidus studentisés

6 6
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-2 -2
8 12 16 20 24 28 32 8 12 16 20 24 28 32
Variable explicative X Variable explicative X

Dans cet exemple, les quatre types de résidus montrent qu’il existe une valeur atypique
pour X=25, mais on peut remarquer que les résidus studentisés sont ceux qui la mettent le
plus en évidence (la valeur du résidu studentisé est plus élevée).

DRT/SID/Statistiques CBM Régression linéaire


33 Régression linéaire

Les valeurs influentes

Les leviers

1 ( X − X )2
hii = + n i ∀i ∈ {1, n}
n 2
∑ ( Xi − X )
i =1

Les élément diagonaux de la « hat matrice » (voir « annexe A ») notés hii sont appelés les
effets levier (en anglais « leverage »). Les observations pour lesquelles l’effet levier est
important sont celles qui se situent loin de X et sont a priori peu nombreuses. Ces
observations ont une grande influence sur le calcul de la droite de régression. Il n’est pas
satisfaisant que les informations statistiques (estimations…) tiennent en grande partie à la
présence d’un unique point (ou de peu de points) Le levier indique non seulement
l’éloignement d’un point par rapport à X , mais aussi l’impact ou l’importance que joue
Yi dans l’estimation de Ŷi .

4
⇒ On peut considérer qu’un levier est important dès qu’il est supérieur à .
n

⇒ Un effet levier important se détecte aussi en examinant les graphiques des données et
des résidus.

Effet levier important


400

10
300

5
Résidus
0
200
y

-5
100

-10
0

0 50 100 150 200 0 100 200 300 400

x Valeurs prédites

DRT/SID/Statistiques CBM Régression linéaire


34 Régression linéaire

Critères d’influences

Les critères qui suivent permettent de déceler des observations potentiellement


influentes, ce qui n’est pas satisfaisant. Ils évaluent l’influence d’une observation sur certains
paramètres (par exemple sur β 0 , β1 ou Y ). Tous ces indicateurs proposent de comparer un
paramètre estimé sans la ième observation et ce même paramètre estimé avec toutes les
observations. Les plus utilisés sont présentés au début.

La distance de Cook

Elle mesure l’influence d’une observation sur l’ensemble des prévisions en prenant en
compte l’effet levier et l’importance des résidus (d’où le dénominateur dans la formule). On la
note Di .

n
∑ (Yˆ( i ) j − Yˆ j )
2
j =1 hii
Di = 2
= ri 2 pour i = 1,…..n
2s 2(1 − hii )
avec :
• Yˆ( i ) j prédiction de Y j calculée sans la ième observation ( X i ,Yi )
• ri résidu standardisé.

On considère qu’un point est atypique si la distance de Cook qui lui est associée est
4
supérieure à . (On trouve parfois dans les livres 1 comme seuil critique )
n
On peut aussi tracer le graphe des distances de Cook en fonction des numéros
d’observations pour repérer rapidement la plus influente. La distance de Cook est le critère le
plus souvent calculé par les logiciels de statistiques.

Distance de Cook

32
0.15
Distance de Cook

0.10

14
98
0.05
0.00

0 50 100 150

Numéro de l’observation

DRT/SID/Statistiques CBM Régression linéaire


35 Régression linéaire

Le DFITS

Il mesure l’influence de la ième observation Yi sur la prévision Ŷi . Il est défini par :

Yˆi − Yˆ( i )
DFITSi =
s( i ) hii

avec :
• Y(i ) l'estimateur de Y pour la ième observation, mais sans utilisation de l’observation i
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation.
• hii les leviers
2
On peut considérer que le DFITS est important dès qu’il est supérieur à 2
n

Le DFBETA

Il mesure l’influence de la ième observation sur l’estimation des coefficients β 0 et β1 . On le


note dfbetas i , j :
b j − b j (i )
dfbetas i, j =
s( i ) ( X ' X ) −jj1

avec :
• b j (i ) l’estimateur de β j obtenue sans l’observation i
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation
• ( X ' X ) −jj1 le (j+1)ème élément diagonal de la matrice ( X ' X ) −1 .
2
Le dfbeta est considéré comme suspect si sa valeur absolue dépasse
n

Le COVRATIO

Le covratio mesure l’influence d’une observation sur la précision des estimateurs. Il est
défini par :
s(2i ) det( X ' X )(−i1)
Covratio i = 2
s( i ) det( X ' X )−1

avec :
• s(i ) l’estimateur de la variance résiduelle calculé sans la ième observation
• det( X ' X )(−i1) le déterminant de la matrice ( X ' X )(−i1) calculée sans la ième observation.

DRT/SID/Statistiques CBM Régression linéaire


36 Régression linéaire

Un covratio plus grand que 1 indique que le fait de mettre l’observation augmente la
qualité de l’estimation, alors qu’une plus petite valeur que 1 indique une diminution de la
qualité de l’estimation.

Les résidus PRESS

Les résidus PRESS permettent de repérer des points influents si on les compare au
résidus simples. Ils mesurent en fait l’influence de la ième observation sur le ième résidu.
Ils sont définis par :

e ( i ) = Yi − Yˆ( i )

avec Yˆ( i ) estimateur de Yi calculé sans la ième observation.

Graphiquement, on repère aussi les observations influentes en traçant le graphe des


résidus en fonction des valeurs prédites.

Observation influente
100

0
80

Résidus
-20
60
y
40

-40
20

-60

0 20 40 60 80 100 50 100 150

x Valeurs prédites

DRT/SID/Statistiques CBM Régression linéaire


37 Régression linéaire

RESUME DES CRITERES

Critères de détection de valeurs Seuil critique à partir duquel


atypiques l’observation est considérée suspecte

⎪Résidu studentisé ⎪
>2
ou ⎪Rstudent⎪

4
⎪Levier⎪ >
n

4
⎪Distance de Cook⎪ >
n

2
⎪DFITS⎪ >2
n

2
⎪DFBETAS⎪ >
n

>1 augmente la qualité de l’estimation


⎪COVRATIO⎪
<1 diminue la qualité de l’estimation

DRT/SID/Statistiques CBM Régression linéaire


38 Régression linéaire

TABLEAU RECAPITULATIF SUR LES RESIDUS


RESIDUS PARTIELS RESIDUS RESIDUS
ou REDUITS ou STANDARDISES RESIDUS PRESS STUDENTISES
RESIDUS
RAW RESIDUALS NORMALISES INTERNALLY PRESS RESIDUALS EXTERNALLY
SEMI-STUDENTIZED STUDENTIZED STUDENTIZED
RESIDUALS RESIDUALS RESIDUALS ou Rstudent

ei
ei es( i ) = ∀i ∈ {1, n}
ei = Yi − Yˆi ∀i ∈ {1, n}
e
eri = i ∀i ∈ {1, n} ri = ∀i ∈ {1, n} e( i ) = Yi − Yˆ( i ) ∀i ∈ {1, n} s( i ) 1 − hii
s s 1 − hii

Les résidus ne sont pas indépendants


Les résidus ne sont pas Les résidus ne sont pas Les résidus sont
Les résidus ne sont pas identiquement distribués. Les résidus ne sont pas identiquement distribués. identiquement distribués.
identiquement distribués Il n’est pas démontré qu’ils identiquement distribués. Il n’est pas démontré qu’ils Ils suivent tous une loi de
Ils suivent tous une loi suivent une loi normale. Il n’est pas démontré qu’ils suivent une loi normale. Student t(n-3) et ont même
normale mais n’ont pas Ils n’ont pas même suivent une loi normale. Ils n’ont pas même variance.
même variance. variance. Ils ont tous même variance. variance.

Var ei = σ 2 (1 − hii ) Var eri ≈ (1 − hii ) σ2 n−3


Var (ri ) = 1 ∀i ∈ {1, n} Var e( i ) = ∀i ∈ {1, n} Var es( i ) =
∀i ∈ {1, n} ∀i ∈ {1, n} 1 − hii n−5

Remarque : si l’hypothèse
Remarque : si l’hypothèse de normalité est vérifiée, Remarque : on peut mieux Remarque: ils permettent Remarque : ils permettent
de normalité est vérifiée, ils on considère souvent comparer les résidus car ils de repérer les points de trouver les points
suivent une loi normale qu’ils suivent une loi ont tous même variance. influents si on calcule la atypiques (outliers). Ils
normale centrée réduite On considère qu'ils suivent différence ei − e(i ) . suivent une loi de Student
N (0,σ 1 − hii )
N(0,1) et qu'ils sont une loi N(0,1) de degré de liberté n-3
identiquement distribués.

DRT/SID/Statistiques CBM Régression linéaire


39 Régression linéaire

REGRESSION LINEAIRE SIMPLE

HOMOSCEDASTICITE ou égalité des variances

Nous avons vu dans la fiche «Hypothèses» qu’il faut vérifier l’égalité des variances des
erreurs (homoscédasticité). Cela signifie que toutes les distributions de Y (les Yi ) doivent
avoir le même écart-type : la variance résiduelle est constante sur le domaine étudié.

Les graphiques

Un graphique permet de voir dans un premier temps si il semble y avoir homoscédasticité


ou pas. On peut visualiser le graphique de Y la variable expliquée en fonction de X la
variable explicative ou mieux utiliser le graphique des résidus. (voir fiche RESIDUS)

Remarque :

L’hétéroscedasticité est un des cas les plus fréquents de non respect des hypothèses.
Si la variance n'est pas constante sur tout le domaine, utiliser les "moindres carrés" avec
éventuellement l'inverse de la variance pour pondération. (voir fiche "REGRESSION
PONDEREE")

Analyse graphique de la
variance résiduelle
Y Y

e X e X

X X

Hétéroscédasticité 9 Homoscédasticité
© 2000 Prentice-Hall, Inc. Chap. 9 - 39

DRT/SID/Statistiques CBM Régression linéaire


40 Régression linéaire

Les tests.

Il est préférable pour utiliser les tests d'introduire les notations suivantes :

Les données :

Pour obtenir sa série de données, l’expérimentateur procède de la façon suivante :

il observe une ou plusieurs valeurs que prend la variable Y pour différentes valeurs fixées de
X appelées « niveaux de la variable X » :

⇒ On note les niveaux de X : x1, x2 ,...........x p


A chaque niveau x i ( i ∈ {1, p} ) de X, il note les n i valeurs de Y qu’il observe (si il décide de
répéter ni fois l’expérience).

⇒ On note ces ni valeurs prises par Y quand X vaut x i : y i 1, y i 2 ,.............., y ini


⇒ Les résidus associées au ni couples d’observations ( xi , y i1 ), ( xi , y i 2 ),..............( xi , y ini ) du


niveau xi sont notées : ei1, ei 2 ,..........ein
i

Exemples pour comprendre les notations :

1)

DRT/SID/Statistiques CBM Régression linéaire


41 Régression linéaire

niveaux X :concentration en Valeurs Y : réponse de Remarques


de X nitrate du produit de Y l’analyseur
x1 199 y 11 945
y 11 , y 12 , y 13 , y 14 sont des
x1 199 y 12 965 réalisations de Y1 .
L’expérimentateur a fait 4 répétitions :
x1 199 y 13 978
n1 = 4
x1 199 y 14 960
x2 210,5 y 21 1059
y 21 , y 22 , y 23 , y 24 sont des
x2 210,5 y 22 1025
réalisations de Y2 .
x2 210,5 y 23 1015 L’expérimentateur a fait 4 répétitions :
n2 = 4
x2 210,5 y 24 1042
x3 224 y 31 1056 y 31 , y 32 sont des réalisations de Y3 .
L’expérimentateur a fait 2 répétitions :
x3 224 y 32 1075
n3 = 2
x4 233 y 41 1165 y 41 , y 42 sont des réalisations de Y4 .
L’expérimentateur a fait 2 répétitions :
x4 233 y 42 1179
n4 = 2
x5 260 y 51 1281
y 51 , y 52 , y 53 , y 54 sont des
x5 260 y 52 1292
réalisations de Y5 .
x5 260 y 53 1275 L’expérimentateur a fait 4 répétitions :
n5 = 4
x5 260 y 54 1299

Les tests

ATTENTION : les tests ne sont valables que sous l’hypothèse de la normalité des erreurs.

Rappel : on veut vérifier à l’aide des données que pour chaque niveau de X, les distributions
de Y ont même écart-type.

On appelle s12 , s 22 ..., s p2 les variances estimées de Y {


aux niveaux x1, x2 ,........x p } de X.
1 ni 1 ni
Rappelons que si2 = 2
∑ ( y ij − y i ) avec y i = ∑ y ij ∀i ∈ {1, p}
ni − 1 j =1 ni j =1

Plusieurs tests statistiques permettent de tester l’homoscédasticité :

DRT/SID/Statistiques CBM Régression linéaire


42 Régression linéaire

Le test de Fisher :

Le test de Fisher s’applique pour tester l’égalité de deux variances uniquement (p = 2).

⇒ Il est décrit dans « Méthodes statistiques pour l’ingénieur » de Olivier


Gaudoin p66. Ce polycopié est disponible dans le dossier DOCUMENTS
INTERNET sous le nom de « Gaudoin » ou à l’adresse suivante :

[Link]

Le test de Cochran : (homogénéité des variances)

Le test de Cochran permet de contrôler l’égalité de p variances en suspectant la variance la


plus grande, à condition que la population soit normale et que toutes les variances soient
estimées par un même nombre de valeurs n (le nombre de degrés de liberté associé à
chacune des estimations de ces variances doit être constant).

Soit p variances : s12 , s 22 ..., s p2

On note : s max
2
{
= max s12 , s 22 ..., s p2 }

La statistique C du test de Cochran est


smax
2
C= p

∑s
i =1
2
i

où s max est l’écart-type le plus élevé de l’ensemble.

La table du test de Cochran fournit une valeur C(n, p, α) en fonction du nombre n de


données, du nombre de variances à comparer p, et de la valeur du risque α.

Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de l’homogénéité des
variances de la façon suivante :

1. Si la statistique C du test (calculée avec les données) est inférieure ou égale à C(n, p, α)
l'hypothèse d'homogénéité des variances est acceptée
2. Si la statistique C du test est supérieure à C(n, p, α), l'hypothèse d'homogénéité des
variances est rejetée.

Note : α est souvent fixé à 5 % ou à 1 %

α=0.05

DRT/SID/Statistiques CBM Régression linéaire


43 Régression linéaire

α =0.01

Table des valeurs C(n,p,α) pour le test de Cochran

Le test de Hartley :
Le test de Hartley est utilisé pour contrôler l’égalité de p variances dans le cas de
populations normales. Toutes les variances doivent être estimées par un même nombre de
valeurs (le nombre de degrés de liberté associé à chacune des estimations de ces variances
est constant).

Soit p variances : s12 , s 22 ..., s p2


On note : s max
2
{ }
= max s12 , s 22 ..., s p2 et s min
2
{
= min s 12 , s 22 ..., s p2 }

La statistique C du test de Hartley est :


s max
2
C=
s min
2

où s max
2
est la plus forte des estimations de variances, s min
2
la plus faible.

La table du test de Hartley fournit une valeur C(ν, p, α) en fonction du nombre de degrés de
liberté ν (nombre de données – 1), du nombre de variances à comparer p, et de la valeur du
risque α.

DRT/SID/Statistiques CBM Régression linéaire


44 Régression linéaire

Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de l’homogénéité des
variances de la façon suivante :
3. Si la statistique C du test (calculée avec les données) est inférieure ou égale à C(n, p, α)
l'hypothèse d'homogénéité des variances est acceptée
4. Si la statistique C du test est supérieure à C(n, p, α), l'hypothèse d'homogénéité des
variances est rejetée.

TABLE DE HARTLEY

α=0.05

Remarque : il existe deux autres tests qui permettent de tester l’homogénéité des variances :

⇒ le test de Levene
Il est décrit dans le document Internet « Régression 1 » note 3 page 7
disponible dans le dossier DOCUMENTS INTERNET ou à l’adresse suivante :
[Link]

⇒ le test de Bartlett expliqué dans « théorie et méthodes statistiques » de


Pierre Dagnelie p54 (disponible au service statistiques)

DRT/SID/Statistiques CBM Régression linéaire


45 Régression linéaire

REGRESSION LINEAIRE SIMPLE


Corrélation des termes d’erreurs

On veut vérifier qu’il n’y a aucun lien entre l’erreur commise sur une mesure et les mesures
effectuées précédemment. Pour cela, deux méthodes sont possibles : l'étude graphique ou
les tests.

1. Etude graphique

On trace le graphe des résidus en fonction du temps (voir fiche « résidus ») et on regarde si
ils se répartissent de manière aléatoire autour de l’axe des abscisses. Si ce n’est pas le cas,
on peut mettre en doute la non-corrélation des termes d’erreur.

Exemple :

Analyse graphique de
l’indépendance des résidus

dépendance Indépendance
e
9
e
temps temps

graphe des résidus en fonction du


© 2000 Prentice-Hall, Inc.
temps Chap. 9 - 40

2. Les tests

Pour détecter un problème de corrélation des erreurs dans une régression, on peut utiliser le
test de Durbin-Watson. Il s’utilise dans le cas où Y suit une loi normale (voir fiche
"NORMALITE".).
On utilise les résidus {e1, e2 ,....en } pour calculer le coefficient de Durbin-Watson qui permet
de prendre une décision quant à la non-corrélation des erreurs.

DRT/SID/Statistiques CBM Régression linéaire


46 Régression linéaire

Le coefficient de Durbin-Watson est défini ainsi :


n −1

∑ (e
i =1
i +1 − ei )2
d = n

∑e
1
2
i

La table de Durbin-Watson donne deux valeurs d1 et d 2 en fonction du nombre


d’observations n, du nombre de variables explicatives p (p=1 dans le cas de la régression
simple) et du risque α.
Après avoir fixé la valeur du risque α, on conclut au rejet ou non-rejet de non corrélation des
erreurs de la façon suivante :
5. Si le coefficient de Durbin-Watson d (calculé avec les données) est inférieure à d1 ,
l'hypothèse de non corrélation des erreurs est rejetée.
6. Si le coefficient de Durbin-Watson d (calculé avec les données) est supérieur à d 2 ,
l’hypothèse de non corrélation des erreurs est acceptée .
7. Si le coefficient de Durbin-Watson d (calculé avec les données) est compris entre d1 et
d 2 , il y a un doute.(on ne peut pas conclure)
TABLE DE DURBIN-WATSON

DRT/SID/Statistiques CBM Régression linéaire


47 Régression linéaire

REGRESSION LINEAIRE SIMPLE

NORMALITE DES RESIDUS

Il faut vérifier l’hypothèse de normalité sur les termes d’erreur. Cette hypothèse n’est pas
indispensable, mais elle permet d’utiliser les tests statistiques de ce document qui reposent
sur cette hypothèse. Pour cela , on va tester la normalité des résidus par les méthodes
disponibles dans la norme NF X 06-050 (voir annexe B).

Dans cette norme, il faut retenir essentiellement les méthodes graphiques et statistiques
suivantes :

• Fréquences cumulées (droite de Henry)


• Test de Shapiro-Wilk
• Test de Kolmogorov-Smirnov
• Coefficient d’asymétrie
• Coefficient d’aplatissement

DRT/SID/Statistiques CBM Régression linéaire


Régression linéaire simple

DRT/SID/Statistiques CBM Régression linéaire


49 Régression linéaire

REGRESSION LINEAIRE SIMPLE

Qualité d’ajustement, tests, intervalles de confiance

On trouve dans cette fiche l’explication de résultats statistiques classiques souvent fournis
par les logiciels.

Qualité de l’ajustement

Formule de décomposition, coefficient de détermination

Les variations de Y sont expliquées d’une part par les variations de X, et d’autre part par
le caractère aléatoire des expériences. Pour préciser la part de variation de Y expliquée par
la variation de X et celle aléatoire, on utilise la relation suivante :

Variation totale = Variation due à la régression + variation résiduelle

Ce qu’on écrit :
SCTotal = SC Régression + SC Résiduel
ou encore

n n n
∑ (Yi − Y ) = ∑ (Yˆi − Yi ) + ∑ (Yi − Yˆi )
2 2 2
i =1 i =1 i =1

(Cette relation est souvent appelée « formule de décomposition de la variance». )

où :

SCTotal
ou « total sum of square » mesure la variation globale
n
des y i autour de leur 2
(SST) ∑ (Yi − Y )
i =1
ou « somme des carrés moyenne y .
totale »

SC Régression
ou « regression sum of mesure la part de variation de n
∑ (Yˆi − Y )
2
square » (SSR) Y expliquée par le modèle
(par une variation de X). i =1
ou « somme des carrés
expliquée par X »

SC Résiduel
ou « error sum of square » mesure la part de variation de n
∑ (Yi − Yˆi )
2
(SSE) Y non expliquée par X i =1
ou « somme des carrés
résiduelle »

DRT/SID/Statistiques CBM Régression linéaire


50 Régression linéaire

Avec ces notations, on peut alors introduire la notion de coefficient de détermination. Ce


coefficient exprime la part de variation de Y expliquée par la variation de X. Il exprime le
rapport entre la variance de Y expliquée par le modèle et la variance totale. C’est un
indicateur de la qualité de l’ajustement de l’équation de régression. Il permet d’avoir une
idée globale de l’ajustement du modèle. Il est noté R 2 et est défini par la relation suivante :
n
ˆ ) 2i
∑ ( Yi − Y
SCRégression
R2 = = 1 − i=n1
SCTotal 2
∑ ( Yi − Y )
i=1
2
Un R proche de 1 signifie a priori que l’ajustement est bon mais il ne faut surtout pas se fier
uniquement à ce résultat. Il faut aussi étudier les résidus ainsi que l’écart-type résiduel. On
ne pourra conclure sur la qualité du modèle qu’après ces démarches.

Remarques importantes :

• Un coefficient de détermination R 2 égal à 1 correspond à une situation où tous les points


n
observés sont sur la droite de régression puisqu’on a ∑ (Yi − Yˆi ) 2 = 0 . La liaison entre Y
i =1
et X est alors parfaitement linéaire et les résidus sont nuls. Cependant, il faut faire très
attention car les logiciels peuvent donner un coefficient de détermination R 2 égal à 1
sans pour autant donner des résidus nuls. C ‘est parce qu’il ne faut pas oublier que les
logiciels donnent un arrondi de R 2 , ils donnent donc 1 si sa valeur est par exemple
0.9999999.

• Un coefficient de détermination R 2 égal à 0 correspond à une situation où la droite des


n
moindres carrés est horizontale, puisqu’on a ∑ (Yˆi − Y )2 = 0 . Il n’y a aucune liaison
i =1
linéaire entre Y et X.

• Le coefficient de corrélation entre les variables X et Y (noté R) élevé au carré est égal au
coefficient de détermination. Il mesure à la fois la force et le sens de la liaison entre X et
Y . Un R positif signifie que si X croit alors Y croit, si X décroît alors Y décroît. Un R
négatif signifie que si X croit alors Y décroît, si X décroît alors Y croit.

Tests statistiques

ATTENTION : Il est impératif d’avoir vérifier l’hypothèse de normalité des résidus (voir fiche
« normalité des résidus ») pour utiliser les tests statistiques.

DRT/SID/Statistiques CBM Régression linéaire


51 Régression linéaire

Le test de FISHER-SNEDECOR

Ce test mesure l’apport global de la variable X sur la détermination de Y. On l’utilise


pour savoir si le modèle est significatif.

Dans le cas d’une régression linéaire simple, il consiste à tester la significativité de la pente
β1 . Il est alors strictement équivalent au test de Student effectué pour tester la pente β1 (en
effet on a la relation suivante entre le F de Fisher et le t de Student : t n2− 2 = F (1, n − 2) ).

L’hypothèse testée dans le cadre d’une régression linéaire simple est :

• H0 : β1 = 0
contre
• H1 : β1 ≠ 0

On appelle F la statistique de test de Fisher-Snedecor, elle est donnée pour la régression


simple dans le tableau récapitulatif suivant :

La table du test de Fisher-Snedecor fournit une valeur F1−α (ν1,ν 2 ) en fonction du nombre de
degrés de liberté du numérateur ν1 (dans le cas de la régression simple, ν1 =1), du nombre
de degrés de liberté du numérateur ν 2 (dans le cas de la régression simple, ν 2 =n-2) et de la
valeur du risque α.
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de la significativité de
β1 de la façon suivante :

1. Si la statistique F du test (calculée avec les données) est inférieure ou égale à F1−α (ν1,ν 2 )
l'hypothèse H0 est acceptée, c’est à dire que β1 n’est pas significatif.

2. Si la statistique F du test est supérieure à F1−α (ν1,ν 2 ) l'hypothèse H0 est rejetée, c’est à
dire que β1 est significatif.

DRT/SID/Statistiques CBM Régression linéaire


52 Régression linéaire

TABLE DE FISHER-SNEDECOR

Tests d’hypothèses sur les coefficients de régression β 0 et β1

Les logiciels statistiques effectuent systématiquement des tests pour regarder si les
coefficients de régression sont significatifs.

Test sur β 0

On veut tester l’hypothèse suivante :

• H0 : β 0 = 0 (droite passant par l'origine)


contre
• H1 : β 0 ≠ 0

b0 b0
La statistique utilisée pour ce test est : T= =
var( b0 ) 1 X
s + n
n
∑(X
i =1
i − X )2

DRT/SID/Statistiques CBM Régression linéaire


53 Régression linéaire

La loi de probabilité de T sous l’hypothèse H0 vraie est une loi de Student à n-2 degrés de
liberté.
La table du test de Student fournit une valeur t1− α (ν ) en fonction du nombre de degrés de
2
liberté ν (n-2) et de la valeur du risque α.
Après avoir fixé la valeur du risque α, on conclut au rejet ou non-rejet de l’hypothèse nulle de
la façon suivante :
1. Si la valeur absolue de la statistique T du test (calculée avec les données) est inférieure
ou égale à t1− α (ν ) l'hypothèse H0 est acceptée, c’est à dire que β 0 n’est pas
2
significativement différent de zéro au risque α.
2. Si la valeur absolue de la statistique T du test est supérieure à t1− α (ν ) l'hypothèse H0
2
est rejetée, c’est à dire que β 0 est significativement différent de zéro au risque α.

Test sur β1

On veut tester l’hypothèse suivante :

• H0 : β1 = 0
contre
• H1 : β1 ≠ 0

La statistique utilisée pour ce test est :

b1 b1
T = =
var( b1 ) 1
s n

∑(X
i =1
i − X )2

La loi de probabilité de T sous l’hypothèse H0 vraie est une loi de Student à n-2 degrés de
liberté.
La table du test de Student fournit une valeur t1− α (ν ) en fonction du nombre de degrés de
2
liberté ν (n-2) et de la valeur du risque α.
Après avoir fixé la valeur du risque α, on conclut au rejet ou non-rejet de l’hypothèse nulle de
la façon suivante :
3. Si la valeur absolue de la statistique T du test (calculée avec les données) est inférieure
ou égale à t1− α (ν ) l'hypothèse H0 est acceptée, c’est à dire que β1 n’est pas
2
significativement différent de zéro au risque α.
4. Si la valeur absolue de la statistique T du test est supérieure à t1− α (ν ) l'hypothèse H0
2
est rejetée, c’est à dire que β1 est significativement différent de zéro au risque α.

DRT/SID/Statistiques CBM Régression linéaire


54 Régression linéaire

Remarque: pour tester l'hypothèse β1 = 1 , on procède de la même manière en utilisant la


b1 − 1
statistique : T =
var(b1 )

Remarque importante sur les tests :

En général, pour conclure au rejet ou non rejet d’une hypothèse, les logiciels fournissent
la p-valeur. C’est la probabilité que l’estimation du paramètre testé, prenne la valeur
quantitative observée, sous l’hypothèse H0. Si la p-value est petite, on rejette H0.

Concrètement, si l’expérimentateur s’est fixé un seuil de signification α (par exemple 5%), il


conclut au rejet ou non rejet de l’hypothèse H0 de la manière suivante :

Rejet de H0 ⇔ p-value < α


Non rejet de H0 ⇔ p-value > α

DRT/SID/Statistiques CBM Régression linéaire


55 Régression linéaire

Intervalles de confiance

Il est intéressant de donner les intervalles de confiance de niveau de confiance (1- α ), des
ˆ
paramètres β , β , Ŷ , Yˆ . Ces intervalles sont des intervalles aléatoires : ils changent
0 1
selon le jeu de données.
Les intervalles de confiance suscitent souvent des erreurs d’interprétation et des abus de
langage. On entend souvent dire que si I est un intervalle de confiance à 95% d’un
paramètre θ , c’est qu’il y a 95% de chance que θ se trouve dans l’intervalle Ceci est
incorrect. En fait, si on recommence 100 fois notre expérience, qu’on se retrouve avec 100
jeu de données, et qu’on calcule pour chaque jeu de données l’intervalle de confiance, on
aura alors 100 intervalles de confiance différents mais a priori tous proches les un des
autres. En moyenne, θ sera dans 95 de ces intervalles.

Intervalles de confiance de β 0 et β 1

Les estimations de Var ( b0 ) et Var (b1 ) sont :

⎛ ⎞
⎜ ⎟
X 2
s2
Var (b0 ) = s 2 ⎜ + n ⎟
1
Var (b1 ) =
⎜n ⎟ n




i =1
( X i − X )2 ⎟

∑(X
i =1
i − X )2

b0 − β 0 b1 − β 1
et les variables et suivent une loi de Student à n-2 degré de liberté.
Var ( b0 ) Var (b1 )

D’où les intervalles de confiances bilatéraux suivants où t désigne la variable de Student


et 1 − α le niveau de confiance :

b0 − t1−α 2 (n − 2) ⋅ Var (b0 ) ≤ β 0 ≤ b0 + t1−α 2 (n − 2) ⋅ Var (b0 )

b1 − t1−α 2 (n − 2) ⋅ Var (b1 ) ≤ β1 ≤ b1 + t1−α 2 (n − 2) ⋅ Var (b1 )

DRT/SID/Statistiques CBM Régression linéaire


56 Régression linéaire

ˆ
Intervalles de confiance de Ŷ et Yˆ

ˆ
Rappelons qu’il faut bien différencier les intervalles de confiance de Ŷ et Yˆ malgré
l’égalité de leurs estimateurs :

• L’intervalle de confiance de Ŷ définit « les limites dans lesquelles se situe probablement


une valeur individuelle lue sur la droite de régression : lorsqu’on a construit un modèle
qui se présente sous la forme d’une droite de régression, l’intervalle de confiance en
question dit que, pour une valeur donnée de la variable X, la vraie valeur de la variable Y
( β 0 + β1 X ) devrait se situer au sein de cet intervalle de confiance. ».
Nous appellerons cet intervalle : «l’intervalle de confiance d’une prédiction moyenne »
Avec un niveau de confiance (1-α), on l'interprète comme un intervalle dans lequel on a
(1-α)% de chances de trouver la moyenne d'un très grand nombre d'essais.

ˆ
• L’intervalle de confiance de Yˆ définit « les limites dans lesquelles tombera une nouvelle
observation de Y si elle fait partie de la même population statistique que l’échantillon.
Cela produit un intervalle plus large que le précédent : en effet, en plus de la variance de
l’échantillon qui a servi à établir l’équation, s’ajoute celle qui est associée au tirage d’un
nouvel élément. »

Nous appellerons cet intervalle : « l’intervalle de confiance d’une prédiction nouvelle »


Avec un niveau de confiance (1-α), il représente l'intervalle dans lequel on peut
s'attendre à trouver (1-α)% des observations si l'on fait des essais en X= X 0

• Intervalle de confiance d’une prédiction moyenne pour X= X 0

1 ( X − X )2
b0 + b1 X 0 ± t 1−α 2 ( n − 2)s + n 0
n
∑ ( X i − X )2
i =1

• Intervalle de confiance d’une prédiction nouvelle pour X= X 0

1 ( X − X )2
b0 + b1 X 0 ± t 1−α 2 (n − 2)s 1 + + n 0
n
∑ ( X i − X )2
i =1

DRT/SID/Statistiques CBM Régression linéaire


57 Régression linéaire

Si l’on calcule les intervalles de confiance de prédiction moyenne ou nouvelle pour


toutes les valeurs possibles de X, on trouve une région de confiance au niveau (1- α )
délimitée par deux branches d’hyperbole .

DRT/SID/Statistiques CBM Régression linéaire


58 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


59 Régression linéaire

REGRESSION LINEAIRE SIMPLE

REGRESSION PONDEREE

Nous avons vu dans les hypothèses que la condition d’homoscédasticité (variance des
erreurs constante) doit être vérifiée pour modéliser un phénomène par une régression
linéaire simple. Si ce n’est pas le cas, deux solutions sont envisageables : on peut faire un
changement de variable sur Y, ou effectuer une régression pondérée (weighted least
squares).

La régression pondérée prend en compte la différence sur les variances des résidus.
Supposons que pour chaque observation i, nous puissions connaître un poids w i , alors
estimer les paramètres β 0 et β1 du modèle Y = β 0 + β1 X + ε avec ces pondérations consiste
à minimiser la quantité:

n n


i =1
w i (Yi − β 0 − β1 X i )2 ou ∑w
i =1
i (Yi − b0 − b1 X i ) 2

Les estimateurs de β 0 et β1 notés respectivement b0 et b1 sont alors donnés par les


formules :

∑w X i i
X = i =1
n

∑w i =1
i

∑w Y i i
Y = i =1
n

∑w
i =1
i

∑w i (Yi − Y )( X i − X )
b1 = i =1
n

∑w (X
i =1
i i − X )2

b0 = Y − b1 X

DRT/SID/Statistiques CBM Régression linéaire


60 Régression linéaire

Les poids permettent de tenir compte de la précision de chaque observation ou de


privilégier certains points. On peut les choisir de façon à limiter les influences et à rétablir
l'homoscédasticité. De façon générale, on va choisir les poids de la façon suivante :

σ2
wi =
Var (ε i )

Il faut donc évaluer la forme de Var (ε i ) en fonction de X i pour connaître les poids à utiliser.
Pour déterminer cette forme, on trace généralement le graphe des résidus ou de la variance
des résidus en fonction de la variable explicative X. On peut alors faire des suppositions sur
la forme de Var (ε i ) en fonction des X i .

Exemple : on obtient les nuage de points suivants:

Graphe des résidus studentisés


2
Résidus studentisés

-1

-2
0 2 4 6 8
Variable explicative X

Le graphe des résidus montre que les écart au modèle choisi ne sont pas constants. Plus X
augmente, plus l’écart augmente. Il faut donc procéder à une régression pondérée.
Les données recueillies par l’expérimentateur n’interviennent pas avec la même influence
dans le calcul du modèle.

On va donc par exemple supposer que :


Var (ε i ) = σ 2 X i1 2
ou Var (ε i ) = σ 2 X i
ou Var (ε i ) = σ 2 X i2

On utilise donc les poids suivants :


1
wi =
X1i 2

DRT/SID/Statistiques CBM Régression linéaire


61 Régression linéaire

1
ou w i =
Xi
1
ou w i =
X i2

Pour savoir si l'une des formes est meilleure que l'autre, on va effectuer la régression
pondérée avec chacune des formes proposées et choisir celle pour laquelle le graphe des
résidus en fonction de X est le meilleur.

Remarque : dans le cas d’une régression pondérée les résidus ont pour valeur :
ei = wi (Yi − b0 − b1 X i )

On peut aussi prendre comme poids l'inverse des variances :

1
wi =
VAR( Xi )

DRT/SID/Statistiques CBM Régression linéaire


62 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


63 Régression linéaire

REGRESSION
LINEAIRE
MULTIPLE

DRT/SID/Statistiques CBM Régression linéaire


64 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


65 Régression linéaire

REGRESSION LINEAIRE MULTIPLE

LE MODELE ET SES HYPOTHESES.

Il arrive souvent qu'on explique une variable, non pas par une unique variable, mais par
un certain nombre de variables. Par exemple, le rendement d'une réaction chimique
s'explique par la température et la quantité de catalyseur utilisées pour effectuer la réaction.
On parle alors de régression multiple.

La régression multiple étudie la liaison entre une variable dépendante Y, et un ensemble de


variables indépendantes X1, X2 ,......Xp . Elle est une généralisation immédiate de la
régression simple.

Le modèle de régression linéaire multiple s'écrit :

Y variable
dépendante ou à X1, X 2 ,..... X p variables
expliquer explicatives (déterministes)
(aléatoire)

Y = β 0 + β 1 X 1 + β 2 X 2 + ....... + β p X p + ε

β 0 , β1,.....β p paramètres ε terme d'erreur


inconnus de la régression (aléatoire)
à estimer.

DRT/SID/Statistiques CBM Régression linéaire


66 Régression linéaire

Appliqué à un échantillon de taille n, le modèle de régression multiple devient :

Yi variable aléatoire à expliquer


décrivant les valeurs prises par Y
lorsque X ki ième valeur
X1 = X1 , X 2 = X 2i ,........... X p = X pi
i
choisie pour la
kième variable
explicative X k

Yi = β 0 + β1 X1i + β 2 X 2i + ............ + β p X pi + ε i

ε i variable aléatoire décrivant


β 0 , β1,.....β p les termes d'erreur lorsque :
paramètres inconnus de X1 = X1i , X 2 = X 2i ,........... X p = X pi
la régression à estimer.

Enfin on écrit souvent le modèle de régression multiple sous forme matricielle afin d'exprimer
les estimateurs par des formules plus simples.
Pour un échantillon de taille n des variables Y, X1, X 2 ,......... X p , on a :

Y = Xβ + ε

avec :
⎛Y1 ⎞ ⎛1 X11 X 21 X p1 ⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎜ ⎟ ⎛ β0 ⎞ ⎜ ⎟
⎜Y 2 ⎟ ⎜1 X12 X 22 Xp ⎟
2 ⎜ ⎟ ⎜ ε2 ⎟
⎜. ⎟ ⎜ ⎟ ⎜ β1 ⎟ ⎜ ⎟
Y= ⎜ ⎟ ,X = ⎜
1 ⎟ , β =⎜ ⎟ , ε=⎜ ⎟,
⎜. ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜ ⎟ ⎜⎜ ⎟⎟ ⎜ ⎟
⎜Y ⎟ ⎜1 X n X 2n X pn ⎟⎠ ⎝ βp ⎠ ⎜ε ⎟
⎝ n⎠ ⎝ 1 ⎝ n⎠

On utilise des caractères gras pour l'écriture matricielle.

Les hypothèses qui accompagnent le modèle de régression linéaire multiple sont les
suivantes :

HYPOTHESE 1 :Le modèle doit être "linéaire par rapport aux paramètres", c'est à dire que la
variable expliquée Y s'écrit comme la somme d'une constante (souvent notée β 0 ,

DRT/SID/Statistiques CBM Régression linéaire


67 Régression linéaire

éventuellement nulle) et de paramètres multipliés par des fonctions des variables


explicatives X i .

Exemples :

Rappelons que p est le nombre de variables explicatives (la constante n’est pas prise en
compte dans p)

1
• Y = β 0 + β1 X1 + β 2 est un modèle linéaire multiple (p = 2)
X2
1
• Y = β 0 + β1 X1 + β 2 X 23 + β 3 est un modèle linéaire multiple (p = 3)
X3
• Y = β 0 + β1 X1 + β 2 X12 + β 3 X13 + β 4 X14 est un modèle linéaire multiple (p = 4). malgré
qu'il n'y ait pourtant qu'une unique variable explicative. Ce type de modèle est
appelé modèle polynomial. C’est un cas particulier de la régression multiple très
important c'est pourquoi un chapitre entier lui est souvent réservé dans la
littérature. (Voir ANNEXE D)
β2
• Y = β 0 + β1 X1 + n'est pas un modèle linéaire multiple.
β3 + X 2

HYPOTHESE 2 : Le modèle doit être bien spécifié, c'est à dire qu'il ne faut pas avoir oublié
de variables explicatives.

HYPOTHESE 3 : Les variables X1, X 2 , X 3 ,......... X p sont déterministes (ou certaines), c'est à
dire que les valeurs qu'elles prennent sont parfaitement connues (contrairement à une
variable aléatoire). On parle alors de modèle à effets fixes ou encore de modèle à facteurs
contrôlés. (Il existe aussi des modèles à effets aléatoires pour lesquels les valeurs de X sont
aléatoires.)

HYPOTHESE 4 : L’espérance des erreurs associées à chaque p-uplet d’observations est


nulle :

E (εi ) = 0 ∀i ∈ {1, n}

Cela implique que la moyenne de Yi lorsque X1 = X1i , X 2 = X 2i ,........... X p = X pi est


β 0 + β1 X1i + β 2 X 2i + ...... + β p X pi . Plus généralement, on a :

E (Y ) = β 0 + β1 X1 + β 2 X 2 + ......... + β p X p

On dit alors que l’estimateur des moindres carrés est sans biais.

HYPOTHESE 5 : La variance des erreurs associées à chaque p-uplet d'observations est


constante. On a donc :

Var (ε i ) = constante = σ 2 ∀i ∈ {1, n}

L’écart-type des termes d’erreurs est donc constant.


Lorsque cette hypothèse est vérifiée, on dit qu’il y a « homoscédasticité »

DRT/SID/Statistiques CBM Régression linéaire


68 Régression linéaire

HYPOTHESE 6 : Les termes d’erreur ne sont pas corrélés. Il ne doit y avoir aucun lien entre
l’erreur commise sur une mesure et les mesures effectuées précédemment.
mathématiquement, cela signifie que :
( )
Cov εi , ε j = 0 pour i ≠ j

⎛1 X11 X 21 X p1 ⎞
⎜ ⎟
⎜1 X12 X 22 X p2 ⎟
⎜ ⎟
1
HYPOTHESE 7 : La matrice X = ⎜ ⎟ doit être de plein rang, de façon
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜1 X n X 2n X pn ⎟⎠
⎝ 1

à pouvoir inverser X'X où X' est la transposée de X. Concrètement, il faut que les colonnes
de cette matrice ne soient pas multiples les unes des autres, c'est à dire mathématiquement
que les vecteurs :

⎛ X11 ⎞ ⎛ X 21 ⎞ ⎛ X p1 ⎞
⎜ 2⎟ ⎜ 2⎟ ⎜ 2⎟
⎜ X1 ⎟ ⎜ X2 ⎟ ⎜ Xp ⎟
X1 = ⎜ ⎟ , X2 = ⎜ ⎟ , ………….., Xp = ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ Xn ⎟ ⎜ Xn ⎟ ⎜ Xn ⎟
⎝ 1⎠ ⎝ 2⎠ ⎝ p⎠

ne doivent pas être colinéaires : les variables X1, X 2 ,........, X p doivent être linéairement
indépendantes. Notons que cette hypothèse est propre à la régression multiple et qu'il nous
faudra donc préciser plus tard comment la tester.

HYPOTHESE 8 : FACULTATIVE : Les variables aléatoires d’erreur εi suivent une loi


normale N (0,σ 2 ) .

Cette hypothèse est nécessaire pour l’utilisation des tests statistiques


(Student, Fisher …) et la construction d’intervalles de confiance.

Remarque : les variables Yi suivent alors toutes une loi normale

LES ESTIMATEURS

L'objectif de la régression est d'estimer les coefficients du modèle ( β 0 , β1,.........β p ) ainsi que
la variance σ 2 de l'erreur ε à partir d'un échantillon.

DRT/SID/Statistiques CBM Régression linéaire


69 Régression linéaire

⎛ b0 ⎞ ⎛ β0 ⎞
⎜ ⎟ ⎜ ⎟
⎜ b1 ⎟ ⎜ β1 ⎟
• On appelle B = ⎜ ⎟ l'estimateur de β = ⎜⎜ ⎟⎟ .
⎜ ⎟
⎜ ⎟ ⎜ ⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟
⎝ bp ⎠ ⎝ βp ⎠

• On appelle s 2 l'estimateur de σ 2 .

Ainsi, le modèle de régression "réel" Y = Xβ , inconnu, est estimé par le modèle Yˆ = XB .

Dans ce document, nous utilisons toujours l'échantillon théorique afin d'obtenir les
estimateurs et leurs propriétés. Mais de façon concrète, l'expérimentateur a besoin des
estimations. Pour les obtenir, il lui suffit, dans les formules des estimateurs, de remplacer les
variables par les données qu'il a obtenu. En toute rigueur, il faudrait différencier les notations
utilisées pour les estimateurs et celles pour les estimations, de même il faudrait différencier
les notations utilisées pour les données et celles pour les variables aléatoires dont elles sont
les réalisations, mais cela complique et alourdit le document, c'est pourquoi nous garderons
les mêmes notations, comme dans la plupart des ouvrages sur la régression.

Il existe différentes méthodes pour calculer les estimateurs des coefficients. Nous
exposons ici la méthode des moindres carrés. On note Yˆi = b0 + b1 X1i + b2 X 2i + ........... + bp X pi
l'estimateur de la valeur moyenne prise par la variable Y quand
X1 = X1i , X 2 = X 2i ,........... X p = X pi . Alors la méthode des moindres carrés consiste à minimiser
la somme des carrés des écarts Yˆi − Yi , c’est à dire qu’on cherche :

Min ∑ (Y
2
i − b0 − b1 X1i − ..... − bp X pi )2 = Y − XB
b0 ,b1 i =1

Ces écarts Yi − Y ˆ sont appelés les résidus, ce sont des variables aléatoires que nous
i
noterons ei . Ils ne sont pas égaux aux termes d’erreur et contrairement à ces derniers, on
peut connaître leur valeur pour chaque échantillon de données.

⇒ On note e i = Yi − Yˆi les résidus

DRT/SID/Statistiques CBM Régression linéaire


70 Régression linéaire

La méthode des moindres carrés conduit aux estimateurs suivants :

MATRICE DE COVARIANCE DE
ESTIMATEUR
L'ESTIMATEUR (estimée)

β B = (X' X) −1 (X' Y) COV (B) = s 2 (X' X) −1

σ 2 Y − Xβ ∑ (Y − Yˆ )
i i
2

= i =1

n − p −1 n − p −1

A NOTER :

• (X' X) est appelée la matrice d'information


• (X' X)−1 est appelée la matrice de dispersion.

Il est important de remarquer que Y n'intervient pas dans la qualité des estimations
contrairement à la matrice d'expériences X.

Vérification des hypothèses

La validité de la plupart des résultats que nous exposons dépend directement des
hypothèses énoncées auparavant. Il est donc primordial, avant le choix d'un modèle, de
réfléchir à chacune des hypothèses et d'utiliser, après l'estimation des paramètres du
modèle, des méthodes adéquates pour les valider. Ces méthodes étant les mêmes que pour
la régression simple, nous ne les détaillons pas dans cette fiche et vous invitons à lire les
fiches suivantes :

• "RESIDUS ET INFLUENCES"
• "NORMALITE DES RESIDUS"
• "HOMOSCEDASTICITE ou égalité des variances"
• "CORRELATION DES TERMES D'ERREUR"

Une seule hypothèse est spécifique à la régression multiple : les variables X1, X2 ,.....Xp
doivent être linéairement indépendantes (la matrice d'information doit être inversible).
Les problèmes de multicollinéarité entre les variables peuvent être détectés par l'analyse de
la matrice d'expérience et de la matrice de corrélation, mais aussi par le facteur d'inflation de
la variance (VIF).

Le VIF est défini par :

DRT/SID/Statistiques CBM Régression linéaire


71 Régression linéaire

1
VIF( Xk ) =
1 − Rk2

où Rk2 est le coefficient de détermination obtenue par la régression de Xk en fonction des (p-
1) autres variables. On considère que si Max( VIF( X1 ), VIF( X2 ),.......VIF( Xp )) >10, il y a un
problème de multicollinéarité qui va réduire la qualité des estimations.

LES RESIDUS ET INFLUENCES

On procède de la même manière qu'en régression linéaire simple pour faire l'analyse des
résidus, des valeurs atypiques et des points influents.

Voici un tableau récapitulatif des critères à étudier dans le cadre de la régression multiple :

Seuil critique à partir


Critères de détection
Formule duquel l’observation est
de valeurs atypiques
considérée suspecte

⎪Résidu studentisé ⎪ ei
es( i ) = >2
ou ⎪Rstudent⎪ s( i ) 1 − hii

2( p + 1)
⎪Levier⎪ hii = ( X ( X ' X )−1 X ' )ii >
n

ri 2hii 4
⎪Distance de Cook⎪ Di = >
( p + 1)(1 − hii ) (n − p − 1)

Yˆi − Yˆ( i ) ( p + 1)
⎪DFITS⎪ DFITSi = >2
s( i ) hii n

b j − b j (i ) 2
⎪DFBETAS⎪ dfbetas i, j = >
−1
s (i ) ( X ' X ) jj n

>1 augmente la qualité de


s det( X ' X )
2 −1 l’estimation
(i ) (i )
⎪COVRATIO⎪ Covratio i = −1
s det( X ' X )
2
(i ) <1 diminue la qualité de
l’estimation

LES PREDICTIONS

DRT/SID/Statistiques CBM Régression linéaire


72 Régression linéaire

On souhaite prédire la valeur de Y d'une nouvelle observation pour laquelle


X1 = X1k , X2 = Xk2 ,...........Xp = Xkp . On note cette observation sous forme matricielle
(
Xk = 1 X1k Xk2 )
Xkp où Xk est une matrice (1,(p+1))Il faut alors distinguer deux sortes
de prédictions :

1. Ŷk la prédiction sur la moyenne de Y pour la nouvelle observation Xk . C'est l’estimateur


de la valeur moyenne prise par la variable Y quand. X1 = X1k , X2 = Xk2 ,...........Xp = Xkp .
ˆ
2. Yˆk la prédiction sur une nouvelle valeur de Y pour la nouvelle observation Xk (résultat
d’un nouvel essai au point Xk = X1k ( Xk2 )
Xkp ). C'est l’estimateur de la valeur que
prendra la variable Y quand X1 = X1k , X2 = Xk2 ,...........Xp = Xkp .

ˆ
Les estimateurs Ŷk et Yˆk sont égaux, mais ils n’estiment pas la même chose et n’ont
d’ailleurs pas la même variance (c’est pourquoi il est important de bien différencier les deux).

ESTIMATEUR VARIANCE DE L'ESTIMATEUR

Y/X k Yˆk = b0 + b1 X1k + .... + bp X pk


1 + ( X k )(X' X)−1(X k )'
( = β 0 + β1 X1k + ...... + β p X pk ) =XB k

E (Y/X k ) Yˆk = b0 + b1 X1k + .... + bp X pk


( X k )(X' X) −1 (X k )'
(= β 0 + β1X1k + ...... + βp Xkp + ε k ) =XB k

A NOTER : l'annexe A est valable pour la régression multiple, elle introduit la "hat matrice" H
qui est utile pour écrire le modèle prédictif sous forme matricielle. En effet, on a :

Yˆ = XB
= (X)(X' X) −1 (X' Y)
= HY

Où X’ est la transposée de X et H est la «matrice chapeau » ( « hat matrice »).

Qualité de l'ajustement

DRT/SID/Statistiques CBM Régression linéaire


73 Régression linéaire

Formule de décomposition, coefficient de détermination

La formule de décomposition présentée en régression simple reste vraie en régression


multiple :

SCTotal = SC Régression + SC Résiduel

ou

n n n
∑ (Yi − Y ) = ∑ (Yˆi − Yi ) + ∑ (Yi − Yˆi )
2 2 2
i =1 i =1 i =1

(Voir fiche "QUALITE D'AJUSTEMENT")

De même, la formule donnant le coefficient de détermination R 2 reste la même :

SCRégression ∑ (Y i − Yˆ )2i
R2 = = 1− i =1
n
SCTotal
∑ (Y
i =1
i − Y )2

Cependant, le coefficient de détermination pose un problème : il a la propriété d'être


croissant en fonction du nombre de variables. Si on a un grand nombre de variables, il aura
donc tendance à se rapprocher de 1 sans pour autant que le modèle soit bon. De plus si on
veut comparer deux modélisations pour un même phénomène, il faudra que les deux
modèles ait le même nombre de variables sinon leur R 2 ne seront pas comparables.

C'est pour remédier à ce problème que le R 2 ajusté a été introduit. C'est un coefficient de
détermination qui introduit une pénalisation liée au nombre de variables. Sa formule est :

(Yi − Yˆi )2
n

∑ n - p -1
R 2ajusté = 1 − i =n1
(Yi − Y )2
∑i =1 n −1

Pour résumer, le R 2 ajusté autorise la comparaison de plusieurs équations de régression


multiple comportant la même variable dépendante mais dont les équations diffèrent par le
nombre de variables explicatives p.
C'est un critère d'une grande utilité pour la recherche du modèle optimal.

Les tests d'hypothèses

DRT/SID/Statistiques CBM Régression linéaire


74 Régression linéaire

Le test de FISHER-SNEDECOR

Ce test mesure l’apport global des variables explicatives sur la détermination de Y. Il teste
si la liaison globale entre Y et X1, X2 ,.....Xp est significative. L’hypothèse testée est donc :

• H0 : β1 = β 2 = ..... = βp = 0
contre
• H1 : il existe au moins un β j ≠ 0

On appelle F la statistique de test de Fisher-Snedecor, elle est donnée pour la régression


multiple dans le tableau récapitulatif suivant :

Source de Degré de Somme des carrés (des


Variance F
variation liberté écarts)

SC Régression
Régression p SC régression
p

SC Résiduel SC Régression
Résiduel n-p-1 SC Résiduel F =
n − p −1 SC Résiduel

Total n-1 SCTotal

La table du test de Fisher-Snedecor fournit une valeur F1−α (ν1,ν 2 ) en fonction du nombre de
degrés de liberté du numérateur ν1 (dans le cas de la régression multiple, ν1 =p), du nombre
de degrés de liberté du dénominateur ν 2 (dans le cas de la régression simple, ν 2 =n-p-1) et
de la valeur du risque α.
Après avoir fixé la valeur du risque α , on conclut au rejet ou non-rejet de la significativité du
modèle de la façon suivante :

DRT/SID/Statistiques CBM Régression linéaire


75 Régression linéaire

1. Si la statistique F du test (calculée avec les données) est inférieure ou égale à F1−α (ν1,ν 2 )
l'hypothèse H0 est acceptée, c’est à dire que le modèle n’est pas significatif.

2. Si la statistique F du test est supérieure à F1−α (ν1,ν 2 ) l'hypothèse H0 est rejetée, c’est à
dire que le modèle est significatif.

TABLE DE FISHER-SNEDECOR

Si on rejette H0, c'est qu'un ou plusieurs des coefficients sont significatifs. Il faut donc
chercher quels sont ces coefficients à l'aide du test de Student sur chacun des coefficients.

Le test de STUDENT

On effectue aussi en régression linéaire multiple le test de Student qui va tester si chacun
des coefficients estimés de la régression est significativement différent de zéro. La manière
de procéder est la même qu'en régression simple, il faut donc se reporter à la fiche
"QUALITE D'AJUSTEMENT" du modèle linéaire simple.

Le test de FISHER-SNEDECOR partiel

DRT/SID/Statistiques CBM Régression linéaire


76 Régression linéaire

Le test de Fisher-Snedecor teste la signification de la régression dans sa globalité (il teste la


nullité de tous les coefficients en même temps). Il ne permet donc pas de préjuger la
signification particulière des coefficients pris isolément. C'est ce que fait le test de Student
qui teste un à un la signification des coefficients.
Il arrive parfois qu'on veuille évaluer l'apport d'un groupe de variables. Par exemple, si on
a le modèle de régression multiple suivant :

Y = β 0 + β1X1 + β 2 X12 + β 3 X2 + β 4 X22 + β 5 X32

et que l'on souhaite tester si globalement le degré 2 est significatif dans la régression, ni le
test de Fisher, ni celui de Student ne pourront être utilisés. On utilisera alors le test de Fisher
partiel (F-partiel). Il teste l'hypothèse :

H0 : β 2 = β 4 = 0 contre H1 : β 2 ≠ 0 ou β 4 ≠ 0

Nous n'allons pas détailler ce test mais vous pouvez avoir plus de renseignements au
service statistique.

DRT/SID/Statistiques CBM Régression linéaire


77 Régression linéaire

OUTILS
INFORMATIQUES

DRT/SID/Statistiques CBM Régression linéaire


78 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


79 Régression linéaire

LES OUTILS D'EXCEL POUR LA REGRESSION

1-DROITEREG (fonction d'Excel)

DANS LE MENU "INSERTION" Sélectionner ⇒ Fonction : DROITEREG

Fonction EXCEL : DROITEREG


Calcule les statistiques pour une régression par la méthode des moindres carrés.
pour afficher les statistiques
associées.

Formulation : Droitereg(Y;X;VRAI;VRAI)
pour estimer la constante
dans le modèle

Procédure: 1-Choisir la plage de sortie des résultats de la fonction (5lignes et 2 colonnes)


Fixer celle-ci en choisissant liste de choix (bouton droit de la souris)
Taper la fonction droitreg (X;Y;Vrai;vrai) et validez par CTRL+MAJ+ENTREE

pente constante
N° (mm) (mm) Ecart-type
Ecart-type sur la
constante
1 0 0.000 100 000 sur la pente

2 1.255 0.000 055 000


3 2.51 0.000 005 000 -3.4258E-05 8.779E-05
Coefficient de Ecart-type résiduel
4 3.765 -0.000 025 000 détermination R² 1.1808E-06 1.732E-05
5 5.02 -0.000 110 000 0.97792503 4.112E-05
6 6.275 -0.000 090 000 841.703404 19
7 7.53 -0.000 140 000 Statistique F 1.4233E-06 3.213E-08 Degrés de liberté
8 8.785 -0.000 145 000
9 10.04 -0.000 295 000
10 11.295 -0.000 300 000 La somme de La somme résiduelle
régression des carrés des carrés
11 12.55 -0.000 400 000
12 13.805 -0.000 400 000
13 15.06 -0.000 500 000
14 16.315 -0.000 490 000
15 17.57 -0.000 570 000
16 18.825 -0.000 580 000
17 20.08 -0.000 605 000
18 21.335 -0.000 605 000
19 22.59 -0.000 710 000
20 23.845 -0.000 655 000
21 25.1 -0.000 725 000

Voir Annexe C pour plus de détails

DRT/SID/Statistiques CBM Régression linéaire


80 Régression linéaire

2- REGRESSION LINEAIRE (Utilitaire d'analyse d'Excel)

1 DANS LE MENU "OUTILS" CHOISIR ⇒"UTILITAIRE D'ANALYSE "

Procédure :

1- Si cette rubrique n'existe pas, l'installation s'effectue à partir de la rubrique "MACROS


COMPLEMENTAIRE" du menu "OUTILS". Cochez les cas Utilitaire d'analyse et utilitaire
d'analyse-VBA. Lancez l'installation en fermant par OK. La rubrique "UTILITAIRE" apparaît
alors dans le menu "OUTILS".

2-Choisir REGRESSION LINEAIRE de la rubrique "Utilitaire d'analyse"

DRT/SID/Statistiques CBM Régression linéaire


81 Régression linéaire

Suivre les indications du menu affiché :


Entrer la matrice des X et la matrice des Y
Cocher les informations utiles :
-Courbes de régression
-Résidus

En validant par OK, vous obtiendrez les informations suivantes : [Link]

DRT/SID/Statistiques CBM Régression linéaire


82 Régression linéaire

∑ (yˆ )2
Statistiques de la régression
− y
r =
i
Coefficient de détermination multiple (1)
(Coefficient de corrélation) (1)
0.999947455
∑ (y i − y )2
Coefficient de détermination R^2 (2) & (3)
∑ (yˆ − y) ∑ (y − yˆ i )
0.999894913 2 2

R =
2 2
= 1−
i i
Coefficient de détermination R^2 (2 ) R (3 )
∑ (y − y) ∑ (y − y)
0.999868641 2 2
(Coefficient ajusté) (4) i i

Erreur-type
∑ (y − yˆ )
0.214419322 2
N −2
R 2 ajusté = 1 −
i i
(4)
∑ (y − y )
2
Observations (nbre de réalisations) 6
i
N − p−1 Test de significativité de chaque
ANALYSE DE VARIANCE coefficient dans la régression linéaire
Degré de Somme des Moyenne Valeur par le test de student.
liberté carrés des carrés F critique de F Si probabilité (P-Value) est supérieure à
Régression 1 1749.8161 1749.8161 38059.6306 4.1414E-09 0,05 --> le coefficient n'est pas
Résidus 4 0.18390258 0.04597565 significatif dans le modèle.
Total 5 1750
TEST GLOBAL(test de Fisher) : Ecart-type
Il permet de vérifier si il existe une résiduel Ecart-type de b0
Limite Limite Limite Limite
relation linéaire entre X et Y inférieure supérieure inférieure supérieure
Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de pour seuil de pour seuil de
confiance = confiance = confiance = confiance =
95% 95% 95.0% 95.0%
Constante -0.15689887 0.15585563 -1.00669364 0.37103683 -0.58962435 0.27582662 -0.58962435 0.27582662
Variable X 1 0.000390266 2.0005E-06 195.088776 4.1414E-09 0.00038471 0.00039582 0.00038471 0.00039582

ANALYSE DES RÉSIDUS


Ecart-type de b1
Intervalle de confiance de
b0 Prévisions Résidus b0 et b1 (affiché 2 fois)
Observation pour Y Résidus normalisés
b1 1 0.164680666 -0.16468067 -0.85868466 si F > valeur critique :
Ecart entre la valeur
2 10.01578572 -0.01578572 -0.08231056 il existe une relation statistiquement
expériementale et la
3 19.79898442 0.20101558 1.04814364 significative entre X et Y (la régression
4 29.97596194 0.02403806 0.12534023 est significative)
valeur modélisée Voir la fiche sur les
5 39.78296689 0.21703311 1.1316629
6 résidus
50.26162036 -0.26162036 -1.36415155

DRT/SID/Statistiques CBM Régression linéaire


83 Régression linéaire

LA REGRESSION PAR LA METHODE DE FORSYTHE :

DOCUMENT 1 : [Link]

Ce document décrit le principe de la régression polynomiale selon la méthode de


FORSYTHE.

DOCUMENT 2 : FORSYTHE_LNE.XLS

1- L’onglet « calculs » correspond à la feuille de base, avec les données à rentrer, les
calculs, les graphes et les résultats.

2- L’onglet « résultats » donne juste un tableau avec les coefficients et leurs incertitudes,
l'écart-type résiduel et la matrice de variance-covariance des coefficients.

3- L’onglet « résidus » contient une macro. Il permet de visualiser l’allure des résidus simple
de la régression de Y sur les polynômes orthogonaux. (appuyer sur le bouton commande
après avoir rentrer les données et le degré dans la feuille « calculs » pour avoir le graphe
des résidus actualisé).

4- L’onglet « graphes » donne le graphe de la modélisation, ainsi que le graphe de


l'incertitude due à la modélisation.

DRT/SID/Statistiques CBM Régression linéaire


84 Régression linéaire

Régression polynomiale - Polynômes orthogonaux - Méthode de


Forsythe

1 MODELE SIMPLE

1.1 MODELE :

Le modèle théorique de départ est le suivant :


k
Y = ∑γ j X j + ε n données X i ,Yi( )
j =0

Ce n’est pas ce modèle sur lequel on travaille.

1.2 POLYNOMES ORTHOGONAUX :

Pour un tel modèle, l’utilisation de polynômes orthogonaux permet de minimiser les calculs
et temps de calcul.

Lorsque les observations X i sont régulièrement espacées (ce qui est fréquent dans les
séries chronologiques par exemple), il existe des tables de polynômes orthogonaux.

Lorsque le pas entre les observations X i n’est pas régulier, alors il faut construire les
polynômes orthogonaux. La méthode de Forsythe est un moyen de générer une famille de
tels polynômes (cf 1.3).

Principe de l’utilisation des polynômes orthogonaux :

Il s’agit de construire une famille de polynômes Pj tels que :

• degré ( Pj )=j
n
• ∀ (q,l) / q≠l, ∑P q (X i ) Pl (X i ) = 0
i =1

Ensuite, on travaille sur le modèle Y = ∑ ϕ i Pi ( X ) + η qui s’écrit, sous forme matricielle


i =0

Y = XΦ + E avec Var ( E ) = σ 2 I

⎡ P0 (X 1 ) P1 (X 1 ) . . . Pk (X 1 ) ⎤
⎢ ⎥
P0 (X 2 ) P1 (X 2 ) . . . Pk (X 2 )
avec X = ⎢ ⎥
⎢ ⎥
⎢ P (X ) Pk (X n )⎥⎦
⎣ 0 n P1 (X n ) . . .

1
( X ′X ) −1 est alors une matrice diagonale de terme A jj = n
∑ (P (X
i =1
j i )) 2

DRT/SID/Statistiques CBM Régression linéaire


85 Régression linéaire

On obtient rapidement les estimations des coefficients de la régression de Y sur les Pi ( X ) et


de leur variance :

k
Y = ∑ ϕ i Pi ( X )
i =0

∑Y P ( X
i j i )
σ2
ϕj = i =1
n V (ϕ j ) = n cov( ϕ q , ϕ p ) = 0 si p ≠ q
∑ (P ( X j i )) 2
∑ (P ( X j i )) 2

i =1 i =1

1.3 CONSTRUCTION DES POLYNOMES ORTHOGONAUX PAR LA METHODE DE FORSYTHE :

Dans la méthode de Forsythe, les polynômes vérifient le système d’équations suivant :

⎧ • P0 ( X ) = 1

⎪ • P1( X ) = ( X − α 1 )P0 ( X )
⎪⎪
Système {SX} ⎨ • P2 ( X ) = ( X − α 2 )P1 ( X ) − β 2 P0 ( X )

⎪ • ...

⎪⎩ • Pk ( X ) = ( X − α k )Pk −1 ( X ) − β k Pk − 2 ( X )

avec

( ) ∑( P ( X ) )
n n

∑ X i Pj −1( X i )
2 2
j −1 i
α0 = β 0 = β1 = 0 ; αj = i =1
; βj = i =1

∑( P ( X ) ) ∑( P ( X ) )
n 2 n 2
j −1 i j −2 i
i =1 i =1

DRT/SID/Statistiques CBM Régression linéaire


86 Régression linéaire

1.4 EXPRESSION DES POLYNOMES DE FORSYTHE COMME FONCTION DIRECTE DES PUISSANCES
DE X

k
On a Y = ∑ ϕ i Pi ( X ) .
i =0
k
Or on cherche les coefficients du modèle Y = ∑ γ j X j + ε .
j =0

Il faut donc écrire les polynômes Pi ( X ) en fonction linéaire des puissances de X pour
déterminer les estimateurs des coefficients γ j .

i
Recherche les coefficients λ i , j tels que Pi ( X ) = ∑ λ i , j X j :
j =0

• P0 ( X ) = 1 ⇒ λ 0,0 = 1

• P1 ( X ) = ( X − α 1 )P0 ( X ) ⇒ λ 1,0 = −α 1 λ 1,1= 1

⎧λ = α α − β
⎪ 2,0 1 2 2

( )
• P2 ( X ) = ( X − α 2 )P1( X ) − β 2P0 ( X ) = X − α 1 + α 2 X + α 1α 2 − β 2 ⇒ ⎨ λ 2,1= α 1 + α 2
2


⎩ λ 2,2 = 1

On peut montrer par récurrence que les coefficients λ i , j vérifient le système d’équations
suivant :

⎧ λ = 1 λ = −α λ 1,1= 1
⎪ 0,0 1,0 1

⎪ λ i ,0 = −α i λ i −1,0 − β i λ i − 2,0

⎨ λ i , j = λ i −1, j −1− α i λ i −1, j − β i λ i − 2, j 1≤ j ≤ i − 2

⎪ λ i ,i −1= λ i −1,i − 2 − α i
⎪λ = 1
⎩ i ,i

DRT/SID/Statistiques CBM Régression linéaire


87 Régression linéaire

1.5 DETERMINATION DES γ i = Ci ET DE LEUR MATRICE DE VARIANCE-COVARIANCE

k
Rappel : on cherche les coefficients γ i = Ci du modèle Y = ∑ γ j X j + ε
j =0

⎡ i
k ⎤ k ⎡ k ⎤
Cf 1.2 et 1.4 Y = ∑ ϕ i ⎢ ∑ λ i , j X j ⎥ = ∑⎢ ∑ ϕ i λ i , j ⎥X j
i =0 ⎣ j =0 ⎦ i =0 ⎣ i = j ⎦

k
⇒ C j = ∑ϕi λ i , j
i= j

k k
⇒ Var (C j ) = ∑ λ i , j 2 Var (ϕ i ) et Cov (C j ,Cq ) = ∑ λ i , j λ i ,qVar (ϕ i ) pour j ≺q ≤k
i= j i =q

2 POLYNOMES ORTHOGONAUX ET METHODE DE FORSYTHE AVEC


TRANSFORMATION DES DONNEES INITIALES

Transformation des données

La transformation suivante permet de travailler sur des données U k dont les valeurs sont
comprises entre -2 et 2, ce qui améliore la précision des calculs numériques.

⎧M = Max { X }
⎪⎪ k
Xk − m
U k = −2 + 4 ⎨m = min{ X k }
M−m ⎪
⎪⎩k ∈ [1, n]

M −m M +m
Notons H = et L = .
4 4

2.1 MODELE :
k
Y = ∑γ j X j + ε (
n données X i ,Yi )
j =0

DRT/SID/Statistiques CBM Régression linéaire


88 Régression linéaire

2.2 POLYNOMES ORTHOGONAUX


k
On travaille sur le modèle Y = ∑ φ i Qi (U ) + η ′ qui s’écrit, sous forme matricielle Y = ZΨ + G
i =0

⎡Q0 (U1 ) Q1(U1 ). . . Qk (U1 ) ⎤


⎢ ⎥
⎢Q0 (U 2 ) Q1(U 2 ). . . Qk (U 2 ) ⎥
avec Z =
⎢ ⎥
⎢ ⎥
⎣Q0 (U n ) Q1(U n ). . . Qk (U n ) ⎦

1
( Z ′Z ) −1 est une matrice diagonale de terme Ajj = n

∑ (Q (U ))j i
2

i =1
On obtient
k
Y = ∑ φ i Qi (U )
i =0

∑Y Q (U )
i j i
σ2
φj = i =1
n V (φ j ) = n cov(φ q , φ p ) = 0 si p ≠ q
∑ (Q j (Ui ))2 ∑ (Q j (Ui ))2
i =1 i =1

2.3 CONSTRUCTION DES POLYNOMES ORTHOGONAUX PAR LA METHODE DE FORSYTHE :

• Q0 (U ) = 1


⎪ • Q1(U ) = (U − α 1′ )Q0 (U )
Système { SU} ⎪⎪
⎨ • Q2 (U ) = (U − α 2′ )Q1(U ) − β 2′Q0 (U )

⎪ • ...

⎪⎩
• Qk (U ) = (U − α k ′ )Qk −1(U ) − β k ′Qk − 2 (U )

avec

∑U ( Q ( U ) ) ∑( Q (U ) )
n 2 n 2
i j −1 i j −1 i
α 0 ′ = β 0 ′ = β 1′ = 0 ; α j′ = i =1
; β j′ = i =1

∑( Q (U ) ) ∑( Q (U ) )
n 2 n 2
j −1 i j −2 i
i =1 i =1

2.4 EXPRESSION DES POLYNOMES DE FORSYTHE COMME FONCTION DE X

Les polynômes Pi ( X ) = H iQi (U ) sont orthogonaux et générés par la méthode de Forsythe


avec α = α ′H + 2L , β = β ′H 2 .
j j j j

DRT/SID/Statistiques CBM Régression linéaire


89 Régression linéaire

2.5 EXPRESSION DES Pi COMME FONCTION LINEAIRE DES PUISSANCES DE X

Après avoir défini les polynômes Pi comme des polynômes générés par les équations de
Forsythe, on peut reprendre les résultats obtenus en 1.4 , en tenant compte de la nouvelle
définition des α j et β j .
⎧μ =1 μ1,0 = −α 1 μ1,1 = 1
⎪ 0,0
⎪ μ i ,0 = −α i μ i −1,0 − β i μ i − 2,0
i

Pi ( X ) = ∑ μ i , j X avec ⎨ μ i , j = μ i −1, j −1 − α i μ i −1, j − β i μ i − 2, j
j
1≤ j ≤ i − 2
j =0 ⎪
⎪ μ i ,i −1 = μ i −1,i − 2 − α i
⎪μ =1
⎩ i ,i

et α j = α j ′H + 2L , β = β j ′H 2

2.6 COMPARAISON AVEC LES RESULTATS DU PARAGRAPHE §I

k
rappel (cf §1) : Y = ∑ ϕ i Pi ( X ) + η
i =0 (a)
k
Y = ∑ ϕ i Pi ( X )
i =0

k
cf §2.2 et §4 : Y = ∑ φ i Qi (U ) + η ′ (b)
i =0
k k
Y = ∑ φ iQi (U ) = ∑ φ i ( H − i Pi ( X ) )
i =0 i =0

⎧Qi ( U ) = H − i Pi ( X )

⎪ϕ i = H − i φ i
On a les égalités suivantes : ⎨
⎪η = η ′
⎪λ = μ
⎩ i, j i, j

En fait, il suffit d’introduire le produit H i H − i dans le modèle simple (a), pour obtenir le modèle
(b) :

k k k k
Y = ∑ ϕ i Pi ( X ) = ∑ ϕ i ( H i H − i ) Pi ( X ) = ∑ ( ϕ i H i )( H − i Pi ( X )) = ∑ φ iQi ( U )
i =0 i =0 i =0 i =0

2.7 DETERMINATION DES γ i = Ci ET DE LEUR MATRICE DE VARIANCE-COVARIANCE

On remplace ϕ i par H − i φ i et λ i , j par μi , j dans l’expression des coefficients Ci dans 1.5

DRT/SID/Statistiques CBM Régression linéaire


90 Régression linéaire

k
⇒ C j = ∑ φ i H − i μ i, j
i=j

k μi, j 2 k μ i , j μ i ,q
⇒ Var (C j ) = ∑ 2i
Var (φ i ) et Cov (C j ,Cq ) = ∑ Var ( φ i ) pour j ≺q ≤ k
i= j H i =q H 2i

3 POLYNOMES ORTHOGONAUX ET METHODE DE FORSYTHE AVEC


TRANSFORMATION DES DONNEES INITIALES ET PONDERATION

3.1 REGRESSION PONDEREE - HETEROSCEDASTICITE - RAPPELS :

Ecriture matricielle Y = Xβ + ε
(
n données X i ,Yi )
Hyp : on a des informations sur les variances des Yi (ou des εi).

Par exemple, on connait V telle que matrice de variance-covariance de ε = Vσ 2 .

V = P' P = P 2

V −1 = ( P −1 ) 2 = W = {diag (w i ); i ∈ [1, n] } matrice des poids

Nous pouvons appliquer la théorie des mco sur le modèle P −1Y = P −1 Xβ + P −1ε

L’estimation des moindres carrés de β est donnée par b = ( X 'V −1 X ) −1 X 'V −1Y .
L’estimation de la variance de β est Var ( b ) = ( X 'V −1X ) −1σ 2

Enfin, les résidus du modèle P −1Y = P −1 Xβ + P −1ε sont f = P −1ε = P −1(Y − Y )


Leur variance est Var (P −1ε ) = σ 2 I

3.2 POLYNOMES ORTHOGONAUX

Le fait de pondérer les observations va entraîner des modifications dans les estimateurs des
coefficients de régression de Y sur les polynômes orthogonaux, ainsi que dans la définition
des polynômes orthogonaux.
k
On travaille sur le modèle Y = ∑ φ i Qi (U ) + ε ' qui s’écrit, sous forme matricielle Y = ZΨ + G
i =0
(cf. §2.2)

Si W est la matrice des poids définie en (3.1)

DRT/SID/Statistiques CBM Régression linéaire


91 Régression linéaire

On obtient

∑ w Y Q (U )
i i j i
σ2
φj = i =1
n V (φ j ) = n cov(φ q , φ p ) = 0 si p ≠ q
∑ w (Q (U ))
i j i
2
∑ w (Q (U )) i j i
2

i =1 i =1

3.3 CONSTRUCTION DES POLYNOMES ORTHOGONAUX PAR LA METHODE DE FORSYTHE :

On reprend le système {SU} (cf 2.3) avec

∑w U (Q (U ) ) ∑ w (Q (U ) )
n 2 n 2
i i j −1 i i j −1 i
α 0 ′ = β 0′ = β 1′ = 0 ; α j′ = i =1
; β j′ = i =1

∑ w (Q (U ) ) ∑w (Q (U ) )
n 2 n 2
i j −1 i i j −2 i
i =1 i =1

Les étapes 4, 5 et 6 sont les mêmes que dans le paragraphe 2, à la différence de définition
des α j ′ et β j ′ près.

k
⇒ Cj = ∑φ H i
−i
μi , j
i= j

DRT/SID/Statistiques CBM Régression linéaire


92 Régression linéaire

A B C D E AN AO AQ AR AS AU AV AW AX AY AZ BA BB

X Y ET Poids Forsythe => degré 1 Les coefficients


1 bi s(bi) b0 b1 Tableau
b2 contenant
b3 b4 la
b5 matrice
b6
du modèle
Degré proposé = 1 de variance-covariance des
2 824
Pondération 0 la
de -0.1568989 0.155855626 b0 0.024291 -3E-07
coefficients de la régression
3
régression
26066
à partir
10
de Degré choisi = 1 0.00039027 2.00046E-06 b1 -2.6E-07 4E-12Les écarts-types associés

RESULTATS
l'écart-type
s= 0.2144193 à chaque coefficient du
4 51134 20 - - b2
modèle
5 Pondération
77211 30 de la Si Xp= 824 - - b3 Cellule à remplir
régression à partir de Ecart-type résiduel en fonction des degrés
=> Yp= 0.16468067 - - b4 proposés en AO1 et AO2
6 poids40
102340

7 129190 50 Up = 2s(Yp) = 0.26786444 - Entrer une


- valeur b5
appartenant au
Résultat calculé à partir de domaine étudié
8 l'observation Xp et du modèle (avec U max = max 2s(Y) = 0.3126001 - - b6
degré choisi)
Coef et leur écart-type de
Maximum de l'incertitude élargie Incertitude élargie due au Matrice de variance-covariance des coefficients bi
9 la
due au modèle modèle associée à Yp
Données
10 régression de Y sur les

11 polynômes orthogonaux

12

13
Droite d'étalonnage et incertitude associée
14
Graphe de l'intervalle de confiance du modèle (2s(Y))
60
15
0.35
16 50
0.3

17 0.25
40
0.2
18 0.15
30
0.1
19
20 0.05
20 0
824

10
21
X
0
22
0 20000 40000 60000 80000 100000 120000 140000

23

DRT/SID/Statistiques CBM Régression linéaire


93 Régression linéaire

LA REGRESSION POLYNOMIALE PAR LA METHODE DE FORSYTHE

s =Ecart-type
bi s(bi) résiduel b0 b1 b2 b3 b4 b5 b6
RESULTATS

-0.15689887 0.15585563 b0 0.024290976 -2.58E-07


0.00039027 2.0005E-06 b1 -2.57961E-07 4.0018E-12
- - b2
- - 0.214419322 b3
- - b4
- - b5
- - b6
Coef et leur écart-type de Matrice de variance-covariance des coefficients bi
la régression de y sur les
polynômes orthogonaux

DRT/SID/Statistiques CBM Régression linéaire


94 Régression linéaire

Yajusté résidus 6 GRAPHIQUE DES RESIDUS


0.16 -0.16468067
10.0157857 -0.01578572
19.7989844 0.20101558
29.9759619 0.02403806 graphe des résidus de la régression de Y sur les
39.7829669 0.21703311 polynômes orthogonaux
50.2616204 -0.26162036
0.3
0.2
0.1
Estimation des
résidus simples 0
-0.1
-0.2
-0.3
0.00 20.00 40.00 60.00

DRT/SID/Statistiques CBM Régression linéaire


95 Régression linéaire

Droite d'étalonnage et incertitude associée

60

50

40

30

20

10

0
0 20000 40000 60000 80000 100000 120000 140000

Graphe de l'intervalle de confiance du modèle

0.4
0.3
0.2
0.1
0
824

DRT/SID/Statistiques CBM Régression linéaire


96 Régression linéaire

DRT/SID/Statistiques CBM Régression linéaire


97 Régression linéaire

CONCLUSION

Pour conclure, la régression est un outil très utilisé au LNE en particulier pour déterminer
les courbes d'étalonnages, elle permet non seulement d'ajuster une courbe aux données,
mais aussi de prédire de nouvelles valeurs et les incertitudes associées. Cependant, elle est
à utiliser avec précaution, car elle repose sur des hypothèses en partie probabilistes qui,
lorsqu'elles ne sont pas respectées conduisent à des résultats faux. Elle a de plus des
limites, informatiquement les temps de calcul peuvent être longs dans le cas par exemple
d'une régression polynomiale de degré élevé.

DRT/SID/Statistiques CBM Régression linéaire


- 98 -

DRT/SID/Statistiques CBM Régression linéaire


- 99 -

ANNEXES

DRT/SID/Statistiques CBM Régression linéaire


- 100 -

DRT/SID/Statistiques CBM Régression linéaire


- 101 -

REGRESSION LINEAIRE

ANNEXE A : LES LEVIERS

Définition des leviers ( hii )

Le calcul des résidus standardisés, press, studentisés (voir tableau « RESIDUS ») ainsi
que les critères d’influence nécessitent l’introduction de nouvelles notations dont les leviers
( hii ).

• Soient

⎛Y1 ⎞ ⎛ X1 ⎞
⎜ ⎟ ⎜ ⎟
⎜Y2 ⎟ ⎜ X2 ⎟
⎜. ⎟ ⎜. ⎟
Y=⎜ ⎟ X=⎜ ⎟
⎜. ⎟ ⎜. ⎟
⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜. ⎟
⎜Y ⎟ ⎜X ⎟
⎝ n⎠ ⎝ n⎠

un échantillon de taille n des variables Y et X .


Sous forme matricielle, le modèle de régression linéaire s’écrit :

Y = Xβ + ε

avec :

⎛Y1 ⎞ ⎛1 X1 ⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜Y 2 ⎟ ⎜1 X 2 ⎟ ⎜ε2 ⎟
⎜. ⎟ ⎜. . ⎟ β ⎜ ⎟
Y =⎜ ⎟ , X=⎜ ⎟ , β = ⎛⎜ 0 ⎞⎟ , ε = ⎜ . ⎟
⎜. ⎟ ⎜. . ⎟ ⎜β ⎟ ⎜. ⎟
⎝ 1⎠
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜. ⎟ ⎜. . ⎟ ⎜. ⎟
⎜Y ⎟ ⎜1 X ⎟ ⎜ε ⎟
⎝ n⎠ ⎝ n⎠ ⎝ n⎠

⎛ b0 ⎞
On peut alors écrire l’estimateur de β sous la forme B = (X' X)−1(X' Y) où B = ⎜⎜ ⎟⎟
⎝ b1 ⎠
Et on a alors l’estimation suivante pour Y :

Yˆ = XB
= (X)(X' X)−1(X' Y)
= HY

Où X’ est la transposée de X et H est la «matrice chapeau » ( « hat matrice »).

DRT/SID/Statistiques CBM Régression linéaire


- 102 -

On écrit H de la manière suivante :

⎛ h11 h12 ........ h1n ⎞


⎜ ⎟
⎜ h21 h22 ........ h2 n ⎟
H = X(X' X) X' = ⎜⎜ ..............................
−1 ⎟

⎜ ............................... ⎟
⎜⎜ ⎟⎟
⎝ hn1 hn 2 ......... hnn ⎠

1 ( X i − X )( X j − X )
Dans le cadre de la régression simple, on a : hij = + n
n 2
∑(X j − X )
i =1
2
1 (X − X)
donc en particulier pour i=j , on a : hii = + n i ∀i ∈ {1, n}
n 2
∑(X j − X )
i =1
Les valeurs hii sont appelées « leviers » ou en anglais « leverage ». Ce sont les éléments
diagonaux de la « hat matrice » et ils ont un rôle important dans le calcul des résidus et
dans la détection de valeurs influentes.

A noter :
2
• La moyenne des leviers vaut
n
• 0 ≤ hii ≤ 1 ∀i ∈ {1, n}

Remarques :

⎛ Yˆ0 ⎞ ⎛ h11 h12 hn1 ⎞⎛ Y1 ⎞


⎜ ⎟ ⎜ ⎟⎜ ⎟
⎜ Yˆ1 ⎟ ⎜ h21 ⎟⎜ Y2 ⎟
Yˆ = HY donc on a : ⎜ ⎟=⎜ ⎟⎜ ⎟ c’est à dire en développant,
⎜ ⎟ ⎜ ⎟⎜ ⎟
⎜Yˆ ⎟ ⎜ hn1 hnn ⎟⎠⎜⎝Yn ⎟⎠
⎝ n⎠ ⎝
∀i ∈ {1, n} Yˆi = hi1Y1 + hi 2Y2 + ....... + hiiYi + ........ + hinYn ∀i ∈ {1, n}
hii est donc le coefficient qui exprime l’importance de l’observation Yi pour l’estimation
Ŷi . Si hii est grand cela signifie donc que la ième observation Yi est influente (une faible
variation de Yi induit une modification importante de la régression.)

DRT/SID/Statistiques CBM Régression linéaire


- 103 -

REGRESSION LINEAIRE

ANNEXE B

DRT/SID/Statistiques CBM Régression linéaire


- 104 -

DRT/SID/Statistiques CBM Régression linéaire


- 105 -

DRT/SID/Statistiques CBM Régression linéaire


106 Régression linéaire

REGRESSION LINEAIRE

ANNEXE C : DROITEREG D’EXCEL

DRT/SID/Statistiques CBM Régression linéaire


- 107 -

DRT/SID/Statistiques CBM Régression linéaire


- 108 -

DRT/SID/Statistiques CBM Régression linéaire


- 111 -

DRT/SID/Statistiques CBM Régression linéaire


- 112 -

Un exemple utilisant la fonction droitereg et montrant les différentes possibilités de graphes à


associer, est traité sur le site suivant :

[Link]
ading129

DRT/SID/Statistiques CBM Régression linéaire


- 113 -

DRT/SID/Statistiques CBM Régression linéaire


- 114 -

REGRESSION LINEAIRE

ANNEXE D : REGRESSION POLYNOMIALE

LA REGRESSION POLYNOMIALE

Il semble important de faire une annexe sur la régression polynomiale, car c'est un type de
modèle très souvent utilisé lorsque la régression simple n'est pas appropriée. Nous ne
développons pas un chapitre à son sujet car elle n'est qu'un cas particulier de la régression
linéaire multiple. En effet, pour un modèle à une variable explicative X, le modèle polynomial
s'écrit :

Y = β 0 + β1X + β 2 X2 + .... + βp Xp + ε

où p est le degré du polynôme. On dit alors que le modèle est d'ordre p.


Ce qu'il y a d'intéressant avec la régression polynomiale, c'est que l'on trouve souvent dans
les logiciels de statistiques des algorithmes permettant de trouver le meilleur degré pour
modéliser notre phénomène. Un critère de choix est par exemple, le modèle qui donnera le
2
meilleur Rajusté .
La plupart du temps, les logiciels ne permettent pas d'utiliser des polynômes ayant un degré
supérieur à 7 ou 8, car la minimisation de la somme des moindres carrés conduit à un
système d'équations difficiles à résoudre. On peut alors pour remédier à ce problème utiliser
une approximation polynomiale par les polynômes de forsythe. (VOIR FEUILLE EXCEL
FORSYTHE)

DRT/SID/Statistiques CBM Régression linéaire


- 115 -

DRT/SID/Statistiques CBM Régression linéaire


116 Régression linéaire

REGRESSION LINEAIRE

ANNEXE E : EXEMPLE DE REGRESSION

EXEMPLE : impact d'une valeur atypique

Construction des données

Pour mettre en évidence l'influence d'une valeur atypique sur un ajustement par
régression linéaire, nous avons construit un échantillon. Nous l'avons choisi de taille 50, avec
une unique variable explicative X prenant pour valeurs les nombres entiers de 1 à 50 sans
répétition. Nous avons choisi Y la variable à expliquer telle que :

Y = 1 + 2 X + 0 .5 X 2 + ε

Y variable à ε bruit suivant une


expliquer X variable 1
loi normale N(0; )
explicative 2

Ainsi nous savons quelle équation nous devons retrouver en effectuant une régression
linéaire et nous pourrons facilement juger de la qualité des régressions. Par la suite, nous
changerons l'une des données obtenues par une valeur plus grande, et nous aurons ainsi
simulé un exemple de données avec une valeur atypique.

Analyse des résultats

Etape 1 (voir page 151)

Mettons nous dans le cas où nous ne connaissons pas la relation qui lie Y et X.
On effectue alors une régression linéaire simple. On s'aperçoit que le coefficient de
détermination R 2 est bon, alors que les graphes et les résultats indiquent clairement que
beaucoup des hypothèses ne sont pas vérifiées. L'allure des résidus montre de façon
évidente qu'on doit effectuer une régression polynomiale.

DRT/SID/Statistiques CBM Régression linéaire


- 117 -

Etape 2 (voir page 154)

On effectue une régression polynomiale de degré 2. On retrouve bien des


résultats proches de la réalité. Ainsi, nous savons que cette régression est la meilleure que
l'on puisse faire et nous pourrons nous en servir comme référence pour mettre en évidence
la mauvaise qualité du modèle simple ou du modèle degré deux avec valeur atypique..

Etape 3 (voir page 157)

On change une des données de façon à obtenir un échantillon avec une valeur
atypique pour la 5ème observation. Les graphes confirment bien la présence d'une valeur
atypique. On s'aperçoit alors que la présence de cette valeur modifie légèrement l'estimation
de L'écart-type résiduel (il est un peu moins proche de la vraie valeur) et l'incertitude sur les
prédictions.

Etape 4 (voir page 160)

On refait la même expérience que dans l'étape 4 mais en mettant cette fois ci
une valeur encore plus grande. On se rend alors vraiment compte qu'une valeur atypique
conduit à des résultats faux. L'estimation de L'écart-type résiduel devient alors 5 fois plus
grand que celui qui devrait être trouvé, les prédictions et leurs incertitudes deviennent donc
mauvaises. Il est toujours intéressant lorsqu'on détecte une ou plusieurs valeurs atypiques,
de faire une régression sans ces valeurs pour voir si elles changent de façon importante les
résultats.

DRT/SID/Statistiques CBM Régression linéaire


118 Régression linéaire

AJUSTEMENT PAR REGRESSION SIMPLE

O
Y ne X
s
[Link]
1 3.436624 1 1
2 7.360805 1 2
3 10.95506 1 3
4 16.69787 1 4
5 24.46581 1 5
6 30.93739 1 6
7 38.867 1 7
8 49.78399 1 8
9 59.36871 1 9
10 71.04491 1 10
11 84.02521 1 11
12 96.93948 1 12
13 111.1324 1 13
14 128.0678 1 14
15 143.509 1 15
16 161.7631 1 16
17 178.9092 1 17
18 198.6647 1 18
19 218.6694 1 19
20 241.5801 1 20
21 263.9548 1 21
22 287.821 1 22
23 311.4696 1 23
24 336.706 1 24
25 363.9353 1 25
26 391.2174 1 26
27 419.4449 1 27
28 448.7912 1 28
29 479.3748 1 29
30 510.6553 1 30
31 543.6711 1 31
32 576.4625 1 32
33 611.9016 1 33
34 646.6932 1 34
35 683.1719 1 35
36 720.8871 1 36
37 760.1786 1 37
38 798.3278 1 38
39 839.1883 1 39
40 881.5113 1 40
41 923.5883 1 41
42 966.3947 1 42
43 1011.538 1 43
44 1056.314 1 44
45 1103.717 1 45
46 1151.238 1 46
47 1199.29 1 47
48 1249.429 1 48
49 1298.461 1 49
50 1350.74 1 50

DRT/SID/Statistiques CBM Régression linéaire


- 119 -

A B C D E F G H I J K L
1 Multiple Regression Results régression simple
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X

5 b -219.84 27.4935
6 s(b) 27.2629 0.93047
7 t -8.0637 29.548
8 p-value 0.0000 0.0000
9
10 VIF #REF!
11
12 Table ANOVA
13 Source SS df MS F Fcritiqu p -value
14 Regn. 7870740 1 8E+06 873.08 4.04265 0.0000 s 94.947
15 Erreur 432714 48 9014.9
2 2 (ajusté)
16 Total 8303454 49 169458 R 0.9479 R 0.9468
17
18
19 Intervalles de prédiction (I.P)
20
21 X donné X
22 1 2 4
23
24 1-α (1-α) I.P de Y/X 1-α (1-α) I.P de E[Y | X]
25 95% -164.85 + ou - 197.75 95% -164.85 + ou - 51.592
26
27
28 Matrice de covariance des coefficients de la régression
29
30
31 b0 b1
32 b0 743.267 -22.077
33 b1 -22.077 0.86577
34
35
36
37
38
39
40
41
42
43
44 Tableau récapitulatif sur les incertitudes de prédiction
45
46
47 Estimateur incertitude élargie + ou - U (k=2)
48 prédiction sur un point (Y/X) -164.8525881 + ou - 196.7058246
49 prédiction sur la droite (E(Y/X)) -164.8525881 + ou - 51.31944249
50

DRT/SID/Statistiques CBM Régression linéaire


- 120 -

H I J K L M N O S T U X Y Z AA AB
1 régression simple
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 0.022677
5
6 Résidus simples Résidus normalisés
250 2.5
7
8 200 2
9
10 150 1.5

Résidus normalisés
Résidus simples

11
100 1
12
13 50 0.5
14
15 0 0
0 10 20 30 40 50 60
16 -50
0 10 20 30 40 50 60
-0.5
17
18 -100 -1
19
-150 -1.5
20
21
22
23
Droite de Henry Résidus standardisés
24 3 2.500
25
26 2.000
2
Corresponding Normal Z

27
28 1.500

Résidus standardisés
29 1
1.000
30
31 0
0.500
32 -400 -300 -200 -100 0 100 200 300 400
33 -1 0.000
34 0 10 20 30 40 50 60
35 -2
-0.500
36
37 -1.000
-3
38
-1.500
39 Résidus
40
41

Levier suspect pour une valeur supérieure à 0.08

LEVIERS
0.09000000

0.08000000

0.07000000

0.06000000
Leviers

0.05000000

0.04000000

0.03000000

0.02000000

0.01000000

0.00000000
0 10 20 30 40 50 60

Distance de Cook suspecte pour une valeur 0.08333333

DISTANCE DE COOK
0.25

0.2
Distance de COOK

0.15

0.1

0.05

0
0 10 20 30 40 50 60

DRT/SID/Statistiques CBM Régression linéaire


- 121 -

AJUSTEMENT PAR REGRESSION POLYNOMIALE DE DEGRE DEUX

O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 16.69787 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500

DRT/SID/Statistiques CBM Régression linéaire


- 122 -

A B C D E F G H I J K L
1 Multiple Regression Results Degré 2
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2

5 b 1.0437 2.00698 0.4997


6 s(b) 0.21602 0.01954 0.0004
7 t 4.83138 102.708 1345.4
8 p-value 0.0000 0.0000 0.0000
9
10 VIF 16.6310 16.6310
11
12 Table ANOVA
13 Source SS df MS F Fcritiqu p -value
14 Regn. 8303443 2 4E+06 2E+07 3.19505 0.0000 s 0.4889
15 Erreur 11.2361 47 0.2391
2 2 (ajusté)
16 Total 8303454 49 169458 R 1.0000 R 1
17
18
19 Intervalles de prédiction (I.P)
20
21 X donné X X2
22 1 2 4
23
24 1-α (1-α) I.P de Y/X 1-α (1-α) I.P de E[Y | X]
25 95% 7.0566 + ou - 1.0508 95% 7.0566 + ou - 0.3698
26
27
28 Matrice de covariance des coefficients de la régression
29
30
31 b0 b1 b2
32 b0 0.04667 -0.0037 6E-05
33 b1 -0.0037 0.00038 -7E-06
34 b2 6.1E-05 -7E-06 1E-07
35
36
37
38
39
40
41
42
43
44 Tableau récapitulatif sur les incertitudes de prédiction
45
46
47 Estimateur incertitude élargie + ou - U (k=2)
48 prédiction sur un point (Y/X) 7.056598959 + ou - 1.044709352
49 prédiction sur la droite (E(Y/X)) 7.056598959 + ou - 0.367632743
50

DRT/SID/Statistiques CBM Régression linéaire


- 123 -

H I J K L M N O S T U X Y Z AA AB
1 Degré 2
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.526986
5
6 Résidus simples Résidus normalisés
1.5 2.5
7
8 2
9 1
1.5
10

Résidus normalisés
1
Résidus simples

11 0.5
12 0.5
13 0 0
14 0 10 20 30 40 50 60 0 10 20 30 40 50 60
-0.5
15 -0.5
16 -1
17 -1.5
-1
18
-2
19
-1.5 -2.5
20
21
22
23
Droite de Henry Résidus standardisés
24 3 2.500
25
26 2.000
2
Corresponding Normal Z

27 1.500
28
Résidus standardisés
1 1.000
29
30 0.500
31 0
0.000
32 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0 10 20 30 40 50 60
33 -1 -0.500
34 -1.000
35 -2
-1.500
36
37 -2.000
-3
38
Résidus -2.500
39
40
41

Levier suspect pour une valeur supérieure à 0.12

LEVIERS
0.18000000

0.16000000

0.14000000

0.12000000
Leviers

0.10000000

0.08000000

0.06000000

0.04000000

0.02000000

0.00000000
0 10 20 30 40 50 60

Distance de Cook suspecte pour une valeur 0.08510638

DISTANCE DE COOK
0.18

0.16

0.14
Distance de COOK

0.12

0.1

0.08

0.06

0.04

0.02

0
0 10 20 30 40 50 60

DRT/SID/Statistiques CBM Régression linéaire


- 124 -

AJUSTEMENT PAR REGRESSION POLYNOMIALE DEGRE DEUX


données avec valeur atypique

O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 20 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500

DRT/SID/Statistiques CBM Régression linéaire


- 125 -

A B C D E F G H I J K L
1 Multiple Regression Results degré 2 avec valeur atypique
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2

5 b 1.49757 1.97547 0.5002


6 s(b) 0.27788 0.02514 0.0005
7 t 5.38932 78.5923 1046.9
8 p-value 0.0000 0.0000 0.0000
9
10 VIF 16.6310 16.6310
11
12 Table ANOVA
13 Source SS df MS F Fcritiqu p -value
14 Regn. 8300378 2 4E+06 1E+07 3.19505 0.0000 s 0.6289
15 Erreur 18.5916 47 0.3956
2 2 (ajusté)
16 Total 8300397 49 169396 R 1.0000 R 1
17
18
19 Intervalles de prédiction (I.P)
20
21 X donné X X2
22 1 2 4
23
24 1-α (1-α) I.P de Y/X 1-α (1-α) I.P de E[Y | X]
25 95% 7.4494 + ou - 1.3517 95% 7.4494 + ou - 0.4757
26
27
28 Matrice de covariance des coefficients de la régression
29
30
31 b0 b1 b2
32 b0 0.07722 -0.0061 0.0001
33 b1 -0.0061 0.00063 -1E-05
34 b2 0.0001 -1E-05 2E-07
35
36
37
38
39
40
41
42
43
44 Tableau récapitulatif sur les incertitudes de prédiction
45
46
47 Estimateur incertitude élargie + ou - U (k=2)
48 prédiction sur un point (Y/X) 7.449396559 + ou - 1.343834873
49 prédiction sur la droite (E(Y/X)) 7.449396559 + ou - 0.472894877
50

DRT/SID/Statistiques CBM Régression linéaire


- 126 -

H I J K L M N O S T U X Y Z AA AB
1 degré 2 avec valeur atypique
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.337217
5
6 Résidus simples Résidus normalisés
3 5
7
8 2.5
4
9
2
10

Résidus normalisés
3
Résidus simples

11 1.5
12 1 2
13
14 0.5
1
15 0
16 0 10 20 30 40 50 60 0
17 -0.5
0 10 20 30 40 50 60
18 -1 -1
19
-1.5 -2
20
21
22
23
Droite de Henry Résidus standardisés
24 3 5.000
25
26 4.000
2
Corresponding Normal Z

27
28

Résidus standardisés
3.000
29 1

30 2.000
31 0
32 -3 -2 -1 0 1 2 3
1.000
33 -1
34
0.000
35 -2 0 10 20 30 40 50 60
36
-1.000
37
-3
38
-2.000
39 Résidus
40
41

Levier suspect pour une valeur supérieure à 0.12

LEVIERS
0.18000000

0.16000000

0.14000000

0.12000000
Leviers

0.10000000

0.08000000

0.06000000

0.04000000

0.02000000

0.00000000
0 10 20 30 40 50 60

Distance de Cook suspecte pour une valeur 0.08510638

DISTANCE DE COOK
0.8

0.7

0.6
Distance de COOK

0.5

0.4

0.3

0.2

0.1

0
0 10 20 30 40 50 60

DRT/SID/Statistiques CBM Régression linéaire


- 127 -

AJUSTEMENT PAR REGRESSION POLYNOMIALE DEGRE DEUX


données avec grande valeur atypique

O
Y ne X X2
s
[Link]
1 3.436624 1 1 1
2 7.360805 1 2 4
3 10.95506 1 3 9
4 35 1 4 16
5 24.46581 1 5 25
6 30.93739 1 6 36
7 38.867 1 7 49
8 49.78399 1 8 64
9 59.36871 1 9 81
10 71.04491 1 10 100
11 84.02521 1 11 121
12 96.93948 1 12 144
13 111.1324 1 13 169
14 128.0678 1 14 196
15 143.509 1 15 225
16 161.7631 1 16 256
17 178.9092 1 17 289
18 198.6647 1 18 324
19 218.6694 1 19 361
20 241.5801 1 20 400
21 263.9548 1 21 441
22 287.821 1 22 484
23 311.4696 1 23 529
24 336.706 1 24 576
25 363.9353 1 25 625
26 391.2174 1 26 676
27 419.4449 1 27 729
28 448.7912 1 28 784
29 479.3748 1 29 841
30 510.6553 1 30 900
31 543.6711 1 31 961
32 576.4625 1 32 1024
33 611.9016 1 33 1089
34 646.6932 1 34 1156
35 683.1719 1 35 1225
36 720.8871 1 36 1296
37 760.1786 1 37 1369
38 798.3278 1 38 1444
39 839.1883 1 39 1521
40 881.5113 1 40 1600
41 923.5883 1 41 1681
42 966.3947 1 42 1764
43 1011.538 1 43 1849
44 1056.314 1 44 1936
45 1103.717 1 45 2025
46 1151.238 1 46 2116
47 1199.29 1 47 2209
48 1249.429 1 48 2304
49 1298.461 1 49 2401
50 1350.74 1 50 2500

DRT/SID/Statistiques CBM Régression linéaire


- 128 -

A B C D E F G H I J K L
1 Multiple Regression Results degré 2 avec grande valeur atypique
2
3 0 1 2 3 4 5 6 7 8 9 10
4 Intercept X X2

5 b 3.55931 1.83235 0.5024


6 s(b) 1.11369 0.10074 0.0019
7 t 3.19594 18.1889 262.36
8 p-value 0.0025 0.0000 0.0000
9
10 VIF 16.6310 16.6310
11
12 Table ANOVA
13 Source SS df MS F Fcritiqu p -value
14 Regn. 8286479 2 4E+06 652073 3.19505 0.0000 s 2.5207
15 Erreur 298.635 47 6.3539
2 2 (ajusté)
16 Total 8286778 49 169118 R 1.0000 R 1
17
18
19 Intervalles de prédiction (I.P)
20
21 X donné X X2
22 1 2 4
23
24 1-α (1-α) I.P de Y/X 1-α (1-α) I.P de E[Y | X]
25 95% 9.23369 + ou - 5.4175 95% 9.2337 + ou - 1.9064
26
27
28 Matrice de covariance des coefficients de la régression
29
30
31 b0 b1 b2
32 b0 1.24032 -0.0982 0.0016
33 b1 -0.0982 0.01015 -0.0002
34 b2 0.00162 -0.0002 4E-06
35
36
37
38
39
40
41
42
43
44 Tableau récapitulatif sur les incertitudes de prédiction
45
46
47 Estimateur incertitude élargie + ou - U (k=2)
48 prédiction sur un point (Y/X) 9.233688737 + ou - 5.385901272
49 prédiction sur la droite (E(Y/X)) 9.233688737 + ou - 1.895296194
50

DRT/SID/Statistiques CBM Régression linéaire


- 129 -

H I J K L M N O S T U X Y Z AA AB
1 degré 2 avec grande valeur atypiq
2 Choisir l'axe des abscisses pour les graphes des résidus
3 X
4 Durbin-Watson d = 2.214648
5
6 Résidus simples Résidus normalisés
20 7
7
8 6
9 15
10 5

Résidus normalisés
Résidus simples

11 4
12 10
3
13
14 5
2
15
1
16
17 0 0
18 0 10 20 30 40 50 60 0 10 20 30 40 50 60
-1
19
-5 -2
20
21
22
23
Droite de Henry Résidus standardisés
24 3 8.000
25
26 7.000
2
Corresponding Normal Z

27 6.000
28
Résidus standardisés
1 5.000
29
30 4.000
31 0
3.000
32 -10 -5 0 5 10 15 20
33 2.000
-1
34 1.000
35 -2
36 0.000
0 10 20 30 40 50 60
37 -1.000
-3
38
-2.000
39 Résidus
40
41

Levier suspect pour une valeur supérieure à 0.12

LEVIERS
0.18000000

0.16000000

0.14000000

0.12000000
Leviers

0.10000000

0.08000000

0.06000000

0.04000000

0.02000000

0.00000000
0 10 20 30 40 50 60

Distance de Cook suspecte pour une valeur 0.08510638

DISTANCE DE COOK
1.8

1.6

1.4
Distance de COOK

1.2

0.8

0.6

0.4

0.2

0
0 10 20 30 40 50 60

DRT/SID/Statistiques CBM Régression linéaire


130 Régression linéaire

BIBLIOGRAPHIE

[1] Besse P. Pratique de la modélisation stochastique. Available via


[Link]

[2] CERESTA (Centre d'Enseignement et de Recherche Statistique Appliquée), Aide-


mémoire pratique des techniques statistiques pour ingénieurs et techniciens
supérieurs. Revue de Statistique Appliquée, vol. XXXIV, numéro spécial, 1986.

[3] Cetama, Statistique appliquée à l'exploitation des mesures, Masson 2e édition, 1986.

[4] Confais, J. et M. Le Guen, La régression linéaire sous SAS, document de travail de la


Direction des Statistiques Démographiques et Sociales de l'INSEE n° F 9605, 3ème
édition en 2003.

[5] Dagnelie P. Théorie et méthodes statistiques (2e éd). Agronomiques Gembloux 1998.

[6] Dodge Y. Statistiques, dictionnaire encyclopédique. Dunod, 1993.

[7] Draper NR, Smith H. Applied Regression Analysis (3rd edition). New York: Wiley
1998.

[8] Gaudoin O. Principes et méthodes statistiques. Available via [Link]


[Link]/membres/[Link]/.

[9] Johnston J. Econometric Methods,. New York: McGraw Hill, 1971.

[10] Lebart L., Morineau A. and Fénelon J-P. Traitement des données statistiques :
méthodes et programmes. Paris : Dunod , 1984.

[11] Steppan D., Werner J. and Yeater R. Essential regression and experimental design for
chemists and engineers, 1998. Available via
[Link]

[12] Tenenhaus, M. Méthodes statistiques en gestion, Dunod Entreprise, 1994.

[13] Tomassone R., Lesquoy E., Millier R. La régression, nouveaux regards sur une
ancienne méthode statistique, Masson, Paris, 1983.

DRT/SID/Statistiques CBM Régression linéaire

Vous aimerez peut-être aussi