Cours Pr. B.
SALLEK
Exemple.
On considère une réaction chimique dont le rendement dépend de deux facteurs,
la température et la pression. Le technicien décide d'effectuer un plan
d'expérience avec le domaine expérimental suivant :
Niveau bas : -1 Niveau haut :+1
Température : T 60oC 80oC
Pression : P 1 bar 2 bars
La réponse Y étudiée, rendement de l'expérience, est donnée par le tableau suivant :
Exp Moy T P TP Y (%)
1 +1 -1 -1 +1 60
2 +1 +1 -1 -1 65
3 +1 -1 +1 -1 75
4 +1 +1 +1 +1 85
Effets a0 = 71,25 a1 = 3,75 a2 = 8,75 a12 = 1,25
le modèle s'écrit :
Y = 71,25 +B.3,75
Cours Pr. SALLEK T + 8,75 P + 1,25 TP 1
Notion de modèle et de régression linéaire multiple
Position du problème
La régression linéaire multiple est une méthode d'analyse de données quantitatives.
Elle a pour but de mettre en évidence la liaison pouvant exister entre une
variable dite expliquée, que l'on notera Y et plusieurs autres variables dites
explicatives que l'on notera X1, X2, ... , Xk.
Les k variables Xi, i = 1, ... , k peuvent être soit contrôlées c'est-à-dire
qu'elles sont connues sans erreur, soit aléatoires
1- les variables Xi, i = 1, ... , k sont contrôlées. Nous nous intéressons
aux modèles dits linéaires, c'est-à-dire aux modèles du type :
Y = a0 +a1X1 + a2X2 + ... +akXk
dans lequel a0, a1, ... , ak sont des réels appelés coefficients du modèle
(c'est, ici, un modèle sans interaction).
Cours Pr. B. SALLEK 2
1
Cours Pr. B. SALLEK
La valeur (yi) observée de Y obtenue lors de la réalisation de l'expérience i
diffère de la valeur yi attendue d'une quantité aléatoire que nous noterons εi.
L'existence du << facteur d'erreur>> εi est dû à des facteurs non contrôlés
<< variables aléatoires >> (dérive des appareils, adresse de l'expérimentateur, etc).
Cela justifie le fait que nous adopterons désormais le modèle suivant :
Y = α0 + α1X1 + α2X2 + ... + αpXp + ε
Estimation des coefficients du modèle
On appelle << ajustement >> du modèle toute solution du système des n équations
yi = a0 + a1xi1 + ... + apxip + ei (i = 1, 2, ... , n) dans laquelle :
ei sont les résidus d'ordre i observés lors de la réalisation des expériences.
Ils sont définis par :
ei = yi - Σ ap xip
a0, a1, ... , ak les estimateurs des variables aléatoires α0, α1, α2, ... , αp
L'<< ajustement des moindre carrés >> est celui qui fournit les estimateurs
a0, ... , ap conduisant au minimum de la somme des carrés des résidus :
Σ ei² = valeur minimale
Cours Pr. B. SALLEK 3
Calculs statistiques et interprétation des résultats
Test de signification des effets du modèle
Les calculs statistiques permettent :
1. savoir si les effets sont significatifs (test statistique de Student)
2. calculer les intervalles de confiance (test statistique de Student)
3. validation du modèle (test statistique Fisher-Snedecor)
et font intervenir
d'une part les résidus ei , c'est-à-dire la différence entre la valeur expérimentale
et la valeur prédite par le modèle et, d'autre part un estimateur de la variance
commune des résidus.
1
s² = Σ ei ²
n-p
où n est le nombre d'expériences réalisées et p le nombre des coefficients
du modèle. Dans ces conditions, on peut montrer que tous les effets ont la
même variance donnée par :
s²
si ² =
n
Cours Pr. B. SALLEK 4
2
Cours Pr. B. SALLEK
ATTENTION
Si l’on réalise un plan complet et que l'on calcule tous les effets, le calcul de
s2 est impossible puisque alors n = p
un plan complet 23 conduit à 8 expériences et 8 effets :
• 3 effets pour les facteurs,
1
• 3 effets pour les interactions d'ordre 1, s² = Σ ei ²
• et enfin 1 effet pour l'interaction d'ordre 2. n-p
Dans la pratique, il est d'usage de négliger les interaction d'ordre élevé
Si néanmoins on veut travailler avec tous les effets, une méthode efficace pour
déterminer s2 est la méthode dite des << mesures au centre>>.
On effectue alors plusieurs mesures au centre du domaine (tous les facteurs sont
réglés à 0) et on détermine s2 à partir des résultats sur ces << points au centre >>
Cours Pr. B. SALLEK 5
1- Réalisation du test de signification des effets
Le test utilisé est le test << t >> de Student. Un effet sera dit significatif (c'est-à-
dire que la variable ou l'interaction qui lui est associée a une influence sur la
réponse),
On testera donc l'hypothèse : H0 = << ai = 0>>
L’hypothèse alternative : H1 = << ai ≠ 0>>
Pour cela, on calcule : |ai|
ti =
si
On utilise alors une table de Student à ν = n - p degrés de liberté (n est le
nombre d'expériences réalisées et p le nombre d'effets y compris la constante
On choisit un risque de première espèce α (le plus souvent 5% ou 1%) et on lit
dans la table de Student la valeur tcrit (α, ν),
Cours Pr. B. SALLEK 6
3
Cours Pr. B. SALLEK
|ai|
ti =
si
en utilisant la partie de la table relative à un test bilatéral. La règle du test est
alors la suivante :
Si ti < tcrit (α, ν), on accepte H0 au risque accepté H0 = << ai = 0 >>
Si ti > tcrit (α, ν), on rejette H0 au risque accepté H1 = << ai # 0 >>
Si l'hypothèse H0 est acceptée, cela veut dire donc que la
variable qui lui est associée n'a pas d'influence sur la réponse.
Cours Pr. B. SALLEK 7
Exemple.
On considère une réaction chimique dont le rendement dépend de deux facteurs,
la température et la pression. Le technicien décide d'effectuer un plan
d'expérience avec le domaine expérimental suivant :
Niveau bas : -1 Niveau haut :+1
Température : T 60oC 80oC
Pression : P 1 bar 2 bars
La réponse Y étudiée, rendement de l'expérience, est donnée par le tableau suivant :
Exp Moy T P Y (%)
1 +1 -1 -1 60
2 +1 +1 -1 65
3 +1 -1 +1 75
4 +1 +1 +1 85
Diviseur 4 4 4
Effets a0 = 71,25 a1 = 3,75 a2 = 8,75
le modèle s'écrit :
Y = 71,25 +B.3,75
Cours Pr. SALLEK T + 8,75 P 8
4
Cours Pr. B. SALLEK
le modèle s'écrit :
Y = 71,25 + 3,75 T + 8,75 P
Test de signification des coefficients :
Exp Moy T P Y (%) Yest ei ei2
1 +1 -1 -1 60 58,75 1,25 1,5625
2 +1 +1 -1 65 66,25 -1,25 1,5625
3 +1 -1 +1 75 76,25 -1,25 1,5625
4 +1 +1 +1 85 83,75 1,25 1,5625
On cherche à tester la non influence d'une variable sur la réponse. On choisit
un risque de 5 %. La variance des résidus est :
1
s² = Σ ei² = 6,25
4-3
La variance commune des estimateurs des coefficients s² 6,25
du modèle est : si² = = = 1,5625
n 4
|ai|
La statistique << t>> de Student associé vaut : ti =
si
Cours Pr. B. SALLEK 9
La table de Student donne, pour un risque de 5 %
avec ν = n − p = 4 - 3 = 1 :
tcrit(0,05 ; 1) = 12,71
Pour l'effet a1 = 3, 75 de T on a t1 = 3 < 12,71. On accepte H0 au
risque de 5 % et l'effet de la température T n'est pas significatif.
Pour l'effet a2 = 8, 75 de P on a t2 = 7 < 12,71. On accepte H0 au
risque de 5 % et l'effet de la pression P n'est pas significatif.
On peut donc considérer que les coefficients a1 et a2 ne sont pas
significativement différents de 0 ; leur valeur est probablement due
à un << bruit>>.
La conclusion de cette étude est que l'on doit rejeter un modèle linéaire
pour expliquer le rendement de cette réaction chimique. Il faudrait
refaire une étude avec un modèle polynomial du second degré.
Cours Pr. B. SALLEK 10
5
Cours Pr. B. SALLEK
2- Intervalle de confiance des effets du modèle
Variance expérimentale connue
On suppose que compte tenu de nombreuses expériences faites
antérieurement on connaît l'écart-type expérimental s. Dans ce cas
l'intervalle de confiance d'un effet est donné, par :
risque 5% : [ai -1,96si ; ai + 1,96si]
risque 1% : [ai -2,58si ; ai + 2,58si]
où si² est la variance commune des estimateurs des coefficients.
Variance expérimentale inconnue (le cas le plus courant)
On calcule alors s², variance commune des résidus avec ν = n- p degrés de
liberté puis on en déduit
s²
si² =
n
variance commune des effets. On choisit alors un risque α et on détermine
avec table de Student le nombre t(α, ν). L'intervalle de confiance d'un effet ai
est alors donné par : [ai - t(α, ν)si ; ai + t(α, ν)si]
Cours Pr. B. SALLEK 11
Exemple.
Considérons le plan d'expérience 23 suivant dans lequel on néglige l'interaction
d'ordre 3.
X1 X2 X3 X1X2 X1X3 X2X3 Y
-1 -1 -1 +1 +1 +1 5,2
+1 -1 -1 -1 -1 -1 4,7
-1 +1 -1 -1 +1 +1 5,1
+1 +1 -1 +1 -1 -1 5,5
-1 -1 +1 +1 -1 -1 4,9
+1 -1 +1 -1 +1 -1 4,6
-1 +1 +1 -1 -1 +1 4,8
+1 +1 +1 +1 +1 +1 5,3
Le calcul des effets se faisant comme il a été dit plus haut, on obtient le
modèle :
Y = 5,0125 + 0,0125X1 + 0,1625X2 - 0,1125X3 +0,2125X1X2 +
0,0375X1X3 - 0,0125X2X3
Cours Pr. B. SALLEK 12
6
Cours Pr. B. SALLEK
Avant de déterminer les intervalles de confiance des effets, regardons leur
significativité. Pour cela, déterminons
. les résidus et la variance commune
Yi observés Yi estimés ei e²i
5,2 5,1875 + 0,0125 0,000156
4,7 4,7125 - 0,0125 0,000156
5,1 5,1125 - 0,0125 0,000156
5,5 5,4875 + 0,0125 0,000156
4,9 4,9125 - 0,0125 0,000156
4,6 4,5875 + 0,0125 0,000156
4,8 4,7875 + 0,0125 0,000156
5,3 5,3125 - 0,0125 0,000156
8*0,000156
La variance commune des résidus est donc : s² = = 0,00125
8-7
donc s = 0,035. La variance commune de s²
tous les effets est alors : si² = = 0,000156
8
Cours Pr. B. SALLEK 13
|ai|
le "t" de Student pour chaque effet se calcule avec ti = si
0,1625
Par exemple, pour le coefficient de la variable X2 on obtient t2 = = 13
0,0125
La table de Student donne pour un risque α = 5% et ν = n - p = 8 - 7
=1 , tcrit(0,05 ; 1) = 12,71
Un effet sera donc significatif au risque de 5% si son "ti" est supérieur à 12,71.
On obtient le tableau suivant.
Variable effet t Résultat
Constante 5,0125 t0 = 401>12,71 significatif
X1 a1 = 0,125 t1 = 1<12,71 non significatif
X2 a2 = 0,1625 t2 = 13>12,71 significatif
X3 a3 = - 0,1125 t3 = 9<12,71 non significatif
X1X2 a12 = 0,2125 t12 = 17>12,71 significatif
X1X3 a13 = 0,0375 t13 = 3<12,71 non significatif
X2X3 a23 = - 0,0125 t23 = 1<12,71 non significatif
Ce tableau montre que seul les cœfficients de la variable X2 et l'interaction X1X2 sont
significatives. Il faudrait donc retenir un modèle de la forme :Y = 5,0125 +
0,1625 X2 +0,2125 X1X2
Cours Pr. B. SALLEK 14
7
Cours Pr. B. SALLEK
2- Intervalle de confiance des effets du modèle
Nous déterminerons un intervalle de confiance, au risque de 5%, pour
les coefficients a2 et a12. Rappelons que cette intervalle se calcule avec :
[ai - t(α, ν)si ; ai + t(α, ν)si] = [ai - 12,71*0,0125 ; ai + 12,71*0,0125]
coefficient Borne estimateur de Borne
ak inférieure ak supérieure
a2 0,0036 a2 = 0,1625 0,3214
a12 0,0536 a12 = 0,2125 0,3714
Remarque importante :
Y = 5,0125 + 0,0125X1 + 0,1625X2 - 0,1125X3 +0,2125X1X2 + 0,0375X1X3 - 0,0125X2X3
Cherchons l'intervalle de confiance d'un effet non significatif, par exemple
a1. On obtient :
[0,125-12,71*0,0125 ; 1,125+12,71*0,0125] = [-0,1469 ; 0,1717]
On constate que 0 est dans cet intervalle de confiance, ce qui montre bien
que le coefficient n'est pas significativement différent de 0 au risque de 5%.
Cours Pr. B. SALLEK 15
3- Analyse de la variance. Validation du modèle linéaire.
L'analyse de la variance consiste à comparer à l'aide d'un test statistique
Fisher-Snedecor :
la somme des carrés des écarts due uniquement à la régression (donc au
modèle), avec la somme des carrés des résidus.
Yi les réponses observées lors de la réalisation des expériences.
Yiest les réponses estimées à l'aide du modèle linéaire.
Ymoy la moyenne des réponses.
On définit alors trois types de "variation"
1- La variation due à la liaison linéaire :
SCEL se lit : "somme des carrés des écarts dues à la liaison".
SCEL = Σ ( Yiest - Ymoy )²
2- La variation résiduelle :
SCER se lit : "somme des carrés des écarts des résidus".
SCER = Σ ( Yi - Yiest )²
3- La variation totale :
STCE se lit : " somme des carrés totale des SCTE = SCEL + SCER
écarts".
Cours Pr. B. SALLEK 16
8
Cours Pr. B. SALLEK
Analyse globale : Analyse de variance
SCET = VariationSCEL
due à la liaison
+ SCER
Variation totale Variation résiduelle
Σ(yi - y)2 Σ(yiest - y)2 Σ(yi - yiest)2
r5
r4
-
Y
r2 r3
r1
Cours Pr. B. SALLEK 17
Analyse globale : Analyse de variance
Toute dispersion d’une série de données étant
exprimée par la somme des carrés des écarts à
la moyenne, on démontre la relation suivante
sur laquelle estBase
basée l’analyse
de l’analyse de variance
de variance
SCET = SCEL + SCER
Variation totale Variation résiduelle
Σ(yi - y)2 Σ(yi – yi est)2
Variation due à la liaison
Σ(yi est - y)2
9
Cours Pr. B. SALLEK
SCEL aura (p- 1) degrés de liberté (p est le nombre de coefficients estimé à
partir du modèle),
SCER aura (n - p) degrés de libertés ( n est le nombre d'expériences
réalisées),
SCET aura (n - 1) degrés de liberté.
CML le carré moyen associé à SCEL
CMR le carré moyen associé à SCER.
Le tableau de l'analyse de variance se présente alors de la façon suivante :
SCEL = Σ ( Yiest - Ymoy )² SCER = Σ ( Yi - Yiest )²
Variation due à Somme des carrés DDL Carré moyen F
SCEL CML
Liaison SCEL p-1 = CML Fobs =
p-1 s²
SCER
Résidus SCER n-p = s²
n-p
Totale SCET n-1
Le test F permet alors de comparer pour un risque fixé à l'avance le Fobs
que l'on calcule avec un F(critique) lu dans la table de Fisher-Snedecor
Cours Pr. B. SALLEK
avec (p-1) et (n - p) degrés de liberté 19
Le test est la suivant :
CML
Fobs =
s²
hypothèse H0 : " les deux carrés moyens sont de même
grandeur" et donc la régression n'est pas significative
SCEL SCER
= CML = s²
p-1 n-p
hypothèse H1 : " le carré moyen dû à la régression est significativement
plus grand que le carré moyen dû aux résidus" donc la régression est
globalement significative
La règle du test est alors pour un risque α choisi:
1. Si Fobs est inférieure à F(crit) (p-1, n-p), on accepte l'hypothèse H0 :
la régression n’est pas significative
2. Si Fobs est supérieur à F(crit), on accepte l'hypothèse H1 avec la
confiance 1- α : la régression est significative
Cours Pr. B. SALLEK 20
10
Cours Pr. B. SALLEK
Reprenons l'exemple précèdent en considérant tous les effets, ceux des
variables et ceux des interactions d'ordre 2. On obtient le tableau d'analyse de
variance suivant : SCEL = Σ ( Y est - Y )² SCER = Σ ( Yi - Yiest )²
i moy
Somme des
Variation DDL Carré moyen F
carrés
due à
SCEL CML
Liaison SCEL 7-1 = 0,1146 = CML Fobs = = 91,6667
7-1 s²
SCER
Résidus SCER 8-7 = 0,0012 = s²
8-7
Totale SCET 8-1 0.68875
La table de Fischer-Snédecor donne pour ν1 = (p-1) = 6 et ν2 = (n-p) = 1,
F(crit) = 234, pour un risque de 5%.
Fobs = 91,667 < Fcrit = 234
Donc on rejette l'hypothèse de linéarité du modèle. Celà est bien
en accord avec le fait que certains coefficients ne sont pas
significatifs.
Cours Pr. B. SALLEK 21
Y = 5,0125 + 0,0125X1 + 0,1625X2 - 0,1125X 3 +0,2125X1X2 + 0,0375X1X3 - 0,0125X2X3
En revanche, effectuons une nouvelle analyse de variance avec un
modèle linéaire ne contenant que les coefficients significatifs, a2 et
a12. Le nouveau tableau d'analyse de variance est alors :
on a cette fois n = 8, mais p = 3 (3 coefficients estimés).
Variation Somme
DDL Carré moyen F
due à des carrés
SCEL CML
Liaison SCEL 3-1 = 0,2863 = CML Fobs = = 12,3118
3-1 s²
SCER
Résidus SCER 8-3 = s² = 0,0232
8-3
Totale SCET 8-1 0.6886
La table de Fischer-Snédecor donne pour ν1 = 2 et ν2 = 5,
F(crit) = 5,79, pour un risque de 5%. On a :
(Fobs = 12,3118) > (Fcrit = 5,79)
Donc on accepte l'hypothèse H1 de linéarité du modèle. Cela est
bien en accord avec le fait que les coefficients a2 et a12
sont significatifs.
Y = 5,0125 + 0,1625 X2 +0,2125 X1X2
Cours Pr. B. SALLEK 22
11
Cours Pr. B. SALLEK
Signification individuelle des coefficients
Après les tests de signification globale et N a2 i
d'adéquation, il nous reste à juger la signification F=
individuelle de chacune des variables. Σ ( Yi - Yiest )²
N-p
Source de Somme des carrés Degrés Carrés moyens F
dispersion de (Snedecor)
liberté
X1 N a2 1 1 N a2 1 N a2 i
X2 N a22 1 N a2 2
- - - -
-
- -
-
-
Σ ( Yi - Yiest )²
- - - N-p
Xp N a2 p 1 N a2 p
Régression
Σ
( Yiest - Ymoy )²
SCEL = Σ( Yiest - Ymoy )² p-1 Σ( Yiest - Ymoy)² p-1
Σ
P- 1 ( Yi - Yiest )²
N-p
Résiduelle
SCER = Σ( Yi - Yiest )² N-p
Σ( Yi - Yiest )²
N-p
Totale SCET = Σ( Yi - Ymoy )² N-1
Le cœfficient sera déclaré globalement significatif si F > F 1−α, p, N-p
Cours Pr. B. SALLEK 23
Utilisation de "points au centre".
Si l'on ne néglige aucune interaction, il n'est pas possible de faire de
calculs statistiques puisque l'on a "consommer" tous les degrés de
liberté (division par n-p=0).
Dans ce cas, on accompagne les n essais du plan d'expérience par
un certain nombre d'essais au centre du domaine expérimental.
Ces essais servent à calculer un écart-type appelé écart-type
expérimental. Tous les calculs réalisés plus haut se font alors
avec l'écart-type expérimental au lieu de l'écart-type résiduel.
Cours Pr. B. SALLEK 24
12