[Link].
com 28/07/2012
Université Abdelmalek Essaâdi
Faculté Polydisciplinaire de Tétouan
LEF Sc. éco. & Gestion
S6
®E
Régression Simple
lM
Exercices
ero
1
ua
ni
FP
Exercice 1: (Mesure d’efficacité de la
force de vente)
Te
Au cours d’un mois donné, le représntant d’une
société commercialisant du matériel de bureau a
visité 56 entreprises réparties dans sept
tou
départements.
Le tableau suivant indique, département par
an
département, le nombre de visites réalisées de
même que les commandes enregistrées pendant la
période correspondante mesurées en milliers de
dirhams.
1
[Link] 28/07/2012
Département (i) Nombre de Commandes
visites (Xi) (Yi)
1 2 23
2 3 27
®E
3 5 28
4 9 39
lM
5 10 39
6 12 45
7 15 51
ero
3
ua
ni
FP
Questions:
Te
1. Représenter graphiquement le nuage des points et
donner le modèle de régression y=ax+b par la méthode
des moindres carrées. Interpréter le résultat.
tou
2. Calculer les différents dispersion selon la loi des écarts.
3. Déterminer le coefficient de détermination et le
coefficient de corrélation.
4. Représenter l’analyse de la variance et le test F
5. S’assurer à l’aide d’un test T de Student que a est
an
significativement différente de zéro.
6. Déterminer l’intervalle de confiance du paramètre a.
7. Prévision de Y pour la valeur X=20 et l’intervalle de
confiance de cette prévision.
2
[Link] 28/07/2012
Solution 1:
Relation entre les commandes et le
1.- nombre de visites de représentants
®E
60
Commandes (1000 DH)
50
lM
40
30
20
10
ero
0
0 5 10 15 20
Nombres de visites
5
ua
ni
FP
i Xi Yi XiYi Xi2 Xi-X (Xi-X)2 Yi-Y (Xi-X)(Yi-Y)
1 2 23 46 4 -6 36 -13 78
Te
2 3 27 81 9 -5 25 -9 45
3 5 28 140 25 -3 9 -8 24
4 9 39 351 81 1 1 3 3
tou
5 10 39 390 100 2 4 3 6
6 12 45 540 144 4 16 9 36
7 15 51 765 225 7 49 15 105
Total: 56 252 2313 588 0 140 0 297
an
Moy. 8 36 330,4 84 0 20 0 42,4
Les cinq premiers colonnes du tableau détaillent les calculs
nécessaires pour obtenir a qui s’élève ici à 2,12. En effet,
3
[Link] 28/07/2012
∑ XY − nXY 2313 − (7)(8)(36)
= = 2,12
∑ X 2
− n X 2
588 − ( 7 )( 64)
a=
Cov( X , Y ) σ XY 42,4
= 2 = = 2,12
Var ( X ) σX 20
®E
b = Y − aX = 36 − ( 2,12)(8) = 19
lM
Compte tenu de la valeur du paramètre b, égal à 19,
l’équation de la droite qui représente le mieux les
relations entre le nombre de visites X et le montant des
commandes Y est:
ero
Y = 2 ,12 X + 19
7
ua
ni
FP
Ce résultat peut être interprété de la façon suivante:
Te
en l’absence de visite, le montant des commandes d’un
département s’élèverait à 19 000 DH;
tou
chaque visite d’un représentant amène une masse de
commandes supplémentaires d’environ 2120 DH.
an
4
[Link] 28/07/2012
2.- Lois des écarts:
• La loi des écarts permet de relier l’erreur associée à
l’hypothèse nulle et l’erreur associée à l’hypothèse
®E
“Y dépend de X”.
• L’erreur attachée à l’hypothèse nulle est mesurée
par la dispersion totale des Yi, c’est-à-dire par la
lM
somme des carrés des écarts des Yi par rapport à la
moyenne Y:
( )
ero
= ∑ Yi − Y
2
Dispersion totale
9
ua
ni
FP
• Dans le cas étudié, l’erreur de l’hypothèse nulle
s’élève à 638:
Te
Obser Xi Yi Ŷi Yi-Y (Yi-Y)2 Ŷi-Y (Ŷi-Y)2 Ŷi-Yi (Ŷi-Yi)2
vation
1 2 23 23,27 -13 169 -12,73 162 0,27 0,07
tou
2 3 27 25,39 -9 81 -10,61 112,57 -1,61 2,59
3 5 28 29,64 -8 64 -6,36 40,45 1,64 2,69
4 9 39 38,12 3 9 2,12 4,49 -0,88 0,77
5 10 39 40,24 3 9 4,24 17,98 1,24 1,54
an
6 12 45 44,49 9 81 8,49 72,08 -0,51 0,26
7 15 51 50,85 15 225 14,85 220,52 -0,51 0,02
Total: 638 630,09 7,94
10
5
[Link] 28/07/2012
• L’erreur attachée à la seconde hypothèse, ou
encore dispersion résiduelle est donnée par
e2, somme des carrés des écarts entre les
observations Yi et les valeurs estimées Ŷi par
®E
le modèle:
lM
dispersion résiduelle = Σ(Ŷi-Yi)2
• Dans le tableau précédent, il apparaît que
l’erreur associée au modèle est très faible avec
ero
e2=7,9.
11
ua
ni
FP
• La différence entre la dispersion totale et la dispersion
résiduelle correspond à la dispersion expliquée par le modèle
de régression, compte tenu du fait que
Te
(Yi-Y)2=(Ŷi-Y)2+(Ŷi-Yi)2
On en tire la décomposition suivante:
∑(Yi-Y)2=∑(Ŷi-Y)2+∑(Ŷi-Yi)2
tou
relation connue sous le nom de loi des écarts, nous pouvons
écrire:
dispersion expliquée = Σ(Ŷi-Y)2
an
Donc on a:
dispersion totale=dispersion expliquée+dispersion résiduelle.
Pour le problème considéré, la dispersion expliquée s’élève à
630,09.
12
6
[Link] 28/07/2012
3.- Coefficients de détermination et de corrélation:
3.- corrélation:
Un premier indicateur de qualité de la
représentation consiste à mettre en relation la
dispersion expliquée par le modèle et la dispersion
®E
totale des données: le coefficient de détermination
R2 mesure le pouvoir explicatif du modèle en
évaluant le pourcentage de l’information restituée
lM
par le modèle par rapport à la qualité
d’information initiale:
∑ (Yˆ )
2
−Y
ero
dispersion exp liquée
R2 = =
i
∑ (Y )
2
dispersion totale i −Y
13
ua
ni
FP
• Avec les données de l’exemple précédent,
R2=630/638=0,987, il apparaît que le modèle
Te
Y=2,12X+19 restitue 98,7% de l’information totale.
tou
• Le coefficient de corrélation est R, racine carré du
coefficient de détermination. C’est l’indicateur le plus
couramment employé.
an
• On peut le calculer à l’aide de plusieurs formules
différentes.
14
7
[Link] 28/07/2012
• En premier lieu, d’après la définition qui vient
d’être donnée, nous avons:
∑ (Yˆ )
2
−Y
R=
i
∑ (Y )
®E
2
i −Y
• On montre que R est obtenu également à l’aide
des formules suivantes, où σ X et σ Y représentent
lM
les écarts-type respectives des Xi et des Yi:
σ XY σ
ero
R= et R = a X
σ Xσ Y σ Y
15
ua
ni
FP
• Racine carée de R2, c’est-à-dire d’un chiffre au plus
égal à 1, R a une valeur absolue également au plus
égale à 1.
Te
• R est positif (covariance ou coefficient de régression
a positifs) ou négatif (cas inverse).
tou
• Donc -1 ≤ R ≤ 1.
an
• Un R très élevé en valeur absolue concrétise une
relation étroite entre X et Y, croissante si R est
positif et décroissante, si R est négatif.
16
8
[Link] 28/07/2012
• Dans l’exemple étudié, R=0,994 ce qui indique
une relation linéaire presque parfaite sur les
données observées.
®E
• Une valeur de R faible en termes absolus
caractérise une absence de relation linéaire
lM
entre X et Y, mais pas nécessairement
l’absence de liaison entre les variables.
ero
17
ua
ni
FP
4.-
4.- Test F:
• La valeur du coefficient de correlation est calculée à
Te
partir des données disponibles, les résultats de sept
départements dans notre exercice.
tou
• Un coefficient de correlation très élevé, mais obtenu
sur peu de données est moins significatif qu’un
coefficient plus faible, mais déterminée sur un grand
nombre de données.
an
• A la limite, si nous n’avions que deux observations, R
serait égal à 1, mais aucune conclusion ne saurait en
être déduite.
18
9
[Link] 28/07/2012
• Obtenu sur un échantillon de taille réduite, R
devrait être rectifié. La formule suivante est
utilisée, ou k est le nombre de variables
explicatives et n le nombre de données:
®E
R=1- Dispersion résiduelle n-1
lM
Dispersion totale n-k-1
Dans l’exemple, k=1 et n le nombre
ero
d’obseravtions est 7.
19
ua
ni
FP
• Le test F (analyse de la variance) permet d’intégrer
la taille de l’échantillon dans l’appréciation de la
qualité de la représentation:
Te
∑ (Yˆ )
2
i −Y
tou
F= k = Dispersion expliquée moyenne
∑( ) 2
Yˆi − Yi Dipersion résiduelle moyenne
n − k −1
an
• Dans notre exemple, F=395. Cette valeur doit
être comparée à celle qui est lue dans une table
de Fisher-Snédécor pour k=1 degré de liberté au
numérateur et n-k-1=7-1-1=5 au dénominateur à
un seuil de confiance α.
20
10
[Link] 28/07/2012
• Pour α=0,01, la valeur F théorique lue dans la table
est de 16,26. Il n’y a ainsi qu’une chance sur 100 de
trouver un F observé supérieur à 16,26 lorsque, dans
la polpulation totale des observations possibles,
®E
aucune relation n’existe entre X et Y.
• Nous sommes ici parfaitement en droit d’admettre la
lM
relation linéaire entre X et Y, puisque le F calculé est
largement supérieur au F théorique. (voir tableau
suivant)
ero
21
ua
ni
FP
Analyse de la variance pour la régression (test F)
Degrés de Somme Carrés F
Te
liberté des carrés moyens
Régression k=1 630,09 = 630,09 396=630/1,
Σ(Ŷi-Y)2 59
tou
Erreur n-k-1=5 7,94 = 1,59
Σ(Ŷi-Yi)2
an
Total n-1=6 638=
∑(Yi-Y)2
F0,01=16,26
22
11
[Link] 28/07/2012
5.- Validité des coefficients
5.- coefficients::
• Les tests précédents permettent d’avoir une idée de
la validité de la régression dans son ensemble. Il
®E
importe de connaître également la validité des
coefficients du modèle, c’est-à-dire de a dans le cas
de la régression linéaire simple.
lM
• Cette validité est vérifiée par le biais du test t et à
travers le calcul d’intervalles de confiance.
ero
23
ua
ni
FP
• On définit l’erreur standard sur a comme
S XY
Sa =
Te
∑X i
2
− nX 2
tou
Où S XY est l’écart-type des erreurs du modèle avec:
∑ (Y )
2
− Yˆi
S XY =
i
an
n−2
A partir des chiffres de notre exemple, il apparaît
que: 7,94
S = XY = 1,59 = 1,26
5
et Sa=1,26/11,83=0,106
24
12
[Link] 28/07/2012
• Si l’on admet que les valeurs à estimer à partir de
différents échantillons d’observations suivent une
loi de Student d’écart-type Sa, nous pouvons
évaluer la probabilité que la valeur a soit différente
de zéro.
®E
a − 0 a
t = =
Sa Sa
lM
nous donne le nombre d’écarts-type qui séparent la
valeur observée de 0.
t mesure ainsi le degré de rareté, dans une
ero
population où la valeur de a est 0, d’échantillons
d’observations pour lesquels a=a0 (ici a0=2,12).
25
ua
ni
FP
• Dans notre exemple, t = 2,12 / 0,106 = 20, ce
qui compré au chiffre lu sur la table de
Student pour n-k-1=7-2=5 degrés de liberté
Te
(3,365 avec un seuil de confiance de 0,01)
paraît très significatif.(Voir table)
tou
6.- L’intervalle de confiance de a est obtenu
selon une procédure voisine. Si tα est le
an
nombre d’écarts-types correspondant au seuil
de confiance α, il y a une probabilité (1-α) que
la valeur de a soit comprise dans l’intervalle
[a-tα/2Sa; a+tα/2Sa].
26
13
[Link] 28/07/2012
• Il y a ainsi 99% de chances que la valeur de a
de notre problème soit comprise dans
l’intervalle,
[ 2,12- 4(0,106); 2,12+ 4(0,106) ],
®E
puisque t0,005=4 pour 5 degrés de liberté.
lM
ero
27
ua
ni
FP
Te
7.- Il s’agirait de prévoir quelle serait l’importance des
commandes pour un nombre de visites de représentants
tou
donné. Ceci peut être réalisé en donnant à X, dans le modèle,
la valeur choisie.
• Ainsi, X=20 visites devraient amener, selon le modèle, 61 400
DH de commandes en moyenne, puisque 61,4=2,12(20)+19.
an
28
14
[Link] 28/07/2012
• En fait, il faut tenir compte de ce que le modèle a été
construit à partir d’un échantillon de données et qu’il
existe de toute façon un certain aléa sur les relations
entre X et Y.
®E
• La prévision de Y doit s’accompagner de la définition
d’un intervalle de confiance: à un seuil de confiance
lM
α, la valeur de Y pour X=X0 est comprise dans
l’intervelle
Yˆ − t S 1 (
X0 − X
2
) 1 (
X0 − X
2
)
+ ; YˆX + tα 2 S XY +
ero
α 2 XY
X 0
n ∑ X − nX
2 2 0
n ∑ X − nX
2 2
29
ua
ni
FP
• Où, on le rappelle, SXY est l’écart-type des erreurs du modèle.
L’intervalle de confiance est d’autant plus important que
- SXY est élevé;
Te
- n est faible;
- Xi est éloigné de la moyenne.
tou
Pour X0=20 et α=0,01,
2
Y=61,4±4(1,26) 1 + 12
7 140
Soit Y=61,4±5,9.
La régression linéaire simple nous a permis de présenter les
an
aspects principaux des techniques de régression qui peuvent
être utilisées dans l’élaboration de modèles de prévision.
30
15
[Link] 28/07/2012
Exercice 2:
• On s’intéresse dans un secteur de production
à la relation entre les bénéfices réalisés par les
®E
entreprises et le budget annuel qu’elles
consacrent à la publicité. 15 observations ont
lM
été réalisées:
Budget 15 8 36 41 16 8 21 21 53 10 32 17 58 6 20
de
ero
publicité
Bénéfices 48 43 77 89 50 40 56 62 100 47 71 58 102 35 60
31
ua
ni
FP
Questions:
Te
a) On veut établir une régression linéaire entre les deux
variables, quelle doit être la variable endogène?
b) On admet l’existence d’une relation linéaire de la
tou
forme yi=axi+b+ε calculez les estimations des
coefficients a et b.
c) Calculer r l’estimation du coefficient de corrélation R.
an
d) Précisez l’équation d’analyse de la variance, calculer
ses valeurs et en déduire le coefficient de
détermination.
e) Sachant que σˆ ε = 10,155 , procédez à l’estimation des
2
variances de â et de b̂ .
32
16
[Link] 28/07/2012
Questions: (suite)
f) Déterminez au seuil de signification de 0,05 , un
intervalle de confiance pour a, un intervalle de
®E
confiance pour b, et un intervalle de confiance
pour σˆ ε2 .
g) Peut-on affirmer que les coefficients a et b sont
lM
significativement différents de 0 pour α=0,05?
h) Déterminez un intervalle de confiance pour le
bénéfice prévisible relatif à une entreprise qui
ero
consacre un budget de 48 à son programme
publicitaire. (α=0,05).
33
ua
ni
FP
Solution 2:
Te
a) La variable endogène Y correspond aux
bénéfices qui sont exprimés en fonction du
tou
budget de publicité X.
b) Voir tableau…
∑ ( X Y ) − nXY
an
aˆ =
∑ (X )− nX
i i
2 2
i
bˆ = Y − aˆX
34
17
[Link] 28/07/2012
Xi Yi Xi 2 Yi2 XiYi
15 48 225 2304 720
8 43 64 1849 344
36 77 1296 5929 2772
41 89 1681 7921 3649
16 50 256 2500 800
®E
8 40 64 1600 320
21 56 441 3136 1176
21 62 441 3844 1302
lM
53 100 2809 10000 5300
10 47 100 2209 470
32 71 1024 5041 2272
17 58 289 3364 986
ero
58 102 3364 10404 5916
6 35 36 1225 210
20 60 400 3600 1200
362 938 12490 64926 27437
35
ua
ni
FP
n = 15
362
X= = 24,13 ⇒ X 2 = 582,26
Te
15
938
tou
Y = = 62,53
15
27437 − 15 × 24,13 × 62,53
aˆ = = 1,28
12490 − 15 × 582,26
an
bˆ = 62,53 − 1,28 × 24,13 = 31,67
Yˆ = 1,28 X + 31,67
36
18
[Link] 28/07/2012
Yˆi − Y (Yˆi − Y ) Yˆi − Yi (Yˆi − Yi ) 2
2
Xi Yi X i − X ( X i − X ) 2 Y i − Y (Yi − Y ) 2 Yˆi
15 48 -9,13 83,36 -14,53 211,12 50,87 -11,66 135,96 2,87 8,24
8 43 -16,13 260,18 -19,53 381,42 41,91 -20,62 425,18 -1,09 1,19
36 77 11,87 140,90 14,47 209,38 77,75 15,22 231,65 0,75 0,56
41 89 16,87 284,60 26,47 700,66 84,15 21,62 467,42 -4,85 23,52
16 50 -8,13 66,10 -12,53 157,00 52,15 -10,38 107,74 2,15 4,62
®E
8 40 -16,13 260,18 -22,53 507,60 41,91 -20,62 425,18 1,91 3,65
21 56 -3,13 9,80 -6,53 42,64 58,55 -3,98 15,84 2,55 6,50
21 62 -3,13 9,80 -0,53 0,28 58,55 -3,98 15,84 -3,45 11,90
lM
53 100 28,87 833,48 37,47 1404,00 99,51 36,981367,52 -0,49 0,24
10 47 -14,13 199,66 -15,53 241,18 44,47 -18,06 326,16 -2,53 6,40
32 71 7,87 61,94 8,47 71,74 72,63 10,1 102,01 1,63 2,66
17 58 -7,13 50,84 -4,53 20,52 53,43 -9,1 82,81 -4,57 20,88
43,381881,82 3,91 15,29
ero
58 102 33,87 1147,18 39,47 1557,88 105,91
6 35 -18,13 328,70 -27,53 757,90 39,35 -23,18 537,31 4,35 18,92
20 60 -4,13 17,06 -2,53 6,40 57,27 -5,26 27,67 -2,73 7,45
362 938 3753,73 6269,73 6150,13 132,01
37
ua
ni
FP
c)
R=
∑ ( X Y ) − nXY
i i
nσ X σ Y
Te
σX =
1
∑ (X i − X )2 = 3753,73 = 15,82
n 15
tou
σY =
1
∑ (Yi − Y )2 = 6269,73 = 20,44
n 15
an
R = 0,989
38
19
[Link] 28/07/2012
d) Dispersion totale:
∑ (Y − Y )
2
i = 6269,73
Dispersion expliquée:
∑ (Yˆ − Y )
®E
2
i = 6150,13
lM
Dispersion résiduelle:
∑ (Y − Yˆ )
2
i i = 132,01
ero
6269,73=6150,13+132,01
39
ua
ni
FP
• Le coefficient de détermination est:
6137,72
R2 = = 0,9789
Te
6269,73
• Ce coefficient est proche de 1, on peut en
tou
déduire que la variabilité expliquée par droite
de régression est satisfaisante.
an
40
20
[Link] 28/07/2012
e) On a σˆ ε2 = 10,155
Alors,
σˆ ε2
S = Var (aˆ ) =
®E
2
= 0,0027
∑ (X −X)
aˆ 2
i
et
lM
() 2 1
Var b = σˆ ε +
ˆ X2
= 2,2526
∑ (X i − X )
2
n
ero
41
ua
ni
FP
f) Intervalle de confiance pour σˆ ε
2
∑ εˆ2
σˆ ε2
La variable σ 2 = (n − 2) σ 2 suit une loi χ
Te
i 2
ε ε
à (n-2) degrés de liberté.
tou
Donc, on part de P A < (n − 2) σˆ ε < B = 1 − α
2
σ ε2
L’intervalle de confiance pour σˆ ε2 est alors:
an
σˆ ε2 σˆ ε2
I = ( n − 2) ; ( n − 2) = [5,336 ; 26,35]
B A
42
21
[Link] 28/07/2012
[
• L’intervalle pour a: aˆ − t1−α σˆ aˆ ; aˆ + t1−α σˆ aˆ ]
avec t lue sur la table de Student à n-2=13
degré de liberté. (t=2,16).
I = [1,166 ; 1,391]
®E
[bˆ − t σˆ bˆ ; bˆ + t1−α σˆ bˆ ]
lM
• Intervalle pour b: 1−α
I = [28,432 ; 34,916]
ero
43
ua
ni
FP
ˆ
g) Le t empirique de Student est donné par a ,
σˆ
on compare la valeur de ce rapport avec aˆ
t=2,16.
Te
On trouve qu’il est supérieur en valeur absolue
à 2,16 pour les deux paramètres a et b.
tou
Donc ces paramètres sont significativement
différents de 0. La variable exogène contribue
bien à expliquer Y.
an
P(− 2,16 < t(13) < 2,16) = 0,95
44
22
[Link] 28/07/2012
h)
1 ( x0 − x ) 2 1 ( x0 − x ) 2
I (Y0 ) = (ax0 + b) − t1−α S 1 + + ; ( ax0 + b) + t1−α S 1 + +
n ∑ x 2 n ∑ x 2
®E
I (Y48 ) = [(1,28× 48 + 31,67) − 2,16 ×12,335; (1,28× 48 + 31,67) + 2,16 ×12,335]
lM
I (Y48 ) = [85,45 ; 100,65]
ero
45
ua
ni
FP
Références:
Te
• Exercice 1:
Jean-Pierre Vedrine, « Techniques
tou
Quantitatives de Gestion », Vuibert gestion.
• Exercice 2:
Kamal Abdelillah, «Sondages et tests
an
Statistiques » Fédala, 1998
46
23