[Link].
com
28/07/2012
Universit Abdelmalek Essadi
Facult Polydisciplinaire de Ttouan
LEF Sc. co. & Gestion
S6
lM
E
Rgression Simple
Exercices
ero
ni
ua
FP
Exercice 1: (Mesure defficacit de la
force de vente)
Te
tou
Au cours dun mois donn, le reprsntant dune
socit commercialisant du matriel de bureau a
visit 56 entreprises rparties dans sept
dpartements.
an
Le tableau suivant indique, dpartement par
dpartement, le nombre de visites ralises de
mme que les commandes enregistres pendant la
priode correspondante mesures en milliers de
dirhams.
[Link]
Dpartement (i) Nombre de
visites (Xi)
2
3
5
9
10
12
15
Commandes
(Yi)
23
27
28
39
39
45
51
ero
lM
E
1
2
3
4
5
6
7
28/07/2012
ni
ua
FP
Questions:
Te
tou
1. Reprsenter graphiquement le nuage des points et
donner le modle de rgression y=ax+b par la mthode
des moindres carres. Interprter le rsultat.
2. Calculer les diffrents dispersion selon la loi des carts.
3. Dterminer le coefficient de dtermination et le
coefficient de corrlation.
4. Reprsenter lanalyse de la variance et le test F
5. Sassurer laide dun test T de Student que a est
significativement diffrente de zro.
6. Dterminer lintervalle de confiance du paramtre a.
7. Prvision de Y pour la valeur X=20 et lintervalle de
confiance de cette prvision.
an
4
[Link]
28/07/2012
Solution 1:
Relation entre les commandes et le
nombre de visites de reprsentants
1.-
lM
E
50
40
30
20
10
ero
Commandes (1000 DH)
60
10
15
20
Nombres de visites
ni
ua
FP
Xi-X
(Xi-X)2
Yi-Y
(Xi-X)(Yi-Y)
4
9
25
81
100
144
225
-6
-5
-3
1
2
4
7
36
25
9
1
4
16
49
-13
-9
-8
3
3
9
15
78
45
24
3
6
36
105
56 252 2313
588
140
297
84
20
42,4
XiYi
1
2
3
4
5
6
7
2
3
5
9
10
12
15
23
27
28
39
39
45
51
46
81
140
351
390
540
765
Total:
Moy.
36
330,4
an
Yi
tou
Xi
Te
Xi2
Les cinq premiers colonnes du tableau dtaillent les calculs
ncessaires pour obtenir a qui slve ici 2,12. En effet,
6
[Link]
28/07/2012
lM
E
XY nXY 2313 (7)(8)(36)
=
= 2,12
2
2
X
n
X
588
(
7
)(
64
)
a=
Cov( X , Y ) XY 42,4
= 2 =
= 2,12
Var ( X )
X
20
b = Y aX = 36 ( 2,12)(8) = 19
Compte tenu de la valeur du paramtre b, gal 19,
lquation de la droite qui reprsente le mieux les
relations entre le nombre de visites X et le montant des
commandes Y est:
ero
Y = 2 ,12 X + 19
ni
ua
FP
Ce rsultat peut tre interprt de la faon suivante:
Te
en labsence de visite, le montant des commandes dun
dpartement slverait 19 000 DH;
tou
chaque visite dun reprsentant amne une masse de
commandes supplmentaires denviron 2120 DH.
an
8
[Link]
28/07/2012
2.- Lois des carts:
lM
E
La loi des carts permet de relier lerreur associe
lhypothse nulle et lerreur associe lhypothse
Y dpend de X.
Lerreur attache lhypothse nulle est mesure
par la dispersion totale des Yi, cest--dire par la
somme des carrs des carts des Yi par rapport la
moyenne Y:
ero
Dispersion totale
= Yi Y
ni
ua
FP
Dans le cas tudi, lerreur de lhypothse nulle
slve 638:
Te
Xi
Yi
Yi-Y
(Yi-Y)2
i-Y
(i-Y)2
i-Yi
(i-Yi)2
1
2
3
4
5
6
7
2
3
5
9
10
12
15
23
27
28
39
39
45
51
23,27
25,39
29,64
38,12
40,24
44,49
50,85
-13
-9
-8
3
3
9
15
169
81
64
9
9
81
225
-12,73
-10,61
-6,36
2,12
4,24
8,49
14,85
162
112,57
40,45
4,49
17,98
72,08
220,52
0,27
-1,61
1,64
-0,88
1,24
-0,51
-0,51
0,07
2,59
2,69
0,77
1,54
0,26
0,02
638
630,09
an
Total:
tou
Obser
vation
7,94
10
[Link]
28/07/2012
lM
E
Lerreur attache la seconde hypothse, ou
encore dispersion rsiduelle est donne par
e2, somme des carrs des carts entre les
observations Yi et les valeurs estimes i par
le modle:
dispersion rsiduelle = (i-Yi)2
ero
Dans le tableau prcdent, il apparat que
lerreur associe au modle est trs faible avec
e2=7,9.
ni
ua
11
FP
Donc on a:
an
dispersion explique = (i-Y)2
tou
Te
La diffrence entre la dispersion totale et la dispersion
rsiduelle correspond la dispersion explique par le modle
de rgression, compte tenu du fait que
(Yi-Y)2=(i-Y)2+(i-Yi)2
On en tire la dcomposition suivante:
(Yi-Y)2=(i-Y)2+(i-Yi)2
relation connue sous le nom de loi des carts, nous pouvons
crire:
dispersion totale=dispersion explique+dispersion rsiduelle.
Pour le problme considr, la dispersion explique slve
630,09.
12
[Link]
28/07/2012
3.- Coefficients de dtermination et de corrlation:
[Link]:
ero
lM
E
Un premier indicateur de qualit de la
reprsentation consiste mettre en relation la
dispersion explique par le modle et la dispersion
totale des donnes: le coefficient de dtermination
R2 mesure le pouvoir explicatif du modle en
valuant le pourcentage de linformation restitue
par le modle par rapport la qualit
dinformation initiale:
dispersion exp lique
R2 =
=
dispersion totale
(Y
(Y
ni
ua
13
FP
tou
Te
Avec les donnes de lexemple prcdent,
R2=630/638=0,987, il apparat que le modle
Y=2,12X+19 restitue 98,7% de linformation totale.
Le coefficient de corrlation est R, racine carr du
coefficient de dtermination. Cest lindicateur le plus
couramment employ.
an
On peut le calculer laide de plusieurs formules
diffrentes.
14
[Link]
28/07/2012
En premier lieu, daprs la dfinition qui vient
dtre donne, nous avons:
lM
E
R=
(Y
(Y
On montre que R est obtenu galement laide
des formules suivantes, o X et Y reprsentent
les carts-type respectives des Xi et des Yi:
XY
X Y
ero
R=
et
R = a
X
Y
ni
ua
15
FP
Donc -1 R 1.
tou
Te
Racine care de R2, cest--dire dun chiffre au plus
gal 1, R a une valeur absolue galement au plus
gale 1.
R est positif (covariance ou coefficient de rgression
a positifs) ou ngatif (cas inverse).
an
Un R trs lev en valeur absolue concrtise une
relation troite entre X et Y, croissante si R est
positif et dcroissante, si R est ngatif.
16
[Link]
28/07/2012
Dans lexemple tudi, R=0,994 ce qui indique
une relation linaire presque parfaite sur les
donnes observes.
lM
E
Une valeur de R faible en termes absolus
caractrise une absence de relation linaire
entre X et Y, mais pas ncessairement
labsence de liaison entre les variables.
ero
ni
ua
17
FP
tou
Te
4.4.- Test F:
La valeur du coefficient de correlation est calcule
partir des donnes disponibles, les rsultats de sept
dpartements dans notre exercice.
an
Un coefficient de correlation trs lev, mais obtenu
sur peu de donnes est moins significatif quun
coefficient plus faible, mais dtermine sur un grand
nombre de donnes.
A la limite, si nous navions que deux observations, R
serait gal 1, mais aucune conclusion ne saurait en
tre dduite.
18
[Link]
28/07/2012
lM
E
Obtenu sur un chantillon de taille rduite, R
devrait tre rectifi. La formule suivante est
utilise, ou k est le nombre de variables
explicatives et n le nombre de donnes:
R=1- Dispersion rsiduelle n-1
Dispersion totale
n-k-1
ero
Dans lexemple, k=1 et n le nombre
dobseravtions est 7.
ni
ua
19
FP
k
Yi Yi
F=
n k 1
tou
(Y
Te
Le test F (analyse de la variance) permet dintgrer
la taille de lchantillon dans lapprciation de la
qualit de la reprsentation:
Dispersion explique moyenne
Dipersion rsiduelle moyenne
an
Dans notre exemple, F=395. Cette valeur doit
tre compare celle qui est lue dans une table
de Fisher-Sndcor pour k=1 degr de libert au
numrateur et n-k-1=7-1-1=5 au dnominateur
un seuil de confiance .
20
10
[Link]
28/07/2012
lM
E
Pour =0,01, la valeur F thorique lue dans la table
est de 16,26. Il ny a ainsi quune chance sur 100 de
trouver un F observ suprieur 16,26 lorsque, dans
la polpulation totale des observations possibles,
aucune relation nexiste entre X et Y.
Nous sommes ici parfaitement en droit dadmettre la
relation linaire entre X et Y, puisque le F calcul est
largement suprieur au F thorique. (voir tableau
suivant)
ero
ni
ua
21
FP
Analyse de la variance pour la rgression (test F)
Erreur
n-k-1=5
7,94 =
(i-Yi)2
n-1=6
638=
(Yi-Y)2
1,59
an
Total
396=630/1,
59
tou
(i-Y)2
Te
Rgression
Degrs de Somme
Carrs
libert
des carrs moyens
k=1
630,09 = 630,09
F0,01=16,26
22
11
[Link]
28/07/2012
5.- Validit des coefficients
[Link]::
lM
E
Les tests prcdents permettent davoir une ide de
la validit de la rgression dans son ensemble. Il
importe de connatre galement la validit des
coefficients du modle, cest--dire de a dans le cas
de la rgression linaire simple.
ero
Cette validit est vrifie par le biais du test t et
travers le calcul dintervalles de confiance.
ni
ua
23
FP
On dfinit lerreur standard sur a comme
2
i
nX 2
tou
S XY
Te
Sa =
S XY est lcart-type des erreurs du modle avec:
Yi
n2
an
S XY =
(Y
A partir des chiffres de notre exemple, il apparat
7,94
que:
S =
= 1,59 = 1,26
XY
et
Sa=1,26/11,83=0,106
24
12
[Link]
28/07/2012
lM
E
Si lon admet que les valeurs estimer partir de
diffrents chantillons dobservations suivent une
loi de Student dcart-type Sa, nous pouvons
valuer la probabilit que la valeur a soit diffrente
de zro.
t =
a 0
a
=
Sa
Sa
nous donne le nombre dcarts-type qui sparent la
valeur observe de 0.
ero
t mesure ainsi le degr de raret, dans une
population o la valeur de a est 0, dchantillons
dobservations pour lesquels a=a0 (ici a0=2,12).
ni
ua
25
FP
tou
Te
Dans notre exemple, t = 2,12 / 0,106 = 20, ce
qui compr au chiffre lu sur la table de
Student pour n-k-1=7-2=5 degrs de libert
(3,365 avec un seuil de confiance de 0,01)
parat trs significatif.(Voir table)
an
6.- Lintervalle de confiance de a est obtenu
selon une procdure voisine. Si t est le
nombre dcarts-types correspondant au seuil
de confiance , il y a une probabilit (1-) que
la valeur de a soit comprise dans lintervalle
[a-t/2Sa; a+t/2Sa].
26
13
[Link]
28/07/2012
ero
lM
E
Il y a ainsi 99% de chances que la valeur de a
de notre problme soit comprise dans
lintervalle,
[ 2,12- 4(0,106); 2,12+ 4(0,106) ],
puisque t0,005=4 pour 5 degrs de libert.
ni
ua
27
FP
Te
tou
7.- Il sagirait de prvoir quelle serait limportance des
commandes pour un nombre de visites de reprsentants
donn. Ceci peut tre ralis en donnant X, dans le modle,
la valeur choisie.
an
Ainsi, X=20 visites devraient amener, selon le modle, 61 400
DH de commandes en moyenne, puisque 61,4=2,12(20)+19.
28
14
[Link]
28/07/2012
En fait, il faut tenir compte de ce que le modle a t
construit partir dun chantillon de donnes et quil
existe de toute faon un certain ala sur les relations
entre X et Y.
lM
E
La prvision de Y doit saccompagner de la dfinition
dun intervalle de confiance: un seuil de confiance
, la valeur de Y pour X=X0 est comprise dans
lintervelle
ero
2
2
X0 X
X0 X
1
1
Y t S
+
; YX + t 2 S XY
+
2 XY
2
2
2
2
X
0
0
n X nX
n X nX
ni
ua
29
FP
tou
Te
O, on le rappelle, SXY est lcart-type des erreurs du modle.
Lintervalle de confiance est dautant plus important que
- SXY est lev;
- n est faible;
- Xi est loign de la moyenne.
Pour X0=20 et =0,01,
2
Y=61,44(1,26) 1 + 12
7
140
Soit Y=61,45,9.
La rgression linaire simple nous a permis de prsenter les
aspects principaux des techniques de rgression qui peuvent
tre utilises dans llaboration de modles de prvision.
an
30
15
[Link]
28/07/2012
Exercice 2:
lM
E
On sintresse dans un secteur de production
la relation entre les bnfices raliss par les
entreprises et le budget annuel quelles
consacrent la publicit. 15 observations ont
t ralises:
Budget
de
publicit
15 8
Bnfices
48 43 77 89
36 41
16
21
ero
50
40 56
21
53
10
32
17
58
20
62
100
47
71
58
102 35 60
ni
ua
31
FP
Questions:
Te
tou
a) On veut tablir une rgression linaire entre les deux
variables, quelle doit tre la variable endogne?
b) On admet lexistence dune relation linaire de la
forme yi=axi+b+ calculez les estimations des
coefficients a et b.
c) Calculer r lestimation du coefficient de corrlation R.
d) Prcisez lquation danalyse de la variance, calculer
ses valeurs et en dduire le coefficient de
dtermination.
2
e) Sachant que = 10,155 , procdez lestimation des
variances de a et de b .
an
32
16
[Link]
28/07/2012
Questions: (suite)
ero
lM
E
f) Dterminez au seuil de signification de 0,05 , un
intervalle de confiance pour a, un intervalle de
confiance pour b, et un intervalle de confiance
pour 2 .
g) Peut-on affirmer que les coefficients a et b sont
significativement diffrents de 0 pour =0,05?
h) Dterminez un intervalle de confiance pour le
bnfice prvisible relatif une entreprise qui
consacre un budget de 48 son programme
publicitaire. (=0,05).
ni
ua
33
FP
Solution 2:
Te
( X Y ) nXY
(X ) nX
i i
2
i
an
a =
tou
a) La variable endogne Y correspond aux
bnfices qui sont exprims en fonction du
budget de publicit X.
b) Voir tableau
b = Y aX
34
17
[Link]
Xi
Xi 2
Yi
48
43
77
89
50
40
56
62
100
47
71
58
102
35
60
938
Yi2
225
64
1296
1681
256
64
441
441
2809
100
1024
289
3364
36
400
12490
XiYi
2304
1849
5929
7921
2500
1600
3136
3844
10000
2209
5041
3364
10404
1225
3600
64926
720
344
2772
3649
800
320
1176
1302
5300
470
2272
986
5916
210
1200
27437
35
ni
ua
ero
lM
E
15
8
36
41
16
8
21
21
53
10
32
17
58
6
20
362
28/07/2012
362
= 24,13 X 2 = 582,26
15
Te
X=
FP
n = 15
938
= 62,53
15
a =
27437 15 24,13 62,53
= 1,28
12490 15 582,26
an
b = 62,53 1,28 24,13 = 31,67
tou
Y =
Y = 1,28 X + 31,67
36
18
[Link]
2
Yi Y (Yi Y ) Yi Yi (Yi Yi ) 2
Xi Yi X i X ( X i X ) 2 Y i Y (Yi Y ) 2 Yi
15 48
-9,13
83,36 -14,53 211,12
50,87
8 43 -16,13 260,18 -19,53 381,42
41,91
36 77 11,87 140,90 14,47 209,38
77,75
41 89 16,87 284,60 26,47 700,66
84,15
16 50
66,10 -12,53 157,00
52,15
8 40 -16,13 260,18 -22,53 507,60
41,91
lM
E
-8,13
21 56
-3,13
9,80
-6,53
42,64
58,55
21 62
-3,13
9,80
-0,53
0,28
58,55
53 100 28,87 833,48 37,47 1404,00
99,51
10 47 -14,13 199,66 -15,53 241,18
44,47
32 71
7,87
61,94
8,47
71,74
72,63
17 58
-7,13
50,84
-4,53
20,52
53,43
ero
58 102 33,87 1147,18 39,47 1557,88
105,91
6 35 -18,13 328,70 -27,53 757,90
39,35
20 60
362 938
-4,13
17,06
3753,73
-2,53
6,40
28/07/2012
57,27
-11,66 135,96
-20,62 425,18
15,22 231,65
21,62 467,42
-10,38 107,74
-20,62 425,18
-3,98 15,84
-3,98 15,84
36,981367,52
-18,06 326,16
10,1 102,01
-9,1 82,81
43,381881,82
-23,18 537,31
-5,26 27,67
6269,73
2,87
-1,09
0,75
-4,85
2,15
1,91
2,55
-3,45
-0,49
-2,53
1,63
-4,57
3,91
4,35
-2,73
6150,13
8,24
1,19
0,56
23,52
4,62
3,65
6,50
11,90
0,24
6,40
2,66
20,88
15,29
18,92
7,45
132,01
ni
ua
37
R=
( X Y ) nXY
i i
n X Y
Te
X =
1
(X i X )2 = 3753,73 = 15,82
n
15
tou
Y =
FP
c)
R = 0,989
an
1
(Yi Y )2 = 6269,73 = 20,44
n
15
38
19
[Link]
28/07/2012
d) Dispersion totale:
(Y Y )
= 6269,73
Dispersion explique:
lM
E
(Y Y )
= 6150,13
Dispersion rsiduelle:
(Y Y )
= 132,01
ero
6269,73=6150,13+132,01
ni
ua
39
FP
Le coefficient de dtermination est:
6137,72
= 0,9789
6269,73
Te
R2 =
tou
Ce coefficient est proche de 1, on peut en
dduire que la variabilit explique par droite
de rgression est satisfaisante.
an
40
20
[Link]
e) On a
28/07/2012
2 = 10,155
Alors,
lM
E
S = Var (a ) =
2
a
(X
X)
= 0,0027
et
X2
2 1
= 2,2526
Var b = +
2
n
(X i X )
()
ero
ni
ua
41
FP
2
f) Intervalle de confiance pour
tou
Te
2
2
La variable 2 = (n 2) 2 suit une loi
(n-2) degrs de libert.
2
Donc, on part de P A < (n 2) < B = 1
2
i
2
2
I = ( n 2)
; ( n 2) = [5,336 ; 26,35]
B
A
an
Lintervalle de confiance pour 2 est alors:
42
21
[Link]
28/07/2012
Lintervalle pour a: a t1 a ; a + t1 a
avec t lue sur la table de Student n-2=13
degr de libert. (t=2,16).
lM
E
I = [1,166 ; 1,391]
Intervalle pour b:
[b t
b ; b + t1 b
ero
I = [28,432 ; 34,916]
ni
ua
43
FP
tou
Te
g) Le t empirique de Student est donn par a ,
on compare la valeur de ce rapport avec a
t=2,16.
On trouve quil est suprieur en valeur absolue
2,16 pour les deux paramtres a et b.
Donc ces paramtres sont significativement
diffrents de 0. La variable exogne contribue
bien expliquer Y.
an
P( 2,16 < t(13) < 2,16) = 0,95
44
22
[Link]
28/07/2012
h)
1 ( x0 x ) 2
1 + +
; ( ax0 + b) + t1 S
2
n
lM
E
I (Y0 ) = (ax0 + b) t1 S
1 ( x0 x ) 2
1 + +
2
n
I (Y48 ) = [(1,28 48 + 31,67) 2,16 12,335; (1,28 48 + 31,67) + 2,16 12,335]
I (Y48 ) = [85,45 ; 100,65]
ero
ni
ua
45
FP
Rfrences:
Te
tou
Exercice 1:
Jean-Pierre Vedrine, Techniques
Quantitatives de Gestion , Vuibert gestion.
Exercice 2:
Kamal Abdelillah, Sondages et tests
Statistiques Fdala, 1998
an
46
23