Stat 2
Stat 2
Dans le chapitre 1, nous avons considéré des individus dont nous avons étudié un
seul caractère. Il apparaît nécessaire pour l’étude de certaines populations d’examiner
à la fois plusieurs caractères. Pour un groupe de sportifs de haut niveau on envisagera
: la taille, le poids, le rythme cardiaque, le taux de globules rouges, etc...Une analyse
de tous ces facteurs permet un suivi adapté et une préparation améliorée. On pourra
même essayer de chercher une éventuelle corrélation des différents facteurs entre
eux. Dans ce cours, nous nous contenterons de « mesurer » deux caractères
quantitatifs. On parlera alors de série statistique double.
X x1 x2 ..... xi .... xn
Y y1 y 2 ..... yi .... yn
→ →
On représentera l’ensemble de ces points dans un repère O, i , j
L’ensemble des n points s’appelle le nuage de points représentant la série statistique
des deux variables X et Y.
d i
Le point G de coordonnées x ; y où x et y sont respectivement les moyennes des
valeurs prises par la variable X et Y est appelé point moyen de la série. On le fera
systématiquement figurer avec le nuage.
Nuage de points
60
50
Valeurs du second caractère
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9
Valeurs du premier caractère
On classe les points par valeurs croissantes de la variable X, puis on partage le nuage
en deux nuages de même effectif ( à peu près ). On calcule alors les points moyens
G1 du premier nuage et G2 du deuxième nuage. On obtient ainsi une droite G1G2 b g
d’ajustement du nuage de point.
Malheureusement, on ne peut pas connaître l’erreur commise et la perte exacte
d’information. Ces méthodes ne marchent que lorsque la corrélation linéaire apparaît
évidente. On leur préférera la méthode suivante plus lourde à mettre en œuvre sur le
plan mathématique, mais d’une utilisation enfantine grâce aux calculettes.
y
y = ax + b
y1
ax1 + b
M2
O x1 x
R| d Sba ,bg = 0
|S d a
|| d Sba ,bg = 0
T db
On commencera par dériver S par rapport à b, puis on remplacera b par sa valeur en
fonction de a dans S avant de dériver le résultat par rapport à a.
2 2 2
b g b g b g b g
n n n n
S a ,b = ∑ yi − axi − b = ∑ yi − axi + ∑ b − 2b∑ yi − axi =
i =1 i =1 i =1 i =1
2
F I
∑ b yi − axi g
n n n
+ nb 2
− 2bG ∑ y − a ∑ x J
i =1 H K
i =1
i
i =1
i
b g
d S a ,b F y − a x I = 0 ⇔ b = 1 F y − a x I ⇔ b = y − ax
n n n n
db GH ∑ ∑ JK
= 2nb − 2
n GH
∑ ∑ JK
i =1
i
i =1
i
i =1
i
i =1
i
2 2
b g
n n
S a ,b = ∑ yi − y − a x − axi
i =1
e d i j i =1
e
= ∑ yi − y − a xi − x d ij =
n 2 n 2 n
∑ d y − yi
i +a 2
∑ d x − xi i − 2 a ∑ yi − y x i − x = d id i
i =1 i =1 i =1
b g = 2a ∑ d x − x i
d S a ,b n
i
2 n
d
− 2 ∑ y i − y xi − x = 0 id i
da i =1 i =1
n n 2
d
⇔ ∑ y i − y xi − x = a ∑ x i − x id i d i
i =1 i =1
n
1 n
∑ d yi − y id xi − x i ∑ yi − y x i − x
n i =1
d id i b g
cov X ,Y
i =1
⇔a = = =
n 2
1 n
2 var b X g
∑ d xi − x i ∑ xi − x
n i =1
d i
i =1
y − y = a( x − x ) avec
a=
b g
cov X ,Y
b g
et cov X ,Y =
1 n
d id
∑ yi − y x i − x i
b g
var X n i =1
Nous avons déterminé ainsi l’équation d’une droite. La méthode donnera toujours un
résultat quelle que soit la configuration du nuage de points. Cependant il faut
s’assurer que cet ajustement est convenable afin de pouvoir conjecturer. Dans ce
calcul nous avons privilégié x par rapport à y. En fait, c’est la nature du problème qui
donne le « sens » : y « s’explique » par x ou x « s’explique » par y.
M2
M1
O
y1 − b
. x1 x
a
b g b g
Soit la fonction S a,b qui au couple de réels a,b associe la somme des carrés des
distances M i Hi , Hi étant la projection du point M i sur la droite D parallèlement à
l’axe des abscisses. On effectue le même calcul que précédemment.
F y − b − x IJ
S ba ,bg = ∑ G
n 2
=
1
∑ b yi − b − axi g
n 2
=
1
∑ b yi − axi − bg
n 2
H a K
i
i
i =1 a2 i =1 a2 i =1
2 2
∑ b yi − axi g ∑ b yi − axi g
n n n
1 1 2b
=
a2
+
a2
∑b −
a2
i =1 i =1 i =1
2
F y −a x I
∑b g
n n n
nb 2 2b
GH ∑ ∑ JK
1
= yi − axi + − i i
a2 i =1 a2 a2 i =1 i =1
b g = 2nb − 2 F ∑ y − a∑ x I = 0 ⇔ b = 1 F ∑ y − a∑ x I
d S a ,b n n n n
db a a H
G JK
2 n GH 2 JKi =1
i
i =1
i
i =1
i
i =1
i
⇔ b = y − ax
b g
On remplace b dans S a,b
F y − b − x IJ = 1 ∑ e y − d y − a xi − ax j
S ba ,bg = ∑ G
n 2 n 2
H a K a
i
i 2 i i
i =1 i =1
n 2
∑ d yi − y − a( xi − x )i
1
=
a2 i =1
n 2 n 2 n
a2
∑ d y − yi ∑ d x − xi ∑ d yi − y id xi − x i
1 2a
= i + i −
a2 i =1 a2 i =1 a2 i =1
n 2 n 2
2 n
∑ d y − yi d i d id i
1
= i + ∑ xi − x − ∑ yi − y xi − x
a2 i =1 i =1
a i =1
b g
d S a ,b −2 n
= 3 ∑ yi − y d i
2
+
2 n
∑ d yi − y id xi − xi = 0
da a i =1 a2 i =1
n 2
1 n
⇔∑ d id
yi − y xi − x = ∑ yi − y
a i =1
i d i
i =1
n
1 n
1
∑ d yi − y id xi − x i d
∑ yi − y x i − x
n i =1
id i cov( X ,Y )
i =1
⇔ = = =
a n 2
1 n
2 var Y bg
∑ d yi − y i ∑ yi − y
n i =1
d i
i =1
Finalement : y = ax + b ⇔ y = ax + y − a x ⇔
1
a
d
y−y = x−x i
Service Commun de Formation Continue de l’INPL 6
Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000
en posant
1
a
d i
= a ′ on obtient x − x = a ′ y − y droite d’ajustement de x en y, qui
contient le point moyen G.
Formules à retenir :
a′ =
b g
cov X ,Y
d
et x − x = a ′ y − y i
bg
var Y
var b X g var bY g
On pose r=
b g
cov X ,Y
σ Xσ Y
(STAT02E01A)
X 1 5 9 12 15
Y 3,25 4,01 4,59 5,15 5,69
t (en jours) 0 2 4 6 8 10 12 14 16
x effectif 15 59 199 448 631 697 715 720 720
Le plan étant rapporté à un repère orthogonal avec les unités graphiques suivantes :
b g
On représente le nuage des 9 points de coordonnées t , x sur une feuille de papier
millimétrée.
800
700
600
500
Effectif
400
300
200
100
0
0 2 4 6 8 10 12 14 16
Jours
On s’aperçoit que le nuage n’est pas de forme allongée. On essaye donc de trouver
une courbe qui représenterait le mieux possible le nuage. On suppose une
progression exponentielle, et comme la limite de 720 est une donnée expérimentale,
on essaye différents changements de variable dont le suivant donne de bons
résultats :
FG x IJ
y= ln
H 720 − x K
t (en jours) 0 2 4 6 8 10 12
x effectif 15 59 199 448 631 697 715
y=ln(x/(720-x)) -3,85 -2,42 -0,96 0,50 1,96 3,41 4,96
b g
Le graphe t i , yi devient alors:
5,000
4,000
3,000
2,000
y=ln(x/(720-x))
1,000
0,000
0 2 4 6 8 10 12
-1,000
-2,000
-3,000
-4,000
Jours
⇔x t =
1+ e
bg
720
−0 ,73t + 3,88
ce qui confirme l’hypothèse de départ.
On peut calculer yi − y!i où y!i = 0,73t i − 3,88 pour tous les i et vérifier que le
∧
résultat est bon. On appelle résidu, le nombre d i = yi − yi . L’étude de ces résidus
permet de comprendre comment se répartissent les points par rapport à cette droite de
régression.
Pour étudier une relation effet dose d’un médicament, on réalise une expérience sur
les souris qui fournit les résultats suivants :
On pose u = ln x et v = ln y
(I) : y = ax + b (II) : v = ax + b
(III): y = au + b (IV) : v = au + b
Les méthodes (I) et (IV) sont acceptables. (II) est moins bonne.
(III) apparaît comme la meilleure méthode avec une corrélation très correcte.
bg
f 1 x = 15x − 18,36
f b xg = e
2
0 ,4 x +1,73
f b x g = 77 ,39 ln x − 6181
3 ,
f b x g = 1,3x
4
2 .28
(STAT02E02A)
dans laquelle une mole d’acétate de méthyle et une mole de soude se transforment de
manière irréversible en une mole d’acétate de sodium et une mole de méthanol.
1 1
On pose u = et v =
t x
1. Compléter le tableau en prenant comme variables u et v. On arrondira les valeurs
au centième le plus proche.
2. Le plan étant rapporté à un repère orthogonal avec les unités graphiques
suivantes : 1cm pour 2 × 10−3 sur l’axe des abscisses et 1cm pour 10 unités sur
l’axe des ordonnées. Construire le nuage de points (ui ,vi ) dans le repère défini
ci-dessus.
3. Grâce aux résultats de la question 2), déterminer une équation de la droite
d’ajustement de linéaire de v en u au sens des moindres carrés. Construire cette
droite dans le repère précédent.
4. Déduire de cette question une expression de x (t ) , et l’écrire sous la forme
αt
x (t ) =
β t + 100
(STAT02S01)
Rang Xi 4 5 6 7 8 9 10 11 12
Heures Yi 1067,5
3. Donner alors une estimation des heures d’utilisation des perceuses lors de l’année
2000 en utilisant les résultats de la question précédente et en supposant que la
tendance se poursuive.
(STAT02S02)
bg
5. En déduire l’expression de N t en fonction de t, puis une estimation du nombre
de bactéries par millilitre à l'instant t = 4 .
(STAT02E01B)
X 1 2 4 7 10
Y 2,5 4,1 6,5 12 16,9
(STAT02E01C)
Dans cet exercice nous présentons une méthode de lissage des données. Nous
emploierons celle-ci lorsque la série est chronologique et que les données présentent
des fluctuations saisonnières. On transforme alors la série en remplaçant chaque
point par un point moyen partiel de n points précédents incluant celui-ci. On corrige
ainsi les variations périodiques.
Considérons le tableau de valeurs suivant :
0 1 2 3 4 5 6 7 8 9 10 11
20,1 20,3 19,8 20,05 19 19,6 18,7 19,2 18,35 18,85 18,2 18,4
0 1 2 3 4 5 6 7 8 9 10 11
20,1 20,3 19,8 20,05 19 19,6 18,7 19,2 18,35 18,85 18,2 18,4
Données lissées Z 20,07 20,05 19,62 19,55 19,10 19,17 18,75 18,80 18,47 18,48
(STAT02E02B)
X heures 0 2 4 6 8 12 16 20 24
Y mm 36 36,05 36,06 36,13 36,14 36,19 36,2 36,21 36,26
(STAT02E01A)
1.
Nuage de points
6
4
Y
2
0
0 5 10 15 20
X
Le nuage a une forme allongée qui peut laisser penser qu’une régression linéaire
donnera de bons résultats. On peut d’ailleurs tracer « à la main » une droite qui passe
le plus près possible de l’ensemble des points. Pour trouver facilement son équation
réduite, on choisit deux points du nuage qui appartiennent à cette droite. Ici en
l’occurrence le premier et le troisième, ce qui donne : y = 0,1675 x + 3, 0825 .
2. Avec le point moyen G (8, 40; 4,54 ) , et par exemple le premier point, on obtient
l’équation : y = 0,174 x + 3, 076 .
Evidemment, les deux équations sont très proches.
4.
y = 0,1675 × 23 + 3, 0825 = 6,935
y = 0,174 × 23 + 3, 076 = 7 , 078
y = 0,172 × 23 + 3, 095 = 7 , 051
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).
(STAT02E01B)
1.
Nuage de points
20
15
10 Y
Y
5
0
0 5 10 15
X
X Y X² Y² XY
1 2,5 1 6,25 2,5
2 4,1 4 16,81 8,2
4 6,5 16 42,25 26
7 12 49 144 84
10 16,9 100 285,61 169
Sommes 24 42 170 494,92 289,7
moy X= 4,80 moy Y= 8,40
var X= 10,96 var Y= 28,42
s X= 3,31 s Y= 5,33
Cov(X,Y) 17,62
r= 0,998
a= 1,608 a'= 0,6199
b= 0,683 b'= -0,4071
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).
(STAT02E01C)
X Y X² Y² XY
Données
Z² XZ
0 20,1 0 404,01 0 lissées Z
1 20,3 1 412,09 20,3
2 19,8 4 392,04 39,6 20,07 402,7 40,1
3 20,05 9 402,0025 60,15 20,05 402,0 60,2
4 19 16 361 76 19,62 384,8 78,5
5 19,6 25 384,16 98 19,55 382,2 97,8
6 18,7 36 349,69 112,2 19,10 364,8 114,6
7 19,2 49 368,64 134,4 19,17 367,4 134,2
8 18,35 64 336,7225 146,8 18,75 351,6 150,0
9 18,85 81 355,3225 169,65 18,80 353,4 169,2
10 18,2 100 331,24 182 18,47 341,0 184,7
11 18,4 121 338,56 202,4 18,48 341,6 203,3
Sommes 66 230,55 506 4435,4775 1241,5 192,05 3691,5 1232,5
X Y Z X'
moy= 5,50 moy= 19,21 moy= 19,21 moy= 6,50
variance= 11,92 variance= 0,50 variance= 0,32 variance= 8,25
ecart type= 3,45 ecart type= 0,71 ecart type= 0,57 ecart type= 2,87
cov XY= -2,21 Cov XZ= -1,59
a= -0,19 a= -0,19
b= 20,23 b= 20,46
r= -0,90 r= -0,98
Tous les résultats demandés figurent dans ce tableau, avec l’ensemble des
intermédiaires. Il serait bon que chacun sache faire ce travail sur un tableur.
la corrélation avec les données brutes est assez bonne, mais sans plus r ≈ 0,9 . En
revanche on observe une amélioration nette avec les données lissées. En effet
r ≈ 0,98 , ce qui constitue une très bonne corrélation.
Les quelques irrégularités dues aux incertitudes sur les mesures et l’erreur humaine
sont quelque peu nivelées et partiellement gommées.
Cette méthode sera souvent utilisée pour tous les phénomènes qui sont fonction du
temps, faisant intervenir des variations saisonnières ou périodiques.
Il existe de nombreuses autres méthodes pour affiner les études de ce type, moyennes
échelonnées, moyennes discontinues etc…
Vous pourrez consulter à ce sujet des ouvrages traitant des statistiques en sciences de
gestion.
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.
(STAT02E02A)
1 Tableau de valeurs
2 Nuage de points
Nuage de points
300,000
200,000
1/x
100,000
0,000
0,000 0,010 0,020 0,030 0,040
1/t
4 Calcul de l’expression de x (t )
1 1 1 4399 , 29 + 95, 28t
= 4399, 29 + 95, 28 ⇔ =
x t x t
t 0 ,02t
⇔ x (t ) = ⇔ x (t ) =
4399, 29 + 95, 28t 100 + 2 ,17t
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).
(STAT02E02B)
Le tableau Excel donne tous les résultats permettant de répondre aux questions.
X heures Y mm X² Y² XY
0 36 0 1296 0
2 36,05 4 1299,6 72,1
4 36,06 16 1300,32 144,24
6 36,13 36 1305,38 216,78
8 36,14 64 1306,1 289,12
12 36,19 144 1309,72 434,28
16 36,2 256 1310,44 579,2
20 36,21 400 1311,16 724,2
24 36,26 576 1314,79 870,24
Total 92 325,24 1496 11753,51 3330,16
de 6 à 24
X Y X Y
Moyenne 10,222 36,138 14,333 36,188
Variance 61,728 0,007 40,556 0,002
Ecart type 7,857 0,081 6,368 0,044
1 Nuage de points :
Nuage de points
36,30
36,25
36,20
Y en mm
36,15
Y mm
36,10
36,05
36,00
35,95
0,00 5,00 10,00 15,00 20,00 25,00 30,00
X en heures
Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.
(STAT02E01A)
• Le nuage a une forme allongée qui peut laisser penser qu’une régression linéaire
donnera de bons résultats. On peut d’ailleurs tracer « à la main » une droite qui
passe le plus près possible de l’ensemble des points. Pour trouver facilement son
équation réduite, on choisit deux points du nuage qui appartiennent à cette droite
• Compte tenu de la forme des données, il doit y avoir concordance des résultats
(STAT02E01B)
Dans le cours, nous avons vu que le coefficient de corrélation avait été introduit à
partir des nombres a et a ′ , mis en évidence dans le tableau de calcul. On a :
r 2 = a × a'
1
les pentes des deux droites doivent être très proches l’une de l’autre : a ≈
a′
Vous pouvez utiliser un tableur pour présenter les calculs.
(STAT02E01C)
Soyez très attentif à cet exercice qui pourrait faire partie du cours.
Les quelques irrégularités dues aux incertitudes sur les mesures et l’erreur humaine
sont quelque peu nivelées et partiellement gommées grâce à la méthode des
moyennes mobiles préconisée ici.
Cette méthode sera souvent utilisée pour tous les phénomènes qui sont fonction du
temps, faisant intervenir des variations saisonnières ou périodiques.
(STAT02E02A)
4 Calcul de l’expression de x (t )
Il faut penser à diviser par 100 les deux membres de la fraction résultat.
(STAT02E02B)
Il faut remplir avec l’aide d’EXCEL ou d’une bonne calculette le tableau suivant :
X heures Y mm X² Y² XY
0 36
2 36,05
4 36,06
6 36,13
8 36,14
12 36,19
16 36,2
20 36,21
24 36,26
Total 92 325,24
de 6 à 24
X Y X Y
Moyenne
Variance
Ecart type
covariance
a
b
r=