0% ont trouvé ce document utile (0 vote)
66 vues31 pages

Stat 2

Ce document traite de l'analyse statistique à deux variables, en se concentrant sur la représentation graphique des données à l'aide de nuages de points et d'ajustements linéaires. Il décrit différentes méthodes pour établir une corrélation entre deux variables quantitatives, notamment l'ajustement graphique et la méthode des moindres carrés. L'objectif est de déterminer une droite d'ajustement qui représente au mieux la relation entre les deux variables.

Transféré par

doriane tegs
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
66 vues31 pages

Stat 2

Ce document traite de l'analyse statistique à deux variables, en se concentrant sur la représentation graphique des données à l'aide de nuages de points et d'ajustements linéaires. Il décrit différentes méthodes pour établir une corrélation entre deux variables quantitatives, notamment l'ajustement graphique et la méthode des moindres carrés. L'objectif est de déterminer une droite d'ajustement qui représente au mieux la relation entre les deux variables.

Transféré par

doriane tegs
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STAT02 COURS octobre2000

Statistique à deux variables

Dans le chapitre 1, nous avons considéré des individus dont nous avons étudié un
seul caractère. Il apparaît nécessaire pour l’étude de certaines populations d’examiner
à la fois plusieurs caractères. Pour un groupe de sportifs de haut niveau on envisagera
: la taille, le poids, le rythme cardiaque, le taux de globules rouges, etc...Une analyse
de tous ces facteurs permet un suivi adapté et une préparation améliorée. On pourra
même essayer de chercher une éventuelle corrélation des différents facteurs entre
eux. Dans ce cours, nous nous contenterons de « mesurer » deux caractères
quantitatifs. On parlera alors de série statistique double.

1 Nuage de points, points moyens :

On notera X et Y les deux variables statistiques associées aux caractères quantitatifs


étudiés.
L’individu est caractérisé par deux valeurs : la valeur du premier caractère que nous
noterons en général xi et la valeur du deuxième caractère que nous noterons yi . On
b g
pourra donc associer à chaque individu un point du plan M i xi ; yi . On mémorisera
ces valeurs dans le tableau des données sous la forme :

X x1 x2 ..... xi .... xn
Y y1 y 2 ..... yi .... yn

 → →
On représentera l’ensemble de ces points dans un repère  O, i , j 
 
 
L’ensemble des n points s’appelle le nuage de points représentant la série statistique
des deux variables X et Y.
d i
Le point G de coordonnées x ; y où x et y sont respectivement les moyennes des
valeurs prises par la variable X et Y est appelé point moyen de la série. On le fera
systématiquement figurer avec le nuage.

Service Commun de Formation Continue de l’INPL 1


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

2,3 3 3,6 4,3 5 5,7 6,7 6,8 8, 8,9


Y 16 12 18 28 28 38 30 44 50 54

Nuage de points

60

50
Valeurs du second caractère

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9
Valeurs du premier caractère

Le point moyen est donc G 5,43;318


, b g
2 Ajustement linéaire par méthode graphique.

2.1.1 Corrélation linéaire

Nous allons essayer en regardant ce graphique de conjecturer sur le nuage. Est-ce


une forme allongée rectiligne, une forme allongée non rectiligne ou tout simplement
un nuage uniformément réparti dans le plan.
Sur l’exemple proposé on peut affirmer qu’il s’agit plutôt d’une forme allongée
rectiligne. L’idée est d’essayer de remplacer ce nuage par une droite qui le
représenterait le mieux possible. On dira alors qu’il y a une corrélation linéaire
entre X et Y. Proposer une droite revient à procéder à un ajustement linéaire.
Lorsque nous aurons l’équation de cette droite d’ajustement il sera aisé, étant donné
x de trouver le y supposé convenir. Nous essaierons, en fonction de la méthode
utilisée et si nous le pouvons, de quantifier l’erreur commise par cette approximation.

Service Commun de Formation Continue de l’INPL 2


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

2.1.2 Méthode empirique

Il suffit de prendre sa règle et « au jugé » de tracer la droite qui semble la meilleure


( la plus proche en moyenne des points ). Il est conseillé dans cette démarche de faire
passer cette droite par deux points du nuage afin d’obtenir aisément son équation.
b g b g
Sur la droite proposée ci-dessus, on a choisi les points 3;12 et 5;28 qui donnent
l’équation suivante : 8 x − y − 12 = 0 . Si x = 4 , on peut conjecturer y = 20 .

2.1.3 Méthode de Mayer

On classe les points par valeurs croissantes de la variable X, puis on partage le nuage
en deux nuages de même effectif ( à peu près ). On calcule alors les points moyens
G1 du premier nuage et G2 du deuxième nuage. On obtient ainsi une droite G1G2 b g
d’ajustement du nuage de point.
Malheureusement, on ne peut pas connaître l’erreur commise et la perte exacte
d’information. Ces méthodes ne marchent que lorsque la corrélation linéaire apparaît
évidente. On leur préférera la méthode suivante plus lourde à mettre en œuvre sur le
plan mathématique, mais d’une utilisation enfantine grâce aux calculettes.

2.2 Ajustement linéaire par la méthode des moindres carrés.


M3

y
y = ax + b

y1

ax1 + b
M2

O x1 x

Le nuage de points étant donné, on essaye de trouver la meilleure droite


b g
D: y = ax + b pour le représenter. On fabrique donc la fonction S a,b qui au couple
b g
de réels a,b associe la somme des carrés des distances M i Hi , Hi étant la
projection du point M i i sur la droite D parallèlement à l’axe des ordonnées ( critère
des moindres carrés ; Il est possible de minimiser les distances, en prenant la
projection orthogonale du point sur la droite D ). On admettra que le calcul proposé,
plus aisé donne une solution acceptable au problème. C’est d’ailleurs la meilleure
selon le critère choisi. On cherche ensuite a et b pour rendre cette fonction minimum.
On utilise pour cela les dérivées partielles de S. Et on résout le système :

Service Commun de Formation Continue de l’INPL 3


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

R| d Sba ,bg = 0
|S d a
|| d Sba ,bg = 0
T db
On commencera par dériver S par rapport à b, puis on remplacera b par sa valeur en
fonction de a dans S avant de dériver le résultat par rapport à a.

2 2 2
b g b g b g b g
n n n n
S a ,b = ∑ yi − axi − b = ∑ yi − axi + ∑ b − 2b∑ yi − axi =
i =1 i =1 i =1 i =1

2
F I
∑ b yi − axi g
n n n
+ nb 2
− 2bG ∑ y − a ∑ x J
i =1 H K
i =1
i
i =1
i

b g
d S a ,b F y − a x I = 0 ⇔ b = 1 F y − a x I ⇔ b = y − ax
n n n n

db GH ∑ ∑ JK
= 2nb − 2
n GH
∑ ∑ JK
i =1
i
i =1
i
i =1
i
i =1
i

On remplace b dans S ba,bg

2 2
b g
n n
S a ,b = ∑ yi − y − a x − axi
i =1
e d i j i =1
e
= ∑ yi − y − a xi − x d ij =

n 2 n 2 n
∑ d y − yi
i +a 2
∑ d x − xi i − 2 a ∑ yi − y x i − x = d id i
i =1 i =1 i =1

b g = 2a ∑ d x − x i
d S a ,b n
i
2 n
d
− 2 ∑ y i − y xi − x = 0 id i
da i =1 i =1
n n 2
d
⇔ ∑ y i − y xi − x = a ∑ x i − x id i d i
i =1 i =1
n
1 n
∑ d yi − y id xi − x i ∑ yi − y x i − x
n i =1
d id i b g
cov X ,Y
i =1
⇔a = = =
n 2
1 n
2 var b X g
∑ d xi − x i ∑ xi − x
n i =1
d i
i =1

Service Commun de Formation Continue de l’INPL 4


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

La droite a donc pour équation :

y − y = a( x − x ) avec

a=
b g
cov X ,Y
b g
et cov X ,Y =
1 n
d id
∑ yi − y x i − x i
b g
var X n i =1

Nous avons déterminé ainsi l’équation d’une droite. La méthode donnera toujours un
résultat quelle que soit la configuration du nuage de points. Cependant il faut
s’assurer que cet ajustement est convenable afin de pouvoir conjecturer. Dans ce
calcul nous avons privilégié x par rapport à y. En fait, c’est la nature du problème qui
donne le « sens » : y « s’explique » par x ou x « s’explique » par y.

Nous allons recommencer le même travail en inversant les rôles de x et y. Si la


corrélation est bonne, nous devrions normalement trouver un résultat analogue. Cela
revient pratiquement à mettre en abscisses les valeurs du deuxième paramètre et en
ordonnées les valeurs du premier paramètre, ou plus simplement à calculer les
distances « horizontalement ».
M3 y = ax + b
y

M2
M1

O
y1 − b
. x1 x
a

b g b g
Soit la fonction S a,b qui au couple de réels a,b associe la somme des carrés des
distances M i Hi , Hi étant la projection du point M i sur la droite D parallèlement à
l’axe des abscisses. On effectue le même calcul que précédemment.

Service Commun de Formation Continue de l’INPL 5


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

F y − b − x IJ
S ba ,bg = ∑ G
n 2
=
1
∑ b yi − b − axi g
n 2
=
1
∑ b yi − axi − bg
n 2

H a K
i
i
i =1 a2 i =1 a2 i =1

2 2

∑ b yi − axi g ∑ b yi − axi g
n n n
1 1 2b
=
a2
+
a2
∑b −
a2
i =1 i =1 i =1
2
F y −a x I
∑b g
n n n
nb 2 2b
GH ∑ ∑ JK
1
= yi − axi + − i i
a2 i =1 a2 a2 i =1 i =1

b g = 2nb − 2 F ∑ y − a∑ x I = 0 ⇔ b = 1 F ∑ y − a∑ x I
d S a ,b n n n n

db a a H
G JK
2 n GH 2 JKi =1
i
i =1
i
i =1
i
i =1
i

⇔ b = y − ax

b g
On remplace b dans S a,b

F y − b − x IJ = 1 ∑ e y − d y − a xi − ax j
S ba ,bg = ∑ G
n 2 n 2

H a K a
i
i 2 i i
i =1 i =1
n 2

∑ d yi − y − a( xi − x )i
1
=
a2 i =1

n 2 n 2 n
a2
∑ d y − yi ∑ d x − xi ∑ d yi − y id xi − x i
1 2a
= i + i −
a2 i =1 a2 i =1 a2 i =1

n 2 n 2
2 n
∑ d y − yi d i d id i
1
= i + ∑ xi − x − ∑ yi − y xi − x
a2 i =1 i =1
a i =1

b g
d S a ,b −2 n
= 3 ∑ yi − y d i
2
+
2 n
∑ d yi − y id xi − xi = 0
da a i =1 a2 i =1
n 2
1 n
⇔∑ d id
yi − y xi − x = ∑ yi − y
a i =1
i d i
i =1
n
1 n
1
∑ d yi − y id xi − x i d
∑ yi − y x i − x
n i =1
id i cov( X ,Y )
i =1
⇔ = = =
a n 2
1 n
2 var Y bg
∑ d yi − y i ∑ yi − y
n i =1
d i
i =1

Finalement : y = ax + b ⇔ y = ax + y − a x ⇔
1
a
d
y−y = x−x i
Service Commun de Formation Continue de l’INPL 6
Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

en posant
1
a
d i
= a ′ on obtient x − x = a ′ y − y droite d’ajustement de x en y, qui
contient le point moyen G.

Formules à retenir :

a′ =
b g
cov X ,Y
d
et x − x = a ′ y − y i
bg
var Y

On peut remarquer que a a ′ =


ccovb X ,Y gh 2

var b X g var bY g

La corrélation sera bonne si les deux droites d’ajustement de x en y et de y en x sont


proches l’une de l’autre. C’est à dire si les pentes sont proches. C’est à dire si
1
a≈ ⇔ a a′ ≈ 1
a′

On pose r=
b g
cov X ,Y
σ Xσ Y

on peut donc conclure que l’ajustement est bon si et seulement si r ≈ 1

On appelle r le coefficient de corrélation linéaire. En pratique, on exigera que r


r
vérifie la condition : n − 2 >2
1− r 2

• Si la corrélation est bonne, alors l’utilisation de la droite de régression de y en x


permettra de conjecturer correctement sur y connaissant x. En revanche pour
estimer x lorsque l’on connaît y, il faudrait en tout état de cause déterminer la
droite de régression de x en y. Cependant si la corrélation est excellente, les deux
droites étant très proches, on se contentera de la droite de régression de y en x.

• En général il ne faut pas confondre corrélation et causalité. Il peut y avoir une


excellente corrélation, mais aucun lien de cause à effet entre les deux caractères.
Souvent les deux phénomènes étudiés sont soumis aux mêmes influences qui en
modifient simultanément les valeurs.

Service Commun de Formation Continue de l’INPL 7


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

(STAT02E01A)

Soit le tableau de valeurs suivant :

X 1 5 9 12 15
Y 3,25 4,01 4,59 5,15 5,69

1. Représenter graphiquement le nuage de points M ( X i ;Yi ) dans le plan muni


d’un repère orthogonal (choisir des unités adaptées).

2. Calculer les coordonnées du point moyen G et donner l’équation réduite d’une


droite, passant par G et un autre point du nuage, qui représente correctement le
nuage. Tracer cette droite.

3. Déterminer par la méthode des moindres carrés, l’équation réduite de la droite de


régression de Y en X. Calculer le coefficient de corrélation et conclure.

4. En supposant que l’évolution observée se poursuive, donner en utilisant


successivement les deux méthodes précédentes la valeur de Yi pour la valeur
X i = 23 . Quelle remarque peut-on faire.

(On arrondira les résultats au centième le plus proche)

Service Commun de Formation Continue de l’INPL 8


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

3 Ajustement non linéaire.

On note x le nombre d’individus d’une population à l’instant t exprimé en jours.


Dans un environnement limité, l’effectif de la population tend vers une limite finie K.

Une culture de crustacés planctoniques donne les résultats suivants :

t (en jours) 0 2 4 6 8 10 12 14 16
x effectif 15 59 199 448 631 697 715 720 720

La population se stabilise au bout du quatorzième jour et donc, dans cette expérience,


K = 720 .

Le plan étant rapporté à un repère orthogonal avec les unités graphiques suivantes :

1 cm pour un jour en abscisse


1 cm pour 50 individus en ordonnée

b g
On représente le nuage des 9 points de coordonnées t , x sur une feuille de papier
millimétrée.

Service Commun de Formation Continue de l’INPL 9


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

800

700

600

500
Effectif

400

300

200

100

0
0 2 4 6 8 10 12 14 16
Jours

On s’aperçoit que le nuage n’est pas de forme allongée. On essaye donc de trouver
une courbe qui représenterait le mieux possible le nuage. On suppose une
progression exponentielle, et comme la limite de 720 est une donnée expérimentale,
on essaye différents changements de variable dont le suivant donne de bons
résultats :

FG x IJ
y= ln
H 720 − x K
t (en jours) 0 2 4 6 8 10 12
x effectif 15 59 199 448 631 697 715
y=ln(x/(720-x)) -3,85 -2,42 -0,96 0,50 1,96 3,41 4,96

b g
Le graphe t i , yi devient alors:

Service Commun de Formation Continue de l’INPL 10


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

5,000

4,000

3,000

2,000
y=ln(x/(720-x))

1,000

0,000
0 2 4 6 8 10 12
-1,000

-2,000

-3,000

-4,000
Jours

On peut donc chercher l’équation de la droite par méthode graphique ou par la


méthode des moindres carrés si l’on possède une calculette performante.
La calculette donne :
y = 0,73t − 3,88 avec r = 0,9999
L’ajustement est excellent et la conjecture faite au début du paragraphe très bonne.
xFG IJ
Donc x vérifie l’égalité : ln
H
720 − x K
= 0,73t − 3,88

⇔x t =
1+ e
bg
720
−0 ,73t + 3,88
ce qui confirme l’hypothèse de départ.

On peut calculer yi − y!i où y!i = 0,73t i − 3,88 pour tous les i et vérifier que le

résultat est bon. On appelle résidu, le nombre d i = yi − yi . L’étude de ces résidus
permet de comprendre comment se répartissent les points par rapport à cette droite de
régression.

Pour étudier une relation effet dose d’un médicament, on réalise une expérience sur
les souris qui fournit les résultats suivants :

Service Commun de Formation Continue de l’INPL 11


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

dose x ( mg) 2,4 3,6 3,9 4,5 5,4 8,4


effet y (%) 5 33 40 58 81 96

pour ajuster le nuage de points correspondants, l’expérimentateur hésite parmi les


quatre relations suivantes :

On pose u = ln x et v = ln y

(I) : y = ax + b (II) : v = ax + b
(III): y = au + b (IV) : v = au + b

On complète le tableau (résultats au centième le plus proche)

dose x ( mg) 2,4 3,6 3,9 4,5 5,4 8,4


effet y (%) 5 33 40 58 81 96
u = ln x 0,88 1,28 1,36 1,50 1,69 2,13
v = ln y 1,61 3,50 3,69 4,06 4,39 4,56

On cherche a et b par la méthode des moindres carrés et on calcule les coefficients de


corrélation pour chacune des méthodes. Cela donne (grâce à la calculette) :
y = 15x − 18,36 r = 0,93
ln y = 0,4 x + 1,73 r = 0,78
y = 77 ,39 ln x − 6181
, r = 0,98
ln y = 2 ,28 ln x + 0,27 r = 0,89

Les méthodes (I) et (IV) sont acceptables. (II) est moins bonne.
(III) apparaît comme la meilleure méthode avec une corrélation très correcte.

Retrouvons les expressions de y en fonction de x pour chacune des méthodes à l’aide


des droites de régression. On définit ainsi les fonctions suivantes :

bg
f 1 x = 15x − 18,36
f b xg = e
2
0 ,4 x +1,73

f b x g = 77 ,39 ln x − 6181
3 ,
f b x g = 1,3x
4
2 .28

f 3 modélise le mieux le nuage de points suivant le critère choisi.

Service Commun de Formation Continue de l’INPL 12


Cours et exercices : Philippe Leclère
STAT02 COURS octobre2000

(STAT02E02A)

On considère la réaction de saponification de l’acétate de méthyle :

Acétate de méthyle + soude → acétate de sodium + méthanol

dans laquelle une mole d’acétate de méthyle et une mole de soude se transforment de
manière irréversible en une mole d’acétate de sodium et une mole de méthanol.

A l’instant t = 0 , les concentrations d’acétate de méthyle et de soude sont de 0,01


mole par litre. L’unité de temps est la minute.

On mesure toutes les trente minutes la concentration x (t ) , exprimée en moles par


litre d’acétate de sodium. On obtient le tableau suivant :

t ( mn ) 30 60 90 120 150 180


−3 −3 −3 −3 −3
x ( mole/l ) 4 ,1 × 10 6 ,1 × 10 7 × 10 7 ,5 × 10 8 × 10 8, 2 × 10−3

1 1
On pose u = et v =
t x
1. Compléter le tableau en prenant comme variables u et v. On arrondira les valeurs
au centième le plus proche.
2. Le plan étant rapporté à un repère orthogonal avec les unités graphiques
suivantes : 1cm pour 2 × 10−3 sur l’axe des abscisses et 1cm pour 10 unités sur
l’axe des ordonnées. Construire le nuage de points (ui ,vi ) dans le repère défini
ci-dessus.
3. Grâce aux résultats de la question 2), déterminer une équation de la droite
d’ajustement de linéaire de v en u au sens des moindres carrés. Construire cette
droite dans le repère précédent.
4. Déduire de cette question une expression de x (t ) , et l’écrire sous la forme
αt
x (t ) =
β t + 100

Service Commun de Formation Continue de l’INPL 13


Cours et exercices : Philippe Leclère
STAT02 SUPénoncés Octobre2000

(STAT02S01)

Une société de location d’outillage a relevé les heures d’utilisation des


perceuses sur les quatre trimestres des trois dernières années 1997, 1998,
1999. Les résultats sont rassemblés dans le tableau suivant :

1997 1998 1999


Trimestre 1 1150 1140 1250
Trimestre 2 955 915 1035
Trimestre 3 895 875 915
Trimestre 4 1270 1490 1270

1. Etablir la série des moyennes mobiles des heures d’utilisation trimestrielle


en remplaçant à partir du quatrième trimestre de l’année 1997, la valeur
de chaque trimestre par la moyenne qu’elle constitue avec les trois
trimestres précédents.
On complétera ainsi le tableau suivant :

Rang Xi 4 5 6 7 8 9 10 11 12

Heures Yi 1067,5

1150 + 955 + 895 + 1270


On obtient par exemple : = 1067 ,5
4
Afin de constituer un stock suffisant de perceuses, on voudrait prévoir les heures
d’utilisation de l’année 2000.

2. On partage le nuage de points de la série ainsi obtenue en deux nuages : l’un


formé des quatre premiers points 4 ≤ X i ≤ 7 et l’autre des cinq derniers points
8 ≤ X i ≤ 12 . Donner l’équation réduite de la forme y = ax + b de la droite
(G1G2 )où G1 est le point moyen de la première série et G2 celui de la
deuxième série. On arrondira les résultat au dixième le plus proche.

3. Donner alors une estimation des heures d’utilisation des perceuses lors de l’année
2000 en utilisant les résultats de la question précédente et en supposant que la
tendance se poursuive.

4. Donner une équation de la droite de régression de Y par rapport à X par la


méthode des moindres carrés. Faire la même estimation qu’à la question 3 et
comparer les résultats. Etait-ce prévisible ?

5. On considère maintenant la série d’origine :

• Donner une équation de la droite de régression de Y par rapport à X par la


méthode des moindres carrés.
• Faire la même estimation qu’à la question 3 et comparer les résultats. Quelle
est à votre avis la meilleure des trois méthodes.

Cycles préparatoires du Service Commun de Formation Continue de l’INPL


Cours et exercices : Philippe Leclère
STAT02 SUPénoncés Octobre2000

(STAT02S02)

On étudie la croissance d'une culture bactérienne en milieu liquide non


renouvelé. Des mesures du nombre N i de bactéries par millilitre sont
effectuées à divers instants t i ( i entier naturel 0 ≤ i ≤ 7 ). On obtient le
tableau suivant :

t en heures 0 0,5 1 1,5 2 2,5 3


N bactéries 9415 10938 11849 13360 15522 16647 18958

Tous les résultats seront donnés au centième le plus proche.

1. On pose pour i, 0 ≤ i ≤ 7 , yi = ln N i . Représenter le nuage de points de


coordonnées ( t i , yi ) dans un repère orthogonal : 4cm représentent 1 heure sur
l'axe des abscisses, 10cm représentent 1 unité sur l'axe des ordonnées et on
pourra se contenter des ordonnées supérieures à 9.

2. Déterminer le point moyen de ce nuage.

3. Déterminer par la méthode des moindres carrés une équation de la droite de


régression de y en t .

4. Représenter graphiquement cette droite dans le plan rapporté au même repère.

bg
5. En déduire l’expression de N t en fonction de t, puis une estimation du nombre
de bactéries par millilitre à l'instant t = 4 .

Cycles préparatoires du Service Commun de Formation Continue de l’INPL


Cours et exercices : Philippe Leclère
STAT02 ENONCES Octobre2000

(STAT02E01B)

Soit le tableau de valeurs suivant :

X 1 2 4 7 10
Y 2,5 4,1 6,5 12 16,9

1. Représenter graphiquement le nuage de points M ( X i ;Yi ) dans le plan muni


d’un repère orthogonal (choisir des unités adaptées). Calculer les coordonnées du
point moyen G.

2. Déterminer par la méthode des moindres carrés, l’équation réduite de la droite de


régression de Y en X

3. Déterminer par la méthode des moindres carrés, l’équation réduite de la droite de


régression de X en Y.

4. Calculer le coefficient de corrélation et conclure.

(On arrondira les résultats au centième le plus proche)

Cycles Préparatoires du Service Commun de Formation Continue de l’INPL


Cours et exercices : Philippe Leclère
STAT02 ENONCES Octobre2000

(STAT02E01C)

Dans cet exercice nous présentons une méthode de lissage des données. Nous
emploierons celle-ci lorsque la série est chronologique et que les données présentent
des fluctuations saisonnières. On transforme alors la série en remplaçant chaque
point par un point moyen partiel de n points précédents incluant celui-ci. On corrige
ainsi les variations périodiques.
Considérons le tableau de valeurs suivant :

0 1 2 3 4 5 6 7 8 9 10 11

20,1 20,3 19,8 20,05 19 19,6 18,7 19,2 18,35 18,85 18,2 18,4

1. Donner le coefficient de corrélation linéaire et l’équation réduite de la droite de


régression de Y en X au sens des moindres carrés. Conclure.

2. On désire maintenant appliquer la méthode de lissage avec n = 3 . Compléter


alors le tableau suivant :

0 1 2 3 4 5 6 7 8 9 10 11

20,1 20,3 19,8 20,05 19 19,6 18,7 19,2 18,35 18,85 18,2 18,4

Données lissées Z 20,07 20,05 19,62 19,55 19,10 19,17 18,75 18,80 18,47 18,48

3. Donner le coefficient de corrélation linéaire et l’équation réduite de la droite de


régression de Z en X au sens des moindres carrés. Conclure.

(On arrondira les résultats au centième le plus proche)

Cycles Préparatoires du Service Commun de Formation Continue de l’INPL


Cours et exercices : Philippe Leclère
STAT02 ENONCES Octobre2000

(STAT02E02B)

On décide de mesurer les diamètres de quelques pièces d’une production afin


d’établir les raisons du déréglage d’une machine au cours du temps.

X heures 0 2 4 6 8 12 16 20 24
Y mm 36 36,05 36,06 36,13 36,14 36,19 36,2 36,21 36,26

1. Représenter le nuage de points en prenant comme unités 2 cm pour 4 heures sur


l’axe des abscisses et 1 cm pour 0,02 mm sur l’axe des ordonnées.

2. Faire un tableau présenté en colonnes permettant les calculs de


x , y , var X , var Y , σ X , σ Y , cov ( X ,Y ) et r dont on donnera les valeurs au
centième le plus proche.

3. En observant le nuage, on s’aperçoit que les 3 premiers points semblent traduire


un déréglage rapide qui se stabilise ensuite. On fera donc l’étude à partir de 6
heures afin d’essayer de planifier une intervention lorsque les pièces sortiront de
l’intervalle de tolérance [36; 36 ,5]
• Déterminer la droite d’ajustement linéaire de Y en X par la méthode des
moindres carrés.
• Déterminer le temps probable de sortie des pièces de l’intervalle de tolérance
afin de prévenir à temps le service de maintenance et son intervention sur la
machine.

Cycles Préparatoires du Service Commun de Formation Continue de l’INPL


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

(STAT02E01A)

1.

Nuage de points

6
4
Y

2
0
0 5 10 15 20
X

Le nuage a une forme allongée qui peut laisser penser qu’une régression linéaire
donnera de bons résultats. On peut d’ailleurs tracer « à la main » une droite qui passe
le plus près possible de l’ensemble des points. Pour trouver facilement son équation
réduite, on choisit deux points du nuage qui appartiennent à cette droite. Ici en
l’occurrence le premier et le troisième, ce qui donne : y = 0,1675 x + 3, 0825 .

2. Avec le point moyen G (8, 40; 4,54 ) , et par exemple le premier point, on obtient
l’équation : y = 0,174 x + 3, 076 .
Evidemment, les deux équations sont très proches.

3. Utilisons maintenant la méthode des moindres carrés. On obtient :


y = 0,172 x + 3, 095
Le coefficient de corrélation vaut : r ≈ 0,999 , ce qui conforte l’idée que la
corrélation est très forte.
Avant de faire les calculs de la question 4, il paraît certain que les résultats seront très
proches les uns des autres.

4.
y = 0,1675 × 23 + 3, 0825 = 6,935
y = 0,174 × 23 + 3, 076 = 7 , 078
y = 0,172 × 23 + 3, 095 = 7 , 051

Comme on l’avait prévu, il y a concordance des résultats.

Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).

Service Commun de Formation Continue de l’INPL 1


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

(STAT02E01B)

1.

Nuage de points

20
15
10 Y
Y

5
0
0 5 10 15
X

Le point moyen G a pour coordonnées : G ( 4 ,8; 8, 4 )

Voici les tableaux de calculs :

X Y X² Y² XY
1 2,5 1 6,25 2,5
2 4,1 4 16,81 8,2
4 6,5 16 42,25 26
7 12 49 144 84
10 16,9 100 285,61 169
Sommes 24 42 170 494,92 289,7
moy X= 4,80 moy Y= 8,40
var X= 10,96 var Y= 28,42
s X= 3,31 s Y= 5,33
Cov(X,Y) 17,62
r= 0,998
a= 1,608 a'= 0,6199
b= 0,683 b'= -0,4071

2. Equation de la droite de régression de Y en X par la méthode des moindres carrés :


y = 1,61x + 0, 68 .

3. Equation de la droite de régression de X en Y par la méthode des moindres carrés :


1 0 , 41
x = 0 ,62 y − 0 , 41 ⇔ y = x+ ⇔ y = 1,61x + 0 ,65 .
0, 62 0, 62
Les deux droites sont très proches l’une de l’autre, ce que l’on pouvait prévoir en
regardant le nuage.

Service Commun de Formation Continue de l’INPL 2


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

4. r = 0,998 , ce qui prouve l’excellente corrélation de Y en X et de X en Y. Dans le


cours, nous avons vu que le coefficient de corrélation avait été introduit à partir des
nombres a et a ′ , mis en évidence dans le tableau de calcul. On a : r 2 = a × a'
1
les pentes des deux droites sont très proches l’une de l’autre : a ≈
a′

Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).

Service Commun de Formation Continue de l’INPL 3


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

(STAT02E01C)

X Y X² Y² XY
Données
Z² XZ
0 20,1 0 404,01 0 lissées Z
1 20,3 1 412,09 20,3
2 19,8 4 392,04 39,6 20,07 402,7 40,1
3 20,05 9 402,0025 60,15 20,05 402,0 60,2
4 19 16 361 76 19,62 384,8 78,5
5 19,6 25 384,16 98 19,55 382,2 97,8
6 18,7 36 349,69 112,2 19,10 364,8 114,6
7 19,2 49 368,64 134,4 19,17 367,4 134,2
8 18,35 64 336,7225 146,8 18,75 351,6 150,0
9 18,85 81 355,3225 169,65 18,80 353,4 169,2
10 18,2 100 331,24 182 18,47 341,0 184,7
11 18,4 121 338,56 202,4 18,48 341,6 203,3
Sommes 66 230,55 506 4435,4775 1241,5 192,05 3691,5 1232,5

X Y Z X'
moy= 5,50 moy= 19,21 moy= 19,21 moy= 6,50
variance= 11,92 variance= 0,50 variance= 0,32 variance= 8,25
ecart type= 3,45 ecart type= 0,71 ecart type= 0,57 ecart type= 2,87
cov XY= -2,21 Cov XZ= -1,59
a= -0,19 a= -0,19
b= 20,23 b= 20,46
r= -0,90 r= -0,98

Tous les résultats demandés figurent dans ce tableau, avec l’ensemble des
intermédiaires. Il serait bon que chacun sache faire ce travail sur un tableur.

la corrélation avec les données brutes est assez bonne, mais sans plus r ≈ 0,9 . En
revanche on observe une amélioration nette avec les données lissées. En effet
r ≈ 0,98 , ce qui constitue une très bonne corrélation.

Les quelques irrégularités dues aux incertitudes sur les mesures et l’erreur humaine
sont quelque peu nivelées et partiellement gommées.
Cette méthode sera souvent utilisée pour tous les phénomènes qui sont fonction du
temps, faisant intervenir des variations saisonnières ou périodiques.

Il existe de nombreuses autres méthodes pour affiner les études de ce type, moyennes
échelonnées, moyennes discontinues etc…
Vous pourrez consulter à ce sujet des ouvrages traitant des statistiques en sciences de
gestion.

Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.

Service Commun de Formation Continue de l’INPL 4


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

(STAT02E02A)

1 Tableau de valeurs

t ( mn ) 30 60 90 120 150 180


−3 −3 −3 −3 −3
x ( mole/l ) 4 ,1 × 10 6 ,1 × 10 7 × 10 7 ,5 × 10 8 × 10 8, 2 × 10−3
1 0,033 0,017 0,011 0,008 0,007 0,006
u=
t
1 243,9 163,93 142,86 133,33 125 121,95
v=
x

2 Nuage de points

Nuage de points

300,000

200,000
1/x

100,000

0,000
0,000 0,010 0,020 0,030 0,040
1/t

3 Droite d’ajustement linéaire de v en u par la méthode des moindres carrés.

t en minutes x en moles u=1/t v=1/x uv u² v²

30 0,004 0,033 243,902 8,13 0,00111 59488,4


60 0,006 0,017 163,934 2,732 0,00028 26874,496
90 0,007 0,011 142,857 1,587 0,00012 20408,163
120 0,008 0,008 133,333 1,111 0,00007 17777,778
150 0,008 0,007 125 0,833 0,00004 15625
180 0,008 0,006 121,951 0,678 0,00003 14872,1
0,082 930,979 15,072 0,00166 155045,94
Moy : u= 0,0136111 Moy : v= 155,163 covar u et v= 0,4
var u= 9,09E-05 var v= 1765,404 a= 4399,291
sigma u= 0,0095352 sigma v= 42,017 b= 95,284
Excel u= 0,0095352 v= 42,017 r= 0,998

Service Commun de Formation Continue de l’INPL 5


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

4 Calcul de l’expression de x (t )
1 1 1 4399 , 29 + 95, 28t
= 4399, 29 + 95, 28 ⇔ =
x t x t
t 0 ,02t
⇔ x (t ) = ⇔ x (t ) =
4399, 29 + 95, 28t 100 + 2 ,17t

Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons fortement de faire l'exercice suivant (Cliquez sur Exercice).

Service Commun de Formation Continue de l’INPL 6


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

(STAT02E02B)

Le tableau Excel donne tous les résultats permettant de répondre aux questions.

X heures Y mm X² Y² XY

0 36 0 1296 0
2 36,05 4 1299,6 72,1
4 36,06 16 1300,32 144,24
6 36,13 36 1305,38 216,78
8 36,14 64 1306,1 289,12
12 36,19 144 1309,72 434,28
16 36,2 256 1310,44 579,2
20 36,21 400 1311,16 724,2
24 36,26 576 1314,79 870,24
Total 92 325,24 1496 11753,51 3330,16

de 6 à 24
X Y X Y
Moyenne 10,222 36,138 14,333 36,188
Variance 61,728 0,007 40,556 0,002
Ecart type 7,857 0,081 6,368 0,044

covariance 0,609 0,271


a 0,01 0,007
b 36,037 36,093
r= 0,953 0,971

1 Nuage de points :

Nuage de points

36,30
36,25
36,20
Y en mm

36,15
Y mm
36,10
36,05
36,00
35,95
0,00 5,00 10,00 15,00 20,00 25,00 30,00
X en heures

Service Commun de Formation Continue de l’INPL 7


Cours et exercices : Philippe Leclère
STAT02 SOLUTIONS Octobre2000

2 On peut lire les valeurs dans le tableau :


X = 10 , 22
Y = 36,14
VAR X = 61,73
VARY = 0 ,01
σ X = 7 ,86
σ Y = 0,08
cov( X ,Y ) = 0 ,61
r = 0,95

3 Toujours en exploitant le tableau et en prenant les valeurs à partir de 6 heures :


y = 0, 01x + 36, 09
On peut ainsi conjecturer la sortie de l’intervalle de tolérance.
36,5 − 36, 09
x= ≈ 60
0 ,0067
Soit environ 60 heures.

Si vous avez éprouvé des difficultés à résoudre cet exercice, nous vous
conseillons vivement de contacter votre tuteur.

Service Commun de Formation Continue de l’INPL 8


Cours et exercices : Philippe Leclère
STAT02 AIDES Octobre2000

(STAT02E01A)

• Le nuage a une forme allongée qui peut laisser penser qu’une régression linéaire
donnera de bons résultats. On peut d’ailleurs tracer « à la main » une droite qui
passe le plus près possible de l’ensemble des points. Pour trouver facilement son
équation réduite, on choisit deux points du nuage qui appartiennent à cette droite

• Compte tenu de la forme des données, il doit y avoir concordance des résultats

Cycles préparatoires du Service Commun de Formation Continue de l’INPL 1


Cours et exercices : Philippe Leclère
STAT02 AIDES Octobre2000

(STAT02E01B)

Dans le cours, nous avons vu que le coefficient de corrélation avait été introduit à
partir des nombres a et a ′ , mis en évidence dans le tableau de calcul. On a :
r 2 = a × a'
1
les pentes des deux droites doivent être très proches l’une de l’autre : a ≈
a′
Vous pouvez utiliser un tableur pour présenter les calculs.

Cycles préparatoires du Service Commun de Formation Continue de l’INPL 2


Cours et exercices : Philippe Leclère
STAT02 AIDES Octobre2000

(STAT02E01C)

Soyez très attentif à cet exercice qui pourrait faire partie du cours.

Les quelques irrégularités dues aux incertitudes sur les mesures et l’erreur humaine
sont quelque peu nivelées et partiellement gommées grâce à la méthode des
moyennes mobiles préconisée ici.

Cette méthode sera souvent utilisée pour tous les phénomènes qui sont fonction du
temps, faisant intervenir des variations saisonnières ou périodiques.

Pas de remarque particulière pour le calcul.

Cycles préparatoires du Service Commun de Formation Continue de l’INPL 3


Cours et exercices : Philippe Leclère
STAT02 AIDES Octobre2000

(STAT02E02A)

1 On remplira le tableau de valeurs

t ( mn ) 30 60 90 120 150 180


−3 −3 −3 −3 −3
x ( mole/l ) 4 ,1 × 10 6 ,1 × 10 7 × 10 7 ,5 × 10 8 × 10 8, 2 × 10−3
1
u=
t
1
v=
x

2 Nuage de points : pas de commentaire

3 Droite d’ajustement linéaire de v en u par la méthode des moindres carrés.


On remplira le tableau suivant : on peut se servir d’EXCEL

t en minutes x en moles u=1/t v=1/x uv u² v²


30 0,004
60 0,006
90 0,007
120 0,008
150 0,008
180 0,008
Total
Moy : u= Moy : v= covar(u,v)
var u= var v= a=
sigma u= sigma v= b=
Excel u= v= r=

4 Calcul de l’expression de x (t )
Il faut penser à diviser par 100 les deux membres de la fraction résultat.

Cycles préparatoires du Service Commun de Formation Continue de l’INPL 4


Cours et exercices : Philippe Leclère
STAT02 AIDES Octobre2000

(STAT02E02B)

Il faut remplir avec l’aide d’EXCEL ou d’une bonne calculette le tableau suivant :

X heures Y mm X² Y² XY
0 36
2 36,05
4 36,06
6 36,13
8 36,14
12 36,19
16 36,2
20 36,21
24 36,26
Total 92 325,24

de 6 à 24
X Y X Y
Moyenne
Variance
Ecart type

covariance
a
b
r=

On utilise ensuite les formules du cours

Cycles préparatoires du Service Commun de Formation Continue de l’INPL 5


Cours et exercices : Philippe Leclère

Vous aimerez peut-être aussi