Chapitre : 7 Cours : Statistiques Prof :Mr Gary Badredine
4 ème Année : section- www.tunisia-study.com 2012/2013
sciences-expérimentales Lycée El Mourouj 2
I ) Série Statistique Doubles :
-1- Exemple : le tableau suivant donne le poids en Kg et la taille en cm d’un groupe de 10 enfants :
25 27 23 30 27 23 25 30 32 28
90 92 85 99 93 88 92 98 99 90
Le couple ( , ) = (25, 90) veut dire que l’enfant N° 1 pèse 25 Kg et mesure 90 cm.
On a donc une population de 10 enfants sur laquelle on a observé simultanément les deux variables
P et T.
Définition : On dit qu’un couple (X, Y) de variables statistiques définies une série double si les deux Variables X et
Y sont observés simultanément sur une même population.
La moyenne arithmétique des poids est : =…………………………………………….
La moyenne arithmétique des Tailles est : = …………………………………………...
Placer dans un repère orthogonal l’ensemble des points ( , ):
-2- Définition : Soit une série statistique définie par deux variable X et Y. On désigne par , …
Les valeurs de X par , …… celles de Y. Le plan étant rapporté à un repère orthogonal.
L’ensemble des points ( , );i …… est appelé Nuage De Points.
Le point G ( , ) est appelé point moyen du nuage.
Page 1 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
II/ Distribution marginales :
-1- Activité 1
Soit le tableau suivant : X : note en mathématiques ; Y nombre de frères et sœurs. N=100
X/ Y 0 1 2 3 4 5 6 Totaux
1 0 1 1 0 1 1
2 2 4 3 3 4 2 20
5 5 10 7 6 4 3
2 3 5 5 4 4 2 25
1 1 2 3 2 1 0
Totaux 11 22 15 8 100
Les totaux inscrits en marge de chaque tableau à double entrée définissent deux distributions marginales.
L’une associée à la première variable statistique et l’autre associée à la deuxième variable statistique
Distribution marginale de X
X : Note en Total
maths
20 25 10 100
Distribution marginale de Y
Y: 0 1 2 3 4 5 6 Total
nombre
de frères
et sœurs
Effectif 11 22 15 8 100
Calcul de La moyenne ( ) ; la variance (V(x)) et l’écart-type ( (x))
= = =
V(x) = – = – =
(x) = …………….
= = =
V(y) = - ²= - ²
(y) = = ………….
Page 2 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
-2- Définitions :
1) Soit (X, Y) une série statistique double sur un échantillon de taille n et soit ( , )1 les valeurs
numériques prises respectivement par les variables X et Y .
-la distribution marginale de la variable X est la distribution des valeurs 1 prises par la variable X.
- la distribution marginale de la distribution Y est la distribution des valeurs ) 1 i n prises par la variable Y.
2) Soit X une série statistique sur un échantillon de taille n.
Si , V(X) et désignent respectivement la moyenne, la variance et l’écart –type de la série alors
= V(X) = ( )²; = ou les valeurs , …….. ; désignent
Les valeurs distinctes prises par la variable X si elle est discrète au les centres des classes.
Si la variable X est continue, l’entier désigne l’effectif de la valeur .
III/covariance d’une série statistique double
-1- Cas d’un échantillon simple
a) Activité 1 p100
Dans le tableau ci-dessous, on a relevé les exportations (en million de dinars) et les importations (en million de
dinars) mensuelles de la Tunisie pour l'année 2006.
Mois Exportations Importations
(X) (Y)
Janvier 1081.1 1312.1
Février 1225.6 1367.6
Mars 1378.6 1641.6
Avril 1193.7 1613.1
Mai 1205.8 1827.3
Juin 1374.6 1705.8
Juillet 1283.8 1713.4
Aout 1157.8 1494.1
Septembre 1349.4 1859.8
Octobre 1230.1 1668.1
Novembre 1488.5 1902.6
Décembre 1347.3 1660.6
-1- Déterminer la taille de l’échantillion étudier .
-2- a) Déterminer la moyenne et l’écart - type de la variable x .
b) Déterminer la moyenne et l’écart – type de la variable y .
-3-Calculer co v(x y) .
Définition :
Soit (X, Y) une série statistique double sur un échantillon de taille n, on appelle covariance de (X, Y)
Le réel ;noté cov (x, y) défini par. Cov(x, y) = - = , ou ( , ) est la valeur observée
pour l’individu i si X et Y sont discrètes, ou le centre de la classe si l’une des variables est continue.
Il d’écoule de la définition que cov(x, y) = cov (y, x).
Interprétation de la covariance
La covariance mesure la tendance qu’ont les variables X et Y à varier ensemble.
La variance est positive si X et Y ont tendance à varier dans le même sens.
La covariance est négative si X et Y ont tendance à varier en sens contraire.
Page 3 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
-2- Cas d’un échantillon groupé
a) Définition :
Soit (X, Y) une série statistique double à taille le nombre de fois qui apparait le couple
( , ) alors cov (x, y) = –
b) Exercice résolu P102
Le tableau ci-dessous donne le poids Y (en kg) de 63 nouveaux-nés ainsi que le poids maternel X .
]40,50] ]50,60] ]60,70] ]70,80] Total
Y X
]1.5,2.5] 1 0 1 0 2
]2.5,3.5] 11 17 13 2 43
]3.5,4.5] 4 4 8 2 18
Total 16 21 22 4 63
-1- Calculer et , ainsi que et .
-2- Déterminer la covariance de X et Y Interpréter.
III/ Ajustement d’une série statistique double :
Lorsque le nuage des points représentants une série statistique à deux caractères X et Y.
a une forme allongée on peut approcher la relation les deux variables X et Y par une relation affine
Définie par : Y = a X +b ou X = a’ Y +b’.
On appelle ajustement affine toute méthode permettant la détermination d’une telle relation.
-1- Méthode de Mayer :
La méthode de Mayer consiste à :
Partager le nuage de points en deux parties et situées et d’autre par rapport à une droite Parallèle à
l’axe des ordonnées et contenant à peu près le même nombre de points .
Déterminer les points moyens respectifs et de parties et .
La droite ( ) est alors la droite d’ajustement affine du nuage de points représentant la série.
La droite ( ) est appelée droite de Mayer et passe par le point moyen G du nuage global.
Exemple :
Le tableau ci-dessous présente la consommation de fuel d’une habitation en fonction de la température.
Température -5 -3 -1 2 5 7 10 13
Consommation 38 36 30 29 25 20 15 12
de fuel 24 h en L
Page 4 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
-1- Compléter le nuage de points ( , ) dans le repère ci –dessus .
-2- Fractionner le nuage de points en deux parties égales.
-3- Calculer les coordonnées du point moyen de la première partie du nuage.
( ; ) alors ( ; ).
-4- Calculer les coordonnées du point moyen de la deuxième partie du nuage.
( ; )
-5- Tracer la droite ( ).
-6- Calculer les coordonnées du point moyen G du nuage. G( ; ).
-7- Déterminer l’équation réduite de la droite ( ) (y=ax+b).
a= = ………………………………………… = - 1,45.
b= - a. = ………………………………….. = 30,71 donc ( ) : y = ….. x + …………
-8- A partir d l’équation de la droite, donner une estimation de la consommation de fuel pour une
température de -10°C.
……………………………………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………....
-9- Déterminer graphiquement à l’aide de la droite d’ajustement, la température pour une consommation de 22L.
……………………………………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………….......................
-10- Retrouver le résultat précédent par le calcul à partir de l’équation de ( ).
Page 5 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
……………………………………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………....
Définition :
Soit (X, Y) une série statistique double valeurs ( , ) 1 .L’ensemble des points De coordonnées ( , )
dans un repère orthogonal est appelé nuage de points représentant .
la série statistique..Le point moyen du nuage est le point dont les coordonnées sont les moyennes et .
-2- Principe de la méthode de Mayer
Soit un nuage de points représentant une série statistique double (X,Y) et G son point moyen.
On scinde le nuage de points de (X,Y) en deux parties contenant à peu prés le même nombre de points.
On considère alors les points moyens G1 et G2 des deux nuages obtenus.
La droite ( ) définit un ajustement affne du nuage de points représentant la série statistique double (X,Y).
La droite ( ) est appelée droite de Mayer et passe par le point moyen G du nuage global.
-3- Méthode d’ajustement par les moindres carrés
On peut reconnaitre affine éventuelle entre les deux variables X et Y à l’aide d’un moyen non
graphique et en faisant intervenir deux paramètres statistiques à savoir : la covariance Cov (X, Y)
et le coefficient de corrélation linéaire r.
• Covariance : Soit une série statistique (X, Y) double définie par ……………… et …….
observée sur une population de n individus. On appelle covariance du couple (X, Y) le réel ;
Cov(X, Y) = - = -
Exemple : Soit la série statistique double définie par le tableau suivant .Compléter le tableau :
2 5 3 1 1 4 2 3 =
25 40 10 5 0 15 50 12 =
50 30 0 100
Cov(X, Y) = = …….........................
Exercice : Calculer la covariance de la série statistique double (X, Y) définit par :
1 2 2 2 5
7 8 9 5 8
=
Cov(X, Y) = - =
Page 6 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
a) Théorème : (admis) p 108
Soit (X,Y) une série statistique double sur un échantillon de n et telle que .
Soit ( , ) 1 les valeurs observées de la série . Alors la somme minimale pour
le couple ( , ) tel que = et
b) Définition p 109
Soit (X, Y) une série statistique double sur un échantillon de n.
• La droite d’équation est appelée droite des moindres carrés de Y et X, ou droite de
régression de Y et X.
• La droite d’équation est appelée droite des moindres carrés de X et Y,
ou droite de régression de X et Y.
c) Conséquences p 109
• Les droites des moindres carrés de Y en X, et de X en Y passent par le pont moyen G du nuage associé à la
série (X, Y) .
3) Coefficient de corrélation linaire :
a) Définitions et Propriétés
On appelle coefficient de corrélation linaire le réel r défini par : r = ;r
r X , Y 1,1 r (X , Y )= r (Y , X ).
et
Le coefficient de corrélation linéaire est invariant par changement d’unité ou d’origine.
b) interprétation du coefficient de corrélation linéaire
On convient que si alors l’ajustement affine est justifié et les prédictions faites à l’aide de cet
ajustement sont raisonnables ( faire un ajustement affine de Y en X consiste à déterminer deux réels a et
b tels que Y = a X + b soit le modèle acceptable du phénomène étudié et dans ce cas la droite d’équation
Y = a X + b sera appelé droite d’ajustement affine de Y en X ).
C) Remarque
Le coefficient de corrélation est compris entre 1 et +1. Plus il s'éloigne de zéro, meilleure est la corrélation
r = +1 corrélation positive parfaite .
r = 1 corrélation négative parfaite.
r = 0 absence totale de corrélation.
Page 7 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
Bonne corrélation (corrélation forte): Mauvaise corrélation (corrélation faible):
y .
y
. . . .
. .. .
.. . . .
.
. . .
. . . .
x x
3 Exercice : Calculer le coefficient linéaire r pour la série statistique suivante :
1 2 3 4 5 6 7 8 9 10
200 205 211 216 220 225 240 260 280 300
V(X) =
V(Y) =
Cov(X, Y) = = =
r=
4 ) Théorème :
X et Y deux variables statistiques observées sur une population d’effectif N.
Si 0,75 1 alors il y a une relation linéaire entre X et Y ; (Y= a X + b ; X = a’ Y + b’)
représentées graphiquement par deux droites passant par G ( , ).
Y= a X + b ; Droite de régression de Yen X avec a = et b = -a .
Y= a’ Y + b’ ; Droite de régression de X en Y avec a’= = et b’ = - a’ .
5 )Quelques exemples de corrélation
(le coefficient de corrélation r est indiqué dans chaque cas).
Page 8 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
Page 9 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
-4- Exemple d’ajustement non affine
a) Exercice résolu p 111 Année Paramédicaux
1990 23743
Le tableau ci –contre indique l’évolution du personnel paramédical 1991 24555
Tunisien dans le secteur public (techniciens supérieurs, infirmiers, auxiliaires de 1992 25070
santé) de 1990 à 2005
1993 25291
-1- En numérotant les année de 0 à 15 , déterminer les valeurs de la série double 1994 25466
(X,ln Y) ,ou X est le rang de l’année et Y est le nombre de 1995 25874
Paramédicaux de l’année correspondante.
1996 26130
-2- On pose Z = lnY 1997 26369
a) Calculer le coefficient de corrélation et justifier que l’on peut procéder à un 1998 26676
ajustement affine par les moindres carrés. 1999 27050
b) Donner la droite régression de Z en X . 2000 27392
-3- Quel sera le nombre de paramédicaux en 2010 2001 30292
2002 28629
2003 29976
2004 29584
2005 29607
Solution :
-1-
0 23743 10.075 0 101.505 0
1 24555 10.108 1 102.171 10.108
2 25070 10.129 4 102.597 20.258
3 25291 10.138 9 102.778 30.414
4 25466 10.145 16 102.921 40.580
5 25874 10.160 25 103.230 50.800
6 26130 10.170 36 103.430 61.020
7 26369 10.179 49 103.612 71.253
8 26676 10.191 64 103.860 81.528
9 27050 10.205 81 104.142 91.845
10 27392 10.218 100 104.410 102.180
11 30292 10.318 121 106.461 113.498
12 28629 10.262 144 105.310 123.144
13 29976 10.308 169 106.254 134.004
14 29584 10.294 169 105.970 144.116
15 29607 10.295 225 105.990 154.425
-2- a ) Le calcul donne = 7 .5 ; ; = 10 .119 ;
Cov (x ,z) = 0.326 , = 0.960
Le coefficient de correlation est proche de 1 l ‘ajustement est donc jutifié
b) La droite de regression est d’équation
-3- Le nombre de paramédicaux sera 32419
5) Exercice :
Soit la série statistique suivante :
Page 10 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60
100 150 200 300 500
0,7 1 1,2 1,6 2,3
Donner les résultats arrondis à près si nécessaire.
1) Calculer le coefficient de corrélation linéaire r.
2) Existe –t-il une relation de type affine entre X et Y.
3) Déterminer une équation de la droite de régression de Y en X.
4) Pour x= 650 que peut – on prévoir pour y
Solution :
1) * = (100 +150 +200 +300 +500) = 250 ;
* V(X) = (100² + 150² + 200 ²+ 300² + 500 ²) – 250² = 20000
* = = 141, 4214
* = (0,7² + 1² + 1,2²+ 1,6² +2,3²) – 1,36² = 0,3064
* = (Y) = = 0.5535
* = (( 100 0,7 ) + ( 150 1 ) + ( 200 1,2 ) + ( 300 1,6 ) +( 500 2,3 ) )= 418
* Cov(X, Y) = - = 418 – 250 1,36 = 78
*r= = 0, 9965
2) r = 0,99965 donc 0,75 r 1 alors il existe une relation de type affine entre X et Y.
3) Equation de la droite de régression de Y en X : Y= a X + b
Avec a= = 0, 0039 et b = -a = 0, 385
4) Si x=650 alors y= 0, 0039 650 + 0, 385 = 2, 92
Exercice
Le tableau suivant donne la distance de freinage d (en mètres) d’une voiture en fonction de sa vitesse v (en
kilomètres par heure)
V(Km/h) 30 40 50 60 70 80
d (mètres) 42 60 80 90 95 110
1)Calculer , , V(v) , V( d) , (v) , (d) , Cov (v, d) , et le coefficient de corrélation linéaire entre v et d .
Page 11 sur 11
22/04/2013 Email : [email protected] Tél : 22 54 11 60