Analyse Bi-Variée : Applications
Partie 1
Exercice 1: On considère les données suivantes :
1. Tracer le diagramme de dispersion
2. Deviner le signe et la valeur du coefficient de corrélation linéaire.
3. Calculer le coefficient de corrélation, la pente et l'ordonnée à l'origine de la droite de
régression.
4. Que peut-on dire de la qualité du modèle ?
n
1 n
( x x)( y y)
i i
n i 1
xi yi x y
Y r i 1
n n X Y
7
( x x) ( y y )
i
2
i
2
6 i 1 i 1
5 n n
4
* 1 1
x xi & y yi
3
* * n i 1 n i 1
2
* 1 2 1
n
2
n
V X xi x xi x
1 2
* n i 1
1 2 3 4 5 6 7 8 X n i 1
1 n
xi yi x y
2 2
xi yi (xi) (yi) (xi)(yi)
1 5 1 Cov( X , Y ) n i 1
25 5 r
2 4 4 16 8 X Y X Y
7 1 49 1 7 1 n 2
V X xi x
2 1 n 2
& V Y yi y
2
4 3 16 9 12 n i 1 n i 1
6 2 1 n 1 n
36 4 12 x xi & y yi
20 15 106 55 44 n i 1 n i 1
20 15 106 55
𝑥= =4 𝑦= =3 𝑉 𝑋 = − 42 = 5,2 𝑉 𝑌 = − 32 = 2
5 5 5 5
44
𝐶𝑜𝑣 𝑋, 𝑌 = − 4 × 3 = −3,2 𝜎 𝑋 = 𝑉 𝑋 = 2,28 𝜎 𝑌 = 𝑉 𝑌 = 1,41
5
−3,2
𝑟= = −0,99
2,28 × 1,41
xi yi (xi-𝒙) 2
(yi-𝒚) 2
(xi-𝒙)(yi-𝒚) 1 n
Cov ( X , Y ) n i 1
xi x yi y
1 5 9 4 -6 r
2 4 4 X Y X Y
1 -2
7 1 9 4 -6 1 n
V X xi x
n i 1
2 1 n
& V Y yi y
n i 1
2
4 3 0 0 0
6 2 1 n 1 n
4 1 -2 x xi & y yi
20 15 26 10 -16 n i 1 n i 1
20 15 26 10
𝑥= =4 𝑦= =3 𝑉 𝑋 = = 5,2 𝑉 𝑌 = =2
5 5 5 5
−16
𝐶𝑜𝑣 𝑋, 𝑌 = = −3,2 𝜎 𝑋 = 𝑉 𝑋 = 2,28 𝜎 𝑌 = 𝑉 𝑌 = 1,41
5
−3,2
𝑟= = −0,99
2,28 × 1,41
Cov( X , Y )
a
V (X ) b y ax 𝐶𝑜𝑣 𝑋, 𝑌 − 3,2 𝑉 𝑋 = 5,2 𝑥 = 4 𝑦=3
−3,2
Y 𝑎= = −0,62
5,2 𝑏 = 3 − (−0,62) × 4 = 5,48
7
𝑌 = −0,62 × 𝑋 + 5,48
6
5,48
5 𝑟 = −0,99 𝑟 2 = 0,98 (98 %)
*
4
3
* *
2
1
*
*
8,84
1 2 3 4 5 6 7 8 X
Exercice 2: Un biologiste a récolté 10 lézards sauvages dans le Sud-Ouest des U.S. Après avoir mesuré leur
longueur (en mm), on mesure leur vitesse de course (en m/s). Les résultats collectés sont représentés dans le
tableau suivant :
1. Faire un diagramme et commenter les éventuelles observations inattendues.
2. Calculer le coefficient de corrélation ainsi que l'équation de la droite de régression linéaire.
3. Critiquer le modèle. Comment pourrait-on l'améliorer ?
2 2 1497
(Longueur) xi (Vitesse) yi (xi) (yi) (xi)(yi) 𝑥= = 149,7
10
179 1,28 32041 1,6384 229,12
157 1,36 24649 1,8496 213,52 18,99
𝑦= = 1,899
169 1,24 28561 1,5376 209,56 10
146 2,47 21316 6,1009 360,62 226403
𝑉 𝑋 = − 149,7 2 = 230,21
143 1,94 20449 3,7636 277,42 10
131 2,52 17161 6,3504 330,12
39,5427
159 2,67 25281 7,1289 424,53 𝑉 𝑌 = − 1,899 2
= 0,35
142 1,29 20164 1,6641 183,18 10
141 1,56 19881 2,4336 219,96 𝜎 𝑋 = 𝑉 𝑋 = 15,17
130 2,66 16900 7,0756 345,8
1497 18,99 226403 39,5427 2793,83 𝜎 𝑌 = 𝑉 𝑌 = 0,59
2793,83
𝐶𝑜𝑣 𝑋, 𝑌 = − (149,7) × (1,899) = −4,90
10
−4,9
𝑟= = −0,55
15,17 × 0,59
(Longueur) xi (Vitesse) yi (xi-x ̅)2 (yi-y ̅)2 (xi-x ̅)(yi-y ̅) 1497
𝑥= = 149,7
179 1,28 858,49 0,383161 -18,1367 10
157 1,36 53,29 0,290521 -3,9347 18,99
169 1,24 372,49 0,434281 -12,7187 𝑦= = 1,899
10
146 2,47 13,69 0,326041 -2,1127
2302,1
143 1,94 44,89 0,001681 -0,2747 𝑉 𝑋 = = 230,21
10
131 2,52 349,69 0,385641 -11,6127
159 2,67 86,49 0,594441 7,1703 3,48069
𝑉 𝑌 = = 0,35
142 1,29 59,29 0,370881 4,6893 10
141 1,56 75,69 0,114921 2,9493
𝜎 𝑋 = 𝑉 𝑋 = 15,17
130 2,66 388,09 0,579121 -14,9917
1497 18,99 2302,1 3,48069 -48,973 𝜎 𝑌 = 𝑉 𝑌 = 0,59
−48,973
𝐶𝑜𝑣 𝑋, 𝑌 = = −4,90
10
−4,9
𝑟= = −0,55
15,17 × 0,59
𝑉 𝑋 = 230,21 𝐶𝑜𝑣 𝑋, 𝑌 = −4,9
−4,9
𝑎= = −0,02
230,21
𝑥 = 149,7 𝑦 = 1,899
𝑏 = 1,899 − (−0,02) × (149,7) = 4,9
𝑌 = −0,02 × 𝑋 + 4,9
𝑟 = −0,55 𝑟 2 = 0,3 (30 %)
Exercice 3: Le comptable de l’entreprise SIMTEK a relevé l’information suivante concernant les coûts
de la main d’œuvre directe associé à la fabrication de 12 lots de diverses tailles pour la pièce mécaniques
AX200. Les résultats sont structurés : 1. Spécifier l’unité statistique.
2. Spécifier la variable explicative et la variable expliquée
3. Représenter et interpréter le diagramme de dispersion.
4. Calculer et interpréter le coefficient de corrélation.
5. Déterminer le modèle mathématique et interpréter ses éléments.
6. Déterminer et interpréter la qualité de modèle obtenu.
1050
1000
950
Coûts
900
850
800
750
20 25 30 35 40 45 50 55
Nombre de Pièces
(Nbr Pièces) xi (Coûts) yi (xi)2 (yi)2 (xi)(yi) 480
46 982 2116 964324 45172 𝑥= = 40
12
34 855 1156 731025 29070
42 941 1764 885481 39522 10956
𝑦= = 913
40 920 1600 846400 36800 12
52 1040 2704 1081600 54080 19936
𝑉 𝑋 = − 40 2 = 61,33
34 842 1156 708964 28628
12
24 760 576 577600 18240
42 910 1764 828100 38220 10075924 2
50 985 2500 970225 49250 𝑉 𝑌 = − 913 = 6091,33
12
44 964 1936 929296 42416
30 810 900 656100 24300 𝜎 𝑋 = 𝑉 𝑋 =7,83
42 947 1764 896809 39774
480 10956 19936 10075924 445472 𝜎 𝑌 = 𝑉 𝑌 = 78,05
445472
𝐶𝑜𝑣 𝑋, 𝑌 = − (40) × (913) = 602,67
12
602,67
𝑟= = 0,99
15,17 × 0,59
(Nbr Pièces) xi (Coûts) yi (xi-x ̅)2 (yi-y ̅)2 (xi-x ̅)(yi-y ̅) 480
𝑥= = 40
46 982 36 4761 414 12
34 855 36 3364 348
10956
42 941 4 784 56 𝑦= = 913
40 920 0 49 0 12
52 1040 144 16129 1524 736
34 842 36 5041 426 𝑉 𝑋 = = 61,33
12
24 760 256 23409 2448
42 910 4 9 -6 73096
𝑉 𝑌 = = 6091,33
50 985 100 5184 720 12
44 964 16 2601 204
30 810 100 10609 1030 𝜎 𝑋 = 𝑉 𝑋 =7,83
42 947 4 1156 68
𝜎 𝑌 = 𝑉 𝑌 = 78,05
480 10956 736 73096 7232
7232
𝐶𝑜𝑣 𝑋, 𝑌 = =602,67
12
602,67
𝑟= = 0,99
15,17 × 0,59
1050 𝑉 𝑋 = 61,33 𝐶𝑜𝑣 𝑋, 𝑌 = 602,67
y = 9,8261x + 519,96
R² = 0,9722
602,67
1000 𝑎= =9,83
61,33
950
𝑥 = 40 𝑦 = 913
Coûts
900
850 𝑏 = 913 − (9,83) × (40) = 519,8
𝑌 = 9,83 × 𝑋 + 519,8
800
750
20 25 30 35 40 45 50 55
𝑟 2 = 0,98 (98 %)
Nombre de Pièces
𝑟 = 0,99
Exercice 4: Le responsable d’une chaîne de magasins de bricolage de la région de Alfaville pense qu’il y a une
relation entre le nombre de personnes qui s’installent dans la région et le chiffre d’affaires des magasins. Il a
noté pour chaque année variant de 1992 à 2001 les valeurs de :
X : le nombre de personnes ayant déménagé pour s’installer dans la région pendant l’année (en milliers)
Y : le chiffre d’affaires cumulé de l’ensemble des magasins de la chaîne au cours de l’année (en Million Euro)
Année X Y 1) Représentez ces données sur un graphique. Y a-t-il une relation entre ces variables ?
1992 5.2 25.85 2) Calculez les indicateurs suivants :
1993 4.6 28.30 Moyennes respectives des variables X et Y
1994 7.3 31.68 Variances respectives des variables X et Y
1995 8.2 36.98 Covariance de X et Y
1996 6.4 31.89 3) Calculer un indicateur permettant de juger de la qualité d’une approximation linéaire de
la relation entre ces deux variables.
1997 7.8 34.59
4) On décide d’estimer sur ces données un modèle de la forme :
1998 3.6 24.14
𝑌 = 𝑎𝑋 + 𝑏
1999 4.9 23.11
4.1) quelles valeurs de a et b proposez-vous ?
2000 2.6 18.60
4.2) En 2002 les services statistiques de l’état prévoient que X vaudra 4.9 : A quelle
2001 3.7 24.72 valeur de Y faut-il s’attendre ? Pourquoi cette valeur diffère-t-elle de 23.11.
40
Année Nbr Personnes (Milliers) Chiffre d’Affaire (Million Euro)
1992 5.2 25.85
35
1993 4.6 28.30
1994 7.3 31.68
Ciffre d'Affaire (Million Euro)
30
1995 8.2 36.98
1996 6.4 31.89
25
1997 7.8 34.59
1998 3.6 24.14
20
1999 4.9 23.11
2000 2.6 18.60 15
2 3 4 5 6 7 8 9
2001 3.7 24.72 Nombre de Personne (Milliers)
54
Année (Nbr Personnes) xi (Chiffre d'affaire) yi (xi)2 (yi)2 (xi)(yi) 𝑥= =5,43
10
1992 5,2 25,85 27,04 668,2225 134,42
1993 4,6 28,3 21,16 800,89 130,18 279,86
1994 7,3 31,68 53,29 1003,6224 231,264 𝑦= = 27,986
10
1995 8,2 36,98 67,24 1367,5204 303,236
327,95 2
1996 6,4 31,89 40,96 1016,9721 204,096 𝑉 𝑋 = − 5,43 = 3,31
1997 7,8 34,59 60,84 1196,4681 269,802
10
1998 3,6 24,14 12,96 582,7396 86,904 8127,55 2
𝑉 𝑌 = − 27,986 = 29,54
1999 4,9 23,11 24,01 534,0721 113,239 10
2000 2,6 18,6 6,76 345,96 48,36
𝜎 𝑋 = 𝑉 𝑋 =1,82
2001 3,7 24,72 13,69 611,0784 91,464
Total 54,3 279,86 327,95 8127,55 1612,97 𝜎 𝑌 = 𝑉 𝑌 = 5,43
1612,97
𝐶𝑜𝑣 𝑋, 𝑌 = − (5,43) × (27,986) = 9,33
10
9,33
𝑟= = 0,94
1,82 × 5,43
Année (Nbr Personnes) xi (Chiffre d'affaire) yi (xi-x ̅)2 (yi-y ̅)2 (xi-x ̅)(yi-y ̅) 54,3
𝑥= = 5,43
1992 5,2 25,85 0,0529 4,562496 0,49128 10
1993 4,6 28,3 0,6889 0,098596 -0,26062 279,86
1994 7,3 31,68 3,4969 13,645636 6,90778
𝑦= = 27,986
10
1995 8,2 36,98 7,6729 80,892036 24,91338
33,101
1996 6,4 31,89 0,9409 15,241216 3,78688 𝑉 𝑋 = = 3,31
1997 7,8 34,59
10
5,6169 43,612816 15,65148
1998 3,6 24,14 3,3489 14,791716 7,03818 295,384
𝑉 𝑌 = = 291,54
1999 4,9 23,11 0,2809 23,775376 2,58428 10
2000 2,6 18,6 8,0089 88,096996 26,56238
𝜎 𝑋 = 𝑉 𝑋 =1,82
2001 3,7 24,72 2,9929 10,666756 5,65018
Total 54,3 279,86 33,101 295,384 93,3252 𝜎 𝑌 = 𝑉 𝑌 = 5,43
93,3252
𝐶𝑜𝑣 𝑋, 𝑌 = = 9,33
10
9,33
𝑟= = 0,94
1,82 × 5,43
40
𝑉 𝑋 = 3,31 𝐶𝑜𝑣 𝑋, 𝑌 = 9,33
y = 2,8194x + 12,677
35 R² = 0,8908
9,33
𝑎= = 2,82
3,31
Ciffre d'Affaire (Million Euro)
30
𝑥 = 5,43 𝑦 = 27,986
25
20
𝑏 = 27,986 − (2,82) × (5,43) = 12,67
15
2 3 4 5 6
Nombre de Personne (Milliers)
7 8 9 𝑌 = 2,82 × 𝑋 + 12,67
𝑟 = 0,94 𝑟 2 = 0,88 (88 %)
Exercice 5: Nous nous intéressons ici à un échantillon de treize films présenté dans le tableau ci-dessous :
1) Calculez le nombre moyen d’entrées par film et la variance du nombre
d’entrées par film.
2) Pensez-vous que le nombre de salles dans lequel le film sort soit
corrélé avec le nombre d’entrées réalisées par le film en première semaine
d’exploitation ? Vous donnerez des arguments statistiques pour étayer
votre réponse
3) Construisez un modèle linéaire (Y = aX + b ) permettant d’exprimer le
nombre d’entrées réalisé par un film en fonction du nombre de salles dans
lesquelles il est projeté. En quoi un tel modèle est-il justifié ?
4) En supposant que ce modèle soit utilisé par les
producteurs/distributeurs des films pour anticiper le nombre d’entrées en
fonction du nombre de salles qu’ils réservent, le score de "Fous d’Irene"
vous semble-t-il conforme aux espérances de son producteur ? Quel
nombre d’entrées était-il en droit d’escompter ?
5) Retrouvez à partir des données le nombre moyen d’entrées pour les 13 films. Calculez les variances entre les centres de groupe et à l’intérieur
des groupes.
6) La typologie proposée contribue-t-elle à expliquer la variance, au sein de l’échantillon de 13 films, du nombre d’entrées par film? Ou
autrement dit, pensez-vous que l’on soit en droit de dire que les films français ont plutôt tendance à réaliser de faibles scores d’audience (faible
nombre d’entrées) alors que les films américains sont au contraire privilégiés par les spectateurs lors de leur sortie. Vous appuierez votre
réponse par un calcul approprié.
3729
𝑥= = 286,85
13
2384,5
𝑦= = 183,42
13
1428939
𝑉 𝑋 = − (286,85)2 = 27635,46
13
1069202,4
𝑉 𝑌 = − 183,42 2 = 48603,44
13
𝜎 𝑋 = 𝑉 𝑋 =166,24
𝜎 𝑌 = 𝑉 𝑌 = 220,46
1090244,8
𝐶𝑜𝑣 𝑋, 𝑌 = − (286,85) × (183,42) = 31250,96
13
31250,96
𝑟= = 0,85
166,24 × 220,46
31250,96
𝑎= = 1,13
27635,46
𝑏 = 183,42 − 1,13 × 286,85 = −140,72
𝑌 = 1,13 × 𝑋 − 140,72
𝑟 2 = 0,72 (72 %)
1000
Film (Nbr Salles) xi (Nbr Entrées Milliers) yi
𝑌 = 1,13 × 𝑋 − 140,72
Une Vie à Deu 226 129
800
Fantasia 2000 249 95,7
Je rêvais de l'Afrique 296 89,9 y = 1,1307x - 140,92
Nbr d'entrées (Milliers)
600 R² = 0,727
Gladiator 695 890,5
Fous d'Irene 485 138,7
28 Jours en sursis 181 60,9 400
Jet Set 494 340,5
Promenons 171 137,8 200
Battlefield Hearth 168 44,4
Human Traffic 159 30,7 0
0 100 200 300 400 500 600 700 800
Meilleur espoir féminin 332 260,2
Cut 175 86,7
-200
Comme 98 79,5 Nbr de Salles
1,13 × 485 − 140,72 = 407,33
1,13 × 695 − 140,72 = 644,63