Cours Stat 18-19
Cours Stat 18-19
Semestre 3
Module 18
Par le
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
1 Distribution statistique 1
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.3 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Présentation des données statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Arrondir un nombre décimal . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Effectifs - Fréquences - Fréquences cumulées . . . . . . . . . . . . . . . . . . 3
1.2.3 Distribution statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Représentations graphiques d’une distribution de variables qualitatives . . . 5
[Link] Les tuyaux d’orgues . . . . . . . . . . . . . . . . . . . . . . . . . . 5
[Link] Représentation circulaire . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Représentations graphiques d’une distribution de variables quantitatives dis-
crètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
[Link] Diagramme en bâtons . . . . . . . . . . . . . . . . . . . . . . . . . 6
[Link] Polygone des fréquences . . . . . . . . . . . . . . . . . . . . . . . . 8
[Link] Courbe des fréquences cumulées . . . . . . . . . . . . . . . . . . . 8
1.3.3 Représentations graphiques d’une distribution de variables quantitatives conti-
nues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
[Link] Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
[Link] Polygone des fréquences . . . . . . . . . . . . . . . . . . . . . . . . 11
[Link] Courbe des fréquences cumulées . . . . . . . . . . . . . . . . . . . 12
i
2.1.3 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
[Link] Moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . 18
[Link] Moyenne quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 18
[Link] Moyenne géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 19
[Link] Moyenne harmonique . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Les mesures de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
[Link] Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . 20
[Link] Variable quantitative continue . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Les quartiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
[Link] Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . 21
[Link] Variable quantitative continue . . . . . . . . . . . . . . . . . . . . 22
[Link] L’écart interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Diagramme en boîte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.4 Diagramme tige et feuille . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
[Link] Variable quantitative discrète . . . . . . . . . . . . . . . . . . . . . 27
[Link] Variable quantitative continue . . . . . . . . . . . . . . . . . . . . 27
2.2.6 Cœfficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.7 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.8 Changement d’origine et d’unité . . . . . . . . . . . . . . . . . . . . . . . . 29
[Link] Changement d’origine et d’unité . . . . . . . . . . . . . . . . . . . 29
[Link] Centrer et réduire une variable . . . . . . . . . . . . . . . . . . . . 29
2.3 Paramètre de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Symétrie et asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Cœfficient d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
[Link] Cœfficient de d’asymétrie de Pearson . . . . . . . . . . . . . . . . . 31
[Link] Cœfficient de d’asymétrie de Yule . . . . . . . . . . . . . . . . . . 31
[Link] Cœfficient de d’asymétrie de Fisher . . . . . . . . . . . . . . . . . 31
2.3.3 Le cœfficient d’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Concentration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.1 Courbe de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2 Indice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4.3 Médiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5 Applications : Le théorème de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . 37
ii
Introduction
Le statisticien est ainsi conduit à collecter des données, construire des graphiques, déterminer
des caractéristiques centrale, calculer des caractéristiques de dispersion et étudier la symétrie.
iii
Chapitre 1
Distribution statistique
1.1 Généralités
1.1.1 Population
Toute étude statistique concerne un ensemble Ω appelé population dont les éléments sont
appelés des individus.
Définition 1.1.1 :
Une population c’est l’ensemble d’individus ou d’objets qui possèdent un ou plusieurs caractères
spécifiques en commun.
Une population statistique est dite finie si l’on peut déterminer avec précision le nombre d’in-
dividus qui la composent sinon elle est dite infinie.
Exemple 1.1.1 :
• Dans une étude sur le sport, la population peut être l’ensemble des personnes qui pratiquent
un sport.
• Dans une étude sur les revenus mensuels dans une entreprise, la population peut être l’en-
semble des personnes qui travaillent dans cette entreprise.
Définition 1.1.2 :
Une variable X est dite qualitative si les valeurs prises sont des mots ou des lettres.
Une variable X est dite quantitative si les valeurs prises sont des nombres réels.
Exemple 1.1.2 :
• La couleur des cheveux, état du temps constaté à Rabat pendant les six premiers mois
de l’année 2017 (pluvieux, orageux, beau, venteux, brouillard, ...), mode de transport pour se
rendre à la faculté (voiture, taxi, bus, tramway, moto, bicyclette, à pied) définissent des variables
qualitatives.
1
• La taille, le poids, le salaire, l’âge, les températures matinales relevées sous abri chaque jour à
Rabat, les notes sur 20 obtenues en statistique par les étudiants SMI, la hauteur des précipitations
tombées chaque mois à Rabat sont des variables quantitatives.
Définition 1.1.3 :
Une variable quantitative X est dite discrète si les valeurs qu’elle peut prendre sont isolées les
unes des autres.
Une variable quantitative X est dite continue si elle peut prendre toutes les valeurs d’un
intervalle de R
I ou une réunion d’intervalles de R
I ou l’ensemble des réels R.
I
Exemple 1.1.3 :
• Les performances en saut en hauteurs de 100 athlètes est une variable quantitative discrète.
• La consommation en carburant aux 100 km d’un nouveau modèle d’une voiture est une
variable quantitative continue.
1.1.3 Échantillon
Pour obtenir un renseignement exact concernant une variable X, il faut étudier tous les in-
dividus de la population. Quand cela n’est pas possible, on restreint l’étude à une partie de la
population appelée échantillon.
Définition 1.1.4 :
Un échantillon est une partie finie représentative de la population c’est donc un sous ensemble
E de Ω.
Définition 1.2.1 :
Arrondir un nombre décimal consiste à conserver une valeur approchée de ce nombre (appelée
arrondi), en réduisant le nombre de chiffres après la virgule. Le résultat n’est donc plus exact.
• Arrondir au dixième près correspond à arrondir à 1 chiffre après la virgule.
• Arrondir au centième près correspond à arrondir à 2 chiffres après la virgule.
• Arrondir au millième près consiste à arrondir à 3 chiffres après la virgule.
2
3)
• Augmenter cette décimale d’une unité si le chiffre suivant est supérieur strictement à 5 (soit
6, 7, 8 ou 9).
• Conserver cette décimale si le chiffre suivant est inférieur strictement à 5 (soit 0, 1, 2, 3 ou
4).
• Enfin si le chiffre suivant la décimale est le cinq lui même suivi par des chiffres différents de
zéro, alors l’augmentée d’une unité, tandis que si cinq n’est suivi d’aucun chiffre (ou que par des
zéros) alors la décimale est augmentée d’une unité lorsqu’elle est impaire et reste inchangée si elle
est paire.
Exemple 1.2.1 :
Définition 1.2.2 :
l’effectif ni est le nombre d’individus de la population ou de l’échantillon pour lesquels X
prend la valeur xi (dans le cas d’une variable qualitative ou quantitative discrète) ou une valeur
de l’intervalle ]xi , xi+1 ] (dans le cas d’une variable quantitative continue).
La somme des effectifs est appelée la taille de la population ou de l’échantillon et est notée N .
N = n1 + n2 + · · · + np
On appelle fréquence de la valeur xi ou de la classe ]xi , xi+1 ] le nombre réel
p
ni X
fi = On a évidement fi = 1
N
i=1
3
C’est la proportion de l’effectif d’une valeur de la variable par rapport à N la taille totale de la
population ou de l’échantillon.
On appelle fréquence cumulée de la valeur xi ou de la classe ]xi , xi+1 ] la somme des fré-
quences de cette valeur ou classe et des fréquences des valeurs ou classes qui la précèdent
i
X
Fi = fi
k=1
Exemple 1.2.2 :
• Variable qualitative : La répartition des adultes d’une résidence selon le niveau d’instruction.
• Variable quantitative discrète : Les performances en saut en hauteur (en cm) de 10 athlètes
sont : 191, 194, 197, 191, 200, 203, 200, 197, 203, 203.
4
1.2.3 Distribution statistique
Définition 1.2.3 :
Une distribution statistique est une représentation des données collectées dans un tableau où
figurent les valeurs que prenne la variable, les effectifs, les fréquences et les fréquences cumulées
relatives à chaque valeur ou ensemble de valeurs prises par la variable.
Les tuyaux d’orgues des effectifs (respectivement des fréquences) de la distribution statistique,
{(xi , ni ) / 1 ≤ i ≤ p} (respectivement {(xi , fi ) / 1 ≤ i ≤ p}) s’obtient en traçant sur un repère
orthonormé, pour tout i = 1, · · · , p, un rectangle de base de centre xi et de hauteur égale à l’effectif
ou la fréquence de la valeur xi .
Sur l’axe des abscisses on représente les modalités de la variable, alors que sur l’axe des or-
données on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme des
effectifs ou des fréquences.
Exemple 1.3.1 : Représentation du diagramme en tuyaux d’orgues des fréquences pour le niveau
d’étude des adultes d’une résidence.
5
[Link] Représentation circulaire
C’est une représentation où chaque modalité est représentée par une portion du disque. Si S
est l’aire du disque, l’aire d’une portion est égale à f × S, où f est la fréquence de la modalité
correspondante.
L’angle α de chaque portion s’obtient en multipliant la fréquence par 360◦ , l’angle du disque
(α = f × 360)
Exemple 1.3.2 : Représentation du digramme circulaire des fréquences pour le niveau d’étude
des adultes d’une résidence.
6
Sur l’axe des abscisses on représente les valeurs de la variable, alors que sur l’axe des ordonnées
on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme des effectifs
ou des fréquences.
Exemple 1.3.3 : La distribution des performances en saut en hauteur de 100 athlètes sont re-
présentées dans le tableau suivant :
7
[Link] Polygone des fréquences
C’est une ligne brisée joignant les points de coordonnées (xi , fi ). C’est aussi la ligne qui joint
les sommets des bâtons du diagramme.
Exemple 1.3.4 : Représentation du polygone des fréquences pour la distribution des perfor-
mances en saut en hauteur de 100 athlètes.
Exemple 1.3.5 : Représentation de la courbe des fréquences cumulées pour la distribution des
performances en saut en hauteur de 100 athlètes.
8
Figure 1.5 – Courbe des fréquences cumulées
Etape 2 : Calculer l’étendue e = xmax − xmin où xmin est la valeur minimale de la variable
X et xmax est la valeur maximale de la variable X.
Etape 3 : Diviser l’étendue e par p le nombre de classes, pour avoir une idée sur la valeur de
e
l’amplitude des classes que l’on notera a. on a, a =
p
Etape 4 : On construit alors les classes
9
Etape 5 : S’assurer que chaque observation appartient à une et une seule classe.
Exemple 1.3.6 : Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle :
6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57,
5.52, 5.8, 6.0.
Pour la méthode de Sturge P = 1 + 3.3 × log10 (20) = 5.293.
√
Pour la méthode de Yule P = 2.5 × 4 20 = 5.287, D’où le nombre de classe est p = 5.
e 1
Nous avons xmin = 5.11 et xmax = 6.11. D’ou e = 6.11 − 5.11 = 1 et a = = = 0.2
p 5
[Link] Histogramme
10
Figure 1.6 – Histogramme
11
Figure 1.7 – Polygone des fréquences
12
Chapitre 2
2.1.1 Le mode
[Link] Variable qualitative ou quantitative discrète
Définition 2.1.1 : Le mode est une valeur de la variable pour laquelle l’effectif ou la fréquence
est maximal(e). Le mode est noté md .
Une distribution peut être unimodale, bimodale ou pmultimodale.
Exemple 2.1.1 :
• Considérons la distribution des notes d’un groupe d’étudiants.
La variable est qualitative. Ici on a trois modes : Blanche, Jaune et Grise. Cette distribution est
multimodale.
13
[Link] Variable quantitative continue
Dans le cas d’une variable quantitative continue, les données sont regroupées en classes. Si les
classes sont toutes de même amplitude, une classe modale est celle dont la fréquence ou l’effectif
est le plus élevé.
Exemple 2.1.2 :
Soit la distribution suivante
[xi , xi+1 [ [500, 700[ [700, 900[ [900, 1100[ [1100, 1300]
fi 0.21 0.34 0.25 0.2
la fréquence maximale est 0.34, donc la classe modale est [700, 900[.
Remarque : Si les classes ne sont pas de même amplitude, on doit obligatoirement corriger les
effectifs et les fréquences (c’est à dire rendre les classes de même amplitude) avant de :
Construire l’histogramme
Construire le polygône des fréquences
Déterminer la classes modale
le mode md (qui appartient à la classe modale) est déterminé par interpolation linéaire. Pour
illustrer une telle interpolation, considérons l’exemple suivant : Les salaires mensuels ( en milliers
de dirhams ) du personnel d’une entreprise se répartissent comme suit :
14
Figure 2.1 – Histogramme
BC C1 C YA − YC YI − YC
cotg(α) = = =⇒ =
AB C1 I a xC − xI
AD C1 B YA − YD YA − YI
cotg(β) = = =⇒ =
AB C1 I a xC − xI
YI − YC YA − Yc
=
xC − xI a
d’où le système
YA − YI YA − YD
=
xC − xI
a
en faisant la somme on obtient
YA − YC (YA − YC ) + (YA − YD )
=
xC − xI a
On en déduit
xC − xI a a(YA − YC )
= ou encore xI = xC −
YA − YC (YA − YC ) + (YA − YD ) (YA − YC ) + (YA − YD )
où xi+1 est la borne supérieure de la classe modale, a l’amplitude commune à toutes les classes,
fi+1 la fréquence de la classe modale, fi la fréquence de la classe qui précède la classe modale et
fi+2 la fréquence de la classe qui suit la classe modale.
(0.25 − 0.125)
md = 4 − 1 × = 3.324
(0.25 − 0.125) + (0.25 − 0.19)
15
2.1.2 La médiane
La médiane est la valeur me de la variable qui partage les éléments de la série statistique,
préalablement classés par ordre croissant, en deux groupes d’effectifs égaux : 50% des individus
présentent une valeur inférieure ou égale à la médiane et 50% présentent une valeur supérieure ou
égale à la médiane.
Soient x1 , x2 , · · · , xN les valeurs prises par la variable. On les ordonne de la plus petite à la
plus grande et on note x(1) la plus petite valeur x(2) la deuxième valeur, · · ·, x(i) la ime valeur, · · ·
x(N ) la plus grande valeur. Alors on a
x( N +1 ) si N est impair
2
me = x N + x( N +1)
(2) 2
si N est pair
2
Exemple 2.1.3 :
• Considérons la distribution suivante
xi 10 20 30 40 50 60
ni 3 8 4 9 3 3 On a N = 30
effectifs cumulés 3 11 15 24 27 30
xi 10 20 30 40 50 60
ni 4 9 5 8 3 4 On a N = 33
effectifs cumulés 4 13 18 26 29 33
N +1
donc N est impair d’où = 17 et me = x(17) = 30 car le premier effectif cumulé supérieur
2
ou égal à 17 est 18 et x(18) = 30.
La médiane me (qui appartient à la classe médiane) est ensuite déterminée à partir d’une
interpolation linéaire. Reprenons l’exemple de la distribution des salaires mensuels (en milliers de
dirhams) du personnel d’une entreprise :
16
Classe Effectif fréquence fréquence cumulée
ni fi F (xi+1 )
]2, 3] 15 0, 19 0, 19
]3, 4] 20 0, 25 0, 44
]4, 6] 20 0, 25 0, 69
]6, 10] 24 0, 31 1
Total 79 1
On a F (4) = 0, 44 < 0.5 et F (6) = 0.64 > 0.5, la classe médiane est donc ]4, 6]. Nous utiliserons
la courbe des fréquences cumulées pour déterminer me . En considérant les triangles ABD et AIC
de la figure ci-dessous, on a
DB YB − YA F (xi+1 ) − F (xi )
tg(α) = = =
AD xB − xA xi+1 − xi
CI YI − YA 0, 5 − F (xi )
= = =
AC xI − xA me − xi
0, 5 − F (xi )
d’où me = xi + (xi+1 − xi )
F (xi+1 ) − F (xi )
Application numérique : xi = 4, xi+1 = 6, Fi = 0.44, Fi+1 = 0.69 et
0, 5 − 0, 44
me = 4 + (6 − 4) = 4, 48
0, 69 − 0, 44
17
2.1.3 Moyennes
[Link] Moyenne arithmétique
ni X
et comme fi = on a aussi x = fi xi
N
i
Exemple 2.1.4 :
• Considérons la distribution de l’exemple 2.1.3 i)
10 × 3 + 20 × 8 + 30 × 4 + 40 × 9 + 50 × 3 + 60 × 3 1000
x= = = 33.333
3+8+4+9+3+3 30
ii) Variable quantitative continue
La moyenne arithmétique notée toujours x, est égale à la somme des centres des classes de la
variable multipliées par leurs effectifs respectifs divisée par la somme des effectifs.
X X
ni ci ni ci
i i
x= X =
ni N
i
Exemple 2.1.5 :
• Reprenons l’exemple de la distribution des salaires mensuels
15 × 2, 5 + 20 × 3, 5 + 20 × 5 + 24 × 8 399, 5
x= = = 5, 05
15 + 20 + 20 + 24 79
Exemple 2.1.6 :
18
• Considérons la distribution de l’exemple 2.1.3 i)
102 × 3 + 202 × 8 + 302 × 4 + 402 × 9 + 502 × 3 + 602 × 3 39800
xq = = = 1326.667
3+8+4+9+3+3 30
ii) Variable quantitative continue
La moyenne quadratique notée toujours xq , est égale à la somme des carrés des centres des classes
de la variable multipliées par leurs effectifs respectifs divisée par la somme des effectifs.
X X
ni c2i ni c2i
i ni
= i
X
xq = X = fi c2i ( car fi = )
ni N N
i
i
Exemple 2.1.7 :
• Reprenons l’exemple de la distribution des salaires mensuels
15 × 2.52 + 20 × 3.52 + 20 × 52 + 24 × 82 2374.75
xq = = = 30.060
15 + 20 + 20 + 24 79
Exemple 2.1.8 :
• Considérons la distribution de l’exemple 2.1.3 i)
p
30
xG = 103 × 208 × 304 × 409 × 503 × 603
p
= 33 103 × (256 × 108 ) × (81 × 103 ) × (262144 × 109 ) × (125 × 103 ) × (216 × 103 )
p
30
= 146767085568000 × 1030 = 29.663
Exemple 2.1.9 :
• Reprenons l’exemple de la distribution des salaires mensuels
p
xG = 79 2, 515 × 3, 520 × 520 × 824 = 4.6120
19
[Link] Moyenne harmonique
2.2.1 L’étendue
[Link] Variable quantitative discrète
L’étendue mesure l’écart entre la plus petite valeur de la variable et la plus grande :
e = xmax − xmin
où xmin (resp. xmax ) est la valeur minimale (resp. maximale ) prises par la variable.
Exemple 2.2.1 :
• Soient les 4 séries statistiques suivantes
4 × 10 + 1 × 20 + 4 × 30 180
a) 10, 10, 10, 10, 20, 30, 30, 30, 30 x= = = 20
9 9
18 + 19 + 5 × 20 + 21 + 22 180
b) 20, 22, 21, 20, 20, 19, 18, 20, 20 x= = = 20
9 9
1 + 4 + 6 + 8 + 20 + 32 + 34 + 36 + 39 180
c) 1, 4, 6, 8, 20, 32, 34, 36, 39 x= = = 20
9 9
10 + 12 + 14 + 16 + 20 + 24 + 26 + 28 + 30 180
d) 10, 12, 14, 16, 20, 24, 26, 28, 30 x = = = 20
9 9
Ces quatre séries ont la même moyenne x = 20 et la même médiane m = 20. Pourtant ces séries
sont très différentes. Cette différence provient de leur dispersion, en effet :
Etendue(a) = 30 − 10 = 20, Etendue(b) = 22 − 18 = 4, Etendue(c) = 39 − 1 = 38 et
Etendue(d) = 30 − 10 = 20.
Quoique les séries a) et d) ont la même étendue, les valeurs de la série d) contrairement à celles
de la série a) sont uniformément espacées.
Dans ce cas l’étendue est la différence entre la borne supérieure de la dernière classe et la borne
inférieure de la première classe. e = xmax − xmin
où xmin (resp. xmax ) est la borne inférieure (resp. supérieure) de la première (resp. dernière) classe.
20
2.2.2 Les quartiles
Nous savons que la médiane divise la distribution en deux parties égales. Il existe d’autres
indicateurs utiles :
a) Les quartiles qui divise la distribution en quatre (4) parties égales
b) Les déciles qui divise la distribution en dix (10) parties égales
c) Les centiles qui divise la distribution en cent (100) parties égales.
Les quartiles sont notés Q1 , Q2 et Q3 et on a F (Q1 ) = 0.25, F (Q2 ) = 0.5 et F (Q3 ) = 0.75.
La médiane est le 2ème quartile, le 5ème décile et le 50ème centile.
On considère une série statistique dont les valeurs du caractère étudié, ont été rangés dans un
ordre croissant :
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn−1 ≤ xn
Exemple 2.2.2 :
• Considérons la distribution suivante
xi 10 20 30 40 50 60
ni 3 8 4 9 3 3 On a N = 30 et m = 35
effectifs cumulés 3 11 15 24 27 30
xi 10 20 30 xi 40 50 60
ni 3 8 4 ni 9 3 3
effectifs cumulés 3 11 15 effectifs cumulés 9 12 15
| {z } | {z }
série inférieure avec N1 = 15 série supérieure avec N1 = 15
N1 + 1
donc N1 est impair d’où = 8 =⇒ Q1 = x( N1 +1 ) = x(8) = 20 et Q3 = x( N1 +1 ) = x(8) = 40.
2 2 2
• Considérons la distribution suivante
xi 10 20 30 40 50 60
ni 4 9 5 8 3 4 On a N = 33 et m = 30.
effectifs cumulés 4 13 18 26 29 33
xi 10 20 30 xi 30 40 50 60
ni 4 9 3 ni 1 8 3 4
effectifs cumulés 4 13 16 effectifs cumulés 1 9 12 16
| {z } | {z }
série inférieure avec N1 = 16 série supérieure avec N1 = 16
21
N1 x( N1 ) + x( N1 +1) x(8) + x(9)
2 2
donc N1 est pair d’où = 8 =⇒ Q1 = = = 20 et
2 2 2
x( N1 ) + x( N1 +1) x(8) + x(9) 40 + 40
2 2
Q3 = = = = 40.
2 2 2
Des techniques similaires à celles utilisées pour déterminer la médiane dans le cas continue
permettent de déterminer ces indicateurs.
Pour le premier quartile
)
xi < Q1 ≤ xi+1 0, 25 − F (xi )
et Q1 = xi + (xi+1 − xi )
F (xi ) < 0, 25 ≤ F (xi+1 ) F (xi+1 ) − F (xi )
Exemple 2.2.3 :
• Reprenons la distribution des salaires mensuels.
0, 25 − 0, 19
0.19 < F (Q1 ) = 0.25 ≤ 0.44 =⇒ 3 < Q1 ≤ 4, d’où Q1 = 3 + (4 − 3) × = 3, 24
0, 44 − 0, 19
0, 75 − 0, 69
0.69 < F (Q3 ) = 0.75 ≤ 1 =⇒ 6 < Q3 ≤ 10, d’où Q3 = 6 + (10 − 6) × = 6, 19.
1 − 0, 69
• Plus il est grand, plus les données sont dispersées autours de la médiane.
• Plus il est petit, plus les données sont proches de la médiane.
Exemple 2.2.4 :
• Reprenons l’exemple de la distribution des salaires mensuels.
L’intervalle interquartile est [3, 24, 6, 19] et l’écart interquartile est R(Q) = 6, 19−3, 24 = 2, 85.
22
2.2.3 Diagramme en boîte
Ce diagramme est aussi appelé boîte à moustaches. Il utilise la valeur du 1er quartile Q1 (qui
correspond à 25% des effectifs), la valeur du 2ème quartile Q2 = me (la médiane qui correspond
à 50% des effectifs), la valeur du 3ème quartile Q3 (qui correspond à 75% des effectifs), l’écart
interquartile R(Q) et les valeurs minimum et maximum de la série.
On représente sur un axe gradué (horizontal ou vertical) les différentes valeurs de la série
Q1 , Q2 , Q3 , xmin , xmax ainsi que Q1 − 1.5 × R(Q) et Q3 + 1.5 × R(Q).
Le diagramme est formé d’un rectangle ayant pour extrémité inférieure le 1er quartile et pour
extrémité supérieure le 3ème quartile. A l’intérieur de ce rectangle, on trace un segment représentant
la médiane. A gauche et à droite de ce rectangle, on trace deux segments appelé “moustaches”
inférieure et supérieure qui ont pour extrémité respectivement Q1 −1.5×R(Q) et Q3 +1.5×R(Q).
La boîte a pour largeur l’écart interquartile généralement sur 1.5 fois la largeur de la boîte.
Dans ce cas, une valeur est atypique ou aberrante si elle dépasse de 1.5 fois l’écart interquartile à
gauche du 1er quartile ou à droite du 3ème quartile.
La boîte à moustaches permet de répondre à certaines questions :
• Existe-t-il des observations atypiques ? en les repérant et les identifiant.
• La distribution est-elle symétrique ? en repérant la position de la médiane dans la boîte.
• La partie centrale (50% des effectifs) est-elle plus ou moins concentrée ou étalée par rapport
au reste de la distribution ?
• Comparaisons de distributions selon des groupes ? Pour comparer les distributions d’une
même variable selon les groupes, on juxtapose sur le même graphique les boîtes à moustaches
définies respectivement pour les groupes en utilisant la même échelle.
Exemple 2.2.5 :
Deux groupes de S3 Statistique comparent leurs résultats du contrôle final et déclarent : “nos
classes ont le même profil puisque dans les deux cas la médiane et le mode des résultats est 10”.
23
Qu’en pensez-vous ?
notes 5 6 7 8 9 10 11 12 13 14 15 16 17
groupe 1 4 4 3 3 3 4 3 2 2 3 2 2 1
groupe 2 1 3 4 4 5 7 4 3 1 2 1 0 2
Vérifier que les deux médianes valent 10 et déterminer les quartiles de chaque série. Tracer
côte à côte les diagrammes en boîtes de ces deux séries.
Les effectifs cumulés des deux groupes est :
notes 5 6 7 8 9 10 11 12 13 14 15 16 17
groupe 1 4 8 11 14 17 21 24 26 28 31 33 35 36
groupe 2 1 4 8 12 17 24 28 31 32 34 35 35 37
notes 5 6 7 8 9 10 notes 10 11 12 13 14 15 16 17
groupe 1 4 4 3 3 3 1 groupe 1 3 3 2 2 3 2 2 1
groupe 2 1 3 4 4 5 1 groupe 2 5 4 3 1 2 1 0 2
| {z } | {z }
série inférieure avec Ni1 = Ni2 = 18 série supérieure avec Ns1 = Ns2 = 18
notes 5 6 7 8 9 10 notes 10 11 12 13 14 15 16 17
groupe 1 4 8 11 14 17 18 groupe 1 3 6 8 10 13 15 17 18
groupe 2 1 4 8 12 17 18 groupe 2 5 9 12 13 15 16 16 18
| {z } | {z }
série inférieure avec Ni1 = Ni2 = 18 série supérieure avec Ns1 = Ns2 = 18
24
Figure 2.4 – Boîte à moustaches des Gr 1 et 2
25
Un tracé en tiges et feuilles donne :
Tige Feuille Effectifs
10 5 1
11 0 2 2 8 9 5
12 0 0 5 5 6 7 8 7
13 0 2 3 4 5 8 8 8 8 9
14 1 2 4 5 6 8 8 8 9 9
15 0 0 0 1 1 3 3 3 4 4 4 5 6 6 8 15
16 0 0 0 3 4 4 5 6 6 8 8 11
17 0 2 2 6 9 5
On peut lire ainsi que la valeur 105 est la plus petite valeur qui semble être une valeur aberrante,
que 179 la plus grande valeur, que 120 figure 2 fois dans la série, 138 figure 4 fois.
N x(31) + x(32) 149 + 150
Pour calculer la médiane , on a N = 62 pair et = 31 =⇒ m = = =
2 2 2
N
N +1
149.5, pour calculer le 1er quartile, on a = 31 impair et 2 = 16 =⇒ Q1 = x(16) = 133 et
2 2
3N
N +1
pour calculer le 3ème quartile, on a = 31 impair et 2 = 47 =⇒ Q3 = x(47) = 160.
2 2
Un diagramme dos à dos de tige et feuille peut être employé pour comparer deux bases de
données. Ci-dessous, nous représentons les notes sur 100 de deux groupes du cours de statistique
d’un examen en utilisant le diagramme dos à dos de tige et feuille :
Groupe A Groupe B
Effectifs Feuille Tige Feuille Effectifs
0 0 5 1
2 3 1 2 4 5 7 3
4 4 4 3 3 3 1 2 2 8 8 9 6
5 9 9 6 6 4 4 3 3 3 4 7 7 7 7
10 7 5 5 4 4 4 4 2 2 1 5 4 4 4 6 6 8 8 8 9 9
12 9 9 8 7 7 7 3 3 2 1 1 1 6 1 2 4 4 5 5 9 7
6 9 8 7 5 5 2 7 3 3 4 6 6 6 6
6 6 6 6 3 1 1 8 2 5 9 3
3 4 3 2 9 1 1
26
[Link] Variable quantitative discrète
La variance V (x) est la moyenne arithmétique des carrés des écarts des valeurs de la variable
à la moyenne arithmétique
1 X X X
V (x) = ni (xi − x)2 = fi (xi − x)2 où N = ni
N
i i i
Exemple 2.2.7 :
• Considérons la distribution suivante
xi 10 20 30 40 50 60
on a N = 31 et x = 32.58
ni 4 8 4 9 3 3
La variance V (x) est la moyenne arithmétique des carrés des écarts des centres des classes à
la moyenne arithmétique
1 X X
V (x) = ni (ci − x)2 = fi (ci − x)2 où ci est le centre de la classe associée à ni
N
i i
Exemple 2.2.8 :
• Reprenons la distribution des salaires mensuels.
27
15(2.5 − 5.05)2 + 20(3.5 − 5.05)2 + 20(5 − 5.05)2 + 24(8 − 5.05)2
V (x) =
79
354.497
= = 4.487
√ 79
σ(x) = 4.487 = 2.118
!
X
2
X
2 2 1 X
Relation de König : ni (ci − x) = ni ci − N x =⇒ V (x) = ni ci − x2
2
N
i i i
σ(x)
CV =
x
Si CV < 0, 5 alors la dispersion n’est pas importante. Si CV > 0, 5 alors la dispersion est
importante.
Exemple 2.2.9 :
• Dans une maternité on a relevé le poids ( en kg ) à la naissance de 47 nouveau-nés. Les
données collectées sont résumées dans le tableau suivant :
2.2.7 Moments
Définition 2.2.1 :
Le moment d’ordre r d’une variable statistique est la quantité
1 X 1 X X
mr = ni xri ou mr = ni cri où N = ni
N N
i i i
Pour r = 0, m0 = 1.
Pour r = 1, m1 = x la moyenne arithmétique.
28
Définition 2.2.2 :
Le moment centré d’ordre r d’une variable est la quantité
1 X 1 X X
µr = ni (xi − x)r ou µr = ni (ci − x)r où N = ni
N N
i i i
Pour r = 0, µ0 = 1.
Pour r = 1, µ1 = 0
Pour r = 2, µ2 = V (x) la variance.
Définition 2.2.3 :
On appelle changement d’origine l’opération consistant à ajouter la même quantité b ∈ R I à
toutes les observations : yi = xi + b, i = 1, · · · , n.
On appelle changement d’unité l’opération consistant à multiplier par la même quantité a ∈ R I
toutes les observations : yi = a × xi , i = 1, · · · , n.
On appelle changement d’origine et d’unité l’opération consistant à multiplier toutes les obser-
vations par la même quantité a ∈ R I puis à ajouter la même quantité b ∈ R
I à toutes les observations :
yi = a × xi + b, i = 1, · · · , n.
Théorème 2.2.1 :
Si on effectue un changement d’origine et d’unité sur une variable X, alors
• Sa moyenne est affectée du même changement d’origine et d’unité, y = a x + b
• Sa variance et son écart-type sont affectés par le changement d’unité et pas par le changement
d’origine, Vy = a2 Vx et σy Vy = |a| σx
p
Preuve : Si yi = a × xi + b, alors
n n
1X 1X
y = (a × xi + b) = a × ( xi ) + b = a x + b
n n
i=1 i=1
n n n
1 X 1 X 1X
Vy = (yi − y)2 = (a × xi + b − ax − b)2 = a2 (xi − x)2 = a2 Vx
n n n
i=1 i=1 i=1
p p
σy = 2
Vy = a Vx = |a| σx
Remarque :
• Les paramètres de position (mode, médiane et moyenne) sont tous affectés par un changement
d’origine et d’unité.
• Les paramètres de dispersion sont tous affectés par un changement d’unité mais pas par un
changement d’origine (sauf le coefficient de variation).
Centrer et réduire une variable statistique quantitative X consiste la remplacer par la variable :
X −x
.
σx
29
X −x
X − x pour la centrer (moyenne 0). La variable : a pour moyenne arithmétique 0 elle
σx
est centré.
X −x
Diviser par l’écart-type σx pour la réduire (écart-type = 1). La variable a pour variance et
σx
écart-type 1 elle est réduite.
30
Figure 2.6 – symétrie et asymétrie
Le premier cœfficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et
de la médiane et est normalisé par l’écart-type. Il est calculé à partir de la formule suivante :
x−m
AP 1 = 3 × où x est la moyenne, m la médiane et σ l’écart-type.
σ
Lorsque la distribution statistique est unimodale, on peut utiliser le second coefficient de Pear-
son basé sur une comparaison de la moyenne et du mode et est normalisé par l’écart-type. Il est
calculé à partir de la formule suivante :
x − md
AP 2 = où x est la moyenne, md le mode et σ l’écart-type.
σ
Le cœfficient d’asymétrie de Yule est basé sur les positions des trois quartile et est normalisé
par l’écart interquartile. Il est calculée à partir de la formule suivante :
Q1 + Q3 − 2 × Q2
AY = où Q1 , Q2 , Q3 les 3 quartiles , et R(Q) l’écart interquartile.
R(Q)
Le coefficient d’asymétrie de Fisher est basé sur le moment d’ordre 3 et est normalisé par le
cube de l’écart-type. Il est calculée à partir de la formule suivante :
µ3
AF = où µ3 le moment centré d’ordre 3 , et σ l’écart-type.
σ3
Tous les cœfficients d’asymétrie ont les mêmes propriétés.
• Si la distribution est symétrique, le coefficient est nul. On admettra que si le cœfficient
de Fisher AF ∈ ]−0.1, 0.1[, la distribution est symétrique.
• Si la distribution est asymétrique à droite (resp. à gauche) c’est à dire la courbe est étalée
à droite (resp. à gauche), le cœfficient est positif (resp. négatif).
Remarque : Les paramètres d’asymétrie ne sont pas affectés par un changement d’unité ou
d’origine.
31
Exemple 2.3.1 :
• On considère la série statistique suivante (masse en grammes des œufs de poule d’un élevage).
masse : xi 40 45 50 55 60 65 70 75 80 85 90
Effectif : ni 16 20 75 141 270 210 165 63 21 12 7
x V σ µ3 m = Q2 md Q1 Q3 R(Q) AP 1 AP 2 AY AF
62.5 73.8 8.59 91.125 60 60 55 70 15 0.87 0.29 0.33 0.14
La distribution des masses est asymétrie à droite car les cœfficients d’asymétrie sont positifs.
32
Exemple 2.3.2 :
• Reprenons la distribution des masse des oeufs de poule de l’exemple 2.3.1.
µ4 = 17523.91, V (x) = 73.8, β2 = 3.22 et F2 = 0.22 > 0 =⇒ la variable est leptokurtique et le
polygone statistique de la variable centrée réduite est moins aplati qu’une courbe en cloche, la
concentration des valeurs de la série autour de la moyenne est forte.
2.4 Concentration
On étudie dans ce paragraphe, la répartition de la concentration entre les individus d’une
population ou d’un échantillon.
On cherche à savoir, si la variable statistique étudiée, est concentrée sur quelques individus ou
au contraire elle est bien répartie entre les individus.
33
p
X p
X
avec x = nk xk si la variable X est discrète (resp. x = nk ck si la variable X est continue
k=1 k=1
avec ck est le centre de la classe ]xk , xk+1 ]).
Remarque : Si la variable statistique est discrète (resp. continue), les Pi , i = 0, · · · , p − 1
représente le pourcentage des individus de la population ou de l’échantillon pour lesquels X < xi+1
(resp. X ≤ xi+1 ) tandis que, Pp = 100, représente l’ensemble des individus.
Si la variable statistique est continue, les qi , i = 0, · · · , p − 1 représente le pourcentage de la
masse des valeurs de X concernant les individus de la population ou de l’échantillon pour lesquels
X < xi+1 (resp. X ≤ xi+1 ) tandis que, qp = 100, représente la masse totale des valeurs de X.
Xp X p
Remarque : x = nk xk (resp. x = nk ck ) est la masse des valeurs de X pour l’ensemble
k=1 k=1
des individus de la population ou de l’échantillon.
Dans un repère orthonormé dont les axes sont gradués de 0 à 100, la courbe de Lorenz de
la distribution de la variable statistique X s’obtient en joignant les points de coordonnés Mi de
coordonnées (Pi , qi ), i = 1, · · · , p.
La courbe de Lorenz est une courbe polygonale qui est convexe, inscrite dans le triangle OAB
avec O(0, 0), A(0, 100) et B(100, 100).
34
2.4.2 Indice de Gini
L’indice de Gini (ou indice de concentration), IG est le rapport de surface S du domaine
compris entre la courbe de Lorenz et la 1ère bissectrice, et l’aire du triangle OAB.
S S
IG = =
aire(OAB) 5000
p
100 × 100 X
car aire(OAB) = = 5000 et S = 5000 − Sk , où
2
k=1
P 1 × q1 P1 − P0
S1 = aire du triangle OA1 P1 = = (q1 + q0 )
2 2
Sk = aire du trapèze Pk−1 Ak−1 Pk Ak pour k = 2, · · · p
(qk × qk−1 )(Pk − P k − 1) Pk − Pk−1
= qk−1 (Pk − Pk−1 ) + = (qk + qk−1 ).
2 2
d’où pour k = 1, · · · p
2.4.3 Médiale
La médiale ml est est valeur de la variable X qui partage la masse des valeurs en deux parties
égales. c’est la valeurs de X correspondant au point d’ordonné 50 de la courbe de Lorenz.
Si la variable X est continue, 50 ∈]qi−1 , qi ] =⇒ ml ∈]xi , xi+1 ] la classe médiale. Elle s’obtient
par interpolation linéaire
50 − qi−1
ml = xi + (xi+1 − xi )
qi − qi−1
35
Remarque : La médiane me est l’abscisse de la projection sur l’axe des x du point d’abscisse 50
de la courbe de Lorenz.
On a toujours me < ml puisque 50% des effectifs cumulés croissants ne permettent jamais
d’atteindre 50% de la masse totale, d’autre part plus l’écart est important entre ces deux quantités,
plus la statistique X est concentrée.
Plus l’écart entre la médiale et la médiane est important par rapport à l’étendue de la distri-
bution de la variable, plus la concentration est forte.
Si l’écart entre la médiale et la médiane est voisin de 0 de la distribution, la concentration est
égalitaire.
Exemple 2.4.1 :
Un publicitaire décide de lancer une compagne sur le thème : “la publicité fait vendre”.
Dans ce but il fait prélever, au hasard,100 dossiers parmi ceux de ces clients.
Le tableau suivant représente la statistique X exprimant le chiffre d’affaires en millions de dirhams.
[xk , xk+1 [0, 5] ]5, 20] ]20, 50] ]50, 100] ]100, 150] ]150, 300] Totale
nk 48 25 13 6 5 3 100
fk 0.48 0.25 0.13 0.06 0.05 0.03 1
Fk 0.48 0.73 0.86 0.92 0.97 1
nk × ck 120 312.5 455 450 625 675 637.5
P
k≤i nk × ck 120 432.5 887.5 1337.5 1962.5 62637.5
Pk 48 73 86 92 97 100 100
qk 4.55 16.4 33.65 50.71 74.41 100
36
Indice de Gini :
4.55 + 0 16.4 + 4.55
S1 = (48 − 0) = 109.2 , S2 = (73 − 48) = 261.88
2 2
33.65 + 16.4 50.71 + 33.65
S3 = (86 − 73) = 325.33 , S4 = (92 − 86) = 253.08
2 2
74.41 + 50.71 100 + 74.41
S5 = (97 − 92) = 312.8 , S6 = (100 − 97) = 261.62
2 2
S = 5000 − (S1 + S2 + S3 + S4 + S5 + S6 ) = 5000 − 1523.91 = 3476.09
S 3476.09
IG = = = 0.69
5000 5000
médiane est médiale :
La classe médiane est ]5, 20], graphiquement me = 6
0.5 − 0.48
me = 5 + (20 − 5) = 6.2
0.73 − 0.48
La classe médiale est ]50, 100], graphiquement ml ≈ 100
50 − 33.65
ml = 50 + (100 − 50) = 97.92
50.71 − 33.65
ml − me = 97.92 − 6.2 = 91.72
Exemple 2.5.1 :
Les notes de 100 étudiants d’un contrôle de statistique ont une moyenne x = 14 avec un
écart-type σ(x) = 1. combien d’étudiants ont une note entre 12 et 16 ?
Remarquons que 12 = x − 2σ(x) et que 16 = x + 2σ(x). Ainsi, d’après le théorème de Tche-
bychev, le pourcentage d’étudiants ayant obtenue une note entre 12 et 16 est supérieur ou égal à
1
100 × (1 − 2 )% = 75%.
2
Le pourcentage garanti par le théorème de Tchebychev peut être améliorer sous certaines
conditions.
Règle Empirique
Si les observations sont réparties de manière symétrique autour de la moyenne alors,
• Approximativement 68% des valeurs sont à un écart-type de la moyenne.
• Approximativement 95% des valeurs sont à deux écart-type de la moyenne.
• Approximativement toutes les valeurs sont à trois écart-type de la moyenne.
37
Chapitre 3
L’étude statistique peut se porter sur deux caractères présents dans tous les membres de la
population. Ces deux caractères sont représentés par deux variables X et Y . On peut utiliser
l’information dont on dispose pour étudier la liaison qui existe éventuellement entre ces deux
caractères.
Ces données sont représentées par paires. le premier élément de la paire correspond à la valeur
prise par la variable X et le second par Y . xk et yk k = 1, · · · , n sont des valeurs observées.
On représente une distribution statistique à deux caractères quantitatifs par l’ensemble des points
Ak , de coordonnées (xk , yk ), k = 1 · · · n, chaque individu correspond à un point du plan.
On appelle nuage de points l’ensemble des points Ak , de coordonnées (xk , yk ), k = 1, · · · , n. La
représentation graphique du nuage de points est essentielle pour déterminer s’il existe ou non une
relation entre les variables X et Y .
On représente sur l’axe des abscisse les mesures xk , k = 1 · · · , n et sur l’axe des ordonnées les
mesures yk , k = 1 · · · , n est le points Ak correspond à la paire (xk , yk ).
38
Figure 3.1 – Nuage de points
n n
1X 1X
avec x = xk et y = yk .
n n
k=1 k=1
La covariance dépend des unités de mesures dans lesquelles sont exprimées les variables. De même,
on définit le coefficient de corrélation :
Cov(x, y)
ρxy = avec σ(x) et σ(y) l’écart-type des variables X et Y
σ(x) σ(y)
qui est un nombre sans dimension destiné à mesurer l’intensité de la liaison entre les variations de
la variable X et celles de Y .
On a toujours :
−1 ≤ ρxy ≤ 1
39
Si |ρxy | = 1 les points (xk , yk ), k = 1 · · · , n sont alignés, alors il existe une liaison linéaire entre
X et Y c’est à dire, il existe deux réels a et b tel que
Y = aX + b
Si ρxy = 0 les variables X et Y sont non corrélées linéairement c’est à dire il n’existe pas de liaison
linéaire entre X et Y .
Remarque Si ρxy > 0, les points sont alignés le long d’une droite croissante. Si ρxy < 0, les points
sont alignés le long d’une droite décroissante. Si ρxy = 0 ou proche de zéro, il n’y a pas de liaison
linéaire. On peut cependant avoir une liaison non linéaire avec un coefficient de corrélation nul.
En pratique si |ρxy | est proche de 1, on dit qu’il y a corrélation linéaire entre les variables X
et Y . La corrélation est d’autant plus forte que |ρxy | est proche de 1.
Exemple 3.2.1 :
Considérons dans une entreprise, la variable X : les dépenses en milliers de dirhams en publicité
et Y : les ventes en milliers de dirhams des articles produit.
40
xi × 1000DH yi × 1000DH xi × yi x2i yi2
1.7 50 85 2.89 2500
3.0 100 300 9 1000
2.0 75 150 4 5625
1.5 45 67.50 2.25 2025
0.6 20 12 0.36 400
1.5 50 75 2.25 2500
10.3 340 689.50 20.75 23050
10.3 340
x= = 1.717 y= = 56.667
6 6
20.75 23050
V (x) = − 1.7172 = 0.51 V (y) = − 56.6672 = 630.52
6 6
689.50 17.62
Cov(x, y) = − 1.717 × 56.667 = 17.62 ρxy = = 0.98
6 0.714 × 25.11
Le coefficient de corrélation étant proche de 1 on peut conclure que les ventes augmentent en
même temps que les dépenses de publicité.
si on note x et y les moyennes respectives de x et y, alors le couple (â, b̂) qui minimise la fonction
φ est
â = Cov(x, y)
V (x)
b̂ = y − ax
41
montrons que le point critique obtenu est un minimum. Calculons les dérivées partielles seconde
n n
∂2φ X
2 ∂φ X ∂2φ
r= (â, b̂) = 2 x k , s = (â, b̂) = 2 x k = 2 n x, t = (â, b̂) = 2 n
∂a2 ∂a ∂b ∂b2
k=1 k=1
X n
s 2 − r t = 4 n2 x2 − 4 n x2k = −4 n V (x) < 0, r > 0 =⇒ φ admet un minimum en (â, b̂).
k=1
Remarque : La droite de régression y = â x + b̂ passe par les points (x, y) (car y = â x + b̂) et
(0, b).
42
0 ≤ R2 ≤ 1
En effet 0 ≤ SR ≤ SR + SE = ST En divisant le tout par ST On a le résultat.
Le coefficient de détermination R2 nous donne le pourcentage expliqué par la régression.
Exemple 3.2.2 :
On dispose des mesures de taille en cm (variable X) et de poids en kg (variable Y) de 20 enfants
d’une école.
1 2 3 4 5 6 7 8 9 10
X 132 132 131 128 133 125 133 128 129 126
Y 24.75 24.55 22.5 21.46 25.92 24.15 27.86 28.34 25.82 28.5
11 12 13 14 15 16 17 18 19 20
X 139 135 140 136 134 137 142 143 141 135
Y 33.11 33.89 33.88 29.07 31.61 30.68 40.51 35.45 35.11 31.27
2679 588.43
x= = 133.95 y = = 29.42
20 20
530.95 469.3
V (x) = = 26.55 V (y) = = 23.47
20 20
409.36 20.47
Cov(x, y) = = 20.47 ρxy = √ = 0.82
20 26.55 × 23.47
ρxy = 0.82 > 0.8 donc on peut approché Y par la droite a X + b avec
Cov(x, y) 20.47
â = = = 0.77 , b̂ = y − â x = 29.42 − 0.77 × 133.95 = −73.72
V (x) 26.55
La doite de régression est y = 0.77×x−73.72 elle passe par les points (0, −73.72), (133.95, 29.42).
43
44