CHAP 10 : LES STATISTIQUES
I. VOCABULAIRE
1. Population : C’est l’ensemble des individus sur les quels porte une étude statistique.
2. Échantillon : C’est une partie de la population.
3. Caractère : Le caractère est l’information sur laquelle l’étude statistique est réalisée. Il peut
être quantitatif s’il est mesurable, exemple la taille, la masse etc. ou qualitatif dans le cas
contraire, exemple la couleur, la nationalité etc.
4. Effectif : C’est le nombre d’individus d’une population ou d’une partie de cette population.
5. Modalité : C’est l’une des différentes valeurs ou qualités de la variable d’une série statistique.
6. Fréquence : C’est le nombre de fois qu’une modalité est représentée par rapport à l’effectif
total. Elle est donc toujours inferieure à 1 et la somme totale de toutes les fréquences donne 1.
II. SÉRIE STATISTIQUE D’UNE VARIABLE
1. Définition
On appelle série statistique d’une variable 𝑥 ou série statistique simple, la série obtenue si
l’étude est réalisée sur un seul caractère 𝑥. Elle peut être groupée ou non groupé en classes.
On la note (𝑥# , 𝑛# ). Avec 𝑥 = (𝑥) ; 𝑥+ ; … ; 𝑥- . et 𝑛# est l’effectif de la modalité 𝑥# .
2. Effectif total, Moyenne, Variance, Ecart-type, Fréquence partielle
)
Effectif total : 𝑁 = ∑-#1) 𝑛# . Moyenne : 𝑥̅ = 3 ∑-#1) 𝑛# 𝑥# . Si la série est groupée en classes
) 567
alors : 𝑥̅ = 3 ∑-#1) 𝑛# 𝑐# où 𝑐# = +
est le centre de classe numéro 𝑖 qui est de la forme [𝑎; 𝑏[.
)
Variance : 𝑉(𝑥) = 3 ∑-#1) 𝑛# 𝑥#+ − 𝑥̅ + . Si la série est groupée en classes alors
)
𝑉(𝑥) = 3 ∑-#1) 𝑛# 𝑐#+ − 𝑥̅ + . La variance est toujours positive.
A
Ecart-type : 𝜎(𝑥) = ?𝑉(𝑥). Fréquence partielle : 𝑓# = 3B . On a toujours ∑-#1) 𝑓# = 1
Exemple : On représente au tableau N°1 les tailles en cm de 10 jeunes garçons et au tableau
N°2, les notes en maths de 11 élèves d’une classe de TS2.
Tableau N°1
Tailles 𝑥# en cm 170 172 175 180 185
Effectifs 𝑛# 1 2 3 3 1
Tableau N°2
Notes en maths 𝑥# [8; 10[ [10; 12[ [12; 14[ [14; 16[ [16; 18[
Effectifs 𝑛# 3 4 2 1 1
Pour chacun des tableaux ci-dessus, déterminer l’effectif total, la moyenne, la variance,
l’écart-type et les fréquences partielles.
Solution
• Tableau N°1 : Série non groupée en classes.
𝑁 = 1 + 2 + 3 + 3 + 1 = 10.
)
𝑥̅ = )K (1 × 170 + 2 × 172 + 3 × 175 + 3 × 180 + 1 × 185) = 176,4 𝑐𝑚.
)
𝑉(𝑥) = )K (1 × 170+ + 2 × 172+ + 3 × 175+ + 3 × 180+ + 1 × 185+ ) − (176,4)+ = 19,84.
𝜎(𝑥) = √19,84 = 4,45.
) + S S )
𝑓) = )K ; 𝑓+ = )K ; 𝑓S = )K ; 𝑓T = )K et 𝑓U = )K .
• Tableau N°2 : Série groupée en classes.
𝑁 = 3 + 4 + 2 + 1 + 1 = 11.
) X6)K )K6)+ )+6)T )T6)Z )Z6)X
𝑥̅ = )) V3 × W +
Y+4×W +
Y+2×W +
Y+1×W +
Y+1×W +
Y[ = 11,73.
)
𝑉(𝑥) = )) (3 × 9+ + 4 × 11+ + 2 × 13+ + 1 × 15+ + 1 × 17+ ) − (11,73)+ = 5,95.
𝜎(𝑥) = ?5,95 = 2,44.
S T + ) )
𝑓) = )) ; 𝑓+ = )) ; 𝑓S = )) ; 𝑓T = )) et 𝑓U = )) .
M. NZALÉ TS2 © 2024 1
III. SÉRIE STATISTIQUE DE DEUX VARIABLES
1. Définitions : Cas général, série non injective
On appelle série statistique de deux variables 𝑥 et 𝑦 ou série statistique double, la série
obtenue si l’étude est réalisée à la fois sur deux caractères différents 𝑥 et 𝑦. Elle est donc
formée de deux séries simples qui peuvent être groupées ou non ; ou l’une peut être groupée
et l’autre non groupée. On la note ]𝑥# , 𝑦^ , 𝑛#^ _. On la représente dans un tableau à double
entrée appelé tableau de contingence.
Si 𝑥 = (𝑥) ; 𝑥+ ; … ; 𝑥- . et 𝑦 = (𝑦) ; 𝑦+ ; … ; 𝑦` . alors :
• 𝑛#^ est l’effectif du couple ]𝑥# ; 𝑦^ _. L’effectif total sera 𝑁 = ∑-#1) ∑`^1) 𝑛#^
• 𝑛#∙ = 𝑛#) + 𝑛#+ + ⋯ + 𝑛#` et 𝑛∙^ = 𝑛)^ + 𝑛+^ + ⋯ + 𝑛-^ sont respectivement les
effectifs partiels sur la ligne 𝑖 respectivement sur la colonne 𝑗.
A A A
• 𝑓#^ = 3Bd est la fréquence du couple ]𝑥# ; 𝑦^ _. 𝑓#∙ = 3B∙ et 𝑓∙^ = 3∙d sont les fréquences
partielles sur la ligne 𝑖 et sur la colonne 𝑗.
A A
• Les fréquences conditionnelles : 𝑓eB/ = ABd et 𝑓hd/ = ABd
gd ∙d iB B∙
• On appelle nuage de points, l’ensemble des points 𝑀]𝑥# ; 𝑦^ _ qu’on notera 𝑀#^ dans
un repère. On appelle point moyen, le point G, barycentre des points ]𝑀#^ ; 𝑛#^ _.
• On appelle covariance d’une série statistique de deux variables 𝑥 et 𝑦, le réel noté :
)
𝐶𝑜𝑣(𝑥, 𝑦) = 3 ∑-#1) ∑`^1) 𝑛#^ 𝑥# 𝑦^ − 𝑥̅ . 𝑦o
Exemple : Le tableau ci-dessous représente les notes 𝑥 en Maths et les notes 𝑦 en PC de 10
élèves d’une classe de TS2
𝑦^ 8 11 12
𝑥#
9 2 0 0
10 0 3 1
11 0 1 2
12 0 0 1
1) Donner la valeur de 𝑛+S . Interpréter cette valeur.
2) Déterminer les séries marginales de 𝑥 et 𝑦 puis donner 𝑥̅ et 𝑦o.
3) Déterminer la série conditionnelle 𝑧 = 𝑥/ h1)+ . Calculer sa moyenne puis l’interpréter.
4) Déterminer 𝑓S∙ et 𝑓∙+
5) Calculer 𝑐𝑜𝑣(𝑥, 𝑦).
Solution
1) 𝑛+S est la valeur qui se situe sur la deuxième ligne et la troisième colonne. Donc
𝑛+S = 1. Ça veut dire qu’il y’a 1 seul élève qui a 10 en Maths et 12 en PC.
2) La série marginale de 𝑥 : (On extrait la série de 𝑥 de la série double)
Notes de Maths 𝑥# 9 10 11 12
Effectifs 𝑛# 2 4 3 1
)
𝑥̅ = )K (2 × 9 + 4 × 10 + 3 × 11 + 1 × 12) = 10,3
La série marginale de 𝑦 : (On extrait la série de 𝑦 de la série double)
Notes de PC 𝑦^ 8 11 12
Effectifs 𝑛^ 2 4 4
)
𝑦o = )K (2 × 8 + 4 × 11 + 4 × 12) = 10,8
M. NZALÉ TS2 © 2024 2
3) La série conditionnelle 𝑧 = 𝑥/ h1)+
𝑧# = 𝑥# / 10 11 12
h1)+
𝑛# 1 2 1
)
𝑧̅ = T (1 × 10 + 2 × 11 + 1 × 12) = 11. C’est la moyenne en Maths des élèves qui
ont 12 en PC.
4) Déterminer 𝑓S∙ et 𝑓∙)
A S
𝑓S∙ = )Kq∙ et 𝑛S∙ = 0 + 1 + 2 = 3 donc 𝑓S∙ = )K
A T
𝑓∙+ = )K∙r et 𝑛∙+ = 0 + 3 + 1 + 0 = 4 donc 𝑓∙+ = )K
5) La covariance de 𝑥 et 𝑦.
(+×X×s6S×))×)K6)×)+×)K6)×))×))6+×)+×))6)×)+×)+)
𝐶𝑜𝑣(𝑥; 𝑦) = )K
− 10,3 × 10,8 = 1,06.
2. Cas particulier : Série injective
1 𝑠𝑖 𝑖 = 𝑗
Une série est dite injective si : 𝑛#^ = t . Elle est notée (𝑥# ; 𝑦# ) et se présente sous
0 𝑠𝑖 𝑖 ≠ 𝑗
forme d’un tableau de deux lignes de même longueur. Dans ce cas l’effectif total 𝑁 est le
nombre de couples (𝑥# ; 𝑦# ).
) )
• 𝑥̅ = 3 ∑-#1) 𝑥# et 𝑦o = 3 ∑-#1) 𝑦# si la série n’est pas groupée en classes.
) )
𝑥̅ = 3 ∑-#1) 𝑐# et 𝑦o = 3 ∑-#1) 𝑐# si la série est groupée en classes.
) )
• 𝑉(𝑥) = 3 ∑-#1) 𝑥#+ − 𝑥̅ + et 𝑉(𝑦) = 3 ∑-#1) 𝑦#+ − 𝑦o + .
Plus simplement on a : 𝑉(𝑥) = 𝑥 ooo+ − 𝑥̅ + et 𝑉(𝑦) = ooo
𝑦 + − 𝑦o +
• 𝜎(𝑥) = ?𝑉(𝑥) et 𝜎(𝑦) = ?𝑉(𝑦)
)
• 𝐶𝑜𝑣(𝑥, 𝑦) = 3 ∑-#1) 𝑥# 𝑦# − 𝑥̅ . 𝑦o ou plus simplement on a : 𝐶𝑜𝑣(𝑥, 𝑦) = 𝑥𝑦 ooo − 𝑥̅ . 𝑦o
• Le nuage de points est l’ensemble des points 𝑀(𝑥# ; 𝑦# ) dans un repère. Le point
moyen est le point 𝐺(𝑥̅ ; 𝑦o) ; il sera toujours au centre du nuage ( Isobarycentre ).
Exemple : On donne le tableau statistique ci-dessous :
𝑥# 2 4 5 7
𝑦# 1 2 3 4
1) Représenter le nuage de points de cette série statistique.
2) Calculer 𝑥̅ , 𝑦o, 𝑉(𝑥), 𝑉(𝑦) et 𝐶𝑜𝑣(𝑥, 𝑦).
3) Représenter le point moyen 𝐺 dans le nuage.
Solution
1) Le nuage de points
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0 2 4 6 8
M. NZALÉ TS2 © 2024 3
Ø Si le nuage de points a la forme d’une droite, alors les variables 𝑥 et 𝑦 sont liées par
une relation linéaire qu’on verra plus tard dans la suite du cours.
2) Total
𝑥# 2 4 5 7 18
𝑦# 1 2 3 4 10
𝑥#+ 4 16 25 49 94
𝑦#+ 1 4 9 16 30
𝑥# 𝑦# 2 8 15 28 53
)X )K sT SK
𝑥̅ = T
= 4,5 ; 𝑦o = T
= 2,5 ; 𝑉(𝑥) = T
− (4,5)+ = 3,25 ; 𝑉(𝑦) = T
− (2,5)+ = 1,25
US
𝐶𝑜𝑣(𝑥, 𝑦) = T − 4,5 × 2,5 = 2
3) Le point moyen est donc 𝐺(4,5 ; 2,5). On peut le placer dans le nuage.
IV. AJUSTEMENT LINEAIRE
1. Coefficient de corrélation
On appelle coefficient de corrélation linéaire entre les variables 𝑥 et 𝑦 (le lien entre les deux
yz{(e,h) yz{(e,h)
variables) d’une série statistique double, le réel 𝑟 = ou encore 𝑟 = }(e)×}(h)
?|(e)×|(h)
• On a toujours −1 ≤ 𝑟 ≤ 1
• Si |𝑟| ≥ 0,87 ou 𝑟 + ≥ 0,75 alors la corrélation entre x et y est forte.
• Si |𝑟| < 0,87 ou 𝑟 + < 0,75 alors la corrélation entre x et y est faible.
• Si 𝑟 = −1 ou 𝑟 = 1 alors la corrélation entre x et y est parfaite.
• Si 𝑟 = 0 alors la corrélation entre x et y est nulle. Dans ce cas, il n’y a aucune relation
entre 𝑥 et 𝑦. On dira que les variables x et y sont indépendantes.
REMARQUE : Quand la corrélation entre deux variables est forte alors on peut faire
une estimation d’une des valeurs connaissant l’autre à l’aide des droites de régression.
2. Droites de régression : Par la méthode des moindres carrées
On peut déterminer les droites de régression linéaires de la manière ci-dessous, appelée la
méthode des moindres carrées :
yz{(e,h)
]𝐷h/e _ ∶ 𝑦 − 𝑦o = 𝑎(𝑥 − 𝑥̅ ) avec 𝑎 = |(e) est la droite de régression de 𝑦 en 𝑥.
yz{(e,h)
]𝐷e/h _ ∶ 𝑥 − 𝑥̅ = 𝑎′(𝑦 − 𝑦o) avec 𝑎′ = |(h)
est la droite de régression de 𝑥 en 𝑦.
• Après transformation, elles s’écrivent sous la forme :
]𝐷h/e _ ∶ 𝑦 = 𝑎𝑥 + 𝑏 et ]𝐷e/h _ ∶ 𝑥 = 𝑎′𝑦 + 𝑏′
• On « peut » retrouver ]𝐷h/e _ à partir de ]𝐷e/h _ et réciproquement.
• Les droites de régression linéaires passent toujours par le point moyen.
• On a toujours 𝑎𝑎… = 𝑟 + . (À démontrer ).
Exercice d’application
D’après des études scientifiques, la croissance d’un arbre ne s’arrête jamais.
On considère un arbre dont la hauteur 𝑥 en 𝑚è𝑡𝑟𝑒𝑠 et son âge 𝑦 en 𝑎𝑛𝑛é𝑒𝑠 sont consignés
dans le tableau ci-dessous : Les résultats seront donnés à 1 chiffre après la virgule.
𝑥# 3 5 7,5 8
𝑦# 2 4 6 7
1) Déterminer le coefficient de corrélation linéaire entre 𝑥 et 𝑦.
2) Justifier qu’on peut estimer la hauteur de cet arbre si on connait son âge.
3) Quelle serait sa hauteur à l’âge de 10 ans ?
4) Si l’arbre mesure 11 mètres, estimer son âge en années.
FIN
M. NZALÉ TS2 © 2024 4