Étude des Variables Statistiques Discrètes
Étude des Variables Statistiques Discrètes
Le caractère statistique (ou variable statistique, dénotée V.S) peut prendre un nombre
fini raisonnable de valeurs (note, nombre d’enfants, nombre de pièces, ...). Dans ce cas, le
caractère statistique étudié est alors appelé un caractère discret.
Nous allons utiliser souvent l’exemple ci-dessous pour illustrer les énoncés de ce
cha-pitre.
Exemple 8
Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille.
On note X le nombre d’enfants, les résultats sont données par ce tableau :
xi 0 1 2 3 4 5 6
ni (Effectif) 18 32 66 41 32 9 2
Nous avons
– Ω ensemble des familles.
– ω une famille.
– X nombre d’enfants par famille
X:ω→X(ω).
12 2.1. EFFECTIF PARTIEL - EFFECTIF CUMULÉ
Définition 7
Pour chaque valeur xi, on pose par définition
ni : le nombre d’individus qui ont le même xi, ça s’appelle effectif partiel de xi.
ni w
xi
Exemple 9
Dans l’exemple 8, on a 66 est le nombre de familles qui ont 2 enfants.
xi ··· 2 ···
ni (Effectif) · · · 66 · · ·
2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE 13
Définition 8
Pour chaque valeur xi, on pose par définition
Ni = n1 + n2 + ... + ni.
L’effectif cumulé Ni d’une valeur est la somme de l’effectif de cette valeur et de tous
les effectifs des valeurs qui précèdent.
Exemple 10
Dans l’exemple 8, on a 50 est le nombre de familles qui ont un nombre d’enfants
inférieur à 1. Nous le regardons dans le tableau suivant :
xi 0 1 2 3 4 5 6
N
i 18 50 116 157 189 198 200
X
n
N = card{Ω) = ni.
i=1
Définition 9
Pour chaque valeur xi, on pose par définition
ni
fi := N .
14 2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE
Remarque 3
On peut remplacer fi par fi × 100 qui représente alors un pourcentage.
Exemple 11
Dans l’exemple précédent, 0, 33 := il y a 33% de familles dont le nombre d’enfants
égale à 2. Ce pourcentage est calculé de la façon suivante (N = 200) :
x
i ··· 2 ···
Proposition 1
Soit fi défini comme précédemment. Alors,
n
X
fi = 1.
i=1
ni = N.
i=1
i=1 i=1
N N i=1
2.2. FRÉQUENCE PARTIELLE - FRÉQUENCE CUMULÉE 15
Définition 10
Pour chaque valeur xi, on pose par définition
Fi = f1 + f2 + ... + fi.
Interprétation : Fi = est le pourcentage des ω tel que la valeur X(ω) est inférieure
ou égale à xi.
Exemple 12
- Dans l’exemple précédent, 0.785 représente 78.5% de familles dont le nombre
d’en-fants est inférieur ou égale à 3.
- Dans un deuxième exemple, nous nous intéressons aux nombres d’erreurs
d’assem-blage sur un ensemble d’appareils,
0 101 0.26
1 140 0.61
2 92 0.84
3 42 0.94
4 18 0.99
5 3 1
Nous avons 94% des appareils qui ont un nombre d’erreurs d’assemblage inférieur
ou égale à 3.
Nous avons vu que les tableaux sont un moyen souvent indispensable, en tous cas
très utile, de classification et de présentation des unités d’une population statistique.
Dans le pa-ragraphe suivant, nous allons voir comment on traduit ses tableaux en
graphique permettant aussi de résumer d’une manière visuelle les données.
La synthèse : visualiser d’un seul coup d’œil les principales caractéristiques (mais on
perd une quantité d’informations), voir Figure 2.2.
Tuyaux d’orgues
Nous portons en abscisses les modalités, de façon arbitraire. Nous portons en
ordonnées des rectangles dont la longueur est proportionnelle aux effectifs, ou aux
fréquences, de chaque modalité (voir Figure 2.3).
Le degré d’un secteur est déterminé à l’aide de la règle de trois de la manière suivante :
◦
N −→ 360
Donc,
n 360
di = i× .
N
xi 0 1 2 3 4 5 6
ni 18 32 66 41 32 9 2
Diagramme à bâtons
Nous avons déjà abordé les distributions cumulées d’une variable statistique. Nous
allons dans cette partie exploiter ses valeurs cumulées pour introduire la notion de la
fonction de répartition. Cette notion ne concerne que les variables quantitatives.
2.3. REPRÉSENTATION GRAPHIQUE DES SÉRIES STATISTIQUES 19
Remarque 4
Pour tout i ∈ {1, . . . , n}, on a
Fx(xi) = Fi.
La courbe de Fx passe par les points (x1, F1), (x2, F2), ... et (xn, Fn).
En se basant sur notre exemple, la courbe de Fx est représentée ci-dessous (Figure 2.6)
sur
R =] − ∞, 0[ ∪ [0, 1[ ∪ .... ∪ [6, +∞[.
– Si x ≥ 6, alors Fx(x) = 1.
Cette courbe s’appelle "la courbe cumulative des fréquences". La courbe cumulative est
une courbe en escalier représentant les fréquences cumulées relatives.
Figure 2.6: Représentation d’une variable quantitative discrète par la courbe cumulative.
20 2.4. PARAMÈTRES DE POSITION
Proposition 2
La fonction de répartition satisfait, pour i ∈ {1, . . . , n},
0, si x < x1,
F , si x x<x,
1 1 2
F x ≤
– l’expression, x( )= .
F , i
si xi ≤ x < x i+1 ,
, si x x .
1 n
≥
Le mode
Le mode d’une V.S est la valeur qui a le plus grand effectif partiel (ou la plus
grande fréquence partielle) et il est dénoté par Mo.
Exemple 13
Dans l’exemple 8, le mode est égal à 2 qui correspondant au plus grand effectif.
2.4. PARAMÈTRES DE POSITION 21
Remarque 5
On peut avoir plus d’un mode ou rien.
La médiane
− +
Fx(M e ) < 0.5 ≤ Fx(M e ) = Fx(M e).
Exemple 14
Dans l’exemple 8, la relation
+
Fx(0) = 0 < 0.5 ≤ Fx(0 ) = 0.09
n’est pas satisfaite. Donc, la médiane est différente de 0. Par contre, nous avons
− +
Fx(2 ) = 0.25 < 0.5 ≤ Fx(2 ) = F (2) = 0.58.
Donc, M e = 2.
La moyenne
N i=1 i=1
Exemple 15
Si x = 2.46, alors nous avons au moyenne une famille de quartier a 2.46 d’enfants.
La moyenne arithmétique dont on vient d’indiquer la formule est dite moyenne pon-
dérée ; cela signifie que chaque valeur de la variable est multipliée (pondérée) par un
coef-ficient, ici par l’effectif ni qui lui correspond. Dans ce cas, chaque valeur xi de la
variable intervient dans le calcul de la moyenne autant de fois qu’elle a été observée. On
parle de moyenne arithmétique simple quand on n’effectue pas de pondération. Par
exemple, si 5 étudiants ont pour âge respectif 18, 19, 20, 21 et 22 ans, leur âge moyen
est donné par (18 + 19 + 20 + 21 + 22)/5 = 20 ans.
Remarque 6
Nous mentionnons qu’il existe d’autres moyennes que la moyenne arithmétique
L’étendue
e =x
max
−x
min
,
s’appelle l’étendue de la V.S X. Le calcul de l’étendue est très simple. Il donne une
première idée de la dispersion des observations. C’est un indicateur très rudimentaire et
il existe des indicateurs de dispersion plus élaborés (voir ci-dessous).
La variance
n
2
X
On dit que la variance est la moyenne des carrés des écarts à la moyenne x. Les «
écarts à la moyenne » sont les (x −xi), les « carrés des écarts à la moyenne » sont donc
2
les (x −xi) . En faisant la moyenne de ces écarts, on trouve la variance.
Le théorème suivant (Théorème de König-Huygens) donne une identité remarquable
re-liant la variance et la moyenne, parfois plus pratique dans le calcule de la variance.
2.5. PARAMÈTRES DE DISPERSION (VARIABILITÉ) 23
Théorème 1
Soit (xi, ni) une série statistique de moyenne x et de variance V ar(X). Alors,
n
2 2
X
V ar(X) = f ix i − x .
i=1
Donc,
X
n X
n n .
2 2
V ar(X) = n =
ni ni ni
i=1 i=1 i=1
2 n X 2 2
2
nixi 1 n
i=1
V ar(X) = x + n
ni X − 2xx = −x +
N i=1
nx .
i i
X
i=1
Remarque 7
Dans l’utilisation de la formule du théorème précédent, il faut veiller à remplacer x
par sa valeur approchée la plus précise possible.
24 2.6. EXERCICES CORRIGÉS
L’écart type
La quantité
q
σX = V ar(x)
s’appelle l’écart type de la V.S X.
Remarque 8
Le paramètre σx mesure la distance moyenne entre x et les valeurs de X (voir Figure
2.7). Il sert à mesurer la dispersion d’une série statistique autour de sa moyenne.
– Plus il est petit, plus les caractères sont concentrés autour de la moyenne
(on dit que la série est homogène).
– Plus il est grand, plus les caractères sont dispersés autour de la moyenne
(on dit que la série est hétérogène).
Exercice 7
- Le tableau suivant donne la répartition selon le groupe sanguin de 40 individus pris au
hasard dans une population,
Groupes sanguins A B AB O
L’effectif 20 10 n3 5
Solution 1 - La population dans cette étude est les 40 personnes. Donc N = 40. La
variable statistique est le groupe sanguin des individus et elle est qualitative.
4
X
N = 40 = ni.
i=1
Alors,
20 + 10 + n3 + 5 = 40.
20 B
15
A
10 O
5
AB
o ABBA Groupes sanguins
Exercice 8
- Le gérant d’un magasin vendant des articles de consommation courante a relevé pour un
article particulier qui semble connaître une très forte popularité, le nombre d’articles vendus
par jour. Son relevé a porté sur les ventes des mois de Mars et Avril, ce qui correspond à
52 jours de vente. Le relevé des observations se présente comme suit :
7138109121089106147159111211125141181014128
5713121611911111212151451499141311101112915.
Solution 1 - La population est les 52 jours et la variable statistique étudiée est le nombre
d’articles vendus par jour. Son type est bien évidement quantitatif discret (nombre).
xi 5 6 7 8 9 10 11 12 13
ni 3 1 3 4 7 5 8 8 3
Ni 3 4 7 11 18 23 31 39 42
14 15 16 P
6 3 1 N=52
48 51 52 ?
48/52 51/52 1 ?
ni ou fi
8
56 78910111213141516 xi
F x ≤
x( )=
7/52, si 7 x < 8,
.. . .≤
. .
1, si x 16.
≥
5 - Le mode est la valeur de la variable qui a le plus grand e ffectif, c’est à dire, ni = 8.
Donc,
Mo = 11 et Mo = 12.
Par conséquent,
1 555
x = 52 (3 × 5 + 1 × 6 + 3 × 7 + ... + 1 × 16) = 52 = 10.67.
− 23 + 31
Fx(11 ) = 52 < 0.5 ≤ Fx(11 ) = F (M e) = 52.
Donc, M e = 11.
q
σX = V ar(x) = 2.76.
28 2.6. EXERCICES CORRIGÉS
Exercice 9
- On considère deux groupes d’étudiants. Nous relevons leurs notes d’examens dans
les deux tableaux suivants :
Note (groupe A) 8 9 10 11
Effectif 2 2 1 1
Note (groupe B) 6 8 9 13 14
Effectif 2 2 2 1 1
Calculer la moyenne et l’écart type de chaque groupe. Comparer les deux groupes.
Solution Dans un premier temps, nous remarquons que l’effectif total du groupe A est
égal à 6 et celui du groupe B est égal à 8.
En utilisant la formule de la moyenne, nous obtenons
xA = 9.2 et xB = 9.1.
On remarque que les moyennes sont très proches. Peut-on pour autant conclure que
ces deux groupes ont des niveaux identiques ?
Nous répondons à cette question après le calcule des écarts type. Ils sont donnés
par
A B
σX = 1.11 et σX = 2.8.
Nous remarquons que même si les deux groupes ont des moyennes quasiment identiques, le
B A
groupe B est beaucoup plus dispersé que le groupe A car σX > σX . Les étudiants de ce groupe
ont des notes plus irréguliers. On peut dire donc que le groupe B est moins homogènes
que le groupe A. En observant les valeurs du tableau, on voit que c’est cohérent.
Exercice 10
- Un quartier résidentiel comprend 99 unités d’habitation ayant une valeur locative
moyenne de 10000 Da. Deux nouvelles unités d’habitation sont construites dans le
quartier : l’une a une valeur locative de 7000 Da et l’autre, une villa luxueuse, a une
valeur locative de 114000 Da.
– Quelle est la nouvelle moyenne de valeur locative pour le quartier ?
– Pouvait-on s’attendre à de tel résultat ?
Exercice 11
- Pour déterminer le type de logement (F 2, F 3, ...) à construire, on étudie 20 familles
selon leur nombre d’enfants. Durant l’expérience, on note les résultats suivants :
1,3,5,5,3,2,4,4,7,0,2,4,3,7,0,5,4,2,3,2
X
Modalité 0 1 2 3 4 5 6 7
ni
Ni
f
i
Fi
Exercice 12
- Voici le tableau des pourcentages obtenu pour la variable " Mode de logement" :
Sachant que la taille de l’échantillon N = 189, retrouver les effectifs pour chaque modalité.
Exercice 13
- Au poste de péage, on compte le nombre de voitures se présentant sur une période de
5 min. Sur 100 observations de 5 min, on obtient les résultats suivants :
30 2.7. EXERCICES SUPPLÉMENTAIRES
Nombre de voitures 1 2 3 4 5 6 7 8 9 10 11 12
Nombre d’observations 2 8 14 20 19 15 9 6 2 3 1 1
Exercice 14
- Dans une petite localité, on a relevé le nombre de pièces par appartement :
Nombre de pièces 1 2 3 4 5 6 7
Nombre d’appartements 48 72 96 64 39 25 3
Exercice 15
- Une machine coupe des barres de 12 cm. Mais malheureusement, elle n’est pas bien
réglée et les longueurs varient autour de la valeur attendue. Une étude sur 185 barres
donnent les résultats suivants :
Effectif 3 15 16 16 18 20 25 25 28
Exercice 16
- La répartition en 2016 du nombre de pièces des résidences principales en Algérie
est
Exercice 17
- On observe le nombre d’arrivées des clients à un bureau de poste pendant
un intervalle de temps donné (disant 10 minutes). En répétant 100 fois cette
observation, on obtient les résultats suivants :
Exercice 18
- On mesure les diamètres de troncs d’arbres d’une même espèce. On étudie
400 échantillons. On obtient les résultats suivants :
Diamètre en cm 25 26 27 28 29 30
Pourcentage 10% 15% 30% 35% 5% 5%
On donne :
(25 × 0.1) + (26 × 0.15) + (27 × 0.3) + (28 × 0.35) + (29 × 0.05) + (30 × 0.05)
= 27.25.
2 2 2 2 2 2
(25 × 0.1) + (26 × 0.15) + (27 × 0.3) + (28 × 0.35) + (29 × 0.05) + (30 × 0.05) =
744.05.
1. Établir le tableau statistique en fonction des effectifs et des fréquences
relatives.
2. Quel est le diamètre moyen de ces troncs d’arbres ?
32 2.7. EXERCICES
SUPPLÉMENTAIRES