Stat Proba
Stat Proba
FASO (UV-BF)
COURS DE
STATISTIQUE ET PROBABILITÉ
14 février 2021
CHAPITRE 1
STATISTIQUE DESCRIPTIVE
1.1 Généralités
La statistique est l’ensemble des méthodes mathématiques relatives à la collecte, la présen-
tation, l’analyse et à l’utilisation des données. Elle s’applique à la plupart des disciplines telles
que l’agronomie, la biologie, la démographie, l’économie, la linguistique, la psychologie etc. On
subdiviser la statistique en deux grandes branches à savoir :
– la statistique descriptive qui décrit, présente, résume, récapitule et analyse les données ;
– la statistique inductive (inférentielle) qui permet de conclure sur une « population » entière
à partir de l’étude d’un « échantillon ».
Dans ce chapitre, nous ne nous intéressons qu’à la statistique descriptive.
1.1.1 Vocabulaire
Définition 1.1.1
Une population est un ensemble d’éléments présentant des caractéristiques communes auxquels
se rapportent les données étudiées. Cette population peut être des être vivants, des objets, des
étudiants d’une université, des productions d’une usine, des entreprises d’un secteur donné ¨ ¨ ¨
Définition 1.1.2
On appelle individu ou unité statistique, chaque élément d’une population.
Exemple 1.1.1
L’ensemble des étudiants de la deuxième année de l’ISGE est un ensemble statistique. Chaque
étudiant est une unité statistique. Si l’on divise la classe en des groupes, chacun de ces groupes
est un échantillon.
Définition 1.1.4
Un caractère statistique ou une variable statistique est une caractéristique (propriété) observée
ou mesurée sur les individus d’une population.
Exemple 1.1.2
Le chiffre d’affaires de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie
socioprofessionnelle d’une personne, le nombre de but marqué lors d’une rencontre de football,
le taux de natalité, la taille d’une personne etc.
1
1.1. Généralités
Définition 1.1.5
Une modalité est une valeur ou un état pris(e) par une variable statistique. Les modalités
correspondent donc à l’ensemble des valeurs possibles d’une variable statistique. L’ensemble de
ces valeurs est appelé le domaine de la variable.
On suppose que la variable prend toujours une seule valeur sur chaque unité.
Exemple 1.1.3
Dans l’exemple 1.1.1, on peut prendre comme caractère :
– l’âge d’un étudiant dont les valeurs peuvent être : 18 ans, 19 ans, 20 ans, 25 ans,... ;
– l’ethnie d’un étudiant qui peut avoir pour état (valeur) : Bissa, Dagara, Dioula, Mossi,
Sénoufo ...
Exemple 1.1.7
On s’intéresse à la variable ’état-civil’ notée X et à la série statistique des valeurs prises par
X sur 20 personnes.
Le nombre d’unités d’observation est noté n “ 20.
En procédant à la codification suivante :
Exemple 1.1.8
L’ensemble des modalités et des effectifs d’un caractère forment une distribution statistique
ou série statistique txi ; ni u
La fréquence de la modalité xi (ou fréquence relative) est notée fi . Elle est la proportion
ni
fi “
n
La somme des fréquences vaut 1 :
k k k
ÿ ÿ ni 1 ÿ 1
fi “ “ ˆ ni “ ˆ n “ 1
i“1 i“1
n n i“1 n
Lorsque la variable est quantitative le tableau peut être complété par les valeurs cumulées.
Présentation du tableau
Le tableau statistique dans le cas d’un caractère qualitatif nominal peut être donné par :
Le diagramme en barres
Les modalités sont représentées par des rectangles de bases constantes arbitrairement choi-
sies et de hauteur proportionnelle à l’effectif ou à la fréquence de la modalité. Les rectangles
sont espacés les uns des autres.
Notation
Dans cet exemple, le critère CSP définit une variable qualitative X à 6 modalités (ou classes)
x1 , x2 , ..., x6 ; avec x1 “ ouvrier, x2 “ employé, x3 “ agriculteur, x4 “ professions intermédiaires,
x5 “ chef d’entreprise et x6 “ retraité.
L’ordre et le codage des modalités n’ont aucune importance.
La variable qualitative X est dite nominale.
Outil statistique
Pour décrire statistiquement une variable qualitative, on utilise les outils élémentaires de
distributions de fréquences absolues (effectifs) et relatives visualisées par des graphiques élé-
mentaires de son choix (diagrammes en bâtons, en barres, en secteurs, etc.). Les distributions
de fréquences absolues et relatives données par la Table1.6 sont :
Représentations graphiques
Diagrammes en bâtons, en barres et en secteur
RETRAITE
CHEF D'ENTREPRISE
PROFESSION INTERMEDIAIRE
AGRICULTEUR
EMPLOYE
OUVRIER
0 10 20 30 40 50 60
OUVRIER
EMPLOYE
AGRICULTEUR
PROFESSION INTERMEDIAIRE
CHEF D'ENTREPRISE
RETRAITE
Commentaires
Il nous paraît superflu de commenter longuement des tableaux et graphiques très expres-
sifs par nature. Remarquons seulement que deux origines sociales se démarquent. La CSP
"professions intermédiaires" (56%) rassemble plusieurs professions. Cela peut expliquer ce fort
pourcentage En ce qui concerne la CSP "agriculteurs" (31%), il n’est pas étonnant de trouver
ce résultat dans l’échantillon enquêté puisqu’une forte proportion d’étudiants est issue de ce
milieu.
Exemple 1.2.2
Considérons le tableau donnant la répartition de la population active occupée selon la catégorie
socio-professionnelle (CSP) au Burkina Faso en 2000 :
x1 ă x2 ă ¨ ¨ ¨ ă xi´1 ă xi ă ¨ ¨ ¨ ă xJ´1 ă xJ .
avec N1 “ n1 ; NJ “ n.
On calcule également les fréquences cumulées par :
i
Ni ÿ
Fi “ “ fk ; i “ 1, ..., J
n k“1
Le diagramme en barres
Les modalités sont représentées par des barres de hauteur proportionnelle à l’effectif ou à
la fréquence de la modalité.
Le diagramme circulaire
C’est un disque découpé en secteurs. Chaque secteur correspond à une modalité et son angle
au centre est proportionnel à la fréquence de la modalité : θi “ 360fi degrés.
Remarque 1.3.1
Quelque fois on utilise des démi-disques ; dans ce cas les fréquences sont multipliées par 180
pour avoir les angles au centre.
Revenons sur l’Exemple 1.2.1 intitulé « Crise alimentaire » et intéressons-nous à un
autre caractère.
Exemple 1.3.1
Dans l’exemple 1.2.1, nous nous intéressons à une autre question posée aux étudiants qui,
rappelons-le, deviendront, pour une bonne partie d’entre eux, ingénieurs dans des secteurs agri-
coles, agro-alimentaires, etc. Quel doit être selon eux, le degré de responsabilité des gouverne-
ments face à de telles questions de salubrité publique ? La réponse possible a été proposée sous
la forme d’une échelle croissante de 1 (très peu important) à 5 (très important, fondamental).
Le tableau 1.9 indique les résultats obtenus.
Notations
Le critère étudié est l’opinion relative à l’importance de la responsabilité que doivent assu-
mer les gouvernements face aux questions de sécurité alimentaire. Ce critère définit une variable
qualitative Y à p modalités ou classes : y1 , y2 , ¨ ¨ ¨ , yp .
Dans notre exemple p est égal à 5, les modalités proposées étant y1 “ très peu important, y2 “
peu important, y3 “ assez important, y4 “ important et y5 “ très important.
Cette fois, les modalités sont ordonnées selon un gradient (ici, gradient d’importance crois-
sante). La variable qualitative Y est dite ordinale (ou encore de type "échelle"). Les distributions
de fréquence, identiques à celles présentées pour une variable qualitative nominale, constituent
l’outil statistique. Il est important de remarquer la nuance entre les deux types de variables
nominales et ordinales. La présence d’un gradient dans la variable qualitative ordinale permet
d’enrichir les exploitations statistiques des cas concrets en assimilant la variable selon les cas
à une variable quantitative de type note ou rang ou mesure.
Outil statistique
L’analyse descriptive est réalisée de manière identique à la précédente. Rappelons que les
classes (ou modalités) étant ordonnées selon un gradient de codage de 1 (très peu important)
à 5 (très important), la variable qualitative peut être assimilée à une variable quantitative du
type « note sur 5 ». Le tableau des fréquences absolues et relatives donné par TABLE 1.9 se
présente sous la forme suivante :
Remarque 1.3.2
Les différentes représentations graphiques se font de façons analogues à celles du caractère CSP.
Donc ces représentations sont laissées à l’apprenant.
Exercice 1.3.1
On s’intéresse à la catégorie de lotissement au Burkina Faso. Une étude a permis de recenser,
sur un échantillon de 1000 détenteurs de terrain, le type de lotissement.
Effectifs-fréquences
1. L’effectif cumulé croissant
ni Õ d’une modalité xi est le nombre d’individus de la population dont le caractère est
inférieur ou égal à xi . C’est la somme des effectifs des modalités de x1 à xi :
i
ÿ
ni Õ “ n1 ` n2 ` ··· ` ni “ nj
j “1
k
ÿ
ni Œ “ ni ` ni`1 ` ··· ` nk “ nj
j “i
k
ÿ
fi Œ “ fi ` fi`1 ` ··· ` fk “ fj
j “i
Exemple 1.4.1
Répartition des élèves d’une classe selon la note sur 20 obtenue dans une matière.
Les effectifs cumulés croissants respectivement les fréquences cumulées croissantes sont re-
présentées respectivement aux moyens de la fonction
$
& 0 si x ă x1
F1 pxq “ Ni` si xi ď x ă xi`1 , i “ 1, ¨ ¨ ¨ , J ´ 1 (1.1)
n si xJ ď x
%
et de la fonction de répartition
$
& 0 si x ă x1
F2 pxq “ F` si xi ď x ă xi`1 , i “ 1, ¨ ¨ ¨ , J ´ 1 (1.2)
% i
1 si xJ ď x
La fonction de répartition est définie de R dans r0; 1s
De façon analogue, les effectifs cumulés décroissants sont représentés par la
$
& n si x ď x1
F3 pxq “ Ni´ si xi ď x ă xi`1 , i “ 1, ¨ ¨ ¨ , J ´ 1 (1.3)
0 si xJ ď x
%
et les fréquences cumulées décroissantes sont définies par la fonction de répartition définie de
R dans r0; 1s par :
$
& 1 si x ď x1
F4 pxq “ Fi´ si xi ď x ă xi`1 , i “ 1, ¨ ¨ ¨ , J ´ 1 (1.4)
0 si xJ ď x
%
Exemple 1.4.2
Représentation de la répartition des employés d’une entreprise selon le nombre de personnes
habitant le ménage
Représentations graphiques
19 17
16 16
4
Fréquences absolues
18 13 19 14
13 13
17
8
16 8
Fréquences Absolues 16
15
4
14 17
13
14
12 NGS
13
16
0 5 10 15 20
Axe : Fréquences absolues
entre 5 et 10. On convient d’adopter le plus souvent, des classes d’intervalles fermés à gauche et ouverts
à droite. De plus ces classes s’emboîtent les unes dans les autres. Pour chaque classe rei ; ei`1 r on définit
les valeurs cumulées comme suit :
1. l’effectif cumulé croissant de la classe
Il s’agit de
ni Õ“ n1 ` n2 ` ¨ ¨ ¨ ` ni ;
c’est donc le nombre d’individus dont le caractère étudié prend une valeur strictement inférieure
à ei`1 ;
Il en suit que le nombre d’individus dont le caractère étudié prend une valeur strictement
inférieure à e1 est nul ;
2. la fréquence cumulée croissante de la classe
Elle est donnée par la relation :
fi Õ“ f1 ` f2 ` ¨ ¨ ¨ ` fi ;
c’est donc la proportion d’individus dont le caractère étudié prend une valeur strictement infé-
rieure à ei`1 ;
Il vient que la proportion d’individus dont le caractère étudié prend une valeur strictement
inférieure à e1 est nulle ;
3. l’effectif cumulé décroissant de la classe
Il s’agit de
ni Œ“ ni ` ni`1 ` ¨ ¨ ¨ ` nk ;
c’est donc le nombre d’individus dont le caractère étudié prend une valeur supérieure ou égale
à ei ;
Alors le nombre d’individus dont le caractère étudié prend une valeur supérieure ou égale à e1
est n.
4. la fréquence cumulée décroissante de la classe
fi Œ“ fi ` ni`1 ` ¨ ¨ ¨ ` fk ;
c’est donc la proportion d’individus dont le caractère étudié prend une valeur supérieure ou
égale à ei ;
Il vient que la proportion d’individus dont le caractère étudié prend une valeur supérieure ou
égale à e1 est 100%.
5. le centre de la classe
ei ` ei`1
Il est ci “ ; il est supposé être une valeur répresentative de la classe. On remplace sou-
2
vent l’étude d’une série continue par celle de la série classée associée c’est à dire, la série discrète
dont les modalités sont les centres des classes et les effectifs ceux des classes correspondantes ;
on dit qu’on discrétise la série continue.
6. l’amplitude ou étendue de la classe
Elle est donnée par ai “ ei`1 ´ ei
7. la densité de fréquence de la classe
fi
Elle est obtenue par di “ ; lors du regroupement des valeurs d’une série en classe, il n’est pas
ai
imposé que toutes les classes soient de même amplitude, par conséquent, on ne peut se contenter
des effectifs ou des fréquences de deux classes pour les comparer ; d’où l’utilisation de la densité.
Exemple 1.5.1
Distribution des ouvriers d’une entreprise selon le salaire journalier en milliers de francs.
Histogramme
On représente chaque classe rei , ei`1 r par un rectangle dont la base est l’intervalle rei , ei`1 s et la
surface est proportionnelle à l’effectif de la classe. La hauteur est égale à la densité de la classe.
En pratique, l’histogramme se construit suivant les cas :
1. Cas de classes d’amplitudes égales
Pour les classes d’amplitudes égales, les rectangles représentant chaque classe ont pour surface
si “ ai fi .
Exemple 1.5.2
Reprenons l’Exemple 1.4.3 et regroupons les modalités en classe d’amplitude 2. Nous établissons le
tableau suivant :
Représentation
Histogramme de la variable nombre de grappes par source (NGS)
30 30
21
[ 12 14 [ [ 14 16 [ [ 16 18 [ [ 18 20 [ [ 20 22 [
Exemple 1.5.3
Considérons le tableau suivant donnant le nombre de personnes en fonction de leurs consommations
mensuelles en mètre cube (m3 ) d’eau :
Consommation d’eau(m3 ) [0 ;6[ [6 ;12[ [12 ;18[ [18 ;24[ [24 ;30[ [30 ;36[ [36 ;42[
Nombre de personnes 234 201 125 112 67 20 30
1. Compléter ce tableau par les effectifs cumulés et par les fréquences cumulées
2. Construire les polygones cumulatives correspondantes (à choisir judicieusement)
3. A travers les courbes, combien de personnes ont une consommation entre 6 et 30 ?