Cours de Statistique Descriptive 45h
Cours de Statistique Descriptive 45h
2023
(Statistique Descriptive)
[Link] DU COURS
A la fin du cours, L’étudiant doit être capable de présenter clairement les données
Statistiques et en tire certains paramètres statistiques importants.
Ce qui implique qu’il doit être capable de :
définir et distinguer les notions fondamentales utilisées en statistique ;
collecter, dépouiller, grouper, ordonner les données d’observation ;
distinguer, calculer, utiliser correctement les principaux paramètres de
réduction des données et autres paramètres types rencontrées en
statistique ;
identifier les différences particulières dans l’utilisation de ces paramètres ;
représenter par des figures appropriées les résultats de l’étude.
[Link] DU COURS
CHAP. 1 INTRODUCTION
1.1Importance de la statistique
1.2. Les définitions en statistique
1.3. Notions générales de base
1 .[Link] concepts en statistique
1 .5. La nature et mesures des données
1.6. Exercices d’applications.
CHAP.2. DISTRIBUTION DES EFFECTIFS A UNE VARIABLE
2.1. La présentation des données
2.1.1 DISTRIBUTION STATISTIQUE
2.1.2. Le tableau Statistique
2.2. Distribution des Fréquence pour des données Groupées
2 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
2.2.1. Méthodes d’obtentions des données en classes
a) Méthode empirique exploité par LIORZOU
b). Les éléments d’un Tableau Statistique (Tableau descriptif)
2.3. Présentation de séries statistiques (Graphiques)
2.4. Exercices
CHAP.3. CARACTERISTIQUES (OU PARAMETRE) D’UNE DISTRIBUTION
3.1. Généralités
3.2. Les conditions que doit remplir une caractéristique
3.3. Paramètres centrale
3.4 Mesures de dispersion
3.5. Exercices d’applications
III. BIBLIOGRAPHIE
A. LIVRES
1. Bernard CRAIS, Méthodes statistiques (module économique) Dunod.
Paris 1977
2. Pierre DETTIENNE, Leçons familières des Statistiques I.S.P Gombe
CRP/Kin.
3. Henri GOUINS, statistique, Dalloz, Paris, 1981.
4. GOUINS, S et allié : Mathématique classes des terminales A 1/B Didier,
Paris 1988.
3 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
5. R. LAMBERT : Cours des statistiques (Extrait du TOME XIX) UNIVERSITE de
Paris 1959.
6. ANTIBI A. et allié : Mathématiques 1ère A, B. NATHAN Paris
7. Jean M – Martel, Statistique en gestion et en économie, Gaeton Morin
8. J. VAN GINDERACHTER, Cours de Statistique générale, NAMUR, 1971
9. Anderson et ali, Statistiques pour l’économie et le gestion, Nouveaux Horizon,2008
L'importance statistique indique que, de source sûre, les chiffres sont différents, ce qui
s'avère vraiment utile pour votre analyse de données. En outre, vous devez également
considérer l'importance des résultats. C'est vous qui décidez comment interpréter vos
résultats ou prendre des mesures en conséquence.
2023
(Statistique Descriptive)
2023
(Statistique Descriptive)
1. la collecte de données : la collecte de données sur un phénomène peut
consister à rassembler de l’information qui est déjà disponible dans des documents
préétablis ou encore à recueillir des données originales.
[Link] statistique descriptive : une fois que l’on a en main une masse de données au
sujet d’un problème ou d’un phénomène, on peut procéder à ce que l’on appelle » l’analyse
statistique ».La première étape de l’analyse statistique que l’on qualifie de « Statistique
descriptive » consiste en un traitement des données qui a pour but de présenter, de
résumer et /ou de décrire les caractéristiques essentielles d’un ensemble de données
numériques pour en faire ressortir toute l’information sous-jacente. ; Pour que ces données
puissent apporter quelque éclairage sur le problème, elles doivent être ordonnées,
classifiées et présentées sous forme convenable.
3. L’inférence Statistique : l’inférence statistique regroupe l’ensemble des
méthodes qui permettent de tirer des conclusions sur une population à partir d’une
information partielle provenant d’un échantillon.
4. La décision statistique : la décision statistique vient couronner l’analyse
statistique dans le sens qu’elle permet de déterminer de quelle façon les résultats de
l’inférence statistique peuvent se traduire dans l’action. Le but ultime d’une analyse
statistique réside généralement dans une prise de décision. Ainsi, toutes les méthodes
statistiques permettant de tirer des conclusions sur une population à partir d’une
information partielle, ou de prendre une décision dans un contexte d’incertitude, pourraient
être considérées comme faisant partie de la décision statistique.
En Bref Les méthodes statistiques forment un ensemble d’outils extrêmement
valables dans ces domaines d’application et de recherche.
EX : Recensement de la population ; statistique d’emploi
2023
(Statistique Descriptive)
sorte qu’il y a toujours un risque d’erreur ; c’est une raison pour laquelle la statistique est
non seulement une science mais également un art .
La statistique travaille à partir d’observations de phénomènes sociaux
économiques, météorologiques, biologiques. Elle ne peut utiliser l’expérimentation
en laboratoire, comme la physique ou la chimie, les lois statistiques bases sur
l’observation, contiennent dès lors un élément aléatoire. Contrairement aux lois des
sciences exactes, qui sont universellement valables.
1 .[Link] CONCEPTS EN STATISTIQUE
On désigne sous le nom :
1. POPULATION OU UNIVERS STATISTIQUE : L’ensemble des objets ou des
personnes sur lesquels porte une étude statistique c'est-à-dire l’ensemble d’éléments,
objets ou personnes qui possèdent les caractéristiques qu’on veut observer.
2. L’INDIVIDU : Chacun des éléments, objets, personnes de cet ensemble.
3. MODALITE : Une valeur que prend un caractère.
4. CARACTERE OU VARIABLE : Une caractéristique propre à chacun des individus
d’une population (ou échantillon) définie et mesurée selon le même procédé pour chacun
d’eux (Question où Objet principale de l’étude.)
« Une variable est une caractéristique mesurable qui peut prendre
différentes valeurs. La taille, l’âge, le revenu, la province ou le pays de
naissance, les années d’études et le type de logement sont tous des
exemples de variables »
Schématiquement nous aurons :
7 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
2023
(Statistique Descriptive)
Elles ne peuvent pas être hiérarchisées. Aucune valeur n'est supérieure à une autre.
Elles peuvent être classées les unes par rapport aux autres. Il existe un gradient qui permet
de les classer dans un ordre logique selon une échelle de valeur.
2023
(Statistique Descriptive)
Les variables qualitatives binaires
Il s'agit d'un type particulier de variables catégorielles. Elles peuvent également s'appeler :
variables dichotomiques.
Deux possibilités
Une bonne manière de distinguer les variables discrètes des variables continues est de
prendre en exemple : la taille des pieds et la pointure des chaussures.
La taille des pieds est une variable continue car nous avons tous des pieds de tailles
différentes.
La pointure de nos chaussures est une variable discrète. En effet les pointures sont
standardisées.
2023
(Statistique Descriptive)
La seule limite à ce continuum est la précision de la mesure (précision de la balance au dixème 0,1)
dans l'exemple ci-dessous pour les poids de dix individus).
2023
(Statistique Descriptive)
Elles peuvent être exploitées mathématiquement mais seule la soustraction est possible.
Les dates
Les heures
SYNTHESE
TABLEAU AVEC UNE ILLUSTRATION DE CHAQUE TYPE DE VARIABLE
Voici un tableau de synthèse de tous les types de variables.
12 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
Le terme variable est utilisé pour désigner des caractères quantitatifs (modalités
mesurables) ou qualitatifs (modalités non mesurables). On appelle variable tout
phénomène observable susceptible de prendre n’importe quelle valeur métrique où pas.
13 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
Les variables quantitatives (ou variables statistiques) qui peuvent être mesurées c’est à
dire que les observations peuvent être notées sous formes numériques (ex. température,
taille).
Cette variable quantitative peut être :
Continue c'est – à - dire une grandeur (variable) qui change
Graduellement par différences infiniment petites (Ex la taille).
Discrète ou discontinue : une grandeur qui change par saut il existe
Un intervalle vide entre 2 valeurs consécutives. Ce nombre doit être un entier.
EXEMPLE : Nombre d’enfants dans une famille, ce nombre doit être un entier.
En générale dans le cas métrique ;
NB :On est obligé d’arrondir les nombres souvent à 2 décimales significatives. On ne
devrait arrondir que la réponse finale les calculs intermédiaires devraient se faire faire avec
toutes les décimal acceptées par la calculatrice.
5. L’ECHANTILLON : C’est un sous – ensemble d’une population constituée d’un ou
plusieurs individus prélevés de la population c'est-à-dire l’ensemble des éléments sur
lesquels on a effectivement recueilli les résultats.
6. TAILLE D’ECHANTILLON : Nombre d’individus total observé qui compose cet
échantillon (N).
7. EFFECTIF OU FREQUENCES ABSOLUES : Nombre d’apparition de modalité dans
l’échantillon ou population (n).
8. UN PHENOMENE ALEATOIRE : C’est tout ce qui peut être observé sans qu’on
puisse en découvrir la cause unique et qui est caractérisé par le fait que le hasard intervient
dans l’apparition ou comportement du phénomène.
EXEMPLE : Le jeu de dé.
9. SERIE STATISTIQUE (OU DISTRIBUTION STATISTIQUE) : Est un ensemble
des mesures pratiquées sur les éléments des données brutes d’une population (en vrac).
10. SERIATION DES DONNEES : C’est la mise en ordre des données brutes en
ordre croissant ou décroissant.
D’où la classification
14 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
CARACTRES
Discrète continu
On substitue un nom au nom des Modalités .Par conséquent, le numéro utilisé ici ne
sert que de convention de base pour désigner les objets.
Les exemples incluent le sexe, l'état matrimonial, la profession et les relevés de notes
des étudiants.
Il est clair qu'aucune des opérations fondamentales ne peut être effectuée sur ces
nombres ; la seule règle autorisée est d'attribuer le même numéro à des objets
identiques et des numéros différents à des objets différents' échelle nominale en
15 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
sciences sociales est : Initialement artificiellement dichotomisée ou multichotomisée ;
Initialement naturellement dichotomisé à multichotomisé.
Les indices suivants peuvent être calculés à l'aide de ce type d'échelle : fréquences,
pourcentages et proportions.
2. ECHELLE ORDINALE
Une échelle ordinale est une échelle qui utilise des symboles numériques pour
représenter les caractéristiques de la variable. Ces symboles permettent de classer
les unités de population en différentes classes ainsi que de définir un ordre entre les
classes .Savoir où se situe chaque unité sur une échelle ordinale permet d' exprimer
qu'à ce niveau de mesure, il n'est pas nécessaire de préciser la distance séparant
différentes unités par rapport à cette qualité ou caractéristique .Des exemples de
variables à traiter sur une échelle ordinale incluent la classe sociale, le statut social
dans une profession, l' influence d'un leader au sein d' un groupe, etc.
Lorsqu'un ordre est appliqué à des objets, les nombres doivent exprimer la relation
supérieure ou inférieure à, tout comme pour une échelle nominale, et ils doivent également
exprimer l'égalité ou l’iniquité.
3. ECHELLE D’INTERVALLE
Les valeurs numériques reliées aux spécifications de la variable par un tel escalator
permettent non seulement de classer les membres de la population en différents
groupes et d'établir un ordre au sein de ces groupes, mais également de calculer la
distance entre eux. L’utilisation d'une échelle d’intervalle nécessite l'existence d'une
unité de mesure répartie uniformément le long de l'échelle. Puisqu'il existe une unité
connue, des échelles d’intervalle sont utilisées pour les variables quantitatives ;
néanmoins, le zéro est purement conventionnel et n'a de sens que dans la plage de
l'échelle. La température, le quotient mental, l'utilité, la vitesse, etc. sont des
exemples de variables qui peuvent être manipulées à l'aide de ce type d'échelle.
4. Echelle de Rapport
En plus des caractéristiques des échelles précédentes, l' échelle relationnelle
implique l' existence d' une valeur réelle de "zéro" comme point de départ .Lors de
l'utilisation d' un tel escalator, le rapport des deux emplacements sur l' escalator est
indépendant de l' unité de mesure choisie. On pense à des variables telles que le
16 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
temps, le poids et la longueur comme exemples de celles qui peuvent être traitées
de cette manière, ainsi qu'à des variables économiques telles que le revenu et le
PIB. Comme on peut le voir, il existe une hiérarchie entre ces différentes échelles de
mesure : lorsqu'on passe séquentiellement de l' échelle nominale à l' échelle
ordinale , puis à l' échelle d' intervalle , et enfin à l' échelle de rapport , on passe de l'
échelle la plus grande à l' échelle le plus petite escalader. De manière générale, le
nombre d'approches statistiques disponibles pour analyser les données relatives à
une variable augmentera à mesure que son niveau de mesure diminue. Par
conséquent , il est important de rester conscient des types de données traitées afin
de respecter les restrictions que chaque niveau de mesure impose aux types de
procédures pouvant être appliquées .Les variables quantitatives sont mesurées à l'
aide d' échelles d' intervalle puisqu'il existe une unité connue ; cependant, le zéro est
purement conventionnel et n'a de sens que dans la plage de l' échelle. Des
exemples de facteurs qui peuvent être contrôlés à l'aide de ce type d'échelle incluent
la température, l’aptitude mentale, l’utilité, la vitesse, etc.
2023
(Statistique Descriptive)
effectuée au prix d’une certaine perte d’information brute, mais cette perte est en générale
plus que compensée par le gain d’information effectivement perceptible.
III.1.2. Le tableau Statistique
1. Distribution de fréquence ou fréquence relative
Un des concepts fondamentaux en statistique est celui de distribution de fréquence.
Les distributions les plus simples comportent une seule variable et sont représentées sous
forme de tableaux statistiques.
Désignons par ni le nombre d’unités présentant la valeur xi ; et ni est l’effectif ou la
fréquence de la valeur xi et la proportion fi = ni /n est la fréquence relative de xi.
Exemple : soit la présentation de la distribution de la variable qualitative « langue
maternelle de la population canadienne » en 1981
Langue maternelle Fréquence Fréquence relative
Anglais 14918455 0,613
français 6249095 0,257
Italien 528775 0,022
allemand 522855 0,021
Autres 2124000 0,087
Total 2124000 1,0
Remarquons que cette étude porte sur 1 caractère : nombre de langues parlées
Nous analysons successivement ces deux caractères :
Le caractère : nombre de langues parlées, l’ensemble de modalités du caractère est
donné par (Anglais, français, Italien, allemand, Autres) le caractère est qualitatif. La
distribution est donnée par l’ensemble de couples (modalités, fréquence).
2023
(Statistique Descriptive)
2023
(Statistique Descriptive)
TOTAL 25 100%
Comme les valeurs d’une variable sont à la fois exclusives, la somme des effectifs ou
fréquences ni est égale à l’effectif total de l’ensemble, où encore la somme des fréquences
relatives fi est égale à l’unité
Tableau des effectifs 2.
POITAGE
EFFECTIF FREQUENCE FREQUENCE EN %
Modalité, poste occupé Y1 Bâton Carreaux
Anesthésiste //// // 7 7 /25 28%
infirmier(e) //// / 6 6/25 24%
accoucheuse //// / 5 5/25 20%
Médecin //// / 7 7/25 28%
TOTAL 25 100%
Commentaires :
Les nombres qui apparaissent dans la colonne des effectifs sont faciles à
comprendre. Par exemple il y a 9 employés qui parlent une langue. Soit 36% des
employés de la compagnie qui parle une seule langue cfr tableau (1).
Par contre 7 dans le tableau des effectifs (2) représentent le nombre de cadre soit 28 %
des agents de la compagnie sont des cadres.
i. DISTRIBUTION DE FREQUENCE POUR VALEUR
GROUPEES
Lorsque la variable est connue, ou que la variable peut prendre un grand nombre de
valeurs différentes, même si celle-ci est une variable discrète, il convient de regrouper ces
valeurs en classes. A chaque classe on fait correspondre une fréquence relative et l’on
obtient alors une distribution de fréquence ou de fréquence relative pour une valeur
groupées. Les classes peuvent avoir une amplitude constante ou variable, et l’amplitude
des classes extrêmes peut même être indéterminée (classes ouverte)
Bien qu’il n’existe pas de règle précise régissant le groupement des données, nous
pouvons mentionner quelques principes qu’il est préférable de respecter, car avec le
regroupement, nous risquons de perdre une partie d’information de base si ces principes
ne sont pas respectés. Il est donc conseillé :
20 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
1° D’utiliser le nombre de la classe ni trop petit ni trop grand ;
Un nombre de classe se situant entre 10 à 20 est généralement satisfaisant dans de cas
extrêmes pour des raisons d’application. D’autres auteurs estiment par contre l’intervalle de
7 à 15 est tolérable.
2° Les classes doivent être définies sans ambiguïté de sorte qu’il soit toujours aisé a
déterminer, la classe à laquelle appartient une observation ;
3° La variable entre dans une classe une et une seule fois. Par convention on
donne à chaque classe la forme d’un intervalle fermé à gauche, ouvert à droite ;
4° Parfois, il est souhaitable que les longueurs des intervalles associées à chacune
des classes puissent être égales ;
5° On choisit généralement un nombre impaire de classe pour obtenir une
répartition symétrique ;
6° Les classes doivent contenir toutes au moins une observation.
« Le choix du nombre de classe dépend de la précision désirée et de l’effectif total de
l’ensemble statistique étudié. Il n ya pas de règle absolue pour déterminer le nombre de
classes. Ce choix est guidé par le souci d’obtenir une bonne représentation de l’ensemble
des données collectées .le nombre de classes dépend surtout du nombre de données
collectées. Pour des ensembles de données relativement restreints (n≤200), il semble
recommandable de choisir entre 7 et 15 classes, mais cette règle n’à pas d’absolu. En
pratique, quelques règles plus précises ont été proposées pour déterminer le nombre de
classes. Si l’on dispose de n observations ou donnée, on peut par exemple, prendre
10 log n
comme nombre de classe n ou encore 1 (règle de Sturges)
3
Par souci de simplicité il est fréquent de recourir à des classes égale amplitude et d’arrondir
les valeurs extrêmes des classes »(Jean Martel ; P21.)
c) Méthodes d’obtentions des données en classes
Méthode empirique exploité par LIORZOU
D’après cette méthode, on procède de la manière suivante :
2023
(Statistique Descriptive)
Avec N taille de l’échantillon
2. Calcul de l’étendue du Travail
N.B : On veillera à ce que l’amplitude de classe ait une valeur aisée à utiliser.
Le point milieu d’une classe est le point situé à égale distance de 2 valeurs extrêmes
de la classe. Il se détermine aisément. Il est la moyenne arithmétique de 2 valeurs
extrêmes, symbolisé par Xi.
a. Limites réelles de classes
Les limites de classes sont des limités réelles, c’est le cas où on sait qu’une valeur
est certainement comprise entre les limites donnée ou assignée. Ainsi les valeurs de la
série ne sont données que dans les limites d’une certaine approximation.
N.B : Pour la commodité des graphiques il est nécessaire de garder 2 classes de réserve.
c. Effectifs cumules
L’effectif cumulé d’un intervalle de classe est la somme des effectifs de cet intervalle
est celle de toute les classes inférieures ou supérieures à la classe considérée.
On distingue :
- Les effectifs cumulés croissants : FCC
22 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
Pour calculer les effectifs cumulés croissants on part de la classe des valeurs inférieures en
faisant correspondre à chaque classe la somme de l’effectif simple de cette classe et de
tous les effectifs des classes supérieures.
- Les effectifs cumulés décroissants (FCD)
2023
(Statistique Descriptive)
0,4
0,35
0,3
0,25 PRIMUS
COCA
0,2 TURBO
FANTA
0,15
SPRITE
0,1
0,05
Dans les applications de contrôle de la qualité, les diagrammes en barres sont utilisés pour
identifier les principales causes d'un problème. Lorsque les barres sont disposées en ordre
décroissant, de gauche à droite, en fonction de leur hauteur, la cause survenant la plus
fréquemment apparaît alors en premier. Ce type de diagramme en barres est appelé
diagramme de Pareto, du nom de son inventeur, Wilfredo Pareto, un économiste italien.
COMMENTAIRE
24 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
Il est évident que ce même procédé pourra être utilisé en faisant correspondre, non
plus les % mais les effectifs aux différentes valeurs,. Il se construit de la même façon que
pour un caractère quantitative, mais un caractère qualitatif, les modalités n’étant pas des
nombres, nous ne sommes plus obligés de tenir compte d’un ordre naturel, nous pouvons
donc, en principe, inscrire sur l’axe horizontal, les modalités dans l’ordre qui nous plait.
Le seul problème qui survient avec ce type de représentation est qu’il est difficile de
comparer visuellement certaines fréquences le diagramme en secteur pallie à cette
inconvénient.
3.3.2. Diagramme Circulaire
Les diagrammes circulaires sont constitués par un cercle divisé en secteurs, chaque
secteur ayant un angle au centre qui est proportionnel à la grandeur représentée. Ces
diagramme sont utilisés pour représenter les différentes d’un tout
Le diagramme circulaire est un autre moyen graphique de représenter les distributions de
fréquence relative et en pourcentage de données qualitatives. Pour dessiner un diagramme
circulaire, il faut tout d'abord tracer un cercle représentant l'ensemble des données.
Ensuite, on se sert des fréquences relatives pour diviser le cercle en secteurs, ou parts, qui
correspondent à la fréquence relative de chaque classe. Par exemple, puisqu'un cercle fait
360 degrés et que la marque Primus a une fréquence relative de 0,38, le secteur du
diagramme circulaire correspondant à la marque Primus fait 136,8 degrés (0,38 x 360 =
136,8). Le secteur du diagramme circulaire correspondant à la marque coca fait 57,6
degrés (0,16 x 360 = 57,6). Des calculs similaires pour les autres classes permettent de
construire le diagramme circulaire. Les valeurs numériques utilisées pour déterminer l'angle
de chaque secteur peuvent être indifféremment les fréquences absolues, relatives ou en
pourcentage.
Remarques
1 Souvent, le nombre de classes d'une distribution de fréquence correspond au nombre de
catégories définies parmi les données, comme c'est le cas pour les données concernant les
achats des produits Bralima dans cette section. Les données concernent cinq marques de
boisson et la distribution de fréquence comprend cinq classes, représentant ces cinq
marques existantes. Des données qui incluraient toutes les marques de boisson
EXEMPLES :
25 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
TABLEAU VI. LA DISTRIBUTION DES FREQUENCES DE MODALITE (ETAT CIVIL)
D’UN MILIEU QUELCONQUE.
MODALITE (ETAT CIVIL) EFFECTIF FREQUENCE Fr (p)
Célibataire 31000 0,413 41,33
Marié 23000 0,307 30,7
Veuf 11000 0,147 14,7
Divorcé 10000 0,133 13,3
75000 100 %
Marié
31% Célibataire
41%
Divorcé
13% Veuf
15%
26 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
N.B : Le polygone de fréquence est le graphique idéal pour établir des comparaisons. En
effet, la superposition sur un même graphique de deux polygones est beaucoup plus
facilement interprétable que la zone de superposition de deux histogrammes.
En effet dans le cas d’effectif cumulés croissant chaque effectif cumulé s’interprète
en fonction de la limite supérieur exacte d’une classe tandis que le cas des effectifs
cumulés décroissants, chaque effectif cumulé s’interprète en fonction de la limite inférieure
exacte d’une classe.
[Link].
1) : Supposons que nous voulons comparer le revenu annuel en 1980 de chacun des 40
diplômé de 1978 d’un certain programme universitaire. Le tableau qui suit donne les 40
revenus observés dans l’ordre où l’information est parvenue ou responsable de l’étude.
27 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
20200 17700 21800 23000 25400 14400 16700 17500 18300 19600
12200 19200 20100 21200 21900 23700 25500 14700 17000 17900
12500 15200 17200 18000 19200 20100 21300 21900 24300 27000
13800 15500 21600 22200 25000 27700 18800 19600 20900 12200
Questions
Q1) Déterminer la population ; le caractère, modalité, variable, la taille et l’échelle
Q2) Groupement de donnée par LIORZOU
Q3) Présenter les données dans un tableau descriptive et dans graphique adapter
2. le syndicat des douaniers effectue des enquêtes sur les salaires et en présente les
conclusions sur son site Web. Telque , les salaires annuels des agents douaniers
variaient entre 85 090 dollars et 190 054 dollars). Supposons que les données suivantes
sont issues d'un échantillon de données sur les salaires annuels de 50 douaniers. Les
données sont exprimées en milliers de dollars.
145 95 148 112 132
140 162 118 170 144
145 127 148 165 138
173 113 104 141 142
116 178 123 141 138
127 143 134 136 137
155 93 102 154 142
134 165 123 124 124
138 160 157 138 131
114 135 151 138 157
2023
(Statistique Descriptive)
10-19 10
20-29 14
30-39 17
40-49 7
50-59 2
Construire des distributions de fréquence cumulée absolue et relative.
Construire un histogramme et une ogive
Exemple4 : Le personnel d’un cabinet médical a étudié les temps d’attente des patients qui arrivent
au cabinet pour une urgence. Les données suivantes ont été collectées au cours d’un mois ( les temps
d’attente sont en minutes) .
2 5 10 12 4 4 5 17 11 8
9 8 12 21 6 8 7 13 18 3
a) Construire la distribution de fréquence.
b) Construire la distribution de fréquence relative
c) Construire la distribution de fréquence cumulée
d) Construire la distribution de fréquence cumulée relative
e) Quelle est la proportion de patients qui viennent en urgence et qui ont un temps d’attente
inférieur où égal à 9 minutes ?
Exercices5
Une association de donneur du sang de l’hôpital a reçu 25 volontaires et à constater
le groupe sanguin des individus :
A B B AB O O O
B AB B B B O A
A O O O AB AB A
O B A B O A O
2023
(Statistique Descriptive)
3.1. GENERALITES
2023
(Statistique Descriptive)
1 N
X Xi Avec Xi= variables observées
N i 1
N= la taille de l’échantillon
a.2. Données groupées en tableau des effectifs
1 n
X niXi n=nombre de modalités
N i 1
ni= Effectif absolu
Applicable dans le cas de série à l’intervalle des classes égal, on prend l’amplitude
comme unité, ce qui revient à considérer la déviation suivante :
xi xo
ei D’où X = xo +a e Avec xi=point milieu de la classe i.
a
1 e
Avec e niei
N e 1
3. PROPRIETES DE LA MOYENNE ARITHMETIQUE
31 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
1. La moyenne arithmétique d’une population P composée de plusieurs sous –
population est égale à la moyenne des moyennes calculées dans les différentes
sous populations telles que :
La population P1 a pour moyenne X 1
La population P2 a pour moyenne X 2
La population Pn a pour moyenne X n
La moyenne de la population composée s’exprime de la manière suivante
P
ni x i
X i 1
ni
Avec p = total de la population composée
Ni= Nombres d’éléments de chaque échantillon
Exemple :1.
On a fait passer une épreuve aux élèves de 5 classes de 1 er CO et l’on a
calculé la moyenne arithmétique des résultats obtenus dans chacune des classes.
CLASSES ni Xm
A 22 89,7
B 35 69,4
C 27 70,5
D 23 81,1
E 41 69,6
~
IV.2.2. MEDIANE X
1. Définition
On appelle valeur médiane ou simplement d’une variable statistique, la
valeur de la variable observée se situant au milieu après sériation des résultats de la
distribution considéré[Link] médiane est une autre mesure de tendance centrale pour une
32 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
variable. Lorsque les données sont classées en ordre croissant (de la plus petite à la plus
grande valeur). La médiane correspond à la valeur centrale. Lorsque le nombre
d’observations est impair, la médiane correspond à la valeur centrale. Un nombre pair
d’observations n’a pas une unique valeur centrale. Dans ce cas, la convention consiste à
définir la médiane comme la moyenne des valeurs deux observations centrales.
2. Calcul de la médiane
a) Série non groupée
Il importe toujours de travailler sur les résultats rangés par ordre de grandeur.
Ainsi :
- Si le nombre de résultats est impair, le médian coïncide avec le point milieu de
L’intervalle occupé par le résultat central de la série ordonnée.
Exemple1 :
1. Calculons le salaire initial médian des 12 jeunes diplôme en
médecine :
2710 2755 3325 2880 2950 2920
2850 3130 2880 3050 2890
Remarque :
Lorsque plusieurs des données coïncident avec le médian sa valeur significative
devient douteuse, il est conseillé de faire plutôt confiance à une autre paramètre, tel que le
mode.
Ex. 3,5,7,8,8,8,8,10,11,13
~ 88
X 8 Il vaut mieux de dire que 8 apparaît 4 fois.
2
a. Pour le données groupées en classes
33 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
La médiane s’obtient par l’interpolation proportionnelle à l’intérieur de l’intervalle de
la classe médiane c'est-à-dire la classe que contient au moins.
N ( N / 2 FCCi
Effectif cumulé d’où X Li a
2 ni m éd.
~
Avec X =médiane
Li= la limité inférieure de la classe retenue comme classe médiane
N=effectif total
Fcci=effectif cumuler de la classe inférieure adjacente a la classe médian
a= amplitude
ni méd= fréquence absolue de la classe médiane
Remarque : la médiane est la mesure de tendance centrale la plus souvent utilisées
pour les données sur le revenu annuel et la valeur foncière, car quelques valeurs très
élevées du revenu ou de la valeur foncière peuvent accroitre la moyenne. Dans de
telles situations, la médiane est une meilleure mesure de tendance centrale.
Bien que la moyenne soit la mesure de tendance centrale la plus souvent utilisée, dans
certaines situations l'utilisation de la médiane est préférable. La moyenne est en effet
influencée par les valeurs extrêmement petites et extrêmement grandes. Par exemple,
supposez que l'un des diplômés (cf. exemple1 ci haut) ait un salaire initial de 10 000 dollars
par mois (la famille de l'individu possède peut-être la société). Si l'on modifie le salaire
mensuel initial le plus élevé du tableau 3.1, égal à 3 325 dollars, par 10 000 dollars et que
l'on recalcule la moyenne, cette dernière passera de 2 940 à 3 496 dollars. Par contre, la
médiane égale à 2 905 dollars est inchangée puisque les valeurs centrales, 2 890 et 2 920
ne sont pas modifiées. Avec cette valeur extrêmement élevée du salaire initial de l'un des
jeunes diplômés, la médiane fournit une meilleure mesure de tendance centrale que la
moyenne. De façon générale, lorsqu'un ensemble de données contient des
2023
(Statistique Descriptive)
Le mode est la valeur de caractère pour laquelle la fréquence est
maximale dans la distribution observée. Le mode correspond à la valeur de
l'observation qui a la plus grande fréquence
2. Calcul du mode
a) Séries non groupées le mode est la valeur la plus fréquente dans une série
d’observation.
b) Séries groupées
- Si les observations sont groupées en classe, une bonne estimation du mode
est le point milieu de la classe de haute fréquence. Appelée classe modale ou
classes dominante par interpolation on a :
aD1
Xˆ Li
D1 D 2
Li= limite inférieure de classe modale
a= Amplitude
D1=différence entre l’effectif modale et effectif de la classe précédente
D2= différence entre l’effectif modale et l’effectif de la classe suivante.
Il arrive que 2 classes aient le même effectif maximum.
Dans ce cas :
- Soit que les 2 classes ne sont pas adjacentes et on a une distribution bi
modal. Le mode se calcul par la formule de mode dérivée qui est :
Xˆ 3.médiane 2 X (Bernard CRAIS OP CIT)
- Soit que les 2 classes sont Adjacentes et l’on considère la limite commune
Comme mode
Remarque
Considérons 1 exemple de 1 échantillon des tailles des cinq classes. La seule valeur qui
apparaît plus d'une fois est 46. Puisque cette valeur, qui a une fréquence de 2, a la plus
grande fréquence, il s agit du mode. Considérons à présent l'échantillon des salaires
initiaux des diplômés d'une école de commerce. Le seul salaire mensuel initial qui apparaît
plus d'une fois est 2 880. Puisque cette valeur a la plus grande fréquence, il s'agit du mode.
Il est possible que plusieurs valeurs apparaissent avec la même fréquence et que cette
fréquence soit la plus importante. Dans ce cas, plus d'un mode existent. Si les données ont
exactement deux modes, on dit que les données sont bimodales. Si les données ont plus
35 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
de deux modes, on dit qu'elles sont multimodales. Dans les cas multimodaux, le mode n
est presque jamais utilisé car énumérer trois modes ou plus n'est pas particulièrement utile
pour décrire les données.
Le mode est une mesure importante de tendance centrale pour des données qualitatives.
Par exemple, l'ensemble de données qualitatives du tableau 2.2 est résumé par la
distribution de fréquence suivante
Boisson non Fréquenc
alcoolisée e
Coco-Colo 19
Coke liglif 8
Dr. Pepper 5
Pepsi 13
Sprite 5
Total 50
Exemple : selon une enquête hospitalière américaine, les services d'urgence de la plupart
des hôpitaux fonctionnent à leur capacité maximale). L’enquête a collecté des données
relatives aux temps d'attente dans les services d’urgence des hôpitaux fonctionnant au
36 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
maximum de leur capacité et dans les services d’urgence fonctionnant rarement à plein
régime. Ci-dessous est présenté un échantillon des temps d'attente en minutes.
2023
(Statistique Descriptive)
~
a) Dans une distribution normale, X ; X ; Xˆ coïncide
~
b) Si X X Xˆ , la distribution est asymétrique négativement. On dira que la
distribution est étalée vers la gauche et biaisée à droites.
~
c) Si X X Xˆ la distribution est dissymétrique et étalée vers la droite biaisé à
gauche (asymétrique positivement).
Les indices de dispersion sont importants car ils sont le reflet de la variabilité des
données, ils ont les mêmes avantages et inconvénients que la médiane. Leur usage
s’impose dans les mêmes situations. (Prof MANDA – KIZABI « Cours d’initiation à la
méthode quantitative ISP/ KANANGA 80-81).
LES PARAMETRES DE DISPERSION
DESIGNATION
SYMBOLE
2023
(Statistique Descriptive)
1 n
V
N i 1
niXi2 X 2 Quand il s’agit d’un échantillons il faut utiliser la N’a pas la même unité que les
variance estimé. données ses dimensions sont
V a ²(1 / N niei² e² égales au carré des dimensions
des données. On ne peut pas
Variance
(changem ent
d ' origine)
moyenne de celle-ci.
-L’écart type a la même unité que les données.
C’est une variable intensive c’est-à-dire qu’elle
ne dépend pas de la taille des groupes.
Source : Tableau conçu par nous – même à partir de la théorie tirée du syllabus de
BOSSER et Allié : Elément de statistique ISP Bukavu, 1980
2023
(Statistique Descriptive)
- Si CV est inférieur ou égal à 15%, nous dirons que la dispersion n’est pas
prononcée (les données sont homogènes)
- Si le CV est supérieur à 15%, la dispersion des données est très prononcée
(les données sont hétérogènes) ».
. EXERCICES D’APPLICATION
. Exercice1 : Soit les données groupées en classe suivante.
Limite réel Ni
[1,46-1,50[ 0
[1,50-1,54[ 2
[1,54-1,58[ 1
[1,58-1,62[ 5
[1,62-1,66[ 9
[1,66-1,70[ 25
[1,70-1,74[ 25
[1,74-1,78[ 25
[1,78-1,82[ 22
[1,82-1,86[ 6
[1,86-1,90[ 5
[1,90-1,94[ 0
[1,94-1,98[ 0
Calculer la moyenne arithmétique
La médiane et le mode
La variance ; l’écart type et CV
EXERCICE 2. Voici les résultats (en tonne) des marchandises dédouané par les
commerçants de Goma après une campagne de vulgarisation de nouvelles méthodes de
surveillance à la frontière
44 29 39 24 34 20 34 27 37 27
39 25 37 23 32 20 38 20 36 31
36 21 35 20 28 23 38 27 35 36
35 20 31 40 25 28 33 30 31 37
40 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
30 43 29 38 22 32 32 34 28 32
Questions
Groupement de donnée par LIORZOU
Calculer : - Les paramètres de tendance centrale
- Les paramètres de dispersion
- Variance et l’écart type
- Coefficients de variation
- déterminer le caractère, l’échelle et la nature des données
- Dresser un tableau de fréquences
- Dressez le polygone de fréquences relatives cumulées
III. Voici la table des angles pour la variable état – civil. Complétez la colonne de
fréquences et celle de pourcentages.
Modalités f % A°
5 72
4 108
3 36
2 97
1 47
TOTAL 30 100 360
2023
(Statistique Descriptive)
Pour une série statistique à 2 variables x et y, on peut se demander « existe-t-il une
dépendance entre les valeurs prises par x et les valeurs prises par y. Pour répondre à
cette question, on peut commencer par représenter le nuage de points associé à cette
série. Plusieurs cas peuvent se produire. (Hypothèse nulle). Statistiquement, aucune
dépendance n’est constatée entre les variations de x et de y. contre H1 Statiquement, il
semble se dégager une dépendance plus ou moins régulière entre les variations de x et y.
(Hypothèse alternative). On est tenté de traduire cette liaison par une relation
mathématique entre les 2 variables.
r =0,5 : il y a doute
2023
(Statistique Descriptive)
Le degré de dépendance entre deux variables appartenant à une échelle
d’intervalle ou de rapport peut être mesuré au moyen de coefficient de corrélation de
BRAVAIS-PERSON (coefficient linéaire).
En terme symbolique le coefficient de corrélation linéaire se définit par
cov( x, y )
r
x y
avec
cov( x, y )
( x x)( y y)
N
soit r
XY N xY
N x y
2023
(Statistique Descriptive)
30 16 47 20
28 16 43 29
27 12 41 17
25 9 38 15
21 9 37 17
17 10 34 14
48 19 32 15
46 17 31 17
42 19 29 15
39 18 27 13
37 20 25 15
34 15 22 13
18 11
2023
(Statistique Descriptive)
b) LE COEFFICIENT DE DETERMINATION
C’est la proposition des liaisons entre deux variables, c’est le carré des coefficients
de corrélation lesquelles indique la part de la variable de y, qui est expliquer par la variable
de la variable X d’où CD=r². Un coefficient r=0,92 CD=(0,92)²=0,8464
Nous disons que 85% de cas de la variable Y est expliquée par la variable X et 15% autre
ne pas expliquer par la variation de X, et le 15% est appelé coefficient d’indétermination
qui a pour formule 1-r².
Comme nous venons de signaler ci haut, l’allure du nuage de points incite à choisir
la nature de la courbe. L’ajustement des données nous permet de faire une prévision
d’avenir, ce pendant le coefficient de corrélation linéaire nous donne une indication de
l’intensité de la liaison linéaire entre 2 variables. Il permet d’obtenir une mesure de la
tendance que les observations de 2 variables concernées à varier dans le même sens ou
dans le sens inverse. Lorsque cette corrélation linéaire s’avère significative, on peut en
visage, à l’aide d’une méthode d’ajustement appropriée, d’établir l’équation de la liaison
existant entre 2 variables. On cherche alors la droite qui ajuste le mieux aux observations
et l’on appellera droite de régression. Soit
X=est la variable dépendante ou expliquée
Y= est la variable indépendante ou explicative
IV.4. AJUSTEMENT AFFINE PAR LA METHODE DES MOINDRES CARRES
(Etude Prévisionnelle)
2023
(Statistique Descriptive)
n
S yi (ax1 b)² Soit minimale.
i 1
2) Principes de la Méthode
3) On cherche une droite d, d’équation y= ax+b ;
Le problème est donc de calculer les nombres a et b s’ils existent pour connaître
la droite d’ajustement. Soit x et y deux variable d’une série statistique double, X et Y leurs
moyenne respectives x , l’écart type de la variable x, y , l’écart type de y ; et cov (x,y) la
ry
X=a’y+b’ où a’=cov(x,y)/ x ² et b’= x a' y soit a '
x
Une équation de D’ s’écrit également x x a' y y a droite de régression de x
en y passe par le point moyen de la série statistique.
Exemple1
Nous voulons savoir si le nombre d’année d’utilisation de l’outil de laboratoire médicale
peut avoir un impact sur la compréhension d’une marque de scanneur c’est ainsi qu’on a
fait passer un examen écrit à 10 infirmiers pour vérifier leurs connaissances sur la
manipulation des commande d’un scanneur de marque américaine récemment mit au
marché (compréhension des l’usage de commande et menu). le tableau ci-dessous
indique le résultat obtenu à un examen sur 100 points, ainsi que le nombre d’année
d’expérience dans l’utilisation de l’outil de laboratoire
Nb commencé par la formulation des hypothèses, si la valeur de R est suffisamment
élevée, estimer le point que peut avoir un infirmier qui a le double de la moyenne de
l’année (Utiliser alpha à 95%)
46 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
Résultats Nombre
d’années
60 3
65 4
70 6
67 6
75 5
75 6
80 8
78 7
85 10
82 5
Exemple2
Une application importante de l’analyse de la régression en comptabilité concerne
l’estimation des coûts et en utilisant la méthode des moindres carrés pour estimer
l’équation de la relation entre ces deux variables, un comptable peut estimer le coût
associé à une opération de service presté de l’hôpital. Considérez l’échantillon suivant
de quantités produites et de coûts de prestations
Effectifs des malades traités Coût total ($)
400 4000
450 5000
550 5400
600 5900
700 6400
750 7000
QUESTIONS
-calculer le coefficient de détermination. Quel est le pourcentage de la variation du coût
total expliqué par le prestation de service ?
-Utiliser ces données pour estimer l’équation de la régression qui peut servir à prévoir
le coût total de la prestation des malades
-Quel est le coût variable par unité servis ?
47 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD
2023
(Statistique Descriptive)
-l’hôpital prévoit de servir 500 malades les mois prochain. Quel est le coût estimé de
cette opération ?
Ex4 : on veut savoir si le temps de l’opération d’une maladie par un médecin est fonction
de nombre d’année dans le service, pour juger le fait ont sélectionne un nombre des
médecins soumit à la même condition, dont voici les résultats,
Temps mit par le Nombre d’année de Temps mit par le Nombre d’année de
médecin pour service médecin pour service
terminer l’opération terminer l’opération
de l’appendicite (en de l’appendicite (en
minute) minute)
43 9 18 16
13 15 13 15
45 8 40 8
12 17 32 17
56 5 66 5
65 6 45 7
45 11 45 11
30 12 30 10
60 8 60 8
45 9 45 9
34 11 34 7
56 6 56 6
68 5 68 3
70 4 70 4
45 10 45 8
56 9 13 15
18 11 69 5
26 10 65 4