0% ont trouvé ce document utile (0 vote)
26 vues47 pages

Cours de Statistique Descriptive 45h

Transféré par

kanaboom003
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
26 vues47 pages

Cours de Statistique Descriptive 45h

Transféré par

kanaboom003
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1 Cours de Statistique Descriptive

45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

[Link] DU COURS
A la fin du cours, L’étudiant doit être capable de présenter clairement les données
Statistiques et en tire certains paramètres statistiques importants.
Ce qui implique qu’il doit être capable de :
 définir et distinguer les notions fondamentales utilisées en statistique ;
 collecter, dépouiller, grouper, ordonner les données d’observation ;
 distinguer, calculer, utiliser correctement les principaux paramètres de
réduction des données et autres paramètres types rencontrées en
statistique ;
 identifier les différences particulières dans l’utilisation de ces paramètres ;
 représenter par des figures appropriées les résultats de l’étude.

[Link] DU COURS
CHAP. 1 INTRODUCTION
1.1Importance de la statistique
1.2. Les définitions en statistique
1.3. Notions générales de base
1 .[Link] concepts en statistique
1 .5. La nature et mesures des données
1.6. Exercices d’applications.
CHAP.2. DISTRIBUTION DES EFFECTIFS A UNE VARIABLE
2.1. La présentation des données
2.1.1 DISTRIBUTION STATISTIQUE
2.1.2. Le tableau Statistique
2.2. Distribution des Fréquence pour des données Groupées
2 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
2.2.1. Méthodes d’obtentions des données en classes
a) Méthode empirique exploité par LIORZOU
b). Les éléments d’un Tableau Statistique (Tableau descriptif)
2.3. Présentation de séries statistiques (Graphiques)
2.4. Exercices
CHAP.3. CARACTERISTIQUES (OU PARAMETRE) D’UNE DISTRIBUTION
3.1. Généralités
3.2. Les conditions que doit remplir une caractéristique
3.3. Paramètres centrale
3.4 Mesures de dispersion
3.5. Exercices d’applications

[Link]. NOTION DE CORRELATION


IV.1. OBJECTIF ET GENERALITES
IV.2. LA DEFINITION MATHEMATIQUE DU COEFFICIENT DE CORRELATION DE
BRAVAIS – PEARSON
IV.3 SIGNIFICATION DES COEFFICIENTS DES CORRELATIONS
a) La corrélation n’implique pas une relation de cause a effet
b) Le coefficient de détermination
C) Test de signification sur le coefficient de corrélation
IV.4. AJUSTEMENT AFFINE PAR LA METHODE DES MOINDRES CARRES
(Etude Previsionnelle)

III. BIBLIOGRAPHIE

A. LIVRES
1. Bernard CRAIS, Méthodes statistiques (module économique) Dunod.
Paris 1977
2. Pierre DETTIENNE, Leçons familières des Statistiques I.S.P Gombe
CRP/Kin.
3. Henri GOUINS, statistique, Dalloz, Paris, 1981.
4. GOUINS, S et allié : Mathématique classes des terminales A 1/B Didier,
Paris 1988.
3 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
5. R. LAMBERT : Cours des statistiques (Extrait du TOME XIX) UNIVERSITE de
Paris 1959.
6. ANTIBI A. et allié : Mathématiques 1ère A, B. NATHAN Paris
7. Jean M – Martel, Statistique en gestion et en économie, Gaeton Morin
8. J. VAN GINDERACHTER, Cours de Statistique générale, NAMUR, 1971
9. Anderson et ali, Statistiques pour l’économie et le gestion, Nouveaux Horizon,2008

CHAP.1. INTRODUCTION A LA STATISTIQUE DESCRIPTIVE

1.1 IMPORTANCE DE LA STATISTIQUE :

L'importance statistique indique que, de source sûre, les chiffres sont différents, ce qui
s'avère vraiment utile pour votre analyse de données. En outre, vous devez également
considérer l'importance des résultats. C'est vous qui décidez comment interpréter vos
résultats ou prendre des mesures en conséquence.

L’habileté à comprendre et à utiliser d’une façon rationnelle l’information sous toutes


ses formes est devenue de plus en plus importante dans tous les genres d’entreprises
industrielles, commerciales gouvernementales. Avec l’accès rapide à des masses de
données stockées sur ordinateur, il est important non seulement de savoir comment
utiliser les données disponibles mais il est aussi essentiel, lorsque le cas se
présente, de savoir comment obtenir les données nécessaires pour assurer une
prise de décision rationnelle ou encore pour valider certaines théories ou modèles
formulés.

Les problèmes où la collecte, l’analyse et l’interprétation de données sont essentiels


pour une prise de décision. Objective relèvent du domaine de la statistique. Elle est utilisée
pour : mesurer et évaluer les faits sociaux ; évaluer l'impact des politiques et stratégies de
développement ; estimer les récoltes ; évaluer les besoins en vaccins, les bilans
alimentaires, les besoins des sinistrés en cas de catastrophe ; les besoins en
infrastructures scolaires, sanitaires ; estimer ...
4 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

1.2. Définitions en STATISTIQUE


Pour bien comprendre le sens du mot « statistique », il faut d’abord réaliser que ce
mot est utilisé pour exprimer plusieurs réalités différentes. Ainsi, au pluriel, on désigne
souvent par «Les statistiques » les fruits ou les résultats de la collecte d’un ensemble des
données d’observation ou un ensemble de données numériques ; on parlera, par exemple,
de statistiques relatives à la situation de l’emploie au pays, les statistique ses IDE en
RDC,les statistiques des étudiants de l’ULBu etc. .Pris au singulier « la statistique »
désigne une science, et ce sont les méthodes propres à cette science que nous voulons
présenter dans ce cours. Ainsi la Statistique est l’ensemble des méthodes scientifiques
visant à collecter, à résumer, à organiser et à analyser des données numériques, de même
qu’à tirer des conclusions valables et à prendre des décisions raisonnables sur la base de
cette analyse. C’est aussi la discipline qui étudie des phénomènes à travers la collecte de
données, leur traitement, leur analyse, l'interprétation des résultats et leur présentation afin
de rendre ces données compréhensibles par tous. A l’intérieur de cette science, on utilise le
terme « une Statistique » pour désigner une quantité particulière calculée à partir d’un
échantillon comme la moyenne arithmétique, l’écart – type, la proportion de succès etc.
(Gérald Baillorgeon, 1954, P4). Mais cette quantité particulière calculée à partir d’une
population ne sera plus appelé une statistique, mais un paramètre.

Ensemble des données= les statistiques


STATISTIQUE
Ensemble des méthodes et techniques= la statistique

La Statistique comme science renferme un ensemble très diversifié de méthodes. pour


mieux comprendre ce qui différencie ces méthodes de même que ce qui les relie, il peut
être commode de diviser une étude statistique en quatre parties :
5 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
1. la collecte de données : la collecte de données sur un phénomène peut
consister à rassembler de l’information qui est déjà disponible dans des documents
préétablis ou encore à recueillir des données originales.
[Link] statistique descriptive : une fois que l’on a en main une masse de données au
sujet d’un problème ou d’un phénomène, on peut procéder à ce que l’on appelle » l’analyse
statistique ».La première étape de l’analyse statistique que l’on qualifie de « Statistique
descriptive » consiste en un traitement des données qui a pour but de présenter, de
résumer et /ou de décrire les caractéristiques essentielles d’un ensemble de données
numériques pour en faire ressortir toute l’information sous-jacente. ; Pour que ces données
puissent apporter quelque éclairage sur le problème, elles doivent être ordonnées,
classifiées et présentées sous forme convenable.
3. L’inférence Statistique : l’inférence statistique regroupe l’ensemble des
méthodes qui permettent de tirer des conclusions sur une population à partir d’une
information partielle provenant d’un échantillon.
4. La décision statistique : la décision statistique vient couronner l’analyse
statistique dans le sens qu’elle permet de déterminer de quelle façon les résultats de
l’inférence statistique peuvent se traduire dans l’action. Le but ultime d’une analyse
statistique réside généralement dans une prise de décision. Ainsi, toutes les méthodes
statistiques permettant de tirer des conclusions sur une population à partir d’une
information partielle, ou de prendre une décision dans un contexte d’incertitude, pourraient
être considérées comme faisant partie de la décision statistique.
En Bref Les méthodes statistiques forment un ensemble d’outils extrêmement
valables dans ces domaines d’application et de recherche.
EX : Recensement de la population ; statistique d’emploi

I.4. NOTIONS GENERALES DE BASE

Il existe plusieurs définitions de la statistique certains auteurs la considèrent comme


une science, puisque la statistique n’a pas d’objet propre (comme la mathématique, par
exemple qui a pour objet la quantité pure), les autres la considère comme une méthode
scientifique qui a pour objet l’observation, la description et l’analyse de caractéristiques
numériques de groupes de phénomènes naturels., l’une des caractéristiques des
problèmes de type statistique est que l’information utilisable est imparfaite ou partielle de
6 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
sorte qu’il y a toujours un risque d’erreur ; c’est une raison pour laquelle la statistique est
non seulement une science mais également un art .
La statistique travaille à partir d’observations de phénomènes sociaux
économiques, météorologiques, biologiques. Elle ne peut utiliser l’expérimentation
en laboratoire, comme la physique ou la chimie, les lois statistiques bases sur
l’observation, contiennent dès lors un élément aléatoire. Contrairement aux lois des
sciences exactes, qui sont universellement valables.
1 .[Link] CONCEPTS EN STATISTIQUE
On désigne sous le nom :
1. POPULATION OU UNIVERS STATISTIQUE : L’ensemble des objets ou des
personnes sur lesquels porte une étude statistique c'est-à-dire l’ensemble d’éléments,
objets ou personnes qui possèdent les caractéristiques qu’on veut observer.
2. L’INDIVIDU : Chacun des éléments, objets, personnes de cet ensemble.
3. MODALITE : Une valeur que prend un caractère.
4. CARACTERE OU VARIABLE : Une caractéristique propre à chacun des individus
d’une population (ou échantillon) définie et mesurée selon le même procédé pour chacun
d’eux (Question où Objet principale de l’étude.)
« Une variable est une caractéristique mesurable qui peut prendre
différentes valeurs. La taille, l’âge, le revenu, la province ou le pays de
naissance, les années d’études et le type de logement sont tous des
exemples de variables »
Schématiquement nous aurons :
7 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

LES DIFFERENTS TYPES DE VARIABLES


LES VARIABLES QUALITATIVES
Les variables qualitatives peuvent, elles-mêmes, être séparées en trois catégories :Nominales,
Ordinales, Binaires
8 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

Particularités des variables qualitatives

 Elles ne s'expriment pas par une valeur numérique


 Elles s'expriment par une qualité
 Il est possible de les répartir en classes ou catégories
 On ne peut pas les exploiter mathématiquement. Il est par exemple impossible d'additionner
la valeur "marié" et la valeur "divorcé".
 Si on ne peut pas faire de calcul, on peut cependant les dénombrer, c'est-à-dire compter
combien de fois une valeur apparaît. Par exemple, comptez combien de personnes sont
"Mariées".

Les variables qualitatives nominales

Particularités des variables qualitatives nominales

 Elles ne peuvent pas être hiérarchisées. Aucune valeur n'est supérieure à une autre.

Ces variables peuvent également être appelées variables catégorielles

Les variables qualitatives ordinales

Particularités des variables qualitatives ordinales

 Elles peuvent être classées les unes par rapport aux autres. Il existe un gradient qui permet
de les classer dans un ordre logique selon une échelle de valeur.

Les qualificatifs de force sont classés dans l'ordre.


9 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Les variables qualitatives binaires
Il s'agit d'un type particulier de variables catégorielles. Elles peuvent également s'appeler :
variables dichotomiques.

Particularités des variables qualitatives binaires

 Elles ne peuvent pas être hiérarchisées


 Elles ne possèdent que deux modalités (deux classes) possibles.

Deux possibilités

LES VARIABLES QUANTITATIVES

Particularités des variables quantitatives

 S'expriment par un nombre


 Peuvent être exploité mathématiquement

Une bonne manière de distinguer les variables discrètes des variables continues est de
prendre en exemple : la taille des pieds et la pointure des chaussures.
La taille des pieds est une variable continue car nous avons tous des pieds de tailles
différentes.
La pointure de nos chaussures est une variable discrète. En effet les pointures sont
standardisées.

Les variables quantitatives continues

Particularités des variables quantitatives continues

 Elles peuvent prendre n'importe quelle valeur numérique entière ou décimale.


 Elles peuvent avoir une infinité de décimales.
10 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

La seule limite à ce continuum est la précision de la mesure (précision de la balance au dixème 0,1)
dans l'exemple ci-dessous pour les poids de dix individus).

Les variables quantitatives discrètes

Particularités des variables quantitatives discrètes

 Elles ne peuvent prendre que des valeurs numériques entières.


 Elles se distinguent par le fait que le passage d'une valeur à une autre est discontinu.

Note : il est impossible d'avoir 3.4 frères

LES VARIABLES TEMPORELLES

Particularités des variables temporelles

 Elles peuvent être de deux types:


o Type date: 31 octobre 1983
o Type horaire: 23 heures 55
11 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
 Elles peuvent être exploitées mathématiquement mais seule la soustraction est possible.

Les dates

Les heures

SYNTHESE
TABLEAU AVEC UNE ILLUSTRATION DE CHAQUE TYPE DE VARIABLE
Voici un tableau de synthèse de tous les types de variables.
12 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

Titre : Statistique descriptive et inférentielle avec Excel: Approche par l'exemple


Auteur : Argentine Vidal

Le terme variable est utilisé pour désigner des caractères quantitatifs (modalités
mesurables) ou qualitatifs (modalités non mesurables). On appelle variable tout
phénomène observable susceptible de prendre n’importe quelle valeur métrique où pas.
13 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Les variables quantitatives (ou variables statistiques) qui peuvent être mesurées c’est à
dire que les observations peuvent être notées sous formes numériques (ex. température,
taille).
Cette variable quantitative peut être :
 Continue c'est – à - dire une grandeur (variable) qui change
Graduellement par différences infiniment petites (Ex la taille).
 Discrète ou discontinue : une grandeur qui change par saut il existe
Un intervalle vide entre 2 valeurs consécutives. Ce nombre doit être un entier.

EXEMPLE : Nombre d’enfants dans une famille, ce nombre doit être un entier.
En générale dans le cas métrique ;
NB :On est obligé d’arrondir les nombres souvent à 2 décimales significatives. On ne
devrait arrondir que la réponse finale les calculs intermédiaires devraient se faire faire avec
toutes les décimal acceptées par la calculatrice.
5. L’ECHANTILLON : C’est un sous – ensemble d’une population constituée d’un ou
plusieurs individus prélevés de la population c'est-à-dire l’ensemble des éléments sur
lesquels on a effectivement recueilli les résultats.
6. TAILLE D’ECHANTILLON : Nombre d’individus total observé qui compose cet
échantillon (N).
7. EFFECTIF OU FREQUENCES ABSOLUES : Nombre d’apparition de modalité dans
l’échantillon ou population (n).
8. UN PHENOMENE ALEATOIRE : C’est tout ce qui peut être observé sans qu’on
puisse en découvrir la cause unique et qui est caractérisé par le fait que le hasard intervient
dans l’apparition ou comportement du phénomène.
EXEMPLE : Le jeu de dé.
9. SERIE STATISTIQUE (OU DISTRIBUTION STATISTIQUE) : Est un ensemble
des mesures pratiquées sur les éléments des données brutes d’une population (en vrac).
10. SERIATION DES DONNEES : C’est la mise en ordre des données brutes en
ordre croissant ou décroissant.

D’où la classification
14 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
CARACTRES

Qualitatif Quantitatif (Variables statistiques)

Discrète continu

1.6. LA NATURE ET MESURES DES DONNEES


La statistique descriptive et la statistique inductive demandent l’utilisation de
méthodes dont l’emploi exige un grand discernement. Il convient de tenir compte
principalement du genre de mesures auquel on a affaire. Mesurer consiste à assigner un
nombre à un objet ou à un événement selon une règle logique acceptable.
Selon la règle utilisée, on distingue 4 niveaux de mesures auxquels correspondent 4
échelles de mesure :
1. L’ECHELLE NOMINALE
Lors de la présentation des détails d' une variable, une échelle nominale est identifiée
par l' utilisation de symboles «numériques» qui permettent uniquement de regrouper les
unités de population en différentes classes sans sens de hiérarchie ou de distance entre
les [Link] conséquent, le seul but des symboles numériques est d' identifier les
différentes classes ou catégories de modalités .

On substitue un nom au nom des Modalités .Par conséquent, le numéro utilisé ici ne
sert que de convention de base pour désigner les objets.
Les exemples incluent le sexe, l'état matrimonial, la profession et les relevés de notes
des étudiants.
Il est clair qu'aucune des opérations fondamentales ne peut être effectuée sur ces
nombres ; la seule règle autorisée est d'attribuer le même numéro à des objets
identiques et des numéros différents à des objets différents' échelle nominale en
15 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
sciences sociales est : Initialement artificiellement dichotomisée ou multichotomisée ;
Initialement naturellement dichotomisé à multichotomisé.
Les indices suivants peuvent être calculés à l'aide de ce type d'échelle : fréquences,
pourcentages et proportions.
2. ECHELLE ORDINALE
Une échelle ordinale est une échelle qui utilise des symboles numériques pour
représenter les caractéristiques de la variable. Ces symboles permettent de classer
les unités de population en différentes classes ainsi que de définir un ordre entre les
classes .Savoir où se situe chaque unité sur une échelle ordinale permet d' exprimer
qu'à ce niveau de mesure, il n'est pas nécessaire de préciser la distance séparant
différentes unités par rapport à cette qualité ou caractéristique .Des exemples de
variables à traiter sur une échelle ordinale incluent la classe sociale, le statut social
dans une profession, l' influence d'un leader au sein d' un groupe, etc.
Lorsqu'un ordre est appliqué à des objets, les nombres doivent exprimer la relation
supérieure ou inférieure à, tout comme pour une échelle nominale, et ils doivent également
exprimer l'égalité ou l’iniquité.
3. ECHELLE D’INTERVALLE
Les valeurs numériques reliées aux spécifications de la variable par un tel escalator
permettent non seulement de classer les membres de la population en différents
groupes et d'établir un ordre au sein de ces groupes, mais également de calculer la
distance entre eux. L’utilisation d'une échelle d’intervalle nécessite l'existence d'une
unité de mesure répartie uniformément le long de l'échelle. Puisqu'il existe une unité
connue, des échelles d’intervalle sont utilisées pour les variables quantitatives ;
néanmoins, le zéro est purement conventionnel et n'a de sens que dans la plage de
l'échelle. La température, le quotient mental, l'utilité, la vitesse, etc. sont des
exemples de variables qui peuvent être manipulées à l'aide de ce type d'échelle.

4. Echelle de Rapport
En plus des caractéristiques des échelles précédentes, l' échelle relationnelle
implique l' existence d' une valeur réelle de "zéro" comme point de départ .Lors de
l'utilisation d' un tel escalator, le rapport des deux emplacements sur l' escalator est
indépendant de l' unité de mesure choisie. On pense à des variables telles que le
16 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
temps, le poids et la longueur comme exemples de celles qui peuvent être traitées
de cette manière, ainsi qu'à des variables économiques telles que le revenu et le
PIB. Comme on peut le voir, il existe une hiérarchie entre ces différentes échelles de
mesure : lorsqu'on passe séquentiellement de l' échelle nominale à l' échelle
ordinale , puis à l' échelle d' intervalle , et enfin à l' échelle de rapport , on passe de l'
échelle la plus grande à l' échelle le plus petite escalader. De manière générale, le
nombre d'approches statistiques disponibles pour analyser les données relatives à
une variable augmentera à mesure que son niveau de mesure diminue. Par
conséquent , il est important de rester conscient des types de données traitées afin
de respecter les restrictions que chaque niveau de mesure impose aux types de
procédures pouvant être appliquées .Les variables quantitatives sont mesurées à l'
aide d' échelles d' intervalle puisqu'il existe une unité connue ; cependant, le zéro est
purement conventionnel et n'a de sens que dans la plage de l' échelle. Des
exemples de facteurs qui peuvent être contrôlés à l'aide de ce type d'échelle incluent
la température, l’aptitude mentale, l’utilité, la vitesse, etc.

[Link]. PRESENTATIONS SOUS FORME DES TABLEAUX ET GRAPHIQUE


II.1. la présentation des données
II.1.1 DISTRIBUTION STATISTIQUE
Lorsqu’on a effectué des observations répétées dans le temps ou dans l’espace
et l’on dispose d’un grand nombre des données rassemblées sans souci d’ordre (données
brutes) nous ne pouvons tirer aucune information. Avant que ces données puissent être
utilisées pour tirer des conclusions concernant les phénomènes étudié, elles doivent être
mises en ordre afin d’extraire l’information pertinente.
Le premier travail de description de cette distribution consistera à grouper les
résultats identiques et de les présenter dans un tableau des effectifs. Cette opération est
17 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
effectuée au prix d’une certaine perte d’information brute, mais cette perte est en générale
plus que compensée par le gain d’information effectivement perceptible.
III.1.2. Le tableau Statistique
1. Distribution de fréquence ou fréquence relative
Un des concepts fondamentaux en statistique est celui de distribution de fréquence.
Les distributions les plus simples comportent une seule variable et sont représentées sous
forme de tableaux statistiques.
Désignons par ni le nombre d’unités présentant la valeur xi ; et ni est l’effectif ou la
fréquence de la valeur xi et la proportion fi = ni /n est la fréquence relative de xi.
Exemple : soit la présentation de la distribution de la variable qualitative « langue
maternelle de la population canadienne » en 1981
Langue maternelle Fréquence Fréquence relative
Anglais 14918455 0,613
français 6249095 0,257
Italien 528775 0,022
allemand 522855 0,021
Autres 2124000 0,087
Total 2124000 1,0

Remarquons que cette étude porte sur 1 caractère : nombre de langues parlées
Nous analysons successivement ces deux caractères :
Le caractère : nombre de langues parlées, l’ensemble de modalités du caractère est
donné par (Anglais, français, Italien, allemand, Autres) le caractère est qualitatif. La
distribution est donnée par l’ensemble de couples (modalités, fréquence).

Comme nous le constatons par suite de leur multiplicité et de leur succession


arbitraire les valeurs ci-dessous ne livrent guère d’informations. Ce sont des données
brutes c'est-à-dire des données rassemblées sans souci d’ordre, l’individu ou unité
statistique sont les employés, nous avons 2124000 comme taille d’échantillon.
18 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

Exemple 2 : la distribution d’une variable quantitative discrète exprimant les pointures de


souliers d’un échantillon de 84 hommes.
Pointure Fréquence Fréquence relative
5 3 0,036
6 1 0,012
7 13 0,155
8 16 0,190
9 21 0,250
10 19 0,226
11 11 0,131
Total 84 1

Cette variable quantitative a 7 modalités (5,6,7,8,9,10,11) et une taille de l’échantillon de 84


hommes.

a) Sériation des données

Le 2ème travail de description de cette distribution consiste à grouper les résultats


identiques. La façon la plus économique et la plus sûre consiste à la mise en ordre des
données en ordre croissant ou décroissant et préparer un tableau de sériation des données
(dépouillement des données) par le système des bâtons ou des carreaux.
EXEMPLES :
TABLEAU DES EFFECTIFS 1.

Modalité, Nombre de langues POINTAGE


EFFECTIF FREQUENCE FREQUENCE EN %
parlées couramment X1 Bâton Carreaux
1 //// //// 9 9 /25 36%
2 //// //// // 12 12/25 48%
3 /// 3 3/25 12%
4 / / 1 1/25 4%
19 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
TOTAL 25 100%

Comme les valeurs d’une variable sont à la fois exclusives, la somme des effectifs ou
fréquences ni est égale à l’effectif total de l’ensemble, où encore la somme des fréquences
relatives fi est égale à l’unité
Tableau des effectifs 2.

POITAGE
EFFECTIF FREQUENCE FREQUENCE EN %
Modalité, poste occupé Y1 Bâton Carreaux
Anesthésiste //// // 7 7 /25 28%
infirmier(e) //// / 6 6/25 24%
accoucheuse //// / 5 5/25 20%
Médecin //// / 7 7/25 28%
TOTAL 25 100%

Commentaires :

Les nombres qui apparaissent dans la colonne des effectifs sont faciles à
comprendre. Par exemple il y a 9 employés qui parlent une langue. Soit 36% des
employés de la compagnie qui parle une seule langue cfr tableau (1).
Par contre 7 dans le tableau des effectifs (2) représentent le nombre de cadre soit 28 %
des agents de la compagnie sont des cadres.
i. DISTRIBUTION DE FREQUENCE POUR VALEUR
GROUPEES
Lorsque la variable est connue, ou que la variable peut prendre un grand nombre de
valeurs différentes, même si celle-ci est une variable discrète, il convient de regrouper ces
valeurs en classes. A chaque classe on fait correspondre une fréquence relative et l’on
obtient alors une distribution de fréquence ou de fréquence relative pour une valeur
groupées. Les classes peuvent avoir une amplitude constante ou variable, et l’amplitude
des classes extrêmes peut même être indéterminée (classes ouverte)
Bien qu’il n’existe pas de règle précise régissant le groupement des données, nous
pouvons mentionner quelques principes qu’il est préférable de respecter, car avec le
regroupement, nous risquons de perdre une partie d’information de base si ces principes
ne sont pas respectés. Il est donc conseillé :
20 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
1° D’utiliser le nombre de la classe ni trop petit ni trop grand ;
Un nombre de classe se situant entre 10 à 20 est généralement satisfaisant dans de cas
extrêmes pour des raisons d’application. D’autres auteurs estiment par contre l’intervalle de
7 à 15 est tolérable.
2° Les classes doivent être définies sans ambiguïté de sorte qu’il soit toujours aisé a
déterminer, la classe à laquelle appartient une observation ;
3° La variable entre dans une classe une et une seule fois. Par convention on
donne à chaque classe la forme d’un intervalle fermé à gauche, ouvert à droite ;
4° Parfois, il est souhaitable que les longueurs des intervalles associées à chacune
des classes puissent être égales ;
5° On choisit généralement un nombre impaire de classe pour obtenir une
répartition symétrique ;
6° Les classes doivent contenir toutes au moins une observation.
« Le choix du nombre de classe dépend de la précision désirée et de l’effectif total de
l’ensemble statistique étudié. Il n ya pas de règle absolue pour déterminer le nombre de
classes. Ce choix est guidé par le souci d’obtenir une bonne représentation de l’ensemble
des données collectées .le nombre de classes dépend surtout du nombre de données
collectées. Pour des ensembles de données relativement restreints (n≤200), il semble
recommandable de choisir entre 7 et 15 classes, mais cette règle n’à pas d’absolu. En
pratique, quelques règles plus précises ont été proposées pour déterminer le nombre de
classes. Si l’on dispose de n observations ou donnée, on peut par exemple, prendre
10 log n
comme nombre de classe n ou encore 1  (règle de Sturges)
3
Par souci de simplicité il est fréquent de recourir à des classes égale amplitude et d’arrondir
les valeurs extrêmes des classes »(Jean Martel ; P21.)
c) Méthodes d’obtentions des données en classes
Méthode empirique exploité par LIORZOU
D’après cette méthode, on procède de la manière suivante :

1. Calcul du nombre des classes


10 log N
K  1
3
10 ≤k≤20
21 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Avec N taille de l’échantillon
2. Calcul de l’étendue du Travail

X MAX = Valeur la plus élevée


X min = valeur la plus basse de la série
D = X MAX – X MIN
3. Calcul de l’amplitude de classe (a)
d
a Pour d =Xmax -Xmin
K 1

N.B : On veillera à ce que l’amplitude de classe ait une valeur aisée à utiliser.

4. La limite inférieure de la première classe et limite supérieure de la dernière classe.


a
Li  X min  (Li : Limite inférieure de la première classe)
2
LS=Li+axk (Ls=Limite supérieure de la dernière classe)

5. Construire l’intervalle de classe

C. Les éléments des tableaux Statistiques (Tableau descriptif )


a. Point Milieu d’une classe

Le point milieu d’une classe est le point situé à égale distance de 2 valeurs extrêmes
de la classe. Il se détermine aisément. Il est la moyenne arithmétique de 2 valeurs
extrêmes, symbolisé par Xi.
a. Limites réelles de classes
Les limites de classes sont des limités réelles, c’est le cas où on sait qu’une valeur
est certainement comprise entre les limites donnée ou assignée. Ainsi les valeurs de la
série ne sont données que dans les limites d’une certaine approximation.
N.B : Pour la commodité des graphiques il est nécessaire de garder 2 classes de réserve.
c. Effectifs cumules
L’effectif cumulé d’un intervalle de classe est la somme des effectifs de cet intervalle
est celle de toute les classes inférieures ou supérieures à la classe considérée.
On distingue :
- Les effectifs cumulés croissants : FCC
22 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Pour calculer les effectifs cumulés croissants on part de la classe des valeurs inférieures en
faisant correspondre à chaque classe la somme de l’effectif simple de cette classe et de
tous les effectifs des classes supérieures.
- Les effectifs cumulés décroissants (FCD)

C’est la somme successive des effectifs à partir de la classe de valeur supérieurs


en faisant correspondre, à chaque classe, la somme de l’effectif simple de cette classe et
tous les effectifs des classes inférieures.
c) Effectifs relatifs
Il s’agit de trouver le quotient de l’effectif absolu par l’effectif total.

2.3. REPRESENTATION GRAPHIQUE DES SERIES STATISTIQUES


Diagrammes en barres et diagrammes circulaires
Un graphique ou diagramme en barres est un moyen graphique de décrire des données
qualitatives résumées par une distribution de fréquence absolue, relative ou en
pourcentage. Sur l'un des axes du graphique (généralement l'axe horizontal), on note les
labels ou noms utilisés pour identifier les classes (les catégories). Sur l'autre axe du
graphique (généralement l'axe vertical), on note la fréquence absolue, relative ou en
pourcentage. Chaque classe est représentée par une barre de largeur égale dont la
hauteur correspond à la fréquence absolue, relative ou en pourcentage de la classe. Pour
des données qualitatives, les barres doivent être séparées, reflétant le fait que chaque
classe est une catégorie à part entière.
la diagramme en bâton ou linéaire Se prête bien à la représentation de la distribution de
fréquence (ou fréquence relative) d’une variable discrète qui prend un nombre restreint de
valeurs (distribution avec valeurs non groupées) ; le principe est tel que on place en
abscisse Xi de la variable X. on élève ensuite sur chaque valeur Xi un bâton dont la
hauteur est égale à la fréquence ni (ou fréquence relatives) correspondant à cette valeur
La figure Ci dessous représente le diagramme en barres de la distribution de fréquence
des achats de produit Bralima. Le graphique révèle également que Primus, Coca-Cola,
Pepsi et Fanta sont les marques les plus achetées.
23 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

Produits Fréquence Relative Fréquence en %


Primus 0,38 38
Coca cola 0,16
Turbo 0,10
Fanta 0,26
Sprite 0,10
TOTAL 1 1OO

0,4

0,35

0,3

0,25 PRIMUS
COCA
0,2 TURBO
FANTA
0,15
SPRITE
0,1

0,05

Dans les applications de contrôle de la qualité, les diagrammes en barres sont utilisés pour
identifier les principales causes d'un problème. Lorsque les barres sont disposées en ordre
décroissant, de gauche à droite, en fonction de leur hauteur, la cause survenant la plus
fréquemment apparaît alors en premier. Ce type de diagramme en barres est appelé
diagramme de Pareto, du nom de son inventeur, Wilfredo Pareto, un économiste italien.
COMMENTAIRE
24 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Il est évident que ce même procédé pourra être utilisé en faisant correspondre, non
plus les % mais les effectifs aux différentes valeurs,. Il se construit de la même façon que
pour un caractère quantitative, mais un caractère qualitatif, les modalités n’étant pas des
nombres, nous ne sommes plus obligés de tenir compte d’un ordre naturel, nous pouvons
donc, en principe, inscrire sur l’axe horizontal, les modalités dans l’ordre qui nous plait.
Le seul problème qui survient avec ce type de représentation est qu’il est difficile de
comparer visuellement certaines fréquences le diagramme en secteur pallie à cette
inconvénient.
3.3.2. Diagramme Circulaire
Les diagrammes circulaires sont constitués par un cercle divisé en secteurs, chaque
secteur ayant un angle au centre qui est proportionnel à la grandeur représentée. Ces
diagramme sont utilisés pour représenter les différentes d’un tout
Le diagramme circulaire est un autre moyen graphique de représenter les distributions de
fréquence relative et en pourcentage de données qualitatives. Pour dessiner un diagramme
circulaire, il faut tout d'abord tracer un cercle représentant l'ensemble des données.
Ensuite, on se sert des fréquences relatives pour diviser le cercle en secteurs, ou parts, qui
correspondent à la fréquence relative de chaque classe. Par exemple, puisqu'un cercle fait
360 degrés et que la marque Primus a une fréquence relative de 0,38, le secteur du
diagramme circulaire correspondant à la marque Primus fait 136,8 degrés (0,38 x 360 =
136,8). Le secteur du diagramme circulaire correspondant à la marque coca fait 57,6
degrés (0,16 x 360 = 57,6). Des calculs similaires pour les autres classes permettent de
construire le diagramme circulaire. Les valeurs numériques utilisées pour déterminer l'angle
de chaque secteur peuvent être indifféremment les fréquences absolues, relatives ou en
pourcentage.
Remarques
1 Souvent, le nombre de classes d'une distribution de fréquence correspond au nombre de
catégories définies parmi les données, comme c'est le cas pour les données concernant les
achats des produits Bralima dans cette section. Les données concernent cinq marques de
boisson et la distribution de fréquence comprend cinq classes, représentant ces cinq
marques existantes. Des données qui incluraient toutes les marques de boisson

EXEMPLES :
25 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
TABLEAU VI. LA DISTRIBUTION DES FREQUENCES DE MODALITE (ETAT CIVIL)
D’UN MILIEU QUELCONQUE.
MODALITE (ETAT CIVIL) EFFECTIF FREQUENCE Fr (p)
Célibataire 31000 0,413 41,33
Marié 23000 0,307 30,7
Veuf 11000 0,147 14,7
Divorcé 10000 0,133 13,3
75000 100 %

. DIAGRAMME CIRCULAIRE EN SE REFERANT AU TABLEAU VI.

MODALITE fp Par accordé Sect


Célibataire 41,33% 41,33% X 360  148,7
100
veuf 14,7% 14,7% X 360  52,8
100
divorcé 13,3% 13,3% X 360  47,9
100
marié 30,7% 30,7% X 360  110,52
100
360°

Marié
31% Célibataire
41%

Divorcé
13% Veuf
15%
26 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

2.3.3. HISTOGRAMME ET LE POLYGONE DES EFFECTIFS


Ces types des graphiques répondent biens dans les cas des variables quantitatives
continues.
a. Histogramme :
L’histogramme est le mode usuel de représentation graphique d’une distribution de
fréquence (ou de fréquence relative) avec valeurs groupées (cas d’une variable continue
ou d’une variable discrète avec un grand nombre de valeurs différentes). On porte en
abscisse les limites des différentes classes. Sur chacun des segments de droite ainsi
délimités en abscisse, on élève un rectangle dont la hauteur est égale (ou proportionnelle)
à la fréquence (ou fréquence relative) de la classe.
b. Les polygones des effectifs : il s’agit de la représentation graphique d’une
distribution d’effectif obtenue en joignant par de droites, les points
dont ordonnées sont proportionnellement aux effectifs.

N.B : Le polygone de fréquence est le graphique idéal pour établir des comparaisons. En
effet, la superposition sur un même graphique de deux polygones est beaucoup plus
facilement interprétable que la zone de superposition de deux histogrammes.

2.3.4. COURBES CUMULATIVES : COURBE D’OGIVE

Dans le cas de données en classe, on construira un polygone des effectifs cumulés


en rejoignant, par des droites ; les points dont les coordonnées sont :
a) Les limites supérieures réelles (en abscisse)
b) Les effectifs cumulés (en ordonnées)

En effet dans le cas d’effectif cumulés croissant chaque effectif cumulé s’interprète
en fonction de la limite supérieur exacte d’une classe tandis que le cas des effectifs
cumulés décroissants, chaque effectif cumulé s’interprète en fonction de la limite inférieure
exacte d’une classe.
[Link].
1) : Supposons que nous voulons comparer le revenu annuel en 1980 de chacun des 40
diplômé de 1978 d’un certain programme universitaire. Le tableau qui suit donne les 40
revenus observés dans l’ordre où l’information est parvenue ou responsable de l’étude.
27 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
20200 17700 21800 23000 25400 14400 16700 17500 18300 19600
12200 19200 20100 21200 21900 23700 25500 14700 17000 17900
12500 15200 17200 18000 19200 20100 21300 21900 24300 27000
13800 15500 21600 22200 25000 27700 18800 19600 20900 12200
Questions
Q1) Déterminer la population ; le caractère, modalité, variable, la taille et l’échelle
Q2) Groupement de donnée par LIORZOU
Q3) Présenter les données dans un tableau descriptive et dans graphique adapter

2. le syndicat des douaniers effectue des enquêtes sur les salaires et en présente les
conclusions sur son site Web. Telque , les salaires annuels des agents douaniers
variaient entre 85 090 dollars et 190 054 dollars). Supposons que les données suivantes
sont issues d'un échantillon de données sur les salaires annuels de 50 douaniers. Les
données sont exprimées en milliers de dollars.
145 95 148 112 132
140 162 118 170 144
145 127 148 165 138
173 113 104 141 142
116 178 123 141 138
127 143 134 136 137
155 93 102 154 142
134 165 123 124 124
138 160 157 138 131
114 135 151 138 157

a)Faire la sériation des observations


b)Le groupement des données en classes (par LIORZOU)

c) Quel est le salaire le plus élevé de l'échantillon ? Le plus faible ?


d) Utiliser une largeur de classe de 14 000$ et résumer les données sous forme de tableau.
e) Quelle est la proportion de salaire annuel inférieur ou égal à 142 000 $ ?
f) Quel est le pourcentage de salaire annuel supérieur à 156 000 $ ?
j) Construire un graphique adapter. Commenter la forme de la distribution.

3) Considérons la distribution de fréquence suivante.


Classe Fréquenc
e
28 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
10-19 10
20-29 14
30-39 17
40-49 7
50-59 2
Construire des distributions de fréquence cumulée absolue et relative.
Construire un histogramme et une ogive

Exemple4 : Le personnel d’un cabinet médical a étudié les temps d’attente des patients qui arrivent
au cabinet pour une urgence. Les données suivantes ont été collectées au cours d’un mois ( les temps
d’attente sont en minutes) .
2 5 10 12 4 4 5 17 11 8
9 8 12 21 6 8 7 13 18 3
a) Construire la distribution de fréquence.
b) Construire la distribution de fréquence relative
c) Construire la distribution de fréquence cumulée
d) Construire la distribution de fréquence cumulée relative
e) Quelle est la proportion de patients qui viennent en urgence et qui ont un temps d’attente
inférieur où égal à 9 minutes ?

Exercices5
Une association de donneur du sang de l’hôpital a reçu 25 volontaires et à constater
le groupe sanguin des individus :
A B B AB O O O
B AB B B B O A
A O O O AB AB A
O B A B O A O

-Construire la distribution de fréquence


-Déterminer : le caractère, variables, échelle, modalité,
- quel type de graphique est le plus recommander dans tel conditions pourquoi ?
29 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

CHAP.3. CARACTERISTIQUES (OU PARAMETRE) D’UNE DISTRIBUTION

3.1. GENERALITES

Les exemples de séries statistiques rencontrées dans les chapitres précédents


montrent qu’en général les données d’une série statistique accusent une certaine
accumulation des effectifs autour d’une variable particulière. Il est donc intéressant de
spécifier la valeur remarquable autour de laquelle se produit cette tendance à
l’accumulation.
3.2. CARACTERISTIQUE DE VALEUR CENTRALE
Les trois mesures de tendance centrale les plus usuelles sont : la moyenne
arithmétique, la médiane et le mode. On envisagera leur calcul à partir des données
brutes.
3.2.1. LA MOYENNE ARITHMETIQUE
1. DEFINITION : La moyenne arithmétique d’une série est égale à la somme de tous les
résultats individuel de la série, divisée par le nombre d’individus de la série.

Elle est conventionnellement symbolisée par X (pour l’échantillon soit une
statistique) et  (pour la population soit un paramètre).

La moyenne de l’échantillon X est un estimateur ponctuel de la moyenne de la
population 
2. CALCUL DE LA MOYENNE
a) Calcul de la Moyenne par formule générale
a.1. Données brutes
30 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
 1 N
X   Xi Avec Xi= variables observées
N i 1
N= la taille de l’échantillon
a.2. Données groupées en tableau des effectifs
 1 n
X   niXi n=nombre de modalités
N i 1
ni= Effectif absolu

a.3. Données groupées en classe


 1 c
X   nixi xi= Centre de classe
N i 1
C= nombre de classes

b. Le calcul simplifie de la moyenne


a) Changement d’origine

Le changement d’origine consiste à remplacer l’origine xo =0 par une nouvelle


origine x= xo
xo est une valeur arbitraire que l’on choisit de manière à simplifier les calculs. L’opération
consiste à substituer à la variable x, par une autre la variable auxiliaire e tel qu’après
démonstration on a :


X = xo + e

avec e =
 niei ei=xi- xo
N
b) Par changement d’échelle

Applicable dans le cas de série à l’intervalle des classes égal, on prend l’amplitude
comme unité, ce qui revient à considérer la déviation suivante :
xi  xo  
ei  D’où X = xo +a e Avec xi=point milieu de la classe i.
a
1 e
Avec e   niei
N e 1
3. PROPRIETES DE LA MOYENNE ARITHMETIQUE
31 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
1. La moyenne arithmétique d’une population P composée de plusieurs sous –
population est égale à la moyenne des moyennes calculées dans les différentes
sous populations telles que :

La population P1 a pour moyenne X 1

La population P2 a pour moyenne X 2

La population Pn a pour moyenne X n
La moyenne de la population composée s’exprime de la manière suivante
P 
 ni x i
X  i 1

 ni
Avec p = total de la population composée
Ni= Nombres d’éléments de chaque échantillon
Exemple :1.
On a fait passer une épreuve aux élèves de 5 classes de 1 er CO et l’on a
calculé la moyenne arithmétique des résultats obtenus dans chacune des classes.
CLASSES ni Xm
A 22 89,7
B 35 69,4
C 27 70,5
D 23 81,1
E 41 69,6

Quelle est la moyenne de l’échantillon ?


22(89,7)  35(69,4  27 (70,5)  23(81,1)  41(69,6)
Xi   74,422
22  35  23  41  27

~
IV.2.2. MEDIANE X
1. Définition
On appelle valeur médiane ou simplement d’une variable statistique, la
valeur de la variable observée se situant au milieu après sériation des résultats de la
distribution considéré[Link] médiane est une autre mesure de tendance centrale pour une
32 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
variable. Lorsque les données sont classées en ordre croissant (de la plus petite à la plus
grande valeur). La médiane correspond à la valeur centrale. Lorsque le nombre
d’observations est impair, la médiane correspond à la valeur centrale. Un nombre pair
d’observations n’a pas une unique valeur centrale. Dans ce cas, la convention consiste à
définir la médiane comme la moyenne des valeurs deux observations centrales.
2. Calcul de la médiane
a) Série non groupée
Il importe toujours de travailler sur les résultats rangés par ordre de grandeur.
Ainsi :
- Si le nombre de résultats est impair, le médian coïncide avec le point milieu de
L’intervalle occupé par le résultat central de la série ordonnée.

Exemple1 :
1. Calculons le salaire initial médian des 12 jeunes diplôme en
médecine :
2710 2755 3325 2880 2950 2920
2850 3130 2880 3050 2890

Exemple2 : calculer la taille médiane des promotions de l’échantillon


comportant cinq promotions d’une institution universitaire
32 42 46 46 54

Remarque :
Lorsque plusieurs des données coïncident avec le médian sa valeur significative
devient douteuse, il est conseillé de faire plutôt confiance à une autre paramètre, tel que le
mode.
Ex. 3,5,7,8,8,8,8,10,11,13
~ 88
X   8 Il vaut mieux de dire que 8 apparaît 4 fois.
2
a. Pour le données groupées en classes
33 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
La médiane s’obtient par l’interpolation proportionnelle à l’intérieur de l’intervalle de
la classe médiane c'est-à-dire la classe que contient au moins.
N ( N / 2  FCCi
Effectif cumulé d’où X  Li  a
2 ni m éd.
~
Avec X =médiane
Li= la limité inférieure de la classe retenue comme classe médiane
N=effectif total
Fcci=effectif cumuler de la classe inférieure adjacente a la classe médian
a= amplitude
ni méd= fréquence absolue de la classe médiane
Remarque : la médiane est la mesure de tendance centrale la plus souvent utilisées
pour les données sur le revenu annuel et la valeur foncière, car quelques valeurs très
élevées du revenu ou de la valeur foncière peuvent accroitre la moyenne. Dans de
telles situations, la médiane est une meilleure mesure de tendance centrale.
Bien que la moyenne soit la mesure de tendance centrale la plus souvent utilisée, dans
certaines situations l'utilisation de la médiane est préférable. La moyenne est en effet
influencée par les valeurs extrêmement petites et extrêmement grandes. Par exemple,
supposez que l'un des diplômés (cf. exemple1 ci haut) ait un salaire initial de 10 000 dollars
par mois (la famille de l'individu possède peut-être la société). Si l'on modifie le salaire
mensuel initial le plus élevé du tableau 3.1, égal à 3 325 dollars, par 10 000 dollars et que
l'on recalcule la moyenne, cette dernière passera de 2 940 à 3 496 dollars. Par contre, la
médiane égale à 2 905 dollars est inchangée puisque les valeurs centrales, 2 890 et 2 920
ne sont pas modifiées. Avec cette valeur extrêmement élevée du salaire initial de l'un des
jeunes diplômés, la médiane fournit une meilleure mesure de tendance centrale que la
moyenne. De façon générale, lorsqu'un ensemble de données contient des

valeurs extrêmes, la médiane est souvent une mesure préférable de la


tendance centrale.

IV.2.3. LE MODE (X) OU LA DOMINANTE


1. Définition :
34 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Le mode est la valeur de caractère pour laquelle la fréquence est
maximale dans la distribution observée. Le mode correspond à la valeur de
l'observation qui a la plus grande fréquence
2. Calcul du mode
a) Séries non groupées le mode est la valeur la plus fréquente dans une série
d’observation.
b) Séries groupées
- Si les observations sont groupées en classe, une bonne estimation du mode
est le point milieu de la classe de haute fréquence. Appelée classe modale ou
classes dominante par interpolation on a :
aD1
Xˆ  Li 
D1  D 2
Li= limite inférieure de classe modale
a= Amplitude
D1=différence entre l’effectif modale et effectif de la classe précédente
D2= différence entre l’effectif modale et l’effectif de la classe suivante.
Il arrive que 2 classes aient le même effectif maximum.
Dans ce cas :
- Soit que les 2 classes ne sont pas adjacentes et on a une distribution bi
modal. Le mode se calcul par la formule de mode dérivée qui est :

Xˆ  3.médiane  2 X (Bernard CRAIS OP CIT)
- Soit que les 2 classes sont Adjacentes et l’on considère la limite commune
Comme mode
Remarque
Considérons 1 exemple de 1 échantillon des tailles des cinq classes. La seule valeur qui
apparaît plus d'une fois est 46. Puisque cette valeur, qui a une fréquence de 2, a la plus
grande fréquence, il s agit du mode. Considérons à présent l'échantillon des salaires
initiaux des diplômés d'une école de commerce. Le seul salaire mensuel initial qui apparaît
plus d'une fois est 2 880. Puisque cette valeur a la plus grande fréquence, il s'agit du mode.
Il est possible que plusieurs valeurs apparaissent avec la même fréquence et que cette
fréquence soit la plus importante. Dans ce cas, plus d'un mode existent. Si les données ont
exactement deux modes, on dit que les données sont bimodales. Si les données ont plus
35 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
de deux modes, on dit qu'elles sont multimodales. Dans les cas multimodaux, le mode n
est presque jamais utilisé car énumérer trois modes ou plus n'est pas particulièrement utile
pour décrire les données.

Le mode est une mesure importante de tendance centrale pour des données qualitatives.
Par exemple, l'ensemble de données qualitatives du tableau 2.2 est résumé par la
distribution de fréquence suivante
Boisson non Fréquenc
alcoolisée e
Coco-Colo 19
Coke liglif 8
Dr. Pepper 5
Pepsi 13
Sprite 5
Total 50

Le mode, en d’autres termes la boisson non alcoolisée la plus fréquemment


achetées, est coca cola, Pour ce type de données, parler de la moyenne ou de la
médiane n’a aucun sens. Le mode fournit des informations intéressantes sur la
boisson alcoolisée la plus fréquemment achetée.

Exemple : selon une enquête hospitalière américaine, les services d'urgence de la plupart
des hôpitaux fonctionnent à leur capacité maximale). L’enquête a collecté des données
relatives aux temps d'attente dans les services d’urgence des hôpitaux fonctionnant au
36 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
maximum de leur capacité et dans les services d’urgence fonctionnant rarement à plein
régime. Ci-dessous est présenté un échantillon des temps d'attente en minutes.

Temps d'attente dans les Temps d'attente dans les


hôpitaux fonctionnant au hôpitaux fonctionnant a
maximum de leurs minima
capacités
87 59 60 39
80 110 54 32
47 83 18 56
73 79 29 26
50 50 45 37
93 66 34 38
72 115
a) Calculer les temps d'attente moyen et médian dans les hôpitaux fonctionnant au
maximum de leurs capacités.
b) Calculer les temps d'attente moyen et médian dans les hôpitaux fonctionnant a
minima.
c) Quelles observations pouvez-vous faire sur les temps d'attente aux urgences en
vous basant sur ces données ?
IV.2.3 RELATION ENTRE MOYENNE ARITHMETIQUE, MEDIANE ET MODE
37 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
~
a) Dans une distribution normale, X ; X ; Xˆ coïncide
~
b) Si X  X  Xˆ , la distribution est asymétrique négativement. On dira que la
distribution est étalée vers la gauche et biaisée à droites.
~
c) Si X  X  Xˆ la distribution est dissymétrique et étalée vers la droite biaisé à
gauche (asymétrique positivement).

IV.6. MESURES DE DISPERSION.


Les paramètres de dispersion les plus fréquents sont :
b) Les mesures d’intervalles : - l’étendue
b) Les moyennes des écarts entre les paramètres centraux :
- écart type, écart moyen, variance

Les indices de dispersion sont importants car ils sont le reflet de la variabilité des
données, ils ont les mêmes avantages et inconvénients que la médiane. Leur usage
s’impose dans les mêmes situations. (Prof MANDA – KIZABI « Cours d’initiation à la
méthode quantitative ISP/ KANANGA 80-81).
LES PARAMETRES DE DISPERSION
DESIGNATION

SYMBOLE

FORMULE AVANTAGE PARTICULIERE INCONVENIENT


(PARTICULIERE)
38 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
1 n
V 
N i 1
niXi2  X 2 Quand il s’agit d’un échantillons il faut utiliser la N’a pas la même unité que les
variance estimé. données ses dimensions sont
V  a ²(1 / N  niei²  e² égales au carré des dimensions
des données. On ne peut pas
Variance

( par changement comparer les variances


d’échantillon de données de
d ' échelle)
nature différentes.
1 c 
V 
N i 1
niei²  e

(changem ent
d ' origine)

L’écart-type est la mesure de dispersion la plus


variance
usuelle. Cette caractéristique mesure la On ne peut pas comparer des
concentration de la distribution d’une variable écart types des séries de
autour de sa moyenne. L’idée de base d’écart données de natures différentes
type est d’analyser globalement les déviations
entre les valeurs prises par une variable et la
Ecart Type

moyenne de celle-ci.
-L’écart type a la même unité que les données.
C’est une variable intensive c’est-à-dire qu’elle
ne dépend pas de la taille des groupes.

Source : Tableau conçu par nous – même à partir de la théorie tirée du syllabus de
BOSSER et Allié : Elément de statistique ISP Bukavu, 1980

INTERPRETATION DE L’ECART TYPE


Une faible valeur de l’écart type indique une forte accumulation des observations
autour de la moyenne arithmétique de ces dernières, tandis que grande valeur d’écart type
représente un étalement considérablement des observations autour de la moyenne
arithmétique. « La comparaison des écart- types peut se faire à l’aide de coefficient de
variation CV= Ecart-type/ Moyenne Arithmétique. Ce résultat exprimé en % permet de
comparer ou d’apprécier l’ampleur de l’écart –types :
39 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
- Si CV est inférieur ou égal à 15%, nous dirons que la dispersion n’est pas
prononcée (les données sont homogènes)
- Si le CV est supérieur à 15%, la dispersion des données est très prononcée
(les données sont hétérogènes) ».
. EXERCICES D’APPLICATION
. Exercice1 : Soit les données groupées en classe suivante.
Limite réel Ni
[1,46-1,50[ 0
[1,50-1,54[ 2
[1,54-1,58[ 1
[1,58-1,62[ 5
[1,62-1,66[ 9
[1,66-1,70[ 25
[1,70-1,74[ 25
[1,74-1,78[ 25
[1,78-1,82[ 22
[1,82-1,86[ 6
[1,86-1,90[ 5
[1,90-1,94[ 0
[1,94-1,98[ 0
Calculer la moyenne arithmétique
La médiane et le mode
La variance ; l’écart type et CV

EXERCICE 2. Voici les résultats (en tonne) des marchandises dédouané par les
commerçants de Goma après une campagne de vulgarisation de nouvelles méthodes de
surveillance à la frontière
44 29 39 24 34 20 34 27 37 27
39 25 37 23 32 20 38 20 36 31
36 21 35 20 28 23 38 27 35 36
35 20 31 40 25 28 33 30 31 37
40 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
30 43 29 38 22 32 32 34 28 32
Questions
 Groupement de donnée par LIORZOU
 Calculer : - Les paramètres de tendance centrale
- Les paramètres de dispersion
- Variance et l’écart type
- Coefficients de variation
- déterminer le caractère, l’échelle et la nature des données
- Dresser un tableau de fréquences
- Dressez le polygone de fréquences relatives cumulées

III. Voici la table des angles pour la variable état – civil. Complétez la colonne de
fréquences et celle de pourcentages.

Modalités f % A°

5 72
4 108
3 36
2 97
1 47
TOTAL 30 100 360

Dressez les graphiques le plus adapté pour cette distribution.

SERIE 2 : Reprendre les exercices du chapitre 2 pour calculer les paramètres


statistiques voir le point 2.4 du chapitre 2

[Link]. NOTION DE CORRELATION

IV.1. OBJECTIF ET GENERALITES


41 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Pour une série statistique à 2 variables x et y, on peut se demander « existe-t-il une
dépendance entre les valeurs prises par x et les valeurs prises par y. Pour répondre à
cette question, on peut commencer par représenter le nuage de points associé à cette
série. Plusieurs cas peuvent se produire. (Hypothèse nulle). Statistiquement, aucune
dépendance n’est constatée entre les variations de x et de y. contre H1 Statiquement, il
semble se dégager une dépendance plus ou moins régulière entre les variations de x et y.
(Hypothèse alternative). On est tenté de traduire cette liaison par une relation
mathématique entre les 2 variables.

On se demandera alors « quelle droite tracer » comment trouver une équation de la


droite choisie ? « A quoi sert cette droite ? »
Répondre à ces questions est l’objectif du chapitre.
Remarques : Par l’usage des formules mathématiques on observe que :
1. Dans le cas de corrélations parfaite
On distingue deux cas :
- Corrélation parfaite positive : la droite est parallèle à la 1ère bissectrice. r=1
- Corrélation négative : la droite est parallèle à la 2e bissectrice. r=-1

2. Le cas d’absence de relation entre les variables x et y. r=0


3. Interprétation Générale
r <0,5 : Corrélation faible

r =0,5 : il y a doute

Généralement la corrélation entre x et y est très forte si r ≥à 0,87

IV.2. LA DEFINITION MATHEMATIQUE DU COEFFICIENT DE CORRELATION DE


BRAVAIS – PEARSON
A)Formule de base
42 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
Le degré de dépendance entre deux variables appartenant à une échelle
d’intervalle ou de rapport peut être mesuré au moyen de coefficient de corrélation de
BRAVAIS-PERSON (coefficient linéaire).
En terme symbolique le coefficient de corrélation linéaire se définit par

cov( x, y ) 
r
 x y
avec
cov( x, y ) 
 ( x  x)( y  y)
N

soit r 
 XY  N xY
N x y

Remarque : Le coefficient de corrélation linéaire n’a pas de dimension et ne dépend donc


pas des unités considérées.
Ex : On donne la série statistique suivante :
Z 1968 1969 1970 1971 1972
X 72 83 100 115 135
Y 105 118 130 127 140

a) Calculer le coefficient de corrélation linéaire entre x et y que peut – on en conclure


avec :
t=l’année
x=la production industrielle ( en milieu des francs)
y= les exportations en millions de francs.
Ex : L’attitude de 41 vendeurs d’un grand magasin a été mesurée à l’aide d’une échelle
d’attitudes vis-à-vis du commerce (note maximum 50). On compare ces mesures aux
chiffres de vente de ces vendeurs pendant une semaine chiffres arrondis à 1000).
Attitudes Vente Attitudes Vente
48 26 33 13
46 20 32 11
42 21 29 15
40 15 27 16
38 15 26 12
35 19 23 9
33 20 20 11
32 12 15 6
43 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
30 16 47 20
28 16 43 29
27 12 41 17
25 9 38 15
21 9 37 17
17 10 34 14
48 19 32 15
46 17 31 17
42 19 29 15
39 18 27 13
37 20 25 15
34 15 22 13
18 11

IV.2.3 SIGNIFICATION DES COEFFICIENTS DES CORRELATIONS

a) LA CORRELATION N’IMPLIQUE PAS UNE RELATION DE CAUSE A EFFET

Le coefficient de corrélation linéaire ne mesure aucunement une relation de cause


à effet entre 2 variables. Ie fait que 2 variables soient en corrélation n’implique pas
nécessairement que les variations d’une variable entraîne les variations de l’autre mais
simplement que les deux variables peuvent toutes être attribuables aux variations d’une
cause commune extérieure : On pourrai montrer qu’une forte corrélation entre les ventes
d’huile moteur et les ventes de crème glacée, il n’y a évidemment aucune relation de
causalité mais les variations de chacune de ces variables sont plutôt attribuables à une
cause commune d’ordre climatique.

Le chiffre ne procure pas une idée du pourcentage entre deux variables en


d’autres termes r=0,45 ne signifie pas 45% de dépendance ; r=0,90 par rapport à r=0,45 ne
signifie pas une corrélation double. La signification d’un coefficient de corrélation dépend
en grande partie de la nature des variables dont on traite et du but que l’on poursuit par
exemple, alors qu’un coefficient de corrélation de 0,50 entre deux applications d’un même
test sur un même groupe à quelques jours d’intervalles serait jugés insuffisant.
Un coefficient de corrélation de 0,50 entre un caractère physique et un trait psychique
apparaît fort élevé.
44 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
b) LE COEFFICIENT DE DETERMINATION

C’est la proposition des liaisons entre deux variables, c’est le carré des coefficients
de corrélation lesquelles indique la part de la variable de y, qui est expliquer par la variable
de la variable X d’où CD=r². Un coefficient r=0,92 CD=(0,92)²=0,8464
Nous disons que 85% de cas de la variable Y est expliquée par la variable X et 15% autre
ne pas expliquer par la variation de X, et le 15% est appelé coefficient d’indétermination
qui a pour formule 1-r².

IV.3. AJUSTEMENT D’UNE COURBE DANS LE CAS DE DEUX DIMENSIONS

Comme nous venons de signaler ci haut, l’allure du nuage de points incite à choisir
la nature de la courbe. L’ajustement des données nous permet de faire une prévision
d’avenir, ce pendant le coefficient de corrélation linéaire nous donne une indication de
l’intensité de la liaison linéaire entre 2 variables. Il permet d’obtenir une mesure de la
tendance que les observations de 2 variables concernées à varier dans le même sens ou
dans le sens inverse. Lorsque cette corrélation linéaire s’avère significative, on peut en
visage, à l’aide d’une méthode d’ajustement appropriée, d’établir l’équation de la liaison
existant entre 2 variables. On cherche alors la droite qui ajuste le mieux aux observations
et l’on appellera droite de régression. Soit
X=est la variable dépendante ou expliquée
Y= est la variable indépendante ou explicative
IV.4. AJUSTEMENT AFFINE PAR LA METHODE DES MOINDRES CARRES
(Etude Prévisionnelle)

La méthode « des moindres carrés » permet non seulement de réaliser un bon


ajustement, mais aussi d’en mesurer la validité par le calcul du coefficient de corrélation,
ce qui est utile pour une interprétation éventuelle.
1. Définition : Soit une série statistique double (xi,yi),i=1,2…n représentée dans un
repère par les points Mi (xi,yi) on appelle droite d’ajustement (ou droite de
régressions de ces points par la méthode des moindres carrés, la droite D,
d’équation y=ax+b telle que la somme.
45 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
n
S     yi  (ax1  b)² Soit minimale.
i 1

2) Principes de la Méthode
3) On cherche une droite d, d’équation y= ax+b ;
Le problème est donc de calculer les nombres a et b s’ils existent pour connaître
la droite d’ajustement. Soit x et y deux variable d’une série statistique double, X et Y leurs
moyenne respectives  x , l’écart type de la variable x,  y , l’écart type de y ; et cov (x,y) la

covariance de la série. L’équation de la droite de D de régression de y en X est y=ax+b ou


ry
a=cov(xy)/  x ² et b = Y -a X soit a 
x
Remarque
 
Une équation de D s’écrit également Y - Y =a x  x La droite de régression de Y
en x passe par le point moyen de la série statistique.
Une équation de la droite D’ de régression de x en y est de x en y est :

ry
X=a’y+b’ où a’=cov(x,y)/  x ² et b’= x  a' y soit a ' 
x
 
Une équation de D’ s’écrit également x  x  a' y  y a droite de régression de x
en y passe par le point moyen de la série statistique.

Exemple1
Nous voulons savoir si le nombre d’année d’utilisation de l’outil de laboratoire médicale
peut avoir un impact sur la compréhension d’une marque de scanneur c’est ainsi qu’on a
fait passer un examen écrit à 10 infirmiers pour vérifier leurs connaissances sur la
manipulation des commande d’un scanneur de marque américaine récemment mit au
marché (compréhension des l’usage de commande et menu). le tableau ci-dessous
indique le résultat obtenu à un examen sur 100 points, ainsi que le nombre d’année
d’expérience dans l’utilisation de l’outil de laboratoire
Nb commencé par la formulation des hypothèses, si la valeur de R est suffisamment
élevée, estimer le point que peut avoir un infirmier qui a le double de la moyenne de
l’année (Utiliser alpha à 95%)
46 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)

Résultats Nombre
d’années
60 3
65 4
70 6
67 6
75 5
75 6
80 8
78 7
85 10
82 5

Exemple2
Une application importante de l’analyse de la régression en comptabilité concerne
l’estimation des coûts et en utilisant la méthode des moindres carrés pour estimer
l’équation de la relation entre ces deux variables, un comptable peut estimer le coût
associé à une opération de service presté de l’hôpital. Considérez l’échantillon suivant
de quantités produites et de coûts de prestations
Effectifs des malades traités Coût total ($)
400 4000
450 5000
550 5400
600 5900
700 6400
750 7000

QUESTIONS
-calculer le coefficient de détermination. Quel est le pourcentage de la variation du coût
total expliqué par le prestation de service ?
-Utiliser ces données pour estimer l’équation de la régression qui peut servir à prévoir
le coût total de la prestation des malades
-Quel est le coût variable par unité servis ?
47 Cours de Statistique Descriptive
45h Par DUNIA MASTAKI JeanPhD

2023
(Statistique Descriptive)
-l’hôpital prévoit de servir 500 malades les mois prochain. Quel est le coût estimé de
cette opération ?
Ex4 : on veut savoir si le temps de l’opération d’une maladie par un médecin est fonction
de nombre d’année dans le service, pour juger le fait ont sélectionne un nombre des
médecins soumit à la même condition, dont voici les résultats,
Temps mit par le Nombre d’année de Temps mit par le Nombre d’année de
médecin pour service médecin pour service
terminer l’opération terminer l’opération
de l’appendicite (en de l’appendicite (en
minute) minute)
43 9 18 16
13 15 13 15
45 8 40 8
12 17 32 17
56 5 66 5
65 6 45 7
45 11 45 11
30 12 30 10
60 8 60 8
45 9 45 9
34 11 34 7
56 6 56 6
68 5 68 3
70 4 70 4
45 10 45 8
56 9 13 15
18 11 69 5
26 10 65 4

Vous aimerez peut-être aussi