STATISTIQUE DESCRIPTIVE 2022-2023
REPUBLIQUE DEMOCRATIQUE DU CONGO
ENSEIGNEMENT SUPERIEUR ET UNIVERSITAIRE
INSTITUT SUPERIEUR DE DEVELOPPEMENT ET
ENTREPRENARIAT DE KYAVIRIMU
ISDEKY/KYONDO
NOTES DU COURS
DE STATISTIQUE
DESCRIPTIVE
Propriétaire : …………………………………………………………..
Facilitateur :
CT KAMBERE MWANGAZA Matama
Tel : +(243)997294423
+(243)893074898
E-mail : [email protected]
Année Académique : 2022-2023
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 1
STATISTIQUE DESCRIPTIVE 2022-2023
INTRODUCTION GENERALE
La statistique a été initialement conçue pour besoin de dénombrement,
d’inventaire, de recensement… Notre époque est marquée par une masse
d’informations de tout genre. Avec le temps, la statistique est devenue un
moyen d’analyse et de compréhension des phénomènes. La personne de
science ne se limite pas à des accumulations des faits et d’opinions
objectives, mais elle tend de chiffrer les phénomènes qu’il observe, les
résume, en tire des lois quantitatives pour mieux les comprendre.
Ainsi, la faim, la pauvreté des millions d’êtres humains, la persistance
des conflits et des guerres, la malnutrition, les soins primaires, la pharmacie,
la délinquance juvénile, l’inflation, la mortalité, le chômage, etc. sont autant
des problèmes auxquels les gouvernements doivent trouver des solutions.
Ces problèmes sont des catégories objectives. Ils peuvent être observés puis
analysés afin de trouver l’ordre naturel ou l’ordre matériel qui détermine leur
fréquence. Pour le décideur, l’homme de sciences, le chef d’entreprise,
l’autorité politico-administrative, et le praticien en général, il est donc
indispensable de saisir les faits, de découvrir les lois qui guident leur
comportement, et d’utiliser cette connaissance pour prendre des meilleures
décisions dans l’avenir. C’est ainsi que dans toute organisation la fonction la
plus importante du (des) responsable (s) est de prendre des décisions. Pour
prendre des décisions judicieuses et rationnelles, il faut avoir l’information. Ce
n’est pas pour rien que la presse est considérée comme le 4 ème pouvoir ; c’est
pour montrer l’importance de l’information.
Pour une grande organisation (entreprise), il faut une grande quantité
d’information ; avoir accès à toute une gamme d’information dans le monde
qui évolue constamment, n’est pas chose aisée. Au lieu de se fier sur son
intuition, son savoir-faire ou aux observations personnelles, le responsable
(éducateur, pasteur, infirmier, médecin) chercheur doit s’appuyer sur un
système d’information bien structuré qui lui permettra d’intégrer le plus grand
nombre des données.
Comme la demande pour l’information s’accroît, il est plus que jamais
nécessaire d’exprimer l’information sous forme numérique plutôt que sous
forme qualitative. Pour interpréter, décrire et analyser ces données
numériques il a été mis au point, un ensemble des techniques pour pouvoir
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 2
STATISTIQUE DESCRIPTIVE 2022-2023
arriver à cette fin. L’ensemble de ces méthodes et techniques constitue la
science appelée LA STATISTIQUE.
La statistique est une méthode générale, elle s’applique à des
domaines très variés. Elle concerne tout le monde, tous ceux qui doivent
prélever, présenter, analyser, utiliser une information. Ses domaines
d’application sont : la politique, l’histoire, la musique, les sciences du
comportement, la médecine, la pharmacie, la sociologie, la planification,
l’agronomie, l’économie, la théologie, la démographie… C’est une méthode
ou une technique auxiliaire à d’autres sciences expérimentales ou humaines
dans lequel le chercheur est confronté à une masse des données. Les
techniques statistiques lui permettent de mettre de l’ordre dans le désordre
apparent.
OBJECTIFS DU COURS
Ce cours vise à donner aux étudiants une base en statistique afin de
les aider à décrire et à comprendre davantage les phénomènes étudiés dans
leur domaine.
A la fin de ce cours l’étudiant qui l’aura suivi régulièrement et
attentivement devra être capable de :
- Décrire statistiquement les phénomènes rencontrés dans sa démarche
scientifique : procéder à la collecte des données, résumer ces données
par les paramètres ou indicateurs,- présenter des tableaux et des
graphiques afin de faciliter l’interprétation ;
- Prendre certaines décisions à propos d’une population soit à partir de
l’observation et/ ou l’analyse d’un échantillon, soit à partir de l’émission
d’un certain jugement qui la concerne. Puisqu’il s’agit essentiellement
de prise de décision dans l’incertitude, l’étudiant devra maîtriser les
concepts probabilistes et les distributions ou lois des probabilistes. (Cfr.
Tables statistiques) ;
- Affronter et comprendre le contenu du cours de statistique II ;
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 3
STATISTIQUE DESCRIPTIVE 2022-2023
Prérequis
Pour bien affronter et comprendre ce cours de statistique, il faut avoir
une base solide en mathématiques. En effet, la statistique est une partie des
mathématiques appliquées. En plus, il faut savoir utiliser les calculatrices
scientifiques et connaître les dessins pour les graphiques.
CHAPITRE I : NOTIONS DE BASE
I.1. HISTORIQUE ET IMPORTANCE DE LA STATISTIQUE
Bien que l’avènement de la statistique à tant que science soit récent,
des traces d’une activité statistique régulière peut être retrouvées à des
périodes plus lointaines. Les Babyloniens, les Romains, les Égyptiens, les
Chinois, les Hébreux (cfr 4e livre de la Bible « Les nombres ») sont connus
pour avoir organisé des recensements de la population. Ainsi peut-on lire
dans l’Evangile de Luc les lignes qui suivent :
En ce temps-là, l’empereur Auguste César publia un décret qui
ordonnait le recensement de tous les habitants de l’Empire. Ce recensement,
le premier du genre, eut lieu à l’époque où Quirinus était gouverneur de la
province de Syrie. Tout le monde allait se faire recenser, chacun dans la
localité dont il était originaire. C’est ainsi que Joseph, lui aussi, partit de
Nazareth et monta de la Galilée en Judée, à Bethlehem, la ville de David. Il
s’y rendit pour se faire recenser avec Marie, sa fiancée, qui attendait un
enfant. Luc 2 : 1-5 Bible du Semeur.
Cet extrait de la Bible révèle qu’à cette époque si lointaine, un seigneur
ressentit la nécessité de connaître le nombre exact de ses sujets et la
répartition de ceux-ci par province (région) d’origine. Cette information avait
certainement servi à l’empereur romain pour lever les impôts, estimer le
nombre de soldats qu’il pouvait mobiliser dans chaque région, et en somme
évaluer l’étendue de ses possessions. Les gouvernements n ‘ont pas cessé
d’avoir les mêmes préoccupations. C’est ainsi que dans toute société
organisée qui veut rester maître de son propre destin, les données sur les
prix, la production agricole, la production industrielle, la mortalité, les
accidents de circulation, les maladies, les enseignements et d’autres
variables sont régulièrement collectées, organisées, puis interprétées enfin
de saisir les interrelations entre les variables, et de planifier pour le futur.
Chaque individu dans une telle société fera l’objet d’une saisie
statistique à différentes étapes de sa vie (naissance, mariage, procréation,
rupture de mariage, décès).
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 4
STATISTIQUE DESCRIPTIVE 2022-2023
Ce n’est que vers le 17e et 18e siècle que les méthodes statistiques se
sont développées avec le concours des calculs de probabilités qui ont fait
évoluer la statistique du stade descriptif au stade d’induction ou d’inférence
statistique.
Quelques auteurs peuvent être retenus dans le développement de cette
science statistique : Blaise Pascal, Bernouilli, Laplace, Gauss, Deparcieux,
Student, Karl Pearson, Poisson, Newton, Mendel, Galton, etc. …
Avec le développement de l’informatique, la statistique se trouve,
aujourd’hui, à la base de la plupart des techniques scientifiques dans
nombreuses recherches en sciences économiques, en Médicine, en
Psychologie, en Pédagogie, et partout en sciences sociales.
Ainsi par exemple dans la recherche médicale, la vérification de
l’efficacité d’une nouvelle pratique médicale ou d’un nouveau produit
pharmaceutique fait largement usage des tests statistiques qui consistent à
décider si l’écart de performance entre deux groupes d’échantillon (l’un des
deux groupes étant le groupe de contrôle) est dû au hasard ou est l’effet de la
nouvelle pratique ou du nouveau médicament sur le groupe actif.
Dans le secteur de l’éducation, le contrôle de la qualité d’enseignement
dans une école ou établissement fait usage de la théorie de l’échantillonnage
et des divers tests statistiques qui sont enseignés dans le cours de statistique
mathématique ou inductive en licence. Dans le domaine théologique, la
statistique est la discipline qui permet de vérifier l’effet de l’évangélisation par
voie audio-visuelle par exemple. Les sociétés d’assurance utilisent les
statistiques pour calculer le montant des polices d’assurance. En politique,
les sondages d’opinion sont dans les Etats démocratiques modernes une
source d’information indispensable en période électorale.
I.2. DEFINITION DE LA STATISTIQUE
Selon le « Dictionary of scientificBiography » le mot statistique tire son
origine du mot allemand « statistik » qui fut imprimé pour la première fois en
1672 et qui signifiait « staattswisenschaft » c’est à dire la science des affaires
de l’Etat. C’est aussi vers la même époque que furent publiées les premières
études scientifiques de John Graund sur la mortalité des habitants de
Londres.
Il y a trois acceptions pour le terme statistique. La statistique est
l’ensemble des méthodes scientifiques visant à collecter, à organiser, à
résumer et à analyser des données pour en tirer des conclusions et en
prendre des décisions judicieuses.
Dans un sens plus restreint, on parle des statistiques pour désigner des
données (informations quantitatives ou qualitatives) ou les résultats obtenus
à partir des données comme par exemple les paramètres ou indicateurs.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 5
STATISTIQUE DESCRIPTIVE 2022-2023
C’est ainsi qu’on parle des statistiques de production, des statistiques de la
population, des statistiques médicales, statistiques d’emploi, statistiques
scolaires, des statistiques des chrétiens…
Il ne faut pas confondre la statistique comme science et les statistiques
comme données, informations ou résultats.
Une statistique signifie une quantité calculée à partir des données d’un
échantillon. Exemple 1 : la moyenne arithmétique, médiane, T de Student.
Les 1ères statistiques bien élaborées ont été celles des renseignements
démographiques. Ce fait a laissé des traces. C’est ainsi que le vocabulaire
statistique est essentiellement celui de la démographie. Les ensembles sont
appelés populations ; les éléments de la population sont des individus ou
unités statistiques.
La statistique comporte deux grandes branches :
- La statistique descriptive qui consiste à un traitement des données
qui a pour but de présenter, de résumer et/ou de décrire les
caractéristiques essentielles d’un ensemble des données numériques
pour en faire ressortir l’information. Elle concerne de séries statistiques
et analyse la population.
- La statistique inductive ou inférentielle ou mathématique concerne
des méthodes qui permettent de tirer des conclusions sur une
population à partir d’une information partielle provenant d’un
échantillon. La statistique inductive est une discipline récente dont
l’émergence a été favorisée par le développement de la théorie de la
probabilité dès le 19e siècle. Les deux pères de la statistique inductive
sont Karl Pearson (1857 – 1936) et Sir Ronald Aylmer Fischer (1890 –
1962). Karl Pearson est à l’origine d’importants concepts statistiques
tels que l’écart-type et le test de khi-carré et Ronald Fischer a inventé
l’analyse de la variance.
Ces deux branches de la méthode statistique sont liées. En effet avant
toute inférence statistique, il faut utiliser les méthodes de la statistique
descriptive pour organiser les données de l’échantillon et calculer les
mesures qui résument l’information recueillie.
Exemple 2 : Le SGAC de l’ISDEKY voudrait connaître l’âge moyen des
étudiants nouvellement inscrits dans toutes les options. Son premier choix
serait de demander au service des admissions, de demander que chaque
étudiant concerné fournisse son âge. L’âge moyen sera alors calculé à partir
des données collectées. Mais cette procédure est fort laborieuse et très
coûteuse. Le service des admissions pourrait obtenir cette information selon
une autre procédure moins coûteuse. Il pourrait prélever un échantillon c’est
à dire prélever un groupe d’étudiants par exemple 30 étudiants et calculer
l’âge moyen à partir des données de l’échantillon.
Raisonnant du particulier au général (méthode inductive) le service pourra
alors considérer la moyenne de l’échantillon comme étant la moyenne de la
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 6
STATISTIQUE DESCRIPTIVE 2022-2023
population. Mais que signifie population ? Dans ce cas précis la population
est l’ensemble de tous les âges des étudiants de l’ISDEKY qui font l’objet de
l’étude demandée par le SGAC.
I.3. POPULATION ET ECHANTILLON
A. Population
La population, en statistique, désigne la totalité d’observations
individuelles appartenant à une aire définitivement spécifiées, limitée dans le
temps et dans l’espace et pour lesquelles on voudrait tirer des conclusions.
Exemple 3 :
- les différentes tailles des Congolais ;
- les âges des étudiants de l’ISDEKY;
- tous les fonctionnaires Congolais ;
- tous les chrétiens de la commune de Kyondo;
- tous les enfants âgés de 1-10 ans ;
- tous les arbres de la concession de la paroisse catholique
de KYONDO ;…
B. Echantillon
L’échantillon est l’ensemble d’un certain nombre d’observations
individuelles sélectionnées dans une population.
Exemple 4 : âges de quelques Congolais ; quelques chrétiens de la
paroisse de Bunyuka,...
Le processus consistant à observer chaque unité d’une population est
appelé RECENSEMENT. Nous devons signaler que la population
statistique est la population d’étude ou l’univers d’étude tandis que, la
population cible est la population déterminée ou obtenue après triage de
tout ce qui ne peut pas apparaître dans l’étude. A partir de la population cible,
on peut tirer un échantillon ; pour que cet échantillon soit valable ou valide, il
doit être tiré au hasard, sinon l’échantillon sera biaisé.
I.4 VARIABLE STATISTIQUE OU CARACTERE
En sciences humaines, les données varient d’une expérience à une
autre. Cette variabilité est due à l’imperfection de la mesure et à la différence
entre les objets. Ces résultats ne sont pas reproductibles. Leur variation n’est
pas prévisible. Ex. Soumettons les étudiants de L1, L2 à une épreuve de
statistique ; les résultats de deux auditoires seront différents au sein d’un
même auditoire, les résultats des étudiants seront variables. Ils peuvent
varier de 0 à 18 au niveau du premier auditoire et peut-être de 4 à 12 au
niveau du 2ème auditoire.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 7
STATISTIQUE DESCRIPTIVE 2022-2023
Répétons la même épreuve aux 2 auditoires après 2 semaines, les
résultats seront différents des premiers. L’auditoire qui a mieux réussi à la 1 ère
épreuve peut avoir échoué à la 2ème épreuve.
Alors la question de la statistique descriptive est la suivante : comment
représenter globalement le résultat individuel différent. La variabilité (la
variable) est la matière première de la statistique.
La variable est un fait, une qualité, une quantité, une grandeur, une
propriété, un caractère susceptible de varier dans le temps et dans l’espace,
d’un individu à un autre c’est-à-dire qui peut revêtir diverses formes ou
différentes valeurs dans le sens d’augmentation, de diminution ou de
changement de nature.
La variabilité peut-être intra-individuelle et inter-individuelle. La variable
intra-individuelle (sur un même individu) est celle qu’on observe au court des
mesures répétées sur un même sujet ou individu. La variabilité inter-
individuelle est celle qu’on observe ou qui se lit dans la mesure sur les
individus différents.
Dans une étude statistique, l’attention se porte sur un ou plusieurs traits
particuliers à tous les membres ou unités de la population considérée. On
utilise l’expression variable statistique pour désigner ce trait ou ce caractère
déterminé. Les variables statistiques peuvent être de différentes natures :
mesures de trais physiques (taille, poids, …) caractéristiques du personnel
d’une institution ou d’une communauté (sexe, âge, état matrimonial, nombre
d’enfants à charge, ancienneté, salaire,…) etc.
Mais aussi une variable statistique peut présenter deux modalités
(variables dichotomiques) ou plusieurs modalités ou valeurs différentes et ces
variables peuvent être dichotomisées c’est-à-dire ces variables peuvent
prendre deux modalités. Par exemple, la variable « sexe » a deux modalités
(M,F), elle est dichotomique ; la variable «état matrimoniale » peut avoir 4
modalités (célibataire, marié, divorcé et veuf) mais elle peut être
dichotomisée en deux modalités seulement c’est-à-dire les données sont
transformés ou coupées arbitrairement en deux catégories pour décrire une
situation donnée (marié et célibat), en considérant que soit on est marié ou
soit on est célibataire (les divorcés peuvent être considérés comme
célibataires et que les veufs ont été, un jour, mariés) ; les variables âge et
taille ont plusieurs modalités.
Une variable statistique peut être qualitative ou quantitative. Elle est
qualitative si ses diverses modalités ne sont pas mesurables numériquement.
Par exemple les variables sexe, état matrimonial, profession, opinion
politique, etc.… Par contre, si ses diverses valeurs sont mesurables
numériquement, la variable est dite quantitative. Exemple 5 : Les variables
âges, poids, salaires, etc.…
De plus, une variable quantitative peut être discrète (discontinue) ou
continue. Elle est dite discrète si elle ne peut prendre que des valeurs isolées
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 8
STATISTIQUE DESCRIPTIVE 2022-2023
(le plus souvent entières). Exemple 6 : Nombre d’enfants dans une famille (3,
6,9…), nombre d’élèves d’une institution, nombre de chrétiens dans une
église, nombre d’offrande par semaine etc.
Par contre, elle est continue si elle est susceptible de prendre n’importe
quelle valeur dans un intervalle donnée. Exemple 7: la taille (1,65m), poids
(68,25kg), la température d’un corps (36,7), etc.
En général, les données continues s’obtiennent par des mesures et les
données discrètes par des dénombrements ou comptages
Suivant leur statut, les variables peuvent être : indépendantes,
dépendantes et interdépendantes. Une variable indépendante est celle dont
les variations entraînent des variations dans un autre phénomène ou dans un
autre variable appelé dépendante.
Ex 8 : Le prix (VD) et l’offre et la demande (VI) ; bavardage pendant le
cours (VI) et échec (VD) etc. donc il existe entre ces deux variables une
relation de cause (VI) à effet (VD).
Deux variables sont dites interdépendantes quand elles sont placées
toutes les deux sur le même pied d’égalité. Il existe entre ces deux variables
une relation d’interdépendance ou de corrélation.
Ex 9. Le nombre de qualifiés en médecine augmente et le nombre des
décès augmente (nous ne pouvons pas dire que l’augmentation des
médecins qualifiés augmente le nombre des décès) ; le nombre d’église qui
augmente et le péché augmente (nous ne pouvons pas dire que
l’augmentation des nombres d’église entraîne l’augmentation du péché).
I.5 UNITE STATISTIQUE – NIVEAU DE MESURE D’UNE VARIABLE
STATISTIQUE
L’unité statistique est l’entité élémentaire qui est l’objet d’une étude
statistique : quelle que soit sa nature, cette entité est appelée unité statistique
si elle peut répondre à une définition précise. Cette entité élémentaire peut
être un être humain (un étudiant, un travailleur, …), un être vivant quelconque
(un animal, une plante, un microbe…) ou un objet inanimé (un rapport
d’impôt, un bilan, un produit, une industrie, une ville…). Cette unité statistique
peut changer selon la variable.
Pour mener une étude statistique, il faut choisir le niveau de mesure qui
est déterminé par un ensemble des règles qui permettent d’attribuer les
modalités ou des valeurs ou traits ou caractère que l’on essaie de mesurer.
Conventionnellement on distingue 4 niveaux ou échelles de mesure :
1. L’échelle nominale : Elle se caractère par l’usage des valeurs (symboles
numériques pour représenter les modalités de la variable, ces symboles
aident seulement à regrouper les unités de la population en différentes
classes sans idée d’ordre ou de distance entre ces classes. En fait,
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 9
STATISTIQUE DESCRIPTIVE 2022-2023
l’usage de cette échelle vise plus l’identification plutôt que la mesure. Dans
le cas de l’échelle de mesure nominale, un code numérique ou peut être
utilisé. Exemple 11 : catégorisation des étudiants selon les humanités
faites ou selon l’état matrimonial, ou soit selon l’appartenance religieuse
etc.
2. L’échelle ordinale : elle est caractérisée par l’utilisation des symboles
numériques pour représenter les modalités de la variable. Ces symboles
permettent de regrouper les unités de la population en différentes classes
mais aussi définir un ordre entre ces classes.
Exemple 12 : - Préférence des étudiants quant aux options organisées par
l’UAC
- l’influence d’un leader dans un groupe
- Chaque client attribue une note au service d’accueil d’une
banque, « excellent », bon, mauvais etc….
Ces données ont des propriétés nominales, de plus elles peuvent être
ordonnées en fonction de la qualité du service.
3. L’échelle d’intervalle ou cardinale : elle permet de regrouper les unités
de la population en différentes classes et de définir un ordre entre ces
classes mais aussi de déterminer l’intervalle entre les différentes
classes. L’utilisation d’une échelle d’intervalle implique l’existence d’unités
de mesure reparties uniformément sur l’échelle. La température, la
vitesse, les résultats d’un test d’aptitude intellectuelle etc.
4. L’échelle de rapport : en plus des caractéristiques des échelles
précédentes, cette échelle implique l’existence d’une vraie valeur zéro
comme point d’origine, ce qui signifie que rien n’existe pour la variable au
point zéro. Les variables comme le temps, le poids, la longueur, le revenu
peuvent être traité selon ce type d’échelle.
Il existe un ordre entre ces diverses échelles de mesure : lorsqu’on passe
successivement de l’échelle nominale à l’échelle ordinale, ensuite à l’échelle
d’intervalle et finalement à l’échelle de rapport, on va de l’échelle la plus
grossière à l’échelle la plus fini. D’une manière générale, plus le niveau de
mesure d’une variable est fin plus le nombre de techniques statistiques
disponibles pour analyser des données relatives à cette variables sera élevé.
Il importe donc de demeurer conscient du type de données traitées afin de
respecter les limites que chaque niveau de mesure importe quant aux types
de techniques statistiques utilisables.
TP1 : a) Enumérer 2 variables qualitatives, 2 variables
quantitatives continues, 2 variables quantitatives discontinues, 2 variables
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 10
STATISTIQUE DESCRIPTIVE 2022-2023
indépendantes, 2 variables dépendantes, 2 variables dichotomiques et 2
variables dichotomisées.
b) Donnez l’exemple d’une échelle nominale, d’une
échelle ordinale, d’une échelle métrique d’intervalle et d’une échelle métrique
de rapport.
NB : Les exemples seront en rapport avec le domaine d’étude et ne
citez pas les exemples vus à l’auditoire.
I.6 LA METHODE STATISTIQUE
Elle comporte essentiellement trois phases :
- La phase matérielle où il s’agit de rassembler les données ; de les grouper
et de les présenter sous forme de tableaux ou graphique.
- Une phase analytique qui consiste à réduire les données à un nombre
limité de paramètres susceptibles de décrire la ou les séries statistiques.
Ces deux 1ères phases constituent l’objet essentiel de la statistique
descriptive.
- Une phase interprétative qui est la base de la statistique inductive et qui
permet de déduire des résultats obtenus sur un échantillon des
conclusions relatives à l’ensemble de la population d’où est prélevé
l’échantillon.
I.7 LES DONNEES STATISTIQUES
Il y a deux catégories des données : les données primaires et les
données secondaires.
Les données primaires sont celles collectées pour un but précis par ou
pour les auteurs d’une étude statistique. Le meilleur exemple des données
primaires est celui d’un recensement de la population.
Ces données sont collectées pour fournir une information précise et elles
sont supposées répondre aux spécifications préalablement définies par
l’utilisateur.
Les données secondaires sont celles collectées par une autre source
que l’utilisateur et très souvent pour répondre à des préoccupations
différentes à celles de l’utilisateur.
C’est notamment le cas des données collectées par divers services publics
pour des raisons purement administratives mais qui peuvent être utilisées
dans des études statistiques. Les données secondaires devraient être
utilisées avec grand soin car elles pourraient ne pas fournir l’information
exacte recherchée.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 11
STATISTIQUE DESCRIPTIVE 2022-2023
1.7.1. La collecte des données
La collecte des données c’est le relevé méthodique de la valeur d’un
caractère commun aux membres d’une population. On entend par données
statistiques des valeurs numériques qui peuvent être soit directement les
valeurs que l’on a associées aux modalités ou valeurs observées pour une
variable statistique. Ainsi les données statistiques seront nécessairement des
valeurs numériques.
Si la variable observée dans la population est quantitative, les données
statistiques qui en découlent peuvent être simplement des valeurs prises par
cette variable. Par contre, lorsqu’on a affaire à une variable qualitative, les
modalités que prend la variable ne sont pas mesurables numériquement ;
dans ce cas, on peut associer à chacune des modalités prises par la variable
au cours d’un processus d’observation soit un nombre de fois que cette
variable a pris telle modalité au cours du processus. Dans ce derniers cas, ce
sont alors ces fréquences qui peuvent être constituées comme données
statistiques.
Parfois l’ensemble des données statistiques obtenues en observant une
population est appelé série statistique. En considérant ces données en
fonction de la façon dont elles caractérisent les unités d’une population dans
le temps, on a des données statistiques des mouvementset de données
statistiques de structures. Les données des mouvements indiquent de quelle
façon une variable statistique évolue en fonction du temps.
Par exemple la vente des articles scolaires au cours d’une année.
Une telle série des données statistiques de mouvement est souvent appelée
série chronologique. Par contre les données de structure caractérisent les
unités d’une population à un moment donné dans le temps. Par exemple
l’âge des individus.
Les données en coupe transversale sont celles collectées au même
moment contrairement aux séries temporelles qui sont données, collectées
sur plusieurs périodes de temps différentes.
Les données sont collectées suivant l’objectif de l’enquête et en tenant
compte de la qualité et de la quantité d’information, de la disponibilité des
enquêtés. Certaines méthodes sont utilisées pour la collecte :
A. Collecte des données primaires
1° Méthode d’observation scientifique
Cette méthode consiste à observer certaines unités de la population
pour savoir quelles sont les modalités ou valeurs prises par une variable
statistique. Il ne faut pas confondre l’observation scientifique lorsqu’il s’agit
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 12
STATISTIQUE DESCRIPTIVE 2022-2023
d’une expérience planifiée à l’avance dont on contrôle les conditions
d’observation.
Par exemple 13: on veut connaître les habitudes de remise des dîmes
dans une église. Une façon d’avoir des informations sur ce sujet consiste à
poster un observateur et à lui demander d’enregistrer les remises des dîmes
pendant une certaine période. Ce processus d’observation pourra peut-être
fournir des renseignements intéressants mais il ne s’agit pas dans ce cas
d’une méthode d’observation scientifique. Par ailleurs, pour obtenir des
renseignements qui seront probablement plus révélatrices des habitudes de
des chrétiens, on peut procéder à une expérience planifiée dont on contrôle
les conditions (observation scientifique) ; dans ce cas, on planifiera à l’avance
la façon de remise des dîmes, alors on pourra d’abord faire des séminaires et
voir la remise des dîmes avant et après le séminaire, ensuite faire une
comparaison et donner des conclusions soit pour dire par exemple que les
dîmes ont augmenté après le suivie des séminaires ; etc.
Pour recueillir les données statistiques, la méthode d’observation
scientifique s’avère en générale adéquate lorsque la population étudiée est
constituée d’objets inanimés. Cependant, lorsqu’on a à faire à une population
humaine, la quantité et le type d’information que l’on peut recueillir par
observation sont limités : en effet plusieurs types d’information ne peuvent
être obtenus qu’en interrogeant des individus, d’où l’importance de la
méthode du questionnaire.
2º Recensement et enquête par échantillon
Quand les données primaires sont collectées directement à partir de la
population, on parle de recensement.
Dans un recensement chaque élément de la population doit être compté ou
mesuré c’est le cas d’un recensement de la population, d’un recensement
des entreprises, d’un recensement des écoles ou des hôpitaux.
Il faut noter que dans la plupart des pays un recensement de la
population est organisé à des intervalles réguliers (généralement tous les dix
ans) et que tous les habitants (nationaux et étrangers) sont, par la loi, obligés
de se faire recenser.
L’organisation d’un recensement est une opération coûteuse en temps
et en ressources financières. Pour cette raison et pour bien d’autres les
statisticiens procèdent au tirage d’un échantillon et ils n’observent que les
éléments de cet échantillon.
Les données sont alors collectées au moyen d’une enquête. Mais
puisque l’information fournie par les données collectées sur l’échantillon est
censée refléter l’information qu’auraient fournie les données collectées sur la
population, il est indispensable que l’échantillon représente valablement la
population. Le tirage d’un échantillon doit répondre à cette exigence.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 13
STATISTIQUE DESCRIPTIVE 2022-2023
Représenter valablement la population signifie que l’échantillon doit être une
reproduction fidèle de la population à ce qui concerne ses caractéristiques
fondamentales (tendance centrale, dispersion, asymétrie).
Population Echantillon
Figure 1.1
Bien que la figure 1.1 soit une représentation forcée des choses, il faut
l’interpréter comme suit. L’échantillon a la même morphologie que la
population et la distribution de ses éléments est proche de celle de la
population. Pour qu’un échantillon soit un représentant de la population à
partir de laquelle il est tiré il doit remplir les conditions de deux lois
statistiques ci-après : la loi de la régularité statistique et la loi d’inertie de
grands ensembles.
- La loi de régularité statistique. Cette loi s’énonce de la manière suivante : un
ensemble raisonnablement large d’éléments tirés au hasard à partir de la
population aura en moyenne les caractéristiques de la population. Cette loi
comporte deux notions importantes :
L’échantillon doit être tiré au hasard. En effet il est indispensable que
chaque élément de la population ait la même chance d’être sélectionné.
En d’autres termes, il ne faut pas que certains éléments ou groupes
d’éléments de la population soient favorisés par rapport à d’autres.
En langage statistique on dirait qu’il ne doit pas y avoir de biais ou que
l’échantillon ne doit pas être biaisé ou encore que l’échantillon doit être auto-
pondéré c’est à dire que la probabilité, pour chaque élément de la population,
d’être choisi est unique et constante.
La taille de l’échantillon, c’est à dire le nombre d’éléments constitutifs
de l’échantillon doit être suffisamment large pour éviter que la moyenne
de l’échantillon ne soit affectée par quelques éléments anormaux.
Plus la taille d’un échantillon est élevé plus l’information fournie par
l’échantillon sera fiable.
- La loi d’inertie de grands ensembles. Cette loi découle de la loi de
régularité statistique.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 14
STATISTIQUE DESCRIPTIVE 2022-2023
Elle stipule que les grands ensembles sont plus stables que les petits
ensembles. Dans un ensemble, le mouvement des éléments a tendance à
se compenser, c’est à dire que quand certains éléments varient dans un
sens, d’autres éléments varient dans un sens opposé. Le plus d’éléments
il y a dans un ensemble, le plus de chances de compensation il y aura, et
par conséquent stable sera la mesure agrégée des éléments (par exemple
la moyenne).
Il y a deux types d’erreur que l’on peut commettre si l’on procède au
tirage d’un échantillon sans remplir les conditions de deux lois statistiques
précitées : les erreurs d’échantillonnage et les erreurs dues au biais.
Erreur d’échantillonnage
Par erreur d’échantillonnage, il faut attendre la différence entre une
valeur obtenue à partir de l’échantillon et la vraie valeur de la population.
L’erreur d’échantillonnage peut être contrôlé c’est à dire qu’elle peut être
minimisée, car elle dépend de la taille de l’échantillon et de la procédure de
sélection de l’échantillon. L’erreur d’échantillonnage est réduite si l’on choisit
l’échantillon au hasard et si la taille de l’échantillon est élevée.
Il faut noter que la vraie valeur de la population n’est généralement pas
connue, raison de plus pour que l’échantillon soit sélectionné avec prudence
en vue de minimiser tout écart entre la valeur vraie de la population et la
valeur obtenue à partir d’un échantillon.
Erreurs dues au biais
Les erreurs dues au biais résultent de plusieurs sources relatives à la
procédure de tirage de l’échantillon.
(1)Subjectivité dans la sélection : un biais est inévitablement introduit
chaque fois qu’un échantillon est choisi selon une procédure qui laisse libre
cours aux sentiments et préférences personnels de l’individu charger de tirer
l’échantillon.
(2) Substitution : on peut introduire aussi un biais dans un échantillon
en remplaçant un élément déjà choisi par un autre soit parce que le premier
élément est inaccessible soit parce qu’il est absent.
Ainsi par exemple dans une enquête dont l’unité d’observation est le chef de
ménage, il faut éviter d’interviewer une autre personne que le chef de
ménage si ce dernier est absent lors de la visite de l’enquêteur.
(3) Couverture partielle de l’échantillon : un biais peut aussi être
introduit si tous les éléments de l’échantillon ne sont pas couverts au moment
de l’enquête. Ceci est souvent le cas quand l’enquête est réalisée sous la
forme d’un questionnaire qui est soit expédié aux interviewés par la poste soit
déposer à leur domicile pour être collecté par la suite.
Dans ce cas, il est courant que certaines personnes ne remplissent pas le
questionnaire ou ne le rendent pas. Le taux de couverture de l’échantillon ou
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 15
STATISTIQUE DESCRIPTIVE 2022-2023
taux de réponse est donc un élément important pour apprécier la qualité d’un
échantillon.
(4) Utilisation d’une procédure de sélection moins rigoureuse du point
de vue statistique.
3º Méthode d’échantillonnage
Il y a deux catégories de méthodes d’échantillonnage: les méthodes
aléatoires et les méthodes non aléatoires.
A. Méthodes d’échantillonnages aléatoires
Les méthodes aléatoires sont celles qui sont basées sur la loi du
hasard. Il y a plusieurs méthodes d’échantillonnage aléatoire : le tirage
aléatoire simple, le tirage aléatoire systématique, le tirage aléatoire stratifié et
enfin le tirage par grappes.
A1. Le tirage aléatoire simple
Du point de vue théorique le tirage aléatoire simple est la meilleure
méthode d’échantillonnage car il garantit à chaque élément de la population
une meilleure chance d’être sélectionné.
Exemple 10 : Nous voulons obtenir d’information concernant l’utilisation
de l’ordinateur par 4000 enseignants dans le territoire Beni –Lubero. Il nous
faut tirer un échantillon de 200 enseignants. Comment pouvons – nous
sélectionner un échantillon par tirage aléatoire simple ?
Solution 1
- Nous obtenons la liste de noms de tous les 4000 enseignants et nous
arrangeons cette liste sur base d’un critère déterminé par exemple
l’ordre alphabétique.
- Nous attribuons un numéro à chaque nom : 0001, 0002,0003, ..., 4000.
- Nous inscrivons chacun de ces numéros sur un bout de papier que nous
plions par la suite.
- Nous mettons ce bout de papier dans une boite. Nous secouons la boite
et nous tirons les bouts de papier l’un après l’autre jusqu’à ce que nous
ayons tiré les 200 numéros qui formeront notre échantillon.
Il y a deux procédés pour effectuer le tirage :
- Tirage avec remise : chaque bout de papier tiré est replacé (remis) dans
la boite. Il va de soi que dans ce cas un bout de papier donné peut être
tiré plus d’une fois. Si telle éventualité se matérialisait ce numéro devrait
être négligé.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 16
STATISTIQUE DESCRIPTIVE 2022-2023
- Tirage sans remise : chaque fois qu’un bout de papier est tiré il n’est pas
replacé dans la boite.
Au terme de cette opération, nous aurons obtenus les 200 noms de
enseignants ou pasteurs que nous allons interviewer pour connaître la
proportion d’entre eux qui utilisent l’ordinateur pour l’enseignement.
Solution 2
Procéder au tirage d’un échantillon par la procédure décrite dans la
solution 1 peut être une opération laborieuse surtout quand la taille de
l’échantillon est élevée.
Une autre procédure consiste à utiliser une table statistique des
nombres aléatoires (voir en annexe).
- Nous obtenons la liste des noms de tous les 4000 enseignants et
nous arrangeons cette liste sur base d’un critère déterminé par
exemple l’ordre alphabétique.
- Nous attribuons un numéro à chaque nom : 0001, 0002, ..., 4000.
- Nous prenons une table des nombres aléatoires et choisissons une
direction pour la lire, par exemple de haut en bas et de gauche à
droite.
- Nous déterminons les chiffres que nous allons considérer. Les
nombres aléatoires publiés dans les tables statistiques ont parfois
plusieurs chiffres par exemple 5 chiffres. Dans le cas qui nous
concerne nous devons utiliser 4 chiffres.
- Nous choisissons au hasard un nombre à partir duquel nous allons
sélectionner (point de départ). Supposons que nous ayons choisi au
hasard 18804 comme étant le point de départ et que nous ayons
décidé de mouvoir vers le bas et de gauche à droite. Nous allons
sélectionner les 200 nombres compris entre 1 et 4000 dans l’ordre ci-
après : 1880, 0175, 3168, 2884, 0342, 0278, 2016, 2378, 1440, 0718,
...
Solution 3
On peut également utiliser un ordinateur ou une calculatrice
électronique pour générer les nombres aléatoires. Une calculatrice
électronique possède une fonction Ran # qui, à chaque touche, rend un
nombre aléatoire r compris entre 0 et 1. Ce nombre r peut être transformé à
un nombre entier C par la formule suivante :
C= A+(B-A+1) * r ou A+(B)r
où A et B sont respectivement la limite inférieure et la limite supérieure
de la population. Dans notre exemple A et B sont respectivement 1 et
4000. Par conséquent C= 1+ (4000)r C est arrondi par le bas.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 17
STATISTIQUE DESCRIPTIVE 2022-2023
Tableau 1 : Nombres aléatoires
R C C arrondi
0,071 285 0285
0,629 2517 2517
0,072 289 0289
0,871 3485 3485
0,126 505 0505
0,787 3149 3149
0,829 3317 3317
0,961 3845 3845
0,377 1509 1509
A2. Tirage aléatoire systématique
Le tirage aléatoire simple implique un effort énorme car chaque nombre
doit être tiré de manière aléatoire. Dans le tirage aléatoire systématique seul
le premier est tiré aléatoirement et pour la suite on tire successivement des
nombres à intervalle fixe. L’intervalle est calculé par la formule : Intervalle =
Taille de la population / Taille de l’échantillon
N.B Si le résultat n’est pas un nombre entier il faut arrondir par le bas.
Exemple 11 : en utilisant les mêmes données que dans l’exemple...
l’intervalle=4000/200 = 20.
Solution
- Nous choisissons un nombre compris entre 1 et 20 (les deux limites
incluses) à partir d’une table de nombres aléatoires ou nous la
générons à l’aide d’une calculatrice. Par exemple r=0,568 ; C= 12,36
arrondi à 12.
- A partir de la liste des enseignants classés selon un certain ordre (par
exemple ordre alphabétique), nous allons sélectionner chaque 20e
personne à partir de 12 pour obtenir : 0012, 0032, 0052, 0072, 0092,
00112, ...
A3 Tirage aléatoire stratifié
Dans les deux méthodes précédentes, l’échantillon est directement tiré
de la population. Mais ces méthodes ignorent l’existence des sous-groupes
au sein de la population et comportent le risque de voir certains sous-groupes
mal représentés.
Dans le tirage aléatoire stratifié, la population est d’abord divisée en
sous-groupes complètement séparés appelés strates. Un tirage aléatoire
simple ou systématique est alors exécuté dans chaque strate.
Exemple 12 : Le Recteur de l’UAC voudrait procéder à la modification
de l’horaire de manière à disposer suffisamment de temps pour les travaux
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 18
STATISTIQUE DESCRIPTIVE 2022-2023
pratiques. Il est supposé que les étudiants réagiraient différemment à cette
proposition selon les facultés.
Une étude est ainsi commandée pour recueillir l’avis des étudiants. Les
étudiants de l’UAC sont repartis par faculté comme suit :
Tableau 2 : Effectifs des étudiants par Faculté (2020 – 2021)
Faculté nombre d’étudiants
Philosophie 77
Education 69
Informatique de gestion 318
Communication 12
Développement 164
Génie civil 44
Génie informatique 16
Total 700
Les autorités académiques ont décidé d’affecter à l’étude des
ressources nécessaires pour interviewer 70 étudiants.
Solution
- Diviser la taille de l’échantillon à 7 strates. La méthode la plus
simple est celle d’une allocation proportionnelle qui divise
l’échantillon proportionnellement à la part de chaque strate dans
la population totale.
Tableau 3
Strates % de la population Taille de l’échantillon
dans chaque strate pour chaque strate
Philosophie 11 70 x 0,11= 8
Education 9,86 70 x 0,0986= 7
Informatique de gestion 45,43 70 x 0,454= 32
Communication 1,17 70 x 0,0117 = 1
Développement 23 70 x 0,23= 16
Génie civil 6,29 70 x 0,0629= 4
Génie informatique 2,29 70 x 0,0229 = 2
Total 100 70
- Pour la strate 1 (Philosophie), tirer un échantillon de 8 étudiants
soit par tirage aléatoire simple soit par tirage systématique sur
base de la liste des étudiants inscrits dans la Faculté de
Philosophie. Répéter l’opération pour les 6 autres filières.
Il faut noter que :
- La stratification de la population peut se baser sur des critères
variés ;
- L’allocation proportionnelle n’est pas l’unique méthode permettant
de diviser l’échantillon à plusieurs strates ;
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 19
STATISTIQUE DESCRIPTIVE 2022-2023
- Dans certains cas il est nécessaire de corriger les chiffres
résultant de l’allocation proportionnelle pour les strates les plus
petites afin d’améliorer leur niveau de représentativité.
A4. Tirage par grappes
Pour obtenir un échantillon soit par échantillonnage aléatoire simple,
soit par échantillonnage stratifié, il faut pouvoir lister toutes les unités de la
population. Dans certains cas, cette liste peut être difficile et même
impossible à obtenir pour diverses raisons. Si par exemple, il n’existe pas de
liste à jour de toutes les familles d’une ville quelconque, il serait difficile de
construire une telle liste. Pour contourner cette difficulté on peut alors recourir
à l’échantillonnage par grappes.
A cette fin, il faut d’abord subdiviser la population en sous-groupes
appelés grappes, il faut tirer ensuite un échantillon aléatoire de grappes dans
l’ensemble de ces grappes, enfin on observe tous les individus faisant partie
des grappes sélectionnées.
Ainsi, pour obtenir un échantillon aléatoire de familles dans une ville,
on commence par diviser la ville en quartiers (un quartier pouvant être défini
de plusieurs façons). Une fois cette subdivision effectuée, on choisit un
échantillon aléatoire de quartiers selon l’échantillonnage aléatoire simple ;
enfin dans les quartiers ainsi choisis, on observe chacune des familles qui y
restent.
En général, pour une taille d’échantillonnage donnée, l’échantillonnage
par grappes fournit une information moins précise que l’échantillonnage
aléatoire simple, mais cette diminution de l’information peut être compensée
par un coût beaucoup moins élevé.
B. Méthodes d’échantillonnage non aléatoires
Ces méthodes sont théoriquement supérieures, mais elles ont le
désavantage de résulter en des opérations fort coûteuses. Pour cette raison,
la méthode de quotas est souvent utilisée car elle est bon marché et
expéditive.
Méthodes des quotas
Cette méthode laisse à l’enquêteur la discrétion de sélectionner
l’échantillon au moment de la collecte des données. Comment peut-on
déterminer les quotas ?
La méthode la plus courante est l’allocation proportionnelle.
Exemple : Constituer un échantillon de 200 étudiants par la méthode de
quotas sur la base des critères de sexe et de religion tout en sachant que la
proportion d’hommes aux femmes dans la population sous étude est de trois
hommes pour deux femmes et la proportion des adventistes aux non
adventistes est de 5 pour 3.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 20
STATISTIQUE DESCRIPTIVE 2022-2023
Solution
Les quotas seront déterminés comme suit
1ère proportionnelle 2ème proportionnelle
Hommes 200 x 3/5 = 120 Hommes adventistes 120 x 5/8= 75
Hommes non adventistes 120 x 3/8=45
Femmes 200 x 2/5 = 80 Femmes adventistes 80 x 5/8= 50
Femmes non adventistes 80 x 3/8 = 30
4 º Préparation et organisation d’une enquête
Les activités pour l’exécution d’une enquête sont les suivantes :
A. Spécifications du problème pour la solution duquel l’enquête doit être
exécutée et définition des unités statistiques dans lesquelles les
données seront collectées.
La définition des unités de mesure est une étape cruciale car non
seulement elle résulte de la spécification du problème, mais en plus elle
permet une meilleure utilisation des données collectées.
Exemple : Dans une enquête sur la scolarisation des enfants à Bulengera, il
est prévu de collecter les données sur le revenu familial. Comment peut-on
définir le revenu ? S’agit-il du revenu de tous les membres du ménage ou du
seul revenu du chef de ménage ? S’agit-il du revenu mensuel ou du revenu
annuel ?
Les unités de mesure doivent répondre à un certain nombre de
critères :
- Elles doivent être clairement définies et ne doivent faire l’objet d’aucune
interprétation subjective par les enquêteurs sur le terrain.
- Elles doivent être homogènes.
- Elles doivent être les plus appropriées pour exprimer l’information désirée.
B. Identification de la population. Cette étape est incontournable surtout si
l’on adopte une méthode d’échantillonnage aléatoire qui exige que l’on
dispose d’une liste exhaustive et actualisée de tous les sujets de la
population.
C. Choix de la méthode d’échantillonnage. Ce choix dépend de deux
facteurs importants : le coût (argent et temps) et le niveau de précision
recherché.
D. Détermination de la taille de l’échantillon : Bien qu’il existe des formules
statistiques pour calculer la taille optimale de l’échantillon, en pratique il
est bien souvent question de rechercher une solution équilibrée entre le
coût et le niveau de précision.
Selon Slovin, la taille de l’échantillon peut être obtenue par la formule
suivante : n=N/1+N(0.05)2 et si ce résultat est supérieur à 10% de la
population, il y a lieu de recourir à n révisé qui est nr = n/(1+n/N) dont
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 21
STATISTIQUE DESCRIPTIVE 2022-2023
n = taille de l’échantillon ; nr = n révisé ; N = taille de la population ; 0,05 =
précision souhaitée.
E. Elaboration du support matériel de l’enquête :
Il s’agit ici de faire d’abord le choix entre le questionnaire et l’interview.
Les deux formats se ressemblent en ce qu’ils consistent à formuler des
questions et à énoncer des instructions concernant l’interprétation des
questions et le mode d’enregistrement des réponses. Mais ils diffèrent parce
que le questionnaire est rempli par la personne enquêtée en l’absence de
l’enquêteur alors que pour l’interview personnelle le formulaire de l’enquête
est directement rempli par l’enquêteur. Chacun de ses formats a ses
avantages et ses inconvénients.
Questionnaire Interview
Avantages Inconvénients Avantages Inconvénients
Méthode moins Taux de réponse Taux de réponse Risque d’un biais
coûteuse bas élevé dû à l’enquêteur
Possibilité de Risque d’un biais dû Meilleure L’enquêteur peut
tirer au fait que seules compréhension être tenté de
l’échantillon sur les personnes des questions car substituer des
une zone disposant de temps l’enquêteur peut enquêtés (en cas
géographique libre répondent au fournir des d’absence par
plus étendue questionnaire explications exemple).
supplémentaires. Introduisant ainsi
un biais grave
Pas de biais dû Personne ne peut L’enquêteur peut Certaines
à l’interprétation aider l’enquêté à vérifier certaines personnes
de l’enquêteur répondre aux réponses par enquêtées
questions observation seraient gênées
visuelle, par pour répondre à
exemple certaines
questions
La personne Risque de recevoir L’enquêteur Méthodes plus
enquêtée des réponses dispose de coûteuses
dispose de erronées suffisamment de
suffisamment temps pour
de temps pour collecter plus
répondre d’information
Pour la composition des questions, il faut tenir compte de considération ci-
après :
- Veiller à ce que les questions ne soient pas ambiguës et qu’il y ait
suffisamment d’espace prévu pour noter la réponse.
- Ne pas poser des questions qui exigent de trop longues réponses.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 22
STATISTIQUE DESCRIPTIVE 2022-2023
- Ne pas composer des questions selon une formulation qui pousse les
répondants à répondre d’une certaine manière prédéterminée. Eviter donc de
poser des questions dont la formulation pourrait influencer la réponse
Exemple : pourquoi préférez-vous la machine de marque SHARP au
contraire : Quelle marque de machine préférez-vous ? Et pourquoi préférez-
vous cette marque ?
L’interview doit essayer d’être le plus neutre possible.
- Utiliser le questionnaire le plus court possible. On ne pose que les questions
essentielles et les formuler de façon à permettre une réponse rapide.
- Ne pas poser des questions qui exigent du répondant qu’il procède à des
calculs.
- Ne pas poser des questions qui poussent le répondant à se fier à sa
mémoire.
- Veiller à ce que les questions à choix multiples soient dotées de
suffisamment d’alternatives.
- Poser des questions claires : les questions doivent être formulées de façon
à ce qu’il n’y ait pas de doute dans l’esprit du répondant sur ce qui est
demandé.
Exemple: avez-vous un emploi actuellement ? Il y aura un problème
pour les étudiants qui sont dans le programme Travail-Etude, les
temporaires, … Exemple :
- Quel est votre état matrimonial : M…C… D… V…
- Est-ce que vous possédez une machine Oui ou Non
Si oui, quelle marque possédez-vous ? La marque
- Ordonner soigneusement les questions : il faut commencer par les
questions qui identifient le répondant et passer ensuite aux questions
les plus importantes
- Eviter les questions qui pourraient indisposer ou choquer : il faut éviter
donc les questions trop directes portant par exemple sur le revenu, la
moralité, la religion.
- Eviter de poser des questions dont la formulation pourrait influencer la
réponse.
TP2 : Former des groupes, choisissez un sujet, déterminer la population
et sélectionner l’échantillon selon votre domaine d’étude et montrer la
procédure d’échantillonnage.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 23
STATISTIQUE DESCRIPTIVE 2022-2023
CHAPITRE II : PRESENTATION ET TRAITEMENT DES DONNEES
STATISTIQUES
2.1. DEPOUILLEMENT DES INFORMATIONS OU OBSERVATIONS
Avant de procéder à toute analyse statistique il y a une étape
préalablement essentielle qui consiste justement à dépouiller les données ou
les informations recueillies et les ranger. On entend par rangement des
observations, la façon dont les observations de la série numérique sont
rangées par valeur non décroissante.
Exemple : dans une étude portant sur la performance des étudiants
dans le cours de statistique on a obtenu la liste de côtes de 30 étudiants
inscrits en 1ère année Communication et Philosophie.
40 45 36 42 36 53
30 38 36 44 46 58
44 36 39 40 32 38 série numérique
46 52 54 31 35 37
39 40 54 35 52 54
Observations rangées
30 31 32 35 35
36 36 36 36 37
38 38 39 39 40
40 40 42 44 44
45 46 46 50 52
52 53 54 54 54
Le groupement de ces observations rangées en classes dans
lesquelles on indique par un trait vertical chaque observation appartenant à
sa classe s’appelle dépouillement des observations.
Pour chaque caractère étudié, on définit un certain nombre de classes
selon les modalités puis on fait la sériation ou le tri des observations c'est-à-
dire une séparation entre les classes. C’est le regroupement des données en
classes.
Une distribution d’effectifs ou une distribution statistique est un tableau
dans lequel sont représentées toutes les valeurs possibles que peut prendre
une variable statistique :
Il est souvent de pratique courante de dépouiller les observations par
bloc de 5 en marquant d’un trait oblique ou horizontal un ensemble des 4
traits horizontaux déjà noté. La somme, ensemble des nombres de traits
appartenant à chaque classe donne la fréquence de cette classe :
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 24
STATISTIQUE DESCRIPTIVE 2022-2023
Classes Dépouillement ou Fréquences Fréquences
calcul des fréquences absolues relatives
30 < x 35 /// 3 0,1
35 < x < 40 //////// / 11 0,37
40 < x < 45 //// / 6 0,2
45 < x < 50 /// 3 0,1
50 < x < 55 //// // 7 0,23
2.2. PRESENTATION DES DONNEES
Les données obtenues au moyen d’un recensement ; d’un échantillon
ou d’une expérience consistent en un ensemble de valeurs numériques non
organisées, avant leur utilisation ; elles doivent être mises en ordre afin d’en
extraire l’information pertinente.
2.2.1 TABLEAUX STATISTIQUES
Un des concepts fondamentaux en statistique est celui de distribution
de fréquences : une distribution d’effectifs ou distribution statistique est un
tableau dans lequel sont représentées toutes les valeurs possibles que peut
prendre une variable statistique.
x = variable statistique
xi = valeurs de la variable x (peuvent être groupées en classe)
où i : indice.
Le nombre d’observation dans une classe est appelé effectif de la
classe et il est noté ni. Le nombre total de toutes les observations ; de toutes
les classes porte le no, d’effectif total ou taille noté N ou n.
n : taille de l’échantillon ou effectif total ; N : taille de la population
k
n=∑ ni
i=1
ni = effectif de la classe ou fréquence absolue.
ni
La proportion N est la fréquence relative de xi notée fi. L’intervalle de
classes défini comme l’ensemble de toutes les valeurs situées entre deux
vraies limites consécutives d’une classe.
La distribution des fréquences (ou fréquences relatives) d’une variable
ni
fi=
statistique x est une fonction qui à chaque valeur xi de la N
Comme les valeurs d’une variable sont à la fois exclusives et
exhaustives, la somme des effectifs ou fréquences ni est égale à l’effectif
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 25
STATISTIQUE DESCRIPTIVE 2022-2023
total n de l’ensemble de ou encore la somme des fréquences relatives fi est
∑ fi=1
égale à l’unité c-à-d∑ ni=n et i=i
Exemple 1 : voici la distribution de l’état matrimonial pour un échantillon
de 50 hommes : variable qualitative
Etat matrimonial Fréquence (ni) Fréquence relative fi
M 20 0.4
C 15 0.3
D 8 0.16
V 7 0.14
Total 50 1
Exemple 2 : Distribution des âges de 60 étudiants de G1 ; variable
quantitative
Ages Fréquence (ni) Fréquence relation fi
ni
fi=
N
19 6 0.1
20 12 0.2
21 18 0.3
22 14 0.23
23 5 0.08
24 2 0.033
25 1 0.017
26 2 0.033
Total 60 1
Exemple 3 : - (TP2) collection des données sur les caractères suivants de 30
étudiants de l’ISP : noms, sexe, humanités faites, faculté suivie, âge, nombre
d’enfants par famille et dresser pour chaque cas un tableau des fréquences
et calculer les fréquences relatives. (par groupe de 4)
Distribution des fréquences pour les valeurs groupées
Lorsque la valeur est continue ou que la variable peut prendre un grand
nombre de valeurs différentes, même si celle-ci est une variable discrète, il
est impérieux de regrouper ces valeurs en classes. A chaque classe on fait
correspondre une fréquence absolue ou relative et l’on obtient alors la
distribution des fréquences ou des fréquences relatives pour valeurs
groupées.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 26
STATISTIQUE DESCRIPTIVE 2022-2023
Exemple : Les cotes des étudiants en statistique
Classes Fréquence Fréquence Fréquence cumulée
(Cotes des absolue relative (fi) (Fx)
étudiants) (ni)
30 – 34.9 3 0.1 0.1
35 – 39.9 11 0.37 0.47
40 – 44.9 6 0.2 0.67
45 – 49.9 3 0.1 0.77
50 – 54.5 7 0.23 1
ou 50 et plus
Total 30 1
Les nombres entre lesquels sont classées les observations ou valeurs
s’appellent limites de classes. Nous remarquons que l’intervalle entre 30 < x
< 35 ou 30 – 34.9 est de 5. C’est l’amplitude.
L’amplitude est l’écart qui existe entre les limites des classes (notée a).
Les classes peuvent avoir une amplitude constante ou variable et l’amplitude
des valeurs externes peut même être indéterminée (classes ouvertes).
Détermination du nombre de classes
Le choix du nombre des classes dépend de la précision désirée et
l’effectif total de l’ensemble statistique étudié. Un regroupement comportant
un nombre élevé de classes fera apparaître des irrégularités provenant des
faibles nombres d’unités par classe, alors qu’un nombre trop restreint de
classes, conduit à une perte d’informations. Il n’y a pas de règle absolue pour
déterminer le nombre de classes. Ce choix est guidé par le souci d’obtenir
une bonne représentation de l’ensemble des données collectées. Le nombre
de classes dépend surtout du nombre de données traitées. Pour des
ensembles de données relativement restreints n 200, il semble
recommandable de choisir entre 7 et 15 classes, mais cette règle n’a rien
d’absolu. Si l’on dispose de n observations ou données, on peut prendre
comme nombre de classes √ n ou encore 1+3,3 log n = k (nombre de classes)
Règle de STURGES.
Par souci de simplicité, il est fréquent de recourir à des classes
d’égales amplitudes et d’arrondir les valeurs extrêmes de classes.
Pour la détermination de l’amplitude de chaque classe, il faut d’abord
calculer l’étendue de la série qui est la différence entre la plus grande et la
plus petite valeur dans la série.
E = Xman− X min
Où X max= la grande valeur dans la série
X min= la petite valeur dans la série
E= étendue
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 27
STATISTIQUE DESCRIPTIVE 2022-2023
E
a=
k où a = l’amplitude
E = étendue
K = nombre de classes
E
a=
Pour certains auteurs k−1
Comme la valeur de a sera rarement un nombre entier, il faut arrondir
au plus grand ou au plus petit entier.
Distribution des fréquences relatives cumulées
On appelle fréquence cumulée que l’on note F(x), la proportion des
valeurs prises par la variable x considérée, qui sont inférieures ou égales à x.
La distribution des fréquences relatives cumulées d’une variable statistique x
c’est une fonction qui à chaque valeur Xi de la variable X fait correspondre sa
fréquence relative cumulée F(x) et mathématiquement pour l’exemple des
cotes des étudiants (cfr page 25).
0 si x 30
0,1 si 30 x 35
F(x)=
0,47 si 35 x 40
0,67 si 40 x 45
EXERCICE
Soient les données suivantes se rapportant à la rémunération des 50
enseignants. Les valeurs sont en dollars US.
35 64 72 48 42 43 43 52 47 27 66 42 38
30 40 46 62 78 41 37 56 78 21 72 46 76
36 36 49 70 76 20 39 59 79 46 59 60 25
50 37 39 64 33 36 23 43 20 56 45
T.D.1 : - Faire le dépouillement et calcul des fréquences
- Déterminer le nombre de classes et l’amplitude
- Déterminer les fréquences relatives et relatives cumulées.
20 20 21 23 25 27 30 33 35
36 36 36 37 37 38 39 39 40
41 42 42 42 43 43 45 46 46
46 47 48 49 50 52 56 56 59
59 60 62 64 64 66 70 72 72
76 76 78 78 79
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 28
STATISTIQUE DESCRIPTIVE 2022-2023
Il faut déterminer l’étendue E=79-20= 59
Le nombre de classes peut être fixé selon une des règles mentionnées
k= 1+3,3logn= 1+3,3log50 = 6,6¿ 7
59
a= =8
7
Salaires Calcul des Fréquences Fréquences Fréquences
fréquences absolues relatives relatives
ou ni/N cumulées
dépouillement croissantes
20 – 27,99 //// / 6 0,12 0,12
28 – 35,99 /// 3 0,06 0,18
36 – 43,99 //////// //// 15 0,3 0,48
44 – 51,99 ////III 8 0,16 0,64
52 – 59,99 //// 5 0,1 0,74
60 – 67,99 //// 5 0,1 0,84
68 et plus //// /// 8 0,16 1
50 1
On pouvait aussi utiliser les signes d’inégalités pour réécrire ces
classes et l’on aurait :
20 x < 28
28 x < 36
:
:
68 et plus.
Il n’y a donc pas de façon unique de définir les classes : avant tout il
faut s’assurer que les limites choisies sont claires et ne prêtent pas à
confusion. Une fois les limites des classes fixées, on dénombre la fréquence
dans chaque classe.
Même s’il n’est pas nécessaire que les classes soient d’égale
amplitude, cela est souvent préférable pour les calculs qui vont suivre.
Cependant, il existe des situations où l’on a des bonnes raisons de recourir à
des classes d’amplitudes inégales et à des classes ouvertes cfr. Ex ci haut.
(TP3) Collection des données relatives à l’échantillon de l’âge de 100
membres de l’église Reine des Anges de Bunyuka pour les étudiants de G1et
la collection de l’échantillon de l’âge de 100 élèves de l’institut Bunyuka pour
ceux de G2.
Travail demandé:
- A partir de la population, utiliser une des méthodes vues au cours pour
trouver l’échantillon de 100 personnes ;
- Former des classes à partir des données quantitatives de votre
recherche.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 29
STATISTIQUE DESCRIPTIVE 2022-2023
2.2.2 LA PRESENTATION GRAPHIQUE
La synthèse d’une distribution statistique peut s’opérer de 2 façons
complémentaires :
- une synthèse par image, en construisant les graphiques ;
- une synthèse par chiffres, en calculant les paramètres caractéristiques.
La traduction par images d’informations chiffrées peut revêtir une
infinité des formes plus ou moins fidèles à la réalité. Le graphique est
consacré à l’étude visuelle d’informations quantitatives ou qualitatives.
Diverses méthodes de représentation sont concevables : diagrammes en
bandes (horizontales soit verticales), diagrammes en secteur ou angulaire,
diagramme figuratif, diagramme polaire, diagramme en barre ou en bâton,
nuage de points, diagramme de LEXIS et pyramides des âges, courbe de
concentration de LORENTZ inscrite dans le carré de GINI, courbe de
chronique, histogramme et polygone de fréquences, ogives de GALTON,
diagramme triangulaire etc.
A. Caractère qualitatif
1) Diagramme en bandes
Au-dessus de chaque modalité on élève un rectangle de longueur
proportionnelle à l’effectif (fréquence) correspondant.
Ex. Voici la distribution de la population congolaise active selon le
domaine d’activité :
Fréquence (ni) Fi=ni/N
Agriculture et artisanat 107 0,5
Commerce 35.105 0,175
Services 3.106 0,15
Employés 35.105 0,175
20.106 = N 1
50
40
30
fi%
20
10
0
Domaine d'activité
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 30
STATISTIQUE DESCRIPTIVE 2022-2023
2) Diagramme en secteurs ou circulaires
C’est une autre façon de représenter les fréquences relatives des
données qualitatives. On divise le cercle en secteur proportionnel aux
différentes fréquences relatives des catégories considérées. Pour cela, il faut
calculer l’angle au centre de chaque secteur au moyen de la formule
Nbre de degré
Exemple : Le rapport des inscriptions à l’UAC pour l’année 2020-2021
fait ressortir les données suivantes :
ni Fi en % Degré
Philosophie 40 16,7% 600
Psychologie 70 29,2% 1050
Gestion info 120 50% 1800
Génie 10 4,16% 150
240 100% 3600
Genie
Philosophie
Gestion info
Psychologie
3) Diagramme figuratif
Ces diagrammes sont construits à l’aide des figures (bateaux,
automobiles, sacs de blé …) de grandeurs variables proportionnelles aux
grandeurs représentées ou bien à l’aide de figures de même taille ( une sorte
d’étalon de mesure) que l’on reproduit un certain nombre de fois en
proportion avec les grandeurs représentées.
Ex : Comparer à l’aide de diagrammes figuratifs les productions en café
de 2 pays. La production du Congo 200.000t et celle de l’Uganda est de
50.000t.
Où sont
RDC
RDC Uganda
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 31
STATISTIQUE DESCRIPTIVE 2022-2023
Les diagrammes figuratifs sont surtout employés dans les revues
comme graphiques publicitaires pour fins de comparaison, et sont de peu
d’intérêt en statistique car ils fournissent des approximations assez
grossières.
B. Caractère quantitatif
Les modes de représentation qui suivent sont tous destinés à illustrer la
distribution de fréquences ou la distribution de fréquences relatives (non
cumulée ou cumulée) d’une variable statistique quantitative.
1) Diagramme en bâtons
Le diagramme en bâtons se prête bien à la représentation de la
distribution de fréquences d’une variable discontinue (discrète) qui prend un
nombre restreint de valeurs.
Sur l’axe des abscisses, on représente les valeurs xi de la variable
(caractère) x et sur l’axe des ordonnées les effectifs ou fréquences (ni, fi) ou
encore les fréquences en % (fi %), on élève ensuite sur chaque valeur xi un
bâtonnet ou un segment dont la hauteur est égale à la fréquence ni ou fi
correspondante à cette valeur.
En reliant les sommets des bâtonnets, on a un polygone de fréquences.
Ex : dans un échantillon de 40 familles, on a prélevé les données ci-
après :
Nbre de garçon xi Nbre de familles ni ni
0 7 7
1 10 17
2 9 26
3 8 34
4 4 38
5 2 40
40 familles
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 32
STATISTIQUE DESCRIPTIVE 2022-2023
ni
1
2
3
Nbrede familles
4
5
6
7
8
9
0 1 2 3 4 5
Nbrede garçons
xi
10
2. Ogive de Galton ou courbe des fréquences cumulées
Sur l’axe des abscisses on représente les valeurs des caractères et sur
l’axe des ordonnées on représente les effectifs cumulés. Ces 2 organes se
n
coupent au point médian des coordonnées x =valeur médiane, 2 ou 50 %.
Les ogives pour les valeurs quantitatives descriptives sont en escalier.
Eff cumulés croissant et décroissant
5
--
10
--
15
-
20
-
25
- -
30
Le point médian
=2
35
- -
40
0 0 1 2 3 4 5
Nbrede garçon/famille
L’intérêt du graphique de fréquences cumulées est de connaître
combien d’individus possèdent un caractère d’une valeur inférieure ou
supérieure à une certaine limite.
L’ogive croissant s’appelle aussi courbe de fonction de répartition.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 33
STATISTIQUE DESCRIPTIVE 2022-2023
3) L’histogramme
L’histogramme est le mode usuel de représentation graphique d’une
distribution de fréquences avec valeurs groupées (cas d’une variable
continue ou d’une variable discrète avec un grand nombre de valeurs
différentes)
Autrement dit, l’histogramme est une représentation graphique de la
distribution des fréquences et est constitué de rectangles juxtaposés dont
chacune des bases est égale à l’intervalle de chaque classe et dont la
hauteur est telle que la surface soit proportionnelle à la fréquence absolue ou
relative de la classe correspondante.
Ex : Reprenons l’exemple des côtes des étudiants.
ni fi
30 < x < 35 3 0.1
35 < x < 40 11 0.37
40 < x < 45 6 0.2
45 < x < 50 3 0.1
50 < x < 55 7 0.23
Côtes des étudfiants Côtes des étudfiants
12 0.4
10 0.3
8
fi
0.2 Series1
ni
6 Series1
4 0.1
2 0
0 30 -35 35 -40 40 -45 45 - 50 50 -55
30 -35 35 -40 40 -45 45 - 50 50 -55
xi
xi
4) Polygone des fréquences
Le polygone des fréquences permet de représenter la distribution de
fréquences sous forme de courbe. Il est obtenu en joignant le milieu de
sommet à chaque rectangle de l’histogramme.
On crée pour ce fait deux classes fictives, une au début et une autre à
la fin sur l’axe des ordonnées ou des abscisses.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 34
STATISTIQUE DESCRIPTIVE 2022-2023
Si on fait subir à ce polygone une sorte de polissage, on obtient une
courbe lisse que l’on appelle COURBE DES FREQUENCES ou COURBE
D’OGIVE.
fi
0,4
0,3
0,2
//
0,1
303540455055xi
5) Le graphique à ESCALIER
Exemple nbre des garçons dans 40 familles
Nbrede garçon xi Nbrede famille ni fi F(x)
0 7 0,175 0,175
1 10 0,25 0,425
2 9 0,225 0,65
3 8 0,2 0,85
4 4 0,1 0,95
5 2 0,05 1
fi
40 1
0,4
0,3
0,2
//
0,1
012345xi
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 35
STATISTIQUE DESCRIPTIVE 2022-2023
Avec fréquences cumulées
F(x)
0,75
0,5
//
0,25
012345x
6) Le Diagramme polaire
Les diagrammes polaires ou graphiques à coordonnées polaires sont
établis à partir d’un point appelé pôle ou centre de rotation. Les coordonnées
polaires sont souvent utilisées pour la représentation des phénomènes
chronologiques càd des phénomènes qui évoluent dans le temps. Il faut bien
sûr, donner au graphique le sens de rotation. Lorsqu’on représente des
variations mensuelles, le graphique comporte alors 12 rayons faisant entre
eux des angles de 30º partant du centre de rotation et correspondant aux 12
mois de l’année. Ainsi, une année est une rotation complète.
Ex : Soit la production en centaine de dollars dans une église pendant 2 ans.
M J F
oi
s M A M J J O S O N D
1e 1 1 1 1 2 1 2 2 2 1 2 2
re 5 2 6 5 0 3 2 5 0 8 0 2
2e 1 2 1 1 2 1 2 2 2 2 1 1
8 0 7 5 0 9 0 3 5 0 5 8
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 36
STATISTIQUE DESCRIPTIVE 2022-2023
J
F
M
A
M
J
J
O
S
O
N
D
Joignons ensuite dans l’ordre, les points obtenus. Cette représentation
polaire prend approximativement une forme d’une spirale. Pareille
représentation est surtout intéressante lorsque les observations statistiques
sont faites à intervalles réguliers dans le temps (observations horaires
mensuelles, trimestrielles) et lorsque les phénomènes observés se fait
toujours ou presque toujours, dans le même sens (croissant ou décroissant).
La représentation polaire permet aussi de mettre en évidence les
influences saisonnières.
C. Représentation graphique des séries chronologiques
Les séries chronologiques représentent les variations d’une variable à
travers le temps. Elles sont généralement représentées par des graphiques
avec le temps sur l’axe des abscisses et les valeurs de la variable sur l’axe
des ordonnées.
Exemple 1 : Tracez le graphique représentant l’évolution du chiffre
d’affaires d’une limonaderie. Les données des ventes figurent au tableau ci-
après :
Année C.A (millions
de Fc)
1989 1000
1990 1182
1991 1463
1992 1425
1993 1933
1994 1937
1995 2180
1996 2200
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 37
STATISTIQUE DESCRIPTIVE 2022-2023
Chiffres d'affaire
2500
2000
1500
CA
Series1
1000
500
0 1989
1990
1991
1992
1993
1994
1995
1996
Année
La représentation graphique des séries chronologiques permet de se
faire une idée sur les tendances de la variable sous étude à travers le temps.
Ainsi par exemple, pourra-t-on dire à partir de la simple visualisation du
graphique que « l’évolution de la variable X a été modérée » ou que
«l’accroissement de X s’est accéléré à partir de telle année ». Il est aussi
courant que l’on représente les valeurs de plus d’une valeur et que par
conséquent l’on compare le comportement des variables représentées.
D. Autres types de représentations graphiques
a) Diagramme en colonnes
90
80
70
60
50 East
West
40
North
30
20
10
0
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Le diagramme à colonnes peut aussi être tracé de manière horizontale.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 38
STATISTIQUE DESCRIPTIVE 2022-2023
4th Qtr
3rd Qtr North
West
2nd Qtr East
1st Qtr
0 10 20 30 40 50 60 70 80 90 100
b) Diagramme circulaire
1st Qtr
2nd Qtr
3rd Qtr
4th Qtr
c) Diagramme à barres
100%
80%
60%
North
40% West
20% East
0%
1st 2nd 3rd 4th
Qtr Qtr Qtr Qtr
Exercices
1. Les enfants sont classées d’après la durée écoulée entre la date du
mariage de leurs parents et la date de leur naissance. Les observations faites
sont consignées dans le tableau suivant :
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 39
STATISTIQUE DESCRIPTIVE 2022-2023
Année Nbre d’enfants Année Nbre d’enfants
1 91 7 37
2 72 8 32
3 60 9 26
4 52 10 25
5 45 11 20
6 40
Ce tableau doit être compris de la façon suivante : dans la population
étudiée 91 enfants sont nés pendant la première année de mariage de leurs
parents, 72 enfants sont nés pendant la deuxième année de mariage etc.
Questions :
a) En traitant le caractère « nombre d’années » comme un caractère
discontinu présenter un tableau où figureront : les mesures prises par le
caractère, les effectifs correspondants, les effectifs cumulés croissants, les
effectifs cumulés décroissants, les fréquences relatives cumulées
croissantes, les fréquences relatives cumulées décroissantes
b) Donner la signification du nombre écrit à l’intersection de :
- la ligne « année 5 » et de la colonne « effectifs ni » ;
- la ligne « année 8 » et de la colonne « effectifs cumulés croissants » ;
- la ligne « année 2 » et de la colonne « effectifs cumulés décroissants » ;
-la ligne « année 5 » et de la colonne « fréquence fi »
- la ligne « année 6 » et de la colonne « fréquence cumulée croissante »
- la ligne « année 11 » et de la colonne « fréquences cumulées
décroissantes ».
2. Répartition des naissances des enfants suivant l’âge de la mère
Age de la mère (en années Nbre d’enfants
révolues)
Moins de 20 ans 28600
20 à 24 227600
25 à 29 227100
30 à 34 172600
34 à 44 110900
45 et plus 2378
a)Dresser un tableau où figureront les classes d’âge, les effectifs, les
fréquences, et les effectifs cumulées, croissants et décroissants. On notera
que les âges sont donnés en années révolues. En conséquence, par
exemple, la classe « 20 à 24 » signifie « 20 à 25 », etc., l’âge étant une
variable continue.
b) Présenter l’histogramme des effectifs
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 40
STATISTIQUE DESCRIPTIVE 2022-2023
c) Représenter les deux polygones cumulatifs sur un même repère.
NB. On retiendra 15 ans et 55 ans comme bornes respectivement
inférieure et supérieure du domaine de variation de la variable « âge de
la mère ».
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 41
STATISTIQUE DESCRIPTIVE 2022-2023
CHAP 3 : MESURES CARACTERISTIQUES D’UNE VARIABLE
STATISTIQUE
Dans le chapitre précédent, comme 1ère étape pour résumer
l’information contenue dans des données brutes, on a construit des
distributions de fréquence et de fréquence relative aussi que diverses
représentations graphiques de ces distributions. De ces distributions et de
leurs graphiques on peut déduire certaines tendances ou caractéristiques de
l’ensemble des données brutes : on peut identifier approximativement le point
autour duquel les valeurs de la variable sont concentrées, voir dans quelle
mesure les valeurs sont dispersées, voir si la courbe représentant la
distribution est symétrique ou non. Cependant, toute cette information reste
encore plus ou moins imprécise et subjective. Comme 2è étape pour résumer
davantage l’information contenue dans les données brutes, on veut définir
maintenant des indices mathématiques permettant de mesurer objectivement
certaines tendances ou caractéristiques de l’ensemble de données. On
cherche donc à résumer l’ensemble statistique par quelques valeurs
numériques caractéristiques.
C’est ainsi que l’on va caractériser la distribution ou série statistique
au moyen des nombres représentatifs de l’ensemble du phénomène appelé
valeur typique ou Paramètre caractéristique.
3.1. MESURES (PARAMETRES, CARACTERISTIQUES) DE TENDANCE
CENTRALE OU DE POSITION
Les paramètres de position indiquent globalement où se situent
principalement les valeurs prises par la variable statistique. D’après YULE et
KENDALL (1937,1968), une caractéristique doit remplir 6 conditions pour qu’il
puisse être représentatif de la valeur globale d’un ensemble de données :
- Etre strictement défini et non laissé à l’appréciation de l’observateur :
objectivité
- S’appuyer sur toutes les observations effectuées
- Etre facilement compréhensible : sa nature doit s’imposer à l’esprit
- Etre peu sensible que possible aux fluctuations d’échantillonnage
- Pouvoir se prêter au traitement algébrique
- Etre facile à calculer ou à déterminer.
3.1.1 Les moyennes
A. La moyenne arithmétique ( X )
- Distribution simple (non groupée en classes)
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 42
STATISTIQUE DESCRIPTIVE 2022-2023
X
La moyenne arithmétique notée d’une série statistique X1, X2…..Xn
est la somme des valeurs de la série divisées par leur nombre N.
n
X 1 X 2 .... X n Xi n
X
N
X i 1
N
ou 1
N Xi
i 1
Exemple : calculer la moyenne arithmétique de taille de 8 étudiants
donnée en cm : 161, 173, 168, 165, 171, 166, 158, 162
X 1 6 1 1 7 3 1 6 8 1 6 5 8 1 7 1 1 6 6 1 5 8 1 6 2 1 382 4 1 6 5 ,5 cm
Si certaines valeurs du caractère sont observées plusieurs fois, elles
doivent être comptées autant de fois qu’elles ont été observées. Cela revient
à pondérer chaque valeur du caractère par l’effectif qui lui correspond.
n n
ni xi 1
n
n 1 x 1 n 2 x 2 .... n n x n
X p N ou i xi
i 1 N N i 1
On peut également utiliser les fréquences relatives
ni
fi donc X p fi X i
N
Ex. soit une série statistique présentant les âges de 22 écoliers :
10,11, 7, 11, 14, 7,10, 9, 12, 8, 13, 15, 10, 9, 11, 12, 9, 8, 11, 10, 11, 13.
xi ni nixi
7 2 14
8 2 16
9 3 27
10 4 40
11 5 55 Quel est l’âge moyen ?
12 2 24
13 2 26
14 1 14
15 1 15
n x 231
i i
n
1 231
x
N
xn
i 1
1 i
22
10 ,5 ans
Ex2 : Soient les cotes de l’étudiant SADIKI ainsi que les nombres des
crédits y afférents
Branches cotes xi crédits ni nixi fi fixi
Math 13 3 39 0,3 3,9
Stat 14 3 42 0,3 4,2
Psych 10 2 20 0,2 2
Civisme 12 2 24 0,2 2,4
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 43
STATISTIQUE DESCRIPTIVE 2022-2023
N=10 n i x i 1 2 5 Moyenne =12,5
Par souci de simplification, on peut aussi réduire la valeur de variable
par changement d’origine. Cette façon nous permet de calculer la moyenne
arithmétique x dite moyenne auxiliaire.
n
1
x
N
ni xi xo
i 1 oùxo est une valeur arbitraire préalablement choisie.
Ex1 : Cas de la série des âges de 22 écoliers X0 = 7
Xi ni (Xi-Xo) ni ( Xo-Xo)
7 2 0 0
8 2 1 2
9 3 2 6
10 4 3 12
11 5 4 20
12 2 5 10
13 2 6 12
14 1 7 7
15 1 8 8
n=22 77
77
x x x o 3 ,5 7 10 ,5 ans X
22
3 ,5
- Distribution groupée en classes
Lorsque, pour une variable, on dispose seulement d’une distribution de
fréquences avec valeurs groupées, la façon de procéder pour calculer la
/
moyenne consiste à utiliser pour chaque classe i une valeur X i représentant
l’ensemble des valeurs de cette classe. Si l’on pose l’hypothèse que
l’ensemble des valeurs sont uniformément reparties à l’intérieur des classes,
/
il est alors justifié d’utiliser le point milieu X i ou Xc comme valeur
représentant l’ensemble des valeurs de la classe. Ainsi donc la valeur
centrale d’une classe ou centre des classes est la somme des limites de
chaque classe divisé par 2.
Lorsqu’on veut calculer la moyenne X (ou d’autres caractéristiques)
d’une distribution avec valeurs groupées comportant des classes ouvertes, il
faut, avant de faire les calculs, faire des hypothèses sur les amplitudes
potentielles de ces classes ouvertes de façon à pouvoir les considérer
comme fermées.
X
nx i c
Ainsi donc N
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 44
STATISTIQUE DESCRIPTIVE 2022-2023
Exemple : Calculer la X des dîmes mensuels de 75 églises des
quelques stations dans l’Association Nord-Kivu.
Classe Points milieu fréq nixi
215 - 234,99 225 4 900
235 - 254,99 245 6 1470
255 - 274,99 265 13 3445
275 - 294,99 285 22 6270
295 - 314,99 305 15 4575
315 - 334,99 325 6 1950
335 - 354,99 345 5 1725
355 – 374,99 365 4 1460
75 21795
X
n x i c
21795
2 9 0 ,6 0 $
N 75
Il y a lieu de simplifier le calcul en utilisant la méthode de changement
d’origine et d’unité. Cette méthode est appelée méthode du codage ou
méthode codée. Elle n’est utilisée que dans le cas de série continue, aussi
dans le cas où les calculs peuvent ne pas être de nombres entiers. Ainsi la
X o ni d i
X a
moyenne arithmétique sera calculée par la formule : N où
Xi Xo
di
a
a : l’amplitude
Xo : valeur choisie arbitrairement
Ex : des dîmes dans 75 églises.
Si Xo = 225
ni di n id i
4 0 0
6 1 6
13 2 26
22 3 66
15 4 60
6 5 30
5 6 30
4 7 58
75 ∑ = 246
Propriétés de la moyenne arithmétique
1º La moyenne de déviation des valeurs d’un ensemble et la moyenne
arithmétique de cet ensemble est égal à 0.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 45
STATISTIQUE DESCRIPTIVE 2022-2023
(x
i 1
1 x) 0
2º La somme des carrés des déviations entre chacune des valeurs d’un
ensemble et une valeur xo est minimale lorsque cette xo est la moyenne
(x 1 x ) 2 ( x i x o ) 2 , si x o x
arithmétique de l’ensemble, c-à-d i i
On peut écrire x i x 0 ( x i x ) ( x x o )
En élevant les 2 membres de l’égalité au carré et en faisant la somme,
n
( x1 x ) 2 ( xi x ) 2 n ( x - x o ) 2
on obtient i 1 i 1
Quelques avantages de la moyenne comme indice global
- Elle est définie, facilement interprétable et aisée à calculer
- Elle se prête aux traitements algébriques
- Elle met en jeu les valeurs de toutes les données
- Elle est la même dans les échantillons extraits d’une même population,
aux fluctuations dues au hasard près.
Inconvénients de la moyenne
- Elle est fort influencée par les données extrêmes (un élève qui a remis
une feuille blanche fait artificiellement diminue la moyenne d’une
classe).
- Elle perd sa signification quand certaines données sont indifférentes.
Par exemple zéro en dictée peut être une donnée indifférenciée ; il
pèse le même poids dans la moyenne alors que les élèves qui n’ont
pas eu de points peuvent être de valeurs très différenciées.
- Elle n’a pas de sens si l’unité n’a pas le même poids sur toute l’échelle :
il faut que les nombres avec lesquels on calcule la moyenne soient des
données métriques.
- L’interprétation de la moyenne est moins évidente quand la distribution
n’est pas symétrique.
B. La moyenne géométrique
La moyenne Géométrique Mg ou G de n valeurs est égale à la racine
ième
n des produits de ces valeurs.
Pour une série non groupée
n
G n X 1 . X 2 ... X n = > G = n
X i
ou G = (x1 à x2 ………..xn)1/n
i =1
Soit la série suivante : les cotes d’un étudiant dans 6 cours sur 20 sont
les suivants : 12, 13, 18, 8, 15, 17.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 46
STATISTIQUE DESCRIPTIVE 2022-2023
G 6 12 .13.18 .8 .15.17 = 13,38
Par la méthode logarithmique
1
G
n
lo g x 1 lo g x 2 .... lo g x n
Log
1 n 1 n
( log x i ) 6 ,7 6
G
n
lo g x i
G 10 n i 1 lo g G
6
1,1 3
log i 1 ; ; G=101,13 =13,38
Pour notre cas
X : 12, 13, 18, 8, 15, 17
Log x : 1,08 ; 1,11 ; 1,26 ; 0,90 ; 1,18 ; 1,23 => ∑6,76
Pour une série groupée
n1 n2 nk k
G n x x 1 2
.... x k ou G = n
x ini
i =1
ou
n1 n 2 1
lo g G lo g ( x 1 . x 2 ... x ) 1 n 1 lo g x 1 n 2 lo g x 2 ... nk lo g xk
nk
n
k
n
1 k 1 n
G ni lo g xi ( ni log x i )
Log n i 1 G 10
n i 1
xi ni
3 4
2 3 6 ,5 6 G 7 2 .1 6
16 4
7
Quelques propriétés
- G satisfait aux conditions de réversibilité et transférabilité dans le calcul
des indices. Elle est recommandée lorsqu’il s’agit de mettre en
évidence l’influence des variations relatives plutôt que des variations
absolues.
- Elle intervient aussi dans le calcul des intérêts composés, taux de
croissance, calcul des indices etc. Elle intervient aussi dans les
problèmes d’interpolation et d’extrapolation.
Pn= Po (1+r)nPn = effectif de la population à l’année courante n
Po = effectif de la population à l’année initial o
N = nombre d’année ou périodes
r = taux d’accroissement annuel
- Le calcul de G n’est possible que pour une variable ne prenant que des
valeurs strictement positive. Dans tous les cas x G sauf lorsque toutes
les observations sont égales.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 47
STATISTIQUE DESCRIPTIVE 2022-2023
C. Moyenne harmonique (H)
La moyenne harmonique symbolisée par H d’un ensemble de n valeurs
est l’inverse de la moyenne arithmétique x des inverses des observations.
Pour une série non groupée
N N
H ou
1 1 1 n
1
...
x1 x 2 xn x
i=1 i
Soit une série de 5 nombres : 5, 4, 7, 2, 12
1 1 1 1 1
1,1 7 6
5 4 7 2 12
5
H 4 ,2 5
1,1 7 6
Pour une série groupée :
N
H k 4 ,2 5
ni
i 1 xi
H accentue l’influence des termes les plus faibles de la série. La H est
utilisée dans le traitement des données se présentant sous forme de rapport
et possédant des dimensions physiques (Km/h, coût au Km) et dans les
exemples relatifs au pouvoir d’achat.
D. La moyenne quadratique (Q)
La moyenne quadratique Q d’un ensemble de valeurs x1, x2, ……..xn est
définie par la relation suivante :
Pour une série non groupée
Q
x 2
i
NSérie simple.
Pour la série 1, 2, 3, 5, 7
1 2 3 4 5 7
2 2 2 2 2 2
Q 4 ,1 6
6
Pour une série groupée
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 48
STATISTIQUE DESCRIPTIVE 2022-2023
n
1
Q
n
n x
i 1
i
2
i
La Q accentue l’influence des termes les plus élevés de la série.
* Comparaison des différentes moyennes
De toutes les moyennes, c’est x qui rempli le mieux les conditions
définies par YULE et KENDALL.
Le principe de détermination des différentes moyennes, s’établit comme
suit :
La x concerne l’addition des xi
La G concerne la multiplication des xi
La H concerne l’inverse de l’addition des inverses des xi
La Q concerne l’addition de carré des xi
Par ailleurs, il est à noter les relations suivantes :
H< G<X <Q
~
3.1.2 La médiane ou le médian ( Me ou x )
La médiane d’une variable x est une valeur numérique que l’on note ~x
telle qu’il y a au plus 50% des valeurs de la variable qui lui sont inférieures et
50 % des valeurs de la variable qui lui sont supérieures. En d’autres termes,
le média est la valeur des caractères qui partagent en 2 l’effectif total. On
remarque que la distribution des fréquences relatives cumulées sera de
grande importance pour le calcul du media. 2 cas peuvent se présenter pour
son calcul.
A. Les données ne sont pas groupées en classes
Si les données ne sont pas groupées en classes, la médiane est la
valeur centrale d’une série d’observation lorsqu’elles sont classées d’après
l’ordre de grandeur c’est-à-dire de la plus petite valeur à la grande et vice-
versa.
1º Pour le nombre d’observations impaires
Lorsque le nombre d’observation est impair, la médiane est la valeur du
nombre du milieu. Soit la série suivante : 10, 6, 8, 8, 4, 3, 9, 5, 4
Il faut d’abord arranger la série selon l’ordre croissant ou décroissant.
3, 4, 4, 5, 6, 8, 8, 9, 10 Me = 6
2º Pour le nombre d’observations paires
Lorsque le nombre d’observation est pair la médiane est obtenue en
additionnant les 2 nombres du milieu et en divisant la somme par 2.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 49
STATISTIQUE DESCRIPTIVE 2022-2023
56
Me 5 ,5
Soit 3, 4, 4, 5, 6, 8, 8, 9 Me = 2
B. Les données groupées en classes
Dans le cas d’une série groupée, la médiane est encore le nombre qui
partage la série statistique en 2 parties égales c'est-à-dire l’effectif total de la
série en 2 parties égales.
N Où l -1 = la borne ou limite inférieure de la classe
F c1
Me l 2
contenant la médiane
c
1
fo
Fc
1 = Fréquence cumulée immédiatement inférieure à
( 0 ,5 0 F m e) c la classe médiane ou sommation de tous les
ou M e = LM e
1
fm e effectifs des classes inférieures à la classe
médiane
fo = La fréquence absolue dans le classe médiane
Ex : Revenons sur l’exemple des dîmes mensuelles de 75 églises de
quelques stations de l’Association Nord-Kivu.
Classes ni ∑ni fi F(x)
215 – 234,99 4 4 0,0533 0,0533
235 – 254,99 6 10 0,0800 0,1333
255 – 274,99 13 23 0,1734 0,3067
275 – 294,99 22 45 0,2933 0,6000 <=
295 – 314,99 15 60 0,2000 0,8000
315 – 334,99 6 66 0,0800 0,8800
335 – 354,99 5 71 0,0667 0,9467
355 – 374,99 4 75 0,0533 1,0000
N= 75 1
( 0 ,5 0 0 , 3 0 6 7 )
M e 275 2 0 2 8 8 ,1 8
0 ,2 9 3 3
N.B. La médiane est caractérisée par le fait qu’elle divise le nombre
d’observation en 2 parties, tant pour les données groupées et non groupées.
On peut graphiquement retrouver cette même valeur de la médiane. En effet
dans le polygone de fréquence relative cumulée, il suffit d’abord de tracer une
ligne droite horizontale à la hauteur de F(x) = 0,5 et ensuite, au point
d’intersection de cette 1ère droite avec la courbe de fréquences relatives
cumulées, de tracer une ligne droite verticale qui va couper l’axe x en un
point qui représente justement la médiane.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 50
STATISTIQUE DESCRIPTIVE 2022-2023
F(x)
_
0,8
// * * * * * * * * *
215 235 255 275 295 315 335 355 375 x
Me = 288,18
Autrement dit la médiane est la valeur x correspondant à la verticale qui
divise l’histogramme en 2 parties d’aires égales. L’avantage pour la pratique
de la médiane est qu’il n’est pas nécessaire d’avoir des statistiques
présentant d’intervalles égaux.
Propriétés de la médiane
- La médiane n’est pas influencée par les extrêmes et les cas aberrants.
- Elle est bien définie, facilement interprétable et aisée à déterminer.
- La médiane est une valeur typique dans beaucoup d’analyses
statistiques et économiques mais aussi en démographie dans les
problèmes se rapportent à des caractères qualitatifs comme par
exemple dans les tests psychotechniques.
Limites de la médiane
- Elle n’est pas calculée à partir de toutes les données.
- Elle ne se prête pas à des traitements algébriques.
- Les fluctuations dues au hasard entre les médianes de différents
échantillons extraits de la même population sont assez larges.
3.1.3 Le mode ou le dominant Mo ou X
Dans une série statistique où certaines caractères sont répétés
plusieurs fois, le mode est la valeur correspondant au plus grand effectif ou à
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 51
STATISTIQUE DESCRIPTIVE 2022-2023
la plus grande fréquence ; on l’appelle encore, la valeur la plus fréquentée
ou valeur dominante.
Dans une série groupée en classes, on appelle montante ou dominante
celle dont l’effectif est élevé. Le mode peut ne pas exister ou même s’il
existe, il peut être multiple, on distingue alors :
- La distribution bimodale ;
- La distribution plurimodale ou multimodale
Plusieurs procédés permettent d’estimer la valeur modale d’une série
statistique.
A) Estimation modale
Pour une série simple, le mode c’est la valeur qui s’est répété le plus
de fois. Pour une série groupée, une fois la classe dominante déterminée,
on peut calculer le mode de classe par une méthode d’interpolation qui
consiste à appliquer la formule ci-après :
1
M o LM o ( )c
1 2
Où LMo = la limite inférieure de la classe modale
∆1 = la différence entre la fréquence de la classe
modale et la fréquence de la classe
précédente
∆2 = la différence entre la fréquence de la classe
modale et la fréquence de la classe qui
suit
c = l’amplitude.
Pour le cas de dîmes des églises
( 2 2 1 3)
M o 275 2 0 2 8 6 ,2 5 $
( 2 2 1 3) ( 2 2 1 5)
B) Détermination du mode par la méthode graphique
ni
∆1
∆2
Mo X
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 52
STATISTIQUE DESCRIPTIVE 2022-2023
Propriétés
- Il est facilement interprétable et très aisé à déterminer mais moins bien
défini que la moyenne et la médiane : dans certains cas, une classe
peut avoir un effectif très légèrement supérieur à ses voisines et il peut
être délicat de décider s’il s’agit d’un mode ou d’un effet du hasard.
- Il n’est pas influencé par les extrêmes ni par les cas aberrants si ceux-ci
sont réellement exceptionnels.
- La recherche d’un mode peut mettre en évidence l’hétérogénéité d’un
groupe.
Ex : Taille des personnes (bantous & pygmées). Au niveau du mode on va
s’apercevoir qu’il en a 2 modes correspondants à chacune des 2
populations dont l’échantillon est extrait.
Limites du mode
- Il ne tient pas compte de toutes les données
- Il ne se prête pas aux traitements algébriques.
~
Relation entre X X et X
- Ces trois mesures de tendance centrale coïncident seulement si la
distribution de la variable est tout à fait symétrique.
ni
~
X X X
x
- Pour une distribution asymétrique étalée du coté positif, on a la double
~
inégalité suivante : X X X
ni
x
~ ^
Pour une courbe asymétrique étalée du coté négatif, on a : X X X
ni
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 53
x
STATISTIQUE DESCRIPTIVE 2022-2023
Parmi ces 3 mesures, X est sans doute la plus utilisée. Elle possède
l’avantage d’être bien définie mathématiquement et de se prêter facilement
aux manipulations algébriques, ce qui n’est pas le cas pour les autres
mesures. De plus, elle est moins affectée par les fluctuations
^ ~
d’échantillonnage que la X et X .
Remarque : X est plus affectée par les mouvements à hausse que
par les mouvements à la baisse. Pour remédier à cet inconvénient, on peut
lui substituer la moyenne géométrique. Par exemple, pour résumer une série
de rapports où l’on s’intéresse aux variations relatives, il convient d’employer
G. Aussi dans certains cas Mo = 3 Me – 2 X par approximation.
3.1.4. Autres mesures de position : les fractiles (Quartiles)
Contrairement aux autres mesures de position, avec les fractiles
(quartiles), on ne cherche pas nécessairement à déterminer le centre des
valeurs prises par une variable statistique mais plutôt à décrire une position
quelconque prise par ces valeurs.
Le fractile d’une variable statistique est une valeur numérique en bas
de la quelle repose une fraction donnée des valeurs prises par cette variable.
Ex : On cherche une valeur telle qu’il y ait 25 % des valeurs qui lui soient
inférieures : on parle alors du fractile d’ordre 0.25 ou du 1 er quartile. La
médiane est le fractile d’ordre 0.5, c.à.d celui qui partage une série statistique
en deux parties égales. On parle de quartile (il y en a 3 : Q1, Q2, Q3) les
fractiles qui partagent une série en dix parties égales s’appelle les Déciles, et
les Centiles ceux qui la partagent en cent parties égales.
De manière générale : le fractile d’ordre α (ou quartile d‘ordre α)
d’une variable x. C’est une valeur numérique que l’on note X α, o < α < 1, telle
qu’il y a au plus α % des valeurs de la variable qui lui soient inférieures, et au
plus ( 1 – α) % des valeurs de la variable que lui soient supérieures.
Dans le cas d’une variable statistique x avec valeurs groupées, pour
calculer Xα, on identifie grâce aux fréquences relatives cumulées Fc la classe
contenant Xα, par la suite on détermine la valeur précise de Xα, en recourant
à l’interpolation linéaire suivant :
F
x L x (
f x
1 x
)c
Où Lxα = La limite inférieure de la classe
contenant x α
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 54
STATISTIQUE DESCRIPTIVE 2022-2023
F x
1= la fréquence relative cumulée
immédiatement inférieure à celle de la Xα
Fxα = fréquence relative de la classe Xα
C = l’amplitude de la classe Xα
Pour le cas de l’exemple des dîmes :
0 .2 5 0 .1 3 3 3
x 0 . 2 5 ou Q 1 2 5 5 2 0 2 6 8 ,4 6
0 .2 0 0
0 .7 5 0 .6 0 0
x 0 . 7 5 ou Q 3 2 9 5 20 310
0 .2 0 0
3.2 LES MESURES DE DISPERSION OU DE VARIABILITE
Considérons les deux séries suivantes :
48, 49, 49, 50, 50, 50, 51, 51, 52 X 1 = 50, Me1 = 50 Mo1 = 50
et 10, 30, 30, 50, 50, 50, 70, 70, 90 X 2 = 50, Me2 = 50, M02 = 50
On remarque que ces 2 séries ont la même X qui est de 50, la même
Me = 50 et le même Mo = 50 ; pourtant elles sont différentes. Nous pouvons
conclure que les mesures de tendance centrale ou de position ne suffisent
pas pour bien caractériser une série statistique. On voit par exemple que les
valeurs de la 1e série sont plus concentrées autour des valeurs centrales
alors que dans la 2e série, elles sont plus dispersées. On sent la nécessité de
définir et de calculer des caractéristiques ou mesures qui permettent de
mesurer cette dispersion et ainsi de pouvoir mieux comparer les séries.
Le degré de dispersion des données autour d’une valeur moyenne est appelé
dispersion ou variation. Les principales mesures de dispersion sont :
- l’Intervalle de dispersion
- l’Ecart moyen
- l’Ecart réduit moyen
- l’interprétation semi-interquartile ou probable
- l’intervalle interquartile
- l’intervalle percentile
- la variation et l’Ecart type.
3.2.1. L’Etendue ou l’intervalle de variation
L’étendue d’une série statistique notée E est la différence entre la plus
grande et la plus petite des valeurs dans la série. L’étendue est donc une
mesure de dispersion facile à calculer mais n’est pas suffisante pour une
étude approfondie de la dispersion.
E = Xmax – Xmin
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 55
STATISTIQUE DESCRIPTIVE 2022-2023
Signalons que l’étendue est indépendante du nombre d’observation
dans l’échantillon. L’étendue est couramment utilisée en contrôle de qualité
pour apprécier juste la dispersion du procédé de fabrication.
3.2.2. Le semi interquartile ou Ecart probable
On définit l’interquartile comme la différence entre le 3e et le 1er quartile
QQ
3 1
Q
c’est-à-dire Q3 – Q1 ou Q0.75 – Q0.25 2
Pour le cas des dîmes
3 1 0 2 6 8 ,4 7
Q 2 0 ,7 7
2
En gros, on peut conclure que 50% des salaires s’écartent (en
moyenne) de la médiane de moins de 20,77 $.
3.2.3. L’écart moyen (écart absolu moyen)
Etant donné que les caractéristiques de dispersion ont pour but de
mesurer la concentration des valeurs observées autour d’une valeur centrale,
il est normal de calcul pour chaque valeur de la variable, sa distance par
rapport à cette centrale.
L’écart moyen que l’on note Ecm est la moyenne arithmétique des
écarts (distante en valeur absolue) entre chacune des valeurs de la variable
et la moyenne arithmétique.
Xi X 1 n
E cm Xi X
N
où n i 1
Si on a affaire à une distribution de fréquences avec valeurs groupées
n
1
E cm
n
ni X
i 1
c X
on aura alors :
Ex : Pour le cas des dîmes
Xc ni IXc- X I niIXc - X I
225 4 65, 60 262, 40
245 6 45, 60 273, 60
265 13 25, 60 332, 80
285 22 5, 60 123, 20
306 15 14, 40 216, 00
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 56
STATISTIQUE DESCRIPTIVE 2022-2023
325 6 34, 40 206, 00
345 5 54, 40 272, 00
365 4 74, 40 297, 60
75 1984, 00
1
E cm (1 9 8 4 ) 2 6 ,4 5
75
On peut donc conclure que la distance moyenne des valeurs prises par
la variable « dîme » autour de la moyenne X = 290,60 est égale à 26,45 $.
En cause de difficultés algébriques entraînées par l’utilisation des
valeurs absolues, on préfère habituellement utiliser l’écart type ou la variance
au lieu de l’écart moyen.
3.2.4. La variance et l’écart type
Nous savons que la somme de déviation entre les valeurs d’une
variable et leur moyenne arithmétique est nulle et que l’usage de la valeur
absolue entraîne des difficultés. Il est logique de considérer le carré de
déviation entre les valeurs d’une variable et sa moyenne arithmétique X et
l’écart type est la racine carrée de la variance.
Notation σ 2 pour la population, S2 pour l’échantillon.
n 2
1
n i X i X
S²
= n i 1 = S2 σ
En développant la formule de la variance, on aboutit à la forme suivante :
2
1 n
[ ( niX c2 )] X
n i 1 2
S²=
2
1 2
N
x i 2 x i
ni X
X
1 1 1
ni x nixi X ni
2 2
2X
N i
N N
1
nixi 2 2 X X
2 2
N
1
ni x X
2 2
2
N i
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 57
STATISTIQUE DESCRIPTIVE 2022-2023
(La formule la plus aisée)
Pour la variable « dîmes »
ni nixc2
1
S2 6 4 1 9 6 7 5 2 9 0 , 6 0 2
4 202500 75
6 360150
13 912925 = 114,30
22 1786950
15 1395375
6 633750
5 595125 σ =√ S 2 = 33,80
4 532900
75 6419675
Cette valeur 33,88 représente en quelque sorte une distance moyenne
de la variable « dîme » autour de sa moyenne X = 290,60 ; cependant,
comme on peut le constater, cette distance moyenne n’est pas exactement
équivalente à celle calculée par l’écart moyen 26,40. L’écart type s’exprime
dans la même unité de mesure que celle de la variable. Un écart type plus
faible exprime une dispersion plus petite et une concentration plus grande
autour de la moyenne arithmétique.
Utilisation conjointe de σ et X
Pour mieux caractériser une variable statistique x, il arrive souvent
qu’on utilise conjointement les 2 mesures caractéristiques les plus usuelles
X et S. Ainsi, pour faciliter la comparaison de plusieurs variables statistiques,
on utilise ou on calcule pour chacune son coefficient de variation CV(x) qui
est le rapport entre S et X
CV(x) = S/ X = 22,57/290,6 = 11% c’est-à-dire S est 12% de X .
Notons aussi qu’en tirant un échantillon de la population a pour
conséquence de transformer la variable statistique x qui y est étudiée, quelle
que soit sa distribution de probabilité, on peut prouver que l’inégalité appelée
« inégalité de CHEBYCHEV » est vérifiée.
De cette inégalité, on affirme que les intervalles [μ-2σ, μ + 2 σ] et [μ-3
σ, μ+3 σ] contiennent toujours respectivement au moins 96% et 99,9 % des
valeurs de la variable x. De plus, si la variable x suit une distribution normale
de moyenne μ et l’écart type σ, alors les intervalles [μ-3 σ, μ + 2 σ] et [μ-2 σ,
μ-3 σ] et [μ-3 σ, μ+3 σ] contiennent respectivement 68 %, 96 % et 99,9 % des
valeurs x.
Dans le but de faciliter la comparaison entre 2 variables statistiques, on
peut rendre les valeurs de ces variables comparables en utilisant pour
chacune des valeurs x, la transformation suivante :
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 58
STATISTIQUE DESCRIPTIVE 2022-2023
Xi X
Zi
s
On obtient ainsi les valeurs indépendantes de l’unité de
mesure ; on parle alors de variables standardisées ou de variables centrées
réduites.
Remarque : Pour un échantillon, il faut déterminer le nombre de degrés de
ni ( X X )
2
liberté n-1, ainsi
S n 1 .
Propriétés de l’écart type
- Par convention l’écart type est toujours positif.
- l’écart type a la même unité que les données.
- Il s’ensuit qu’on ne peut pas comparer des écart-types de séries de
données de natures différentes.
- Dans un échantillon où l’écart type est inférieur à 15% de la moyenne, on
peut considérer que la dispersion est faible (homogénéité). Mais s’il est
supérieur à 30% de la moyenne, on peut considérer que la dispersion est
forte (hétérogénéité).
- L’écart type d’un échantillon est une variable intensive, c’est-à-dire qu’elle
ne dépend pas de la taille des groupes : si deux groupes de données de
mêmes nature ont exactement la même dispersion, ils ont le même écart-
type, même si les nombres de données diffèrent d’un groupe à un autre.
Propriétés de la variance
La variance est toujours positive
La variance n’a pas la même unité que les données : ses dimensions
sont égales au carré des dimensions des données.
On ne peut pas comparer des variances d’échantillons de données de
natures différentes.
La variance d’échantillon est une estimation de la variabilité dans la
population. σ 2= E (S2).
La variance est plus influencée par les données extrêmes que par les
données centrales. Il faut donc se méfier des comparaisons de
variances d’échantillons dont les distributions ont des formes très
différentes.
La variance est une variable intensive, c’est-à-dire que si deux groupes
de données de mêmes natures ont exactement la même dispersion, ils
ont la même variance, même si les nombres de données diffèrent d’un
groupe à l’autre.
3.2.6. Les moments
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 59
STATISTIQUE DESCRIPTIVE 2022-2023
Le moment est la moyenne d’une puissance donnée des écarts de
toutes les valeurs individuels par rapport à une valeur déterminée.
On appelle moment d’ordre k par rapport à X o, la moyenne arithmétique
des puissances kièmes des déviations des valeurs des caractères par rapport à
1
ni x xo
k
mk i
Xo. n
1
m1
n
nixi x
a. si Xo = 0 et k = 1 =>
2
1
m 2 ni xi x 2
b. si Xo= x et k = 2 => n
c. si Xo= x => les moments sont centrés par rapport à x
q
1
p ni x 1 x
n
d. si Xo = 0, on parle de moments initiaux ou simples.
3.2.7. L’écart interquartile relatif
Q3 −Q 1
Eir=
Me
3.2.8. Coefficient de déviation standard
Q 3 Q1
C ds
Q 3 Q1
x1 0 0
3.3 CARACTERISTIQUES DE FORME
Pour mieux comprendre la variable statistique, on peut aussi chercher à
caractériser la forme de sa distribution au moyen des quelques indices
appropriés. Pour rappel, la distribution d’une variable statistique peut être
symétrique, asymétrique et plus ou moins aplatie.
Distribution
Asymétrie positive
Distribution symétrique Asymétrienégative
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 60
Mo Me Mo
Mo Me
Me
STATISTIQUE DESCRIPTIVE 2022-2023
Pour exprimer les différents aspects de la forme de la distribution, on
fait recourt aux coefficients d’asymétrie et d’aplatissement.
3.3.1 Coefficient d’asymétrie
a) Le coefficient d’asymétrie de PEARSON
Il faut noter que plus une distribution d’une variable est asymétrique,
plus la X̄ et le Mo diffèrent à cause de l’influence des valeurs extrêmes.
Comme mesure d’asymétrie, PEARSON a proposé un coefficient
A sp
x Mo
A sp
Mo
S : échantillon : population
2 9 0 ,6 2 8 6 ,2 5
A sp 0 ,1 2 8
Pour l’exemple précèdent 3 3 ,8 7
La distribution présente une légère asymétrie positive car 0,128 > 0. si
le résultat était nul, on aurait dit que le distribution est symétrique. Si la valeur
était < 0, on parlerait d’une asymétrie négative.
Aussi par la relation Mo = 3Me – 2 x
( 3 Me−2 X̄ ) X̄−3 Me +2 X̄ 3 ( X̄−Me )
Asp= X̄− = =
S S S
b) Le coefficient d’asymétrie basé sur le Quartile
( Q 3 Q 2 ) ( Q 2 Q 1) Q 1 Q 3 2 Q 2
A sQ
Q 3 Q1 Q 3 Q1
(310−288 , 18 )−(288 , 18−268 , 46) 310+668 , 46−2(288 , 18)
ASQ= =0 ,05= =0,05
310−268 , 46 310−268 , 46
3.3.2. Coefficient d’asymétrie et coefficient d’aplatissement de FISHER
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 61
STATISTIQUE DESCRIPTIVE 2022-2023
FISHER a proposé un coefficient d’asymétrie et un coefficient
d’aplatissement basés sur les moments. Pour rappel les moments d’ordre r
n r
1
mr
N
ni xi
x
se calculent : i 1 où r est un entier positif
A SF
M3 M3 M3 1
2 3
ni ( xi x )3
M 2 M 2 S .S S N S3
Le coefficient d’aplatissement ou Kurtose renseigne sur la voussure ou
la convexité ou encore sur la kurtose (Kurtosis)
M4
ASF
S4
Ce coefficient d’aplatissement APF = 3 pour une variable normale
centrée réduite. Si une distribution a le même coefficient d’aplatissement que
la distribution normale centrée réduite APF = 3, cette distribution est dite
mésocurtique ; si une distribution est plus plate que la normale centré
réduite ; alors on a APF < 3 et cette distribution est dite platicurtique ; enfin si
une distribution est moins plate qu’une distribution centrée réduite, on a
APF>3 et cette distribution est dite leptocurtique.
Leptocurtique
Reprenons l’exemple des dîmes :
Mésocurtique
xi xc - x ni ni(xC - x ) 3
ni(xc- x Platicurtique
)4
225 -65,60 4 -1129201,664 74075629,16
245 -45,60 6 -568912,896 25942428,06
265 -25,60 13 -218103,808 5583457,36
285 -5,60 22 -3863,652 21635,68
305 14,40 15 44789,76 644972,40
325 34,40 6 244245,92 8402045,28
345 54,50 5 804945,92 43789058,05
365 74,40 4 1647323,136 122560841,28
821222,41 281020067,15
1
(8 2 1 2 2 2 , 4 ) 1 0 9 4 9 , 6 3 2
A SF 7 5 0 ,2 8 2
( 3 3 ,8 8 ) 3 3 8 8 8 9 ,3 0 7
1
(8 2 1 0 2 0 0 6 7 ,1 5 )
A PF 75 2 ,8 5
( 3 3 ,8 8 ) 4
Puisque APF est plus grand que 3, on peut conclure que la courbe de
fréquence relative de la variable « salaire » est platicurtique c’est-à-dire plus
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 62
STATISTIQUE DESCRIPTIVE 2022-2023
aplatie que la courbe normale centrée réduite. De plus, la valeur positive
(0,282) de ASF indique une asymétrie positive.
3.4. PARAMETRES DE CONCENTRATION
Nous devons la notion de concentration aux statisticiens CORRADO,
GINI et LORENZ. La notion de concentration est utilisée pour les valeurs
caractérisées par le regroupement ou la dispersion d’une variable aléatoire
statistique. Elle s’apparente donc à la notion de dispersion autour de la valeur
centrale des observations.
3.4.1. La Médiale (Mle)
Elle se définit généralement comme étant la médiane appliquée à la
totalité du caractère étudié.
Ex. On parle généralement de concentration pour le cas où on traite les
distributions des salaires octroyés aux employés dans un secteur donné par
exemple.
De même que la médiane, la médiale se calcule par interpolation linéaire. La
médiale est la valeur de la variable qui partage la masse des valeurs en 2
parties alors que la médiane partage l’effectif d’une série en 2 parties.
k
1
2
n ixi
i 1
m a sse cu m u lee < cl m le
M le L icl . M le a
m a sse cl. m le
où masse = nixi
La différence entre la médiale et la médiane traduit le degré de
concentration d’une population donnée.
∆M = Mle – Me ou ∆M = degré de concentration
- si E (étendue) > ∆M, la concentration est faible
- si E <∆M, la concentration est plus forte
- si ∆M est nul, la concentration des observations est nulle.
3.4.2. Courbe de concentration de LORENTZ inscrite dans le carré de
GINI
La construction de cette courbe exige que les données statistiques se
présentent sous une forme continue et en valeur positive. Sur un diagramme
cartésien on porte en abscisses la fréquence relative cumulée en % du
caractère et en ordonnées le fréquence relative de la masse cumulée en %.
Les points représentatifs s’insèrent dans un carré des sommes ABCD appelé
carré de GINI. La courbe qui joint les points successifs ainsi obtenus est la
courbe de concentration ou courbe de LORENTZ.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 63
STATISTIQUE DESCRIPTIVE 2022-2023
B C
fi ni Xi %
Aire de concentration
Zone d’inégalité
Courbe de Lorentz
Diagramme AC
fi en %
A D
Lorsque la courbe de Lorentz tend vers la diagonale AC, la
concentration est faible. Lorsque l’inégalité est de plus en plus forte, la
courbe tend vers la ligne brisée ADC. La surface comprise entre la diagonale
et la courbe de concentration est appelée aire de concentration ou
Zone d’inégalité L`indice de concentration ou indice de GINI (IG) est trouvé
A ire d e c o n c e n tra tio n
IG
par : A ire d u tria n g le A D C
Si IG = 0, l’inégalité est positive
Si IG=1, il y a inégalité totale ou concentration maximale.
Du point de vue analytique, l’évaluation des aires suppose le recours au
calcul intégral. Néanmoins, on peut recourir aux méthodes graphiques et on
démontre que l’indice de GINI (IG) est égal au quotient de la différence
~
moyenne par le double de la médiane X .
Exercices
1. On a étudié la durée d’utilisation d’un parc de 200 machines identiques.
Les résultats obtenus sont consignés dans le tableau qui suit :
Durée Nombre des Durée Nombre des
d’utilisation machines d’utilisation machines
exprimée en exprimée en
année année
0 à moins de 1 7 5 à moins de 6 44
1 à moins de 2 12 6 à moins de 7 28
2 à moins de 3 23 7 à moins de 8 14
3 à moins de 4 31 8 à moins de 9 3
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 64
STATISTIQUE DESCRIPTIVE 2022-2023
4 à moins de 5 37 9 à moins de 10 1
a)Déterminer la médiane de cette distribution :
– par le calcul, en s’appuyant sur les effectifs cumulé croissants
- par le calcul, à partir des fréquences cumulées décroissantes,
- par le graphique, en utilisant la courbe cumulative croissante
b) Calculez la moyenne arithmétique :
m=
∑ xini
- par la formule : ∑ ni
- par la formule : m=xo +∑ ( xi−xo )fi on prendra xo=4,5
2. On donne la distribution suivante :
Classes Effectifs ni
20-30 100
30-40 140
40-x 125
x-70 200
70-100 180
100 et 55
plus
a. Sachant que la médiane de cette distribution est égale à 56,8 calculer
x.
b. La moyenne arithmétique de la population étudiée est égale à 60,5.
sachant que pour la calculer on a retenu les centres des classes (y
compris pour la dernière classe), calculez la borne supérieure de la
classe dont la borne inférieure est 100 (on retiendra pour x la valeur
obtenue dans la question 1).
3. Calculer la moyenne arithmétique et l’écart type de la distribution suivante :
-2,5 0,0 -1,1 5,6 5,3 -1,9 0,8 0,3 6,8 4,7
Il s’agit de la température moyenne à Paris, au cours du mois de janvier,
pendant dix années consécutives.
4. Une population statistique se présente de la sorte :
Valeur de la variable Effectifs
0à4 4
4 à 10 20
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 65
STATISTIQUE DESCRIPTIVE 2022-2023
10 à 20 14
20 à 40 2
a. Calculer la moyenne arithmétique et la variance de cette distribution
b. Chacune des classes de la distribution précédente est divisée en deux
classes de même mesure, auxquelles on fait corresponde un effectif
moitié de l’effectif initial de la classe qui a été divisée. Ainsi le tableau
statistique se présentera sous la forme :
variable Effectifs
0à2 2
2à4 2
4à7 10
… …
Calculer, sur le second tableau, la moyenne arithmétique et la variance.
c. Les moyennes arithmétiques obtenues en question a et b sont elles
égales entre elles ?
5. Dans une entreprise les 200 factures établies dans le courant d’un certain
mois ont été classées d’après leur montant. Les résultats de l’opération sont
consignés dans le tableau suivant :
Montant des factures en Fc Nombre des factures
0 à 100 80
100 à 500 60
500 à 1000 20
1000 à 5000 20
5000 à 10000 10
10000 à 30000 4
a. Présenter la courbe de concentration correspondante
b. Calculez l’indice de concentration
c. Déterminez le montant médian et le montant médial de la distribution
donnée.
6. Dans deux classes parallèles d’une même école, les notes, sur 20,
obtenues par les élèves, à l’occasion d’une épreuve, sont les suivantes :
9 15 15 7 11 12 14 10 11 8
8 11 11 14 8 10 11 11 10 11
7 15 12 6 14 9 15 8 8 14
15 10 11 13 11 11 15 12 15 10
11 9 8 13 9 8 13 14 15 15
10 10 7 15 15 7 14 9 3 10
15 10 15 8 15 8 14 9 6 13
12 11 9 9 13 14 8 13 8 5
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 66
STATISTIQUE DESCRIPTIVE 2022-2023
a. Comparer graphiquement les deux distributions statistiques proposées
(on admettra que les notes données sont des centres de classes
d’amplitudes 1 point ; ainsi la note 11 signifie « entre 10,5 et 11,5 », la
note 12 signifie « entre 11,5 et 12,5 » etc.
b. Continuer la comparaison à partir des caractéristiques de la tendance
centrale (moyenne arithmétique et médiane).
c. Comparer encore en utilisant les caractéristiques de la dispersion
(Etendue, intervalle interquartile, intervalle inter décile D9-D1, écart
absolu moyen, écart type, coefficient de variation).
d. Faites une conclusion générale.
IIe PARTIE: CALCUL DE LA PROBABILITE ET LOIS DES PROBABILITES
CHAP 4: ANALYSE COMBINTOIRE
L'analyse combinatoire comprend un ensemble de méthodes qui
permettent de déterminer le nombre de tous les résultats possibles d'une
expérience particulière. La connaissance de ces méthodes de dénombrement
est utile dans le calcul des probabilités qui constitue la base de la statistique.
4.1 PRINCIPE DE MULTIPLICATION
Si un événement A1 peut se produire n1 façons différentes et si suivant
cet événement un second événement A2 peut se produire de n2 façons
différentes, et ainsi de suite jusqu’au k ième événement, Ak qui peut se produire
de nk façons différentes, alors le nombre de façons dont les événements
peuvent se produire dans l’ordre n1, n2…nk.
Exemple1 : Un montage transistorisé est assemblé à 3 étapes ; à la
première étape il y a 3 chaînes d’assemblage possible, à la 2 ème étape il y en
a deux, à la 3ème étape il y en a quatre. De combien de façons différentes, le
montage peut-il être acheminé à travers ce processus d’assemblage. Nous
avons 24 façons d’assemblage 3 x 2 x 4.
Exemple2 : Considérons une population de N=20, on veut prélever un
échantillon n=5. De plus on considère que l’échantillonnage s’effectue avec
remise. Déterminer le nombre possible d’échantillon de taille n=4.
Nous aurons 20 choix par le tirage du 1er individu, or pour tirer le
second, il faut remettre le 1er, donc nous resterons toujours avec 20 choix.
Pour 5 personnes, nous aurons :
20 choix 1er
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 67
STATISTIQUE DESCRIPTIVE 2022-2023
20 choix 2e
20 choix 3e
20 choix 4e
20 choix 5e
Donc il y aura 205 ou 3200000 échantillonnages possibles. Chaque
individu a la chance de passer 5 fois, 4 fois, 3fois, 2 fois et 1 fois.
Si l’échantillonnage s’effectue sans remise, on doit distinguer 2 cas :
L’échantillon est ordonné c à d que l’on tient compte de l’ordre dans lequel
les individus sont prélevés de la population.
Soit l’échantillon n’est pas ordonné.
Dans le 1er cas, le cas où l’échantillon est ordonné, on recourt à la
notion de permutation et dans le second cas on fait recours à la notion de
combinaison.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 68
STATISTIQUE DESCRIPTIVE 2022-2023
4.2 LES ARRANGEMENTS
4.2.1 Définition
L’arrangement est un processus qui consiste à grouper de différentes
façons n éléments ou individus différents. On appelle arrangement de n
éléments pris p à p (pn) tout ensemble ordonné de p de ces éléments tous
distincts.
Ex : 4 lettres a, b, c, d.
Les groupements abc, abd, bac, … constituent des arrangements de ces 4
lettres pris 3 à 3.
Calcul de (arrangement de n éléments pris p à p )
On désigne par le nombre total d’arrangements distincts de n
éléments pris p à p. Tout arrangement de p objets peut être construit de la
manière suivante : on considère p cases, numérotées de 1 à p (P n).
1 2 3 … p-2 p-1 p
Dans la 1ère case, on place un objet, ce qui donne n choix possibles.
Dans la 2ème case, on place un autre objet choisi parmi les (n-1) objets
restants, cela donne ( n-1) choix possibles. De la même manière, on obtient
(n-2) choix possibles pour la 3ème case, et ainsi de suite jusqu’à la pième case
pour laquelle il ne reste plus que ( n-p+1) choix possibles. En appliquant le
principe général de multiplication on a.
Exemple : Nombre de tiercés dans l’ordre dans une course de 10
chevaux. A310=10 . 9 . 8=720
Notation factorielle
En particulier 1 ! = 1 2!=2 0!=1
4.2.2Arrangement sans répétition
On appelle arrangement sans répétition de p éléments choisis parmi n
éléments, tout classement ordonné contenant p éléments, chacun d’eux
pourra y figurer au maximum une fois. On note arrangement de n
éléments pris p à p.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 69
STATISTIQUE DESCRIPTIVE 2022-2023
4.2.3 Arrangement avec répétition
L’arrangement avec répétition de p éléments est un arrangement où
chaque objet peut être répété jusqu’à p fois.
Anp =n p =n⋅n⋅n . .. n p fois
Exemple1 : Calculer le nombre d’arrangement avec répétition prise 2 à 2 a,
b, c pris 2 à 2.
Comment construire le diagramme arborescent.
a aa
a b a b
c a c
a b a
b b bb 9 possibilités
c b c
a c a
c b c b
c cc
Ex2 : Considérons les éléments suivants x et y, on demande de les arranger
3à3
n=2 p=3
x
x
y
x x
y
y
x
x
y y
y x
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 70
STATISTIQUE DESCRIPTIVE 2022-2023
4.3 LA COMBINAISON
Une combinaison est un arrangement où l’ordre de présentation des
éléments n’est pas pris en considération. Le nombre des combinaisons de x
éléments choisis parmi n éléments distincts est le nombre de choix possibles
des x éléments distincts parmi n. Ce nombre est noté
Représente le nombre de sous ensemble différents de x éléments
d’un ensemble de n éléments. Il est aussi appelé combinaison de n éléments
pris x à x.
Ex : Nombre de tiercés dans le désordre dans une course de 10 chevaux.
4.3.1 Propriétés
Cette relation permet de déterminer les différents au moyen du triangle de
Pascal.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 71
STATISTIQUE DESCRIPTIVE 2022-2023
Dessiner le triangle de Pascal :
P 0 1 2 3 4
N
0
1
2
3
4
5
Cette disposition symétrique du triangle de Pascal permet non
seulement de démontrer concrètement par récurrence les formules relatives
à ces coefficients mais aussi le binôme de Newton.
- Binôme de Newton
4.3.2 Combinaison avec répétition
Si les combinaisons sont permises les nombres de combinaison d’ordre
k de n éléments est noté .
Exercices:
1. Une association des anciens élèves de l'Institut Kambali est composée
de 8 étudiantes et 4 étudiants.
a) De combien de manière peut-on former un choix de 5.
b) Combien de ces choix comporte au moins une étudiante ?
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 72
STATISTIQUE DESCRIPTIVE 2022-2023
c) Combien comporte exactement une étudiante ?
Solution:
a)
b)
c)
4.4 PERMUTATION
Une permutation est un arrangement d'éléments dans lequel leur ordre
de présentation est pris en considération. Le nombre de permutation de x
éléments choisis parmi n correspondant à déterminer le nombre de manières
différentes de ranger x éléments distincts dans n cases avec au plus un
élément par case. Ce nombre noté
Ex1: Considérons un ensemble constitué des nombres 1, 2, 3, 4, 5.
- Déterminer le nombre de combinaison de 5 nombres lorsqu'ils sont pris
2à2
- Déterminer le nombre de permutation de ces 5 nombres lorsqu'ils sont
pris 2 à 2
Combinaison. Permutation
1) 1-2 1-2 1-5 2-5 3-5
2) 1-3 2-1 5-1 5-2 5-3
3) 1-4 1-3 2-3 3-4
4) 1-5 3-1 3-2 4-3
5) 2-3 1-4 2-4 4-5
6) 2-4 4-1 4-2 5-4
7) 2-5
8) 3-4
9) 3-5
10) 4-5
Ex2: De combien de façon, on peut faire assoir 4 étudiants sur 4 chaises
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 73
STATISTIQUE DESCRIPTIVE 2022-2023
Ex2: Calculer 50!, 14 !, 8 ! etc.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 74
STATISTIQUE DESCRIPTIVE 2022-2023
CHAP. 5. CALCUL DES PROBABILITES ET LOIS DES PROBABILITES
5.1. LOGIQUE DES EVENEMENTS
5.1.1 Notion de base
Quel est le numéro qui sortira du tirage de loterie ?
Quelle est la face dé qui va apparaître ?
Il est impossible de répondre avec certitude à ces diverses questions. Il
s’agit là d’un phénomène dont les variations sont soumises à l’influence de ce
qui est convenu d’appeler le hasard. Des tels phénomènes dont les variations
ne peuvent être déterminées avec certitude s’appelle ALEATOIRE.
Mais l’absence de certitude concernant la variation de ce phénomène,
n’implique pas pour autant qu’on ne puisse en avoir une connaissance. En
effet si nous ne sommes pas à mesure de prédire quelle face apparaîtra lors
du lancement d’une pièce de monnaie, du moins on peut s’attendre à ce qu’il
y aura une de 2 possibilités pile ou face. Il en est de même du poids d’un
bébé à sa naissance. Un mode de connaissance intermédiaire entre
l’indétermination totale et la certitude est la notion de probabilité
5.1.2 L’épreuve
Lorsqu’on prélève une pièce défectueuse de la production ou bien
lorsqu’on interroge un citoyen sur son intention de vote aux prochaines
élections on réalise une épreuve. L’épreuve est donc une expérience
aléatoire c'est à dire une épreuve pouvant être répétée sous les conditions
apparemment identiques et dont le résultat est un élément imprévisible de
l’ensemble déterminé. L’ensemble de tous les résultats possibles d’une
expérience aléatoire ou épreuve s’appelle ESPACE ECHANTILLONAL
symbolisé par S.
5.1.3 L’Événement
Un événement peut être composé d’un ou de plusieurs résultats de
l’expérience. Il est donc un sous - ensemble d’une épreuve.
Exemple : - Le lancement d’un dé ou d’une pièce est une épreuve
- Obtenir un nombre pile ou face est un événement.
5.1.4 La probabilité
Si on lance une pièce de monnaie à l’air, elle tombera sur un coté ou
soit sur un autre. Ca sera pile ou face. Il est évident que les 2 événements
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 75
STATISTIQUE DESCRIPTIVE 2022-2023
sont équiprobables. Nous dirons que la probabilité pour pile est de ½ et pour
face ½. Si nous jouons pour la 2è fois les probabilités seront les mêmes.
Le hasard n’a ni mémoire ni conscience. Si nous jouons maintenant au
dé, la probabilité d’obtenir 3 est de 1/6 car il y a 6 faces. La probabilité de ne
pas l’obtenir est 5/6. La probabilité d'un événement est la proportion des
nombres de fois que les mêmes types se réaliseront lorsque l'expérience est
répété en très grand nombre de fois. En d'autres termes c'est le rapport entre
le nombre de cas favorables représentés par NE et le nombre de cas
possible N.
Exemple1: pour le jet de dé, la probabilité est
Exemple2: dans une boîte il y a 100 billes identiques mais de différentes
couleurs, 60 rouges, 30 vertes et 10 jaunes.
Au tirage le nombre de cas possibles est de 100; donc le nombre de
cas possibles du tirage d'une bille est de 100.
La probabilité de tirer une bille rouge est de
La probabilité de tirer une bille verte est de
La probabilité de tirer une bille jaune est de
NB: * La somme des probabilités est égale à l'unité 0,6 + 0,3 + 0,1=1
La probabilité d'un événement impossible est nulle.
La probabilité d'un événement certain est = à 1
Entre ces 2 extrêmes se situe toute une série d'événements
probables.
Lorsqu'une épreuve est répétée n fois, à chaque essaie on note le
résultat de l'épreuve soit NE qui est le nombre d'apparition de l'événement E.
Alors la valeur limitée de la fréquence relative lorsque n tend vers l'infini
est la probabilité qu'un événement E se réalise.
A. La probabilité de l'addition ou Formule de BERNOUILLI
Appelons P la probabilité de réalisation d'un événement et q la
probabilité contradictoire. Il est évident que p+q = 1, or
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 76
STATISTIQUE DESCRIPTIVE 2022-2023
Pour le lancement de dé .
B. La Probabilité conditionnelle
La probabilité pour que les 2 événements A et B se produisent
simultanément est donné par le produit de la probabilité de réalisation de
l'événement A par la probabilité de réalisation de l'événement B sachant que
A s'est réalisé.
or exclu les événements
impossibles.
C. La probabilité composée
A partir de la définition de la probabilité conditionnelle, on peut en
déduire une relation intéressante qui porte le nom de formule des probabilités
composées ou règle de multiplication. Soient A et B deux événements de
probabilité non nulle. La probabilité de se voir réaliser à la fois deux
événements A et B est égale au produit de la probabilité de A par la
probabilité de B sachant que A s'est réalisé en d'autres termes c'est la
probabilité .
Exemple: Supposons que dans une urne il y a 10 bulletins rouges et 4
verts
- Quelle est la probabilité pour que le premier bulletin soit rouge
- Quelle est la probabilité pour que le deuxième bulletin soit rouge
- Quelle est la probabilité pour que les 2 bulletins soient tous rouges
D. Evénements compatibles ou non compatibles
Deux ou plusieurs événements sont compatibles lorsque l'apparition de
l'un n'exclut pas l'apparition de l'autre. Alors que les événements
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 77
STATISTIQUE DESCRIPTIVE 2022-2023
incompatibles sont ceux dont l'intersection est un événement impossible. Ils
sont appelés aussi événements mutuellement exclusifs ou ensemble
disjoints.
P(AUB)=P(A)+P(B).
Ex: Dans un jeu de 32 cartes, quelle est la probabilité de tirer un cœur
ou triphe. Cœur et triphe sont deux événements exclusifs car il n'y a pas de
carte à la fois cœur et triphe, ce sont deux sous-ensembles d'un même
ensemble.
A B
EX: Soit une compilation des statistiques sur les vols d'automobile dans une
ville. On donne l'âge x des voitures volées en année et la proportion de
toutes les voitures volées appartenant à chaque catégorie d'âge.
Age Proportion
Moins d'un an. A1 40%
1x<3 A2 30%
3x<5 A3 16%
5x<7 A4 12%
7 et plus A5 2%
a. Déterminer la probabilité qu'une voiture volée ait un an et plus.
Cet événement est :
Ce sont des événements incompatibles. L'événement complémentaire
correspondant à" moins d'un an".
E. Evénements indépendants
Deux éléments sont indépendants lorsque la probabilité de réalisation
de A ne dépend pas de la réalisation ou de la non réalisation de B.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 78
STATISTIQUE DESCRIPTIVE 2022-2023
F. Probabilité totale: événements ne s'excluant pas
La probabilité de voir se réaliser dans une épreuve l'un ou l'autre de
deux événements A et B ne s'excluant pas mutuellement est égale à la
somme des probabilités de A et de B diminués de la probabilité d'avoir à la
fois A et B.
A B
A B
Ex: Une enquête effectuée par le bibliothécaire auprès de 150 étudiants de
l'UNILUK portant sur la lecture de deux séries d'ouvrage, la Bible et les notes
de cours donne les résultats suivants:
10 lisent la Bible (A)
100 lisent les notes de cours seulement (B)
40 lisent les deux (A et B: A B) a
Si un de ces étudiants est choisi au hasard, quelle est la probabilité qu'il
lise l'un ou l'autre de ces ouvrages.
Quelle est la probabilité qu'il lise uniquement les notes de cours?
Ex2: Le responsable des ressources humaines d'une organisation a sur
microfiche les dossiers de 16000 employés, le dénombrement de ces
dossiers en fonction de l'âge et du sexe est le suivant:
Age - ans. Sexe. Total.
M. F.
Moins de 30 (A). 1200 1700 2900
ans.
30 - 40 ans. (B). 2600 4200 6800
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 79
STATISTIQUE DESCRIPTIVE 2022-2023
Plus de 40 ans. (C). 4000 2300 6300
7800 8200 16000
a) Si un dossier est sélectionné au hasard, quelle est la probabilité que ce
soit celui d'un employé de moins de 30 ans (A)?
b) Quelle est la probabilité que ce soit celui d'un employé de moins de 30
ans, sachant que l'employé est de sexe féminin (F)?
On veut calculer la probabilité du même événement qu'en a, soit que le
dossier soit celui d'1 employé de moins de 30 ans, toutefois sous la condition
de la réalisation préalable de l'événement F, employé de sexe féminin. Ceci
aura pour effet de réduire le nombre de dossier à considérer.
Le nombre de dossiers dans la catégorie de moins de 30 ans et de
sexe féminin est 1700. La réalisation de
La probabilité de réalisation de l'événement A sachant que F s'est
réalisé, P(A/F) est plus élevé que P(A)
c) Quelle est la probabilité que ce soit un employé masculin (M) de plus
de 40 ans (c).
d) Quelle est la probabilité que ce soit un employé féminin (F) ayant 40
ans au moins ?
G. Probabilités des causes: formule de BAYES
Il arrive parfois de décomposer une épreuve en 2 étapes successives:
1º On obtient premièrement un groupe d'événements incompatibles E 1,
E2, … Ei…, En. A chacun de ces événements correspond une information
initiale permettant d'évaluer les probabilités P(E1), P(E2)…P(En).
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 80
STATISTIQUE DESCRIPTIVE 2022-2023
2º Deuxièmement, on obtient un événement A issu du groupe précédent
pour lequel on connaît les probabilités conditionnelles P(A/E1)… P(A/En). On
demande alors de calculer P(Ei/A) c'est à dire d'évaluer les probabilités des
diverses causes de A, sachant que A s'est produit.
Ex: Chez Beltexco 20% des employés ont 1 diplôme universitaire. Parmi
ceux-ci 70% ont des postes de cadre. Toutefois, parmi ceux qui n'ont pas un
diplôme universitaire 15% occupent un poste de cadre. Si un cadre est
sélectionné au hasard, quelle est la probabilité qu'il soit un diplômé
universitaire.
Les employés sont divisés en 2 catégories disjointes:
E1: employé ayant un diplôme d'université.
E2: employé n'ayant pas un diplôme universitaire.
D'après l'information initiale: P (E1)=0,2 P(E2)=0,8 soit 1-P(E1).
Notons par A, l'événement " l'employé choisi est un cadre " on sait
également que P(A/E1)=0,70 et P(A/E2)=0,15
On cherche à déterminer, par un événement observé « l’employé
choisi est un cadre » la probabilité qu'une cause donnée ( " l'employé
diplômé") en soit l'origine: P(E1/A).
Par définition : .
Par la formule des probabilités composées,
D'autre part, l'événement A " l'employé est un cadre" est composé de deux
événements incompatibles soit qui peut se lire l'employé
est un cadre si " l'employé est un diplômé universitaire et est un cadre" ou
l'employé n'est pas un diplômé universitaire et est un cadre", par conséquent
on peut écrire: .
E A
1
E1A E2A
E
2
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 81
STATISTIQUE DESCRIPTIVE 2022-2023
Puisque et , alors
devient .
Ce résultat constitue la formule de BAYES.
P (E1/A)=P (l'employé soit diplômé universitaire sachant qu'il est cadre).
On peut visualiser comme suit sur un arbre de probabilité
A P (E1).P (A/E1) = (0, 2)(0,7) = 0,14 = P(E1A)
E1
P (E1).P (A’/E1) = (0,2)(0,3) = 0,6= P(E1A’)
AI
P (E2).P (A/E2) = (0,8)(0,15) = 0,12 = P(E2A)
E2 A
P (E2).P (A’/E2) = (0,8)(0,15) = 0,68= P(E2A’)
AI
La probabilité que E1 soit la cause de A s'évalue comme suit:
L'expression générale de la formule de BAYES est
5.2 Distribution des Probabilités
Les variables discrètes et leur distribution
Les variables aléatoires discrètes et fonction de probabilité
Une variable aléatoire est une variable dont la valeur est déterminée
par le résultat d'une expérience aléatoire.
Ex: Considérons le nombre de garçon dans une famille de trois enfants.
X= {nombre de garçons}, x peut prendre les valeurs ci-après: 0, 1, 2, 3.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 82
STATISTIQUE DESCRIPTIVE 2022-2023
Arbre de probabilité
G GGG
G
G F GGF
G GFG
F
F GFF
G FGG
F G
F FGF
G FFG
F
F FFF
Présentation tabulaire
Résultats Valeur de Distribution de F(x)
possibles. x probabilité f(x).
GGG 3 1/8 1/8
3.
GGF. 2
GFG. 2 3/8 4/8
2.
FGG 2
GFF 1
FGF 1 3/8 7/8
1.
FFG 1
FFF 1 1/8 8/8=1
0.
On peut également représenter la distribution comme suit:
f(x) = P (x = x).
f(3) = 1/8 = P(x=3)
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 83
STATISTIQUE DESCRIPTIVE 2022-2023
Graphique
f(x)
3/
8
2/
8
1/
8
0 1 2 3 x
Ex: Quelle est la probabilité d'avoir au moins 2 garçons x 2.
Si nous calculons la probabilité de chaque fonction de distribution, on
trouve une nouvelle distribution appelée la distribution de répartition, notée
F(x)=P(x).
Remarque : La moyenne μ est celle de la population, est celle de
2 2
l’échantillon. De même σ pour la population et S pour l’échantillon.
A. Distribution binomiale
1. Variable aléatoire binomiale
Pour qu’une variable soit qualifiée de binomiale, 4 conditions doivent être
remplies :
L’expérience doit être formée de n répétitions d’une même épreuve.
Les n répétitions doivent être indépendantes.
Pour chaque répétition, le résultat doit être classé dans l’une des
catégories suivantes : succès ou échecs, vrai ou faux.
La probabilité de succès notée p est la même pour chaque répétition et la
probabilité d’échec notée q est égale à la différence entre la certitude et la
probabilité de succès. q=1-p.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 84
STATISTIQUE DESCRIPTIVE 2022-2023
Exemple : Le lancement d’une pièce de monnaie succès=face et échec=pile
et si on répète l’expérience de lancement 5 fois càd n=5.
X={nombre de fois d’obtenir face}
il y a d’autres
combinaisons pour obtenir 3 fois faces:
L’analyse combinatoire permet de connaître le nombre de manière à
choisir x objets dans un total de n objets.
Exemple
: Supposons qu’une caisse contient 20 pièces de rechange pour auto
et qu’on sache par expérience que le procédé de fabrication produit 2%
d’articles défectueux. Quelle est la probabilité d’avoir 0, 1, 2 articles
défectueux.
Solution :
n=20
p=0,02
x= {avoir une défectuosité} ou succès.
X~ß (20; 0,02)
20 ! 0 20 20
f (0)=P( x=0 )= (0 ,02 ) (0 ,98 ) =(0 .98 ) =0 , 668
0 !20 !
20 !
f (1)=P( x=1)= (0 , 02 )1 (0 , 98 )19 =20(0 , 02)1 (0 , 98)19=0 ,273
1 !19 !
20 !
f (2)=P (x =2)= (0 ,02 )2 (0 , 98 )18=190(0 , 02 )2 (0 , 98 )18 =0 , 053
2 !18 !
2. Table de la loi binomiale
Pour calculer la probabilité, on a besoin de la fonction de répartition
F(x)=P(x<x). On dispose à ce propos des tables de la distribution binomiale
qui donnent de probabilités pour différentes valeurs de n et de p.
Ex1 : Supposons que le % des pièces défectueuses soit de 5% au lieu
de 2%, et que l’on désire connaître la probabilité tout au plus que 2 pièces
soient défectueuses.
N=20 p=0,05 Dans la table si n=20 ; ;p=0,05
X~ß (20 ; 0,05)
P(x < 2)=F (2) P(x < 2)=F(2)=0,1887
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 85
STATISTIQUE DESCRIPTIVE 2022-2023
Ex2 : Supposons qu’il soit connu par expérience que 30% d’élèves
venant du CSAL passent de G1 à G2. Si on admet 20 élèves du CSAL en
G1 durant une année académique, quelle est la probabilité que 10 au moins
d’entre eux passent en G2.
X=nombre des élèves venant du CSAL qui passent en G2.
n=20 La table ne donne pas cette forme, elle donne la forme
p=0,3 P(x < x)=F(x) => (P(x > 9)
P(x > 10)
Nous pouvons dire P(x > 10)=1-(P(x > 9)=1-P(9)=1-0,06554
Remarque
Si on a une probabilité de succès supérieur à 0.5 c’est-à-dire p>0.5, il
faut considérer non pas x = nombre de succès mais y = nombre d’échecs,
parce que q = 1 – p et la table donne des valeurs allant jusqu’à p = 0.5.
=> (X <x ) = (Y > n –x) sont équivalents.
B. La distribution de POISSON
Elle est utilisée pour les événements spécifiques il s’agit des
événements rares dans un intervalle de temps ou d’espace.
Ex : - nombre d’erreurs de frappe sur une page, (espace)
- nombre d’appels téléphoniques que reçoit une centrale à une
minute (temps)
Les conditions qui définissent le modèle de la loi de POISSON sont :
- le nombre de réalisation dans un intervalle est indépendant du nombre
de réalisations dans tout intervalle disjoint
- le nombre attendu des réalisations dans un intervalle est proportionnel
à sa dimension
- dans un intervalle aussi petit que l’on veut la probabilité d’observer plus
d’une réalisation est négligeable par rapport à la probabilité d’observer
qu’une seule.
On appelle variable de POISSON le paramètre µ, la variable aléatoire x
= {nombre de réalisations dans un intervalle donné} qu’on note x~p. (µ).
1. Fonction de probabilité
Où x = nombre des moyens de succès que l’on peut observer dans un
intervalle de temps et d’espace.
e= base de log = 2, 71828.
2. Table de la loi de Poisson
Les tables ne donnent que les probabilités de F(x)=P(Xx).
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 86
STATISTIQUE DESCRIPTIVE 2022-2023
Ex2 : Soit = 3,5 le paramètre de Poisson, trouver la probabilité pour que la
variable aléatoire prenne : a. Une valeur au plus égale à 2
b. Une valeur au moins = à 4
c. Une valeur égale à 6.
= 3,5
a. P(x < 2)= P(x=0)+P(x=1)+P(x=2)
= 0,302+0,1085+0,1850
= 0,3209.
b. P(x > 4)= 1- p(x<4) = 1-( p(x=0) + p(x=1) + p(x=2) + p(x=3) )
ou p(x=4) + p(x=5)…
c. P(x=6)= 0,0771
C. La distribution normale (Distribution de Laplace Gauss)
La distribution normale constitue en réalité une famille de distribution qui
diffère des valeurs de la Moyenne et des écarts types. Quand une
distribution est normale, la probabilité est une aire.
a. Variable aléatoire normale
f(x)
Courbe de Gauss
Propriétés
i. La fonction de densité de probabilité tend vers 0 lorsque x tend vers - ou
tend vers + ;
ii. et 2 sont les 2 paramètres qui caractérisent la distribution normale.
b. La variable normale réduite
On dit qu’une variable aléatoire est distribuée normalement si sa
fonction a comme formule : Z = (X- M) / S
En pratique pour trouver la probabilité de Z, on entre dans une table de
la loi de Laplace-Gauss.
c. Table de la loi normale réduite et calcul de probabilité.
Cette table nous permet de calculer des probabilités de type :
P (a<z<b)
P (a<z)
P (z > b)
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 87
STATISTIQUE DESCRIPTIVE 2022-2023
Ex : Soit P (z < 1,72) = A1+A2
= 0,50 + 0,4573
= 0,9573
a) P (z < -0,88) = A1=0,50 - A2
= 0,50 – 0,3106
= 0,1894
b) P (1,30 < z < 1,75)
= 0, 4599 - 0, 4032
= 0,0567
B. Soit X ~N (53 ; 0,64)
P(x > 55)
(x > 2,50) = 0,50 – 0,4938
= 0,0062
Exercices :
1) Un auditoire de G1de l’UAC passe un examen coté sur 30. Leurs cotes forment une
distribution normale et se caractérisent par une moyenne de 17 et un écart type de 1,5.
Quelle est la probabilité pour qu’un étudiant puisse obtenir au moins une distinction.
2) Le poids d’un groupe de personne est distribué normalement avec une moyenne de 60
kg et un écart type de 4kg :
- calculez la portion des personnes qui ont un poids supérieur à 70kg ?
- calculez la probabilité de tirer au hasard une personne dont le poids est compris entre
50 et 70kg ?
- quel est le poids atteint par 5% seulement de personne ?
- quelle est la valeur tel que 70% de personne aient un poids inférieur
- quelle est al valeur tel que 20% de personne soient compris entre cette valeur et la
moyenne ?
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 88
STATISTIQUE DESCRIPTIVE 2022-2023
TABLE DES MATIERES
INTRODUCTION GENERALE........................................................................................................2
CHAPITRE I : NOTIONS DE BASE................................................................................................4
I.1. HISTORIQUE ET IMPORTANCE DE LA STATISTIQUE................................................4
I.2. DEFINITION DE LA STATISTIQUE.....................................................................................5
I.3. POPULATION ET ECHANTILLON......................................................................................7
A. Population..............................................................................................................................7
B. Echantillon..............................................................................................................................7
I.4 VARIABLE STATISTIQUE OU CARACTERE.....................................................................7
I.5 UNITE STATISTIQUE – NIVEAU DE MESURE D’UNE VARIABLE STATISTIQUE ....9
I.6 LA METHODE STATISTIQUE.............................................................................................11
I.7 LES DONNEES STATISTIQUES........................................................................................11
1.7.1. La collecte des données..............................................................................................12
CHAPITRE II : PRESENTATION ET TRAITEMENT DES DONNEES STATISTIQUES.....24
2.1. DEPOUILLEMENT DES INFORMATIONS OU OBSERVATIONS..............................24
2.2. PRESENTATION DES DONNEES...................................................................................25
2.2.1 TABLEAUX STATISTIQUES.......................................................................................25
2.2.2 LA PRESENTATION GRAPHIQUE............................................................................30
CHAP 3 : MESURES CARACTERISTIQUES D’UNE VARIABLE STATISTIQUE...............40
CHAP 3 : MESURES CARACTERISTIQUES D’UNE VARIABLE STATISTIQUE...............41
3.1. MESURES (PARAMETRES, CARACTERISTIQUES) DE TENDANCE CENTRALE
OU DE POSITION.......................................................................................................................41
3.1.1 Les moyennes................................................................................................................41
~x
3.1.2 La médiane ou le médian ( Me ou )........................................................................48
3.1.3 Le mode ou le dominant Mo ou X...............................................................................50
3.1.4. Autres mesures de position : les fractiles (Quartiles).............................................53
3.2 LES MESURES DE DISPERSION OU DE VARIABILITE.............................................54
3.2.1. L’Etendue ou l’intervalle de variation.........................................................................54
3.2.2. Le semi interquartile ou Ecart probable....................................................................55
3.2.3. L’écart moyen (écart absolu moyen).........................................................................55
3.2.4. La variance et l’écart type...........................................................................................56
3.2.6. Les moments.................................................................................................................58
3.2.7. L’écart interquartile relatif............................................................................................59
3.2.8. Coefficient de déviation standard...............................................................................59
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 89
STATISTIQUE DESCRIPTIVE 2022-2023
3.3 CARACTERISTIQUES DE FORME.................................................................................59
3.3.1 Coefficient d’asymétrie.................................................................................................59
3.3.2. Coefficient d’asymétrie et coefficient d’aplatissement de FISHER.......................60
3.4. PARAMETRES DE CONCENTRATION..........................................................................61
3.4.1. La Médiale (Mle)...........................................................................................................62
3.4.2. Courbe de concentration de LORENTZ inscrite dans le carré de GINI...............62
IIe PARTIE: CALCUL DE LA PROBABILITE ET LOIS DES PROBABILITES ......................66
CHAP 4: ANALYSE COMBINTOIRE............................................................................................66
4.1 PRINCIPE DE MULTIPLICATION......................................................................................66
4.2 LES ARRANGEMENTS.......................................................................................................67
Notation factorielle........................................................................................................................67
4.2.2Arrangement sans répétition.............................................................................................67
4.3 LA COMBINAISON...............................................................................................................69
4.3.1 Propriétés..............................................................................................................................69
4.4 PERMUTATION....................................................................................................................71
CHAP. 5. CALCUL DES PROBABILITES ET LOIS DES PROBABILITES...........................72
5.1. LOGIQUE DES EVENEMENTS........................................................................................72
5.2 Distribution des Probabilités............................................................................................79
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 90
STATISTIQUE DESCRIPTIVE 2022-2023
REFERENCES BIBLIOGRAPHIQUES
1. Berenson M.L et Levine D.M, (1992); Basic Business Statistics, Concepts and applications,
Prentice Hall, USA.
2. Fox William, (1995); Social statistics, an introduction using microcase, 2nd. Ed., USA,
3. Martel J.M. et Nadeau R, (1988) ; Statistique en gestion et en économie, Ed. revue et
corrigée, Gaëtam Morin éditeur, Québec, Canada,
4. Saporta. G. (2006). Probabilités, analyse de données et statistique. 2ème edition, Editions
Technip.
5. D’Hainaut, L (2000), Concepts et méthodes de la statistique, ed LABOR, Bruxelles.
Par le Chef de Travaux KAMBERE MWANGAZA Matama Page 91