COURS DE STATISTIQUES DESCRIPTIVES
ANNEE ACADEMIQUE 2022-2023
Niveau d’etudes : Licence 1
COURS et EXERCICES
CORRIGES
Par Dr MABIALA Jean Félix
Chargé de cours
Courriel : mjfmabio@[Link]/mjfinabios@[Link]/félina_mabi
Faculté de Droit et des Sciences Economiques de l'Université Omar Bongo : Département
d'Economie
BP : 3368 Libreville Gabon Tel : 73.02.80
Faculté de Lettres et des Sciences Humaines de I'Université Omar Bongo : Département de
Sociologie
Libreville Gabon
Ecole Supérieure de Commerce et de Management (SUP DE COM),
Libreville Gabon
Ecole Nationale des Eaux et Foréts (ENEF)
Libreville Gabon
Académie Franco Américaine de Management (AFRAM)
Libreville Gabon
Université Africaine des Sciences (UAS)
Libreville Gabon
Ecole Supérieure de Gestion d’Informatique et des Sciences (ES-GIS)
Libreville Gabon
EM-GABON Université
Libreville GabonAVANT-PROPOS
Ce support de cours et d'exercices s'adresse principalement aux étudiants des sciences de
gestions, Sciences économiques et accessoirement a tout chercheur.
Ce manuel permet a toute personne une remise & niveau rapide en ce qui concerne I’essentiel
en statistique descriptive.
Une série exercices d’application traités ou non traités dans le cours permettent de tester
aptitude a raisonner, a calculer, & analyser et a interpréter les résultats obtenus des données
statistiques.
Introduction
Dans environnement économique et sociologique actuel, I"information statistique disponible est
vaste. Les dirigeants qui ont le plus de suecés sont ceux qui peuvent comprendre information et
Vutiliser.
Les sociologues utilisent des techniques d’enquéte basée sur les échantillons statistique pour mener
des opérations de collecte des données sur le terrain.
En économie, on demande souvent aux économistes de faire des prévisions & propos de certains faits
Sconomiques
De nos jours, en raison de l'importance de la qualité, le contréle de la qualité est devenu une
application primordiale de la statistique dans la gestion de la production.
L.1- Généralités
Rassembler les données démographiques, économiques, sociales, techniques sur des populations
@'individus (hommes, entreprises, nations.) est le premier pas vers l'appréhension d’une certaine
“réalité” des phénoménes étudiés.
Résumer les données, les transformer, sous la forme de quelques indicateurs numériques ou
graphiques (diagramme en baton, diagramme circulaire, histogramme, quantiles, écart type, ...) est
le second pas de ceite démarche. Il permet :
= de synthétiser l'information;
"de la visualiser ;
de l’appréhender globalement ;
de comparer des informations sur plusieurs populations,
Ces techniques relévent des statistiques qui, par définition, donnent une description simplifige des
faits étudiés & partir des tableaux, des graphiques et des approches numériques qui sont utilises pour
résumer des données.uobjectif final de la statistique ne consiste pas a seulement compiler des informations chiffrées, mais
4 verifier expérimentalement la validité de théories, économiques, sociologiques et 4 prendre des
décisions
1.2- Eléments de définition
> Statistique :
La statistique est une méthode générale de recherche, Voutil avec leque! on travaille une matiére
premigre constituée par les « statistiques» (ou données statistiques). Son but est détudier les
phénoménes pour permettre de prendre des décisions. Les statistiques sont l'art et la science de
collecter, analyser, présenter et interpréter les données.
> Information :
L’information est donc la base de toute étude, La fidélité de cet
principal dans la collecte des données expérimentale
formation d ver le souci
cons
Les méthodes statistiques permettent de synthétiser des résultats et d’induire des lois que l'on doit
cnregistrer avec un certain degré d’ approximation,
> Les données :
Les faits et les chiffres qui sont collectés, analysés et résumés pour étre ensuite interprétées,
> Ensemble
Les données collectées dans une étude particuliére forment l'ensemble de données de l'étude.
Le tableau suivant présente un ensemble de données contenant des informations financieres sur 25
entreprises, issues de la base de données Stock Investor Pro,
Tableau | : Ensemble de données contenant des informations financiéres de 25 entreprises
Award Software ‘AWRD. ‘Orc 15,7 15 225
‘Chesapeake Energy CHK NYSE 255.3 7.880 127
Craig Corporation CRG NYSE 294 17,000 7S
Edicto Ressources EDT. AMEX 254.5 9.688 60
‘Source : Sook veer Pro, Associaton amérsine ds hvesteeurs ndviel, 31a 1997.
> Eléments :
Les éléments sont les entités auprés desquelles les données sont collectées. Pour l'ensemble de
données du tableau 1, chaque entreprise est un élément. Puisqu’il y a25 entreprises, il y a 25 éléments
dans l'ensemble de données.
> Caractéres ou variables statistiques
Une variable est une caractéristique des éléments & laquelle on s'intéresse. L’ensemble de données
du Tableau/ contient 5 variables (voir le tableau ci-dessus)
85
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 20On peut n'étudier que certaines propriétés des unités statistiques, proprigtés appelées caractéres ou
variables statistiques, propriétés distinctives des unités statistiques dune population,
Exemple : taille, poids, nombre de défauts, effectifs d’une usine.
Le caractére, I’aspect de I’ unité statistique que l'on retient dans l'analyse peut étre
~ qualitatifet peut comporter plusieurs modalités ou variantes : une pigce bonne ou mauvaise,
une catégorie socioprofessionnelle (CSP),
~ quantitatif et peut concerner une grandeur continue ou discontinue.
> Variable statistique discréte :
La variable statistique X est dite diseréte lorsqu’elle ne peut prendre que des valeurs isolées
XpXypeneenXy (OW
Variable statistique continue :
La variable statistique X est dite continue lorsqu’elle peut prendre n’importe qu’elle valeur dun
intervalle [a, b]
Exemple : durée d’une conversation téléphonique.
> Population : Ensemble de tous les éléments considérés dans une étude particuliére
> Echantillon : sous - ensemble dune population statistique. Léchantillon est aléatoire lorsque
son prélévement dans la population statistique a été soumis aux lois du hasard.
‘On appelle échantillonnage le prélevement d’échamtillons. Le rapport t de Veffectif'n de I’échantillon
4 leffectif N de la population, dans laquelle il a été prélevé, est appelé taux d’échantillonnage ou
fraction de sondage = et On appelle base de sondage la liste exhaustive des unités statistiques ow
individus de la population - mére.
> Effeetif ou fréquence absolue: le nombre de fois que se répéte la modalité du caractére pu
de la variable & étudier
Modalité : la valeur numérique ou non que prendre une variable
Fréquence relative : noté fi = ni/N
Centre de classe : milieu de la classe, noté Xi = (aitbi) /2
Amplitude : la différence entre la borne supérieure et inférieure de la classe, noté Ai
vvy
w
Conelusion : Dans toute statistique, il est indispensable de donner une définition claire, précise et
stable des unités statistiques afin d’éviter des incompréhensions et des erreurs, soit lors du
rassemblement des données, soit lors de leurs interprétations
86
Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023,IL1 Variables qualitatives
ILL.1. Définition
Une variable est qualitative si ses modalités ne sont pas mesurables.
Exemple :
Pour étudier I’échee scolaire 4 I’école publique de belle vue 2.
variable le sexe, Age, l'origine sociale des éléves, groupe eth
seul caractére qu’est le sexe, nous aurons le tableau suivant :
n peut choisir comme caractére ou
jue, nationalité, Si nous prenons un
Gargon 125 289
Filles 139 [287
l Total 264 576
tére nominatif sexe, Et fille
Gargon est la modalité 1 de la variable qualitative nominative ou du cara
la modalité 2 de cette variable
[NB : dans le cas des variables nominatives, celles-ci peuvent étre de type ordinal.
Exemple 2 : répartition (ou distribution) des éléves de lécole de Bellevue en juin 2018, selon leur
conduite.
Excellente 52
Trés bonne 3
Bonne 96
Passable “100
Juste moyen 99
Mauvaise 101
Tres mauvaise | 155
Total (des 7 modalités dela variable) | 666
Les exemples ci-dessus nous montrent que les caractéres qualitatifs, appelés aussi variables nominales
ou variables catégorielles, ont des attributs dont les modalités ne sont pas mesurables, ne sont pas des
nombres.
Ainsi, les variables nominales sont constatées, comme on constate par exemple le sexe ( féminin) de
individu, la nationalité ( gabonaise, la catégorie socioprofessionnelle ( cultivateur), ou la conduite
trés mauvaise d’un éléve, ete
Chaque variable se subdivise en modalités ou catégorie. A chaque modalité correspond un nombre,
un chiffre (donc une valeur numérique) qui est appelé effectif ou fréquence absolue.
Cours de Statistiques descripiives — Dr MABIALA Jean Félix — année académique 2022-2023,11.1.2 Quelques représentations graphiques courantes
En statistique, les représentations graphiques traduisent, de fagon normée, ce besoin de voir de ses
yeux une image qui décrit des faits observés. Les normes utiles des graphiques sont :
- De montrer les éventuelles relations entre les variables ;
= De synthétiser une distribution ;
~ De comparer des données de valeurs différentes,
Nous ne pouvons passer en revue tous les types de représentations graphiques, dont plusieurs
supposent des cours particuliers pour en apprendre la construction parfois complexe. Mais notons que
les étudiants ont le devoir d’apprendre le simple outil informatique (logiciel) appelé Excel. Cet outil
permet de construire facilement toutes les représentations graphiques possibles des lors que les
données a représenter ont été bien rentrées dans la base des données.
Deux modes de représentation graphiques sont généralement utilisés :
> Les graphiques a colonnes ou en bande ou en tuyau d’orgue
> Diagramme a « secteurs » circulaires ou semi-circulaire
> Mais bien d'autres représentations sont possibles.
Exemple |
En 2000 les recettes du budget de MAYEVILLE se présentaient de la fagon suivante
(En milliards de franes)
‘Taxe sur valeur ajout
Impét sur revert 15
Impot sur les socigtés 7
Taxes sur les produits pétroliers 5
Total x
> Représentation par un diagramme circulaire (dit « Camembert »)
On doit partager 360° en secteurs proportionnels aux effectifs, Par exemple, l'eflectif 5 correspond
60%5 — 360. 16,667% = 60° d°oi Ie tableau 1
Aun angle de: x
30
Recettes [3 [15_|7 3 30
%. 10% [50% |23,333% | 16,667% [1
‘Angles [36 [130 [84 60 360
88
Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023,tect!
se 10%
50%
Fig, H-1Représentaion par secteur. Reparttion des receies du budget d'ANGOVILLE selon leur origine
Notons
Dans le graphique circulaire, les secteurs représentatifs ont une aire et par conséquent un angle au
centre proportionnel aux effectifs (montants des recettes) des modalités (sources des recettes)
correspondantes, Le graphique est tracé A I’aide d'un rapporteur aprés que I’on ait calculé angle au
centre relatif a chaque secteur.
> Représentation par bani tuyau d’orgue)
Les différentes modalités du caractére (diverses sources de recettes du budget MAYEVILLE) sont
représentées par des rectangles dont la base est constante et dont la hauteur et l’aire par conséquent,
est proportionnelle aux effectifs (montants des recettes).
Répartition des recettes du budget MAYEVILLE selon leur origine,
eect
Fig, 11-2 Représentation par tuyau d orgue.
Notons
La représentation par secteur permet, mieux que les tuyaux d’orgue, de visualiser l'importance
relative (en %) de chaque source de recettes, importance figurée par la valeur de I'angle au centre
correspondant. Elle permet aussi d’établir des comparaisons entre plusieurs faits observés du méme
phénoméne dans I'espace et dans le temps,
89
Cours de Statistiques descriptives — Dr MABIALA Jean Féltx— année académique 2022-2023.Exemple 2:
En 2000, un recensement des secteurs d’acti
permet d’établir le tableau suivant :
des régions TCHAYEVILLE et de NDIVILLE,
Effectifs|% | Angle | Effectifs
Agriculture|1300__[5.2__/18.72__ [3320 |16.6 _|59.76
Industrie [8425 [33.7 [121.32 [8120 [40.6 | 146.16
TCets 115275 [61.1 [219.96 [8560 [42.8 [154.08
Total 25000 [100 [360 [20000 |100__ [360
Diagramme en secteur circulaire des
secteurs d'Activité Tchayeville
Agrcuteur
Industrie
atTcas
Diagramme en secteur circulaire des
secteurs d' Activité de Ndville
Agriculteur
aindustio
orces:
Comparaison de la structure de l'emploi civil par grand secteur d activité & Tehayeville et Ndiville
Le rapprochement des aires des différents secteurs permet les’ comparaisons des effectif’s en valeur
absolue. Ainsi il apparait que la part de l'agriculture est beaucoup plus évoluée & Ndiville qu’
Tehayeville, celle du secteur <> (transport, commerce, service) est notablement plus
faible.
IL.2. Variables quantitatives
MW
- Définition :
90
Cours de Statistiques descriptives — Dr MABLALA Jean Félix année académigue 2022Une variable est quantitative si ses modalités sont mesurables ou repérables.
Ty a deux sortes :
> Les variables quantitatives diserétes
> Variables quantitatives continues
[Link]. Variable quantitative discréte ou discontinue
Si nous étudions le nombre d’enfant par ménage, on peut avoir le tableau ei-aprés.
Tableau : Nombre Eee Mayumba en 201
0 27
1 53
2 70
3 80
4 75
Total 102
Nous sommes en présence dune variable ou caractére quantitatif discréte car on ne peut jamais
trouver un demi-enfant (0,5 enfant vivant dans une famille) ou % d’enfant. On ne peut dénombrer que
des enfants entiers.
[Link]. Représentation graphiques possibles
La représentation graphique des fréquences ou des effectifs est le diagramme en batons (des effectifs)
A chaque valeur x; de la variable, portée en abscisses, on fait correspondre un segment vertical de
longueur proportionnelle a I’effectif (ou a la fréquence) de cette valeur.
Exemple
Voici le relevé de notes par ordre croissant dune classe :
7,1,1,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16
Tableau des effectifs et fréquences cumulées (croissantes).
Notes 7 10 12 13 14
Effects (my) | 3 3 2
Effectifs 3 16 18
ccumulés (Ni) (1145) | 1642)
Fréquences cs = 2
(i) 20 . 20 20 oT)
15%) 15%) | 25%) | 10%)
Fréquences: 5 3 z z 2
; x x x 30
curmulées (Fi) | caisysy | (25%) | (aor | (35%) | (80%) | 90%) | caa0%)
L’effectif'eumulé correspond a la note 8 (par exemple) est la somme des effectifS des notes inférieures
ou égales a 8 (ici égal a 5).
Lreffectif total est la somme des effectifs (ici égal a 20).
91
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.Une variable est quantitative si ses modalités sont mesurables ou repérables.
Ilya deux sortes
> Les variables quantitatives diserétes
> Variables quantitatives continues
1L.2.1.1, Variable quantitative discréte ou discontinue
Si nous étudions le nombre d’enfant par ménage, on peut avoir Ie tableau ci-aprés.
Tableau : Nombre d’enfar rina ba cn 2015.
27
0
1 53
2 70
3 30
4 75
Total 7 102
Nous sommes en présence d'une variable ou caractére quantitatif diseréte car on ne peut jamais
trouver un demi-enfant (0,5 enfant vivant dans une famille) ou ‘4 d’enfant. On ne peut dénombrer que
des enfants entiers.
[Link]. Représentation graphiques possibles
La représentation graphique des fréquences ou des effectifs est le diagramme en batons (des effectifs)
A chaque valeur xide la variable, portée en abscisses, on fait correspondre un segment vertical de
longueur proportionnelle a l’effectif (ou A la fréquence) de cette valeur.
Exemple
Voici le relevé de notes par ordre croissant d’une classe :
7,7,7,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16
Tableau des effectifs et fréquences cumulées (croissantes).
Notes z 13 16
Effectifs (a) 3 3 2
Effectifs 3 16 20
cumulés (Ni) (1145) (1842)
Fréquences 3 3 2
® 20 20 0
(15% (= 25%) (10%)
Fréquences ai fu 2
cumulées (Fi) | 72, (80%) abe,
L'effectif cumulé correspond a la note 8 (par exemple) est la somme des effectifs des notes inférieures
ou égales a 8 (ici égal 45).
Lreffectif total est la somme des effectifs (ici égal a 20).
a1
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.Les fréquences sont les quotients des effectifs des modalités par Meffectif total. Elles sont les
exprimées souvent en pourcentage et noté fi= mi/N
Le diagramme en baton y relatifest le suivant.
7 8 10 12 13 14 16
Fig : Répartition des notes obtenues au devoir de statistique, 1° Année Sociologie
[Link], Variable quantitative continue
Par contre, si nous étudions par exemple les résultats des éléves du tableau ci-aprés selon leurs de
statistique appliquée en sociologie) a l’examen, nous aurons :
0-6 52
6-10 63
10-12 96
12-14 100
14-16 99)
16-18, 101
18 et plus 153
Total (ily a7 modalités de la variable note) : (666 |
La variable « notes » est une variable numérique ou quantitative continue par ce que, 4 l'intérieur de
chaque classe, cette variable peut prendre toutes les notes (ou valeurs) intermédiaires. Par exemple
dans derniére classe, les éléves peuvent obtenus les notes 18 ou 18,01 ; 18,02 ; 18,03. ooo HELGE
19,02 ; ID Ab gin 5 1999520.
En ce qui concerne l'exemple sur les résultats scolaires par dge, école publique de bellevue, en juin
32018.
92
Cours de Statistiques descriptives —_Dr MABIALA Jean Félix — année académique 2022-2023.44 moins de 7 ans 58 65
7a moins de 10 ans 84 122
108 moins de 13 ans 75. 175
De 13 a moins de 16 ans 47 214
Total (des 4 modalités) 264 516
Ce regroupement en 4 classes introduit deux autres concepts subséquents, l'amplitude, centre de
classe et la densité.
Noton:
Plus généralement, soit C le caractére (variable) qui comporte k modalités. On observe n individus,
et dresse le tableau suivant composé des couples (Ci, ni):
7 est la fréquence relative de la modalité Ci dans la population. On a
n
7
Pour les caractéres quantitatifs, on calcule l’effectif eumulé Nix}
Din, . et la fréquence cumulée
Dans le cas d'une variable diseréte, le couple (Ci, ni) devient (x, mi),
Dans le cas dune variable quantitative continue, on considére la classe Ci d’extrémités b 1 , et bi
telle que 4, Amplitudes égales
Exemple :
Ona mesuré la taille de 30 étudiants. Les mesures sont regroupées en classes. La série statistique est
alors présentée sous la forme du tableau suivant :
1305t <1,40]1,40< 1 <1,50 [1,505 1<1,60 [1,605 1<1,70
3 15 7 5
3 18 25 30
Représentation de la série par un histogramme
Les classes étant d’amplitudes égales, il suffit que chaque rectangle ait une hauteur proportionnelle &
la fréquence (relative ou absolue) de cette classe.
16
Fig : Répartition de la taille de étudiants ; 24PP, 1998,
> Les amplitudes sont inégales
I faut construire des rectangles dont la hauteur est proportionnelle @ la densité, ce qui permet
’assurer une surface proportionnelle & la fréquence.
Ici, on reporte les valeurs de fj pour obtenir un histogramme de fréquences relatives); et on divise fi
ou ni par le rapport des amplitudes quand elles ne sont pas égales a l’amplitude de l'unite,
xi [10.20[ [20,30[ (30.50, [50,905 [90 100, Total
ni 3 10 4016025 240
fi 208% 4.16% 16.67% 66.67% 10.42% 1
ai io 20 ~40—«*0
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023,60
30
10
10 20 30 50 90 Xi
Notons,
Sans cette rectification I'histogramme aurait é16 faux | Car il représente I'aire et non la hauteur qui
est proportionnelle a f; ou m. La surface totale de Vhistogramme n'est pas modifiée par le
regroupement des classes, Il y a <>.
Exemple
Le tableau suivant retrace le nombre de taxis et les distances parcourues avant une premigre panne :
Ci(millier dekm) [0-5 [5-7 [7-9 79-15 [total
Effectifs (nm) 15s__[78__ [36 [21 [150
Nit 1s [93 [129 [150
Nit 150 [135/47 [21
Dans le tableau précédent la troisiéme colonne par exemple s’interpréte ainsi : 129 taxis ont pareouru
au plus 9000km et 57 taxis ont parcouru au: moins 7000km avant d’avoir une premiére panne, On en
déduit le tableau suivant :
ti 0 5 7 9 15
Nombre de taxis ayant 0 15 3 129 | 150
parcoury au plus ti (millier de
km)
‘Nombre de taxis ayant 150 135 37 20 0
parcouru au moins ti (millier
de km)
Remarque : La somme des effectifs de chaque colonne est égale a effectif total,
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.
95Les données ne nous permettent pas de déterminer par exemple le nombre de taxi ayant parcouru au
‘moins 10km par exemple.
Toutes séries (ou distribution) statistique est analysé a travers un certain nombre de caractéristiques
(ou valeur, ou mesures), dites élémentaires. Ces caractéristiques sont de trois grandes catégories
> Les caractéristiques de tendances (valeurs) centrales ou de position ;
> Les caractéristiques dispersion ;
> Les caractéristiques formes et de concentration,
IIL1 Caractéristiques de valeurs centrales
Comment déterminer une valeur qui soit susceptible d’étre tenue pour « représentative » d'une série
entiere ? la statistique utilise trois possibilités :
> Les moyennes de grandeur (moyenne arithmétique, moyenne harmonique, moyenne
géométrique, moyenne quadratique)
> Les moyennes de repérage ou d’ordre (médiane, médiale et les quantiles : quartiles, déciles et
centiles) ;
> Les moyennes de fréquence (mode).
ILL1.1. Les moyennes de grandeur
Elles se divisent en moyennes simples et en moyennes élaborées,
existe 4 moyennes simples élémentaires : moyenne arithmétique, moyenne harmonique, moyenne
géométrique, moyenne quadratique.
Nous allons mettre l'accent sur la moyenne arithmétique.
Soit un ensemble numérique X a n éléments : X
Cas diseret
Moyenne arithmétique : M
Cas continu
Moyenne arithmétique pondérée : Mp
Exemples:
Pour cette série statistique (tableau 2), rappelons que la moyenne des notes obtenues est le nombre
défini par une moyenne arithmétique
Pour le calcul de cette moyenne, on peut additionner les 20 notes puis diviser la somme par 20, mais
il est préférable de calculer la moyenne pondérée en utilisant le tableau 2 suivant.
Notes xi [effectifS ny [nix
7 3 21
8 2 16
10 3 30.
12 5 36
Cours de Statistiques deseriptives — Dr MABIALA Jean Félix année académique 2022-2023.B 5 65.
14 2 28
16 2 32
Totaux [20 228
3p = LA (moyenne arithmétique de la classe)
TI1.1.2, Les moyennes d’ordre ou de repérage
Il existe plusieurs moyennes d’ordre (dle rang) :
- Médiane
La médiane est la valeur du caractére qui occupe le milieu de la distribution statistique. Pour une série
classée, la médiane est la valeur du caractére qui partage Ia série en deux parties d'égale fréquence
(relative ou absolue). C’est donc la valeur du caraetére pour laquelle la fréquence cumulée est égale ,
Ll, [Fara ey,
2 2
Dans le cas d'une variable discréte, il n’y a généralement pas de valeur correspondant strictement &
cette définition. L'interprétation de la valeur trouvée est parfois incertaine car |'équation (1) n'a pas
souvent de solution exacte.
termination
> Cas d’une variable diseret.
Pour trouver la médiane, il faut :
1- ranger par ordre croissant ou décroissant les nombres de la suite.
2+ Examiner la parité de la suite
a) Si la suite posséde un nombre impair de termes soit (2k + 1), la médiane est constituée par
le (k + 1) i®"* terme,
b) Si la suite posséde un nombre pair de termes soit (2k), la médiane est constituée par la
‘moyenne arithmétique du (k) i*™* et (k + 1) i" terme.
Exemple
Trouver la médiane des distributions suivantes :
xi_ [0 [1 [2 [3 [4 7s [7 [8 [Tort
afi iii 2 fai fio
Nit]i [2 [3 [s Te [7 [Ts [9
La médiane est Me = 3, ce qui correspond a I’effectif cumulé Na =5
> Cas dune variable continu
La détermination de la médiane se fait alors approximativement, par interpolation linéaire
Exemple : Déterminons la médiane de la distribution suivante :
Classe 045 [5a 10 [10430 [30450]
97
Cours de Statistiques descriptives — Dr MABIALA Jean Félte— année académique 2022-2023.Fréquence i 2 3 4
Fréquence cumulée
Croissante
s
La médiane est la valeur Me du caractére qui correspond 4 l’effectif cumulé 5 donc elle sera telle
o_ [10 Amplitudes de classe sont égales :
On définit la classe modale comme la classe (ou M'histogramme) correspondant a la fréquence
maximale,
Exemple _Soit la série elassée suivante : (Tableau ci-aprés)
Classe 0-10 10-20 ‘(20-30 30-40
Fréquence 3: 3 4 1
Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe, soit
ici, Mo = 25. On peut aussi déterminer graphiquement la valeur du mode
(a Vintérieur de la classe modale par la méthode des diagonales).
98
Cours de Statistiques descriptives — Dr MABIALA Jean Félix—année académiquef}]
0 40 x
> Amplitudes de classe sont inégales
11 faut done « corriger » les effectifs ou les fréquences relatives, de la méme maniére que l'on avait
fait pour construire Mhistogramme sur classes inégales, et la détermination du mode se raméne a la
détermination précédente : classe modale et graphe
On définit la clase modale comme la classe (ou I"histogramme) correspondant a la densité maximale
(ou fréquence corrigée maximale).
Le calcul de la détermination de la classe modale se fait en deux étapes :
Calcul des amplitudes ai ;
Calcul des densités d, (relative ou absolue)
Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe
modale, soit ici, Mo = 70, correspondant 4 hi= 60. On peut aussi déterminer graphiquement la valeur
du mode (A 'intérieur de la classe modale par la méthode des diagonales).
xi [10,20[ [20,30 [30.50[ [50.90 [ [90.100 [
ni 5 10 3024030
ai 10 10 2040. 10
05 is 6 3
7 classe dominante
Détermination graphique
En effet d'un point de vue théorique, le mode est I'abscisse correspondante & l’intersection des droites
AB et CD, soit MM Il différe légerement du Mo précédemment utilisé
By
Bthy
On démontre que : My = a+
xa; avec [a;f]la classe modale d’amplitude a,
ni 99
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 202:feces
bi '
5 enim ae oe
i
A 1
rs ;
ie i
os I
1 2030 4 wi) [Mor] p90 10 x
Les plus fréquemment ut étendue, la variance, I’écart type et le coefficient de variation.
11.2.1. Létendue
Lintervalle de variation ou Uétendue est la différence entre Xq la plus grande et x; Ia plus petite des
valeurs observées de la variable : E= x » = xi
L’intervalle de variation d’une série est la maniére la plus simpliste de mesurer la dispersion, car ¢*est
la différence entre les deux valeurs extrémes.
Son calcul est extrémement rapide, ce qui fait qu’on l'utilise fréquemment (surtout dans le contréle
de fabrication industrielle).
‘On dira par exemple que les notes de devoir varient de 6 a 19/20,
Supposons que l’age des étudiants de 1** année Sociologie varie entre 17 et 27ans, I’étendue de cette
série sera de 27 - 17 =10 ; si pendant cette méme année un retraité de 77 ans venait s"inscrire I’étendue
deviendrait 77 -17=60.
11.2.2. Variance, Ecart type, Coefficient de variation.
> Variance
La variance encore appelé moment centré d’ordre deux est définie par :
VX) =2¥ nO, -¥P=02 avec n=ntn,+--+n,
> Ecart type
100
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023L’écart type © (ou I’écart quadratique moyen) est la moyenne quadratique (ou moyenne d’ordre 2)
des écarts a a moyenne arithmétique, il est défini par: ¢, = /V(X) = {
Tenant compte de toutes les observations, il exprime convenablement la dispersion de la distribution
méme trés dissymétrique. C’est la caractéristique de dispersion la moins sensible aux fluctuations
d’échantillonnage. Sa signification n'apparait clairement que pour la comparaison de 2 distributions.
Par exemple, dans une série l’écart type de distribution des notes de devoirs est de 1.5, et si dans une
autre série il est de 4.51, on pourrait dire que dans celle-ci les notes sont 3 fois plus dispersées que
dans la premiere.
> Coefficient de variation
L’écart type, comme la moyenne, s'exprime dans la méme unité que la variable statistique, Pour
comparer 2 distributions qui ne sont pas exprimées dans la méme unité (distribution de revenus dans
des pays différents par exemple), des distributions dont les moyennes sont notablement différentes, *
on a recours au coefficient de variation qui est défini comme le rapport de I’écart type A la moyenne
C’est une caractéristique de dispersion relative, nombre sans dimension et par conséquent
indépendant des unités choisies. Il est souvent exprimé sous forme de pourcentage
Par exemple, dans 2 entreprises E) et E2, pour la distribution des salaires, on trouve : ¥,
= 128 cv1=128/1600 =0.08 = 8%
250 et o2=102.5 ev2=102.5/1250 =0.082
1600 et
2%
La distribution relative des salaires est sensiblement la méme dans ces 2 entreprises. ‘
Supposons que I’on veuille comparet cette dispersion avec celle observée dans une entreprise
américaine comparable dont la moyenne et I'écart type des salaires sont : ¥ = 8008 et «= 69S, donc
Cv = 69/800 = 0.08625 = 8.625% ; la dispersion relative des salaires est du méme ordre de grandeur
dans ces différentes entreprises, et légérement plus élevée dans I'entreprise américaine.
Exemple de calcul de la variance et de Vécart type
Partons des exemples précédents
Notes xi [effvetifsnj]nixi ]x;- x [(x—x)? [ai(x— x)?
7 3 21 1936 [58,08
8 2 16 11,56 23,12
10 3 30 1,96 [5,88
12 3 36 [0.6 [036 [1,08
13 5 65 [16 2,56 12,80
14 2 28 (2.6 6,76 13,52
16 2 32_|4.6 21,16 42,32
Totaux [20 228 63.72 [1568
¥=3ZB = 114 (moyenne arthmétique)¥ 84 (variance) ;
WV =o =2,8(Ecarttype)
101
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.Calcul de la moyenne et de I’éeart type : (Tableau 5)
Taille Jeffeetifn Pri [u-7 |i.7)* |myn-z) >
135 [3 405 [-0.15 [0.0225 0.0675
1,45 15 21,75 |-0,05 |0,0025 0,0375
1,55 7 10,85_|0,05__|0,0025 0,0175
1,65 5 8,25 [0,15 |0,0225 01125
totaux [30 44,90 [0 [0.05 0,235
30
La taille moyenne est 7 = = 1,50.
W
La variance est 7 5 «0,078 et ’écart type est : ,088.
30
HIL3 Les caractéristiques de forme (du polygone de fréquence)
L'asymétrie et l'aplatissement permettent de préciser I’allure de la courbe des fréquences sans avoir
besoin de la tracer
On retient généralement deux mesures de forme d’une série:
= celle de l'asymétrie a pour objet de nous renseigner sur la fagon réguliére ou non dont les
observations se répartissent de part et d’autre d'une valeur centrale ;
- celle de l'aplatissement a pour objet de faire apparaitre si une faible variation de variable
entraine ou non une forte variation des fréquences relatives
Mesure de l'asymétrie
Définition > Une distribution statistique est symétrique si les observations repérées par leurs
fréquences sont également dispersées de part et d'autre d’une valeur centrale,
On choisit généralement les 3 valeurs centrales suivantes pour repérer l'asymétrie ; le mode (Mo), la
médiane (Me) , la moyenne arithmétique (M= ¥ )
Dans une distribution symétrique, les 3 caractéristiques Mo, Me et M sont confondues comme le
monte la courbe suivante,
102
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.Courbe symétrique.
Lorsque que la distribution est asymétrique, la médiane eft généralement comprise entre le mode et
la moyenne et plus proche de cette demniére. :
La courbe non symétrigue est dite oblique : oblique se repére du edté de décroissance la plus forte
de la courbe des fréquences
Oblique a gauche (ou étalée a droite) : Mo Me > M
Mo Me
Courbe oblique @ gauche (ou étalemem a droite
103,
Cours de Statistiques deseriptives — Dr MABIALA Jean Félix année académique 2022-2023.Courbe oblique d droite (ou étalement d gauche)
Les coefficients d’asymétrie
On utilise un certain nombre de coefficients, nombres sans dimension, permettant les comparaisons ,
sans avoir recours aux courbes qui accompagnent la distribution. Nous en retiendrons, ici, trois
connus par les noms de leurs auteurs ; YULE, PEARSON, FISHER.
1) Le coefficient de YULE
11 propose une mesure de I’asymétric en comparant I’étalement vers la gauche et I’étalement vers la
droite, tous deux repérés par la position des quartiles Q1, Me, Qs.
(Q, ~ Me)~(Me-Q,) _ Q,; +Q,-2M,
(Q, - Me) +(Me-Q,) Q,-9,
Le coefficient d’asymétrie de YULE s*éerit : s=
si s=0 esymétrie (les quartiles sont équidistants)
si sO © oblique a gauche (ou étalement vers la droite)
si s<0 < oblique a droite (ou étalement vers la gauche)
2) Les Coefficients de PEARSON
Kart PEARSON propose deux coefficients.
Le premier (s) analyse la position de deux valeurs centrales (le mode et la moyenne arithmétique
relativisés par la dispersion de la série)
M~—Mo
o
Sis=0 © symétrie
Sis > 0.< oblique a gauche
Sis <0 <> oblique & droite.
Remarque: Ce coefficient n’est valable que pour des distributions de fréquence faiblement
asymétriques et uni modales.
s
Le deuxiéme coefficient, B; est plus élaboré. I! s"appuie sur le calcul des moments centrés. Ceci est
beaucoup plus fastidieux mais le résultat obtenu est plus intéressant surtout pour les séries possédant
un grand nombre "observations.
104
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.ig “
avec —Sa(x-*) =
ne ne FY" (ua
Si Bi =0 <> symétrie (de la distribution de fréquence autour d’un axe passant par ¥ )
Si Bi> 0 & oblique a gauche (plus étalé 4 droite qu’a gauche)
I s*écrit : By
3) Coefficient de FISHER
Sir Roland FISHER propose le coefficient yi qui n'est que la racine carrée du coefficient Bi de
PEARSON
0
[B. 3
+/p-3
1744-3
On tire les mémes conclusions que pour B
Si yi <0 € oblique & droite (plus étalé & gauche qu’a droite)
Mesure de aplatissement
Déinition : On considére qu’une courbe de fréquence soit plus ou moins aplatie, par référence a la
courbe de fréquence (ou densité) de la normale (loi de GAUSS- LAPLACE). Ainsi une distribution
est dite aplatie si une forte variation de la variable entraine une faible variation de la fréquence relative
(fi) et inversement
1 2 3 4 5 6 7 @
Courbe normale
1.2 3 4 5 6 7 8 9
Courbe hypo normale
10S
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023,Courbe hypemormale
Les coefficients daplatissement
La logique est de comparer si la distribution est plus ou moins aplatie par rapport & la courbe de la loi
normale de méme moyenne et de méme écart type.
Le coefficient de PEARSON (Kurtosis)
Ha Ha
Aaa
moe
Ce coefficient est d 'autant plus faible que la courbe est hyponormale
2-3 pour une distribution normale (B2 croit avec Ia concentration des fréquences autour de la
moyenne).
2- Le coefficient de FISHER
0 pour une distribution normale
» > 0 pour une distribution leptocurtique ou hyper normale
Y <0 la courbe des fréquences est platicurtique ou hypo normale.
11.3.1 Les caractéristiques de concentration
La concentration est done une conséquence directe de la dispersion, ceci revét une grande importance
cen économie (concentration des salaires, des revenus, de la taille des entreprises.)
Cette caractéristique ne s"applique qu’aux variables statistiques continues & valeurs positives. On lui
trouve de nombreuses applications dans la gestion de l'entreprise.
106
Cours de Statistiques deseriptives — Dr MABIALA Jean Félix— année académique 2022-2023,La médiale est une valeur particuligre du caractére telle que tous les caractéres supérieurs constituent
lune moitié de la masse globale des caractéres, l'autre moitié étant constituée par tous les caractéres
inférieurs. Elle partage done la série (nisi; x:) en deux sous-ensembles Egaux.
On peut aussi dire que la médiale est la médiane que I’on calcule non plus sur les fréquences absolues
ou relatives (niou f.) de la série mais sur le produit (mix jou fixi), xi étant le centre de classe.
Détern
is
On calcule la médiane (Me) de la série ;
On calcule la médiale (MI) de la série ;
On mesure l’écart AM entre la médiale et la médiane ;
On compare cet écart (AM) a |’intervalle de variation de la série (xx4 - Xm).
Remarque : La médiale est supérieure & la médiane vue qu’on raisonne en masse dans le premier cas
AM = Mle - Me
Comparaison de AM 4 I'intervalle de variation :
~ Si AM est grand par rapport 4 |’intervalle de variation, la concentration est forte (dans I’exemple des
revenus, cela signifierait qu'il y de grandes disparités de revenus entre les classes de revens).
- Si AM est petit par rapport a |’intervalle de variation, la concentration est faible (dans I’exemple des
revenus, cela signifierait qu’il n'y a pas de grandes disparités de revenus entre les classes de revenus).
~ Si AM est nul, la médiane est égale a la médiale, on se trouve dans une situation d’égalité parfaite
ou d’équi-répartition, si les classes sont bien choisies. (Dans l’exemple des revenus tout individu a le
méme revenu entre les différentes classes de revenus).
Liindice de concentration de Gini (statisticien italien CORRADO GINI : 1912) et utilisée pour
la dispersion de certaines distributions statistiques : distribution de salaires ou de revenus,
distribution d’entreprises suivant leur taille (nombre de salariés, chiffres d’affaires).
Exemple : Etudions la concentration de la distribution des allocations (en milliers de francs CFA)
suivante:
Ci_] 10-20 [20-30 [30-50 | 50-90
ni_| 20 40 30 10
HF: (Bi * Bit)
ei Hr fit fos ffxi] ca
[i0; 20f [0,2 for is} 313 | 0.094 [oo9a] 0 0.019
(20: 30f [0.4 |0.6 [2s [10] 13 | 0.406 [0,406 [0,094 0.200
(30: sor_[0.3 [0.9 40/12] 25 [0.781 [0,781 [0.406 0.356
[ts0: 90f lor [1 [7o[ 7 [32 [1,000 [1,000 [0,781 [ 0.178
total 1 32 0.753
La médiane est la valeur Me du caractére qui correspond 4 la fréquence cumulée 0,5 done elle sera
telle que =
107
Cours de Stenistiques descriptives ~ Dr MABIALA Jean Félix— année académigue 20:25,done M, =20+25x0,3=27,50
20 des écarts), Avec écarti = yi -
110
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023.Ces différences (écarts peuvent étre positives (écart e2), négative (écart er) ou nulle si les valeurs
cobservées et théoriques sont confondues).
Pour éliminer ce probléme de signe et faire en sorte que la sommation de ces écarts ne se traduise pas
par une compensation quand ils sont de signes contraires, on les éléve au carré, ce qui les rend tous
positifs.
Nous chercherons done & minimiser J) (des carts)’. L’expression d’un écart queleonque peut
yi-y'i; done la droite la plus représentative est celle pour laquelle la somme des écarts
(e:¥ est minimale, d’oii le nom de méthodes des moindres carrés
Min (iyi?
Recherche des paramétres de la droite des moindres carrés.
On démontre et nous admettons que la droite qui minimise les écarts passe par un point
Ys -3o.-3)
1 =D,
caractéristique, le point moyen de coordonnées ¥ e¢ Pet que sa pente a et son
équation y— y= a(x-¥)
x Jet youjaax+6 avecb=y—a
Définition
(On appelle covariance entre les variables les x et les y notée cov(x, y), le réel défini par
lS.
cov (xy) = Dale, KY, -¥)
aoa g— Se)
On appelle coefficient de corrélation défini par la droite de régression de y en x, le réel noté r et détini
par
cov
oo,
Exemple : Le tableau suivant donne |"évolution de la moyenne Y, d’un étudiant compte tenu de sa
note de mathématiques durant quatre années d’étude.
x Ty Ty? [xy
15 [13 [225 [169 [195
ii [12 [121 fiaa [132
16 [14 [256 [196 [224
18 [16 [324 [256 [288
total [60 [55 [926 [765 [839
Caleuls de base
iret
Cours de Statistiques descriptives ~ Dr MABIALA Jean Félix— année académique 2022-2023r Baisas, Cov(x,7) = #2 1501375 =3;
Pa,
4
very = "803957 =219;0,J8B =148
Coefficient de corrélation entre X et Y
COMA) 3.5 35
Oxo, 255x148 3,774
ajustement linéaire est fondé.
=0,93, il y a une forte corrélation entre X et Y done un
Les coefficients de la droite de régression
5 CoUX.Y) _ 35
La pente :@ = SAAD) _ 35
VarX 65
D’ouil’équation cherehée :
Etude de la Corrélation
La corrélation simple mesure le degré de liaison existant entre deux phénoménes représentés par des
variables.
La corrélation multiple permet de déterminer le degré de liaison existant entre trois variables ou plus.
La corrélation est linéaire lorsque tous les points du couple (x.y) des deux variables semblent alignés
sur une droite,
La corrélation non linéaire lorsque les couples de valeurs se trouvent sur une méme courbe d’allure
queleonque
La représentation graphique donne une impression visuelle de la corrélation entre deux variables sans
donner une idée précise de I’intensité de cette liaison, C’est pourquoi, on calcule une statistique
Covx.y)
Oey
appelée coefficient de corrélation linéaire simple notée ret défini par
Exemple
On s’intéresse a la liaison pouvant existée entre la moyenne générale (y / 20) et la note de Statistique
(x / 20) des étudiants de la 1** année de géographie. On reléve 10 couples de données consignées
dans le tableau suivant
Tableau | moyenne générale y et moyenne x en Statistique
| na 3a 0a 2320]
Lx 12 116 14 15 10 16 14 15 10 9
1 Tracer le nuage de points puis commenter
[Link] le coefficient de corrélation empirique simple
IV.
: Tableau de contingence en fréquences (Tri ¢roisé)
La répartition des n observerions ou distribution conjointe suivant les modalités de
X= (K, X2y Kip ws Nk) CUY= (Vis 25 ---Vjp -» Ys). $e présente sous forme de tableau & double entrée
appelé tableau de contingence (en effectifs on en fréquences).
Exemple
Quatre vingt dix enfants d'un échantillon atteints de l'asthme et eczéma sont répartis de la maniére
suivante
12
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023,Tableau? :Tableau d’effectifs d'une série statistiques & deux caractéres
Asthme fort [moyen. [Igger | Total
eczéma, (n= ai)
[présent 3p mn)
passé 7_{6 13 [26
[jamais 10 [1s [20 __|4s
Total (nj=b) [20 [30 [40 [90
IciN=90
IV.2.1 Lois marginales, fréquences marginales et fréquences conditionnelles
D'aprés le tableau d’effectifs du cas général, on obtient :
Loi marginale de [Link] la colonne a droite du tableau
Contre de classes [Xj [X2 X:
Fréquences absolues | 1 a2 Ac
Loi marginale de Yest la ligne en bas du tableau
Centre de classes [Yi Ye Ti [ve
Fréquences absolues [bi be ib B,
Fréquenece marginale de X
Centre de classes [Xi [XJ [Xi Xe
Fréquences (fi) fi a fe
Frégence marginale de ¥
Contre declasses [Xi [Xo [uuu [X Xe
Fréquences (fi) [fi fi ai fr
Fréquence conditionnelle de la variable X si ¥= yj est la colonne y,
Centre de classes [Xi [Xa Xi jae [Xe
Fréquences absolues [py [my |... [Dy Dy
Fréquence conditionnelle de la variable ¥ si X= xi est la ligne xi.
Centre de classes [Yi [Yo Yi seen |S
Fréquences absolues [niu [no Ti . Ris
Propriété trés importante:
us
Cours de Statistiques descriptives — Dr MABIALA Jean Félix année académiqueSi ¥ est indépendante de X, alors quels que soient i=1,..., ret +1,
b
Cette propriété caractéristique de Vindépendance est trés importante, car elle permet, a partir des
distributions marginales en fréquences des variables X et Y, de reconstituer le tableau de contingence
en effectif que l'on doit obtenir si 'on fait "hypothése que les variables X et Y sont indépendantes.
Ce tableau reconstitué est appelé tableau de contingence théorique en effect
Soit tj, leffectif théorique lorsque 'hypothése d'indépendance est réalisée, on a quelque soient i=1,...°
1, 2, xn, xb,
N- N«N
Les effectifs t sont appelés effectifs théoriques :
Test du Khi-deux
Pour mesurer la "distance" qui sépare le tableau théorique du tableau observe, on utilise l'indicateur
nots 3 pyoa et appelé "Khi-deux
22 =0 si et seulement si X et Y sont indépendantes.
Liindépendance des caractéres X et Y conduit ii formu
Lthypothése : Hq « Les caractéres X et Y sont indépendants »
Sous I’hypothése ( Hq ), on compare les distributions deffectifs observés et théoriques,
La variable aléatoire 7 est une variable de Pearson a v= (L—1)(C—1) degré de liberté (ddl)
(L=nombre de lignes et C = le nombre de colonnes du tableau de contingence).
Pour v degrés de liberté, la table de 7° donne le nombre z; tel que P(y2> x3(a@) )=a etonconclut
ainsi :
Si 422 Z)(@) , om refuse U'hypothése (Ho) au seuil de signification, done les caractéres X et Y
ne sont pas indépendants
Si Z.*< 75(@), on ne peut refuser I'hypothése (Ho) au seuil de signification, a donc les caractéres
X et Y sont indépendants ( le test ne fournit aucune exigence contre (Ho) ). Dans ce cas, il peut étre
intéressant de rechercher le seuil minimum @,, pour refuser (H), puis raisonner sur la valeur de
py
Exemple
Deux cent enfants d'un échantillon atteints de I’asthme et eczéma sont répartis de la manigre suivante
Tableau 2 : tableau de contingence en effectifs (les valeurs observées sont en gras)
EJA [Fort Moyen [Léger Total |
114
Cours de Statistiques descriptives — Dr MABIALA Jean Fille année académique 2022-2023.Présent 25 [5 5 35
12,775 15,575 6,65
Passé 30 30 10 70
25,55 _{31s 13,3,
Jamais 18 34 3 95
34,675 42,275 18.05
Total B 89 [38 200
5— Ps > (5665) (30-2555) (30-3115? (10-133)
2e 12,775) 46 15,575) 6 6,65). (30. 25,55) 60 31,15) lo 133) “
TRIS 15.575 6.65 25,55 3115 133
(18-34,675) ‘ (54-42,275)' (23-18,05)°
34.675 42,275 18,05
= 11,699+ 7,180 + 0,409 + 0,7
7 = 33,552
v= (3-1)]3-1)=4 dégré de liberté
(4)=949 (le sur la table du 72)
Soit Ho-Vasthme et l'eczéma sont indépendants ; comme
a dépendance de ces deux maladies et on rejette I’hypothese Ho.
+0,042 + 0,819 +8,019+3,252+1,357
33,552 > z3,,(4)= 9,49, on conchut
ANNEXE 1 : Quelques exercices d’application
Exercice 1
Répondez aux affirmations suivantes par oui ou non, Reportez le numéro de la question suivi de la
réponse oui ou non
~ Les modalités précisent un caractére statistique.
- Une variable statistique est une modalité qualitative chiffrée.
+ Une variable discréte est un regroupement de valeurs en intervalles.
- L’amplitude d’un intervalle est calculée pour une variable discréte.
- Une distribution ne peut étre représentée sous la forme d’un polygone de fréquence.
= Lamoyenne est une caractéristique de valeur centrale,
~ L’écart absolu mesure la dispersion autour d’une grandeur de valeur centrale.
- Le coefficient de variation est un nombre sans unité.
Exercice 2
Lrenquéte démographique et de santé Gabon 2000 (EDSG 2000) a donné la distribution des méres
d'enfants de moins de cing selon le niveau d"instruction :
‘Niveau d instruction Secondaire
Aucun___|Primaire _ | ou plus Ensemble
fectifs des meres 152 1035 1376 2563
us
Cours de Statistiques deseriptives — Dr MABIALA Jean Félix— année acudémique 21Représenter cette distribution l'aide d’un graphique circulaire.
Exercice 3
La population des quatre régions MAYEVILLE est donnée par le tableau suivant :
Département | Population
(en milliers)
1 5150
1710
it 420
uv. 440
Représenter cette distribution a l'aide de graphe circulaire puis commenter.
Exercice 4
Etant donné les valeurs suivantes ¢ 12,4, 3, 8, 7, 2
calculer : la moyenne arithmétique,
Exercice 5
Etant donné 5 valeurs suivantes : [2, 8, 17, 12, 3] dont les coefficients attribués respectits sont : [2,
3, 1, 3, 2]. calculer : la moyenne arithmétique pondérée
Bxercice 6
Lors d'un recensement, on a obtenu les résultats partiels suivants :
Nombre d'exploitations
Agricoles Superficie
6 0-5 ha
24 5-10ha
8 10-20ha
2 120-50 ha
Quelle est la surface de l’exploitation moyenne
Exercice 7
‘A partir du tableau ci-dessous,
Département [Nombre d’habitants | Population ]
pourune voiture | Département
| (enmilliers)
I 5 [5.150
I 15 1.710
Mr 7 [420
IV 8 440
Caleuler le nombre de voitures qu’il faut par département.
116
Cours de Statistiques descriptives — Dr MABIALA Jean Féli
année académiqueCalculer le nombre moyen d’habitants par voiture automobile dans l'ensemble de la région constituée
‘par les quatre départements.
Exercice 8
Déterminer le mode et la médiane des séries suivantes :
49, 8, 5, 5, 2,3, 5, 6, 1, 6} ;
{10, 8, 11, 12,4, 5, 6, 7, 4, 6, 8}
Exercices 9
Etant donné la distribution statistique
s
0a 10
10 4 20
20 430
30440
total
Déterminer trois caractéristiques de valeurs centrales
Exercices 1)
Etant donné la distri
statistique suivante
Classes | Fréquences
oa 5 8
5a 10 6
10430 10
3050 6
total | 30
Tracer l'histogramme et fe polygone des fréquences
Calculer la moyenne M puis déterminer le mode Mu et la médiane Me.
Exercice i!
Etant donné la distribution statistique suivante
Classe Fréquences
Moins de 25
25 Amoins 35
35 4 moins 45
45 a moins 55
55 a moins 65
65 Amoins 75
‘75 & moins 85
85 A moins 95
95 et plus
total
Tracer 'histogramme et le polygone des fréquences ;
Calculer la moyenne M, le mode Mo et la médiane Me ;
Exercice 12
Les observations sur le nombre de familles de x enfants sont données dans le tableau ci-dessous :
KH Renas8eUe
117
Cours de Statistiques descriptives — Dr MABIALA Jean Félix—année académigue 20:x 0 1 2 3 4 5 6 7
0 1995 | 3245 | igo1 | 654 298) 94 36 12
X : nombre d’enfants ; nombre de familles.
1+ Quel est le caractére étudié ?
2+ Xest-elle une variable statistique ? Quelle est sa nature ?
3- Calculer les fréquences relatives de cette variable.
Exercice 13
Les primes regues par les exploitations d'une région (UM/ha) sont données dans le tableau suivant
x___| Moins de 1500 | 1500-2000 [2000-2500 [2500-3000 [3000et plus |
ni 210 120 502 180 62 |
X : montant des primes ; nj : nombre d’exploitations,
1 Déterminer le mode (préciser I’intervalle modal).
2- Déterminer la moyenne puis médiane de cette distribution.
Exercice 14
Une facture porte sur 150 articles différents et tous ont des prix de vente unitaires différents. On en
tire le tableau suivant
Prix de vente | Nombre
Unitaire articles
(francs)
15-60. 22
60- 100 65,
100- 200 38
200-530, 25
Total 150
) Calculer le prix de vente médian, le prix de vente moyen de l'article et le prix de vente le plus
frequent,
b) Calculer I’écart type de cette distribution.
Exercice 15
On donne la distribution des allocations (milliers de franes) de la société Ango et fils dans le tableau
suivant :
Classes | Fréquences fi
Moinsde 30) 0,15
30—40 0.19)
40-50. 0.13
50-70 0.20
118
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 2022-2023,70-100 0.18
100et plus | 0,1
Déterminer les quartiles, le mode et la moyenne arithmétique de cette distribution.
Exercice 16
Dans une bibliothéque, l'ensemble des abonnés a été réparti suivant le nombre d’ouvrages empruntés
durant ce mois :
Xi 03 [3-5 58 8-10 10-12
Di 18 139) 57. ic 22
1- Calculer la médiane, la moyenne et le mode de cette série puis conclure.
Exercice 17
On donne la distribution suivante :
Classes | Fréquences fi
‘Moins de 50 O15
= 100 0.19)
100 - 200 0.13
200 - 400, 0.20
400-700 0.18
700 et plus 0,15
Déterminer, le mode et la moyenne arithmétique de cette distribution.
Exercice 18
On a évalué les superficies des grandes exploitations agricoles d’une région en hectare. Les résultats
sont les suivants
50, 57, 62,70, 60,56, 65,50, 64, 68, 62, 58, 63, 65, 45, 57, 56, 61, 60, 58, 62, 64, 64. 61, 65
63, 64, 61.56, 50. 49. 50, 60,48, 59, 63. 61, 55, 56, 64, 68, 53,50, 72, 72, 73, 64, 63.57, 57
1 Grouper les données en classes d’amplitude 5 unités de la fagon suivante : 45 a moins de 50,
50 a moins de 55.
2. Déterminer la distribution des fréquences cumulées croissantes.
3+ Quelle est la fréquence des exploitations dont la superficie est supérieure ou égale a 60?
4- Quelle est la fréquence des exploitations dont la superficie est inféricure 4 55?
5- Quelle est la fréquence des exploitations dont la superficie est comprise entre 53 et 67?
Exercice 19
‘On donne la distribution des superficies des grandes exploitations agricoles d’une région en hectare,
Les résultats sont consignés dans le tableau suivant.
c_| Effectifs (mi)
45-50 3
50-55 6
119
Cours de Statistiques descriptives — Dr MABIALA Jean Félix— année académique 202.55-60 12
60-65 19)
65-70 6
70-75 4
total 30
Etudier la dispersion et la disparité des superficies le la distribution ci-dessus
Exercice 20
Dans une bibliothéque, I’ensemble des abonnés a é1& réparti suivant le nombre d’ouvrages empruntés
durant ce mois :
ni 18 39 37, 64 [42 33 21 14
x 0 1 2 3 4 5 6 74
J
Calculer les trois caractéristiques de valeurs centrales de cette série, puis conelure.
Exercice 21
On considére la répartition des chefs d’exploitation par age et par taille de S.A.U (surface agricole
utile) donnée par le tableau suivant : X : « age », Y : « surface » en hectares
ie [Oxf | [10330f | [30:50[ | [S0s00f | Toial
x
[5 25, 10 12 9 ul
[25 535] 20 14 16 30
(35:45, 40 18 33 39
[14555 30 60 70 150
[55:65] 120 70 80 120
Total
Combien y at il de chefs d’exploitation ayant moins de 5S ans et l’exploitation fait plus de 30 hectares,
de SAU.
Reproduisez le tableau en le completent avec les effectifs marginaux.
Donnez les lois marginales de X et de Y.
Exercice 22
Le chef service d'une grande surface dispose des données ci-dessous, Pour différents produits le
temps mis par un employé a installer les rayons en fonction du nombre d”articles ranger est donne
dans le tableau suivant :
Produit n°i x ¥
(Nombre d’articles) | (emps mis en mn et 1/10 de mn)
1 10 2:
2 I 20 3
3 40, 5.5
4 50 62.
5 70 79.
6 100 10.2
7 120 1B
120
Cours de Statistiques descriptives — Dr MABIALA Jean Félix — année académique 2022-2023,8 150 154
Total 560 65.2
‘On donne les résultats suivants : x? = 56400 ; 3,
Ecrire I'équation de droite régression de Y en X puis tracez cette droite sur le méme graphique que
le couple (Xi, Yi). Calculez le coefficient de détermination R? de la régression.
En voyant ce graphique, une donnée, la seconde, semble anormale ; elle correspond a une présentation
publicitaire qui a nécessité un temps plus important.
Caleulez les estimations 4: ; 6 des paramétres a et b du modéle Yt= aXt + b, aprés I’exclusion du
point aberrant
Calculez le nouveau coefficient de détermination. Que pouvez-vous conclure ? Quelle est I"équation
4 utiliser pour faire de bonnes prévisions ?
Exercice 23
Soit le modéle :C, =a Ri +b+Us; t= L...n, of C,, Ri désignent respectivement la consommation
et le revenu disponible (en millier de francs) la période t : a et b sont les paramétres inconnus du
modéle ; les U: sont les variables aléatoires indépendantes, suivant chacune une loi normale de
moyenne zéro et d’écart type 6 °
Sachant que R = 1590,80 ; C= 1429,52 ; Cov(R,C) = 271738,5 ; 0°(C)=
6° (R) = 314098
Déterminer
La qualité d'un de l’ajustement linéaire associé a cet échantillon puis conc
La droite de régression C en R ;
Pour un revenu disponible de 500,000F, quelle serait la part consacrée a la consommation ?
45581,5 et
Exercice 24
Les 1000 femmes d’un échantillon sont réparties selon leur niveau d’éducation (NED) et leur
appartenance une classe socio-économique (CSE) de la maniére suivante ;
[ NED/ CSE | Aisée | Modeste [ Total
Primaire | 70 | 266 | 336
Secondaire | 180 | 286 | 466
Supérieur | 154 [44 | 198
Total [404 | 596 [1000
Les deux caractéres « niveau d’éducation » et « categorie socio-économique » sont-ils indépendants ?
BIBLIOGRAPHIE
ALONZO Philippe, Initiation a la statistiques descriptive en Sciences sociales, Paris, Collection
Guides, 2003, 216 p.
ANDERSON. SWEENEY. WILLIAMS, Statistiques pour "économie et gestion, Nouveaux
Horizons, de boeck, 2006
121
Cours de Statistiques deseriptives — Dr MABIALA Jean Féllx— année académigue 2022-2023.BAILLY Pierre ; CARRERE Christine, Statistiques Deseritpitves. Cours, Presse Universitaire de
Grenoble, 2007, 131 P.
BOURSIN J.L. et DURU G., Statistique Cours-Méthodes- Exercices, Vuibert,1995.
CHAUVAT G, et REAU L-P., Statistiques descriptives, Exercices et corrigés, Armand Colin, 1996,
GRAIS B. Méthodes statistiques,
* édition Dunod, 1998.
GAULTIER M., Statistique 100 exercices corrigés avec résumés de cours, Vuibert,1997.
Support de cours de statistique, Licence 1 Sociologie: Joseph MOUTANDOU-MBOUMBA et
Bertrand Dimitri NDOMBI-BOUNDZANGA ( année universitaire 2019-2020),
Cours de Statistiques descriprives — Dr MABIALA Jean Féltx— année académique 2022-2023