Statistique Descriptive 2023-2024
Statistique Descriptive 2023-2024
INTRODUCTION
L’objectif de la statistique descriptive est de recueillir des données observées portant
sur une population constituée par un ensemble d’individus et d’analyser ces données
en les groupant dans des tableaux, de les représenter graphiquement et de calculer
plusieurs indicateurs permettant d’avoir des renseignements approfondis sur ces
données.
1. ETYMOLOGIE
De l’allemand staatskunde, dérivé de l’Italie statista (homme d’Etat, statiste), la
statistique représente l’ensemble des connaissances que doit posséder un homme
d’Etat.
2. DOMAINES D'APPLICATION
Dans la pratique, les méthodes et outils statistiques sont utilisés dans des domaines
tels que :
• Economie, assurance, finance : l'étude quantitatives de marchés, prévisions
économétriques, analyse de la consommation des ménages, taxation des primes
d’assurances et de franchises, gestion de portefeuille, évaluation d’actifs
financiers, … ;
• Biologie, médecine : essais thérapeutique, épidémiologie, dynamique des
populations, analyse du génome, …
• Sciences de la terre : prévisions météorologiques, exploration pétrolière, …
• Sciences humaines : enquêtes d’opinion, sondage, étude de la population, …
• Sciences de l’ingénieur : contrôle de qualité, sûreté de fonctionnement,
évaluation des performances, …
• Sciences de l’information : traitement des images et des signaux,
reconnaissance de forme et parole, machine learning, …
3. BUT DE LA STATISTIQUE
Les données sont entachées d’incertitudes et présentent des variations pour
plusieurs raisons :
▪ Le déroulement des phénomènes observés n’est pas prévisible à l’avance avec
certitude ;
▪ Toute mesure est entachée d’erreur ;
▪ Seuls quelques individus sont observés ;
▪ Etc.
Données issues de phénomènes aléatoires.
Intervention du hasard et des probabilités.
Doctorant Elie NK
2
Support de cours de statistique descriptive
4. OBJECTIF
L’objectif est de maîtriser aux mieux cette incertitude pour extraire des
informations utiles des données, par l’intermédiaire de l’analyse des variations
dans les observations.
5. OBJECTIFS SPECIFIQUES
La réalisation de l’objectif global implique que l’apprenant soit capable de :
➢ définir et d’expliquer certains concepts statistiques tels que la population,
les variables ou caractères, les séries et tableaux statistiques, etc.
➢ classifier les variables d’après leur nature ;
➢ présenter les séries statistiques dans des tableaux ou sous forme graphique
et de les synthétiser à l’aide des paramètres caractéristiques ;
➢ définir et de calculer une corrélation ;
➢ élaborer une droite ou une courbe de régression ;
➢ calcul un indice statistique ;
➢ étudier une série chronologique.
6. METHODES STATISTIQUES
Statistique descriptive : elle a pour but de résumer l’information contenue
dans les données de façon synthétique et efficace par :
▪ Représentations tabulaires ;
▪ Représentations graphiques ;
▪ Indicateurs de position, de dispersion et de relation ;
▪ Régression linéaire.
Permet de dégager les caractéristiques essentielles du phénomène étudié et de
suggérer des hypothèses pour une étude ultérieure plus poussée. Les
probabilités n’ont ici qu’un rôle mineur.
Doctorant Elie NK
3
Support de cours de statistique descriptive
Doctorant Elie NK
4
Support de cours de statistique descriptive
CHAPITRE I : TERMINOLOGIE
Doctorant Elie NK
5
Support de cours de statistique descriptive
11. Caractère quantitatif continu : Le caractère peut prendre théoriquement
n’importe quelle valeur dans un intervalle donné de nombres réels.
Exemple : La taille d’un individu, le poids, …
12. Série statistique : L’ensemble des différentes données associées à un certain
nombre d’individus. Exemple : la série suivante d’une courte enquête auprès de
quelques personnes pour connaître leur âge :
18 21 19 19 17 22 27 18 20 17 20 18 23
k
0 fi 1 f
i =1
i = 1 où k représente le nombre de classes.
p
i
i = 100
Exemple : En 2009 parmi les français de plus de 17 ans sur 21.033.906 hommes
il y a 4.286.858 retraités
4.286.858
x 100 20% D’hommes sont retraités.
21.033.906
Doctorant Elie NK
6
Support de cours de statistique descriptive
2.1. TABLEAUX
A. Cas d’un seul caractère (ou une seule variable)
Le tableau brut se présente sous la forme suivante :
Individu Caractère ou
variable
1 x1
2 x2
3 x3
… …
n xn
Doctorant Elie NK
7
Support de cours de statistique descriptive
Pour une variable qualitative, les modalités ne sont pas mesurables.
Pour une variable quantitative, les modalités sont mesurables. Ce sont des valeurs
numériques ponctuelles lorsque la variable est discrète, des intervalles lorsque la
variable est continue ou lorsque la variable est discrète et qu’elle comporte
beaucoup de modalités.
Application
Etude d’une population de 1.000 entreprise selon le caractère « forme juridique »
Les modalités retenues sont :
• SA : Société Anonyme ;
• SARL : Société A Responsabilité Limitée ;
• EI : Entreprise Individuelle
• SNC : Société en Non Collectif.
Les effectifs respectifs sont : 200 400 340 60
TAF (Travail à faire) : Présentez cette série dans un tableau.
Application
Dans une entreprise, une enquête statistique a été faite sur 500 employés et portant
sur deux caractères ; l’âge et la rémunération. Les résultats de l’enquête sont
présentés dans les deux tableaux suivants :
Doctorant Elie NK
8
Support de cours de statistique descriptive
Age n
20 à 25 150
25 à 30 100
30 à 35 200
35 à 40 50
Rémunération en n
dhs
Moins de 1.500 150
1.500 à 2.000 100
2.000 à 2.500 200
Plus de 2.500 50
Doctorant Elie NK
9
Support de cours de statistique descriptive
2 1 1 4 1 4 3 2 2 2
3 2 1 1 4 2 2 1 2 3
2 8
3 3
4 3
TOTAL 20
Doctorant Elie NK
10
Support de cours de statistique descriptive
Une légère différence pourrait se présenter au cas où une des valeurs observées de la
variable se trouverait exactement à la frontière d’une classe. Si, par exemple le poids
d’un des sportifs observés était exactement de 65 Kg, faudrait-il rattacher cette unité
à la classe « 60 à 65 » plutôt qu’à la classe « 65 à 70 », ou faudrait-il faire le
contraire ?
Pareille éventualité doit avoir été prévue, et la décision doit avoir été prise
préalablement à l’étude statistique.
Si on a décidé, par exemple, que l’extrémité supérieure d’une classe ne fait pas
partie de la classe, ce qui entraîne que les classes seront les suivantes :
moins de 55 ou , 55[
55 à moins de 60 ou [55, 60[
60 à moins de 65 ou [60, 65[
… … …
75 à moins de 80 ou [75, 80[
80 et plus ou [80,
moins de 55 et 55 ou , 55]
plus de 55 à 60 ou ]55, 60]
plus de 60 à 65 ou ]60, 65]
… … …
plus de 75 à 80 ou ]75, 80]
plus de 80 ou ]80,
Doctorant Elie NK
11
Support de cours de statistique descriptive
METHODE DE STURGES DITE « METHODE DE LIORZOU »
Cette méthode consiste à calculer :
10.log.n
1. Le nombre des classes par la formule : k = 1 +
3
d
2. L’amplitude : a = avec d = Xmax - Xmin
k -1
a
3. La limite inférieure : L i = X min -
2
Exemple : Les notes finales en mathématique obtenues par 80 étudiants d’une
université sont reportées dans le tableau suivant :
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
10.log.n 10 log80
k = 1+ =1+ = 7,34 ≈ 7
3 3
d 44
a= = = 7,33333 ≈ 7
k -1 7 -1
a 7
L i = X min - = 53 - = 49,5
2 2
TABLEAU STATISTIQUE
Intervalles Effectifs
des classes ni
[49,5 – 56,5[ 1
[56,5 – 63,5[ 13
[63,5 – 70,5[ 10
[70,5 – 77,5[ 25
[77,5 – 84,5[ 14
[84,5 – 91,5[ 10
[91,5 – 98,5[ 7
80
Doctorant Elie NK
12
Support de cours de statistique descriptive
A. Variable qualitative
A chaque modalité i est associé un effectif ni.
La seule représentation qui nous intéresse est celle des effectifs ni (ou des
fréquences ni /n). Suivant la variable observée, de nombreuses représentations plus
ou moins informatives peuvent être utilisées. Cependant les 2 plus classiques sont :
Effectifs ou fréquences
Pas de flèches
Modalité
s
L’ordre dans lequel sont présentés
les tuyaux n’a pas d’importance
b) Les diagrammes à secteurs (ou camemberts)
- L’effectif total est représenté par un disque ;
- Chaque modalité est représentée par un secteur circulaire dont la surface
(pratiquement : l’angle au centre) est proportionnelle à l’effectif
correspondant.
modalités
Doctorant Elie NK
13
Support de cours de statistique descriptive
Application : La répartition des candidats convoqués pour participer au test
d’admissibilité à la formation en management (TAFEM 2023) pour l’accession à
l’Ecole Nationale de Commerce et de Gestion, selon la série du baccalauréat se
présente comme suit :
Série du Bac : xi Nombre de candidats : ni
Sciences économiques 250
Sciences 200
mathématiques
Sciences 400
expérimentales
TGA 50
TGC 100
TOTAL 1 000
TAF : Représentez cette distribution en tuyaux d’orgues et diagramme circulaire
B. Variable quantitative.
Avant toute tentative de représentation, il y a lieu de distinguer entre variable
discrète et variable classée (regroupements en classe)
Deux types de graphiques sont intéressants de représenter :
a) Les diagrammes différentiels qui mettent en évidence les différences d’effectifs
(ou de fréquences) entre les différentes modalités ou classes.
b) les diagrammes cumulatifs qui permettent de répondre aux questions du style
"combien d'individus ont pris une valeur inférieure (ou supérieure) à tant?"
1) Variable discrète.
a. Diagramme différentiel : le diagramme en bâtons
Les valeurs discrètes xi prises par les variables sont placées sur l'axe des
abscisses, et les effectifs (ou les fréquences) sur l'axe des ordonnées. La
hauteur du bâton est proportionnelle à l'effectif.
ni ou fi
xi
Doctorant Elie NK
14
Support de cours de statistique descriptive
b. Diagrammes cumulatifs.
Ils permettent de visualiser l’évolution des effectifs (fréquences) cumulés
croissants ou décroissants.
fcd
0,65
fca
0,35
2 4 6 8 10
Application :
Représentez graphiquement la distribution des 50 étudiants en fonction du
nombre de personnes par ménage suivante :
Nombre de Nombre d’étudiants
personnes par ni
ménage xi
3 5
4 15
6 15
7 10
8 5
TOTAL 50
Doctorant Elie NK
15
Support de cours de statistique descriptive
2) Variable classée.
a) Diagramme différentiel : l’Histogramme
C'est un ensemble de rectangles contigus, chaque rectangle associé à
chaque classe ayant une surface proportionnelle à l'effectif (fréquence) de
cette classe.
Attention : Avant toute construction d'histogramme, il y a lieu de regarder
si les classes sont d'amplitudes égales ou inégales.
Le cas des classes d'amplitudes égales ne pose aucune difficulté car il suffit
de reporter en ordonnée l'effectif (la fréquence).
Dans le cas d'amplitudes inégales on reporte en ordonnée la densité di
(effectif divisé par l'amplitude de la classe)
di
b) Le polygone de fréquences
C’est la figure obtenue en reliant les couples (Xi, ni) par des segments de
droite avec les centres des classes Xi et les effectifs des classes ni.
On peut tracer le polygone des fréquences en reliant les centres des classes
des sommets des rectangles de l’histogramme.
Pour permettre au polygone des fréquences de se refermé sur l’axe des
abscisses, on ajoute des classes des bordures ; ces sont des classes
d’effectifs nuls dont la première à pour limité inférieure la limite inférieure
de la distribution diminuée de l’amplitude (Li = Li.dist – a) et la 2ème classe
de bordure a pour limite inférieure la limite supérieure de la distribution
groupée, sa limite supérieure sera obtenue en additionnant l’amplitude à la
limite supérieure de la distribution groupée.
Exemple : Traçons le polygone de fréquences en nous inspirant de
l’exemple des notes de mathématique.
Doctorant Elie NK
16
Support de cours de statistique descriptive
30
25
Polygone des
fréquences
20
15
10
0
42,
49,
56,
63,
71,
78,
85,
93,
100
107
05
35
65
95
25
55
85
15
,45
,75
c) Diagrammes cumulatifs : identiques au cas discret.
Application :
Représentez graphiquement la distribution de 50 étudiants en fonction de leur
taille suivante :
Taille en cm : Nombre d’étudiants
xi
150 – 160 16
160 – 165 6
165 – 170 12
170 – 175 14
175 – 180 2
TOTAL 50
Doctorant Elie NK
17
Support de cours de statistique descriptive
b) Variable classée
La classe modale correspond à la classe ayant l'effectif maximum. Il est
fortement conseillé d'utiliser l'histogramme pour déterminer le mode. Comme
pour le cas discret, on peut avoir deux classes modales. Toutes les valeurs de la
classe pouvant à priori se réaliser, on ne se contentera pas de déterminer la
classe modale. Une des valeurs de cette classe sera le mode. Certains auteurs
préconisent par simplicité de prendre le centre de la classe modale. Il est
préférable cependant de tenir compte des classes adjacentes de la manière
suivante :
di
x
mode
Doctorant Elie NK
18
Support de cours de statistique descriptive
Li = limite inférieure de classe modale
a = amplitude de la classe modale
Δ1 = différence entre les effectifs de la classe modale et ceux de la classe
précédente
Δ2 = différence entre les effectifs de la classe modale et ceux de la classe
suivante
Si la distribution a des amplitudes différentes, l’amplitude à considérer
sera celle de la classe modale.
Application :
Déterminer la valeur modale de la distribution suivante, de 50 étudiants en
fonction de leur taille suivante :
Taille en cm : Nombre d’étudiants
xi
150 – 160 16
160 – 165 6
165 – 170 12
170 – 175 14
175 – 180 2
TOTAL 50
Mo = 173,77 cm
2. Médiane
Les valeurs étant rangées par ordre croissant, c'est la valeur de la variable qui
sépare les observations en deux groupes d'effectifs égaux.
Calcul de la médiane
a) Variable discrète :
La détermination peut s'obtenir à partir du tableau statistique en recherchant la
valeur de la variable correspondant à une fonction cumulée égale à n/2 (effectif
cumulé) ou ½ (fréquence cumulée). Il est encore plus facile de lire sur les
graphiques cumulatifs les abscisses des points d'ordonnée n/2 (effectif cumulé)
ou ½ (fréquence cumulée). Si tout un intervalle a pour image n/2 ( ½ pour la
fréquence), on parlera d'intervalle médian (on peut prendre le milieu de
l'intervalle comme médiane.
Application
Soit la série statistique suivante :
19 17 20 18 17 17 20 19 15 16 20 23 22 14 15 24
TAF : Calculer la médiane de cette série.
Doctorant Elie NK
19
Support de cours de statistique descriptive
b) Variable classée :
L’abscisse du point d'ordonnée n/2 (½ pour la fréquence) se situe en général à
l'intérieur d'une classe. Pour obtenir une valeur plus précise de la médiane, on
procède à une interpolation linéaire. La valeur de la médiane peut être lue sur
le graphique ou calculée analytiquement.
i − fcdi i − fcai
Me = LiMe − aMe ( ) ou Me = LsMe − aMe ( )
niMe niMe
Graphiquement
a) Méthode du graphe à vue
ni
n
2
Me Classes
3. Moyenne arithmétique.
Si xi sont les observations d'une variable discrète ou les centres de classe d'une
variable classée ;
somme des valeurs observées
La moyenne arithmetique est égale ∶
nombre des valeurs observées
k k
nx
̅ = ∑ i i = ∑ fi x i
X
n
i=1 i=1
Doctorant Elie NK
20
Support de cours de statistique descriptive
a) Pour plusieurs populations d’effectifs n 1, n2, …, nk de moyennes respectives
x̅1 , x̅2 , … , x̅k ; la moyenne globale est égale à la moyenne des moyennes.
̅ ∑ki=1 x̅i
X=
n
b) La moyenne arithmétique conserve les changements d’échelle et d’origine.
Exemple : Calculer la moyenne pour la distribution suivante :
Xi ni n i Xi
18 2 36 n
21 9 189 n X i i
1.314
24 11 264 X= i =1
=
27 13 251 N 50 = 26,28
30 9 270
33 4 132
36 2 72
50 1.314
p x i i
X= i =1
n
p
i =1
i
Doctorant Elie NK
21
Support de cours de statistique descriptive
5. Moyenne géométrique
Si xi sont les observations d'une variable quantitative, la moyenne géométrique est
égale à :
n n n n
G = √x1 1 ∗ x2 2 ∗ … ∗ xk k
Ce type de moyenne est surtout utilisé pour calculer des pourcentages moyens. r
étant un taux d'accroissement, 1+r est appelé coefficient multiplicateur; et le
coefficient multiplicateur moyen est alors égal à la moyenne géométrique des
coefficients multiplicateurs.
6. Moyenne harmonique
Si xi sont les observations d'une variable quantitative, la moyenne harmonique est
égale à :
n
H= n
∑ki=1 i
xi
Il n'est pas évident d'utiliser ce type de moyenne.
Elle intervient lorsqu'on demande une moyenne de valeurs se présentant sous
forme de quotient de deux variables x/y (km/h, km/litre, ...). Attention, il faut
cependant bien décortiquer le problème car il peut aussi s'agir d'une moyenne
arithmétique.
Application.
Un cycliste effectue une traversé de 50 kms. Pendant les 20 premiers kms il roulait
avec une vitesse constante de km/h, les 15 kms suivants à une vitesse constante de
30 km/h. du point kilométrique 35 au 55 la vitesse de notre cycliste n’est que de 10
km/h et au-delà du point kilométrique sa vitesse n’est que de 5 km/h.
TAF : Quelle est la vitesse de ce cycliste sur l’ensemble du parcours ?
7. Moyenne quadratique.
Si xi sont les observations d'une variable quantitative, la moyenne quadratique est
égale à :
8. Quantiles
Ce sont des caractéristiques de position.
Il y a :
- une médiane Me qui sépare les observations en deux groupes d'effectifs égaux.
- trois quartiles Q1, Q2, Q3 qui séparent les observations en 4 groupes d'effectifs
égaux.
Doctorant Elie NK
22
Support de cours de statistique descriptive
- neuf déciles D1, D2, ..., D9 qui séparent les observations en 10 groupes
d'effectifs égaux.
- Nonante neuf centiles C1, C2, ..., C99 qui séparent les observations en 100
groupes d'effectifs égaux.
- La détermination de ces caractéristiques est identique à celle de la médiane.
Les quartiles sont obtenus lorsqu'on a cumulé 25%, 50%, 75% de la population.
Les déciles sont obtenus lorsqu'on a cumulé 10%, 20%, ..., 90% de la population.
Les centiles sont obtenus lorsqu'on a cumulé 1%, 2%, ..., 99% de la population.
Remarque : la notion de déciles et de centiles n'a de sens que s'il y a beaucoup
d'observations et donc essentiellement pour une variable classée.
Doctorant Elie NK
23
Support de cours de statistique descriptive
Application
Soit la population de 80 salariés classés d’après le niveau de leur salaire
journalier.
Classes en dhs ni fcd = ni cumulés
90 – 100 5 5
100 – 110 9 14
110 – 120 16 30
120 – 130 25 55
130 – 140 13 68
140 – 150 7 75
150 – 160 3 78
160 – 170 2 80
TOTAL 80
1) Etendue : d
C’est la différence entre la plus grande et la plus petite observation.
Exemple : Quelle est l’étendue de la série statistique suivante :
10 390 395 405 410 1000
d = 1000 – 10 = 990
2) Intervalle interquartile :
C’est la différence entre le troisième et le premier quartile
3) Variance et écart-type :
Si xi sont les observations d'une variable discrète ou les centres de classe d’une
variable classée, la variance est égale à :
k
∑ki=1 n1 (xi − x̅)
V(x) = = ∑ fi (xi − x̅)
n
i=1
k
ni xi2
ou bien V(x) = ∑ − x̅ 2
n
i=1
Doctorant Elie NK
24
Support de cours de statistique descriptive
On utilise plus couramment l'écart type qui est la racine carrée de la variance et qui
a l'avantage d'être un nombre de même dimension que les données (contrairement
à la variance qui en est le carré)
La variance est un paramètre de dispersion plus utilisé que les autres de par ses
propriétés algébriques :
b) Changement d’échelle
X : (xi, ni) → Y : (y=axi + b, ni)
V(x) → V(y) = a²V(x)
4) Coefficient de variation
σ
CV =
x̅
C'est un coefficient qui permet de relativiser l'écart type en fonction de la taille des
valeurs. Il permet ainsi de comparer la dispersion de séries de mesures exprimées
dans des unités différentes.
APPLICATIONS :
Application 1 : Les séries suivantes représentent la mesure d’un caractère auprès
des individus d’une population :
a) 6 1 8 10 5 4 11 3 2 9 7 12 13
b) 19 17 7 1 4 24 15 22 10 13
c) 15 12 17 15 20 15 20 15 15 9 7
d) 21 25 34 10 20 27 14 20 34
Dans chacun de ces cas calculez : la moyenne, la médiane, le mode, la variance,
l’écart-type et le coefficient de variation.
Doctorant Elie NK
25
Support de cours de statistique descriptive
Application 2 : La distribution suivante représente la répartition de la longueur de
pinces d’écrevisse provenant d’une rivière :
Limites ni
1,02 – 1,23 5
1,24 – 1,45 7
1,46 – 1,67 4
1,68 – 1,89 1
1,90 – 2,11 4
2,12 – 2,33 6
2,34 – 2,55 3
2,56 – 2,77 1
TAF : Calculez la moyenne, la médiane, le mode, la variance, l’écart-type et le
coefficient de variation.
d’ordre r.
Si a3 < 0, la courbe est étalée à gauche ;
Si a3 > 0, la courbe est étalée à droite ;
Si a3 = 0, la courbe est symétrique.
Doctorant Elie NK
26
Support de cours de statistique descriptive
Courbe plus étalée à gauche Courbe plus étalée à droite Courbe symétrique
2. Le paramètre d’aplatissement
Pour mesurer le degré d’aplatissement des courbes des fréquences on utilise
( ) 4
le coefficient a4 = M4/σ4 = M4 / M 2 que l’on compare à la valeur 3
Si a4 >3, la courbe est leptokurtique ;
Si a4 < 3, la courbe est platykurtique ;
Si a4 = 3, la courbe est mésokurtique ou normale
leptokurtique
mésokurtique
platykurtique
n i (X i - X )
2
Xi ni n iX i i
Doctorant Elie NK
27
Support de cours de statistique descriptive
Lorsqu’on observe deux variables quantitatives sur les mêmes individus, on peut
s’intéresser à une liaison éventuelle entre ces deux variables.
La régression fournit une expression de cette liaison sous la forme d’une fonction
mathématique.
La corrélation renseigne sur l’intensité de cette liaison.
4.1. AJUSTEMENT
Ajustement d’un nuage de points à une fonction mathématique.
n n n n
b = y̅ − ax̅ b′ = x̅ − a′y̅
∑ni=1(xi − x̅)(yi − y̅) ∑ni=1(xi − x̅)(yi − y̅)
a= a′ =
∑ni=1(xi − x̅)2 ∑ni=1(xi − x̅)2
Doctorant Elie NK
28
Support de cours de statistique descriptive
c) Ajustement à une fonction puissance
Pour ajuster un nuage de points à une courbe puissanace y = bx a, il suffit de faire
le changement de variable Y = ln(y), X = ln(x), A = a, B = ln(b), pour obtenir
l’équation Y = AX + B, et d’utiliser ensiute l’ajustement linéaire par la méthode
des moindres carrés sur les points (Xi, Yi).
4.2. CORRELATION
La corrélation est la mesure de l’intensité de la relation linéaire entre deux variables.
1) Covariance
n
1
Cov(x, y) = ∑(xi − x̅)(yi − y̅)
n
i=1
Cov(x,y) 0 : x et y varient dans le même sens ;
Cov(x,y) 0 : x et y varient en sens contraire ;
Cov(x,y) = Cov(y,x)
Cov(x,x) = V(x)
-1r1
r = 1 si a > 0
y = ax + b ⟺ {
r = −1 si a < 0
|r| = 1 relation fonctionnelle linéaire
r = 0 Indépendance linéaire
0 |r| 1 dépendance linéaire d’autant plus forte que |r| est grand
Attention : Une forte causalité entre x et y implique une forte relation entre x et y
qui n’est pas forcément linéaire ; on n’a donc pas une forte corrélation linéaire.
Une forte corrélation n’implique pas forcément une forte causalité.
3) Droites de régression
Cov(x, y)
Dy/x ∶ y = ax + b avec a = et b = y̅ − ax̅
V(x)
Cov(x, y)
Dx/y ∶ x = a′y + b′ avec a′ = et b′ = x̅ − a′y̅
V (y )
La position des deux droites de régression l’une par rapport à l’autre donne un
renseignement sur l’intensité de la relation linéaire.
• Droite de régression confondues aa’ = 1 relation fonctionnelle linéaire ;
• Droites de régression perpendiculaires dont une de pente nulle aa’ = 0
indépendance linéaire ;
Doctorant Elie NK
29
Support de cours de statistique descriptive
• Plus les droites sont proches, plus la relation linéaire est importante
Relations intéressantes
r² = aa’
σ(x) σ(y)
r=a = a′
σ(y) σ(x)
Application :
Les séries statistiques simples de deux variables continues X et Y se présentent comme
suit :
Individu 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 2 12 13 7 6 3 12 10 9 7 4 2 10 6 3
Y 22 2 4 14 15 19 7 8 10 11 16 18 11 12 21
2–7 7 – 12 12 – 17 17 – 22 n.j
2–6 2 3 5
6 – 10 3 2 5
10 – 14 3 2 5
ni. 3 5 4 3 15
Doctorant Elie NK
30
Support de cours de statistique descriptive
x y Y= log y x2 xY
1 31 1,49 1 1,49
2 67 1,83 4 3,66
3 125 2,10 9 6,30
4 263 2,42 16 9,68
5 499 2,70 25 13,50
6 1150 3,06 36 18,36
7 2025 3,31 49 23,17
8 4157 3,62 64 28,96
9 8750 3,94 81 35,46
10 17320 4,24 100 42,40
11 31450 4,50 121 49,50
12 69200 4,84 144 58,08
78 38,05 650 290,56
78 38,05
x̅ = = 6,5 y̅ = = 3,17
12 12
290,56 − 6,5x38,05
a= = 0,302 b = 3,17 − 0,302x6,5 = 1,21
650 − 6,5x78
D’où Y = log(y) = 0,302.x + 1,21
Mais a = log(A) 0,302 = log(A) ; d’où A = 2
En outre b = log(B) 1,21 = log(B) ; d’où B = 16,22
La fonction exponentielle d’ajustement de la série statistique étudiée est donc :
y = 16,22 * 2x
Exemple : ajustement par une fonction puissance.
Le tableau qui suivra indique, pour une certaine région, le nombre des entreprises
ayant réalisé pendant une même durée un chiffre d’affaires supérieur à un montant
donné.
X Y : (nombre d’entreprises dont le chiffre d’affaires est
(chiffre d’affaires) supérieur à x)
10 000 10 542
50 000 3 246
100 000 1 393
250 000 557
500 000 251
1.000 000 94
Doctorant Elie NK
31
Support de cours de statistique descriptive
La représentation graphique de la série considérée se traduit sur du papier
doublement logarithmique par une série de points disposés sensiblement suivant une
droite.
Tableau de calcul
X = log Y = log X2 XY
x y
4 4,02 16,00 16,0800
4,70 3,51 22,09 16,4970
5 3,14 25,00 15,7000
5,40 2,74 29,16 14,7960
5,70 2,40 32,49 13,6800
6 1,97 36,00 11,8200
30,80 17,78 160,74 88,5730
Doctorant Elie NK
32
Support de cours de statistique descriptive
Applications :
1) Le prix de la tomate a été de 100 Fc en moyenne en 2018 et de 300 Fc en 2022.
Calculer l’indice élémentaire du prix de la tomate en base 100 en 2018 et
interprétez-le.
2) On savait que le prix du sucre dans un pays X a augmenté de 2,5% entre 2000 et
2015 et de 7,5% entre 2000 et 2022.
Déterminer l’indice élémentaire du prix du sucre en 2015 base 100 en 2022 pour le
pays en question ?
3) Les données concernant l’évolution des prix de plusieurs articles entre les périodes
de 2005 à 2015, ainsi que leurs poids sont groupés dans le tableau suivant :
Doctorant Elie NK
33
Support de cours de statistique descriptive
Calculez les indices élémentaires des prix des différents articles, puis déterminez
l’indice général des prix.
Doctorant Elie NK
34
Support de cours de statistique descriptive
d) Indice de PAASCHE des quantités
1 ∑nj=1 Pj,t Qj,t
P(Q)t⁄t0 = α⁄ = n ∗ 100
∑nj=1 t t0 ∑j=1 Pj,t Qj,t0
I(Qj )t⁄t0
Dépense de la date courante
∗ 100
Dépense de la date de référence exprimé en prix de la date courante
Exercice 1 : Les données concernant l’évolution des prix et des quantités de plusieurs
articles entre les périodes de 2005 à 2015 sont groupés dans le tableau suivant :
Doctorant Elie NK
35
Support de cours de statistique descriptive
Ce sont des séries d'observations échelonnées dans le temps. L'objectif de l'étude des
séries chronologiques est double :
• analyse d'un phénomène temporel en mettant en évidence essentiellement la
tendance générale et les fluctuations saisonnières ;
• élaboration d'un modèle permettant de faire de la prévision à court terme.
Doctorant Elie NK
36
Support de cours de statistique descriptive
Les moyennes mobiles donnent pour chaque t (mis à part les valeurs extrêmes)
une valeur yt.
Application :
La société BMT a pour activité la vente de système d’alarme. Le caractère porteur
de ce marché lui a permis, sur les 5 dernières années d’enregistrer les ventes
suivantes en milliers de USD.
Année N–4 N–3 N–2 N–1 N
Chiffre 71 697 90 574 94 550 125 257 138 150
d’affaire
3) Méthode de BUYS-BALLOT
La méthode de BUYS-BALLOT est un exemple particulier de ce qu’on appelle en
économétrie l’estimation des paramètres d’un modèle. On suppose que la grandeur
étudiée répond à des hypothèses de nature algébrique laissant indéterminés
certains paramètres. Le problème qui se pose est l’estimation à partir des
Doctorant Elie NK
37
Support de cours de statistique descriptive
observations, des paramètres du modèle et le calcul des valeurs ajustées
correspondant aux observations.
12 (∑i iY̅i − n(n + 1) Y
̿)
2 n. m + 1
𝑎= 2
b=̿Y−a cj
n. m(n − 1) 2
m+1
=̅
Yj − ̿
Y − a (j − )
2
2. Modèle multiplicatif
Calcul des différences Yt / yct = St * At
Calcul des coefficients saisonniers bruts S’j : pour chaque saison j, S’j =
moyenne des différences de la saison j
Calcul des coefficients saisonniers Sj = Sj′ /S̅′
Le choix du modèle de composition d’une chronique s’opère à l’aide de la pente
de la droite des écart-types aux moyennes appelé « DROITE DE MAYERS »
donnée par :
= a Xi + b
Où = l’écart – type de la ième année et Xi = la moyenne de la ième année
La règle de décision est donnée par :
Doctorant Elie NK
38
Support de cours de statistique descriptive
Le calcul pratique des estimations est effectué sur la table de BUYS- BALLOT qui se
présente de la manière suivante :
TABLE DE BUYS-BALLOT
Mois j Ti ̅
Yi Produit
Total Moyenne i*Ti
Année i 1 … j … m de la mensuelle
ligne pour l’année i
n°i
1 Y11 … Y1j … Y1m T1 ̅
Y1 1*T1
… … … … … … … … …
Ti
i Yi1 … Yij … Yim Ti ̅i =
Y i*Ti
m
… … … … … … … … …
n Yn1 … Ynj … Ynm Tn ̅
Yn n*Tn
S
Tj T Total
Total de la T1 … Tj … Tm Total … de la
colonne n°j général colonn
e
̅j
Y T
̅
Yj ̿
Y=
Moyenne ̅1 ̅ m∗n
Y … Tj … Yj
Moyenne
mensuelle =
du mois n°j n générale
Coefficients
saisonniers C1 … Cj … Cm
Cj
6.5. DESAISONNALISATION
Pour exprimer ce qu'aurait été le mouvement brut sans l'influence saisonnière, on
utilise la série corrigée des variations saisonnières Y*
1) Modèle additif
Y*t = Yt - St
2) Modèle multiplicatif
Y*t = Yt / St
Doctorant Elie NK
39
Support de cours de statistique descriptive
EXERCICES
La société Jihane fabrique des jouets en plastique. Son activité a un caractère saisonner
très marqué. On dispose des données suivantes relatives aux années N-2, N-1 et N :
1. EXEMPLE D’APPLICATION
Considérons la série mensuelle des ventes d’un rayon d’un grand magasin dont les
données (exprimées en 10.000 Francs) sont reprises dans la table de Buys-Ballot et
représentées graphiquement à la figure suivante.
L’allure linéaire du mouvement de fond, la régularité des oscillations mensuelles
suggèrent un ajustement conforme au modèle étudié. Le tableau de calcul (table de
Buys-Ballot) fournit les estimations a, b et cj dont on déduit la série ajustée (en
dizaine de milliers de
12 299660 7 + 1
a= ( − 71660) = 3,229
7 12(7 − 1)
2
12 2 12
71660 7 12 + 1
b= − 3,229 = 715,86
7 12 2
12 + 1
c j = Y j − 853,10 − 3,229( j − )=
2
➢ Janvier = -12,5 ;
➢ Février = -57,1 ;
➢ Mars = -88,2 ;
➢ Avril = -92,9 ;
➢ Mai = -4,0 ;
➢ Juin = 63,5 ;
➢ Juillet = -2,6 ;
➢ Août = -73,7 ;
➢ Septembre = -74,7 ;
Doctorant Elie NK
40
Support de cours de statistique descriptive
➢ Octobre = 1,31 ;
➢ Novembre = 86,7 ;
➢ Décembre = 254,1.
➢ en janvier -12,5 ;
➢ en février -57,1 ;
➢ en mars -88,2 ;
➢ en avril -92,9 ;
➢ en mai -4,0 ;
➢ en juin -63,5 ;
➢ en juillet -2,6 ;
➢ en août -73,7 ;
➢ en septembre -74,7 ;
➢ en octobre 1,31 ;
➢ en novembre 86,7 ;
➢ en décembre 254,1
Doctorant Elie NK
41
Support de cours de statistique descriptive
Année
i
1950 : 1 700 650 635 675 750 800 725 650 675 750 800 975 8785 732,08 8785
1951 : 2 750 725 675 700 825 850 825 700 700 800 825 1000 9375 781,25 18750
1952 : 3 775 775 750 735 810 870 805 745 750 825 875 1050 9765 813,75 29295
1953 : 4 815 775 780 760 850 920 855 810 795 865 960 1090 10275 856,25 41100
1954 : 5 850 810 765 750 870 950 875 850 835 895 1010 1175 10635 886,25 53175
1955 : 6 925 840 825 800 890 1000 920 860 855 930 1090 1285 11220 935,00 67320
1956 : 7 945 895 845 845 915 1015 960 875 895 995 1120 1300 11605 967,08 81235
Total 5760 5470 5275 5265 5910 6405 5965 5490 5505 6060 6680 7875 T= 29966
71660 0
Moyenne 822,86 781,43 753,57 752,14 844,29 915,00 852,14 784,29 786,43 865,71 954,29 1125 Y =
Yj 853,10
Coeffic. -12,48 -57,14 -88,22 -92,88 -3,97 63,52 -2,57 -73,65 -74,74 1,32 86,66 254,15
Saisonnier
cj
Doctorant Elie NK
42
Support de cours de statistique descriptive
2. MODELE LINEAIRE
Exemple de la série chronologique : Nombre de voyageurs transportés
mensuellement par la régie Autonome des transports parisiens (réseau ferré) au
cours de 5 années consécutives.
Chiffres donnés en millions de voyageurs.
Mois Janv. Févr Mars Avr Mai Juin Juil Août Sept Oct Nov Déc
Années
1 96 88 100 89 91 88 78 55 83 98 95 104
2 100 90 102 92 95 90 77 58 72 99 97 105
3 100 96 102 91 94 93 80 59 82 104 104 110
4 106 96 105 93 99 92 83 58 86 97 101 106
5 108 97 109 98 100 96 86 59 85 107 103 112
Doctorant Elie NK
43
Support de cours de statistique descriptive
a=
ty − t y b = y − at
t² − t t
Tableau de calculs (moindres carrés)
t y t² ty t y t² ty
1 96 1 96 31 80 961 2480
2 88 4 176 32 59 1024 1888
3 100 9 300 33 82 1089 2706
4 89 16 356 34 104 1156 3536
5 91 25 455 35 104 1225 3640
6 88 36 528 36 110 1296 3960
7 78 49 546 37 106 1369 3922
8 55 64 440 38 96 1444 3648
9 83 81 747 39 105 1521 4095
10 98 100 980 40 93 1600 3720
11 95 121 1045 41 99 1681 4059
12 104 144 1248 42 92 1764 3864
13 100 169 1300 43 83 1849 3569
14 90 196 1260 44 58 1936 2552
15 102 225 1530 45 86 2025 3870
16 92 256 1472 46 97 2116 4462
17 95 289 1615 47 101 2209 4747
18 90 324 1620 48 106 2304 5088
19 77 361 1463 49 108 2401 5292
20 58 400 1160 50 97 2500 4850
21 72 441 1512 51 109 2601 5559
22 99 484 2178 52 98 2704 5096
23 97 529 2231 53 100 2809 5300
24 105 576 2520 54 96 2916 5184
25 100 625 2500 55 86 3025 4730
26 96 676 2496 56 59 3136 3304
27 102 729 2754 57 85 3249 4845
28 91 784 2548 58 107 3364 6206
29 94 841 2726 59 103 3481 6077
30 93 900 2790 60 112 3600 6720
1 830 5 539 73 810 171 561
On tire du tableau :
Doctorant Elie NK
44
Support de cours de statistique descriptive
1830 5539
t= = 30,5 y= = 93,32
60 60
171561 − (30,5 x 5539) 2621,5
a= = = 0,146
73810 − (30,5 x 1830) 17995
b = 93,32 – (0,146 x 30,5) = 87,87
La tendance générale peut donc être traduite par la droite d’équation :
y = 0,146 + 87,87
L’augmentation mensuelle moyenne du nombre des voyageurs transportés est
donc d’environ 0,146 million.
Mois Jan Fév Mar Avr Mai Juin Juil Août Sept Oct Nov Déc
Année v. r s
1 88,0 88,2 88,3 88,5 88,6 88,7 88,9 89,0 89,2 89,3 89,5 89,6
2 89,8 89,9 90,1 90,2 90,4 90,5 90,6 90,8 90,9 91,1 91,2 91,4
3 91,5 91,7 91,8 92,0 92,1 92,3 92,4 92,5 92,7 92,8 93,0 93,1
4 93,3 93,4 93,6 93,7 93,9 94,0 94,1 94,3 94,4 94,6 94,7 94,9
5 95,0 95,2 95,3 95,5 95,6 95,8 95,9 96,0 96,2 96,3 96,5 96,6
Pour chacun des 60 mois considérés nous faisons maintenant le rapport entre le
nombre de voyageurs effectivement transportés (tableau initial) et le nombre de
voyageurs calculé à l’aide du trend.
Nous obtenons alors le tableau suivant :
Mois Janv. Févr Mars Avr Mai Juin Juil Août Sept Oct Nov Déc
Année
1 1,09 1,00 1,13 1,01 1,03 0,99 0,88 0,62 0,93 1,10 1,06 1,16
2 1,11 1,00 1,13 1,02 1,05 0,99 0,85 0,64 0,79 1,09 1,06 1,15
3 1,09 1,05 1,11 0,99 1,02 1,01 0,87 0,64 0,88 1,12 1,12 1,18
4 1,14 1,03 1,12 0,99 1,05 0,98 0,88 0,62 0,91 1,03 1,07 1,12
5 1,14 1,02 1,14 1,03 1,05 1,00 0,90 0,61 0,88 1,11 1,07 1,16
Pour chacun des douze mois de l’année nous avons ainsi obtenu une série de
5 coefficients. On peut envisager de retenir comme coefficient saisonnier à
affecter à chacun de ces 12 mois ;
Doctorant Elie NK
45
Support de cours de statistique descriptive
La trend retenu pour les calculs est celui que traduit la droit du moindre carré.
On aurait pu également utiliser le trend fourni par la méthode des moyennes
mobiles, on par toute autre méthode logique.
Mois Janv Févr Mars Av Mai Juin Juil Août Sep Oct Nov Déc
Année . r t
1 86,5 86,3 88,5 89,0 87,5 88,0 88,6 87,3 93,2 90,0 88,1 90,0
2 90,1 88,2 90,3 92,0 91,3 90,0 87,5 92,0 80,9 90,8 90,7 91,3
3 90,1 94,1 90,3 91,0 90,4 93,0 90,9 93,6 92,1 95,4 97,2 95,6
4 95,5 94,1 93,0 93,0 95,2 92,0 94,3 92,0 96,6 89,0 94,4 92,2
5 97,3 95,1 96,4 98,0 96,1 96,0 97,7 93,6 95,5 98,2 96,3 97,4
Doctorant Elie NK
46
Support de cours de statistique descriptive
Avec les hypothèses faites on peut alors donc estimer qu’il sera transporté 105
millions de voyageurs environ, pendant le mois considéré.
Doctorant Elie NK
47