Rappels Statistique et Data visualization
Généralités
Dr Abdoulaziz [Link]
Institut Supérieur de Management, ISM
March 26, 2024
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Introduction Générale: Statistique descriptive
QU’EST-CE QUE LA STATISTIQUE DESCRIPTIVE?
Objet de:
recueillir,
organiser,
résumer
et d’analyser les données d’une enquête, d’une recherche
documentaire ou celles recueillies en ligne
But de:
tirer les conclusions logiques
prendre les décisions qui s’imposent à partir des analyses
effectuées.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Avant de faire une étude statistique, il faut connaître:
Population:Ensemble d’individus définis par une propriété
commune donnée.
Echantillon: Sous-ensemble ou une partie de la population
Individu:Chaque élément de la population ou de l’échantillon
La taille : Représente le nombre d’individus d’un échantillon ou
d’une population
Le caractère :c’est l’aspect particulier que l’on désire étudier.
Les modalités :les différentes manières d’être que peut
présenter un caractère.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Méthodes de descriptions
Il existe deux méthodes pour décrire une population :
1 Méthode graphique :on décrit la population statistique avec
des graphiques tels que les diagramme à bâtons, les
Histogrammes, les diagrammes Circulaire,....
2 Méthode analytique:
Caractéristiques de tendance centrale :moyenne, mode,
minimum, médiane, quantiles..
Caractéristiques de dispersion: variance, écart type, coefficient
de variation, écart inter-quartile...
Caractéristiques de forme: asymétrie, aplatissement
Caractéristiques de concentration: indice de Gini
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Représentation graphique
Le cerveau humain a un faible pour les supports visuels. Il capte
80% des informations par l’image. Il traite les données visuelles 60
000 fois plus vite que les chiffres et les textes.
Aujourd’hui plus de 90% de la communication est non verbale.
La visualisation de données moderne a commencé à se développer
au XXème siècle.
Une technique qui vient juste après la préparation des données. Elle
vise à rendre accessible et compréhensible plusieurs informations
grâce à des représentations visuelles. La data visualisation permet
de communiquer des données brutes en les transformant en
graphiques visuels simples à lire en un coup d’œil.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Le tableau suivant donne la capitalisation boursière du marché de la
BRVM de 1998 à 2022.
Xi 1998 2008 2013 2016 2018 2022
ni 1018,9 3851,37 6706,25 10030 10676 16487
1 Quelle est la population étudiée ? Quelle est l’unité statistique
?
2 Quel est le caractère observé ? Quelle est sa nature ?
3 Faites une représentation graphique par:
un diagramme à bandes
un diagramme à secteurs.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Corrigé
1 La population étudiée est l’ensemble des capitalisations
enregistrées à la BRVM entre 1998 et 2022
2 Le caractère observé est la valeur de la capitalisation. C’est un
caractère quantitatif continue car ses modalités sont
numériques et à virgules.
Xi ni fi αi αi Cum
1998 1018,9 0,021 8 8
2008 3851,37 0,079 28 36
2013 6706,25 0,137 50 86
2016 10030 0,206 74 160
2018 10676 0,219 79 238
2022 16487 0,338 122 360
Total 48769,52 1 360
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Graphiques
Figure: Diagramme circulaire du niveau scolaire des chefs de ménage
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Figure: Diagramme en bande du niveau scolaire des chefs de ménage
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Méthode analytique
Caracterstiques de tendance centrale: Moyenne, Variance et Ecart
type.
Moyenne:
n
1 X
x̄ = xi (1)
n
i=1
Dans le cas d’un tableau de distribution, on a:
p p
x̄ = n1
P P
ni x i = fi xi
i=1 i=1
où x1 , x2 , · · · , xp sont les valeurs observées (ou les centres des
classes si la distribution est groupée),
n1 , n2 , · · · , np sont les effectifs correspondants,
f1 , f2 , · · · , fp sont les fréquences correspondantes fi = nni et
P p
n= ni .
i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Suite analytique
Propriété :
Soit {xi } une série statistique et
{yi } la série définie par yi = axi + b
où a et b sont deux réels quelconques,
alors :
ȳ = a x̄ + b
Démonstration
p p
1X 1 X
ȳ = ni yi = ni (a xi + b)
n n
i=1 i=1
p p
1 X 1 X (2)
=a. ni xi + b . ni
n n
i=1 i=1
= a .x̄ + b
Remarque : Cette formule de changement de variable permet de
simplifier le calcul de la moyenne arithmétique dans certains cas.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Application
Un étudiant obtient aux examens les notes suivantes :
mathématiques 10 (coefficient 2), économie 14 (coefficient 4),
statistique 12 (coefficient 2), langues 8 (coefficient 1). Calculer sa
moyenne à l’examen. Calculer sa moyenne à l’examen Si toutes les
disciplines étaient affectées du même coefficient 1
Solution:
Discipline Note Xi Coefficient ni ni Xi
Maths 10 2 20
Economie 14 4 56
Statistique 12 2 24
Langues 8 1 8
Total n=9 108
La note moyenne est :
4
x̄ = n1 ni xi = 108
P
9 = 12
i =1
Si toutes les disciplines étaient affectées du même coefficient 1, la
note moyenne serait : x̄ = 10+14+12+8
4 = 44
4 = 11
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Tableau statistique
Exemple: Une étude portant sur 60 actifs jour d’un marché boursier
et a permis de construire le tableau donnant la répartition du
nombre d’actif en fonction de leurs volumes de transaction.
Xi 0 1 2 3 4 5 6 7
ni 1 3 7 15 15 20 4 1
1 Quelle est la population étudiée ? Quelle sont unité statistique
?
2 Quel est le caractère observé ? Quelle est sa nature ?
3 Quelle est le nombre d’actifs ayant au plus 4 transaction ?
4 Quelle est le nombre d’actif ayant au moins 3 transactions.
5 Calculer le nombre de transaction moyenne
6 Tracer le diagramme en bâton des effectifs et le polygone des
effectifs
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Les moments d’ordre r
2.1 Moments d’ordre r
On appelle moment d’ordre r (r ∈ IN) d’une variable X le nombre :
p
ni xi r
P
p
i=1
X
mr (X ) = = fi x i r (3)
n
i=1
avec :
p
P ni
n= ni ; f i = n
i=1
Remarque :
Si l’on dispose de données ponctuelles, alors ni = 1 pour tout i ;
pour des données groupées, xi est le centre de la classe n0 i.
2.2 Moments centrés d’ordre r
On appelle moment centré d’ordre r (r ∈ IN) le nombre :
p
ni (xi −x̄)r
P
p p
fi (xi − x̄)r avec : x̄ = 1
i=1
P P
µr (X ) = n = n ni x i
i=1 i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
La variance
On appelle variance d’une variable X son moment centré d’ordre 2 :
p
ni (xi − x̄)2
P
p
i=1
X
Var (X ) = = fi (xi − x̄)2 (4)
n
i=1
Formule développée
p
1X
Var (X ) = ni xi 2 − x̄ 2
n (5)
i=1
2
= m2 − m1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Suite
Démonstration
p
1X
Var (X ) = ni (xi − x̄)2
n
i=1
p (6)
1X
ni xi 2 − 2 x̄ xi + x̄ 2
=
n
i=1
p p p
1X 1X 1X
= ni xi 2 − 2 x̄ ni xi + x̄ 2 ni (7)
n n n
i=1 i=1 i=1
p
1 X
= ni xi 2 − 2 x̄ . + 2 .1
n
i=1
p (8)
1X
= ni xi 2 − x̄ 2
n
i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Propriété
Soit {xi } une série statistique et {yi } la série définie par:
yi = a xi + b (9)
où a et b sont deux réels quelconques alors :
Var (Y ) = a2 Var(X) (10)
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Ecart type
Ecart Type
De tous les critères de dispersion, l’écart-type est certainement le
plus utilisé. L’écart type d’une série est égal à la racine carrée de la
variance :
p
σ (X ) = Var (X ) (11)
L’écart type, noté σ (sigma) est une mesure de dispersion absolue,
il s’exprime dans la même unité que les valeurs observées et mesure
la dispersion autour de la moyenne x̄. En finance on l’appelle la
volatilité ou bien le risque.
Plus l’écart type est grand, plus l’actif financier a tendance être
plus volatile, autrement dit plus risqué.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
2.3 Le coefficient de variation
Pour faciliter les comparaisons entre séries, on utilise une mesure de
dispersion relative appelée coefficient de variation. Le coefficient de
variation CV est le rapport de l’écart type σ à la moyenne x̄:
σ
CV = (12)
x̄
C’est un nombre sans dimension et indépendant des unités choisies.
On l’utilise pour comparer par exemple des actifs selon leur niveau
de volatilité. Dans la pratique une distribution est dite homogène si
son coefficient de variation est inférieur à 0,30 ; elle sera considérée
comme hétérogène si son coefficient de variation est supérieur ou
égal à 0,30.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Série à deux caractères
1. Position du problème
Dans les deux premiers chapitres, les séries statistiques étudiées
étaient des séries simples ; on étudiait une population selon un seul
caractère. Cependant, il est souvent utile de considérer deux
caractères de la même population :
le Rendement et Indice de marché ;
le PIB et les Importations;
les Ventes et les Dépenses de Publicité;
le Risque et le rendement;
le Rendement d’un indice A et celui d’un indice B
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
2. Définition
On appelle série statistique double de Ω pour les caractères X et Y
l’application qui à chaque élément de Ω associe le couple (xi , yi ) où
les xi sont les valeurs du caractère X et les yi les valeurs du
caractère Y. Les résultats de cette observation peuvent être
présentés sous deux formes:
1 Données groupées
2 Données non groupées
2.1 Données non groupées
Ces données ponctuelles (ou non groupées) se présentent sous la
forme suivante :
Individus 1 2 ... n
Valeur de X X1 X2 . . . Xn
Valeur de Y Y1 Y2 . . . Yn
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Figure: Nuage des points
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Calculs des indicateurs
3.1.1 Moyennes
n n
1 X 1 X
X̄ = Xi Ȳ = Yi (13)
n n
i=1 i=1
3.1.2 Variances
n
1X 2 p
Var (X ) = Xi − X̄ 2 σ (X ) = Var (X ) (14)
n
i=1
n
1X 2 p
Var (Y ) = Yi − Ȳ 2 σ (Y ) = Var (Y ) (15)
n
i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
3.1.3 Covariance
La covariance du couple (X,Y) est par définition le réel noté
Cov(X,Y) qui vaut :
n
1X
Cov (X , Y ) = (Xi − X̄ )(Yi − Ȳ ) (16)
n
i=1
Si on fait X = Y , on retrouve la formule de la variance. La
covariance est un indicateur du sens de la variation simultanée.
Si globalement, lorsque X croît, Y croît, alors la covariance est
positive.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Propriétés de la covariance
n
Cov (X , Y ) = n1
P
Xi Yi − X̄ Ȳ
i=1
a, b, c, d désignant quatre réels on a :
Cov (a X + b, cY + d) = a c Cov (X , Y )
| Cov (X , Y ) | ≤ σ(X ) σ(Y )
Démonstration
Propriété point 1)
n
1X
Cov (X , Y ) = (Xi − X̄ )(Yi − Ȳ )
n
i=1
n (17)
1 X
= (Xi Yi − Xi Ȳ − X̄ Yi + X̄ Ȳ )
n
i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
n n n n
1 X 1X 1 X 1X
= Xi Yi − Ȳ Xi − X̄ Yi + X̄ Ȳ . 1
n n n n
i=1 i=1 i=1 i=1
(18)
n
1 X
= Xi Yi − Ȳ X̄ − X̄ Ȳ + X̄ Ȳ (19)
n
i=1
n
1 X
= Xi Yi − X̄ Ȳ (20)
n
i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Coefficient de corrélation linéaire
Soient σ (X ) et σ (Y) les écart-types des deux caractères,
Cov(X,Y) la covariance du couple (X,Y).
Le coefficient de corrélation linéaire noté r(X,Y) du couple (X,Y)
est par définition le nombre réel :
Cov (X , Y )
r (X , Y ) = (21)
σ (X ) σ (Y )
Le coefficient de corrélation linéaire mesure le degré d’association
entre deux variables.
Il peut varier de -1 à 1, en fonction du degré d’association.
Les valeurs positives du coefficient de corrélation linéaire indiquent
une corrélation positive où Y varie dans le sens de X
(Exemple : Rendement et Indice).
Les valeurs négatives du coefficient de corrélation linéaire indiquent
une corrélation négative où Y varie en raison inverse de X (Exemple
: Rendement et Indice du marché).
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Propriétés
n
P
Xi Yi −n X̄ Ȳ
i=1
1 r (X , Y ) = s
n
n
2 2
Xi 2 −n (X̄ ) Yi 2 −n (Ȳ )
P P
i=1 i=1
2 −1 ≤ r (X , Y ) ≤ 1
3 a, b, c, d désignant quatre réels on a :
r (a X + b, cY + d) = | aa cc | r (X , Y )
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Application
On considère la série statistique double. Nous allons calculer son
coefficient de corrélation linéaire. Pour cela, nous dressons le
tableau suivant :
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Solution
1 Calcul des moyennes:
X̄ = 304
10 = 30, 4 F ; Ȳ =
261
10 = 26, 1 F
2 Calcul des variances:
9734
Var (X ) = − (30, 4)2 = 49, 24 σ (X) = 7,02 (22)
10
7122
Var(Y) = − (26, 1)2 = 31, 49 ; σ (Y) = 5, 61 (23)
10
(24)
3 Calcul de la covariance
Cov (X , Y ) = 8286 − (26, 1 x 30, 4) = 35, 16
4 Calcul du coefficient de corrélation linéaire
On peut utiliser comme formule:
n
P
Xi Yi −n X̄ Ȳ
i=1
r (X , Y ) = s
n
n
2 2
Xi 2 −n (X̄ ) Yi 2 −n (Ȳ )
P P
i=1 i=1
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Soit
8286 − 10 (26,1 x 30,4)
r (X , Y ) = √ = 0, 893
(9734 − 10 x 30,42 ) (7122 − 10 x 26,12 )
On a une très forte corrélation, mais il ne faut pas conclure à une
liaison entre les deux caractères étudiés. Il manque la probabilité de
confirmation.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Introduction
Qu’est-ce que l’économétrie ?
Ce module est consacré à la présentation de l’économétrie et à sa
liaison avec la théorie économique. Nous abordons tout d’abord la
notion de modèle ainsi que les différentes étapes de la modélisation.
L’apport de l’économétrie en tant qu’outil de validation est étudié
en II. Enfin, la prévision et les tests de validations, fondement de
l’économétrie – fait l’objet de la section III.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Définition
l’économétrie est une branche des Sciences Économiques
composées des techniques statistiques permettant de quantifier les
relations entre les différents phénomènes.
Un modèle est une représentation simplifiée de la réalité plus
complexe. Dans le cadre de l’économétrie, il s’agit de trouver une
spécification fonctionnelle reliant les phénomènes à étudier.
1. Utilité de l’économétrie:
Prédire l’évolution des fondamentaux économiques est
financières dans le futur à partir de la modélisation de leur
passée.
simulation d’impact
Validation des théories économiques
Outils d’investigation.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
2. Vocabulaire de l’économétrie:
Un modèle reliant deux phénomènes X et Y sont linéaires quand
toute transformation de Y peut être exprimée comme fonction
linéaire de X ou une variable quelconque.
3. Transformation de X
1 Y = aX + b
2 Y = bX a ⇒ lnY = lnb + alnX
3 Y = exp( X1 + b) ⇒ lnY = 1
X +b
1,2 et 3 sont alors des modèles linéaires ou linéarisés.
3. Variables endogène et exogène
Variable endogène = variable à expliquer
Variable exogène = variable explicative
4. Forme aléatoire / bruit / résidu
y − fˆ(x)
Résidu Y observé - par expliquée par X
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Modèle linéaire simple
Le modèle linéaire simple consiste à expliquer une variable
endogène par une seule variable exogène.
Yt = a + bXt + t , t=1....N (25)
Hypothèses de validation du modèle:
1 les Xt sont observés sans erreur donc non aléatoire.
2 E (t ) = 0, en moyenne on ne se trompe pas en ajustant Yt
par a + bXt
3 Var (t ) = E (2t ) = σt 2 , ∀t: hypothèse d’homocédasticité des
erreurs
4 Cov (t , t 0 ) = E (t , t 0 ) = 0: pas d’autocorrélation entre les
perturbations.
p
σx 2 = N1 ni (xi − x̄)2 ; limN→∞ σx = 0: les données
P
5
i=1
supplement améliorent l’infos stat.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization
Bibliographie
Régis Bourbonnais: cours et exercice, 11em édition.
B.F. Doucouré: Méthodes économétriques.
Dr Abdoulaziz [Link] Rappels Statistique et Data visualization