STATISTIQUE
APPLIQUEE
(Outils d’aide à la décision )
Rachid MCHICH
Chap. 1: Rappels mathématiques
I - Statistique descriptive
(Mesures de tendance centrale et de dispersion,
corrélation, …)
I-1 Exemples et définitions :
Selon une enquête de Jupiter Media, 31 % des hommes
adultes regardent la télévision au moins 10 heures par
semaine. Cette proportion s’élève à 26 % chez les
femmes adultes (The Wall Street Journal, 26-01-04).
General Motors, leader des ristournes dans le secteur
automobile, a fourni une réduction moyenne de 4 300 $
par véhicule en 2003 (USA Today, 23-01-04) .
Plus de 40 % des managers de la société X connaissent
une ascension professionnelle au sein de cette société.
Définition :
La statistique est l'ensemble des instruments et de
recherches mathématiques permettant de déterminer
les caractéristiques d'un ensemble de données
(généralement vaste).
Les statistiques sont le produit des analyses reposant
sur l'usage de la statistique.
Définition :
Cette activité regroupe trois principales branches :
• la collecte des données;
• le traitement des données collectées, aussi appelé:
la statistique descriptive ;
• l'interprétation des données, aussi appelée:
l’inférence statistique, qui s'appuie sur la théorie
des sondages et la statistique mathématique.
Objectif :
Le but de la statistique est d'extraire et de
résumer des informations pertinentes d'une liste
de nombres difficile à interpréter par une simple
lecture:
• les statistiques exploratoires : on explore d'abord
les données pour avoir une idée qualitative de
leurs propriétés ;
• les statistiques confirmatoires: on fait des
hypothèses de comportement que l'on confirme
ou que l’on infirme en recourant à d'autres
techniques statistiques.
I-2 Vocabulaire de la statistique descriptive:
1. Population : un ensemble de personnes,
d’objets ou d’événements, base de l’étude
statistique.
2. Individu : Un élément de cette population.
(Exple: population d’employés d’une entreprise,
population de produits d’une usine …etc).
3. Echantillon : c’est un sous-ensemble de la
population, ayant les mêmes caractéristiques
de la population-mère, utilisé en vue d'inférer
quelque chose à propos de cette population.
4. Caractère: c’est une particularité ou
propriété caractéristique de la population.
L’étude statistique porte sur un caractère.
5. Effectif d’une population: c’est le nombre
total des éléments constituant cette
population, noté: N.
6. Fréquence d’un caractère: c’est le nombre
d’individus possédant ce caractère divisé par
l’effectif total de la population: Ni.
Tableaux & Graphiques
vs
Données numériques
I-3 Tableaux et Graphiques :
(ii) Variables continues (VSC)
Dans ce cas, les valeurs du caractère appartiennent à des intervalles, qu’on regroupe en
général dans des classes adjacentes, d’amplitudes pas forcément égales :
Classes Centre des classes Effectifs Fréquences
[X0, X1[ x1=( X0+ X1)/2 n1 f1= n1/N
. . . .
. . . .
. . . .
[Xp-1, Xp[ . nk fk
La représentation se fait alors grâce à un histogramme dont les rectangles sont de largeur
égale à l’amplitude de la classe.
Exemple : Considérons les données
quantitatives indiquant le temps nécessaire (en
jours) pour effectuer l’audit de 20 clients par le
cabinet d’un expert comptable.
12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Effectifs et fréquences cumulées croissants et
décroissants
Pour une VSD :
Soit mi une modalité d’une VSD. L’effectif cumulé croissant
à gauche (resp. décroissant à droite) de mi est le nombre
d’individus pour lesquels la VSD prend des valeurs <= mi
(resp. >=mi ).
Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+
…+Nk).
Fréquence cumulée croissante à gauche de mi :
fcc= Ncc/N .
Fréquence cumulée décroissante à droite de mi :
fcd= Ncd/N .
Pour une VSC : Les modalités sont des intervalles .
Effectif cumulé croissant à gauche de xi
Effectif cumulé décroissant à droite de xi
Fréquence cumulée croissante relative à une
classe Ii
Fréquence cumulée décroissante relative à une
classe Ii
(iii) Caractère qualitatif
Dans ce cas, les modalités sont des qualités, qui ne
peuvent pas être ordonnées. En général, on fait une
représentation en secteurs.
I-4 Valeurs numériques :
Lorsque les valeurs numériques sont issues d’un
échantillon, on parle alors de statistiques
d’échantillon.
Lorsque les valeurs numériques sont issues
d’une population, on parle de paramètres de
la population.
Statistique d’échantillon : Valeur numérique
utilisée comme mesure d’un échantillon
Paramètre de la population : Valeur
numérique utilisée comme mesure de la
population
Estimateur ponctuel : Statistique
d’échantillon utilisée pour estimer le paramètre
correspondant de la population
Ci-dessous certaines notations utilisées:
Statistiques Paramètres de
d’échantillon la population
Moyenne x µ
Variance s2 σ2
Ecart type s σ
Covariance s xy σ xy
Corrélation rxy ρ xy
Mesures de tendance centrale
Moyenne : Elle est obtenue en sommant la
valeur des observations et en divisant par le
nombre d’observations.
Moyenne d’échantillon :
x=
∑ x i
Moyenne de la population :
µ=
∑ x i
N
Mesures de tendance centrale
Médiane : Il s’agit de la valeur centrale de
l’ensemble des données, classés en ordre
croissant.
Mode : Défini comme la valeur de l’observation la
plus fréquente.
Percentile : Valeur telle que, au moins p pour cent
des observations ont une valeur <= à cette valeur
et au moins (100 - p) pour cent des observations
ont une valeur >= à cette valeur. La médiane
correspond au 50e percentile.
Quartile : Les 25e, 50e et 75e percentiles sont
appelés respectivement premier quartile,
deuxième quartile (médiane) et troisième
quartile. Les quartiles divisent l’ensemble des
données en quatre parties, chacune
contenant environ 25% des données.
Mesures de dispersion
Etendue : égale à la différence entre la plus grande
et la plus petite valeurs.
Etendue interquartile (EIQ): égale à la différence
entre le 3e et le 1e quartiles :
EIQ = Q3 − Q1
Variance : basée sur les écarts au carré des
observations par rapport à la moyenne :
σ2 =
∑ i
(x − µ ) 2
s2 =
∑ i
(x − x ) 2
N n −1
Mesures de dispersion
Ecart type : égal à la racine carrée de la
variance
σ = σ2 s= s2
Coefficient de variation : Mesure de
dispersion relative, égale au rapport de
l’écart type à la moyenne, multiplié par 100
Ecart type
*100
Moyenne
I-4 Détection des valeurs singulières :
Définition :
Va l e u r s i n g u l i è r e : O b s e r v a t i o n
anormalement grande ou petite
◦ Erreur d’enregistrement : à corriger avant toute
analyse
◦ Observation pas correctement incluse dans
l’ensemble des données : à supprimer
◦ Valeur inhabituelle, correctement enregistrée et
qui appartient à l’ensemble des données: à
conserver.
Forme d’une distribution
Degré d’asymétrie : Mesure de la forme
d’une distribution de données.
◦ Des données biaisées à gauche sont
caractérisées par un degré d’asymétrie négatif.
◦ Des données comportant un biais à droite sont
caractérisées par un degré d’asymétrie positif.
3
µ3 1 k
γ 1 = 3 avec µ3 = ∑ ni (xi − x )
σ n i =1
Variable centrée réduite z : Valeur
obtenue en divisant l’écart par rapport à
la moyenne (xi − x) par l’écart type s.
xi − x
zi =
s
La variable centrée réduite mesure la
distance, en nombre d’écarts type, entre
l’observation xi et la moyenne.
Exemple :
Nbr d’étudiants Ecart par rapport Valeur de la variable
dans la classe à la moyenne centrée réduite
46
54
42
46
32
x = ?? s = ??
• Théorème de Chebyshev :
Théorème utilisé pour déduire le pourcentage d’observations
qui se situent dans un intervalle de z écarts type de part et
d’autre de la moyenne:
Théorème de Chebyshev :
1
« Au moins (1− 2
) des observations doivent se situer au
z
plus à 1z1écarts types de part et d’autre de la moyenne
(càd. dans l’intervalle "# x − zs, x + zs$% ), avec z >1 ».
Exemple:
Supposons que la moyenne des notes de 100
étudiants de l’ENCGT soit égale à 70 et que
l’écart type est de 5.
1. Combien d’étudiants ont obtenu une note
entre 60 et 80?
2. Combien d’étudiants ont obtenu une note
entre 58 et 82?
Règle empirique : Règle qui donne le pourcentage
d’observations situées dans les intervalles de un, deux ou
trois écarts type autour de la moyenne, pour une
distribution en forme de cloche (distribution dite normale)
Pour des données ayant une distribution en forme de cloche:
Environ 68% des observations se situent dans " $
# x − s, x + s%
Environ 95% des observations se situent dans "# x − 2s, x + 2s$%
Presque toutes les observations se situent dans "# x − 3s, x + 3s$%
Analyse exploratoire des données
Résumé en cinq chiffres : Technique d’analyse exploratoire
des données qui utilise cinq chiffres pour résumer les données: la
plus petite valeur, le 1e quartile, la médiane, le 3e quartile et la plus
grande valeur. Par exemple,
7710 7755 7850 7880 7880 7890 7920 7940 7950 8050
8130 8325
1) 7710
2) Q1= 7865
3) Q2=7905
4) Q3= 8000
5) 8325
A peu près 25% des données sont comprises entre 2 valeurs
adjacentes
II - Statistique bivariée
II-1 Mesures de la relation entre 2 variables
Nuage de points : A chaque couple de données
(xi,yi) est associé un point M dans le plan. On obtient
ainsi ce qu’on appelle un nuage de points
représentant la série statistique.
Point moyen : G(xG , yG ) où :
1 n
xG = X = ∑ xi
n i=1
1 n
yG = Y = ∑ yi
n i=1
Ajustement affine :
Ajustement à la règle (en passant par le point
moyen) : méthode très approximative.
Méthode de Mayer : 2 sous-nuages, puis 2
points moyens formant la droite de Mayer
(passant aussi par le point moyen) : méthode
assez approximative.
II-2 Mesures par la covariance :
Covariance : Mesure de la relation linéaire
entre deux variables.
◦ Des valeurs positives indiquent une relation
linéaire positive.
◦ Des valeurs négatives indiquent une relation
linéaire négative.
∑ (x i − µ x )(yi − µ y )
Covariance population : σ xy =
N
Covariance échantillon : s xy =
∑ (x i − x)(yi − y)
n −1
II-3 Mesures par le coefficient de corrélation :
Coefficient de corrélation : Mesure de la
relation linéaire entre deux variables, dont les
valeurs sont comprises entre -1 et +1:
s xy σ xy
rxy = ou ρ xy =
sx sy σ xσ y
◦ Des valeurs proches de +1 indiquent une forte
relation linéaire positive.
◦ Des valeurs proches de -1 indiquent une forte
relation linéaire négative.
◦ Des valeurs proches de 0 indiquent l’absence de
relation linéaire.
Méthode des moindres carrés :
- Droite de régression de Y en X , (DY /X ): y = ax + b
σ xy
où a=
(σ x )2
et b =Y - a X
- Droite de régression de X en Y , (D X /Y ): x = a' y + b'
σ xy
où a' = et b'= X - a'Y
(σ y )2
(A noter que les deux droites se coupent au point moyen)
Remarques :
1. Il est possible qu’un lien fort (mais non linéaire)
entre X et Y conduise à une valeur faible de r.
C’est pour cela que « r » est appelé des fois :
coefficient de corrélation de la partie linéaire entre X
et Y.
2. Deux variables dont « r » est proche de 0 sont
dites décorrélées (à ne pas confondre avec
indépendantes).
3. Un fort « r » n’implique pas forcément une
relation de causalité entre X et Y (Existence
possible d’une troisième variable Z).
4. Il existe plusieurs types d’ajustements non
linéaires. Certains types peuvent être ramenés
au cas de l’ajustement linéaire en utilisant la
fonction logarithme népérien. Par exemple :
y = Cx m ou y = Ca x
5. On peut aussi faire un ajustement pour des
V.S.C. en utilisant les centres des intervalles de
modalité.