I- Statistique descriptive:
(Analyses univariées)
Animé par :
Pr Mohamed Ait Babram
Plan de l’Analyse
Objectif (formulation du problème)
Menu
Analyse Procédure SPSS
Syntaxe
Interprétation des résultats
Formulation théorique de quelques indicateurs
Objectif
La statistique descriptive est considérée
comme la première étape de l’analyse de
données. Les objectifs d’une telle analyse se
résument en trois points :
Contrôle des données et éliminer les données
aberrantes (Fréquence et Boite à Moustache);
Résumer les données sous forme graphique ou
numériques (Paramètres de position, de
dispersion et de forme);
Étudier les particularités de ces données.
Terminologie
Individu : Objet (unité statistique) sur lequel un ou
plusieurs caractères peuvent être observés.
Population : Ensemble des individus pris en
considération.
Échantillon : La partie de la population réellement
étudiée.
Caractère : Propriété servant à distinguer les
individus d'une population.
Modalités d’un caractère : Ce sont les différentes
situations où les unités statistiques (Individus)
peuvent se trouver à l’égard du caractère.
Vocabulaire
Un caractère peut être qualitatif (attribut) ouquantitatif :
Discrète (Nombre de feuilles ,…)
Quantitative
Continue (Calibre d’un fruit,…)
Variable
Binaire (Infecté/Non infecté,…)
Qualitative Nominale (Sexe, Couleur,…)
Ordinale (Score,…)
Formulation
Étant donné X une variable numérique (caractère) qui prend des
valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur
un échantillon.
N : Taille de la population
n : Taille de l’échantillon
La variable X est alors résumée par des statistiques de
tendance centrale (moyenne, médiane, quartiles ), de
dispersion (variance, écart-type, coefficient de variation) et de
forme (coefficient d’aplatissement et d’asymétrie)
Terminologie
On regroupe les observations selon des modalités j de la
variable X et compter le nombre d’observations dans chaque
modalité (fréquence absolue nj)
Éventuellement la ramener en pourcentage (fréquence
relative fj)
Compter le nombre d’observations de la plus petite jusqu’à la
modalité j (fréquence cumulée F ou fonction de répartition
théorique)
Le tableau de fréquence (distribution de fréquences)
regroupe l’ensemble des fréquences
Un tableau donne des indications (moyenne, min, max, écart-
type,…) sur des variables pour des individus (regroupés)
Définitions
Mode : La modalité la plus fréquente
Exemple : « la modalité la plus fréquente du statut matrimonial est
marié(e) avec 52% »
Quantiles (fractiles) : valeur qui divise les observations en n groupes
égaux
Médiane : 2 groupes,
• 50% ont une valeur inférieure; 50% ont une valeur supérieure
Quartiles : 4 groupes : 25%, 50%, 75%
Déciles : 10 groupes,
Percentiles : 100 groupes
Remarque : Les quantiles sont
– insensibles aux valeurs extrêmes
– Sa précision dépend de la densité des points
Définitions
Population Echantillon
Effectif N n
M oyenne 1 N 1 n
xi x xi
N i 1 n i 1
estimation de μ
Variance 1 N
1 n
2
N
( xi ) 2 2
s
n 1 i 1
( xi x ) 2
i 1
estimation de σ 2
Écart-type 2
s s2
Remarque : Le coefficient de variation définit par:
CV ( X )
X
peut servir aussi comme paramètre de dispersion et d’homogénéité.
Exemple illustratif
On a relevé les notes de mathématiques obtenues par 19 étudiants à
un examen final :
Code 1 2 3 4 5 6 7 8 9
Note 8,5 9 9,5 10,5 10,5 10,5 11 11 12,5
Q1=10,5
Med=Q2=13
Q3=16,5
10 11 12 13 14 15 16 17 18 19
13 13 14,5 15 15 16,5 16,5 16,5 17 18
Exemple sur SPSS
Pour cet exemple, on considère la base de
données stockée dans le fichier Employes
[Link] qui contient un historique sur les
employés d’une société. Les données ont été
collectées dans le cadre d’une étude pour
déterminer si la politique d’emploi de la société
conduit à une discrimination à l’égard des
femmes et des minorités.
Objectifs
1) Faire une analyse descriptive de la variable numérique
continue « salaire actuel ».
2) Faire une analyse descriptive de la variable nominale
« sexe ».
3) Faire une analyse descriptive de la variable ordinale
« catégorie d’emploi ».
4) Décrire et explorer la variable numérique « salaire actuel » en
fonction des variables catégorielles « sexe » et « catégorie
d’emploi ».
Remarque : On remarque que, pour les trois premiers objectifs, il
s’agit de la même analyse mais pour trois types de variables.
Objectif 1 : Procédure (1/3)
Analyse Statistiques Descriptive Fréquences
Cliquer ici pour déplacer la
variable catégorie d’emploi
Diagramme
Obj 1: Proc (2/3)
Statistiques
Obj 1: Proc (3/3)
Format
Obj 1: Proc (4/3)
Coller OK
Objectif 1 : Procédure (2/3)
Cliquer ici pour déplacer la
variable catégorie d’emploi
Attention, il ne faut pas
choisir « diagramme de
bâtons » ou « graphique en
secteur » dans le cas ou la
variable est continue ou
discrète avec un nombre de
modalités élevé.
Poursuivre
Objectif 1 : Procédure (3/3)
Cocher tous les paramètres
Vous pouvez demander les
centiles que vous voulez. Ici
on a choisi les centiles
correspondants à 5%,27%
et 58%.
Poursuivre
Objectif 1 : Procédure (4/3)
Cocher tous les paramètres
Vous pouvez faire appel à
ces options au cas où
voulez analyser plusieurs
variables d’un seul coup. Il
ne faut pas oublier que dans
ce cas là les variables
doivent êtres de même type
Cocher cette option pour ne
pas avoir un tableau de
fréquences encombrant.
Poursuivre
Objectif 1 : Résultat 1/2
Les paramètres de la
tendance centrale
demandés pour la
variable salaire actuel
Les quartiles en plus
des centiles 5%, 27% et
58%
Objectif 1 : Résultat 2/2
Le logiciel SPSS a
découpé les données
concernant le salaire
actuel en 25 classes de
même amplitude (5 000 $).