0% ont trouvé ce document utile (0 vote)
90 vues39 pages

Introduction à la Statistique Descriptive

Transféré par

Anonymous
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
90 vues39 pages

Introduction à la Statistique Descriptive

Transféré par

Anonymous
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Module « méthodologie Statistique »

Statistiques Descriptives

Source : Jean Bouyer : Méthodes statistiques, Médecine Biologie. Les éditions


INSERM
Objectifs
• Définir, calculer et interpréter les différentes
mesures de tendance centrale d'une distribution
(moyenne, mode, médiane)
• Définir, calculer et interpréter les différentes
mesures de dispersion d'une distribution
(étendue, quartiles, percentiles, variance, écart
type)
Définitions de la statistique
Ensemble des méthodes qui permettent de rassembler et
d'analyser les données numériques

Analyse statistique
Analyse "déductive" ou descriptive
A pour but de résumer et de présenter les données observées

Analyse "inductive" ou inférence


Permet d'étendre ou de généraliser dans Certaines Conditions les
conclusions obtenues.
Cette phase comporte certains Risques d‘Erreur qui peuvent être mesurés
en faisant appel à la théorie des probabilités .
Population
 Échantillon
m, s, p

P

Inférence statistique
Population
Ensemble d’unités sur lesquelles on
relève une caractéristique

Échantillon
Une partie de la population
Représentatif
La statistique descriptive

• But : Présenter les données pour que l'on puisse en


prendre connaissance facilement

• Comporte :
– les tableaux : distributions de fréquences
– les diagrammes : graphiques
– les paramètres statistiques : réduction des données à quelques
valeurs numériques caractéristiques
Comment résumer les caractéristiques
d’un large ensemble de données en 1
ou 2 paramètres ?
Données quantitatives
• Continues
– Représentent la mesure d’une quantité.
– Prennent des valeurs numériques concrètes
– Elles soulèvent des problèmes de précision et de choix d'unité.
– Exemple : Taille, Poids, résultat d’un dosage biologique ...
– En pratique, dans le cas des mesures, on effectue en réalité des
observations discontinues en raison de la nécessité d'arrondir les
données alors que celles-ci sont fondamentalement continues

• Discontinues ou discrètes :
– Donnent lieu à des dénombrements ou comptages.
– Les résultats s'expriment en nombres entiers non négatifs.
– Exemples : Nombre d'enfants dans une famille;

Permettent les calculs arithmétiques (moyenne, écart type...)


Données Qualitatives
• Elles concernent des caractères ou des
attributs que chacun des individus peut
posséder ou non.
• Codées avec des classes mutuellement
exclusives
• Deux types : variables nominales et
ordinales
Variables qualitatives nominales
• Les catégories ne sont pas ordonnées :
Exemple : groupe sanguin
• Type le plus simple : variable binaire
Exemple : sexe
• Plus de deux classes :
Exemple : les catégories socioprofessionnelles
• Peut être décomposée en variables binaires
• Exemple : Couleur des cheveux (brun, blond, autre) décomposée en Brun
(oui, non); Blond (oui, non); Autre (oui, non)
• Codage sans aucune signification numérique

Ne permettent pas les calculs arithmétiques (moyenne…) mais


donnent lieu à des dénombrements (fréquences absolues) et des
pourcentages (fréquences relatives)
Variables qualitatives ordinales
• Données qualitatives exprimant des niveaux différents ordonnés.
– Exemple:
• niveau d’études : primaire, secondaire, supérieur
• intensité d'une réponse (négatif, faiblement positif, positif, très positif)
• Codées (0, +, ++, +++ ou 0, 1, 2 , 3)
• Peu apte aux calcul. On préfère des données quantitatives.
• Utilisation d’échelles analogues visuelles
– Très fréquentes en médecine et biologie

Je ne suis pas fatigué Je suis très fatigué


Types de données
– Données quantitatives
• Données continues
• Données discontinues ou discrètes
– Données qualitatives
• Données binaires
• Données nominales
– Données ordinales ou semi
quantitatives

Grande richesse en information


Données quantitatives

Données ordinales

Données qualitatives

Faible richesse en information


Les distributions de fréquences
• Séries statistiques :
– simple énumération ou dénombrement des observations
– peut être ordonnée (variable quantitative)
– le nombre total d'observations, appelé effectif de l'échantillon, est noté n
• Distributions non groupées
– Lorsque les observations sont nombreuses, une même valeur peut être observée
plusieurs fois.
– On utilise xi pour représenter les valeurs différentes, son nombre d’occurrences
est noté ni et est appelé fréquence absolue ; ni/N est appelé fréquence relative.
– En cas de variable quantitative, on ordonne les x i et les fréquences absolues ou
relatives peuvent être additionnées de proche en proche de manière à obtenir les
fréquences cumulées notées Ni et Fi
xi ni fi Ni Fi
x1 172 3 0,015 3 0,015
x2 175 15 0,075 18 0,09

xp np fp N 1
p
n  ni 200
i 1
Les distributions groupées
• Variables quantitatives
– Quand le nombre de valeurs distinctes est élevé, on condense les
tableaux statistiques en groupant les observations en classes. On
obtient ainsi les distributions groupées.
– Les classes sont mutuellement exclusives. Leurs valeurs extrêmes sont
appelées bornes des classes.
– L'amplitude de la classe encore appelée intervalle correspond à l'écart
entre la borne supérieure et la borne inférieure.
– Le point central ou encore point médian est situé à mi chemin entre les
bornes.
– L'intervalle de classe est généralement constant, toutefois, on utilise
parfois une amplitude variable notamment pour les classes des valeurs
extrêmes.
– Dans certains cas la limite inférieure de la première classe ou
supérieure de la dernière classe n'est pas précisée. On parle de classes
ouvertes.
– En cas de classes d'amplitudes différentes, la densité de fréquence
ni/amplitude classei permet de comparer les fréquences d'une classe à
l'autre.
Distribution groupée : exemple
Classe Ci ni fi Ni Fi

[140-160[ 150 10 0,05 10 0,05

[160-165[ 162,5 20 0,10 30 0,15

[165-170[ 167,5 30 0,15 60 0,30

[170-175[ 172,5 45 0,225 105 0,525

[175-180[ 177,5 40 0,20 145 0,725

[180-185[ 182,5 35 0,175 180 0,90

[185-190[ 187,5 15 0,075 195 0,975

[190-200[ 195 5 0,025 200 1,0

N=200 S 1
k
fi =1 k = nombre de classes
Les graphiques
• Diagrammes sur distributions non cumulées
– Diagramme en bâtons
• Distribution non groupée
• On trace parallèlement à l'axe des ordonnées, en regard des x i qui sont portés
en abscisse, un segment de longueur proportionnel à ni
– Polygone des fréquences
• Ligne brisée joignant les bâtons
• Fréquences absolues / fréquences relatives
– Histogramme
• Distribution groupée
• Composé de rectangles ayant comme base l'intervalle de classe et comme
hauteur la densité de fréquence (ni/Di). La surface est proportionnelle à ni.
– Diagramme sectoriel
• Variable qualitative
• Angle au centre proportionnel à ni (ou fi)
Les graphiques
• Diagrammes sur distributions cumulées
– Polygone des fréquences
– Histogrammes
• Principaux aspects de la distribution
– Symétrie - Aplatissement
– Distribution :
• en cloche
• en J
• en U
• à plusieurs bosses
• ...
Classe ni Densité (x10)

[140-160[ 10 5

[160-165[ 20 40 Histogramme :
exemple
[165-170[ 30 60

[170-175[ 45 90

[175-180[ 40 80

[180-185[ 35 70

[185-190[ 15 30

[190-200[ 5 5

90
80
70
60
50
40
30
20
10
0
140 160 170 180 190 200
Nombre de colonies
bactériennes/dm2 ni
1 5 Polygone des fréquences
2 7
3 15 Exemple
4 25
5 35
6 45
7 32
8 28
9 16
10 12
11 3
12 1
45
40
35
30
25
20
15
10
5
0
1 2 3 4 5 6 7 8 9 1 11 12
0
Nombre de colonies bactériennes/dm2
Graphique en barres
Diagramme sectoriel : exemple
Les représentations graphiques
Les paramètres statistiques
• Paramètres de position
– Valeurs centrales
• Moyenne arithmétique
• Médiane
• Mode

• Paramètres de dispersion
– Amplitude ou étendue
– Variance, Ecart type
– Les Quartiles Percentiles
– Coefficient de variation
La moyenne arithmétique :
Population µ échantillon m
• Appelée moyenne notée m
– Paramètre central qui concerne bien évidemment uniquement des
variables quantitatives.
– Calculable quelque soit la loi qui régit la distribution.
– Somme des valeurs (x) divisée par le nombre de mesures (N).
– Suivant la forme de présentation des observations, différentes
formules de calcul peuvent être employées.
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– La moyenne contrairement à la médiane est très sensible aux
valeurs extrêmes.
– La moyenne de l'échantillon est le meilleur estimateur de la
moyenne de la population.
La moyenne : formules
• Somme des valeurs / Nombre d'observations
La moyenne
Exemples
• Soit la série statistique correspondant aux tailles de 6 étudiants : 160, 170, 180, 180, 190, 200
N = 6, T = 1080, m =1080/6 = 180
• Soit la distribution suivante
Nombre de colonies
bactériennes/dm2 ni ni*xi
1 5 5
2 7 14
3 15 45
4 25 100
5 35 175
6 45 270
7 32 224
8 28 224
9 16 144
10 12 120
11 3 33
12 1 12 T = 1 366
m = 1 366 / 224 = 6,098
Les autres valeurs centrales : la médiane
• valeur qui divise en 2 parties égales une série ordonnée de
valeurs
• les valeurs observées sont disposées en ordre croissant ou
décroissant
• 50% des valeurs sont inférieures à la médiane et 50% sont
supérieures
– Sur les distributions symétriques (normales par exemple) la médiane est
égale à la moyenne et au mode.
– Paramètre peu sensible aux valeurs extrêmes

Nombre d’enfants dans chacune des 10 familles


2, 8, 1, 1, 4, 5, 2, 3, 0, 1
nombre médian d’enfants par famille ?
Les autres valeurs centrales : la médiane

 x n 1 si n est impaire,
 2

Me  x n  x n
 2 1


2
si n est paire.
2
Les autres valeurs centrales
• Mode Correspond à la valeur la plus fréquente. xi correspondant
au ni (ou fi) maximum.
• Nombre d’enfants dans chacune des 10 familles
2, 8, 1, 1, 4, 5, 2, 3, 0, 1
• Mode du nombre d’enfants par famille ?
• Dans les distributions uni modales symétriques, mode médiane et
moyenne sont confondus (distribution normale par exemple)
• Quartiles
• Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont
supérieures.
• Q2 = Médiane
• Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont
supérieures.
Détermination graphique
• Percentiles
• 10ième percentile : xi tel que Fi = 0,10
Paramètres de dispersion
• Amplitude ou étendue
– Ecart entre la valeur de l'observation maximale et celle de l'observation
minimale.
• Écart interquartiles
– Q3 -Q1
– Englobe 50% des observations
– Donne naissance à la représentation en « box plot »

71 210 268 342 741


Paramètres de dispersion : Variance, Écart type
La variance (s2) d'une série ou d'une distribution
de fréquence est la moyenne arithmétique des
carrés des écarts à la moyenne.
– L’estimation de la variance est notée s2.
– Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE.
– L'écart type est la racine carré de la variance (s). On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
n 2
1
 ( x i  m)
2
s 
n  1 i 1
La variance

Dans la cas d’un échantillonnage aléatoire, la meilleure


estimation de la variance de la population est:
n

2
 i
( x  x ) 2

s x  i 1
n 1

Qui s’écrit aussi:


 x  2

2
x 2

n
sx 
n 1
35
L’écart type (standard deviation)

L’écart type d’une distribution est égale à la racine de la


variance

  2
sx  sx
2

population échantillon

Même unité que la moyenne!!

37
La variance

Propriétés:
• La variance est toujours > ou = à 0

• La variance est égale à 0 si toutes les valeurs sont identiques

38

Vous aimerez peut-être aussi