Statistique descriptive
Plan
Chapitre 1
Définitions et terminologie : Statistique, population, échantillon, unité statistique.
Type de Variables aléatoires (quantitatives et qualitatives)
Opérateurs
Etapes d’une étude statistique
Elaboration des tableaux statistiques simples et croisé (tri à plat et tri croisé des données brutes)
Calcul des fréquences
Représentation graphique des données (diagramme sectoriel, en tuyaux d'orgues, en bâtons,
histogramme, polygone de fréquence, courbes de densités cumulées…)
Chapitre 2
Mesures de tendance centrale et indices de position (mode, moyenne ; médiane, quartiles, ..)
Mesures de dispersion (variance, écart type et coefficient de variation,…)
Indices de formes (symétrie, asymétrie,..)
Chapitre 3
Covariance entre deux variables aléatoires
Etude de liaison ou Indépendance entre deux variables aléatoires
Travaux Dirigés Chaque partie du cours est suivi par une série de TD.
Objectifs
Savoir manipuler les données statistiques brutes
Savoir construire les tableaux statistiques à une variable
Savoir faire les présentations graphiques statistiques
Savoir calculer des grandeurs statistiques
1
Définition
La Statistique, c'est l'étude des variations observables. C'est une méthode qui consiste à réunir des
données chiffrées sur des ensembles, puis à les analyser et à les interpréter.
Etapes d’une étude statistique
1. On collecte des données : sondage, recension, enquête, … ;
2. On trie les données que l’on organise avec des outils : tableaux, diagrammes,
Indicateurs…
3. Manipulation des données : calcul des grandeurs statistiques
4. On interprète les résultats : conclusions
Les conclusions et les objectifs
Evaluer une grandeur statistique comme la moyenne ou la variance ….
Savoir si deux populations sont comparables (tests d’hypothèses).
Déterminer si deux grandeurs sont liées et de quelle façon (corrélation, ajustement analytique).
Les conclusions sont toujours entachées d'un certain pourcentage d'incertitude, nous permettent
alors de prendre une décision.
Terminologie
un ensemble de terminologie sont tirées de la démographie car la statistique est beaucoup utilisée
pour la démographie
POPULATION : Ensemble étudié et soumis à
l’analyse statistique. Chaque élément de cet
ensemble est un individu ou unité statistique.
ÉCHANTILLON : sous ensemble de la population
considérée. Le nombre d'individus dans
l’échantillon est la taille de l'échantillon.
CARACTÈRE appelé aussi variable statistique: la
propriété ou l'aspect singulier que l'on va observer
ou étudier dans la population ou l'échantillon.
Ex : âge, sexe,
Modalité ; La valeurs que peut prendre un
variable
Définition
2
Variable qualitative est une variable qui ne se prête pas à des valeurs numériques (exemple :
opinions politiques, couleurs des yeux...). Elle peut être ordonnée (Ordinal) ou non (nominal),
dichotomique (qui ne comporte que deux valeurs « F » « M » ) ou non.
Variable quantitative qui peut être exprimée numériquement. Dans ce cas, elle peut être
discontinue ou continue.
Elle est discontinue : prend que des valeurs isolées les unes des autres. Une variable discontinue
qui ne prend que des valeurs entières est dite discrète (exemple : nombre d'enfants d'une famille)
Elle est dite continue elle peut prendre toutes les valeurs d'un intervalle fini ou infini (exemple :
diamètre de pièces, salaires...).
Caractère qualitatif
Quand la réponse donnée est un mot ou une expression (la langue maternelle, le sexe, la couleur des
yeux, etc.).
Caractère quantitatif
Quand la réponse donnée est un nombre. Selon la nature de ce nombre, cette variable sera discrète
ou continue.
Caractère quantitatif discret
Quand la réponse donnée est un nombre naturel (nb d'enfants dans une famille, nb d'amis, nb de
maisons, etc.).
3
Caractère quantitatif continu
Quand la réponse donnée peut prendre n'importe quelle valeur dans un intervalle donné (la taille
d'une personne, le temps, etc.).
Exemple
Exemple : faire une étude statistique de la classe âge, note du bac, mention, sexe, provenance
Organisation des données
Trier la série : ranger les effectifs par caractère commun
Ordonner la série : ranger en principe les données dans l'ordre croissant de caractères
Tableaux
4
On regroupe toutes les données de la série statistique dans un tableau indiquant la répartition des
individus selon le caractère étudié. Le regroupement s'effectue par modalités ou classes. Une classe
contient tous les individus ayant la même modalité ou la même valeur du caractère.
Le tableau brut se présente sous la forme suivante (répartition d’un ou plusieurs caractères selon les
individus):
Le tableau statistique obtenu finalement comme suivant. Il donne la répartition des individus selon le
caractère étudié
Variable Effectif ni
Modalité 1 n1
Modalité 2 n2
Modalité 3 n3
Modalité n nk
Total N
Le tableau statistique contient d’autres informations
Variable Effectif Fréquence Effectif cumulé Fréquence cumulée Fréquence cumulée
ni fi croissant Ecc croissante Fcc décroissante Fcd
Modalité X ni fi = ni/N Ecci=ni+Ecci-1 Fcc = fi+Fcci-1 Fcd = fi-Fcdi+1
Total N=∑ni 1
Exemple d’un tableau statistique
5
Allure d’une présentation graphique de l’effectif cumulée croissant et décroissant
Exemple :
Exemple 1 : La série statistique simple des notes que vous avez découverte ci-dessus provient du
relevé de notes suivant :
1 ; 4 ; 10 ; 3; 12; 17; 14 ; 10 ; 12; 3; 5 ; 11 ; 4 ; 8; 11; 9; 3 ; 6; 14; 7; 15; 2 ; 10 ; 12; 8; 13; 9; 12; 9
Construire le tableau statistique
Exemple 2 : On a compté le nombre d'enfants par femme. Les résultats trouvés sont 0, 2, 2, 3, 1, 3, 1,
2, 0, 1, 4, 0, 2, 1, 2, 1, 3, 1, 0, 2
Construire le tableau statistique
Exemple 3: Transformer les données suivantes sous forme d’un tableau statistique (distribution
d’une population d’élèves selon le poids en kg)
45; 50; 55; 58; 60; 63; 64; 64; 65; 66; 67; 67; 67; 67; 68; 68; 68; 68; 68; 68; 70; 70; 71; 71; 71; 71; 72;
72; 72; 72; 73; 73; 73; 73; 73; 73; 73; 73; 73; 73; 74; 74; 74; 74; 74; 74; 74; 74; 74; 75; 75; 75; 75; 76;
76; 76; 76; 77; 77; 77; 78; 78; 79; 79; 79; 79; 80; 80; 80; 80; 80; 81; 81; 81; 82; 82; 83; 84; 84; 86
6
xi ni NCC NCD fi FCCi FCDi
0 103 103 360 0,2861 0,2861 1
1 115 218 257 0,3194 0,6055 0,7139
2 95 313 142 0,2639 0,8694 0,3945
3 35 348 47 0,0972 0,9666 0,1306
4 10 358 12 0,0278 0,9944 0,0334
5 2 360 2 0,0056 1 0,0056
Total : 360 1
Il y a 313 individus possédant un caractère (modalité) inférieur ou égal à 2
Il y a 47 individu possédant un caractère (modalité). supérieur ou égal à 3
La proportion d’individu possédant un caractère (modalité). inférieur ou égal à 4 est de 99,44%
La proportion d’individu possédant un caractère (modalité) supérieur ou égal à 1 est de 71,39%
Série pour un caractère continu
• Si le caractère est continu, une classe est un intervalle.
Pour construire ces intervalles, on respecte les règles suivantes :
1. Le nombre de classes est compris entre 5 et 20
2. Chaque fois que cela est possible, les amplitudes des classes sont égales.
3. Chaque classe (sauf la dernière) contient sa borne inférieure mais pas sa borne supérieure.
Règle de choix du nombre de classes
Il faut suivre les étapes suivantes :
Etape 1 : Déterminer p le nombre de classes, on peut le calculer la règle: P = 1 + 3,3log10(N) Avec p =
l'entier le plus proche de P.
Etape 2 : Calculer l'étendue e = xmax -xmin
Etape 3 : calculer l'amplitude des classes a = e/p
Etape 4 : On construit les classes [xmin; xmin+a[;[xmin + a; xmin+2a[; … ; [xmin(p-1) a; xmin + pa[
Présentation graphique
Les graphiques sont des modes de représentation des données statistiques et qui permettent une
bonne analyse et une interprétation la plus complète possible de séries statistiques ainsi une bonne
compréhension des phénomènes. Selon la nature des données, la nature de variable, le nombre de
variables et ce que l'on souhaite montrer, il faut choisir la représentation graphique la mieux
adaptée.
7
Les courbes cumulatives NCC et NCD sont symétriques par rapport à n/2 : NCC+ NCD = n
Les courbes cumulatives FCC et FCD sont symétriques par rapport à 0,5 : FCC + FCD = 1
Diagrammes en barre ( tuyau d’orgue) Diagramme Circulaire (camembert)
Les modalités dans l’ordre en x et les fréquences Diagramme en secteur circulaire en camembert
ou les effectifs en y α= Eff*360/N
Le camembert est un type de fromage
L’orgue un instrument de music dans les églises
8
Diagramme en Histogramme Polygone
Les surfaces des rectangles sont Joindre les milieux des classes par une ligne
proportionnelles aux effectifs
Exemples histogrammes avec des séries à amplitudes différentes .
Pour une série à amplitudes variables
Nous mettons n=Surface = Hauteur *amplitude ou H = n/amplitide
Exemple 2
9
Diagramme de Pareto ou loi de 20/80
Vilfrido Pareto
Économiste et sociologue italien.
Né à Paris – Mort à Lausanne.
80% de la richesse appartient à 20% des personnes.
Le diagramme de Paréto est un histogramme qui permet de présenter les catégories par ordre
d’importance.
En abscisse : les catégories (possiblement non numériques), en ordre décroissant d'effectifs.
En ordonnée : la fréquence (effectif) de la catégorie.
Pour chaque catégorie, on trace un rectangle dont la hauteur est l'effectif de la catégorie.
On relie les valeurs des effectifs cumulés pour obtenir un graphe linéaire par morceaux.
Le diagramme de Pareto est un graphique représentant l'importance de différentes causes d'un
phénomène. Ce diagramme permet de mettre en évidence les causes les plus importantes sur le
nombre total d'effet et ainsi de prendre des mesures ciblées pour améliorer une situation.
méthode ABC propose de considérer trois
classes
Cause Effet
10
Exemple pyramide des âges
La pyramide des âges d'une population est un double histogramme horizontal représentant
la population selon le sexe et l'âge. Les âges sont placés sur l'axe vertical, l'âge 0 en bas,
l'âge maximal en haut. Par rapport à cet axe, les hommes sont placés sur la gauche, les
femmes sur la droite. Les effectifs à chaque âge sont représentés par des barres
horizontales. Les effectifs peuvent être exprimés en milliers ou en millions, selon la taille de
la population concernée.
11