0% ont trouvé ce document utile (0 vote)
326 vues40 pages

Cours Statistiques

Le document traite de l'analyse statistique des données, en définissant les concepts clés tels que la statistique descriptive et l'inférence statistique. Il explique les méthodes de collecte et de traitement des données, ainsi que les différentes typologies de variables et d'échelles de mesure. Enfin, il présente les étapes de l'organisation des données à travers des tableaux et des représentations graphiques.

Transféré par

borisachy7
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
326 vues40 pages

Cours Statistiques

Le document traite de l'analyse statistique des données, en définissant les concepts clés tels que la statistique descriptive et l'inférence statistique. Il explique les méthodes de collecte et de traitement des données, ainsi que les différentes typologies de variables et d'échelles de mesure. Enfin, il présente les étapes de l'organisation des données à travers des tableaux et des représentations graphiques.

Transféré par

borisachy7
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ANALYSE STATISTIQUE DES

DONNEES

But : analyser des données numériques à l’aide des méthodes et des outils
statistiques

CHAPITRE 1 : DEFINITIONS ET TERMINOLOGIE.

DEFINITION ET OBJECTIF DE LA STATISTIQUE

1
La statistique est l’ensemble d’outils et de méthodes scientifiques qui permettent de
faire la collecte et le traitement d’un grand nombre de données numériques. Elle
consiste à organiser des données chiffrées sur de grands ensembles, puis à les
commenter. La statistique permet de synthétiser et de résumer de grands volumes de
données, des grandes matrices d’informations.
Dans sa composante traitement de données, la méthode statistique présente deux
aspects :

 un aspect descriptif (ou exploratoire) désigné par« statistique descriptive »


 un aspect déductif désigné par « inférence statistique ».

a) La statistique descriptive ou exploratoire constitue l’ensemble des


procédures et des techniques qui ont pour but de décrire un phénomène
observé, c'est-à-dire de présenter succinctement les caractéristiques
quantitatives pertinentes de ce phénomène.
Elle a pour objectif entre autres de :

 synthétiser l’information contenue dans une série statistique


 mettre en évidence ses propriétés.
 suggérer des hypothèses relatives à la population dont est issu l’échantillon.

Elle utilise souvent les outils suivants:

 Tableaux (table des fréquences,..)


 Graphiques (box-plots, histogrammes,..)
 indicateurs (moyenne, corrélation,..).

b) L’inférence statistique est la méthode statistique par laquelle il est possible


de déduire les caractéristiques quantitatives de toute une population à partir de
leur étude dans un échantillon issu de celle-ci. Elle nécessite des méthodes
d’échantillonnage et suppose un modèle probabiliste sur la population.
Elle a pour objectifs entre autres de :

 étendre (inférer) les propriétés constatées sur l’échantillon à la population.


 Valider ou infirmer des hypothèses sur la population énoncées à priori ou
formulées après une phase exploratoire.
Elle utilise souvent les méthodes suivantes:
 Estimation : approcher des paramètres de la population à partir de l’échantillon.
 Tests : valider ou infirmer des hypothèses statistiques émises sur ces
paramètres.
 Modélisation et prévision : recherche d’une relation entre une variable et
plusieurs autres, valable pour l’ensemble de la population.

1) Définition de quelques termes usuels en statistique

a- La statistique, les statistiques, une statistique et un paramètre


2
 L’expression « statistiques » au pluriel désigne des données brutes ou
partiellement traitées, généralement publiées sous forme de tableaux, sans
analyse.
 La statistique est la science du traitement de ces données et de leur
commentaire.
 une statistique est une grandeur calculée à partir des observations recueillies
dans un échantillon.
 un paramètre est une grandeur calculée à partir des observations recueillies
dans la population totale.

b- Individu, population, échantillon, recensement, sondage

 Individu ou unité statistique


C’est l’entité élémentaire dont on étudie les caractéristiques. Il peut s’agir de
personnes humaines ou de tout autre objet.
 Population ou univers statistique.
C’est l’ensemble de personnes ou d’objets équivalents étudié.
C’est l’ensemble de référence auquel on s’intéresse. Une population est dite
finie si elle comprend un nombre fini d’individus, ou infinie si elle comprend un
grand nombre d’individus.
 Echantillon
Un échantillon est un lot d’individus extrait de la population totale (ou
population mère) sur lequel va porter l’étude afin de procéder éventuellement
à des généralisations au niveau de la population totale. Il existe plusieurs
techniques pour constituer un échantillon. L’un des principes directeurs est
que l’échantillon obtenu doit être représentatif c'est-à-dire qu’il doit refléter
fidèlement sa composition et sa complexité. Seul l’échantillonnage aléatoire
assure la représentativité de l’échantillon.

Remarque: La statistique traite des propriétés des populations plus que des
individus particuliers de ces populations.

 Recensement
C’est l’étude de tous les individus d’une population. Difficile en pratique lorsque
les populations sont grandes pour des questions de coût et de temps.
 Sondage.
C’est le recueil d’une partie de la population c’est-à-dire l’échantillon. Le recueil
d’un échantillon à partir de la population initiale se fait par des techniques
statistiques, appelées méthodes d’échantillonnage.

Les principales composantes de l’approche statistique


3
Méthode de collecte des  Diverses procédures permettant
données de recueillir les informations
relatives au sujet

Tableaux de distribution  C’est un tableau condensé


présentant les modalités et leur
fréquence

Représentation  C’est un résumé visuel des


graphique données

Les mesures de  Elles décrivent les valeurs autour


tendance centrale desquelles les données se
trouvent, c’est-à-dire le "centre"
de leur distribution (mode,
médiane, moyenne).

Les mesures de position  Elles indiquent la position relative


d’une donnée dans la distribution
(quintiles, quintiles, centiles)
La statistique
descriptive

 Elles indiquent si les données


Pour déduire les Les mesures de sont relativement proches de leur
phénomènes dispersion
centre ou si, au contraire, elles
observés sont éparpillées (étendue, écart
moyen, écart type variance,
rapport de variation

Les mesures  Elles indiquent le degré de


d’association cooccurrence ou de covariation
entre les données relatives à
La statistique
deux variables.

L’estimation

L’inférence
statistique
A une variable

Pour déduire (ou plus précisément inférer) Ils permettent, par une prédiction, si
les caractéristiques d’une population, ou une supposition faite au sujet d’un
Les tests d’hypothèses
confirmer des suppositions à son sujet, à paramètre est contredite par les
partir de l’étude d’un échantillon statistiques mesurées sur un
échantillon choisi au hasard

Ils permettent de vérifier, par une prédiction, si une


association statistique supposée entre deux A deux variables
variables concernant une population est contredite

Exemple :

4
En période électorale, on interroge 1 000 personnes sur leur intention de vote. A partir
des résultats obtenus sur cet échantillon, on prévoit, avec une certaine précision, le
comportement de l’ensemble des électeurs (population mère) et par la même, le résultat
des élections. C’est ce qu’on appelle l’inférence statistique et c’est le principe même du
sondage d’opinion par exemple.

Le lien de complémentarité entre statistique d’inférence et statistique descriptive est


évident.
Référence : document tiré du cours de statistique du prof. Marie – Hélène de Marceau.

2) Variable statistique – modalité - donnée

5
 Une variable est la propriété ou la caractéristique que l’on veut étudier et pour
laquelle on cherche des données au sein de la population. Ainsi, l’âge, le
niveau de scolarité, la note obtenue à un examen, le revenu annuel d’un
ménage sont autant de variables.
 les données seraient les valeurs particulières que prennent ces variables pour
chaque individu.

3) Typologie des variables : variables qualitatives et variables quantitatives

 Une variable est dite qualitative lorsque les données qui s’y rapportent sont
des qualités ou des attributs non mesurées par des nombres. Elle est dite non
numérique. Une variable qualitative est dite nominale si aucun lien de
hiérarchie ne peut être établi entre ses modalités ; dans le cas contraire elle
est dite ordinale.

 Une variable est dite quantitative lorsque les données qui s’y rapportent sont
le résultat d’un décompte ou d’une mesure numérique, faisant appel aux
propriétés arithmétiques des nombres.
 Une variable quantitative est dite discrète (ou discontinue) si elle ne
peut prendre aucune autre valeur entre deux valeurs consécutives.
Généralement, ses valeurs sont le résultat d’un décompte, elles sont
donc connues avec exactitude et sont souvent des entiers.
 Une variable quantitative est dite continue si elle peut prendre une
infinité de valeurs entre deux valeurs proches. Ses valeurs sont
souvent le résultat d’une mesure relative à un étalon, sa valeur n’est
donc pas connue avec exactitude, c’est un nombre réel (entier ou
décimal)
Remarque :

 Les différents états possibles dans lesquels peuvent se trouver une variable
qualitative sont appelés ses modalités. Par exemple la variable niveau d’étude
a pour modalités niveau primaire, niveau secondaire, niveau supérieur. Dans
le cas d’une variable quantitative on parle plutôt des valeurs de la variable.

 données en coupe transversale et données temporelles.


 Les données sont dites en coupes transversales si elles sont collectées
au même moment ou presque.
 Si elles sont collectées sur des périodes différentes, elles sont dites
temporelles.

4) Variable dépendante et variable indépendante


La notion de variables dépendantes ou de variables indépendantes dans une
étude suppose qu’il existe au moins deux variables.

6

La variable dépendante est celle qui est étudiée ; c’est celle qui est à
expliquer.
 La variable indépendante est un facteur explicatif possible de la variable
étudiée.
.

7
La notion d’échelle de mesure

Pour noter une caractéristique quelconque, c’est-à-dire une donnée


concernant une variable telle que le revenu d’un individu, son âge, son lieu de
résidence dans le cadre d’une enquête, on utilise un système de notation
déterminé au préalable avant de commencer la collecte systématique des
données. Ce système de notation est appelé échelle de mesure. Il existe
quatre types d’échelle de mesure : l’échelle nominale, l’échelle ordinale,
l’échelle d’intervalle et l’échelle de rapport.

échelle Définitions et Opérations Exemples


propriétés mathématiques
Une variable est _ Pas de relation *catégorie
mesurée sur une d’ordre entre les d’emploi
Les échelle nominale si codes (modalités) *lieu de
échelles les codes utilisés ne _ Aucune opération résidence
nominales servent qu’à identifier mathématique sur *statut
la modalité à laquelle les codes matrimonial
appartient l’unité _ On peut compter le *type de
statistique. Elles nombre d’individus produit de
permettent de répartir dans chaque beauté utilisé
les données en catégorie, puis
catégorie. Ce sont calculer les rapports,
des variables des proportions et
nominales qui sont des pourcentages. .
mesurées sur cette
échelle
Une variable est _établir des *Niveau
mesurée sur une catégories d’étude
échelle ordinale si les composées *tranche de
Les codes utilisés d’éléments qui ont le revenu
échelles permettent non même rang ; *tranche
ordinales seulement d’identifier _ Aucune opération d’âge
la modalité à laquelle mathématique sur *niveau
appartient l’unité les codes d’appréciation
statistique, mais _ On peut compter le d’un produit
également d’établir nombre d’individus
une relation d’ordre dans chaque
entre les modalités catégorie, puis
observables et donc calculer les rapports,
entre les unités des proportions et
statistiques. Elles des pourcentages.
permettent de répartir
les données en
catégories et de les
ordonner (variable
qualitative ordinale).

8
Ce sont des _établir des *le quotient
grandeurs catégories intellectuel
numériques composées *les dates
Les associées à chaque d’éléments qui ont le *la
échelles élément avec les même rang ; température
d’intervalle propriétés suivantes : _ On peut compter le *les horaires
Ces échelles nombre d’individus
supposent le choix dans chaque
d’une unité de catégorie, puis
mesure qui est calculer les rapports,
répartie des proportions et
uniformément sur des pourcentages
l’échelle et à l’aide de _trouver les
laquelle les distances distances entre les
entre les diverses données, puis faire
valeurs sur l’échelle des rapports entre
peuvent être ces distances (mais
évaluées ; le point pas entre les
zéro sur cette données elles-
échelle est mêmes)
arbitraire.
Ce sont des _établir des *la durée
grandeurs catégories d’une
numériques composées émission de
associées à chaque d’éléments qui ont le télévision
Les élément avec les même rang ; *le volume de
échelles propriétés suivantes : _ On peut compter le vente d’un
de rapport Ces échelles nombre d’individus produit
supposent le choix dans chaque *le rapport
d’une unité de catégorie, puis qualité-prix
mesure qui est calculer les rapports, d’un produit.
répartie des proportions et
uniformément sur des pourcentages
l’échelle et à l’aide de _trouver les
laquelle les distances distances entre les
entre les diverses données, puis faire
valeurs sur l’échelle des rapports entre
peuvent être ces distances ;
évaluées ; le point _faire des rapports
zéro sur cette entre les mesures
échelle est absolu. des individus
_on peut utiliser
toutes les
techniques
statistiques.

9
Exercices 1

Parmi les exemples suivants, identifier les variables et dire si elles constituent
dans le contexte une variable dépendante ou indépendante :
a- Dans une étude, on recherche des données sur la nature des articles volés
selon l’emplacement du magasin.
b- Un chercheur en marketing veut vérifier si le groupe culturel a une influence
sur le moment où des enfants atteignent les différents stades de
développement selon la théorie de Piaget. Il fait passer quatre épreuves de
Piaget à trois groupes d’enfants de 10 ans, d’ethnies différentes.
c- On veut mesurer l’effet d’une nouvelle méthode de publicité sur les habitudes
vestimentaires des enfants.

10
Chapitre 2 : Organisation des données

Il existe plusieurs niveaux de description statistique :


- Présentation brute des données
- Présentation par tableau de distribution
- Représentation graphique
- Résumé numérique à l’aide de mesures statistiques.

A- Présentations tabulaires des données

Supposons, par exemple, qu’on vous confie un projet d’ouverture d’un centre
d’exposition d’articles de sport « aux perles grises ». Pour évaluer l’opportunité d’un
tel centre, vous réalisez une enquête auprès d’un échantillon aléatoire de 170
ménages du quartier. Le questionnaire contient des questions comme :
Age………………………………
Sexe M………………………….F………………………….
Niveau d’étude : primaire……secondaire…………supérieur…………
Statut matrimonial : marié…célibataire…veuf…..divorcé….vivant maritalement.
Nombre d’enfant par ménage :…..
Revenu annuel par ménage…..
Type de sport pratiqué…..
Chacune de ces questions est une variable. Le résultat immédiat de cette enquête est
une pile de 170 fiches, chaque fiche renfermant par exemple 20 questions. On aura
donc au total 20*170 = 3400 données recueillies.
Comment traiter ces données pour les rendre plus intelligibles en vue d’une analyse ?
a- La saisie des données :
Elle consiste à transcrire les données dans un tableau. On construit ainsi un
immense tableau où chaque ligne représente un individu et chaque colonne une
variable. Chaque case du tableau représente la réponse d’un individu à une question.
Ce tableau est dit tableau complet.
La présentation complète ou brute des données peut ainsi être la forme première de
saisie et de stockage des données (issues par exemple d'une enquête ou d'un travail
de terrain ou les résultats d'une étude statistique), soit sous forme papier soit sous
forme informatique. Elle constitue la matrice des données brutes.

11
b- Analyse uni-variée

Dans ce cas, le traitement statistique porte sur l’étude systématique des données
relatives à chaque variable, indépendamment des autres. C’est l’analyse
unidimensionnelle ou analyse uni-variée. Pour chaque variable du tableau complet, on
réalise un tri à plat simple. Cette opération consiste à associer à chaque modalité Xi
de la variable X choisie le nombre ni d’individus ayant cette valeur ; ni est l’effectif ou
la fréquence absolue de cette modalité. L’ensemble des couples (Xi ; ni) forme une
distribution statistique. Cette série peut être présentée sous forme de tableau appelée
tableau de répartition ou tableau de fréquences de la variable X.

c- Analyse bivariée

C’est l’étude des données relatives à deux variables à la fois. Il s’agit par
exemple de rechercher une éventuelle association entre les variables prises
deux à deux : c’est une analyse bi-dimensionnelle ou bi-variée. Pour chaque
couple de variable (X ; Y) on réalise un tri-croisé. Les résultats de cette
opération se présentent sous forme de tableau appelé tableau croisé ou tableau
de contingence.

d- Analyse multivariée

C’est l’étude des données relatives à plus de deux variables à la fois. Sur la
recherche de relations entre un grand nombre de variables prises simultanément :
c’est l’analyse multidimensionnelle ou multivariée. Ces traitements sont longs et
complexes et supposent le recours aux outils informatiques.

12
Exemple de matrice de données brute.
Matrice de données brutes issues d’une enquête auprès d’un échantillon aléatoire de
60 téléspectateurs d’une télévision privée de la place.

IN VAR VAR VAR IN VAR VAR VAR IN VAR VAR VAR


D 1 2 3 D 1 2 3 D 1 2 3

01 1 1 3 21 3 4 5 41 2 2 4

02 2 2 4 22 3 3 4 42 3 2 4

03 3 1 5 23 2 1 5 43 1 2 5

04 2 2 4 24 3 2 4 44 2 3 4

05 2 3 4 25 3 1 3 45 3 1 5

06 2 1 5 26 3 2 5 46 1 2 2

07 3 3 5 27 2 1 2 47 3 1 4

08 2 2 3 28 1 3 3 48 2 2 3

09 1 4 4 29 1 3 4 49 1 1 3

10 2 2 5 30 2 2 4 50 2 2 4

11 2 3 3 31 1 2 4 51 1 4 5

12 3 1 5 32 2 2 5 52 2 1 5

13 3 2 5 33 1 3 5 53 1 2 4

14 3 1 4 34 3 1 2 54 3 2 4

15 2 4 4 35 2 2 3 55 1 3 5

16 3 1 4 36 1 1 3 56 2 3 3

17 3 1 1 37 2 2 5 57 2 2 4

18 2 3 1 38 1 1 2 58 1 4 4

19 3 2 5 39 2 3 4 59 3 1 4

13
20 2 2 5 40 1 1 4 60 3 1 3

Var1 : niveau d’étude : 1-primaire ; 2- secondaire ; 3- supérieur.

Var2 : profession : 1- cadre du privé ; 2- cadre de la fonction publique ; 3- emploi libéral ;


4- autres.

Var3 : appréciation de la qualité générale du service comparativement aux autres


chaines privées : 1-mauvais ; 2- équivalent ; 3- bon ; 4- très bon ; 5- excellent

I- ANALYSE UNIVARIEE

A- Construction d’un tableau de répartition :

Tableau de répartition du caractère X ayant k modalités ou k différentes valeurs.


Dans ce type de tableau, on ne connaît que le nombre d'individus correspondant à
chaque modalité ou classe de valeurs. C’est un mode synthétique de présentation des
données.

Var(X) Fréquence absolue nj


 Les notations utilisées dans ce cas sont les
x1 n1
suivantes :
x2 n2  Le caractère, toujours noté X, présente k
modalités.
. .  Une modalité quelconque du caractère X est
xj nj notée Xj, j variant de 1à k.
 L'effectif partiel correspondant à une
. . modalité Xj quelconque du
xk nk caractère X est noté nj, j variant toujours de 1 à k..

Total N Rappelons que n est l'effectif total de la population,


et k le nombre de modalités du caractère.

N = Σ ni

On appelle distribution statistique du caractère dans la population considérée, cette


présentation qui, à chaque modalité (catégorie, valeur discrète ou classe de valeurs)
du caractère fait correspondre son effectif partiel ou fréquence absolue et noté ni
Eléments d’identification d’un tableau de répartition :

Un tableau doit comporter les éléments d’identification suivants :

14
1- Un titre : dans le titre du tableau on doit indiquer :
1- ce qui est étudié
2- La population totale ou l’échantillon

3- Le lieu de réalisation de l’étude

4- La date de réalisation de l’étude

2- La source : Il faut indiquer la source des données


3- La légende : Il faut indiquer la légende du tableau.

B- Définition de quelques indicateurs


Les fréquences simples : elles peuvent être déterminées quel que soit la nature des
données

 Fréquence absolue ou effectif partiel notée ni


C’est l’effectif des données (ou le nombre d’individus) ayant pour valeur de la variable
la valeur xi. C’est une valeur observée.

 Fréquences relatives

 Proportion notée fi: elle indique le poids relatif, en terme numérique, de la


modalité xi. Elle indique aussi la probabilité d’observer la valeur xi du
caractère X.
f i = ni / n

 Pourcentage noté fi % est la proportion ramenée à 100 individus:

fi% = (ni / n)*100


Les fréquences cumulées : elles sont déterminées pour des données non nominales.
Les fréquences cumulées comprennent aussi bien les effectifs cumulés que les
fréquences relatives cumulées. On déterminera seulement les pourcentages cumulés
qui se déclinent en pourcentage cumulé croissant et en pourcentage cumulé
décroissant.

 Détermination des pourcentages cumulés :


On dispose d’abord les données par ordre croissant.

 Pourcentage cumulé croissant noté Fcc %:


Le pourcentage cumulé croissant d’une modalité xi est déterminée en ajoutant à son
pourcentage simple fi% l’ensemble des pourcentages simples précédents.

 Pourcentage cumulé décroissant noté Fcd %:


Le pourcentage cumulé décroissant d’une modalité xi est déterminée en ajoutant à
son pourcentage simple l’ensemble des pourcentages simples suivants.

15
Quelques autres définitions

 Les taux

Les taux sont une variété particulière de proportion. Il s’agit de proportion


exprimée par rapport à un nombre constant (1, 100, 1000,10000 etc.) et
généralement construite pour permettre des comparaisons dans le temps ou
dans l’espace. Le dénominateur 1, 100, 1000,10000 etc. est choisi et convenu
par des spécialistes pour permettre au phénomène étudié d’être observable.
Exercice : Donnez les définitions des termes suivants
1. Le taux brut de scolarisation au primaire de 2015 en Côte d’Ivoire.
2. Le taux net de scolarisation au primaire de 2015 en Côte d’Ivoire.

 Les ratios
Le ratio exprime un poids relatif des effectifs d’une catégorie par rapport aux effectifs
d’une autre catégorie.
Exercice : Que signifie l’expression suivante : le ratio des filles au primaire en Côte
d’Ivoire est de 45% ?
Exemple 1 :

Tableau de répartition de l’appréciation générale de la qualité de service par un


échantillon aléatoire de 60 téléspectateurs d’une chaine de télévision privée de la
place lors d’une enquête.

Niveau Fréquenc Proportio Pourcentag Pourcentag Pourcentag


d’appréciatio e Absolu n fi e% e cumulé e cumulé
n ni croissant décroissant

1 2 0.0333 3,333 3,333 99,999

2 4 0,0666 6,666 9,999 96,666

3 12 0.2 20 30 90

4 24 0.4 40 69,999 70

5 18 0.3 30 99,999 30

Total 60 1 99,999

Source : données fictives

Légende : 1-mauvais ; 2- équivalent ; 3- bon ; 4- très bon ; 5- excellent

Exercice 1:

Compléter le tableau suivant et donner un titre. On fera une analyse du document


obtenu.

16
Tableau de répartition du niveau d’étude d’un échantillon aléatoire de 60
téléspectateurs d’une chaine de télévision privée de la place lors d’une enquête.

Niveau Fréquence Proportion fi Pourcentage % Pourcentage Pourcentage


d’étude Absolu ni cumulé cumulé
croissant décroissant

1 16 0.2666 26.66 26.66 100

2 24 0.4 40 66.66 73.33

3 20 0.3333 33.33 100 33.33

Total 60 1 100

Source : données fictives

Légende :

Exercice 2

1- Le tableau ci-dessous donne la distribution statistique des agents d’une


entreprise de voyage d’après le nombre d’enfants à charge pour un échantillon
aléatoire de 80 personnes.
Nombre Effectif partiel ni pourcentage Pourcentage Pourcentage
d’enfants à cumulé cumulé
charge croissant décroissant

0 4

1 15

2 29

3 18

4 10

5 3

6 1

Total 80

17
i- Compléter le tableau
ii- Déterminer les pourcentages suivants :
Ceux qui ont 2 enfants ; au plus 3 enfants ; au
moins 4 enfants

Répartition des données en classes.

Lorsque les différentes valeurs prises par le caractère (quantitatif) étudié sont en
grand nombre, on répartit les données en classes soit de mêmes amplitudes soit
d’amplitudes différentes.

Définition :

Classe [x1 ; x2 [
Amplitude de classe a = x2 – x1
Centre de classe C = (x1 + x2) /2
Densité de fréquence d’une classe di = ni / ai

ELABORATION DES CLASSES

I- Le choix du nombre de classes selon la règle de STURGES

NOMBRE DE NOMBRE DE
DONNEES (N) CLASSES (k)

10 4

]10; 22] 5

]22 ; 44] 6

]44 ;90] 7

]90 ;180] 8

]180 ;360] 9

]360 ;720] 10

]720 ;1000] 11

ii- Construction du tableau : quelques règles à observer :


 Choisir les extrémités du classement (borne inférieure de la première classe et
borne supérieure de la dernière classe) de manière à ne pas créer des distorsions

18
importantes avec l’ensemble des données. Généralement la borne inférieure de
la première classe coïncide avec la plus petite valeur du caractère observée.
 Choisir des bornes qui permettent des calculs simples.
 Choisir des bornes qui ont une signification particulière dans l’analyse de ces
données.
 On peut construire des classes de même amplitude ou d’amplitude différente
selon l’analyse que veut réaliser.

- Exemple de données réparties en classe.

Une entreprise possède 200 points de vente de ses produits répartis sur le
territoire ivoirien. Chaque point de vente a fait connaître son chiffre d’affaires,
exprimé en million de francs, pour le mois de Septembre 2018. Un traitement
préliminaire des données fournit les résultats suivants.

Chiffre ci ni*ci
d’affaires en Fcc%
ni fi% Fcd% ai di
million de
francs
[02-30[ 20 10% 10% 100% 28 0,71 16 320
[30-50[ 35 17,50% 27,5% 90% 20 1,75 40 1400
[50-70[ 40 20,00% 47,5% 72,5% 20 2 60 2400
[70-90[ 46 23,00% 70,5% 52,5% 20 2,3 80 3680
[90-100[ 30 15% 85,5% 29,5% 10 3 95 2850
[100-110[ 15 7,50% 93% 14,5% 10 1,5 105 1575
[110-120[ 7 3,50% 96,5% 7% 10 0,7 115 805
[120-130[ 2 1,00% 97,5% 3,5% 10 0,2 125 250
[130-150[ 4 2,00% 99,5% 2,50% 20 0,2 140 560
[150-200[ 1 0,50% 100,00% 0,50% 50 0,02 175 175
Total :
Total 200
14015

- Donner un titre au tableau


- Déterminer le nombre de points de vente dont le chiffre d’affaire est :
- Inférieur à 50 millions
- Au moins égal à 100 millions
- Compris entre 110 et 150 millions.

19
ANALYSE STATISTIQUE DE DONNEES
Fiche de td n°1

Une enquête effectuée dans un centre de réinsertion de jeunes délinquants auprès d’un
échantillon aléatoire de 80 pensionnaires du centre a révélé leurs notes de conduite.

53 68 84 75 82 68 90 62 88
76 65 73 69 88 73 60 93 61
54 85 72 61 65 75 87 74 62
95 78 63 60 66 82 78 65 54
77 69 74 68 71 96 68 89 61
75 55 60 79 83 65 79 62 67
68 78 85 76 61 71 74 65 80
73 57 88 78 62 53 67 86 67
73 81 62 63 76 65 85 56

a- Identifier l’unité statistique et la population étudiée


b- Identifier la variable statistique observée et donner sa nature
c- Dépouiller les données de cette enquête et construire un tableau de distribution ;
pour se faire, choisir un nombre d’intervalles, leur largeur et leurs limites.
d- Compléter le tableau précédent en y ajoutant les fréquences simples et les
fréquences cumulées.
e- Réaliser le même tableau de distribution en prenant pour classes [50-60[ ; [60-65[ ;
[65-75[ ; [75-80[ ; [80-85[ ; [85-90[ ; [90-95[ ; [95-100[.
f- On veut engager 5% des enquêtés dans une entreprise de la place. Au-dessus de
quelle note observée peut-on faire ce recrutement ?
g- On dira qu’un pensionnaire réagit bien au programme de réinsertion si sa note en
conduite est d’au moins 80. Quel est le pourcentage de cette catégorie de
pensionnaires ?
h- Un pensionnaire sera soumis à un autre programme de réinsertion s’il a obtenu
moins de 65 points en conduite. Combien de pensionnaires seront soumis à ce
nouveau programme après cette enquête ?

20
B- Représentations graphiques des données

La représentation graphique permet de compléter la présentation synthétique


du tableau. C’est la visualisation des variations des fréquences en fonction
des différentes valeurs du caractère étudié. Pour être compréhensible, un
graphique doit comporter un titre indiquant précisément l’objet du graphique,
des axes gradués (si possibles) portant chacun la nature de la variable
représentée, une échelle correctement choisie ; une légende reprenant la
totalité des figurés ou des symboles employés ; la mention de la source.

 Avantage d’un graphique


- Il rend plus perceptible les écarts et les anomalies parmi les données
permettant ainsi de saisir et de comprendre rapidement le phénomène étudié
- Il permet de comparer des distributions entre elles ;
 Inconvénients d’un graphique
- Il n’offre pas une lecture aussi précise qu’un tableau ; il n’offre que l’ordre de
grandeur des effectifs des diverses modalités.

Le but de cette partie du cours est de répondre aux préoccupations suivantes :


- Quel est le graphique approprié à la représentation d’une fréquence pour un
tableau de distribution donné ?
- Comment réalise-t-on le graphique identifié?
- Comment peut-on utiliser le graphique en vue d’une analyse ?
a- Choix du graphique
b- Quelques exemples de graphiques.
c- Utilisation des graphiques comme document d’analyse d’un phénomène
étudié

Choix du graphique : il dépend de la nature de la variable et du type de fréquence à


représenter.
Caractères qualitatifs
 Tuyaux d’orgue diagramme en bande
 Diagrammes circulaires

Caractères quantitatifs
 Variable discrète
• Diagramme en bâton (fréquences simples)
• Courbe escalier (fréquences cumulées)
 Variable continue
• Histogramme (fréquences simples)

21
• Polygone des fréquences (fréquences simples)
• Courbe cumulative (fréquences cumulées)

Digramme circulaire

niveau d'étude de l'enquêté


Effectif Pourcenta Pourcentag Pourcentag
s ge e valide e cumulé
1 16 26,7 26,7 26,7
Valid 2 24 40,0 40,0 66,7
e 3 20 33,3 33,3 100,0
Total 60 100,0 100,0

22
appréciation de la qualité du service
Effectif Pourcenta Pourcentag Pourcentag
s ge e valide e cumulé
1 2 3,3 3,3 3,3
2 4 6,7 6,7 10,0
Valid 3 12 20,0 20,0 30,0
e 4 24 40,0 40,0 70,0
5 18 30,0 30,0 100,0
Total 60 100,0 100,0

23
DEUXIEME PARTIE : MESURES DESCRIPTIVES

Nous examinons dans cette partie les principales mesures utilisées pour décrire un
ensemble de données. Il s’agit de caractériser la distribution des valeurs observées
d’une variable statistique par certains nombres représentatifs qui pourraient résumer
de façon suffisamment complète l’ensemble de ces valeurs. On exposera les
mesures de tendance centrale (le mode, la médiane et la moyenne), les mesures de
position (les quantiles) ainsi que les mesures de dispersion (l’écart type) les mesures
de forme.

CHAPITRE III : LES MESURES DE TENDANCE CENTRALE


ET LES MESURES DE POSITION.

A- Les mesures de tendance centrale


Elles répondent à la préoccupation suivante : autour de quelles valeurs les
données sont-elles accumulées. Elles donnent donc une idée du centre de la
distribution.
1- Le mode (symbole Mo).
 Il peut être déterminé quelle que soit la nature des données.
 C’est la valeur de la variable (observée ou estimée) qui se répète le plus
souvent. C’est donc la valeur la plus fréquente, la valeur la plus probable.

Détermination :

i- Le cas des données non groupées :

Dans une distribution (xi,ni) le mode correspond à la valeur de xi qui a la plus grande
valeur de ni.

Donner des exemples à partir des distributions vues dans les chapitres précédents.

ii- Le cas des données groupées.

Dans ce cas on détermine d’abord la classe modale ou la classe dominante notée [x1,
x2[. C’est la classe qui a l’effectif le plus élevé (données reparties en classes de même
amplitude) ou la densité d’effectif la plus élevée.

 Le mode estimé comme le centre de la classe modale :

Mo = (6350 + 6050) / 2 = 6200 F/h

24
 Le mode estimé par interpolation linéaire :
𝛥1
Mo = x1+ 𝛥1+𝛥2 ∗ 𝑎𝑖

𝛥 1= différence entre la fréquence (ou la densité de fréquence) de la classe dominante


et la fréquence (ou la densité de fréquence) de la classe qui la précède.

𝛥 2= différence entre la fréquence (ou la densité de fréquence) de la classe dominante


et la fréquence (ou la densité de fréquence) de la classe qui la suit.

Exemple : répartition des salaires horaires dans une entreprise de la place

Centre de densité
Effectifs Pourcentage
Salaire horaire classe Ci d’effectif Pourcentage fi%
cumulé croissant
Ni di *100

[4750-5250[ 10 5000 2 4% 4%

[5250-5750[ 30 5500 6 12% 16%

[5750-6050[ 60 5900 20 24% 40%

[6050-6350[ 72 6200 24 28,80% 68,80%

[6350-6750[ 40 6550 10 16% 84,80%

[6750-7350[ 24 7050 4 9,60% 94,40%

[7350-8050[ 14 7700 2 5,60% 100%

Total 250 43900 100,00%

𝛥1
Pour les données groupé 𝛥1 = 24 – 20 = 4 et 𝛥2 = 24 – 10 = 14 /Mo = x1+𝛥1+𝛥2 ∗ 𝑎𝑖

4
D’où Mo = 6050+ 4+14 ∗ 300 = 6117 frs/heure

 Détermination graphique du mode :


- A partir d’un diagramme en bande :
- A partir d’un diagramme circulaire :
- A partir d’un diagramme en bâton
- A partir d’un histogramme
- A partir d’ polygone de fréquence

25
2- La médiane (symbole Mé).

Elle ne peut être déterminée pour les données nominales.

Les données étant rangées par ordre croissant ou décroissant, la médiane est la valeur
observée ou estimée de la variable qui partage l’ensemble des données en deux
parties de même effectif :

- Au plus 50% des données sont inférieures ou égales à la médiane


- Au plus 50% des données sont supérieures ou égales à la médiane

Détermination de la médiane

i- Cas des données non groupées en classe

On dispose d’abord les données en ordre croissant et on attribue à chaque donnée


un rang.

On calcule ensuite le rang de la médiane. Pour cela on calcule n/2, n étant le


nombre total des données.

- Si n/2 n’est pas un entier, on l’arrondit à l’entier supérieur qui correspond au


rang de la médiane.
- Si n/2 est un entier, la médiane est la moyenne des données de rang n/2 et
n/2 +1.

Exemple 1: soit la série des notes

Note 8 10 12 13 14 16 17 17

Rang 1 2 3 4 5 6 7 8

n/2 = 8/2 = 4. C’est un entier, donc la médiane est la moyenne des notes de rang 4
soit 13 et de rang 5 soit 14. La médiane vaut donc (13 + 14)/2 = 13,5.

Exemple 2 : soit la série des notes

Note 8 10 12 13 14 16 17 17 18

Rang 1 2 3 4 5 6 7 8 9

 n/2 = 9/2=4,5 on arrondit à l’entier supérieur soit 5. Donc la médiane est égale
à 14.

26
ii- Cas de données groupées par classe

On détermine d’abord la classe médiane ; elle correspond à la classe qui a pour


pourcentage cumulé croissant 50% ou immédiatement supérieur à 50%.

Ensuite on estime la médiane par interpolation linéaire :

𝟓𝟎−𝐅𝐜𝐮𝐦 %
Mé = x1+( ) ∗ 𝒂𝒊
𝒇% 𝒎é

50−40
Mé= 6050+ ( ) ∗ 300
28,8

Mé= 6154,16 frs/heure

Fcc % = pourcentage cumulé croissant de la classe qui précède la classe médiane

fMé% = pourcentage simple de la classe médiane.

Exemple : déterminer le salaire horaire médian à partir du tableau de répartition.

3- La moyenne arithmétique (données quantitatives)

i- pour les données quantitatives non groupés

Soit une série numérique x1,x2…xn. La moyenne de cette série est donnée par :
𝑥1+𝑥2+⋯.+𝑥𝑛
X= 𝑛

Remarque : si les données sont dans un tableau de répartition,

x= [∑𝑘
𝑖=1 𝑛𝑖∗𝑥𝑖 ]
𝑛
Tapez une équation ici.
)=
avec k le nombre de différentes valeurs du caractère

ii- La moyenne arithmétique (pour les données quantitatives groupées par


classe)

(𝑥) = [∑𝑘𝑖=1 𝑛𝑖 ∗ 𝑐𝑖]/ 𝑛

NB : (ci) étant le centre de la classe

27
iii- Position relative du mode, de la médiane et de la moyenne et recherche
de symétrie dans une distribution

- Si le Mode=médiane=moyenne arithmétique alors on a une distribution


symétrique.

- Par contre Mo < Mé < X alors on a une distribution asymétrique avec étalement
à droite
- Si le Mo > Mé > X alors on a une distribution asymétrique avec étalement à
gauche

A l’analyse, nous remarquons que :

- le salaire horaire le plus fréquent est de 6117 frs/heure (Mode=Mo)


- au plus 50% des employés gagnent moins de 6154frs/heure (Médiane=Mé)
- Le salaire moyen est de 6218 frs/heure (Moyenne arithmétique (X)).
- Mode ˂ médiane ˂ moyenne la distribution est donc asymétrique étalée à
droite.
B- Les quartiles

Ne peuvent pas être calculés pour les données nominales.

Ils peuvent être utilisés pour les données ordinales et quantitatives. Les données
étant rangées par ordre croissant, les quartiles notés (Q1, Q2, Q3) divisent
l’ensemble des données en quatre parties de même effectif.

- Le 1er quartile Q1 est tel que 25% des données lui sont inférieures ou
égales et 75% lui sont supérieures ou égales.
- Le 2ème quartile Q2 est la médiane
- Le 3ème quartile Q3 est tel que 75% des données lui sont inférieures ou
égales et 25% lui sontMédiane
supérieures ou égales

X min X max
Q1 Q2 Q3
28
Pour les données non groupées, il faut les ranger par ordre croissant et calculer le rang de
Q1

 Rang Q1= n/4


Si le rang (n/4) est non entier, on arrondit à l’entier supérieur qui correspond au rang de Q1.
Si le rang (n/4) est un entier, Q1 est la moyenne les données de rang n/4 et (n/4)+1.

 Rang Q2 (voir médiane).


 Pour le rang Q3 = 3n / 4
Si le rang (3n/4) est non entier, on arrondit à l’entier supérieur qui correspond au rang de
Q3.
Si le rang (3n/4) est un entier, Q3 est la moyenne les données de rang 3n/4 et (3n/4)+1.

Note 7 8 10 12 14 15 16 16 17
Rang 1er 2e 3e 4e 5e 6e 7e 8e 9e

Rang de Q1= n/4 = 9/4=2,25 arrondir à 3 est la position de Q1 don la note équivaut à 10
Rang de Q2= n/2= 9/2=4,5 arrondir à 5e position dont la note équivaut à 14
Rang de Q3= 3n/4 = 3*9/4=6,7 arrondir à 7e position dont la note équivaut à 16

29
Note 7 8 10 12 14 15 16 16 17 18
Rang 1er 2e 3e 4e 5e 6e 7e 8e 9e 10

Calculons Q1 :
Rang de Q1 : 10/4 = 2,5 soit 3 donc Q1 = 10
Calculons Q2
Rang de Q2 : 10/2 =5 donc Q2 = (14 +15)/2 = 14.5
Calculons Q3
Rang de Q3 : 3*10/4 =7.5 donc Q3 =16

Données regroupées en classes

Calcul du Q1
On détermine d’abord la classe de Q1 ; elle correspond à la classe qui a pour
pourcentage cumulé croissant 25% ou immédiatement supérieur à 25%.

Ensuite on estime le premier quartile Q1 par interpolation linéaire :

𝟐𝟓−𝐅𝐜𝐮𝐦 %
Q1 = x1+( ) ∗ 𝒂𝒊
𝒇% 𝑸𝟏

Calcul du Q3
On détermine d’abord la classe de Q3 ; elle correspond à la classe qui a pour
pourcentage cumulé croissant 75% ou immédiatement supérieur à 75%.

Ensuite on estime le troisième quartile Q3 par interpolation linéaire :

𝟕𝟓−𝐅𝐜𝐮𝐦 %
Q3 = x1+( ) ∗ 𝒂𝒊
𝒇% 𝑸𝟑

Exemple : calculez Q1 et Q3 du tableau sur les chiffres d’affaire page 19.

30
Recherche de données aberrantes :

Définition : dans une série statistique, une donnée est dite aberrante si elle
s’écarte anormalement de l’ensemble des données observées.
Détermination par la règle de Tukey : cas des chiffres d’affaire.
 Iq = Q3 – Q1 exemple Iq = 45.86
 W = 1.5*Iq exple W = 68.79
 W1 = Q1 – W exple W1 = - 21.65
 W2 = Q3 + W exple W2 = 161.79
 Règle : toutes les données observées qui sont
Hors de l’intervalle [W1 ; W2] sont considérées comme aberrantes.
exple [-21.65 ; 161.79] soit [ 2 ; 161.79].

31
CHAPITRE IV : LES MESURES DE DISPERSION

Mesures de dispersion générales :


- Etendue d’une distribution (R)

R = Xmax – Xmin

Exple R = 200 – 2 = 198

L’étendue étant une grandeur absolue (non relative) elle ne permet pas
d’apprécier des dispersions autour des valeurs centrales.

- Etendue interquartile Iq :

Iq = Q3 – Q1

Exple Iq = 93 – 47.14 = 45.86


Mesures de dispersion autour de la moyenne :

1- La variance : la variance d’une distribution est la moyenne des carrés


des écarts, par rapport à la moyenne, de toutes les valeurs de celle-
ci.

 x  x 
1
s  2 2

n i

soit

1
s  2
x  x
2
i
2

n i

Exemple du tableau des chiffres d’affaire: Σni xi2 =1168495 et m 70.075. Calculez la
variance. L’unité de la variance est le carré de l’unité du caractère étudié.

32
2- Ecart type :

1
 x
k

=  n x 2 2
s i i

N i 1

Exemple du tableau des chiffres d’affaire : S = 30.528 millions de fr.


Utilisation de l’écart-type : théorème de Chebyshev.
Ce théorème permet de déterminer le pourcentage des données qui se situent à un certain
nombre d’écart-type de part et d’autre de la moyenne quel que soit la distribution
numérique.
Au moins (1- 1/z2) des données doivent se situer au plus, à z écart-type de la moyenne (c’est-
à-dire dans l’intervalle [m – z s ; m + z s]) avec z supérieur à 1.

Ainsi :

 Au moins 75% des observations se situent, au plus, dans l’intervalle [m – 2s ; m+


2s].

3- Coefficient de variation :
C’est le rapport entre l’écart type et la moyenne.

x
C.V  100
x
Exemple : Cv = (30.52/ 70.075)*100 = 43.55% soit 44%. Cela signifie que l’écart-type
représente (et donc les dispersions autour de la moyenne) 44% de la moyenne de la
distribution.
 Règle de l’homogénéité d’une distribution.

Plus le coefficient de variation est petit, plus la série est homogène. D’une manière générale,
la population étudiée est considérée homogène lorsque le CV < 15%. Dans ce cas la moyenne
est un résumé pertinent des observations.
Remarque : le coefficient de variation permet de comparer le taux de dispersion entre plusieurs
distributions, car il est sans unité.

33
4- Note standard ou la côte z ou note centrée réduite

Exercice à rendre : paramètres caractérisant trois entreprises par rapport aux revenus (en $)
des employés. Faites une analyse comparée de ces trois entreprises.

Paramètres Localité A Localité B Localité C


Moyenne 5485,98 5768.74 5014.71
Ecart-type 1943,05 1919.59 1905.29
Coefficient de variation 0.35 0.33 0.38
Minimum 635.58 635.58 1253.49
Maximum 10256.9 9730.15 10256.9
Etendue 9621.34 9094.57 9003.43
Premier quartile 4355.25 4648.68 3697.86
Médiane 5343.19 5766.76 4895.47
Troisième quartile 6668.44 7096.66 6093.93
interquartile 2313.19 2447.98 2396.07

Exerces de TD
Consigne : écrire les réponses dans les espaces indiqués sur la feuille du sujet.
Exercice 1
Dans une enquête d’opinion auprès des jeunes sur l’utilisation des portables pendant
le cours, Djèdjè a construit un questionnaire dans lequel les questions se présentent sous la
forme d’affirmations suivies d’une échelle sur laquelle les sujets doivent entourer un
nombre pour indiquer leur opinion ; par exemple : « même si le professeur fait le cours,
l’étudiant a le droit de répondre aux appels ».

-2 -1 0 1 2
Pas du tout En désaccord sans opinion D’accord Tout à fait
d’accord d’accord

a) indiquer la variable étudiée et sa nature.


………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………
b) voici le tableau de répartition des données :

34
Opinion Effectif pourcentage Pourcentage Pourcentage
cumulé croissant cumulé
décroissant
-2 11 14.28 14.28 99.98
-1 6 7.79 22.07 85.7
0 18 23.37 45.44 77.91
1 27 35.06 80.5 54.54
2 15 19.48 99.98 19.48

Total 77 99.98

Compléter le tableau.
Avec quels graphiques peut-on représenter la variation des pourcentages selon le type
d’opinion ?
………………………………………………………………………………………………………………………………………………
……………
………………………………………………………………………………………………………………………………………………
………….
………………………………………………………………………………………………………………………………………………
………..

c) indiquer le pourcentage de :
ceux qui sont en désaccord……………………………………………………………………………………..
ceux qui sont au moins
d’accord…………………………………………………………………………………………..
ceux qui sont au plus « sans opinion » ………………………………………………………………

Exercice 2
Vous êtes le responsable d’un cyber, vous voulez réaliser une étude sur la durée de visite en
minutes sur un site internet qui vient d’être installé. Voici les données obtenues

24 24 24 25 25 26 26 26
28 28 28 28 28 29 30 31
33 34 34 35 35 36 37 39
35
43 43 46 48 52 53 57 60

a / identifier la variable statistique sur laquelle porte l’étude ; quelle est sa nature ?
………………………………………………………………………………………………………………………………………….
……………………………………………………………………………………………………………………………………………
b/ quelle est l’unité statistique ?............................................................................................
c/ les données du tableau ci-dessus sont rangées par ordre croissant suivant les lignes.
Déterminer la durée modale et les trois quartiles Q1, Q2, Q3.
………………………………………………………………………………………………………………………………………………
……
………………………………………………………………………………………………………………………………………………..
....
………………………………………………………………………………………………………………………………………………
……….....
………………………………………………………………………………………………………………………………………………
………
………………………………………………………………………………………………………………………………………………
……………
………………………………………………………………………………………………………………………………………………
…………
………………………………………………………………………………………………………………………………………………
……..
d/ Déterminer la durée de visite moyenne X. on donne ∑nixi= 1115 minutes.
………………………………………………………………………………………………………………………………………………
………......
e/ ce site sera jugé intéressant si les conditions suivantes sont vérifiés :

- Les visiteurs passent en moyenne plus d’une demi-heure sur le site ;


- La distribution est asymétrique avec étalement à gauche

Peut-on considérer ce site intéressant ?


………………………………………………………………………………………………………………………………………………
………......
………………………………………………………………………………………………………………………………………………
……………

36
………………………………………………………………………………………………………………………………………………
………….

Exercice 3 :
Complétez le tableau ci-dessous indiquant la répartition en pourcentage des revenus
annuels en 2000 des familles dans un pays donné.

Revenu amplitude Pourcentage Pourcentage Pourcentage Densité de %


(en million (%) cumulé cumulé
de Fr.) croissant décroissant
[0 -5 [ 5 1,7 1,7 100 0,34
[5- 10[ 5 6,3 8 98,3 1,26
[10 -12[ 2 3,7 11,7 92 1,85
[12-15[ 3 7,2 18,9 88,3 2,4
[15-17[ 2 4,7 23,6 81,1 2,35
[17-20[ 3 6,2 29,8 76,4 2,06
[20-22[ 2 4 33,8 70,2 2
[22-25[ 3 6,2 40 66,2 2,06
[25-27[ 2 4,7 44,7 60 2,35
[27-30[ 3 6,7 51,4 55,3 2,23
[30-32[ 2 4,5 55,9 48,6 2,25
[32-35[ 3 6,9 62,8 44,1 2,3
[35-37[ 2 4,5 67,3 37,2 2,25
[37-40[ 3 6,2 73,5 32,7 2,06
[40-45[ 5 9,2 82,7 26,5 1,84
[45-50[ 5 7,2 89,9 17,3 1,44
[50-60[ 10 10,1 100 10,1 1,01
Source : enquête fictive
1) indiquez la population étudiée
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
………………
2) Par quel graphique peut-on représenter la variation des
pourcentages………………………………
……………………………………………………………………………………………………………………………………
…….
3) Donnez les pourcentages des familles :
Qui gagnent moins de 10 millions
l’an……………………………………………………………………………………
Qui gagnent au moins 25 millions
l’an…………………………………………………………………………………..
Qui gagnent entre 30 millions et moins de 45 millions
l’an………………………………………………….

37
……………………………………………………………………………………………………………………………………
……..
4) Estimez par interpolation linéaire :
Le revenu modal
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
………
……………………………………………………………………………………………………………………………………
….
Le revenu
médian……………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
….
……………………………………………………………………………………………………………………………………
…………..
Le revenu correspondant au premier quartile
Q1…………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………
Le revenu correspondant au troisième quartile Q3………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………….
……………………………………………………………………………………………………………………………………
…………
Faites un résumé en cinq chiffres de la distribution.
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………
5) La distribution admet-elle des valeurs aberrantes ? si oui, lesquelles ?
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………..

6) Le revenu moyen est estimé à 29820000fr .


Etudiez la symétrie de la distribution :

38
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
…………………………….
7) Quelle conclusion peut-on tirer de cette étude ?

………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………
……………………………………………………………………………….

39
40

Vous aimerez peut-être aussi